داكن proxyscrape شعار

كيف أصبحت "مليونيرا" رئيسيا

فبراير-01-20245 دقائق للقراءة

~ حكاية تجريف الويب بواسطة آريا - أ ProxyScrape مستخدم

فقط لأكون واضحا ، أنا مطالب بتقديم إخلاء مسؤولية بأنني لست ممثلا رسميا ل ProxyScrape. ومع ذلك ، فأنا معجب كبير وعميل لخدماتهم. إذا كنت لا تستخدم خدماتهم بالفعل ، فإنني أوصيك بشدة بالقيام بذلك! الآراء والأفكار التالية هي آرائي وأفكاري بالكامل.


"أوه $!*^ ، لا توجد طريقة"

هذا هو الشعور الدقيق الذي وجدت أتمتم به في الساعة 3 صباحا ، أتصارع مع إدراك أن الشركة التي كانت عصرية مثل توصيل الحليب ، وهو شيء سيرسله معظم الناس إلى عصر موسيقى الديسكو وملابس النيون البرية ، لا تزال تتجول مثل قصة شعر سيئة في 80s - ولسوء الحظ ، فهي في كل مكان.

كانت هذه الشركة هي الصفقة الحقيقية في أوجها. أعني ، لا يمكنك الهروب منه خلال ذروته. الآن ، يتم تمتم اسمها فقط مع تلميح من الحنين إلى الماضي في دور المسنين.

"الصفحات الصفراء".

قد تتساءل ، "لماذا هذا مهم؟ لماذا يجب على أي شخص أن يعطي لعنة؟ لماذا هذا ليس TikTok 30s مع المتأنق يلعب GTA 5 في النصف الآخر منه؟ حسنا ، أحد أهم استخدامات تجريف الويب هو اكتشاف العملاء المحتملين وتوليدهم. في أرض العجائب الرأسمالية لدينا حيث يبيع الجميع بعض الأشياء المجنونة ، من المنطقي أن تجوب الإنترنت بحثا عن المصاصون الذين سيقومون "ب HODL" و "FOMO" في المشاركة الزمنية المشفرة الخاصة بك على شكل "نصف معين". ومهلا ، فقط لأكون واضحا ، "إنه ليس مخططا هرميا ... إنها على شكل تلك الأشياء المدببة الشهيرة في مصر ".

So, here’s the kicker. One of the absolute gems for B2B lead generation, in my humble opinion, is none other than YellowPages (or Yell for you “chewsday” people). Why? Well, let me break it down:

  1. "جدار العار": تلك الآثار التي لم تلحق بعصر الإنترنت لا تزال معلقة هناك. من المحتمل أن يكون عمل جدك تقشعر له الأبدان هناك ، تماما مثل SMMA الذي بدأته بسبب TikToks وأقسمت عليه في غضون ثلاثة أشهر ، والذي تم تخليده الآن في أدلة أعمال Google.

  1. "أنا لست مثل الفتيات الأخريات": في حين أن الكاشطات ذات الوجوه الجديدة تعتقد أن خرائط Google هي الكأس المقدسة لعملاء الأعمال الصغيرة ، فإن كل مكشطة ذكية تعرف أن هذه حمولة من الهراء - إنها مشبعة ، كل طفل يبلغ من العمر 14 عاما مستوحى من رجل أصلع معين قام بمضايقة تلك الشركات.

  1. "مثل أخذ الحلوى من طفل": YellowPages' والمواقع المشتقة منها بدون ذرة من الحماية. يمكنني كشط كل عمل في دليلهم في غضون ثوان. نحن نتحدث عن عشرات الملايين من العملاء المحتملين هنا.

بالتأكيد ، قد لا تكون الكلمة الطنانة في دوائر التسويق ، ولكن هنا تكمن الفرصة. بينما يطارد الآخرون أحدث الاتجاهات ، تدرك القلة الذكية الإمكانات في الزوايا المنسية للإنترنت. قد تكون YellowPages من بقايا الماضي ، ولكن في عالم توليد العملاء المحتملين ، فهي بقايا ذات إمكانات غير مستغلة وخارطة طريق للنجاح.

الآن ، قد تسأل ، "كيف يمكنني الاستفادة من مثل هذه الفرصة؟" - دعنا نسير في كل خطوة معا ، ونأمل ، حتى بعضكم من إنسان نياندرتال أن يكونوا قادرين على التخلص من الصفحات الصفراء بنهاية هذا.

سنتعامل مع هذا كما نفعل مع أي موقع ويب آخر. الخطوة الأولى هي معرفة كيفية عمل f * ck الموقع. يتطلب هذا عادة منك ، نعم ، أنت ، معرفة كيفية التنقل إلى مكان وجود هذه البيانات المثيرة للعصير. لا $!*^... كيف تتوقع استخراج البيانات إذا لم تتمكن من العثور عليها مخيفة?!?

الموضح أعلاه: الصفحة المقصودة ل YellowPages Canada ، الضحية المؤسفة لهذا المنشور.

كما ترى أعلاه على صفحتهم المقصودة ، هناك نوعان من المدخلات النصية - أحدهما لمصطلح البحث والآخر للموقع. دعونا نملأ هذه ونقوم بالبحث ؛ سأبحث عن "أطباء أسنان" في "تورنتو ، أونتاريو".

الموضح أعلاه: صفحة نتائج قائمة YellowPages Canada.

بمجرد معرفة أبجدياتك وتعبئتها وإدارة تحديد موقع زر البحث والنقر فوقه (أنا معجب) ، يجب إعادة توجيهك إلى صفحة مثل الصفحة أعلاه التي تحتوي على مسار مثل ما يلي:

/بحث/سي/1/أطباء الأسنان/تورونتو+ON

يمكننا استنتاج بنية المسار التالية (سيكون هذا مفيدا لاحقا):


/search/si/[رقم الصفحة]/[مصطلح البحث]/[المنطقة المحلية]+[رمز المنطقة]

شيء آخر يجب ملاحظته ، لقد حددنا بالفعل البيانات التي نريدها ، وقوائم الأعمال - دعنا نتعرف على المكان الذي يتم فيه تحميل قوائم الأعمال هذه ، يجب إرسالها داخل المستند أو جلبها من نقطة نهاية واجهة برمجة التطبيقات (أو إذا كنت متزعزعا ، وثق بي لقد رأيت ذلك - websockets).

الموضح أعلاه: طلبات الجلب/XHR الصادرة من الصفحة. (المفسد: البيانات ليست في أي منها.)

الموضح أعلاه: قوائم الأنشطة التجارية داخل المستند. (OMGEEE كانت البيانات في الواقع داخل المستند.)

أثناء غربلة طلبات واجهة برمجة التطبيقات ، بحثا عن البيانات ، ثبت أنها غير مجدية. ثم حولنا انتباهنا إلى HTML. الآن ، إليك القليل من البصيرة بالنسبة لك - بعد "التنقل في المشهد الرقمي لأكثر من عقد من الزمان" ، عرفت غريزيا أن البيانات كانت داخل المستند ، وذلك بفضل استجابة الصفحات السريعة.

لنكن واقعيين ، رغم ذلك. بالنظر إلى وضع YellowPages كشركة دليل هاتف تسعى يائسة إلى الملاءمة ، والأهم من ذلك ، الإيرادات ، فمن غير المحتمل أنها تتباهى بأحدث التقنيات المتطورة. إن فرص توظيفهم للمطورين الذين يتباهون بالفانيلات ولديهم خمسون تطبيقا للمهام المستندة إلى React في سيرتهم الذاتية ضئيلة إلى لا شيء. لذا ، هل صدمنا حقا من أن صفحة الويب ثابتة؟

ومع ذلك ، يتم تضمين القوائم داخل الصفحة داخل div ، قابلة للاستخراج باستخدام المحدد "div.resultList". يمكن استخراج كل قائمة فردية ، متداخلة بشكل ملائم داخل العنصر المذكور أعلاه ، باستخدام المحدد div [نوع العنصر = "http://schema.org/LocalBusiness] 

سأتركك لمعرفة كيفية استخراج البيانات بشكل فردي بما يتجاوز هذا المستوى من الدقة ؛ خلاف ذلك ، سنكون هنا إلى الأبد. استخدم سمة "itemprop" - يجب أن تسهل العملية بشكل كبير بالنسبة لك.

الآن ، لأتمتة الاستخراج: يجب عليك ترقيم الصفحات من خلال النتائج باستخدام عنوان URL (تذكر بنية المسار التي ناقشناها سابقا) ، واستخراج العناصر والبيانات من كل صفحة حتى تصل إلى صفحة فارغة. لقد اخترت شخصيا استخدام Rust لهذا المشروع لأنه سريع ويوفر توازيا سهلا (والذي سيكون مهما في ثانية) ، والاستفادة من الصناديق "reqwest" و "select" للتعامل مع الرفع الثقيل. وإليك بعض النصائح الاحترافية: تذكر تدوير وكيل المستخدم الخاص بك ، وتعيين المحيل بشكل صحيح ، واستخدام وكيل ، ويرجى عدم DDOS لهم.

الموضح أعلاه: صفحة النتائج الفارغة ل YellowPages.

Your script should be good to go now. But how can we elevate this even further? Let’s put our singular combined brain cell to work and ponder… “Do we need to sequentially request each page?” Absolutely not. YellowPages makes it remarkably easy for us to parallelize this process by providing the number of pages available for the query – hint, hint, wink, wink.

الموضح أعلاه: عدد صفحات الصفحات الصفراء في أسفل صفحة النتائج.

هناك تحذير واحد لاستراتيجية التوازي هذه ، على الرغم من ذلك: على الرغم من أن YellowPages قد تشير إلى وجود أكثر من 60 صفحة من النتائج ، فإن محاولة الوصول إلى أي صفحة تتجاوز 60 على النتائج لن يتم عرضها. لذلك ، قم بتعيين سقف ثابت للتوازي عند 60. بافتراض عرض النطاق الترددي الكافي وقوة الحوسبة - يجب كشط كل صفحة نتائج في نفس الوقت الذي ستستغرقه لكشط صفحة واحدة داخل النموذج المتسلسل.

الموضح أعلاه: مثال على بيانات قائمة الصفحات الصفراء المستخرجة.

الآن ، قد تتساءل ، هل كان هذا clickbait؟ ما علاقة بت "المليونير" بكل هذا؟ حسنا ، إذا كنت قد تابعت وتمتلك الآن نصا وظيفيا ، فقد أتمكن أو لا أتمكن من أن أشهد شخصيا أنه لا يوجد شيء يمنعك من التكرار نظريا عبر كل مدينة في كندا وسحب كل قائمة أعمال من استعلام داخل المدينة المذكورة من YellowPages. قد تحمل هذه البيانات حرفيا قيمة بالدولار بالملايين إذا تمت زيادتها بشكل صحيح ، ولكنها أيضا حرفيا ملايين الشركات داخل دليلها التي أصبحت الآن في متناول يدك.

قد تستحضر YellowPages ذكريات حقبة ماضية ، ولا تزال إمكاناتها لتوليد الرصاص B2B كنزا مخفيا في المشهد الرقمي. من خلال التنقل في المراوغات في واجهة الويب الثابتة الخاصة به ، يكشف كشط البيانات من هذه المنصة التي تبدو قديمة عن مجموعة واسعة من العملاء المحتملين. إن طبيعة YellowPages التي تم تجاهلها وغير المستغلة بشكل كاف تجعلها فرصة فريدة.

هدفي الوحيد هو أن منشور المدونة هذا لن يتركك تفكر في أن "الكنز الحقيقي كان الأصدقاء الذين صنعناهم على طول الطريق" - آمل أن يظهر هذا الفرص الفريدة الموجودة خاصة مع مجموعة المهارات التي يعتبرها الكثير منا أمرا مفروغا منه ونأمل أيضا أن تكون بمثابة قراءة ممتعة لأولئك منكم من ذوي الخبرة في هذا المجال ، وأعطى نظرة ثاقبة لأولئك منكم الذين ليسوا كذلك.

كما هو الحال دائما ، ابق آمنا ، واستخدم الحماية ، ولمحبة الله ... لا تفعل شيئا حيث سيكون مكتب التحقيقات الفيدرالي على مؤخرتك - حسنا .. في هذه الحالة سيكون RCMP.

الموضح أعلاه: ما يعادل مكتب التحقيقات الفيدرالي الكندي - شرطة الخيالة الملكية الكندية.