داكن proxyscrape شعار

تجريف الويب لتوليد العملاء المحتملين: الآلاف من العملاء المحتملين في متناول يدك

كشط، مارس-05-20215 دقائق للقراءة

Why Lead Generation Matters Lead generation is an essential part of growing your business. If your sales team doesn’t have leads to approach, they can’t do their job. Cold-calling prospects is rarely effective, especially for brands that sell higher-value products where there’s some friction to the idea of making a purchase. Every Sale Started as

جدول المحتويات

لماذا جيل العملاء المحتملين مهم

يعد توليد العملاء المحتملين جزءا أساسيا من تنمية أعمالك. إذا لم يكن لدى فريق المبيعات الخاص بك عملاء محتملون ، فلن يتمكنوا من القيام بعملهم. نادرا ما تكون احتمالات الاتصال البارد فعالة ، خاصة بالنسبة للعلامات التجارية التي تبيع منتجات ذات قيمة أعلى حيث يوجد بعض الاحتكاك لفكرة إجراء عملية شراء.

بدأت كل عملية بيع كعميل محتمل

المبيعات تأتي من العملاء المحتملين. يسلط تقرير تسويق المحتوى التكنولوجي: المعايير والميزانيات والاتجاهات الصادر عن معهد تسويق المحتوى و MarketingProfs الضوء على أن 77٪ من المسوقين التقنيين يستخدمون عملاء محتملين مؤهلين للتسويق لزيادة المبيعات (ارتفاعا من 64٪ في عام 2019).

يسهل تحويل العملاء المحتملين المؤهلين لأنهم أشخاص (أو شركات) أعربوا بالفعل عن اهتمامهم بمنتجك أو خدمتك. من خلال تحديد جمهورك المستهدف وتركيز جهودك التسويقية على هؤلاء الأشخاص على وجه التحديد ، ستوفر وقت فريق المبيعات وطاقته حتى يتمكنوا من التركيز على العملاء المحتملين ذوي الجودة العالية.

قوة الويب في متناول يدك

أصبح توليد العملاء المحتملين أسهل اليوم مما كان عليه في أي وقت مضى. إن التواصل الفوري وخيارات التسويق عبر وسائل التواصل الاجتماعي عالية الاستهداف والوصول إلى قواعد البيانات التي تحتوي على أي جزء من المعلومات التي يمكن تخيلها تقريبا يعني أن أصحاب الأعمال الصغيرة لديهم القدرة على تحقيق ما يريدون وضعه في أذهانهم.

في الماضي ، إذا كنت ترغب في الوصول إلى جمهور مستهدف محدد ، فسيتعين عليك دفع مبلغ ضخم من المال لشركة تسويق لتتمكن من إرسال منشورات في المنشور إلى الشركات الموجودة في قاعدة البيانات الخاصة بهم.

اليوم ، هذا ليس ضروريا. إذا كنت ترغب في العثور على قائمة بالمطاعم المكسيكية على الساحل الشرقي أو مدارس K-12 في ولايتك ، فيمكنك العثور عليها عبر الإنترنت. يمكن للشركات العاملة في مجال B2B إنشاء قاعدة بيانات للعملاء المحتملين بسرعة وسهولة ، ثم تصفية تلك القائمة وإرسال رسائل تسويقية مخصصة.

بالنسبة لكيانات B2B التي تستهدف منطقة جغرافية صغيرة نسبيا ، قد يكون البحث البسيط على الويب كافيا للعثور على قائمة بالعملاء المحتملين. إذا كنت تتطلع إلى الوصول إلى الشركات على مستوى الولاية أو حتى على الصعيد الوطني ، فإن جمع كل هذه البيانات يدويا سيستغرق وقتا طويلا.

يمكن أن يوفر تجريف الويب لك ولفريق التسويق الخاص بك قدرا كبيرا من الوقت والمال ، وجمع البيانات التي تحتاجها تلقائيا.

ما هو تجريف الويب؟

Web Scraping هي تقنية آلية لاستخراج البيانات من موقع ويب أو مواقع ويب متعددة ، بحيث يمكنك استخدام البيانات في تطبيقات أخرى. على سبيل المثال ، افترض أنك تريد إنشاء قائمة بأسماء وعناوين المطاعم في منطقتك ، بدلا من زيارة كل مطعم محلي مدرج في Yelp أو Tripadvisor يدويا. في هذه الحالة ، يمكنك استخدام مكشطة الويب لتصفح تلك الصفحات واستخراج تلك التفاصيل ، وإنشاء قائمة يمكنك استخدامها لإرسال الرسائل.

يمكن أن يوفر تجريف الويب للشركات الكثير من الوقت والجهد عندما يتعلق الأمر ببناء قائمة تسويق. كما أنه من السهل بشكل مدهش القيام بذلك إذا كان لديك الأدوات المناسبة أو المعرفة البرمجية.

كيف تعمل كاشطات الويب؟

تعمل كاشطات الويب عن طريق تحميل الصفحات التي تريد استخراج البيانات منها، ثم قراءة الصفحة للبحث عن نوع المعلومات التي تحاول العثور عليها. يمكن أن تكون هذه المعلومات:

  • أسماء الشركات
  • أرقام الهواتف
  • عناوين البريد الإلكتروني
  • العناوين البريدية
  • عناوين المواقع

عندما تقوم مكشطة الويب بتنزيل صفحة ، فإنها تقرأ شفرة المصدر للبحث عن الأنماط. اعتمادا على الموقع الذي تسحب البيانات منه ، يمكنه ببساطة البحث عن شيء يطابق نمط 123-456-78901 لرقم الهاتف أو تنسيق [email protected] لعنوان البريد الإلكتروني.

بدلا من ذلك ، قد يعرف مطور الكاشطة أنه في موقع ويب دليل معين ، تكون تفاصيل الاتصال محاطة بمجموعة محددة من العلامات في HTML وتجعل الكاشطة تستخرج المعلومات من بين تلك العلامات.

يمكن تكوين بعض برامج الكاشطة بواسطة المستخدم النهائي ، بحيث يمكن تعليمها فهم أي موقع ويب تقريبا.

تحديات استخدام الكاشطات

تتمثل إحدى مشكلات استخدام برامج الكاشطة في أن اللوائح مثل اللائحة العامة لحماية البيانات في الاتحاد الأوروبي تعني أنه يجب على المستخدمين توخي الحذر الشديد في البيانات التي يجمعونها وكيفية استخدامها. بموجب اللائحة العامة لحماية البيانات (GDPR)، يجب أن تحصل المؤسسة على إذن من شخص للاحتفاظ ببيانات عن فرد أو معالجتها.

تحاول بعض مواقع الويب حماية خصوصية مستخدميها وحماية موارد الخادم الخاصة بهم من خلال محاولة حظر كاشطات الويب. هناك العديد من الخيارات للقيام بذلك ، بما في ذلك التحقق من "وكيل المستخدم" الذي تم إرجاعه بواسطة برنامج العميل والحد من عدد الطلبات للصفحات التي تأتي من عنوان IP محدد.

إذا كنت ترغب في استخدام الكاشطات بشكل فعال ، فستحتاج إلى التأكد من فهمك للقواعد المحيطة بالتسويق في بلدك ، ومعالجة أي بيانات تجمعها بمسؤولية ، ومعرفة كيفية جمع البيانات من المصادر التي اخترتها بطريقة فعالة وغير مدمرة لن تحصل على حظرك من هذا الموقع.

على سبيل المثال ، في ProxyScrape، نحن نقدم بروكسيات سكنية يمكن استخدامها لأغراض جمع البيانات. نوصي إذا كنت تفكر في استخدام هذه الوكلاء ، فتأكد من أن مكشطة عدم إصدار عدد كبير من الطلبات إلى موقع ويب مستهدف في فترة زمنية قصيرة. كشط بمسؤولية حتى لا تسبب ضررا لمواقع الويب التي تعمل معها.

اختيار مصادر البيانات للعملاء المحتملين ذوي الجودة العالية

يتيح تجريف المحتوى لأصحاب الأعمال الوصول إلى كميات هائلة من المعلومات التي يصعب جمعها بخلاف ذلك ، ولكن هذه المعلومات مفيدة فقط مثل المصدر الذي أتت منه.

أحد تحديات جمع البيانات من الكشط هو التأكد من تحديث المعلومات. هناك الآلاف من الدلائل على الويب ، والعديد منها غير منسق بشكل جيد وعفا عليه الزمن.

إذا قمت بجمع البيانات من مصدر قديم ومنخفض الجودة ، في أحسن الأحوال ، فإنك تضيع الوقت في رسائل البريد الإلكتروني التي لن تتم قراءتها. في أسوأ السيناريوهات ، قد تجد نفسك في مواجهة شكاوى لإجراء مكالمات هاتفية متكررة غير مرغوب فيها إلى رقم لم يعد ينتمي إلى الشركة التي اعتقدت أنها تنتمي إليها.

لذا ، كيف يمكنك زيادة فرص أن تكون البيانات التي تجمعها مفيدة؟

اختر مصدر البيانات الخاص بك بعناية

قبل البدء في جمع البيانات باستخدام أداة كشط ، قم بفحص موقع الويب الذي تفكر في العمل معه يدويا. اجمع بعض الخيوط يدويا وتحقق منها.

هل ما زالت الشركات تعمل؟ هل تفاصيل الاتصال لا تزال صحيحة؟ هل يبدو أن مالك الدليل يقوم بفحص المعلومات قبل إضافتها؟

افترض أن نصف العملاء المحتملين الذين تجمعهم يدويا ميتون أو عفا عليهم الزمن أو يحتمل أن يكونوا مزيفين. في هذه الحالة ، هناك احتمال كبير أن تكون أي قاعدة بيانات تقوم بإنشائها عن طريق كشط هذا الموقع منخفضة الجودة.

من المرجح أن تحتوي مواقع الدليل الأكبر مثل Tripadvisor أو Yelp أو FourSquare على بيانات عالية الجودة أكثر من الدلائل الأصغر والأقل شهرة لأن هذه الأنظمة الأساسية لديها قاعدة أكبر بكثير من المستخدمين لتحديثها.

قد يكون للأدلة المتخصصة قيمة إذا كنت تتطلع إلى التسويق لمجموعة مصالح غامضة أو نوع متخصص للغاية من الشركات ، ولكن يجب أن تتوقع أن يكون لديك الكثير من تنظيف البيانات للقيام به قبل استخدام المعلومات التي تجمعها لأغراض التسويق.

ضع في اعتبارك المواقع التي تتطلب تسجيل الدخول

في كثير من الحالات ، ستحصل على بيانات أكثر قيمة إذا قمت بجمعها من موقع يتطلب تسجيل الدخول. على سبيل المثال ، يمكن كشط LinkedIn و Twitter إذا كنت تستخدم محدد معدل للحفاظ على عدد الطلبات التي يرسلها الروبوت الخاص بك إلى مستوى معقول ويتم تسجيل الدخول إلى الموقع عند تقديم الطلبات.

خيار آخر هو استخدام واجهة برمجة التطبيقات بدلا من مكشطة HTTP بسيطة وجمع التفاصيل من إحدى خدمات رسم الخرائط الشائعة. على سبيل المثال، توفر Google واجهة برمجة تطبيقات لبحث الأنشطة التجارية يمكن استخدامها لجمع معلومات عن المؤسسات المضمنة في خرائط Google، ولكن يجب أن توافق على الالتزام ببنود وشروط Google قبل الدخول إلى واجهة برمجة التطبيقات.

بشكل عام ، إذا كانت واجهة برمجة التطبيقات متاحة ، فمن الأفضل جمع بياناتك باستخدام واجهة برمجة التطبيقات هذه بدلا من استخدام تجريف الويب. ستكون أقل عرضة لمواجهة مشاكل مع مالكي مواقع الويب ، وسيكون من الأسهل تنظيف البيانات التي يتم تسليمها عبر واجهة برمجة التطبيقات.

بناء استفساراتك بشكل صحيح

هناك قول مأثور في برمجة الكمبيوتر عن "القمامة في ، القمامة خارج" ، وهذا ينطبق بالتأكيد على جمع البيانات. تأكد من إنشاء أي عمليات بحث تقوم بها بعناية.

على سبيل المثال ، إذا كنت ترغب في التسويق للبناة في نيوكاسل ، فلا تنس أن هناك أكثر من نيوكاسل في إنجلترا ، وهناك نيوكاسل في أستراليا أيضا. إذا كنت تبحث عن "نيوكاسل" عبر وكيل ، فستحاول معظم مواقع الويب تخمين نيوكاسل التي تقصدها من خلال النظر إلى الأقرب إلى الموقع الجغرافي للوكيل.

حاول تضييق نطاق البحث قدر الإمكان ، وتوفير معلومات المدينة والولاية وحتى البلد إذا سمح موقع الويب المستهدف بذلك. سيساعدك هذا على تجنب أن ينتهي بك الأمر بقاعدة بيانات مليئة بتفاصيل الاتصال للمؤسسات على بعد مئات الأميال من المنطقة التي تريدها.

خيارات برنامج مكشطة: أدوات شائعة

يمكن أن يكون تجريف الويب بسيطا أو معقدا كما تريد. إذا كنت تحاول فقط الكشط لأول مرة ، فلا داعي لإنفاق الكثير من المال على البرامج المتطورة.

تتضمن بعض الخيارات الجيدة ما يلي:

  • مكشطه
  • برو ويب سكرابر
  • سكرابي

Scraper هو امتداد لمتصفح الويب يسمح للمستخدمين باستخراج البيانات من صفحات الويب بسرعة وسهولة. إذا كنت ترغب في سحب المعلومات من صفحة نتائج واحدة أو عدد صغير من الصفحات ، فإن Scraper هي طريقة بسيطة وفعالة للقيام بذلك ، وقد تجد أنها أسهل بكثير في الاستخدام من زاحف الويب الأكثر تطورا.

ProWebScraper هي أداة أكثر تقدما تحتوي على إصدارات مجانية ومتميزة. يمكن استخدام الأداة المجانية لكشط ما يصل إلى 100 صفحة ، مما يعني أنها يجب أن تكون كافية لأعمال أصغر ومتخصصة. ProWebScraper سهل الاستخدام نسبيا لبرامج الكشط ، ويتميز بواجهة التأشير والنقر والقواعد المصممة مسبقا التي تسمح لك بإعداد الكشط حتى لو لم تكن واثقا من الجانب التقني.

يمكن ل ProWebScraper تنزيل الصور وصناديق تفريغ JSON أو CSV أو XML. يمكن حتى إعداده لكشط المواقع وفقا لجدول زمني حتى تتمكن من جمع البيانات وتحديث سجلات التسويق الخاصة بك.

Scrapy هو إطار تجريف ويب مجاني ومفتوح المصدر. تتطلب هذه الأداة معرفة تقنية ، ولكنها سريعة ومرنة ويمكن استخدامها لكشط كميات كبيرة من البيانات. يمكن تشغيل Scrapy على جهاز كمبيوتر Linux أو OS X أو Windows أو BSD الخاص بك أو على خادم الويب.

هناك مجتمع Scrapy نشط ، بما في ذلك دردشة IRC و Reddit و StackOverflow. يمكنك طلب المشورة من المجتمع وقد تتمكن من الاستفادة من الإضافات أو الوحدات التي أنشأها المجتمع ، وإطلاق العنان لقوة Scrapy حتى لو لم تكن مطورا واثقا بنفسك.

ترميز مكشطة الخاصة بك

إذا كنت بحاجة إلى جمع الكثير من البيانات أو التخطيط للكشط بانتظام ، فقد لا تكون الأدوات المجانية والأدوات المستندة إلى واجهة المستخدم الرسومية قوية بما يكفي لحالة الاستخدام الخاصة بك. يعد ترميز الكاشطة الخاصة بك ، أو التعاقد مع مطور للقيام بذلك نيابة عنك ، خيارا جيدا.

هناك العديد من الأطر المجانية مفتوحة المصدر التي يمكن استخدامها لترميز مكشطة بلغات شائعة مثل Python أو Perl أو Java أو R أو PHP.

واحدة من المكتبات الأكثر شعبية لتجريف الويب هي BeautifulSoup. هذه أداة تجريف Python قادرة على استخراج البيانات من ملفات HTML أو XML بسرعة وسهولة. ستحتاج إلى بعض المعرفة بالبرمجة لاستخدامها ، لكنها تقوم بالكثير من العمل التفصيلي للكشط نيابة عنك ، مما يوفر عليك إعادة اختراع العجلة.

بمجرد استخراج البيانات ، يمكنك إما تصديرها كملف CSV أو عرضها بتنسيقات مختلفة باستخدام مكتبة معالجة البيانات مثل Pandas.

إيجابيات وسلبيات ترميز مكشطة الخاصة بك

يعد ترميز الكاشطة الخاصة بك فكرة جيدة إذا كان لديك بعض المعرفة بالبرمجة. قد يكون من المفيد أيضا ترميز الكاشطة الخاصة بك إذا كنت بحاجة إلى استخراج الكثير من البيانات من صفحة ويب غير عادية لا تستطيع أدوات الكشط المجانية التعامل معها.

يمكن أن يكون ترميز مكشطة خاصة بك أو دفع شخص ما للقيام بذلك نيابة عنك فكرة جيدة إذا كانت لديك احتياجات محددة ومتطورة. يمكن تصميم مكشطة مشفرة حسب الطلب حول صفحة مستهدفة بشكل أكثر فعالية من أداة أكثر عمومية ، لذلك من غير المرجح أن تواجه أخطاء أو مشكلات في التعامل مع البيانات.

على العكس من ذلك ، فإن الكاشطات المشفرة حسب الطلب مفيدة أيضا للوظائف الأصغر والبسيطة. بمجرد كتابة مكشطة مرة واحدة يمكنك تعديل روتين التحليل واستخدام نفس البرنامج النصي لاستخراج البيانات من صفحات أخرى.

الجانب السلبي لاستخدام مكشطة مشفرة مخصصة هو أن الأمر يستغرق وقتا لكتابة الكاشطة لأول مرة ، وإذا لم تكن مطورا متمرسا ، فقد تقضي وقتا أطول في النضال مع تنسيق JSON أو محاولة تعلم مكتبة جديدة أكثر مما قد يستغرقه الأمر لقراءة دليل ProWebScraper وتكوينه.

اعتمادا على المهمة ، قد يكون الدفع مقابل أداة أكثر فعالية من حيث التكلفة بدلا من كتابة أداة مخصصة.

بالإضافة إلى ذلك ، إذا كنت تخطط لكتابة مكشطة خاصة بك ، فستحتاج إلى أن تكون على دراية بأفضل الممارسات ومشكلات الترميز ، مثل:

  • استخدام وكيل المستخدم لتحديد الروبوت الخاص بك
  • كيفية التعامل مع المصادقة للمواقع التي تتطلب تسجيل الدخول
  • الامتثال لأي من شروط وأحكام الموقع
  • معدل الحد من طلباتك لتجنب وضع تحميل لا داعي له على الموقع
  • إرسال الطلبات المشكلة بشكل صحيح
  • استخدام (وتدوير الوكلاء بانتظام)
  • تعقيم أي معلومات يتم إرجاعها بواسطة الخادم
  • قواعد حماية البيانات لكيفية ومكان تخزين المعلومات التي يتم إرجاعها
  • حل اختبار CAPTCHA

إن كتابة مكشطة صغيرة لسحب معلومات حول بضع مئات أو بضعة آلاف من الشركات أمر منطقي للغاية. إذا كنت تسحب كميات أكبر من البيانات ، فقد ترغب في طلب المشورة أو العمل مع خبير للتأكد من امتثالك الكامل للوائح الخصوصية المحلية.

القواعد الذهبية لتجريف الويب

إذا قررت كتابة مكشطة خاصة بك ، فتذكر أن "تكون لطيفا". ابذل قصارى جهدك للكشط بطريقة مراعية ، وإرسال الطلبات المشكلة بشكل صحيح ، والكشط ببطء ، واستخدام مجموعة من عناوين IP عند الكشط.

حاول أن تجعل مكشطة الخاص بك تبدو وكأنها إنسان. وهذا يعني طلب الصفحات ببطء ومحاولة عدم اتباع نمط ثابت عند تصفح الصفحات. ضع في اعتبارك ، على سبيل المثال ، سحب قائمة بنتائج البحث ، وإنشاء قائمة بالروابط الموجودة في صفحة النتائج ، ثم الانتقال إلى هذه الروابط بترتيب عشوائي ، لذلك من غير الواضح أنك روبوت.

لا ترسل طلبات متعددة من نفس عنوان IP في نفس الوقت. ستكتشف أدوات مكافحة الكشط أنك تضع حملا غير طبيعي على الخادم.

احترم المعلومات الموجودة في ملف Robots.txt الخاص بالموقع. إذا كانت هناك صفحات، فهذا يعني أن مشرف الموقع لا يريد فهرسته. سيكون من غير الأخلاقي بالنسبة لك أن تتجاهل ذلك.

ضع في اعتبارك استخدام مكتبة مثل السيلينيوم لجعل الروبوت الخاص بك يبدو أكثر إنسانية عن طريق إرسال نقرات إلى الصفحة أو التفاعل معها بطريقة أخرى. تبحث بعض أدوات مكشطة النمل الأكثر تطورا عن "أنماط تفاعل تشبه الروبوت وستمنع عنوان IP إذا لاحظت نقصا في التمرير والنقر والتفاعل الآخر.

هناك سباق تسلح تكنولوجي بين مطوري الكاشطة وأولئك الذين يحاولون حظر الكاشطات من مواقعهم على الويب. من الصعب جدا صنع مكشطة يمكنها جمع كميات هائلة من البيانات دون اكتشافها. ومع ذلك ، بالنسبة للمشاريع الصغيرة أو متوسطة الحجم ، إذا اتبعت قواعد أن تكون لطيفا ولا تكن جشعا ، فيجب أن تكون قادرا على الحصول على البيانات التي تحتاجها باستخدام مكشطة بطيئة وثابتة وبعض الوكلاء.

تذكر أن الروبوت الخاص بك يمكن أن يعمل على مدار 24 ساعة في اليوم ، ويجمع البيانات في الخلفية ، لذلك ليست هناك حاجة لتنزيل القائمة الكاملة للشركات الصغيرة على Yelp دفعة واحدة.

استكشاف مشكلات Scraper وإصلاحها

هناك العديد من المشكلات المحتملة التي قد تواجهها عند تشغيل مكشطة. يمكن أن تشمل هذه:

  • حظر عنوان IP الخاص بك من قبل مشرف الموقع
  • حظر مشرف الموقع لعميل الكشط
  • يتم الخلط بين مكشطة الخاص بك عند محاولة التنقل في الموقع
  • يتم جمع بيانات القمامة من خلال "مصيدة العسل" المخبأة على المواقع
  • معدل الحد من إيقاف مكشطة من العمل بسرعة
  • التغييرات في تصميمات الموقع تكسر مكشطة كانت تعمل

والخبر السار هو أنه يمكن إصلاح جميع هذه المشكلات إذا فهمت كيفية عمل الكاشطات.

تتبع كاشطات الويب البسيطة نمطا:

  1. ترسل الكاشطة طلب HTTP إلى موقع ويب
  2. يرسل موقع الويب ردا ، كما يفعل إلى متصفح الويب العادي
  3. يقرأ الكاشطة الاستجابة ، ويبحث عن نمط في HTML
  4. يتم استخراج النمط وتخزينه في ملف JSON للمعالجة لاحقا
  5. يمكن للمكشطة بعد ذلك إما متابعة قراءة الاستجابة بحثا عن المزيد من الأنماط أو إرسال طلبها التالي

هناك عدد قليل من المجالات التي يمكن أن تسوء فيها الأمور.

الكاشطة لا تلتقط أي بيانات

إذا كانت الكاشطة لا تلتقط أي بيانات على الإطلاق ، فقد يكون هذا بسبب مشكلة في الطريقة التي قمت بها بإعداد المحلل اللغوي ، أو قد يكون أن الكاشطة لا ترى نفس الموقع الذي تراه عند استخدام متصفح ويب.

لمعرفة الخطأ الذي حدث ، اضبط مكشطة إخراج HTML للصفحة ، وقارن ذلك بإخراج المتصفح العادي.

إذا رأيت خطأ أو صفحة مختلفة ، فقد يكون ذلك قد تم حظر عميل الكشط الخاص بك. يمكن أن يكون الموقع قد حظر عنوان IP الخاص بك أو برنامج عميل الكاشطة.

حاول تغيير وكيل المستخدم الذي تحدده مكشطة الخاص بك إلى متصفح يجعله يبدو وكأنه متصفح ويب حديث مثل Firefox أو Chrome. قد يساعدك هذا في التغلب على القيود البسيطة المفروضة على بعض المواقع.

إذا لم يفلح ذلك ، ففكر في تعيين مكشطة لاستخدام وكيل للاتصال بموقع الويب المعني. الوكيل هو خادم يرسل طلبات الويب نيابة عنك ، لذلك لا يمكن لموقع الويب معرفة أنها قادمة من اتصالك بالإنترنت.

إذا رأيت صفحة "عادية" ، فمن المرجح أن تكون المشكلة في الطريقة التي قمت بها بتعيين الكاشطة لاستخراج البيانات. كل برنامج كشط له طريقته الخاصة في مطابقة الأنماط ، على الرغم من أن معظمها يستخدم بعض الاختلافات في التعبيرات العادية. تأكد من عدم وجود أخطاء مطبعية في مطابقة النمط. تذكر أن البرنامج يفعل بالضبط ما تخبره به ، لذلك حتى خطأ صغير واحد سيكسر قواعد المطابقة تماما!

تعمل الكاشطة لفترة من الوقت ، ثم تتوقف

مشكلة أخرى شائعة هي أن تعمل الكاشطة لفترة قصيرة ، ثم تتوقف عن العمل. يعني هذا عادة أن موقع الويب قد حظر عنوان IP الخاص بك ، إما بشكل مؤقت أو دائم ، لأنك أرسلت عددا كبيرا جدا من الطلبات في وقت قصير.

إذا حدث هذا ، يمكنك الالتفاف على الحظر باستخدام وكيل. Proxyscrape يقدم كلا من الوكلاء المتميزين والسكنيين للأشخاص لاستخدامهم في تجريف البيانات. بروكسيات مركز البيانات المتميزة سريعة وتوفر نطاقا تردديا غير محدود ولكن لها عناوين IP قد يتعرف عليها مشرفو المواقع على أنها من مركز بيانات. يبدو الوكلاء السكنيون وكأنهم "مستخدمون منزليون" ، ولكن قد يكون معدل النقل المتاح على هؤلاء أقل.

ضع في اعتبارك تغيير الوكيل الذي تستخدمه بعد بضعة طلبات لتقليل مخاطر حظر عنوان IP الخاص بالوكيل. يمكنك أيضا تقليل مخاطر حظر IP عن طريق تقليل السرعة التي ترسل بها مكشطة الطلبات.

تذكر أن الكاشطة يمكن أن تعمل في الخلفية ، 24 ساعة في اليوم ، دون فواصل. حتى إذا قمت بتحديد سرعة الكاشطة لتحليل صفحة واحدة كل 15-30 ثانية ، فستعمل بسرعة أكبر من الإنسان.

ضع في اعتبارك أن العديد من مواقع الويب ، وخاصة الأصغر منها ، يتم استضافتها على خوادم لها حدود لسرعتها وكمية البيانات التي يمكنها نقلها كل شهر. قد تشعر أن قيام الروبوت الخاص بك بكشط بعض البيانات ليس أمرا غير معقول ، ولكن إذا كان العديد من المستخدمين الآخرين يفعلون الشيء نفسه ، أو "ضاع" الروبوت الخاص بك وحاول تنزيل نفس الصفحات إلى ما لا نهاية مرارا وتكرارا ، فقد تضعف أداء موقع الويب للمستخدمين البشريين أو تكلف أموال مشرفي الموقع عن طريق استهلاك موارد زائدة.

يتم الخلط بين الكاشطة ويمر عبر حلقة لا نهاية لها من الصفحات

هناك مشكلة شائعة أخرى يواجهها المسوقون عند محاولة استخدام مكشطة الويب وهي أن يتم الخلط بين الكاشطة وتنزيل الصفحات التي لا ينبغي لها.

دعنا نتخيل أن خطة مكشطة الخاص بك هي العثور على قائمة من عمال البناء في مدينتك ، وإرسالها إلى دليل حيث يبحث في ذلك. يجب أن تكون الكاشطة:

  • إرسال طلب HTTP يحتوي على سلسلة البحث المطلوبة
  • تنزيل صفحة النتائج
  • تحليل صفحة النتائج للعثور على ارتباط إلى النتيجة الأولى
  • افتح هذا الرابط
  • استخراج تفاصيل الاتصال من تلك الصفحة الجديدة
  • استمر في تحليل صفحة النتائج للعثور على النتيجة الثانية
  • افتح هذا الرابط
  • وهكذا...

تم تصميم بعض مواقع الويب لتشمل "مصيدة العسل" التي ستحبس الروبوتات وتربكها. هذه الثغرات عبارة عن أجزاء من HTML تم تعيينها بعلامة عرض تقول "display: none" ، لذلك لن تظهر في متصفح عادي. ومع ذلك ، يمكن للروبوتات رؤيتها ، وإذا لم يتم تكوينها لتجاهلها ، فستقوم بمعالجتها تماما مثل HTML العادي.

من الصعب جدا برمجة روبوت لتجاهل جميع HTML لاصطياد الروبوت تماما لأن بعض هذه الفخاخ متطورة بشكل لا يصدق. ومع ذلك ، ما يمكنك فعله هو وضع قيود على عدد الروابط التي سيتبعها الروبوت الخاص بك. يمكنك أيضا عرض مصدر الصفحة بنفسك والبحث عن أي مصائد واضحة بحيث يمكنك ضبط الروبوت لتجاهلها.

التسويق الأخلاقي: استخدم العملاء المحتملين المكشطين بحكمة

تجريف الويب هو شيء تستهجنه العديد من المواقع ويجب على أصحاب الأعمال أن يخطو بحذر عند القيام به. بموجب اللائحة العامة لحماية البيانات ، من غير القانوني كشط معلومات مقيم في الاتحاد الأوروبي دون موافقته ، على سبيل المثال.

بالإضافة إلى ذلك ، تحظر العديد من مواقع الويب التي تخفي البيانات خلف شاشة تسجيل الدخول صراحة تجريف الويب في شروطها وأحكامها. هذا يعني أنك تخاطر بالحظر من هذا الموقع إذا تبين أنك تستخدم مكشطة.

إذا قررت استخدام الكشط لجمع العملاء المحتملين ، فحاول القيام بذلك بشكل معقول. فكر في الكشط كطريقة لتوفير الوقت عند جمع العملاء المحتملين الذين كنت ستجمعهم على أي حال ، بدلا من طريقة لشن حملة تسويقية ضخمة.

تجنب صب شبكة واسعة جدا مع كشط. قد يكون من المغري جمع تفاصيل الاتصال بكل نشاط تجاري أو شخص في منطقتك والمناطق المحيطة بها ، على أمل تحويل إحدى هذه الشركات إلى عميل ، ولكن مثل هذه الحملة الواسعة وغير المركزة ستأتي بنتائج عكسية على الأرجح.

تنظيف وصيانة قاعدة البيانات الخاصة بك

قبل أن تبدأ حملتك التسويقية ، قم بإجراء بعض عمليات التحقق من البيانات التي جمعتها. قم بتنظيف قاعدة البيانات لإزالة أي بيانات غير صحيحة بشكل واضح، مثل الأنشطة التجارية التي تم إغلاقها أو السجلات المكررة أو السجلات للأشخاص غير الموجودين في منطقتك المستهدفة.

بمجرد بدء الحملة ، حافظ على تحديث قاعدة البيانات. إذا طلب عميل متوقع إزالته من قاعدة البيانات، فاحذفه. إذا كنت قادرا قانونيا على القيام بذلك في ولايتك القضائية ، فاحتفظ ببيانات كافية عنهم لإضافة بريدهم الإلكتروني أو رقم هاتفهم إلى قائمة "عدم الاتصال" بحيث لا يمكن إعادة إضافتهم إلى قاعدة بيانات التسويق الخاصة بك في المرة القادمة التي تذهب فيها إلى الكشط.

تتضمن بعض الأشياء الأخرى التي يجب تذكرها عند إدارة حملاتك التسويقية ما يلي:

  • الحد من عدد رسائل البريد الإلكتروني أو المكالمات التي تجريها للعملاء المحتملين
  • قدم معلومات إلغاء الاشتراك في أي جهات اتصال ترسلها
  • احترام طلبات إلغاء الاشتراك وتنفيذها على الفور
  • إذا استجاب شخص ما لتسويقك ، فقم بتحديث تفاصيله

هناك خط رفيع بين التسويق الاستباقي والبريد العشوائي العدواني. تعد جهات الاتصال المتكررة من المسوقين جزءا من رحلة العميل ، ومن المهم البقاء على اتصال مع العملاء المحتملين ، ولكن التسويق المفرط في العدوانية قد ينفر العملاء المحتملين ويمنح علامتك التجارية سمعة سيئة.

ضع في اعتبارك استيراد البيانات التي تحصل عليها من الكشط إلى نظام CRM حتى تتمكن من تتبع كل عميل ، والمرحلة التي وصلوا إليها في عملية التحويل ، وكيف كانوا يستجيبون للرسائل التسويقية.

لن يساعدك القيام بذلك على البقاء على اطلاع على العملاء الفرديين فحسب ، بل سيسهل عليك أيضا معرفة كيفية أداء حملاتك التسويقية بشكل جماعي حتى تتمكن من تحسين رسائلك.

قد يكون تتبع مصدر العملاء المتوقعين مفيدا أيضا لأنه سيعطيك فكرة عن مصادر البيانات التي تحتوي على معلومات عالية الجودة.