عندما تقوم بكشط البيانات من مواقع الويب واسعة النطاق ، فمن غير المرجح أنك لم تضطر إلى مواجهة اختبار CAPTCHA لإثبات أنك إنسان. بصفتك مكشطة ويب ، قد تعرف بالفعل سبب إجبار محترفي الأمن السيبراني على اختراعها. لقد كانت نتيجة لأتمتة برامج الروبوت الخاصة بك لطلبات مواقع الويب التي لا نهاية لها للوصول إليها. لذلك حتى المستخدمين الحقيقيين كان عليهم أن يمروا بآلام مواجهة اختبارات CAPTCHA التي تظهر بأشكال مختلفة. ومع ذلك ، يمكنك تجاوز اختبارات CAPTCHA سواء كنت مكشطة ويب أم لا ، وهو ما سيكون هدف هذه المقالة. لكن أولا ، دعنا نتعمق في ماهية اختبارات CAPTCHA.
CAPTCHA تعني اختبار تورينج العام المؤتمت بالكامل لتمييز أجهزة الكمبيوتر والبشر. هذا اختصار طويل جدا ، أليس كذلك؟ الآن قد تتساءل عما يعنيه الجزء الأخير من هذا الاختصار ، اختبار تورينج - حسنا ، إنه اختبار بسيط لتحديد ما إذا كان الإنسان أو الروبوت يتفاعل مع صفحة ويب أو خادم ويب.
بعد كل شيء ، يميز اختبار CAPTCHA البشر عن الروبوتات ، مما يساعد محللي الأمن السيبراني على حماية خوادم الويب من هجمات القوة الغاشمة ، و DDoS ، وفي بعض الحالات ، تجريف الويب.
دعنا نتعرف على كيفية تمييز اختبارات CAPTCHA بين البشر والروبوتات.
يمكنك العثور على اختبارات CAPTCHA في نماذج موقع ويب ، بما في ذلك نماذج الاتصال أو التسجيل أو التعليقات أو الاشتراك أو المغادرة.
تتضمن اختبارات CAPTCHA التقليدية صورة بأحرف أو أرقام ممتدة أو غير واضحة أو كليهما في مربع بلون خلفية أو خلفية شفافة. ثم عليك تحديد الأحرف وكتابتها في حقل النص التالي. عملية تحديد الشخصيات هذه أسهل بالنسبة للبشر ولكنها معقدة إلى حد ما بالنسبة للروبوت.
من ناحية أخرى ، يمكن لبعض الروبوتات المتقدمة اعتراض الرسائل المشوهة بمساعدة التعلم الآلي على مر السنين. نتيجة لذلك ، استبدلت بعض الشركات مثل Google اختبارات CAPTCHA التقليدية باختبارات CAPTCHA المتطورة. أحد الأمثلة على ذلك هو ReCAPTCHA الذي ستكتشفه في القسم التالي.
ReCAPTCHA هي خدمة مجانية تقدمها Google. يطلب من المستخدمين تحديد المربعات بدلا من كتابة النص أو حل الألغاز أو المعادلات الرياضية.
يعد ReCAPTCHA النموذجي أكثر تقدما من الأشكال التقليدية لاختبارات CAPTCHA. يستخدم صورا ونصوصا من العالم الحقيقي مثل إشارات المرور في الشوارع والنصوص من الصحف القديمة والكتب المطبوعة. نتيجة لذلك ، لا يتعين على المستخدمين الاعتماد على اختبارات CAPTCHA القديمة ذات النص الضبابي والمشوه.
هناك ثلاثة أنواع مهمة من اختبارات ReCAPTCHA للتحقق مما إذا كنت إنسانا أم لا:
هذه هي ReCAPTCHAs التي تطلب من المستخدمين تحديد مربع اختيار ، "أنا لست روبوتا" كما في الصورة أعلاه. على الرغم من أنه قد يبدو للعين المجردة أنه حتى الروبوت يمكنه إكمال هذا الاختبار ، إلا أنه يتم أخذ عدة عوامل في الاعتبار:
إذا فشل ReCAPTCHA في التحقق من أنك إنسان ، فسوف يقدم لك تحديا آخر.
توفر ReCAPTCHAs للمستخدمين تسع أو ستة عشر صورة مربعة كما ترى في الصورة أعلاه. يمثل كل مربع جزءا من صورة أكبر أو صورا مختلفة. يجب على المستخدم تحديد مربعات تمثل أشياء أو أو أشجار أو مركبات أو إشارات مرور معينة.
إذا تطابق اختيار المستخدم مع تحديدات المستخدمين الآخرين الذين أجروا نفس الاختبار، التحقق من المستخدم. خلاف ذلك ، سيقدم ReCAPTCHA اختبارا أكثر تحديا.
هل تعلم أن ReCAPTCHA يمكنه التحقق مما إذا كنت إنسانا أم لا دون استخدام مربعات الاختيار أو أي تفاعلات من المستخدم؟
من المؤكد أنه يفعل ذلك من خلال النظر في تاريخ المستخدم في التفاعل مع مواقع الويب والسلوك العام للمستخدم أثناء الاتصال بالإنترنت. في معظم السيناريوهات ، بناء على هذه العوامل ، سيكون النظام قادرا على تحديد ما إذا كنت روبوتا.
وعدم القيام بذلك من شأنه أن يعود إلى أي من الطريقتين المذكورتين سابقا.
يمكن تشغيل اختبارات CAPTCHA إذا اكتشف موقع ويب أنشطة غير عادية تشبه سلوك الروبوت ؛ يتضمن هذا السلوك غير المعتاد طلبات غير محدودة في غضون ثوان متقطعة والنقر على الروابط بمعدل أعلى بكثير من البشر.
ثم تحتوي بعض مواقع الويب تلقائيا على اختبارات CAPTCHA لحماية أنظمتها.
بقدر ما يتعلق الأمر ب ReCAPTCHAs ، ليس من الواضح تماما ما الذي يطلقها. ومع ذلك ، فإن الأسباب العامة هي حركات الماوس وسجل التصفح وتتبع ملفات تعريف الارتباط.
الآن لديك نظرة عامة واضحة على ماهية CAPTCHAs و Rechaptchas ، وكيف تعمل ، وما الذي يطلقها. حان الوقت الآن للنظر في كيفية تأثير اختبارات CAPTCHA على تجريف الويب.
يمكن أن تعيق اختبارات CAPTCHA كشط الويب حيث تقوم الروبوتات الآلية بتنفيذ معظم عمليات الكشط. ومع ذلك ، لا تثبط عزيمتك. كما ذكرنا في بداية هذه المقالة ، هناك طرق للتغلب على اختبارات CAPTCHA عند كشط الويب. قبل أن نصل إليهم ، دعنا نلفت انتباهنا إلى ما يجب أن تكون على دراية به قبل أن تتخلص منه.
عند الاتصال بموقع ويب، فإنك ترسل معلومات حول جهازك إلى موقع ويب المتصل. قد يستخدمون هذه المعلومات لتخصيص المحتوى وفقا لمواصفات جهازك وتتبع المقاييس. لذلك عندما يكتشفون أن الطلبات من نفس الجهاز ، سيتم حظر أي طلب ترسله بعد ذلك.
حقيقة أخرى يجب أن تكون على دراية بها هي أن موقع الويب المستهدف لم يدرج عنوان IP الخاص بك في القائمة السوداء. من المحتمل أن يقوموا بإدراج عنوان IP الخاص بك في القائمة السوداء عند إرسال عدد كبير جدا من الطلبات باستخدام مكشطة / زاحف.
سيضمن تدوير رؤوس HTTP والوكلاء (المزيد حول هذا الموضوع في القسم التالي) مع تجمع وصول أجهزة متعددة إلى موقع الويب من مواقع مختلفة. لذلك يجب أن تكون قادرا على الاستمرار في الكشط دون انقطاع من اختبارات CAPTCHA. بعد قولي هذا ، يجب عليك التأكد من أنك لا تضر بأداء الموقع بأي وسيلة.
بالإضافة إلى العوامل الرئيسية المذكورة أعلاه ، تحتاج إلى معرفة اختبارات CAPTCHA أدناه عند تجريف الويب باستخدام روبوت:
لن يكون مجرد تغيير وكيل المستخدم كافيا حيث ستحتاج إلى الحصول على قائمة بسلاسل وكيل المستخدم ثم تدويرها. سيؤدي هذا التدوير إلى رؤية موقع الويب المستهدف لك كجهاز مختلف بينما في الواقع ، يرسل جهاز واحد جميع الطلبات.
كأفضل ممارسة لهذه الخطوة ، سيكون من الرائع الاحتفاظ بقاعدة بيانات لوكلاء المستخدم الحقيقيين. أيضا ، احذف ملفات تعريف الارتباط عندما لم تعد بحاجة إليها.
هناك طريقة تقنية منخفضة أكثر وضوحا لحل اختبار CAPTCHA وهي استخدام خدمة حل اختبار CAPTCHA. يستخدمون الذكاء الاصطناعي (الذكاء الاصطناعي) والتعلم الآلي (MI) وتتويجا للتقنيات الأخرى لحل اختبار CAPTCHA.
عندما تسمح للمكشطة الخاصة بك بالوصول مباشرة إلى عنوان URL كل جزء من الثانية ، فسيكون موقع الويب المتلقي مشبوها. نتيجة لذلك ، سيؤدي موقع الويب المستهدف إلى تشغيل اختبار CAPTCHA.
لتجنب مثل هذا السيناريو ، يمكنك تعيين رأس المرجع لجعله يبدو وكأنه تمت إحالته من صفحة أخرى. من شأنه أن يقلل من احتمالية اكتشافك كروبوت. بدلا من ذلك ، يمكنك جعل الروبوت يزور صفحات أخرى قبل زيارة الرابط المطلوب.
Honeypots هي عناصر مخفية على صفحة ويب يستخدمها خبراء الأمن لمحاصرة الروبوتات أو المتسللين. على الرغم من أن المتصفح يعرض HTML الخاص به ، إلا أنه تم تعيين خصائص CSS الخاصة به على الاختباء. ومع ذلك ، على عكس البشر ، سيكون رمز وعاء العسل مرئيا للروبوتات عندما يكشطون البيانات. ونتيجة لذلك ، وقعوا في الفخ الذي نصبه وعاء العسل.
لذلك عليك التأكد من التحقق من خصائص CSS لجميع العناصر في صفحة الويب ليست مخفية أو غير مرئية قبل البدء في الكشط. فقط عندما تكون متأكدا من عدم إخفاء أي من العناصر ، يمكنك تعيين الروبوت الخاص بك للكشط.
كان من الممكن أن تعطيك هذه المقالة فكرة شاملة عن كيفية تجنب اختبارات CAPTCHA أثناء كشط الويب. يمكن أن يكون تجنب اختبار CAPTCHA عملية معقدة. ومع ذلك ، باستخدام تقنيات محددة تمت مناقشتها في هذه المقالة ، يمكنك تطوير الروبوت بطريقة تتجنب اختبارات CAPTCHA.
نأمل أن "تستفيد من جميع التقنيات التي تمت مناقشتها في هذه المقالة.