شعار proxyscrape داكن

كيف تتجاوز اختبارات CAPTCHA عند البحث على الويب؟ - 5 خطوات بسيطة

كيفية القيام بذلك, الكشط, كانون الثاني/يناير-04-20235 دقائق للقراءة

عندما تقوم بكشط البيانات من مواقع الويب واسعة النطاق، فمن غير المرجح أنك لم تضطر إلى مواجهة اختبار CAPTCHA لإثبات أنك إنسان. بصفتك كاشط مواقع الويب، ربما تعرف بالفعل سبب اضطرار محترفي الأمن السيبراني إلى اختراعها. لقد كانت نتيجة لقيام الروبوتات الخاصة بك بأتمتة طلبات مواقع الويب التي لا نهاية لها للوصول إليها.

عندما تقوم بكشط البيانات من مواقع الويب واسعة النطاق، فمن غير المرجح أنك لم تضطر إلى مواجهة اختبار CAPTCHA لإثبات أنك إنسان. بصفتك كاشط مواقع الويب، ربما تعرف بالفعل سبب اضطرار محترفي الأمن السيبراني إلى اختراعها. لقد كانت نتيجة لقيام الروبوتات بأتمتة طلبات لا نهاية لها على الموقع الإلكتروني للوصول إليها. لذلك حتى المستخدمون الحقيقيون اضطروا إلى تحمل عناء مواجهة الـCAPTCHA التي تظهر بأشكال مختلفة. ومع ذلك، يمكنك تجاوز الـCAPTCHA سواء كنت من مستخدمي الويب أم لا، وهو هدف هذه المقالة. لكن أولاً، دعنا نتعمق في ماهية الـCAPTCHA.

تجاوز الـ CAPTCHA لتصفح الويب

عادةً ما يتم تشغيل الـCAPTCHA للكشف عن حركة المرور غير الطبيعية في الموقع. لذا، من المحتمل أن يؤدي ذلك إلى مقاطعة الكاشطات أثناء استخراج البيانات بأعداد هائلة، ولتجاوز هذا القيد، يفضل المستخدمون حلاً يمكنه كسر جميع رموز CAPTCHA هذه والوصول إلى موقع الويب مثل البشر الحقيقيين. أحد الحلول لتجاوز رموز الكابتشا هو Capsolver. كما أن استخدام البروكسيات مع طلبات الويب سيساعد المستخدمين على الظهور بمظهر حركة مرور طبيعية. 

ما هو اختبار CAPTCHA؟

CAPTCHA يرمز إلى اختبار تورينج العام الآلي بالكامل للتفريق بين أجهزة الكمبيوتر والبشر. هذا اختصار طويل جداً، أليس كذلك؟ الآن قد تتساءل ما معنى الجزء الأخير من هذا الاختصار، اختبار تورينج - حسناً، إنه اختبار بسيط لتحديد ما إذا كان الإنسان أو الروبوت يتفاعل مع صفحة ويب أو خادم ويب.

في نهاية المطاف، تميّز الـ CAPTCHA بين البشر والروبوتات، مما يساعد محللي الأمن السيبراني على حماية خوادم الويب من هجمات القوة الغاشمة و DDoS، وفي بعض الحالات، من كشط الويب. 

لنكتشف كيف تفرق اختبارات CAPTCHA بين البشر والبوتات.

كيف تعمل اختبارات CAPTCHA؟

يمكنك العثور على نماذج CAPTCHA في نماذج موقع الويب، بما في ذلك نماذج الاتصال، أو التسجيل، أو التعليقات، أو التسجيل، أو تسجيل الدخول، أو تسجيل المغادرة.

تتضمن اختبارات CAPTCHA التقليدية صورة مع أحرف أو أرقام ممتدة أو غير واضحة أو كلاهما في مربع بلون خلفية أو خلفية شفافة. ثم عليك تحديد الأحرف وكتابتها في حقل النص التالي. عملية تحديد الأحرف هذه أسهل للبشر ولكنها معقدة إلى حد ما بالنسبة للروبوت.

تكمن فكرة تشويش أو تشويه نص الـCAPTCHA في جعل الأمر أكثر صعوبة على الروبوت في التعرف على الأحرف. في المقابل، يمكن للبشر تفسير الأحرف واعتراضها بتنسيقات مختلفة، مثل الخطوط المختلفة، والكتابة اليدوية، وما إلى ذلك. بعد قولي هذا، لا يستطيع كل إنسان حل اختبار CAPTCHA من المحاولة الأولى. وفقًا للأبحاث، فإن 8% من المستخدمين سيخطئون في الكتابة في محاولتهم الأولى، بينما يفشل 29% منهم إذا كانت الـCAPTCHA حساسة لحالة الأحرف.

من ناحية أخرى، يمكن لبعض الروبوتات المتقدمة اعتراض الحروف المشوهة بمساعدة التعلم الآلي على مر السنين. ونتيجة لذلك، قامت بعض الشركات مثل Google باستبدال الـCAPTCHA التقليدية بـCAPTCHA المتطورة. أحد هذه الأمثلة هو ReCAPTCHA الذي ستكتشفه في القسم التالي.

ما هو ReCAPTCHA؟

ReCAPTCHA هي خدمة مجانية تقدمها Google. وهي تطلب من المستخدمين وضع علامة في المربعات بدلاً من كتابة نص أو حل ألغاز أو معادلات رياضية.

يعد اختبار الـ ReCAPTCHA النموذجي أكثر تقدمًا من الأشكال التقليدية لاختبارات CAPTCHA. فهي تستخدم صورًا ونصوصًا من العالم الحقيقي مثل إشارات المرور في الشوارع، ونصوص من الصحف القديمة، والكتب المطبوعة. ونتيجةً لذلك، لا يضطر المستخدمون إلى الاعتماد على اختبارات CAPTCHA القديمة ذات النصوص الضبابية والمشوهة.

كيف تعمل اختبارات ReCAPTCHA؟

هناك ثلاثة أنواع مهمة من اختبارات ReCAPTCHA للتحقق مما إذا كنت إنساناً أم لا:

خانة الاختيار

هذه هي اختبارات ReCAPTCHA التي تطلب من المستخدمين وضع علامة في خانة اختيار "أنا لست روبوتًا" كما في الصورة أعلاه. على الرغم من أنه قد يبدو للعين المجردة أنه حتى الروبوت يمكن أن يكمل هذا الاختبار، إلا أنه يتم أخذ عدة عوامل في الاعتبار:

  • يبحث هذا الاختبار في حركات الماوس الخاصة بالمستخدم أثناء اقترابه من خانة الاختيار.
  • حركات الماوس للمستخدم ليست مستقيمة، بما في ذلك معظم حركات الماوس المباشرة. من الصعب على الروبوت محاكاة نفس السلوك.
  • وأخيراً، ستفحص ReCAPTCHA ملفات تعريف الارتباط التي يخزنها متصفحك.

إذا فشل اختبار ReCAPTCHA في التحقق من أنك إنسان، فسوف يقدم لك تحديًا آخر.

التعرف على الصور

توفر ReCAPTCHAs هذه للمستخدمين تسع أو ستة عشر صورة مربعة كما ترى في الصورة أعلاه. يمثل كل مربع جزءًا من صورة أكبر أو صورًا مختلفة. يجب على المستخدم تحديد المربعات التي تمثل أجسامًا أو حيوانات أو أشجارًا أو مركبات أو إشارات مرور معينة.

إذا تطابق اختيار المستخدم مع اختيارات المستخدمين الآخرين الذين أجروا نفس الاختبار، يتم التحقق من المستخدم. خلاف ذلك، سيقدم اختبار ReCAPTCHA اختبارًا أكثر صعوبة.

لا يوجد تفاعل

هل تعلم أن ReCAPTCHA يمكنه التحقق مما إذا كنت بشريًا أم لا دون استخدام خانات الاختيار أو أي تفاعلات من المستخدم؟

وهو يفعل ذلك بالتأكيد من خلال النظر في تاريخ المستخدم في التفاعل مع المواقع الإلكترونية والسلوك العام للمستخدم أثناء الاتصال بالإنترنت. في معظم السيناريوهات، وبناءً على هذه العوامل، سيتمكن النظام من تحديد ما إذا كنت روبوتاً أم لا.

سيؤدي عدم القيام بذلك إلى العودة إلى أي من الطريقتين المذكورتين سابقاً.

ما الذي يؤدي إلى اختبارات CAPTCHA وReCAPTCHA؟

يمكن تشغيل اختبارات CAPTCHA إذا اكتشف موقع الويب أنشطة غير عادية تشبه سلوك الروبوتات؛ ويشمل هذا السلوك غير المعتاد طلبات غير محدودة في غضون أجزاء من الثانية والنقر على الروابط بمعدل أعلى بكثير من البشر. 

ثم تقوم بعض مواقع الويب تلقائيًا بوضع اختبارات CAPTCHA لحماية أنظمتها.

أما فيما يتعلق بـ ReCAPTCHAs، فليس من الواضح بالضبط ما الذي يؤدي إلى تشغيلها. ومع ذلك، فإن الأسباب العامة هي حركات الماوس وسجل التصفح وتتبع ملفات تعريف الارتباط.

أشياء يجب معرفتها حول تجاوز اختبارات CAPTCHA عند كشط الويب

أصبح لديك الآن نظرة عامة واضحة عن ماهية الـCAPTCHA والـRechaptchas، وكيفية عملها، وما الذي يؤدي إلى تشغيلها. الآن حان الوقت للنظر في كيفية تأثير الـCAPTCHA على تجريف الويب.

يمكن أن تعيق الـ CAPTCHA تجريف الويب حيث تقوم الروبوتات الآلية بمعظم عمليات التجريف. ومع ذلك، لا تثبط عزيمتك. فكما ذكرنا في بداية هذه المقالة، هناك طرق للتغلب على الـCAPTCHA عند كشط الويب. قبل أن نصل إليها، دعنا نركز انتباهنا على ما يجب أن تكون على دراية به قبل أن تقوم بالكشط.

إرسال الكثير من الطلبات إلى الموقع المستهدف

بادئ ذي بدء، يجب عليك التأكد من أنك لا تسمح لمكشطة/زاحف الويب الخاص بك بإرسال عدد كبير جداً من الطلبات في فترة قصيرة. ذكرت معظم المواقع الإلكترونية في صفحات الشروط والأحكام الخاصة بها عدد الطلبات التي يسمح بها الموقع الإلكتروني. تأكد من قراءتها قبل البدء في الكشط.

رؤوس HTTP

عندما تتصل بموقع إلكتروني، فإنك ترسل معلومات عن جهازك إلى الموقع الإلكتروني المتصل. قد يستخدمون هذه المعلومات لتخصيص المحتوى حسب مواصفات جهازك والتتبع المتري. لذلك عندما يكتشفون أن الطلبات من نفس الجهاز، سيتم حظر أي طلب ترسله بعد ذلك.

لذا، إذا كنت قد طورت مكشطة/زاحف الويب بنفسك، فستتمكن من تغيير معلومات الرأس لكل طلب تقوم به المكشطة. ثم سيظهر للموقع المستهدف أنه يتلقى طلبات متعددة من أجهزة مختلفة. اقرأ هنا لمزيد من المعلومات حول رؤوس HTTP.

عنوان IP

هناك حقيقة أخرى يجب أن تكون على دراية بها وهي أن الموقع المستهدف لم يضع عنوان IP الخاص بك في القائمة السوداء. من المحتمل أن يقوموا بإدراج عنوان IP الخاص بك في القائمة السوداء عندما ترسل الكثير من الطلبات باستخدام أداة الكاشطة/ الزاحف. 

للتغلب على المشكلة المذكورة أعلاه، يمكنك استخدام خادم وكيل لأنه يخفي عنوان IP الخاص بك. 

سيضمن تدوير رؤوس HTTP والبروكسيات (المزيد حول هذا الأمر في القسم التالي) مع مجموعة من الأجهزة الوصول إلى الموقع الإلكتروني من مواقع مختلفة. لذلك يجب أن تكون قادرًا على مواصلة الكشط دون انقطاع من CAPTCHA. بعد قولي هذا يجب أن تتأكد من أنك لا تضر بأداء الموقع الإلكتروني بأي شكل من الأشكال.

ومع ذلك، يجب أن تلاحظ أن البروكسيات لن تساعدك في التغلب على الـCAPTCHA في التسجيل، وتغيير كلمة المرور، ونماذج تسجيل المغادرة، وما إلى ذلك. يمكن أن تساعدك فقط في التغلب على عمليات الالتقاط التي تطلقها مواقع الويب بسبب وجود سلوك الروبوت. لتجنب الـCAPTCHA في مثل هذه النماذج، سنبحث في حلول الـCAPTCHA في قسم قادم.

أنواع أخرى من اختبارات CAPTCHA

بالإضافة إلى العوامل الرئيسية المذكورة أعلاه، تحتاج إلى معرفة اختبارات CAPTCHA أدناه عند كشط الويب باستخدام روبوت:

نقاط العسل-نقطة العسل هي نوع من الـCAPTCHA مرفق في حقل أو رابط نموذج HTML، ولكن يتم إخفاء رؤيته باستخدام CSS، لذا عندما يتفاعل معه الروبوت يكون قد أبلغ عن نفسه حتمًا أنه روبوت. لذا قبل أن يقوم الروبوت الخاص بك بكشط المحتوى، تأكد من أن خصائص CSS للعنصر مرئية.

اختبار CAPTCHA للكلمات/المطابقة-هذه هي اختبارات CAPTCHA في معادلات الرياضيات مثل حل "3+7"، على سبيل المثال. يمكن أن يكون هناك أيضًا ألغاز كلمات لحلها أيضًا.

تسجيل الدخول عبر وسائل التواصل الاجتماعي - تتطلب بعض المواقع الإلكترونية تسجيل الدخول بحسابك على فيسبوك، على سبيل المثال. ومع ذلك، فهي ليست شائعة لأن معظم المشرفين يعلمون أن الناس سيترددون في تسجيل الدخول بحساباتهم على وسائل التواصل الاجتماعي.

تتبع الوقت- تراقب اختبارات CAPTCHA هذه مدى سرعة تنفيذك لإجراء معين، مثل ملء نموذج لتحديد ما إذا كان بشريًا أم روبوتًا.

كيفية تجاوز اختبارات CAPTCHA لكشط الويب

تدوير البروكسيات واستخدام عناوين IP عالية الجودة

كما ذكرنا في القسم السابق، تحتاج إلى تدوير البروكسيات في كل مرة ترسل فيها طلبًا إلى الموقع المستهدف. إنها إحدى الطرق لتجنب اختبارات CAPTCHA التي يتم تشغيلها أثناء الكشط. في هذه الظروف، تحتاج إلى استخدام وكلاء بروتوكولات IP سكنية نظيفة.

عندما تقوم بتدوير البروكسيات، سيكون من الصعب على الموقع الإلكتروني المستهدف تحديد بصمة IP الخاصة بك. هذا لأنه، لكل طلب، سيظهر عنوان IP الخاص بالوكلاء بدلاً من عنوان IP الخاص بك.

تدوير وكلاء المستخدمين

نظرًا لأنك ستستخدم مكشطة لكشط الويب، ستحتاج إلى إخفاء وكيل المستخدم لمتصفح ويب شائع أو روبوتات روبوتات مدعومة مثل روبوتات محرك البحث التي تتعرف عليها مواقع الويب.

لن يكون مجرد تغيير وكيل المستخدم كافيًا لأنك ستحتاج إلى الحصول على قائمة بسلاسل وكيل المستخدم ثم تدويرها. سيؤدي هذا التدوير إلى أن يراك الموقع الإلكتروني المستهدف كجهاز مختلف بينما في الواقع جهاز واحد يرسل جميع الطلبات.

وكأفضل ممارسة لهذه الخطوة، سيكون من الرائع الاحتفاظ بقاعدة بيانات وكلاء المستخدمين الحقيقيين. أيضًا، احذف ملفات تعريف الارتباط عندما لا تعود بحاجة إليها.

خدمات حل مشكلات CAPTCHA

الطريقة الأكثر مباشرةً والأقل تقنية لحل اختبار CAPTCHA هي استخدام خدمة حل اختبار CAPTCHA. فهي تستخدم الذكاء الاصطناعي (AI)، والتعلم الآلي (MI)، ومجموعة من التقنيات الأخرى لحل اختبار CAPTCHA.

بعض من أبرز أدوات حل الـCAPTCHA الموجودة حاليًا في المجال هي Capsolver و Anti-CAPTCHA.

تجنب الروابط المباشرة

عندما تسمح للكاشطة الخاصة بك بالوصول مباشرةً إلى عنوان URL كل جزء من الثانية، فإن الموقع الإلكتروني المتلقي سيكون مشبوهًا. ونتيجة لذلك، سيقوم الموقع الإلكتروني المستهدف بتشغيل اختبار CAPTCHA.

لتجنب مثل هذا السيناريو، يمكنك تعيين رأس المرجع ليبدو وكأنه محال من صفحة أخرى. سيقلل ذلك من احتمالية اكتشافه كروبوت. بدلاً من ذلك، يمكنك جعل الروبوت يزور صفحات أخرى قبل زيارة الرابط المطلوب.

تجنب أوعية العسل

إن "روبوتات العسل" هي عناصر مخفية على صفحة الويب يستخدمها خبراء الأمن لمحاصرة الروبوتات أو المتطفلين. على الرغم من أن المتصفح يعرض HTML الخاص به، إلا أن خصائص CSS الخاصة به مضبوطة على الإخفاء. ومع ذلك، على عكس البشر، فإن كود وعاء العسل سيكون مرئيًا للروبوتات عندما تتخلص من البيانات. ونتيجة لذلك، وقعوا في الفخ الذي نصبه وعاء العسل.

لذلك عليك التأكد من التحقق من أن خصائص CSS لجميع العناصر في صفحة الويب ليست مخفية أو غير مرئية قبل البدء في الكشط. فقط عندما تكون متأكدًا من عدم إخفاء أي من العناصر، قم بتعيين الروبوت الخاص بك للكشط.

الأسئلة المتداولة

الأسئلة الشائعة:

1. ماذا يعني تجاوز الـ CAPTCHA لتخطي اختبارات CAPTCHA لقشط الويب؟
إن تجاوز الـ CAPTCHAs هو ببساطة عملية إزالة الحواجز التي تنشأ أثناء كشط البيانات من العديد من المواقع. حيث أن اختبارات CAPTCHA مصممة للتحقق مما إذا كانت حركة مرور الويب عضوية.
2. ما هو ReCaptcha؟
يمنع ReCaptcha مواقع الويب الخاصة بك من الرسائل غير المرغوب فيها وحركة مرور الروبوتات الخبيثة. فهو ينشئ ألغازًا تفاعلية للتمييز بين حركة المرور العضوية وحركة مرور الروبوتات.
3. كيف سيساعد البروكسي المستخدمين في تجاوز الـ Captchas؟
عندما تقوم بإرسال طلبات الويب من روبوت أو أي حل كشط، قد تحدد الـ CAPTCHA بسهولة أن حركة المرور من روبوت غير مرغوب فيه. لذا، فإن استخدام عناوين البروكسي من البروكسي سيتيح لك الظهور بمظهر حركة مرور في الوقت الحقيقي.

الخاتمة

كانت هذه المقالة ستعطيك فكرة شاملة عن كيفية تجنب الـCAPTCHA أثناء كشط الويب. قد يكون تجنب الـCAPTCHA عملية معقدة. ومع ذلك، مع استخدام تقنيات محددة تمت مناقشتها في هذه المقالة، يمكنك تطوير الروبوت بطريقة تتجنب الـCAPTCHA.

نأمل أن تستفيد من جميع التقنيات التي تمت مناقشتها في هذا المقال.