شعار proxyscrape داكن

الأخلاقيات في مسح الويب

الكشط, Jan-25-20225 دقائق للقراءة

كشط الويب ليس مفهومًا جديدًا لأن الإنترنت بأكمله يعتمد عليه. على سبيل المثال، عندما تشارك رابط فيديو على يوتيوب على فيسبوك، يتم كشط بياناته حتى يتمكن الأشخاص من رؤية الصورة المصغرة للفيديو في منشورك. وبالتالي هناك طرق لا حصر لها لاستخدام كشط البيانات لصالح الجميع. ولكن هناك

جدول المحتويات

كشط الويب ليس مفهومًا جديدًا لأن الإنترنت بأكمله يعتمد عليه. على سبيل المثال، عندما تشارك رابط فيديو على يوتيوب على فيسبوك، يتم كشط بياناته حتى يتمكن الأشخاص من رؤية الصورة المصغرة للفيديو في منشورك. وبالتالي هناك طرق لا حصر لها لاستخدام كشط البيانات لصالح الجميع. ولكن هناك بعض الجوانب الأخلاقية التي ينطوي عليها كشط البيانات من الويب.

لنفترض أنك تقدمت بطلب للحصول على خطة تأمين صحي، وقمت بكل سرور بإعطاء معلوماتك الشخصية لمقدم الخدمة مقابل الخدمة التي يقدمها. ولكن ماذا لو قام شخص غريب بسحر تجريف الويب ببياناتك واستخدمها لأغراض شخصية. قد تبدأ الأمور في أن تصبح غير لائقة، أليس كذلك؟ هنا تأتي الحاجة إلى ممارسة تجريف الويب الأخلاقي. 

في هذه المقالة، سنناقش مدونة قواعد سلوك تجريف الويب والاعتبارات القانونية والأخلاقية.

مدونة قواعد السلوكيات الخاصة بكشط الويب

لممارسة تجريف الويب القانوني، عليك الالتزام بالقواعد البسيطة التالية.

لا تعطل الإنترنت - عليك أن تعرف أنه لا يمكن لجميع المواقع الإلكترونية تحمل آلاف الطلبات في الثانية. بعض المواقع الإلكترونية تسمح بذلك، لكن البعض الآخر قد يحظرك إذا أرسلت طلبات متعددة باستخدام نفس عنوان IP. على سبيل المثال، إذا قمت بكتابة مكشطة تتبع الارتباطات التشعبية، يجب عليك اختبارها على مجموعة بيانات أصغر أولاً والتأكد من أنها تقوم بما يفترض أن تقوم به. علاوة على ذلك، تحتاج إلى ضبط إعدادات المكشطة الخاصة بك للسماح بالتأخير بين الطلبات. 

عرض ملف robots.txt - تستخدم مواقع الويب ملفات robots.txt للسماح للروبوتات بمعرفة ما إذا كان يمكن الزحف إلى الموقع أم لا. عند استخراج البيانات من الويب، تحتاج إلى فهم ملف robots.txt واحترامه بشكل حاسم لتجنب التبعات القانونية. 

شارك ما يمكنك مشاركته - إذا حصلت على إذن لكشط البيانات في المجال العام وقمت بكشطها، يمكنك وضعها (على سبيل المثال، على موقع datahub.io) حتى يتمكن الآخرون من إعادة استخدامها. إذا قمت بكتابة مكشطة ويب، يمكنك مشاركة الكود الخاص بها (على Github على سبيل المثال) حتى يتمكن الآخرون من الاستفادة منها. 

لا تشارك المحتوى الذي تم تنزيله بشكل غير قانوني - لا بأس في بعض الأحيان من كشط البيانات لأغراض شخصية، حتى لو كانت المعلومات محمية بحقوق الطبع والنشر. ومع ذلك، من غير القانوني مشاركة البيانات التي لا تملك الحق في مشاركتها.

يمكنك أن تسأل بلطف - إذا كنت بحاجة إلى بيانات من منظمة معينة لمشروعك، يمكنك أن تسألهم مباشرةً إذا كان بإمكانهم تزويدك بالبيانات التي تريدها. وإلا يمكنك أيضًا استخدام المعلومات الأساسية للمؤسسة على موقعها الإلكتروني وتوفر على نفسك عناء إنشاء مكشطة ويب. 

الاعتبارات الأخلاقية لكشط الويب

عليك أن تضع في اعتبارك الأخلاقيات التالية أثناء كشط البيانات من الويب.

لا تسرق البيانات

عليك أن تعرف أن كشط الويب قد يكون غير قانوني في ظروف معينة. إذا كانت شروط وأحكام الموقع الإلكتروني الذي نريد كشطه تحظر على المستخدمين نسخ المحتوى وتنزيله، فيجب علينا عدم كشط تلك البيانات واحترام شروط ذلك الموقع الإلكتروني.

لا بأس من كشط البيانات غير المحمية بكلمة مرور خلف نظام المصادقة المحمي بكلمة مرور (البيانات المتاحة للجمهور)، مع الأخذ في الاعتبار عدم كسر الموقع الإلكتروني. ومع ذلك، يمكن أن تكون مشكلة محتملة إذا قمت بمشاركة البيانات التي تم كشطها بشكل أكبر. على سبيل المثال، إذا قمت بتنزيل محتوى من موقع إلكتروني ونشره على موقع إلكتروني آخر، فسيتم اعتبار كشطك غير قانوني ويشكل انتهاكًا لحقوق الطبع والنشر. 

لا تكسر الشبكة

عندما تقوم بكتابة مكشطة ويب، فإنك تستعلم عن موقع ويب بشكل متكرر ومن المحتمل أن تصل إلى عدد كبير من صفحاته. لكل صفحة، يتم إرسال طلب إلى خادم الويب الذي يستضيف الموقع. يقوم الخادم بمعالجة الطلب ويرسل استجابة إلى الكمبيوتر الذي يقوم بتشغيل الشيفرة البرمجية. تستهلك الطلبات التي نرسلها موارد الخادم. لذا، إذا أرسلنا الكثير من الطلبات خلال فترة زمنية قصيرة، يمكننا منع المستخدمين العاديين الآخرين من الوصول إلى الموقع خلال تلك الفترة.

غالبًا ما يقوم المخترقون بهجمات الحرمان من الخدمة (DoS) لإغلاق الشبكة أو الجهاز، مما يجعل الوصول إليه غير ممكن للمستخدمين المستهدفين. ويقومون بذلك عن طريق إرسال معلومات إلى الخادم تؤدي إلى تعطله أو عن طريق إغراق الموقع المستهدف بحركة المرور. 

تشتمل معظم خوادم الويب الحديثة على تدابير لدرء الاستخدام غير المشروع لمواردها، حيث أن هجمات DoS شائعة على الإنترنت. فهي متيقظة للأعداد الكبيرة من الطلبات القادمة من عنوان IP واحد. يمكنهم حظر هذا العنوان إذا أرسل طلبات متعددة خلال فترة زمنية قصيرة.

اسأل وشارك

من المفيد أن تسأل القيّمين أو مالكي البيانات التي تخطط لكشطها، اعتمادًا على نطاق مشروعك. يمكنك أن تسألهم عما إذا كانت لديهم بيانات متاحة بصيغة منظمة يمكن أن تناسب احتياجات مشروعك. إذا كنت ترغب في استخدام بياناتهم لأغراض بحثية بطريقة يمكن أن تهمهم، يمكنك أن توفر على نفسك عناء كتابة مكشطة الويب. 

يمكنك أيضًا إنقاذ الآخرين من عناء كتابة مكشطة الويب. على سبيل المثال، إذا قمت بنشر بياناتك أو وثائقك كجزء من مشروع البحث، فقد يرغب شخص ما في الحصول على بياناتك لاستخدامها. إذا كنت ترغب في ذلك، يمكنك تزويد الآخرين بطريقة لتنزيل بياناتك الأولية بتنسيق منظم، وبالتالي توفير

السلامة خير من الندم

تختلف تشريعات خصوصية البيانات وحقوق النشر من بلد إلى آخر. تحتاج إلى التحقق من القوانين التي تنطبق في سياقك. على سبيل المثال، في دول مثل أستراليا، من غير القانوني في دول مثل أستراليا كشط المعلومات الشخصية مثل أرقام الهواتف وعناوين البريد الإلكتروني والأسماء حتى لو كانت متاحة للعامة.

يجب عليك الالتزام بمدونة قواعد سلوك كشط الويب لكشط البيانات لاستخدامك الشخصي. ومع ذلك، إذا كنت ترغب في جمع كميات كبيرة من البيانات لأغراض تجارية أو بحثية، فربما يتعين عليك طلب المشورة القانونية.

البروكسيات لقشط الويب الأخلاقي

أنت تعلم أن البروكسيات لها مجموعة واسعة من التطبيقات. الغرض الأساسي منها هو إخفاء عنوان IP وموقع المستخدم. كما تسمح البروكسيات للمستخدمين بالوصول إلى المحتوى المقيد جغرافياً عند تصفح الإنترنت. وبالتالي، يمكن للمستخدمين الوصول إلى الصفحات المخفية حيث تتجاوز البروكسيات المحتوى والقيود الجغرافية.

يمكنك استخدام الوكلاء لزيادة مخرجات الكاشطة إلى أقصى حد لأنها تقلل من معدلات الحظر. بدونها، يمكنك كشط الحد الأدنى من البيانات من الويب. ذلك لأن الوكلاء يتجاوزون معدلات الزحف مما يسمح للعناكب باستخراج المزيد من البيانات. يشير معدل الزحف إلى عدد الطلبات التي يمكنك إرسالها في إطار زمني معين. يختلف هذا المعدل من موقع لآخر. 

اختيار الوكلاء

يمكنك اختيار الوكلاء حسب متطلبات مشروعك. يمكنك إما استخدام وكيل خاص أو وكيل مشترك.

  • البروكسيات الخاصة هي الأفضل إذا كان مشروعك يحتاج إلى أداء عالٍ واتصال بأقصى قدر ممكن.
  • تعمل الوكلاء المشتركون بشكل جيد عند تنفيذ مشروع صغير الحجم بميزانية محدودة.
  • لا يُنصح باستخدام البروكسيات المجانية عند استخراج البيانات من الويب. وذلك لأنها مفتوحة للجمهور وغالباً ما تُستخدم في أنشطة غير قانونية.

يمكنك تحديد مصادر IP بصرف النظر عن اختيار خوادم بروكسي لمشروعك. هناك ثلاث فئات من خوادم البروكسي. 

وكلاء مركز البيانات - هذه هي أرخص البروكسيات وأكثرها عملية لكشط الويب. يتم إنشاء عناوين IP هذه على خوادم مستقلة وتستخدم بكفاءة لإنجاز مشاريع الكشط على نطاق واسع.

الوكلاء السكنيون - قد يكون من الصعب الحصول عليهم لأنهم تابعون لجهات خارجية. 

بروكسيات الهاتف المحمول - هي الأغلى ثمناً وهي رائعة للاستخدام إذا كان عليك جمع البيانات التي لا تظهر إلا على الأجهزة المحمولة.

خاتمة حول أخلاقيات البحث عن المواقع الإلكترونية

ناقشنا حتى الآن أنه يمكنك استخراج البيانات من الإنترنت مع مراعاة الاعتبارات القانونية والأخلاقية. على سبيل المثال، يجب ألا تسرق البيانات من الويب. لا يمكنك مشاركة البيانات التي لا تملك الحق فيها. إذا كنت بحاجة إلى بيانات مؤسسة ما لمشروعك، فيمكنك أن تسألها بلطف عما إذا كان بإمكانها مشاركة بياناتها الأولية بتنسيق منظم. وإلا يمكنك كتابة مكشطة الويب الخاصة بك لاستخراج البيانات من الموقع الإلكتروني إذا سمحوا بذلك. علاوةً على ذلك، ناقشنا أنه يمكنك اختيار وكلاء مختلفين حسب احتياجات مشروعك. يمكنك استخدام مركز البيانات أو عناوين IP السكنية لأنها تستخدم على نطاق واسع لكشط الويب.