تريد المساعدة؟ إليك خياراتك:","كرانش بيس","نبذة عنا","شكراً للجميع على الدعم الرائع!","روابط سريعة","برنامج الإحالة","بريميوم","ProxyScrape تجربة متميزة","مدقق الوكلاء عبر الإنترنت","أنواع الوكلاء","الدول الوكيلة","حالات استخدام الوكيل","مهم","سياسة ملفات تعريف الارتباط","إخلاء المسؤولية","سياسة الخصوصية","الشروط والأحكام","وسائل التواصل الاجتماعي","فيسبوك","لينكد إن","تويتر","كورا","برقية","الخلاف","\n © حقوق الطبع والنشر © 2024 - ثيب بي في | بروغسترات 18 | 2812 ميكلين | بلجيكا | ضريبة القيمة المضافة BE 0749 716 760\n"]}
كشط الويب ليس مفهومًا جديدًا لأن الإنترنت بأكمله يعتمد عليه. على سبيل المثال، عندما تشارك رابط فيديو على يوتيوب على فيسبوك، يتم كشط بياناته حتى يتمكن الأشخاص من رؤية الصورة المصغرة للفيديو في منشورك. وبالتالي هناك طرق لا حصر لها لاستخدام كشط البيانات لصالح الجميع. ولكن هناك
كشط الويب ليس مفهومًا جديدًا لأن الإنترنت بأكمله يعتمد عليه. على سبيل المثال، عندما تشارك رابط فيديو على يوتيوب على فيسبوك، يتم كشط بياناته حتى يتمكن الأشخاص من رؤية الصورة المصغرة للفيديو في منشورك. وبالتالي هناك طرق لا حصر لها لاستخدام كشط البيانات لصالح الجميع. ولكن هناك بعض الجوانب الأخلاقية التي ينطوي عليها كشط البيانات من الويب.
لنفترض أنك تقدمت بطلب للحصول على خطة تأمين صحي، وقمت بكل سرور بإعطاء معلوماتك الشخصية لمقدم الخدمة مقابل الخدمة التي يقدمها. ولكن ماذا لو قام شخص غريب بسحر تجريف الويب ببياناتك واستخدمها لأغراض شخصية. قد تبدأ الأمور في أن تصبح غير لائقة، أليس كذلك؟ هنا تأتي الحاجة إلى ممارسة تجريف الويب الأخلاقي.
في هذه المقالة، سنناقش مدونة قواعد سلوك تجريف الويب والاعتبارات القانونية والأخلاقية.
لممارسة تجريف الويب القانوني، عليك الالتزام بالقواعد البسيطة التالية.
لا تعطل الإنترنت - عليك أن تعرف أنه لا يمكن لجميع المواقع الإلكترونية تحمل آلاف الطلبات في الثانية. بعض المواقع الإلكترونية تسمح بذلك، لكن البعض الآخر قد يحظرك إذا أرسلت طلبات متعددة باستخدام نفس عنوان IP. على سبيل المثال، إذا قمت بكتابة مكشطة تتبع الارتباطات التشعبية، يجب عليك اختبارها على مجموعة بيانات أصغر أولاً والتأكد من أنها تقوم بما يفترض أن تقوم به. علاوة على ذلك، تحتاج إلى ضبط إعدادات المكشطة الخاصة بك للسماح بالتأخير بين الطلبات.
عرض ملف robots.txt - تستخدم مواقع الويب ملفات robots.txt للسماح للروبوتات بمعرفة ما إذا كان يمكن الزحف إلى الموقع أم لا. عند استخراج البيانات من الويب، تحتاج إلى فهم ملف robots.txt واحترامه بشكل حاسم لتجنب التبعات القانونية.
شارك ما يمكنك مشاركته - إذا حصلت على إذن لكشط البيانات في المجال العام وقمت بكشطها، يمكنك وضعها (على سبيل المثال، على موقع datahub.io) حتى يتمكن الآخرون من إعادة استخدامها. إذا قمت بكتابة مكشطة ويب، يمكنك مشاركة الكود الخاص بها (على Github على سبيل المثال) حتى يتمكن الآخرون من الاستفادة منها.
لا تشارك المحتوى الذي تم تنزيله بشكل غير قانوني - لا بأس في بعض الأحيان من كشط البيانات لأغراض شخصية، حتى لو كانت المعلومات محمية بحقوق الطبع والنشر. ومع ذلك، من غير القانوني مشاركة البيانات التي لا تملك الحق في مشاركتها.
يمكنك أن تسأل بلطف - إذا كنت بحاجة إلى بيانات من منظمة معينة لمشروعك، يمكنك أن تسألهم مباشرةً إذا كان بإمكانهم تزويدك بالبيانات التي تريدها. وإلا يمكنك أيضًا استخدام المعلومات الأساسية للمؤسسة على موقعها الإلكتروني وتوفر على نفسك عناء إنشاء مكشطة ويب.
عليك أن تضع في اعتبارك الأخلاقيات التالية أثناء كشط البيانات من الويب.
عليك أن تعرف أن كشط الويب قد يكون غير قانوني في ظروف معينة. إذا كانت شروط وأحكام الموقع الإلكتروني الذي نريد كشطه تحظر على المستخدمين نسخ المحتوى وتنزيله، فيجب علينا عدم كشط تلك البيانات واحترام شروط ذلك الموقع الإلكتروني.
لا بأس من كشط البيانات غير المحمية بكلمة مرور خلف نظام المصادقة المحمي بكلمة مرور (البيانات المتاحة للجمهور)، مع الأخذ في الاعتبار عدم كسر الموقع الإلكتروني. ومع ذلك، يمكن أن تكون مشكلة محتملة إذا قمت بمشاركة البيانات التي تم كشطها بشكل أكبر. على سبيل المثال، إذا قمت بتنزيل محتوى من موقع إلكتروني ونشره على موقع إلكتروني آخر، فسيتم اعتبار كشطك غير قانوني ويشكل انتهاكًا لحقوق الطبع والنشر.
عندما تقوم بكتابة مكشطة ويب، فإنك تستعلم عن موقع ويب بشكل متكرر ومن المحتمل أن تصل إلى عدد كبير من صفحاته. لكل صفحة، يتم إرسال طلب إلى خادم الويب الذي يستضيف الموقع. يقوم الخادم بمعالجة الطلب ويرسل استجابة إلى الكمبيوتر الذي يقوم بتشغيل الشيفرة البرمجية. تستهلك الطلبات التي نرسلها موارد الخادم. لذا، إذا أرسلنا الكثير من الطلبات خلال فترة زمنية قصيرة، يمكننا منع المستخدمين العاديين الآخرين من الوصول إلى الموقع خلال تلك الفترة.
غالبًا ما يقوم المخترقون بهجمات الحرمان من الخدمة (DoS) لإغلاق الشبكة أو الجهاز، مما يجعل الوصول إليه غير ممكن للمستخدمين المستهدفين. ويقومون بذلك عن طريق إرسال معلومات إلى الخادم تؤدي إلى تعطله أو عن طريق إغراق الموقع المستهدف بحركة المرور.
تشتمل معظم خوادم الويب الحديثة على تدابير لدرء الاستخدام غير المشروع لمواردها، حيث أن هجمات DoS شائعة على الإنترنت. فهي متيقظة للأعداد الكبيرة من الطلبات القادمة من عنوان IP واحد. يمكنهم حظر هذا العنوان إذا أرسل طلبات متعددة خلال فترة زمنية قصيرة.
من المفيد أن تسأل القيّمين أو مالكي البيانات التي تخطط لكشطها، اعتمادًا على نطاق مشروعك. يمكنك أن تسألهم عما إذا كانت لديهم بيانات متاحة بصيغة منظمة يمكن أن تناسب احتياجات مشروعك. إذا كنت ترغب في استخدام بياناتهم لأغراض بحثية بطريقة يمكن أن تهمهم، يمكنك أن توفر على نفسك عناء كتابة مكشطة الويب.
يمكنك أيضًا إنقاذ الآخرين من عناء كتابة مكشطة الويب. على سبيل المثال، إذا قمت بنشر بياناتك أو وثائقك كجزء من مشروع البحث، فقد يرغب شخص ما في الحصول على بياناتك لاستخدامها. إذا كنت ترغب في ذلك، يمكنك تزويد الآخرين بطريقة لتنزيل بياناتك الأولية بتنسيق منظم، وبالتالي توفير
تختلف تشريعات خصوصية البيانات وحقوق النشر من بلد إلى آخر. تحتاج إلى التحقق من القوانين التي تنطبق في سياقك. على سبيل المثال، في دول مثل أستراليا، من غير القانوني في دول مثل أستراليا كشط المعلومات الشخصية مثل أرقام الهواتف وعناوين البريد الإلكتروني والأسماء حتى لو كانت متاحة للعامة.
يجب عليك الالتزام بمدونة قواعد سلوك كشط الويب لكشط البيانات لاستخدامك الشخصي. ومع ذلك، إذا كنت ترغب في جمع كميات كبيرة من البيانات لأغراض تجارية أو بحثية، فربما يتعين عليك طلب المشورة القانونية.
أنت تعلم أن البروكسيات لها مجموعة واسعة من التطبيقات. الغرض الأساسي منها هو إخفاء عنوان IP وموقع المستخدم. كما تسمح البروكسيات للمستخدمين بالوصول إلى المحتوى المقيد جغرافياً عند تصفح الإنترنت. وبالتالي، يمكن للمستخدمين الوصول إلى الصفحات المخفية حيث تتجاوز البروكسيات المحتوى والقيود الجغرافية.
يمكنك استخدام الوكلاء لزيادة مخرجات الكاشطة إلى أقصى حد لأنها تقلل من معدلات الحظر. بدونها، يمكنك كشط الحد الأدنى من البيانات من الويب. ذلك لأن الوكلاء يتجاوزون معدلات الزحف مما يسمح للعناكب باستخراج المزيد من البيانات. يشير معدل الزحف إلى عدد الطلبات التي يمكنك إرسالها في إطار زمني معين. يختلف هذا المعدل من موقع لآخر.
يمكنك اختيار الوكلاء حسب متطلبات مشروعك. يمكنك إما استخدام وكيل خاص أو وكيل مشترك.
يمكنك تحديد مصادر IP بصرف النظر عن اختيار خوادم بروكسي لمشروعك. هناك ثلاث فئات من خوادم البروكسي.
وكلاء مركز البيانات - هذه هي أرخص البروكسيات وأكثرها عملية لكشط الويب. يتم إنشاء عناوين IP هذه على خوادم مستقلة وتستخدم بكفاءة لإنجاز مشاريع الكشط على نطاق واسع.
الوكلاء السكنيون - قد يكون من الصعب الحصول عليهم لأنهم تابعون لجهات خارجية.
بروكسيات الهاتف المحمول - هي الأغلى ثمناً وهي رائعة للاستخدام إذا كان عليك جمع البيانات التي لا تظهر إلا على الأجهزة المحمولة.
ناقشنا حتى الآن أنه يمكنك استخراج البيانات من الإنترنت مع مراعاة الاعتبارات القانونية والأخلاقية. على سبيل المثال، يجب ألا تسرق البيانات من الويب. لا يمكنك مشاركة البيانات التي لا تملك الحق فيها. إذا كنت بحاجة إلى بيانات مؤسسة ما لمشروعك، فيمكنك أن تسألها بلطف عما إذا كان بإمكانها مشاركة بياناتها الأولية بتنسيق منظم. وإلا يمكنك كتابة مكشطة الويب الخاصة بك لاستخراج البيانات من الموقع الإلكتروني إذا سمحوا بذلك. علاوةً على ذلك، ناقشنا أنه يمكنك اختيار وكلاء مختلفين حسب احتياجات مشروعك. يمكنك استخدام مركز البيانات أو عناوين IP السكنية لأنها تستخدم على نطاق واسع لكشط الويب.