شعار proxyscrape داكن

سكرابوكسي: الأداة المثلى لكشط الويب دون قيود

الكشط, أدلة إرشادية, كيفية القيام بذلك, Jun-15-20245 دقائق للقراءة

لقد أصبح تجريف الويب أداة أساسية للمطورين وعلماء البيانات ومحترفي تكنولوجيا المعلومات الذين يتطلعون إلى استخراج بيانات قيّمة من المواقع الإلكترونية. ومع ذلك، فإن التحدي المتمثل في تجنب الحظر، وإدارة معدلات الطلبات، والحفاظ على إخفاء الهوية قد يكون شاقاً. أدخل ProxyScrape و Scrapoxy - وهماأداتان قويتان تجعلان تجريف الويب أكثر كفاءة وفعالية عند دمجهما.

في هذا المنشور، سنستكشف كيفية الجمع بين ProxyScrape مع Scrapoxy، مما يوفر لك حلاً سلسًا لاحتياجاتك في كشط الويب. لنبدأ!

Fancy a video instead? - Watch this!

مقدمة في سكرابوكسي و ProxyScrape

ما هو سكرابوكسي؟

Scrapoxy هي أداة لإدارة البروكسي تعمل على تبسيط عملية دمج البروكسيات في مشاريع كشط الويب الخاصة بك. يضمن عدم اكتشاف أنشطة الكشط الخاصة بك من خلال تدوير الوكلاء وإدارة معدلات الطلبات.

ما هو ProxyScrape ؟

ProxyScrape هي خدمة قوية تقدم مجموعة واسعة من حلول البروكسي، بما في ذلك قوائم البروكسي المجانية، والبروكسي المتميز، والبروكسي السكني، وواجهة برمجة تطبيقات تجريف الويب. مع ميزات مثل الاستهداف الجغرافي، وعرض جافا سكريبت، وتنفيذ الإجراءات، تم تصميم ProxyScrape للتعامل مع أكثر مهام الكشط تعقيدًا.

أهمية البروكسيات في البحث عن المواقع الإلكترونية

يعد استخدام الوكلاء أمرًا بالغ الأهمية لعدة أسباب:

  • جمع البيانات: تمكّنك البروكسيات من جمع البيانات من المواقع الإلكترونية دون أن تتعرض للحظر.
  • إخفاء الهوية: تساعد في الحفاظ على إخفاء هويتك من خلال إخفاء عنوان IP الخاص بك.
  • تجاوز القيود: تتيح لك البروكسيات تجاوز القيود الجغرافية والوصول إلى المحتوى من مناطق مختلفة.

الدمج ProxyScrape مع سكرابوكسي

إن دمج ProxyScrape مع Scrapoxy هو عملية مباشرة يمكن أن تعزز بشكل كبير من كفاءة كشط الويب لديك. اتبع هذه الخطوات للبدء:

الخطوة 1: الحصول على وكلاء من ProxyScrape

  • اشترك في ProxyScrape: قم بزيارة الموقع الإلكتروني ProxyScrape وقم بالتسجيل للحصول على حساب.
  • اختر خطة البروكسي الخاصة بك: بناءً على احتياجاتك، اختر إما قائمة البروكسي المجانية أو الباقة المدفوعة التي تقدم وكلاء مقيمين أو وكلاء مخصصين.
  • قم بتنزيل قائمة الوكلاء: ادخل إلى لوحة التحكم وقم بتنزيل قائمة الوكلاء بتنسيق .txt.

الخطوة 2: تثبيت السكرابوكسي

لإعداد Scrapoxy، يجب أن تفهم أولاً أنه يعمل كحاوية Docker. وهذا يسمح بنشر وإدارة مدير الوكيل بسهولة. اتبع هذه الخطوات لتشغيل Scrapoxy على جهازك المحلي:

  • إذا لم يكن مثبتًا بالفعل، فقم بتثبيت Docker أولاً.
  • قم بتشغيل **المحطة الطرفية** ونفّذ الأمر التالي:
docker run -d -p 8888:8888 -p 8890:8890 -v ./scrapoxy:/cfg -e AUTH_LOCAL_USERNAME=admin-e AUTH_LOCAL_PASSWORD=password-e BACKEND_JWT_SECRET=secret1-e FRONTEND_JWT_SECRET=secret2-e STORAGE_FILE_FIL_FILENAME=/cfg/scrapoxy.json fabienvauchelles/scrapoxy
  • استبدل المشرف وكلمة المرور والسر1 والسر2 بقيمك الخاصة.
  • يمكنك الآن الوصول إلى واجهة المستخدم على http://localhost:8890، باستخدام اسم المستخدم "admin" وكلمة المرور "password".

الخطوة 3: إعداد مشروع جديد

في سكرابوكسي، يشير المشروع إلى مجموعة محددة من التكوينات والبروكسيات التي تديرها لمهمة معينة لكشط الويب. يتيح لك كل مشروع تحديد الوكلاء الذين سيتم استخدامهم، وإعداد بيانات الاعتماد، وتهيئة معدلات الطلبات وسياسات التناوب. يسهل هذا النهج المعياري التعامل مع متطلبات مواقع الويب المختلفة ويحسن الكفاءة الإجمالية ومعدل نجاح أنشطة كشط الويب الخاصة بك.

أولاً، لنقم بإعداد مشروع حتى نتمكن من الانتقال إلى الخطوات التالية:

  • في الصفحة الرئيسية، انقر على زر "إنشاء مشروع جديد".
  • هنا ستتم مطالبتك باستمارة تحتاج إلى ملء المعلومات أعلاه:
  • الاسم: المعرف الفريد للمشروع;
  • اسم المستخدم: اسم مستخدم المصادقة المستخدم لمصادقة الوكيل في الطلبات 
  • كلمة المرور: كلمة مرور المصادقة المستخدمة لمصادقة الوكيل في الطلبات 
  • تجديد الرمز المميز: انقر على هذا الزر لتجديد اسم المستخدم وكلمة المرور;
  • الحد الأدنى من الوكلاء: الحد الأدنى لعدد الوكلاء المتصلين بالإنترنت عندما تكون حالة المشروع CALM;
  • تدوير الوكلاء تلقائيًا: في حالة التمكين، يتم تدوير الوكلاء تلقائيًا على فترات عشوائية ضمن نطاق التأخير المحدد;
  • التوسيع التلقائي: عند التمكين، تتحول حالة المشروع إلى HOT عند تلقي طلب، ويتم تشغيل جميع الوكلاء;
  • التخفيض التلقائي: عند التمكين، تتحول حالة المشروع إلى CALM إذا لم يتم استلام أي طلبات بعد تأخير محدد، ويتم إيقاف جميع الوكلاء;
  • اعتراض طلبات HTTPS باستخدام MITM: في حالة تمكينه، يعترض Scrapoxy طلبات HTTPS واستجاباته ويعدّلها.
  • الشهادة: قم بتثبيت شهادة CA هذه لتجنب التحذيرات الأمنية في المتصفحات أو أدوات الكشط;
  • الحفاظ على نفس الوكيل مع حقن ملفات تعريف الارتباط: في حالة التمكين، يقوم Scrapoxy بحقن ملف تعريف ارتباط للحفاظ على نفس الوكيل لجلسة المتصفح (ملف تعريف الارتباط اللاصق);
  • تجاوز وكيل المستخدم: في حالة التمكين، يتجاوز Scrapoxy رأس وكيل المستخدم بالقيمة المعينة لمثيل الوكيل. ستحتوي جميع الطلبات التي يتم إجراؤها باستخدام هذا المثيل على نفس رأس وكيل المستخدم;

داخل المشروع، يمكننا ربط الوكلاء لدينا باستخدام خاصية تسمى موصل في سكرابوكسي. في الخطوة التالية، دعنا نستكشف ما يتضمنه ذلك.

الخطوة 4: إعداد موصل ProxyList Connector

كما يوحي الاسم، يعمل الموصل كجسر بين موفر البروكسي الخاص بك و Scrapoxy. فهو يتيح لك الحصول على البروكسيات من مزودك وإدارتها بفعالية. نظرًا لأن Scrapoxy لا يمكنه دعم كل مزود بروكسي بشكل مباشر، يمكنك إدخال قائمة من البروكسيات من أي مزود، وسيتم دمجها في Scrapoxy. في سكرابوكسي، يشار إلى هذا الرابط باسم ProxyList. ستجد أدناه دليلاً مفصلاً خطوة بخطوة حول كيفية دمج قائمة البروكسيات في موصل ProxyList.

قبل إنشاء الموصل، نحتاج إلى إنشاء بيانات اعتماد جديدة. كما يوحي الاسم، تسمح لك بيانات الاعتماد بمصادقة الوكلاء من موصل. في هذا المثال، نحن نستخدم موصل ProxyList. نظرًا لأن لدينا بالفعل قائمة وكلاء لدينا، فلا داعي لمصادقتهم في Scrapoxy. ومع ذلك، تذكر أنه في كل مرة ننشئ فيها موصلًا، يجب أن يكون لدينا مثيل اعتماد له. في موصل ProxyList، تعمل بيانات الاعتماد ببساطة كعنصر نائب.

في الأقسام التالية، سنرشدك في الأقسام التالية إلى عملية إعداد بيانات الاعتماد أولاً، ثم تكوين موصل ProxyList

  • افتح واجهة مستخدم سكرابوكسي، وانتقل إلى المشروع الذي تريده واختر السوق:
  • إنشاء بيانات اعتماد جديدة:
  • حدد قائمة الوكلاء لإنشاء بيانات اعتماد جديدة (استخدم البحث إذا لزم الأمر).
  • املأ النموذج بإدخال اسم لبيانات الاعتماد هذه وانقر على "إنشاء"
  • في اللوحة اليسرى، انقر على "موصلات" وأنشئ موصلًا جديدًا وحدد قائمة الوكلاء كموفر:
  • أكمل النموذج بالمعلومات التالية:
    • أوراق الاعتماد: بيانات الاعتماد السابقة;
    • الاسم: اسم الموصل;
    • # الوكلاء: عدد المثيلات المطلوب إنشاؤها.
    • مهلة البروكسي: المدة القصوى للاتصال بالوكيل قبل اعتباره غير متصل;
    • ركلة الوكيل: في حالة التمكين، المدة القصوى لبقاء الوكيل غير متصل قبل إزالته من التجمع;
    • مهلة الوكلاء الأحرار: نفس مهلة البروكسيات ولكن لتجمع البروكسيات الحرة;
    • ركلة الوكلاء الأحرار: مثل ركلة الوكلاء ولكن لمجموعة الوكلاء الأحرار.

إضافة مصدر وكلاء

  • في الموصل، انقر فوق تحديث.
  • قم بلصق قائمة ProxyScrape من الوكلاء في منطقة النص وانقر على أيقونة زائد.

يدعم سكرابوكسي التنسيقات التالية:

  • ip: المنفذ
  • IP:المنفذ:اسم المستخدم:كلمة المرور
  • http://ip:port
  • http://username:password@ip:port
  • https://ip:port
  • https://username:password@ip:port
  • socks://ip:port (shortcut for socks5://ip:port)
  • socks://username:password@ip:port (shortcut for socks5://username:password@ip:port)
  • socks4:: // IP:port
  • socks4:: //اسم المستخدم:كلمة المرور@IP:المنفذ
  • socks5:: // IP:port
  • socks5:: //اسم المستخدم:كلمة المرور@IP:المنفذ

 بدء تشغيل الموصل

  • ابدأ المشروع
  • ابدأ تشغيل الموصل.

الخطوة 5: دمج Scrapoxy في عملية كشط الويب الخاصة بك.

سنعرض في هذا المثال كيفية دمج سكرابوكسي مع مكتبة Python HTTP الشهيرة طلبات مكتبة Python HTTP.

  • تثبيت المكتبة
    • طلبات التثبيت
  • استرداد شهادة CA ورمز المشروع المميز
    • افتح واجهة مستخدم سكرابوكسي، وانتقل إلى إعدادات المشروع;
    • انقر على تنزيل شهادة CA واحفظ الملف (تذكر الرمز المميز للمشروع (التنسيق هو USERNAME:PASSWORD);
  • إنشاء البرنامج النصي وتشغيله
    • قم بإنشاء ملف باسم requests.py باسم requests.py بالمحتوى التالي:
import requests
ca = "/tmp/scrapoxy-ca.crt"
proxy = "http://USERNAME:PASSWORD@localhost:8888"
r = requests.get(
   "https://fingerprint.scrapoxy.io",
   proxies={"http": proxy, "https": proxy},
   verify=ca
)
print("proxy instance:", r.headers["x-scrapoxy-proxyname"])
print(r.json())

استبدل USERNAME وPASSWORD ببيانات الاعتماد التي نسختها سابقًا.

يتضمن Scrapoxy رأس x-scrapoxy-proxyname في كل استجابة، يشير إلى اسم مثيل الوكيل المعين للطلب.

لمزيد من الأمثلة على تطبيقات سكرابوكسي، ندعوك لاستكشاف هذا الرابط.

أفضل الممارسات لكشط الويب الفعال

لتحقيق أقصى استفادة من ProxyScrape وسكرابوكسي، ضع في اعتبارك أفضل الممارسات التالية:

  • تدوير البروكسيات: قم بتدوير الوكلاء بانتظام لتجنب الكشف والحظر.
  • إدارة معدلات الطلبات: حافظ على معدلات الطلبات معقولة لمنع التحميل الزائد على الموقع الإلكتروني المستهدف.
  • ابقَ غير مكتشف: استخدم العناوين وملفات تعريف الارتباط لتقليد السلوك البشري وتجنب لفت الانتباه إلى أنشطة الكشط الخاصة بك.

حالة الاستخدام في العالم الحقيقي 

لنفترض أنك تقوم بكشط بيانات المنتج من موقع إلكتروني للتجارة الإلكترونية. من خلال دمج ProxyScrape مع Scrapoxy، يمكنك:

  • احصل على عناوين URL للمنتجات: استخدم وكلاء ProxyScrape لجمع عناوين URL الخاصة بالمنتجات دون أن يتم حظرها.
  • استخرج تفاصيل المنتج: قم بتدوير الوكلاء باستخدام Scrapoxy لكشط تفاصيل المنتج مثل السعر والتوافر والمراجعات
  • تخزين البيانات بكفاءة: حفظ البيانات المستخرجة في قاعدة بيانات لتحليلها.

الخاتمة

يوفر التكامل بين ProxyScrape مع Scrapoxy حلاً سلسًا لكشط الويب بكفاءة. باستخدام البروكسيات للحفاظ على إخفاء الهوية وتجاوز القيود وإدارة معدلات الطلب، يمكنك تحسين قدراتك على استخراج البيانات بشكل كبير.

هل أنت مستعد للارتقاء بتجربة كشط الويب إلى المستوى التالي؟ قم بالتسجيل في ProxyScrape اليوم وابدأ في دمجها مع Scrapoxy للحصول على تجربة كشط سلسة وفعالة وقوية.

نود أن نسمع عن تجاربك مع ProxyScrape وسكرابوكسي! شاركنا قصص نجاحك وتحدياتك ونصائحك في التعليقات أدناه. ولا تنس استكشاف المزيد من المحتوى حول كشط الويب على مدونتنا. كشط سعيد!