دليل لتبسيط عملية كشط الويب في بايثون باستخدام AutoScraper

أدلة إرشادية, كشط, بايثون, 24 مايو - 24 مايو - 20245 دقائق للقراءة

AutoScraper عبارة عن مكتبة قوية ومفتوحة المصدر لكشط الويب لبايثون تعمل على تبسيط عملية استخراج البيانات من المواقع الإلكترونية. على عكس أطر عمل كشط الويب التقليدية التي تتطلب ترميزًا مكثفًا لتحليل محتوى HTML، يمكن ل AutoScraper إنشاء قواعد تلقائيًا لاستخراج المعلومات المطلوبة بناءً على الأمثلة التي تقدمها. AutoScraper مناسب بشكل خاص للمبتدئين في عالم كشط الويب. كما أن واجهته سهلة الاستخدام وتوليد القواعد التلقائية تجعله في متناول أولئك الذين قد لا يتمتعون بخبرة واسعة في البرمجة.

الميزات الرئيسية لـ AutoScraper

سهولة الاستخدام: باستخدام بضعة أسطر من التعليمات البرمجية، يمكنك إعداد مكشطة ويب تتطلب الحد الأدنى من الصيانة.
استخراج البيانات بكفاءة: يتعلّم نموذج AutoScraper بنية صفحات الويب للتكيف مع التغييرات الطفيفة، مما يقلل من الحاجة إلى إجراء تعديلات متكررة.
متعدد الاستخدامات: يدعم مجموعة كبيرة من المواقع الإلكترونية ويمكن دمجه في خطوط أنابيب بيانات أكبر.

بدء التشغيل السريع لـ AutoScraper

لنفترض أنك تريد كشط متجر تجارة إلكترونية دون التعامل مع تحليل HTML. يمكّنك AutoScraper من إدخال أسماء المنتجات في "قائمة_المطلوبات"، وسيتعلم تلقائيًا بنية HTML ويقوم بتحليل المنتجات اللاحقة من تلقاء نفسه.

فيما يلي مثال واضح لتوضيح العملية، بما في ذلك تنفيذ الوكلاء:

الخطوة 1: تثبيت AutoScraper

أولاً، ستحتاج إلى تثبيت AutoScraper. يمكنك القيام بذلك باستخدام pip:

من AutoScraper استيراد AutoScraper

الخطوة 3: تحديد عنوان URL وقائمة المطلوبين

حدد عنوان URL الذي تريد كشطه والعناصر أو المنتجات التي ترغب في استخراجها. من خلال القيام بذلك، يستطيع AutoScraper التعرف على بنية HTML وتحليل جميع العناصر المتشابهة في هذا الإطار بدقة:

عنوان url = 'https://books.toscrape.com/'
مطلوب_قائمة = [
   "Tipping the Velvet",
   "Soumission",
]

الخطوة 4: بناء الكاشطة

استخدم أداة الكشط التلقائي لبناء نموذج الكشط الخاص بك:

    scraper = AutoScraper()
    
    proxies = {
        "http": 'http://test_user112:[email protected]:6060',
        "https": 'http://test_user112:[email protected]:6060',
    }
    #  if you wish to use the same scraper again
    scraper.save('books_to_scrape')
    result = scraper.build(url, wanted_list, request_args=dict(proxies=proxies))
    print(result)

الخطوة 5: (اختياري) إعادة استخدام الكاشطة السابقة

    مكشطة = مكشطة تلقائية()

   scraper.load('books_to_scrape')

    النتيجة = scraper.get_result(url)

الناتج الذي تم إنشاؤه بواسطة الكود:

[" ضوء في ...", 
"قلب المخمل 
"Soumission 
" أشياء حادة 
"Sapiens: تاريخ موجز ... 
" قداس القداس الأحمر"، " الأسرار الصغيرة القذرة ..."، " الأسرار الصغيرة القذرة ... 
" المرأة القادمة A ...', 
" الأولاد في ..."،" الأولاد في ...", 
" ماريا السوداء 
"قلوب جائعة( التجارةالمثلثية...", 
"سونيتات شكسبير", 
" حررني 
"سكوت بيلغريم الثمين الصغير ..." 
"مزقوه و ..."،"مزقوه و ..."، 
" يمكن أن تكون فرقتنا ..."،" فرقتنا يمكن أن تكون ..."، 
"أوليو"، 
"Mesaerion: أفضل العلوم ...'، 'أفضل العلوم ...', 
"التحررية للمبتدئين", 
"إنها فقط جبال الهيمالايا"، "إنها فقط جبال الهيمالايا", 
" ضوء في العلية 
"Sapiens: تاريخ موجز للبشرية"،"العاقل: تاريخ موجز للبشرية 
" الأسرار الصغيرة القذرة للحصول على وظيفة أحلامك 
" المرأة القادمة": رواية مستوحاة من حياة الناشطة النسوية سيئة السمعة، فيكتوريا وودهول", 
" الأولاد في القارب: "تسعة أمريكيين وسعيهم الملحمي للحصول على الميدالية الذهبية في أولمبياد برلين 1936 ", 
"قلوب جائعة( ثلاثية التجارةالثلاثية،رقم 1)", 
"حياة سكوت بيلغريم الصغيرة الثمينة (سكوت بيلغريم #1)" 
"مزقوها وابدأوا من جديد 
" فرقتنا يمكن أن تكون حياتك: "مشاهد من إيندي أندرغراوند الأمريكية،  1981-1991", 
"Mesaerion: "أفضل قصص الخيال العلمي  1800-1849"]

القيود

أحد القيود الرئيسية في AutoScraper هو أنه لا يدعم عرض JavaScript أو البيانات المحملة ديناميكيًا. ولكن لا تقلق، هناك حل! من خلال استخدام مكتبات بايثون مثل Selenium أو Playwright، التي تتعامل مع البيانات الديناميكية، يمكننا الحصول على بيانات HTML ثم السماح لـ Autoscraper بالقيام بالتحليل نيابةً عنا.
إذا كان موقع الويب المستهدف يستخدم حماية ضد الروبوتات، فإننا نقدم في ProxyScrapeواجهة برمجة تطبيقات كشط الويب التي يمكن الاعتماد عليها والتي تهتم بكل شيء من أجلك، مما يجعل عملية جمع البيانات الخاصة بك سهلة وفعالة.
فيما يلي مثال على كيفية استخدام واجهة برمجة تطبيقات كشط الويب الخاصة بنا مع AutoScraper:

import requests
from autoscraper import AutoScraper


def send_request(url_to_scrape):
    api_key = 'your_api_key' 
    data = {
        "url": url_to_scrape,
        "browserHtml": True  # Use browserHtml for JavaScript rendering
    }
    headers = {
        "Content-Type": "application/json",
        "X-Api-Key": api_key
    }

    response = requests.post("https://api.proxyscrape.com/v3/accounts/freebies/scraperapi/request",
                             headers=headers, json=data)

    #  we return the html data that web scraping api extracted
    return response.json()['data']['browserHtml']

if __name__ == '__main__':
    target_url = 'https://books.toscrape.com/'

    # get html data using web scraping api
    html_content = send_request(target_url)

    # parse that html data using AutoScraper
    scraper = AutoScraper()

    wanted_list = [
        "Tipping the Velvet",
        "Soumission",
    ]

    result = scraper.build(wanted_list=wanted_list, html=html_content)

    print(result)

أفضل الممارسات لكشط الويب باستخدام أداة الكشط التلقائي والوكلاء

احترم شروط خدمة الموقع الإلكتروني: قم دائمًا بمراجعة شروط خدمة الموقع الإلكتروني والالتزام بها قبل الكشط.
استخدم البروكسيات الدوارة: لتجنب الكشف وحدود المعدلات، استخدم البروكسيات الدوارة التي تغير عناوين IP بشكل متكرر. ProxyScrape تقدم البروكسيات الدوارة السكنية والمتنقلة المثالية لهذا الغرض.
خنق طلباتك: قم بتنفيذ تأخيرات بين الطلبات لمحاكاة السلوك البشري وتقليل خطر التعرض للحظر.
راقب أنشطتك: تحقق بانتظام من سلامة وكلائك وأداء مكشطة الكاشطة الخاصة بك لتحديد أي مشاكل ومعالجتها بسرعة.
ابق على اطلاع دائم حافظ على تحديث نصوص الكشط وقوائم البروكسي الخاصة بك للتكيف مع التغييرات في هياكل المواقع الإلكترونية وتناوب عناوين IP الخاصة بالوكيل.

الخاتمة

يعد كشط الويب أداة قوية للحصول على البيانات، ومع المزيج الصحيح من AutoScraper والبروكسيات، يمكنك إطلاق العنان لإمكاناته الكاملة. من خلال دمج البروكسيات المتميزة ProxyScrape ، فإنك تضمن أن تكون أنشطة الكشط الخاصة بك فعالة ومجهولة المصدر وغير متقطعة، وقد زودناك بالعناصر الضرورية لتبدأ، إذا كنت تريد أن تصبح أكثر تقدمًا مع AutoScraper، فراجع هذه الخلاصة.

هل أنت مستعد لرفع مستوى لعبة كشط الويب الخاصة بك؟ ابدأ في استكشاف إمكانيات AutoScraper مع وكلاء ProxyScrape المتميزين اليوم. قم بزيارة ProxyScrape للتسجيل والاستفادة من أحدث حلول البروكسي المتطورة لدينا.

إذا كنت بحاجة إلى مساعدة في كشط الويب، فلا تتردد في الانضمام إلى قناة Discord الخاصة بنا حيث يمكنك الحصول على الدعم.

كشط سعيد!

بواسطة: ProxyScrape