
AutoScraper عبارة عن مكتبة قوية ومفتوحة المصدر لكشط الويب لبايثون تعمل على تبسيط عملية استخراج البيانات من المواقع الإلكترونية. على عكس أطر عمل كشط الويب التقليدية التي تتطلب ترميزًا مكثفًا لتحليل محتوى HTML، يمكن ل AutoScraper إنشاء قواعد تلقائيًا لاستخراج المعلومات المطلوبة بناءً على الأمثلة التي تقدمها. AutoScraper مناسب بشكل خاص للمبتدئين في عالم كشط الويب. كما أن واجهته سهلة الاستخدام وتوليد القواعد التلقائية تجعله في متناول أولئك الذين قد لا يتمتعون بخبرة واسعة في البرمجة.
لنفترض أنك تريد كشط متجر تجارة إلكترونية دون التعامل مع تحليل HTML. يمكّنك AutoScraper من إدخال أسماء المنتجات في "قائمة_المطلوبات"، وسيتعلم تلقائيًا بنية HTML ويقوم بتحليل المنتجات اللاحقة من تلقاء نفسه.
فيما يلي مثال واضح لتوضيح العملية، بما في ذلك تنفيذ الوكلاء:
أولاً، ستحتاج إلى تثبيت AutoScraper. يمكنك القيام بذلك باستخدام pip:
من AutoScraper استيراد AutoScraper
حدد عنوان URL الذي تريد كشطه والعناصر أو المنتجات التي ترغب في استخراجها. من خلال القيام بذلك، يستطيع AutoScraper التعرف على بنية HTML وتحليل جميع العناصر المتشابهة في هذا الإطار بدقة:
عنوان url = 'https://books.toscrape.com/'
مطلوب_قائمة = [
"Tipping the Velvet",
"Soumission",
]
استخدم أداة الكشط التلقائي لبناء نموذج الكشط الخاص بك:
scraper = AutoScraper()
proxies = {
"http": 'http://test_user112:[email protected]:6060',
"https": 'http://test_user112:[email protected]:6060',
}
# if you wish to use the same scraper again
scraper.save('books_to_scrape')
result = scraper.build(url, wanted_list, request_args=dict(proxies=proxies))
print(result)
مكشطة = مكشطة تلقائية()
scraper.load('books_to_scrape')
النتيجة = scraper.get_result(url)
[" ضوء في ...",
"قلب المخمل
"Soumission
" أشياء حادة
"Sapiens: تاريخ موجز ...
" قداس القداس الأحمر"، " الأسرار الصغيرة القذرة ..."، " الأسرار الصغيرة القذرة ...
" المرأة القادمة A ...',
" الأولاد في ..."،" الأولاد في ...",
" ماريا السوداء
"قلوب جائعة( التجارةالمثلثية...",
"سونيتات شكسبير",
" حررني
"سكوت بيلغريم الثمين الصغير ..."
"مزقوه و ..."،"مزقوه و ..."،
" يمكن أن تكون فرقتنا ..."،" فرقتنا يمكن أن تكون ..."،
"أوليو"،
"Mesaerion: أفضل العلوم ...'، 'أفضل العلوم ...',
"التحررية للمبتدئين",
"إنها فقط جبال الهيمالايا"، "إنها فقط جبال الهيمالايا",
" ضوء في العلية
"Sapiens: تاريخ موجز للبشرية"،"العاقل: تاريخ موجز للبشرية
" الأسرار الصغيرة القذرة للحصول على وظيفة أحلامك
" المرأة القادمة": رواية مستوحاة من حياة الناشطة النسوية سيئة السمعة، فيكتوريا وودهول",
" الأولاد في القارب: "تسعة أمريكيين وسعيهم الملحمي للحصول على الميدالية الذهبية في أولمبياد برلين 1936 ",
"قلوب جائعة( ثلاثية التجارةالثلاثية،رقم 1)",
"حياة سكوت بيلغريم الصغيرة الثمينة (سكوت بيلغريم #1)"
"مزقوها وابدأوا من جديد
" فرقتنا يمكن أن تكون حياتك: "مشاهد من إيندي أندرغراوند الأمريكية، 1981-1991",
"Mesaerion: "أفضل قصص الخيال العلمي 1800-1849"]
أحد القيود الرئيسية في AutoScraper هو أنه لا يدعم عرض JavaScript أو البيانات المحملة ديناميكيًا. ولكن لا تقلق، هناك حل! من خلال استخدام مكتبات بايثون مثل Selenium أو Playwright، التي تتعامل مع البيانات الديناميكية، يمكننا الحصول على بيانات HTML ثم السماح لـ Autoscraper بالقيام بالتحليل نيابةً عنا.
إذا كان موقع الويب المستهدف يستخدم حماية ضد الروبوتات، فإننا نقدم في ProxyScrapeواجهة برمجة تطبيقات كشط الويب التي يمكن الاعتماد عليها والتي تهتم بكل شيء من أجلك، مما يجعل عملية جمع البيانات الخاصة بك سهلة وفعالة.
فيما يلي مثال على كيفية استخدام واجهة برمجة تطبيقات كشط الويب الخاصة بنا مع AutoScraper:
import requests
from autoscraper import AutoScraper
def send_request(url_to_scrape):
api_key = 'your_api_key'
data = {
"url": url_to_scrape,
"browserHtml": True # Use browserHtml for JavaScript rendering
}
headers = {
"Content-Type": "application/json",
"X-Api-Key": api_key
}
response = requests.post("https://api.proxyscrape.com/v3/accounts/freebies/scraperapi/request",
headers=headers, json=data)
# we return the html data that web scraping api extracted
return response.json()['data']['browserHtml']
if __name__ == '__main__':
target_url = 'https://books.toscrape.com/'
# get html data using web scraping api
html_content = send_request(target_url)
# parse that html data using AutoScraper
scraper = AutoScraper()
wanted_list = [
"Tipping the Velvet",
"Soumission",
]
result = scraper.build(wanted_list=wanted_list, html=html_content)
print(result)
يعد كشط الويب أداة قوية للحصول على البيانات، ومع المزيج الصحيح من AutoScraper والبروكسيات، يمكنك إطلاق العنان لإمكاناته الكاملة. من خلال دمج البروكسيات المتميزة ProxyScrape ، فإنك تضمن أن تكون أنشطة الكشط الخاصة بك فعالة ومجهولة المصدر وغير متقطعة، وقد زودناك بالعناصر الضرورية لتبدأ، إذا كنت تريد أن تصبح أكثر تقدمًا مع AutoScraper، فراجع هذه الخلاصة.
هل أنت مستعد لرفع مستوى لعبة كشط الويب الخاصة بك؟ ابدأ في استكشاف إمكانيات AutoScraper مع وكلاء ProxyScrape المتميزين اليوم. قم بزيارة ProxyScrape للتسجيل والاستفادة من أحدث حلول البروكسي المتطورة لدينا.
إذا كنت بحاجة إلى مساعدة في كشط الويب، فلا تتردد في الانضمام إلى قناة Discord الخاصة بنا حيث يمكنك الحصول على الدعم.
كشط سعيد!