تريد المساعدة؟ إليك خياراتك:","كرانش بيس","نبذة عنا","شكراً للجميع على الدعم الرائع!","روابط سريعة","برنامج الإحالة","بريميوم","ProxyScrape تجربة متميزة","مدقق الوكلاء عبر الإنترنت","أنواع الوكلاء","الدول الوكيلة","حالات استخدام الوكيل","مهم","سياسة ملفات تعريف الارتباط","إخلاء المسؤولية","سياسة الخصوصية","الشروط والأحكام","وسائل التواصل الاجتماعي","فيسبوك","لينكد إن","تويتر","كورا","برقية","الخلاف","\n © حقوق الطبع والنشر © 2024 - ثيب بي في | بروغسترات 18 | 2812 ميكلين | بلجيكا | ضريبة القيمة المضافة BE 0749 716 760\n"]}
يمكنك استخراج كميات كبيرة من البيانات تلقائيًا من مواقع الويب باستخدام كشط الويب وحفظها في قاعدة بيانات أو ملف. يمكن تخزين البيانات التي تم كشطها في الغالب في جدول بيانات أو تنسيق جدولي. يُطلق على عملية كشط الويب أيضًا اسم استخراج بيانات الويب حصاد الويب. وهي ضرورية لأن الكشط اليدوي مهمة شاقة
يمكنك استخراج كميات كبيرة من البيانات تلقائيًا من مواقع الويب باستخدام كشط الويب وحفظها في قاعدة بيانات أو ملف. يمكن تخزين البيانات التي تم كشطها في الغالب في جدول بيانات أو تنسيق جدولي. يُطلق على عملية كشط الويب أيضًا اسم استخراج بيانات الويب حصاد الويب. وهي ضرورية لأن الكشط اليدوي مهمة شاقة قد تستغرق ساعات أو حتى أيامًا لإكمالها. لذا، تحتاج إلى أتمتة العملية واستخراج البيانات من المواقع الإلكترونية في غضون جزء من الوقت.
يمكنك استخدام برنامج كشط الويب لتحميل البيانات والزحف إليها واستخراجها تلقائيًا من صفحات موقع الويب المتعددة بناءً على احتياجاتك ومتطلباتك. باختصار، يمكنك الحصول على البيانات المطلوبة من مواقع الويب بنقرة زر واحدة. في العالم الحديث، تحتاج الشركات إلى تحليل البيانات وتنفيذ إجراءات ذكية. ولكن في بعض الأحيان، يكون الحصول على البيانات من المواقع الإلكترونية صعبًا عندما يستخدم أصحاب المواقع الإلكترونية تقنيات مثل حظر بروتوكول الإنترنت (IP) وCAPTCHA. يمكنك استخدام خوادم البروكسي أو الشبكات الافتراضية الخاصة للتغلب على هذه المشكلة لأنها تساعدك على كشط البيانات من الويب بشكل مجهول.
تقوم الشركات في جميع أنحاء العالم بكشط البيانات من الويب لاكتساب رؤى مفيدة من خلال تخزينها بتنسيق قابل للاستخدام. فيما يلي بعض إيجابيات كشط الويب في مختلف الصناعات.
فيما يلي الأسباب الرئيسية لكشط البيانات من الويب.
تحقيق الأتمتة - يمكنك استخراج البيانات من مواقع الويب باستخدام أدوات كشط الويب القوية. وبهذه الطريقة، يمكنك توفير الوقت من مهام جمع البيانات العادية. يمكنك جمع البيانات بحجم أكبر مما يمكن لإنسان واحد أن يأمل في تحقيقه من خلال كشط الويب. علاوةً على ذلك، يمكنك أيضًا إنشاء روبوتات ويب متطورة لأتمتة الأنشطة عبر الإنترنت إما باستخدام لغة برمجة مثل Python أو Javascript أو باستخدام أداة كشط الويب.
مجموعات بيانات غنية وفريدة من نوعها - يمكنك الحصول على كمية غنية من الصور ومقاطع الفيديو والنصوص والبيانات الرقمية من الإنترنت. يمكنك أيضًا العثور على مواقع الويب ذات الصلة وإنشاء مجموعة بيانات مخصصة للتحليل، اعتمادًا على هدفك. على سبيل المثال، أنت مهتم بفهم سوق الرياضة في المملكة المتحدة بعمق. يمكنك إعداد أدوات كشط الويب لجمع محتوى الفيديو أو معلومات إحصائيات كرة القدم من أجلك.
الإدارة الفعالة للبيانات - لا تحتاج إلى نسخ البيانات ولصقها من الإنترنت حيث يمكنك جمع البيانات بدقة من مختلف المواقع الإلكترونية باستخدام برنامج كشط الويب. وبهذه الطريقة، يمكن لشركتك وموظفيك قضاء المزيد من الوقت في العمل الإبداعي من خلال تخزين البيانات بفعالية باستخدام البرامج والبرامج الآلية.
ذكاء الأعمال والرؤى - يتيح لك تجريف الويب من الإنترنت القيام بما يلي:
علاوةً على ذلك، يمكن للشركات تحقيق عملية اتخاذ قرارات أفضل من خلال تنزيل البيانات وتنظيفها وتحليلها بحجم كبير.
السرعة - يستخرج كشط الويب البيانات من المواقع الإلكترونية بسرعة كبيرة. فهو يتيح لك كشط البيانات في ساعات بدلاً من أيام. لكن بعض المشاريع قد تستغرق وقتاً طويلاً حسب تعقيدها والموارد والأدوات التي نستخدمها لإنجازها.
دقة البيانات - ينطوي الاستخراج اليدوي للبيانات من المواقع الإلكترونية على خطأ بشري، مما يؤدي إلى مشاكل خطيرة. ولذلك، فإن الاستخراج الدقيق للبيانات أمر بالغ الأهمية لأي معلومات، وهو ما يمكن تحقيقه من خلال كشط المواقع الإلكترونية.
لنفترض أن عليك استخراج البيانات من هذا الموقع. سيتعين عليك تثبيت وحدتي Python وهما الطلبات و BeautifulSoup.
يمكنك تثبيت هذه الوحدات باستخدام الأمر التالي.
! تثبيت الطلبات
!pip install BeautifulSoup
يمكنك استيراد هذه الوحدات النمطية على النحو التالي:
من bs4 bs4 استيراد الحساء الجميل
استيراد الطلبات
يمكنك النقر فوق الزر Inspect في الزاوية العلوية اليسرى من الموقع لتمييز العناصر التي ترغب في استخراجها. في حالتنا، نريد استخراج بيانات جدول هذا الموقع كما هو موضح أدناه.
عليك إضافة رأس وعنوان URL إلى طلباتك. يمكن أن يقلع الرأس من طلبك بحيث يبدو وكأنه قادم من متصفح شرعي.
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36'}
url = "https://en.wikipedia.org/wiki/List_of_national_capitals"
يمكنك استخدام الدالة requests.get() لإرسال طلب GET إلى عنوان URL المحدد.
r = طلبات.get(url, headers=headers)
عليك تهيئة كائن BeautifulSoup وذكر معلماته. بعد ذلك، عليك استخراج جميع صفوف الجدول. يمكنك الحصول على جميع عناصر الجدول باستخدام طريقة find_all() كما هو موضح في الكود أدناه.
الحساء = الحساء الجميل(r.content, "html.parser")
الطاولة = soup.find_all('table')[1]
الصفوف = table.find_all('tr')
قائمة الصفوف = قائمة()
يمكنك استخدام حلقة للتكرار لتكرار جميع الصفوف في الجدول كما هو موضح في الشيفرة أدناه.
بالنسبة إلى tr في الصفوف:
td = tr.find_all('td')
الصف = [i.text ل i في td]
صف_القائمة.إلحاق(صف)
يمكنك تصور البيانات المستخرجة بوضوح إذا قمت بإنشاء إطار بيانات Pandas وتصدير بياناتك إلى ملف .csv. لإنشاء إطار البيانات، عليك استيراد Pandas، كما هو موضح أدناه.
استيراد الباندا باسم pd
والآن، يمكنك تحويل كائن الحساء الخاص بك إلى إطار بيانات يحتوي على صفوف الجدول التالية.
يمكنك تحويل إطار البيانات إلى تنسيق csv وطباعة إطار البيانات كما هو موضح أدناه.
df_bs = pd.DataFrame(row_list,columns=['city','country','Notes'])
df_bs.set_index('Country',inplace=صحيح)
df_bs.to_csv('beautifulsoup.csv')
طباعة(df_bs)
ستحصل على الناتج أدناه.
يعمل البروكسي كوسيط أو وسيط بين العميل والخادم. يخفي عنوان IP الحقيقي الخاص بك ويتجاوز الفلاتر والرقابة. يمكنك الحصول على قائمة مجانية من البروكسي عن طريق استخدام دالة في Python، كما هو موضح في الخطوات أدناه.
عليك استيراد الوحدات أدناه في بايثون.
من bs4 bs4 استيراد الحساء الجميل
استيراد الطلبات
استيراد عشوائي
يمكنك تحديد دالة get_free_proxies() التي يجب أن تذكر فيها عنوان URL لقائمة البروكسي المجانية. بعد ذلك، عليك إنشاء كائن BeautifulSoup والحصول على استجابة HTTP باستخدام الدالة requests.get().
def get_free_proxies():
url = "https://free-proxy-list.net/"
الحساء = bs(requests.get.get(url).content, "html.parser")
الوكلاء = []
يمكنك استخدام طريقة find_all() في حلقة التكرار لتكرار جميع صفوف الجدول كما هو موضح أدناه.
for row in soup.find("table", attrs={"id": "proxylisttable"}).find_all("tr")[1:]:
tds = row.find_all("td")
try:
ip = tds[0].text.strip()
port = tds[1].text.strip()
host = f"{ip}:{port}"
proxies.append(host)
except IndexError:
continue
return proxies
يمكنك ذكر قائمة ببعض الوكلاء العاملين مثل الذي ذكرناه أدناه.
الوكلاء = [
'167.172.248.53:3128',
'194.226.34.132:5555',
'203.202.245.62:80',
'141.0.70.211:8080',
'118.69.50.155:80',
'201.55.164.177:3128',
'51.15.166.107:3128',
'91.205.218.64:80',
'128.199.237.57:8080',
]
عليك إنشاء دالة get_session() التي ستقبل قائمة من الوكلاء. كما أنها تنشئ جلسة طلبات تختار عشوائيًا أيًا من الوكلاء الذين تم تمريرهم كما هو موضح في الشيفرة أدناه.
def get_session(proxies):
session = requests.Session()
proxy = random.choice(proxies)
session.proxies = {"http": proxy, "https": proxy}
return session
يمكنك استخدام حلقة للتكرار لتقديم طلب إلى موقع ويب والحصول على عنوان IP في المقابل.
بالنسبة إلى i في النطاق(5):
s = get_session(الوكلاء)
حاول:
طباعة("طلب صفحة مع عنوان IP:",", s.get("http://icanhazip.com", المهلة=1.5).text.strip())
باستثناء الاستثناء كـ e:
متابعة
يمكنك الحصول على المخرجات التالية.
يمكن للشركات استخراج بيانات قيّمة لاتخاذ قرارات تستند إلى البيانات وتقديم خدمات مدعومة بالبيانات من خلال تجريف الويب. تعتبر البروكسيات مهمة لكشط الويب للأسباب التالية.
ناقشنا حتى الآن أن كشط الويب يساعدنا في استخراج البيانات من المواقع الإلكترونية بطريقة آلية. يمكنك تحويل البيانات إلى تنسيق قابل للاستخدام مثل ملف .csv. تستخدم الشركات كشط الويب للتحقق من أسعار المنافسين وميزات المنتج. يعد تجريف الويب مفيدًا جدًا إذا كنت تستخدم البروكسي لأنه يحافظ على هويتك مجهولة من خلال إخفاء عنوان IP الأصلي الخاص بك عن الموقع المستهدف. باستخدام البروكسيات، يمكنك إرسال طلبات متعددة إلى موقع الويب دون الخوف من التعرض للحظر أو المنع.