دليل المبتدئين لتعلم كشط الويب وتصور البيانات باستخدام بايثون

أدلة إرشادية, بايثون, كشط, ديسمبر-19-20215 دقائق للقراءة

كيف يمكنك سحب معلومات مهمة من المواقع الإلكترونية بسرعة وكفاءة؟ يستغرق استخراج البيانات يدويًا الكثير من الوقت. يمكنك استخدام كشط الويب، وهي طريقة آلية للحصول على بيانات غير جدولية أو غير منظمة بشكل جيد من المواقع الإلكترونية. لاحقًا، يمكنك تحويل تلك البيانات إلى تنسيق منظم وقابل للاستخدام مثل جدول بيانات

جدول المحتويات

لماذا يتم استخدام كشط الويب؟
كشط الويب باستخدام بايثون مكتبات الاستيراد عنوان URL لكشط البيانات كشط كل عنصر استخدام حلقة إنشاء إطار بيانات بانداس إنشاء عمود معدل_الوفاة
مكتبات الاستيراد
عنوان URL لكشط البيانات
كشط كل عنصر
استخدام الحلقة
إنشاء إطار بيانات بانداس
إنشاء عمود معدل_الوفاة
كشط الويب باستخدام البروكسي
أنواع البروكسيات لكشط الويب
تصور البيانات باستخدام بايثون مكتبات الاستيراد رسم مخطط زوجي رسم مخطط شريطي رسم مخطط مبعثر تجميع وفرز البيانات استيراد جدول نصي إنشاء كائن جدول نصي
مكتبات الاستيراد
رسم مخطط زوجي
رسم مخطط عمودي
رسم مخطط مبعثر
تجميع البيانات وفرزها
استيراد جدول نصي
إنشاء كائن جدول نصي
الخاتمة

يسمح لك كشط الويب بأرشفة البيانات وتتبع تغييرات البيانات عبر الإنترنت. تستخدمه الشركات على نطاق واسع لأغراض مختلفة. على سبيل المثال، تستخدمه المتاجر الإلكترونية لكشط أسعار منافسيها والصفحات المتاحة للجمهور. ثم يستخدمون هذه المعلومات لتعديل أسعارهم. من الممارسات الشائعة الأخرى لكشط الويب كشط جهات الاتصال، حيث تقوم المؤسسات بجمع البيانات الشخصية مثل أرقام الهواتف أو عناوين البريد الإلكتروني لأغراض التسويق.

لماذا يتم استخدام كشط الويب؟

لماذا يتعين على شخص ما استخراج كميات كبيرة من المعلومات من المواقع الإلكترونية؟ لفهم ذلك، انظر إلى التطبيقات التالية لكشط الويب.

البحث والتطوير - يمكنك جمع مجموعات بيانات كبيرة (درجة الحرارة والمعلومات العامة وغيرها) من المواقع الإلكترونية وتحليلها لإجراء استطلاعات الرأي للبحث والتطوير.
مقارنة الأسعار - تستخدم شركات وخدمات مثل ParseHub خدمات مثل ParseHub تجريف الويب لجمع البيانات من مواقع التسوق عبر الإنترنت ومقارنة أسعار المنتجات.
إعلانات الوظائف - يمكنك استخدام كشط الويب لجمع التفاصيل المتعلقة بالوظائف الشاغرة والمقابلات من مواقع الويب المختلفة وإدراجها في مكان واحد.
كشط وسائل التواصل الاجتماعي - يمكنك استخدام كشط الويب لجمع البيانات من مواقع التواصل الاجتماعي مثل Instagram وTwitter ومعرفة ما هو رائج.
جمع عناوين البريد الإلكتروني - تستخدم العديد من الشركات البريد الإلكتروني كوسيلة للتسويق. فهم يستخدمون كشط الويب لجمع معرّفات البريد الإلكتروني ثم إرسال رسائل البريد الإلكتروني بالجملة.

كشط الويب باستخدام بايثون

يمكنك كشط البيانات من المواقع الإلكترونية باتباع الخطوات التالية.

احصل على عنوان URL الذي تريد كشطه
فحص الصفحة
ابحث عن البيانات التي عليك استخراجها
اكتب الكود
تشغيل الكود واستخراج البيانات
تخزين البيانات بالتنسيق المطلوب

المكتبات التي يمكننا استخدامها لكشط الويب في بايثون هي

بانداس - تُستخدم بانداس لمعالجة البيانات وتحليلها. يمكنك استخدام هذه المكتبة لاستخراج البيانات وتخزينها بالصيغة المطلوبة.

حساء جميل - هي حزمة Python لتحليل مستندات HTML و XML. تقوم بإنشاء أشجار التحليل التي تساعد في استخراج البيانات من المواقع الإلكترونية بسهولة.

الطلبات - إنها مكتبة HTTP بسيطة.

سنستخدم هذا الموقع لاستخراج عدد حالات كوفيد-19. بعد ذلك، سنقوم بتحليل البيانات وإنشاء بعض التصورات.

مكتبات الاستيراد

يمكنك استيراد الطلبات و BeautifulSoup في Python لكشط الويب، كما هو موضح أدناه.

استيراد الطلبات 
من bs4 bs4 استيراد الحساء الجميل

عنوان URL لكشط البيانات

حدد عنوان URL الخاص بالموقع الإلكتروني الذي يجب عليك كشط البيانات منه. عليك استخدام طريقة requests.get() لإرسال طلب GET إلى عنوان URL المحدد. علاوة على ذلك، يجب عليك إنشاء مُنشئ BeautifulSoup الذي سيأخذ وسيطتي السلسلة كما هو موضح في الكود أدناه.

عنوان url = 'https://www.worldometers.info/coronavirus/countries-where-coronavirus-has-spread/'
الصفحة = الطلبات.get(url) 
الحساء = الحساء الجميل(page.text, 'html.parser') 
  
البيانات = []

كشط كل عنصر

يمكنك كشط كل عنصر في جدول URL'sURL'sURL باستخدام طريقة soup.find_all(). يُرجع كائنًا يوفر وصولًا قائمًا على الفهرس إلى التكرارات التي تم العثور عليها ويمكن طباعته باستخدام حلقة for أو بينما.

data_iterator = iter(soup.find_all('td'))

استخدام الحلقة

يمكنك استخدام حلقة بينما صحيح التي تستمر في التكرار حتى تتوافر بيانات في المُكرر.

بينما صحيح 
   حاول: 
        البلد = التالي(data_iterator).text 
        تم التأكيد = التالي(data_iterator).text 
        الوفيات = التالي(data_iterator).text 
        قارة = التالي(data_iterator).text

بالنسبة للعمودين "المؤكد" و"الوفيات"، تأكد من إزالة الفواصل وتحويلها إلى int.

data.append(( 
            الدولة, 
            (تم التأكيد.replace(', ', '')), 
            (الوفيات.replace(',', '')), 
            قارة
        )) 
    
    باستثناء إيقاف التكرار: 
       استراحة

عندما يكون عدد العناصر المتبقية للتكرار هو صفر، سيظهر خطأ StopIteration.

إنشاء إطار بيانات بانداس

يمكنك استخراج البيانات من الموقع الإلكتروني بعد تشغيل الكود أعلاه. عليك إنشاء إطار بيانات Pandas لتحليل البيانات بشكل أكبر. في الكود أدناه، قمنا بفرز البيانات حسب عدد حالات كوفيد المؤكدة.

استيراد مكتبة بانداس لإنشاء إطار بيانات.

data.sort(key(key = lambda row: row[1], reverse = True)
استيراد بانداس ك pd
df = pd.DataFrame(data,columns='country','number of cases','deaths','continent'],dtype=float)
df.head()
df['عدد الحالات'] = [x.replace('، ',', '') ل x في df['عدد الحالات']]
df['Number of cases] = pd.to_numeric(df['Number of cases])
دف

ستحصل على الناتج أدناه:

للحصول على معلومات حول إطار البيانات، استخدم df.info().

df.info()

إنشاء عمود معدل_الوفاة

سننشئ عمودًا جديدًا باسم معدل_الموت كما هو موضح أدناه.

dff = df.sort_values(حسب ='عدد الحالات'، تصاعدي = خطأ)
dff['معدل الوفيات] = (dff['الوفيات]/ dff['عدد الحالات])*100
dff.head()

يكون الناتج على النحو التالي.

كشط الويب باستخدام البروكسي

يسمح لك الخادم الوكيل باستخدام عنوان IP فريد للوصول إلى المعلومات التي ترغب في كشطها. وبهذه الطريقة، لا يرى موقع الويب عنوان IP الفعلي الخاص بك مما يسمح لك بكشط البيانات دون الكشف عن هويتك. عليك استخدام البروكسي لكشط الويب للأسباب التالية.

يمكنك إرسال عدة طلبات متزامنة إلى خادم ويب دون أن يتم حظره باستخدام مجموعة من الوكلاء.
بمساعدة البروكسيات، يمكنك تقديم طلبات من موقع أو جهاز أو مزود خدمة إنترنت أو شبكة جوال معينة. يمكنك أيضًا الزحف إلى المحتوى المعروض لمنطقة أو جهاز معين.
بعض المواقع الإلكترونية لديها حظر على عناوين IP، ويمكنك التحايل عليها بمساعدة البروكسي.

أنواع البروكسيات لكشط الويب

يمكنك استخدام الوكيلين أدناه لكشط البيانات من المواقع الإلكترونية.

وكلاء مراكز البيانات - عناوين IP الخاصة بمراكز البيانات هي عناوين IP للخوادم. تقع الخوادم في مراكز البيانات. الهدف الرئيسي من وكلاء مراكز البيانات هو إخفاء عنوانك عن مواقع الويب التي تزحف إليها. تُستخدم هذه البروكسيات في المقام الأول لكشط بيانات الأعمال.
البروكسيات السكنية - عناوين IP السكنية باهظة الثمن مقارنة بعناوين IP الخاصة بمراكز البيانات ويصعب الحصول عليها. تسمح لك هذه البروكسيات باختيار موقع محدد، أي المدينة أو البلد وما إلى ذلك، وتصفح الإنترنت كمستخدم حقيقي في تلك المنطقة الجغرافية.

تصور البيانات مع بايثون

أنت تعلم أن التصور المرئي للبيانات هو التمثيل البياني للبيانات أو المعلومات. يمكنك استخدام أدوات مرئية مثل المخططات والخرائط والرسوم البيانية كطريقة سهلة لفهم البيانات الممثلة. دعونا نرى كيف يمكننا تصور البيانات المستخرجة من هذا الموقع باستخدام أدوات تصور البيانات.

مكتبات الاستيراد

عليك استيراد المكتبات التالية لتصور البيانات كما هو موضح أدناه.

استيراد سيبورن باسم sns
استيراد matplotlib.pyplot ك plt
من بيلاب استيراد rcParams

رسم مخطط زوجي

يمكنك رسم مخطط زوجي لتوضيح العلاقات الزوجية في مجموعة بيانات. يمكنك تنفيذ ذلك بسهولة باستخدام الكود أدناه ويمكنك تحديد الاتجاهات في البيانات لمتابعة التحليل.

rcParams['figure.figsize'] = 15، 10
من matplotlib.pyplot استيراد الشكل
شكل(num=None, figsize=(20, 6), dpi=80, facecolor='w', edgecolor='k')
sns.pairplot(dff,hue='Continent')

ستحصل على الناتج على النحو التالي.

رسم مخطط عمودي

يمكنك رسم مخطط شريطي يعرض البيانات الفئوية على شكل أشرطة مستطيلة ويقارن بين قيم الفئات المختلفة في البيانات.

sns.barplot(x = 'البلد'، y = 'عدد الحالات'، البيانات = dff.head(10))

يكون الناتج على النحو التالي.

رسم مخطط مبعثر

يمكنك فهم العلاقة بين القيم العددية باستخدام مخطط الانتشار. وهو يستخدم النقاط لتمثيل العلاقة بين المتغيرات.

sns.scatterplot(x = "عدد الحالات"، y = "الوفيات",hue = "القارة",data = dff)

يكون الناتج على النحو التالي.

تجميع البيانات وفرزها

في الكود أدناه، سنقوم بتجميع البيانات حسب القارات وفرزها حسب عدد حالات كوفيد.

dfg = dff.groupby(by = 'Continent',as_index = False).agg({'Number of cases':sum,'Deaths':sum})
dfgg = dfg[1:]
df1 = dfgg.sort_values(by = 'Number of cases',ascending = False)
df1['Death_rate'] = (df1['Deaths']/df1['Number of cases'])*100
df1.sort_values(by = 'Death_rate',ascending = False)

يكون الناتج على النحو التالي.

والآن، سنقوم برسم مخطط شريطي بين "القارة" و"معدل_الموت" كما هو موضح أدناه.

sns.barplot(x = 'قارة'، y = 'معدل_الموت'، البيانات = df1.sort_values(by = 'Death_rate'، تصاعدي = False)))

يكون الناتج على النحو التالي.

يوضح هذا المخطط العمودي أن معدل الوفيات هو الأعلى في أمريكا الجنوبية والأدنى في أستراليا من بين جميع البلدان.

استيراد جدول نصي

قم بتثبيت texttable لإنشاء جدول ASCII بسيط. ثم قم باستيراده كـ tt.

!pip install texttable

استيراد texttable ك ttable

إنشاء كائن جدول نصي

عليك إنشاء كائن جدول نصي كما هو موضح أدناه. عليك إضافة صف فارغ في بداية الجدول للرؤوس ومحاذاة الأعمدة.

الجدول = tt.Texttable() 

table.add_صفوف([(لا شيء، لا شيء، لا شيء، لا شيء، لا شيء)] + البيانات) table.set_cols_align(('c'، 'c'، 'c'، ' c'))  # يشير  الحرف 'l' إلى اليسار والحرف 'c' إلى الوسط والحرف 'r' إلى اليمين 
الجدول.header((' البلد'، 'عدد الحالات'، 'الوفيات'، 'القارة'))) 
  
طباعة(table.draw())

هنا، يمثل الإخراج بعض صفوف الجدول على النحو التالي.

الخاتمة

باستخدام كشط الويب، يمكنك استخراج كميات كبيرة من البيانات من مواقع الويب بسرعة وكفاءة. يمكنك تحويل البيانات غير المنظمة المستخرجة إلى تنسيق قابل للاستخدام مثل ملف .csv. لقد رأينا أنه يمكننا كشط البيانات من الويب باستخدام وحدتين هما Pandas و BeautifulSoup. يسمح لك البروكسي باستخراج البيانات من الويب بشكل مجهول. يمكنك استخدام إما مركز البيانات أو البروكسيات السكنية لكشط الويب. البروكسيات السكنية أكثر موثوقية ولكنها مكلفة أكثر من البروكسيات في مراكز البيانات. علاوة على ذلك، يمكننا إجراء تحليل للبيانات لاستخلاص معلومات ثاقبة بناءً على احتياجاتنا. في هذه المقالة، قمنا بتحليل البيانات باستخدام أدوات تصور البيانات مثل المخططات الشريطية والمخططات الزوجية والمخططات المبعثرة.

بواسطة: ProxyScrape

دليل المبتدئين لتعلم كشط الويب وتصور البيانات باستخدام بايثون

جدول المحتويات

لماذا يتم استخدام كشط الويب؟

كشط الويب باستخدام بايثون

مكتبات الاستيراد

عنوان URL لكشط البيانات

كشط كل عنصر

استخدام الحلقة

إنشاء إطار بيانات بانداس

إنشاء عمود معدل_الوفاة

كشط الويب باستخدام البروكسي

أنواع البروكسيات لكشط الويب

تصور البيانات مع بايثون

مكتبات الاستيراد

رسم مخطط زوجي

رسم مخطط عمودي

رسم مخطط مبعثر

تجميع البيانات وفرزها

استيراد جدول نصي

إنشاء كائن جدول نصي

الخاتمة

أحدث المنشورات