داكن proxyscrape شعار

كيفية كشط صفحات نتائج بحث Google (SERPs)

كيف, كشط, أغسطس 01-20215 دقائق للقراءة

It needs no introduction that Google is the widely used platform for search-related queries of people across the globe. According to the Statista website, Google’s share of the global search market is 87.35%. Further, the stats have shown that Google exceeds 2 trillion users annually, indexing over 130 trillion pages.  These statistics prove that Google

لا يحتاج الأمر إلى مقدمة أن Google هي النظام الأساسي المستخدم على نطاق واسع للاستعلامات المتعلقة بالبحث للأشخاص في جميع أنحاء العالم. وفقا لموقع Statista ، تبلغ حصة Google في سوق البحث العالمي 87.35٪. علاوة على ذلك ، أظهرت الإحصائيات أن Google تتجاوز 2 تريليون مستخدم سنويا ، حيث تقوم بفهرسة أكثر من 130 تريليون صفحة. 

تثبت هذه الإحصائيات أن Google لديها بيانات شاملة متاحة للجمهور حول SERPs الخاصة بها ، وهي قيمة لمسوقي الإنترنت وغيرهم على حد سواء. لذلك أصبح كشط SERPs أولوية بين المسوقين عبر الإنترنت. ومع ذلك ، عندما تتجاوز عددا معينا من الطلبات ، ستحظر Google عنوان IP الخاص بك.

لذلك ستغوص هذه المقالة في كيفية كشط SERPs دون حظرها. قبل ذلك ، سنغطي أساسيات تجريف الويب.

ما هو تجريف الويب؟

لنفترض أنك بحاجة إلى نسخ مجموعة كبيرة من البيانات من عدة صفحات ويب. في البداية ، قد تميل إلى نسخ المحتوى ولصقه في جدول بيانات. ومع ذلك ، نظرا لأنه مستند ويب كبير ، فإن استخراج البيانات يدويا سيستغرق وقتا طويلا. ومن ثم ستحتاج إلى أتمتة عملية الكشط ، مما سيوفر لك متسعا من الوقت.

تعرف عملية الأتمتة هذه لكشط البيانات باسم تجريف الويب. باستخدام هذه الطريقة ، يمكنك تنزيل مصدر HTML دون إدخال عنوان URL لموقع الويب في المتصفح.

يمكنك القراءة للعثور على مزيد من المعلومات حول تجريف الويب هنا

ما هو كشط صفحات نتائج محرك البحث (SERP)؟

تماما مثل تجريف الويب ، فإن تجريف SERP هو عملية استخراج أفضل 10 نتائج أو ما بعدها من بحث Google عن سلسلة من الكلمات الرئيسية. تستخدم معظم شركات تحسين محركات البحث (SEO) هذه التقنية لتتبع تصنيفات مواقع عملائها للكلمات الرئيسية المستهدفة. 

يمكن أن تكون هناك أيضا أسباب أخرى لإجراء تجريف ل SERPS ، مثل التحقق من الإعلان وإنشاء قوائم العملاء المحتملين وتجميع المحتوى.

عادة ، هناك أدوات أتمتة لتنفيذ كشط ل SERPs ، والتي ستجدها في الأقسام القادمة من هذه المقالة. بدلا من ذلك ، يمكنك إنشاء البرنامج النصي الخاص بك باستخدام لغات البرمجة مثل Python. ومع ذلك ، يمكنك القيام بذلك إذا كنت واثقا فقط من الترميز ولديك خبرة تقنية أعلى. بالإضافة إلى ذلك ، يمكنك استخدام cURL أيضا لكشط Google SERPs.

بمجرد أن تقوم هذه الأدوات بكشط البيانات من صفحات الويب ذات الصلة ، فإنها تحفظها لقواعد البيانات أو ملفات CSV أو ملفات XML أو JSON. ثم تكون هذه البيانات بتنسيق منظم حيث ستتمكن من تحديد ما إذا كانت جهود تحسين محركات البحث تعمل بشكل صحيح. هذا لأنه يمكنك رؤية مواضع صفحتك بمرور الوقت.

أيضا ، لا تتكون SERPs من محتويات نصية فحسب ، بل تتكون أيضا من الصور ومقاطع الفيديو والمقتطفات المميزة وخرائط البحث المحلية وغير ذلك الكثير.

في القسم التالي ، سوف تكتشف فائدة كبيرة للكشط من SERPs.

كيف يساعدك كشط SERPs على استعادة الضرر الناجم عن المتسللين؟

التعرض للاختراق هو شيء يؤثر عليك دائما سلبا. قد ينتهي موقع الويب الذي تم اختراقه وبيانات اعتماد تسجيل الدخول الخاصة به على الويب المظلم. يمكن للقراصنة حتى بيع الروابط الخلفية أو تشغيل برامج ضارة على الويب المظلم على موقعك. وبالمثل ، فإن القرصنة لها تأثير سلبي على سياق تحسين محركات البحث أيضا.

تتمثل إحدى الفوائد المهمة لكشط SERPs في Google في قدرتها على تحديد الأضرار المحتملة التي قد يسببها المتسللون. عندما تعمل بجد لتحقيق تصنيفات تحسين محركات البحث الخاصة بك على SERPs ، يمكن للمتسللين التسلل بسهولة إلى إعدادات الأمان الخاصة بك وإفساد جميع جهود تحسين محركات البحث. 

يمكنك العثور على تفاصيل شاملة حول كيفية اختطاف المتسللين لجهود تحسين محركات البحث هنا.

وفقا لمسح ، ذكر 48٪ من محترفي تحسين محركات البحث أن الأمر استغرق من Google عدة أشهر لاستعادة الحالة الأصلية لنتائج SERFs الخاصة بهم. 

يوفر تتبع SERPs لمواقع الويب الخاصة بك فطنة مفيدة حول ما يحدث مع تصنيفاتك. كما أنها تساعدك على تحديد النتائج المحتملة لتصنيفاتك أثناء محاولات الاختراق. لذلك يمكنك أن تطلب بسرعة من Google استعادة تصنيفاتك السابقة. نتيجة لذلك ، سيتم تقليل وقت تعطل موقعك وانخفاض ترتيب محركات البحث بشكل كبير.

من ناحية أخرى ، عندما يكون موقع الويب الخاص بك مصابا ببرامج ضارة ، فقد يعيق ذلك تصنيفات محرك البحث الخاص بك. سيكون لموقعك احتمال أكبر في الحصول على القائمة السوداء أيضا. وفقا ل Godaddy ، هذا أكثر من ذلك بالنسبة لمواقع الأعمال الصغيرة. 90٪ من مواقع Godaddy لم تكن تعرف أن البرامج الضارة قد أصابتهم.

لذا فإن الكشط المستمر لجميع SERPs الخاصة بك يمكنك من اكتشاف محاولات القرصنة المحتملة مسبقا ويساعد Google بالتأكيد على استعادة نتائجك.

كيفية كشط نتائج بحث جوجل؟

كما ذكرت سابقا ، هناك عدة طرق يمكنك من خلالها التخلص من Google SERPs. في هذا القسم ، سوف تكتشف عدة طرق يمكنها من خلالها القيام بذلك.

مكشطة الويب المرئية

أوكتوبارس

هذه أداة مكشطة ويب عامة يمكنك استخدامها لكشط Google SERPs. إنه لا يكشط SERPs فحسب ، بل إنه جيد أيضا في كشط البيانات من خرائط Google.

تتمثل إحدى الميزات المهمة ل Octoparse في أنه يتجنب بذكاء تدابير مكافحة الكشط التي تطرحها مواقع الويب المستهدفة. أيضا ، لا يتطلب منك أن تكون مبرمجا لاستخدام أداة الكشط المرئي الخاصة به. إنه مناسب جدا للاستخدام ومتاح كحل قائم على السحابة بالإضافة إلى برامج قابلة للتثبيت.

يمكنك العثور على مزيد من المعلومات حول Octoparse هنا.

ملحق المتصفح

Webscraper.io 

Webscraper.io هو امتداد مجاني لمتصفح الويب Google Chrome. يمكنه استخراج البيانات من صفحات الويب الخاصة ب Google في شكل HTML و CSS. يمكنه بعد ذلك تصدير البيانات بتنسيق CSV. إصدار ملحق المتصفح مجاني تماما ، وهو كاف لإدارة أنشطة الكشط الخاصة بك. إذا اخترت الخيار المستند إلى السحابة ، فستتحمل تكلفة.

يمكنك أيضا استخراج خرائط Google معها وتحويلها إلى قاعدة بيانات. يمكنك العثور على مزيد من المعلومات حول هذا الامتداد هنا.

واجهة برمجة تطبيقات بحث جوجل

هل تعلم أن Google توفر طريقة رسمية لاستخراج البيانات من محرك البحث الخاص بها؟ على الرغم من أن لها حدودها ، كما هو مذكور أدناه ، إلا أنها متاحة حاليا لأي شخص يحتاج إلى بيانات SERP. فيما يلي حدوده:

  • يوفر معلومات محدودة مقارنة بمكشطة الويب المرئية أو ملحقات المتصفح أو أدوات تجريف الويب الأخرى.
  • قامت Google بتطويره بهدف البحث في موقع ويب واحد أو عدد أقل من مواقع الويب. ومع ذلك ، يمكنك تكوينه للبحث في شبكة الويب العالمية بأكملها (WWW) ، الأمر الذي يتطلب الكثير من الخبرة الفنية.
  • إنه مكلف بجنون لأنه سيكلفك ثروة لإرسال أكوام من الطلبات.

لذلك مع قيودها وتكاليفها ، فإن واجهة برمجة تطبيقات بحث Google ليست النظام الأساسي المثالي لكشط نتائج SERPs. من الأفضل دائما استخدام الطرق البديلة المذكورة في هذه المقالة.

باستخدام بايثون والطلبات وشوربة جميلة

بالنسبة لأولئك منكم الخبراء في الترميز باستخدام Python ، ستكون هذه الطريقة مفيدة. مما لا شك فيه أنه سيقلل من التكلفة في المقام الأول ، ولديك المزيد من التحكم.

في هذا البرنامج ، سنقوم باستخراج SERPs لاستعلام البحث ، "كيفية تعلم Python". لجعل الأمور أكثر بساطة ، سنقوم بترميز استعلام البحث. ثم بعد سحب مجموعة النتائج ، سنقوم بطباعة عنوان النتائج. دعنا نتعمق.

import requests
from bs4 import BeautifulSoup
import random
 
text = 'How to learn Python programming'
url = 'https://google.com/search?q=' + text
useragent = ("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36"
       )
 
Agent = useragent[random.randrange(len(useragent))]
 
headers = {'user-agent': Agent}
req = requests.get(url, headers=headers)
 
soup = BeautifulSoup(req.text, 'lxml')
for info in soup.find_all('h3'):
    print(info.text)
    print('__________')
 

سأشرح هنا كل سطر من التعليمات البرمجية بوضوح:

طلبات الاستيراد

نستخدم مكتبة طلبات Python لتنزيل SERP. ثم ترسل وحدة الطلب طلب الحصول على إلى خادم Google. يتيح ذلك للبرنامج تنزيل محتوى HTML الخاص ب SERP.

من bs4 استيراد شوربة جميلة

ثم السطر التالي لا يحتاج إلى شرح ، والذي يقوم بتحميل مكتبة BeautifulSoup. تتيح هذه المكتبة تحليل مستندات HTML و XML.

text = "كيف تتعلم برمجة بايثون"
عنوان URL = 'https://google.com/search?q=' + نص

يعين هذا الجزء من التعليمات البرمجية عنوان URL لمحرك البحث الذي يمكن من خلاله كشط البيانات. لذلك قمت بتعيين عنوان URL على أنه google.com ، وبالنسبة لاستعلام البحث ، قمت بإلحاق النص في متغير النص ، "كيف تتعلم برمجة Python" كاستعلام بحث.

وكيل المستخدم = ("موزيلا/5.0 (ويندوز NT 10.0; وين64; x64) AppleWebKit / 537.36 (KHTML ، مثل أبو بريص) كروم / 92.0.4515.107 سفاري / 537.36 ")

      

ثم تقوم التعليمة البرمجية أعلاه بتعيين سلسلة وكيل المستخدم.

req = requests.get (عنوان url ، الرؤوس = الرؤوس)

يرسل الرمز أعلاه الطلب إلى خادم الويب لتنزيل محتوى HTML المطلوب لنتائج البحث.

حساء = حساء جميل (req.text ، 'lxml')

قم بإنشاء مثيل ل BeautifulSoup بالبيانات التي طلبتها التعليمات البرمجية أعلاه من رؤوس تحليل "lxml". يجب عليك أولا تثبيت حزمة "lxml" حتى يعمل الرمز أعلاه.

للحصول على معلومات في soup.find_all('h3'):
    طباعة (معلومات.نص)
    طباعة ('__________')

ثم باستخدام حلقة for ، يتم استخراج جميع علامات h3 لعرض العناوين.

استخدام الوكلاء السكنيين لكشط Google SERPs

كما ذكرنا سابقا ، تفرض محركات البحث مثل Google قيودا بما في ذلك حظر عنوان IP الخاص بك عندما تتجاوز حد الكشط. هذا هو المكان الذي يلعب فيه الوكلاء دورا مهما في إخفاء عنوان IP الخاص بك. من بين جميع الوكلاء الموجودين هناك ، فإن الوكلاء السكنيين هم الخيار الأمثل. وذلك لأن عناوين IP الخاصة بهم تنشأ من مالكين سكنيين حقيقيين.

ومع ذلك ، عندما تتخلص من SERPs القليلة الأولى ، ستلاحظ Google أن أفعالك غير إنسانية. ثم سيحظر عنوان IP الخاص بالوكيل الخاص بك ، وسيتعين عليك التعامل مع captchas.

هذا هو المكان الذي تعمل فيه شبكة الوكلاء السكنيين كمنقذ لك. عند استخدام شبكة من الوكلاء السكنيين ، سيكون لكل منها عنوان IP فريد. لذلك ستكون قادرا على الكشط من SERPs عن طريق تدوير عناوين IP. ثم ستظهر أفعالك كبشر لمحرك البحث.

للحصول على شرح مفصل للوكلاء السكنيين ، يرجى الرجوع إلى هذه المقالة.

الآثار القانونية عند استخدام الوكلاء السكنيين لكشط Google SERPs

الآن ، يجب أن يكون لديك فكرة واضحة عن ماهية الوكلاء السكنيين وكيف يمكنهم مساعدتك في التغلب على حظر IP. الآن سننظر في عامل حاسم يهمله العديد من المستخدمين عند الكشط من SERPs من Google. هذه هي الآثار القانونية لاستخدام الوكلاء السكنيين.

بادئ ذي بدء ، من القانوني استخدام الوكلاء السكنيين لكشط Google SERPs. لذلك مع وضع ذلك في الاعتبار ، قد تميل إلى إرسال طلبات غير محدودة إلى محركات البحث مثل Google. على هذا النحو ، فإنه سيثقل كاهل خوادم Google بعدد كبير من الطلبات. ليس هذا هو الشيء الصحيح الذي يجب فعله ، حتى وفقا لخوارزمية Google SERPs.

لذلك ، تحتاج إلى التأكد من أنك تحترم دائما موقع الويب أو محرك البحث المستهدف الذي ستقوم بكشط البيانات منه. سيتعين عليك أيضا استخدام أفضل ممارسات الكشط الممكنة ، بما في ذلك احترام مكشطة محرك البحث المستهدف.

يجب عليك تقييد الطلبات على الفور أو إيقاف عملية الكشط إذا تلقيت أنت أو مزود الوكيل الخاص بك شكوى من خادم الويب المستهدف. يمكن أن تكون الشكوى أن خادم الويب المستهدف قد يواجه عبء عمل مرتفعا بسبب طلباتك غير المحدودة. لذلك عليك أن تكون حذرا من مثل هذه الحقائق.

أسئلة مكررة

هل من غير القانوني الكشط من Google؟

عادة ، لا تحب Google عندما تقوم الكاشطات بكشط البيانات منها. كما ذكرت عدة مرات في هذه المقالة ، يمكنه حظر عناوين IP الخاصة بك. أيضا ، حتى الآن ، لم تتخذ Google أي إجراء لأكثر من كشط البيانات. من الواضح أن شركات تحسين محركات البحث لن يكون لها مخرج إذا اتخذت Google مثل هذه الإجراءات.

استنتاج

نأمل الآن أن تكون قد اكتسبت معرفة شاملة بالطرق المختلفة التي استخدمتها كاشطات الويب لكشط البيانات من SERPs.تستخدم الظروف المختلفة طرقا مختلفة. أخيرا ، لقد تعلمت كيف يمكنك استخدام الوكلاء السكنيين لكشط SERPs جنبا إلى جنب مع آثارها القانونية.

نأمل أن تجد هذه المقالة مفيدة ، وترقبوا المزيد من المقالات.