شعار proxyscrape داكن

كيفية كشط صفحات نتائج بحث جوجل (SERPs)

كيفية القيام بذلك, الكشط, أغسطس-02-20215 دقائق للقراءة

لا يحتاج الأمر إلى مقدمة أن Google هي المنصة المستخدمة على نطاق واسع للاستعلامات المتعلقة بالبحث لدى الأشخاص في جميع أنحاء العالم. وفقًا لموقع Statista الإلكتروني، تبلغ حصة Google من سوق البحث العالمي 87.35%. علاوة على ذلك، أظهرت الإحصائيات أن جوجل يتجاوز عدد مستخدميه 2 تريليون مستخدم سنويًا، حيث يقوم بفهرسة أكثر من 130 تريليون صفحة. تثبت هذه الإحصائيات أن جوجل

لا يحتاج الأمر إلى مقدمة أن Google هي المنصة المستخدمة على نطاق واسع للاستعلامات المتعلقة بالبحث لدى الأشخاص في جميع أنحاء العالم. وفقًا لموقع Statista الإلكتروني، تبلغ حصة جوجل من سوق البحث العالمي 87.35%. علاوة على ذلك، أظهرت الإحصائيات أن جوجل يتجاوز عدد مستخدميه 2 تريليون مستخدم سنويًا، حيث يقوم بفهرسة أكثر من 130 تريليون صفحة. 

تُثبت هذه الإحصائيات أن جوجل لديها بيانات شاملة متاحة للجمهور عن سيربس، وهي ذات قيمة للمسوقين عبر الإنترنت وغيرهم على حد سواء. لذلك أصبح كشط SERPs أولوية بين المسوقين عبر الإنترنت. ومع ذلك، عندما تتجاوز عددًا معينًا من الطلبات، ستحظر Google عنوان IP الخاص بك.

لذلك سوف تتعمق هذه المقالة في كيفية كشط SERPs دون أن يتم حظرها. قبل ذلك، سنغطي أساسيات كشط الويب.

ما هو كشط الويب؟

لنفترض أنك بحاجة إلى نسخ مجموعة كبيرة من البيانات من عدة صفحات ويب. في البداية، قد تميل إلى نسخ المحتوى ولصقه في جدول بيانات. ومع ذلك، نظرًا لأنه مستند ويب كبير، فإن استخراج البيانات يدويًا سيستغرق وقتًا طويلاً. وبالتالي ستحتاج إلى أتمتة عملية الكشط، مما سيوفر لك الكثير من الوقت.

تُعرف هذه العملية الآلية لكشط البيانات باسم كشط الويب. باستخدام هذه الطريقة، يمكنك تنزيل مصدر HTML دون إدخال عنوان URL لموقع الويب في المتصفح.

يمكنك القراءة للعثور على مزيد من المعلومات حول تجريف الويب هنا

ما هو كشط صفحات نتائج محرك البحث (SERP) ؟

تمامًا مثل كشط الويب، فإن كشط SERP هو عملية استخراج أفضل 10 نتائج أو أكثر من نتائج بحث Google لسلسلة من الكلمات الرئيسية. تستخدم معظم شركات تحسين محركات البحث (SEO) هذه التقنية لتتبع تصنيفات مواقع الويب الخاصة بعملائها للكلمات الرئيسية المستهدفة. 

يمكن أن تكون هناك أيضًا أسباب أخرى لإجراء عمليات الكشط لصفحات SERPS، مثل التحقق من الإعلانات، وتوليد العملاء المحتملين، وتجميع المحتوى.

عادةً ما تكون هناك أدوات أتمتة لتنفيذ عمليات الكشط لصفحات SERPs، والتي ستجدها في الأقسام القادمة من هذه المقالة. بدلاً من ذلك، يمكنك إنشاء البرنامج النصي الخاص بك باستخدام لغات البرمجة مثل Python. ومع ذلك ، يمكنك القيام بذلك إذا كنت واثقًا فقط في البرمجة ولديك خبرة تقنية أعلى. بالإضافة إلى ذلك، يمكنك استخدام cURL أيضًا لكشط SERPs من Google.

بمجرد أن تقوم هذه الأدوات بكشط البيانات من صفحات الويب ذات الصلة، فإنها تحفظها في قواعد البيانات أو ملفات CSV أو XML أو ملفات JSON. ثم تكون هذه البيانات بتنسيق منظم حيث يمكنك تحديد ما إذا كانت جهود تحسين محركات البحث تعمل بشكل صحيح. هذا لأنه يمكنك رؤية مواضع صفحتك بمرور الوقت.

بالإضافة إلى ذلك، لا تقتصر محتويات صفحات سيرب على المحتويات النصية فحسب، بل تشمل أيضًا الصور ومقاطع الفيديو والمقتطفات المميزة وخرائط البحث المحلية وغيرها الكثير.

في القسم التالي، سوف تكتشف فائدة كبيرة من الكشط من SERPs.

كيف يساعدك كشط صفحات سيرب (SERPs) على إصلاح الأضرار التي تسبب فيها المخترقون؟

التعرض للاختراق هو أمر يؤثر عليك دائمًا بشكل سلبي. قد ينتهي الأمر بموقعك المخترق وبيانات اعتماد تسجيل الدخول الخاصة به على الويب المظلم. يمكن للقراصنة حتى بيع الروابط الخلفية أو تشغيل برامج ضارة على الويب المظلم على موقعك. وبالمثل، فإن الاختراق له تأثير سلبي على سياق تحسين محركات البحث أيضًا.

تتمثل إحدى الفوائد المهمة لكشط SERPs في Google في قدرتها على تحديد الأضرار المحتملة التي قد يسببها المخترقون. عندما تكون قد عملت بجد لتحقيق تصنيفات تحسين محركات البحث الخاصة بك على SERPs، يمكن للقراصنة التسلل بسهولة إلى إعدادات الأمان الخاصة بك وإفساد كل جهود تحسين محركات البحث الخاصة بك. 

يمكنك العثور على تفاصيل شاملة حول كيفية اختراق القراصنة لجهود تحسين محركات البحث هنا.

وفقًا لاستطلاع للرأي، ذكر 48% من محترفي تحسين محركات البحث أن جوجل استغرق عدة أشهر لاستعادة الحالة الأصلية لنتائج محركات البحث الخاصة بهم. 

يوفر تتبع SERPs لمواقع الويب الخاصة بك فطنة مفيدة حول ما يحدث في تصنيفاتك. كما أنها تساعدك على تحديد النتائج المحتملة لتصنيفاتك أثناء محاولات الاختراق. لذلك يمكنك أن تطلب من جوجل بسرعة استعادة تصنيفاتك السابقة. ونتيجة لذلك، سيتم تقليل وقت تعطل موقعك وانخفاض ترتيب محركات البحث بشكل كبير.

من ناحية أخرى، عندما يصاب موقعك الإلكتروني ببرمجيات خبيثة، فإن ذلك سيعيق تصنيفات محرك البحث الخاص بك. سيكون موقعك أكثر عرضة للإدراج في القائمة السوداء أيضاً. وفقًا لـ Godaddy، فإن هذا الأمر أكثر شيوعًا بالنسبة لمواقع الشركات الصغيرة. 90% من مواقع Godaddy لم تكن تعلم أن البرمجيات الخبيثة قد أصابتها.

لذا، فإن كشط جميع نتائج سيرب باستمرار يمكّنك من اكتشاف محاولات الاختراق المحتملة مسبقًا ويساعد جوجل بالتأكيد على استعادة نتائجك.

كيفية كشط نتائج بحث جوجل؟

كما ذكرت سابقًا، هناك العديد من الطرق التي يمكنك من خلالها كشط صفحات Google SERPs. في هذا القسم، سوف تكتشف عدة طرق يمكنك من خلالها القيام بذلك.

مكشطة الويب المرئية

أوكتوبارسي

هذه أداة كاشطة عامة للويب يمكنك استخدامها لكشط صفحات Google SERPs. إنها لا تقوم فقط بكشط SERPs ولكنها جيدة أيضًا في كشط البيانات من خرائط Google.

من أهم ميزات Octoparse أنه يتجنب بذكاء إجراءات مكافحة الكشط التي تضعها المواقع الإلكترونية المستهدفة. كما أنه لا يتطلب منك أن تكون مبرمجًا لاستخدام أداة الكشط المرئي الخاصة به. إنه مناسب جدًا للاستخدام ومتوفر كحل قائم على السحابة وكذلك كبرنامج قابل للتثبيت.

يمكنك العثور على مزيد من المعلومات حول Octoparse هنا.

امتداد المتصفح

ويبسكرابر.io 

Webscraper.io هو امتداد مجاني لمتصفح الويب Google Chrome. يمكنه استخراج البيانات من صفحات الويب الخاصة بجوجل في شكل HTML و CSS. ويمكنه بعد ذلك تصدير البيانات بصيغة CSV. نسخة امتداد المتصفح مجانية بالكامل، وهي كافية لإدارة أنشطة الكشط الخاصة بك. أما إذا اخترت الخيار المستند إلى السحابة، فسيترتب على ذلك تكلفة.

يمكنك أيضًا استخراج خرائط Google باستخدامه وتحويلها إلى قاعدة بيانات. يمكنك العثور على مزيد من المعلومات حول هذا الامتداد هنا.

واجهة برمجة تطبيقات بحث Google API

هل تعلم أن جوجل توفر طريقة رسمية لاستخراج البيانات من محرك البحث الخاص بها؟ على الرغم من أن لها قيودها، كما هو مذكور أدناه، إلا أنها متاحة حاليًا لأي شخص يحتاج إلى بيانات SERP. فيما يلي حدودها:

  • يوفر معلومات محدودة مقارنةً بمكشطة الويب المرئية أو ملحقات المتصفح أو أدوات كشط الويب الأخرى.
  • وقد طورته جوجل بهدف البحث في موقع إلكتروني واحد أو عدد أقل من المواقع الإلكترونية. ومع ذلك، يمكنك تهيئته للبحث في شبكة الويب العالمية بأكملها (WWW)، وهو ما يتطلب الكثير من الخبرة التقنية.
  • إنه أمر مكلف للغاية حيث سيكلفك إرسال أكوام من الطلبات ثروة.

لذلك مع قيودها وتكاليفها، فإن واجهة برمجة تطبيقات بحث Google ليست النظام الأساسي المثالي لكشط نتائج SERPs. من الأفضل دائمًا اتباع الطرق البديلة المذكورة في هذه المقالة.

باستخدام Python، والطلبات و BeautifulSoup

بالنسبة لأولئك الذين هم خبراء في البرمجة باستخدام Python، ستكون هذه الطريقة مفيدة. فهي بلا شك ستقلل من التكلفة في المقام الأول، وسيكون لديك المزيد من التحكم.

في هذا البرنامج، سنقوم باستخراج SERPs لاستعلام البحث "كيف تتعلم لغة بايثون". لتبسيط الأمور، سنقوم بترميز استعلام البحث برمز ثابت. ثم بعد سحب مجموعة النتائج، سنقوم بطباعة عنوان النتائج. لنتعمق في الأمر.

import requests from bs4 import BeautifulSoup import random text = 'How to learn Python programming' url = 'https://google.com/search?q=' + text useragent = ("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36" ) Agent = useragent[random.randrange(len(useragent))] headers = {'user-agent': Agent} req = requests.get(url, headers=headers) soup = BeautifulSoup(req.text, 'lxml') for info in soup.find_all('h3'): print(info.text) print('__________')

سأشرح هنا كل سطر من التعليمات البرمجية بوضوح:

طلبات الاستيراد

نستخدم مكتبة طلبات Python لتنزيل SERP. ثم تقوم وحدة الطلب بإرسال طلب الحصول على طلب إلى خادم Google. يمكّن هذا البرنامج من تنزيل محتوى HTML الخاص ب SERP.

من bs4 bs4 استيراد الحساء الجميل

ثم السطر التالي لا يحتاج إلى شرح، والذي يقوم بتحميل مكتبة BeautifulSoup. تتيح هذه المكتبة تحليل مستندات HTML و XML.

النص = 'كيفية تعلم برمجة بايثون' عنوان url = 'https://google.com/search?q=' + النص

يحدد هذا الجزء من التعليمات البرمجية عنوان URL لمحرك البحث الذي سيتم كشط البيانات منه. لذلك قمت بتعيين عنوان URL ك google.com، وبالنسبة لاستعلام البحث، قمت بإلحاق النص الموجود في متغير النص، "كيف تتعلم برمجة بايثون" كاستعلام البحث.

وكيل المستخدم = ("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML، مثل Gecko) Chrome/92.0.4515.107.Safari/537.36")

      

ثم يقوم الرمز أعلاه بتعيين سلسلة وكيل المستخدم.

req = طلبات.get(url, headers=headers)

يرسل الرمز أعلاه الطلب إلى خادم الويب لتنزيل محتوى HTML المطلوب لنتائج البحث.

الحساء = الحساء الجميل(req.text, 'lxml')

أنشئ مثيلًا لـ BeautifulSoup بالبيانات التي طلبتها الشيفرة أعلاه من رؤوس التحليل 'lxml'. يجب عليك أولاً تثبيت حزمة 'lxml' لكي تعمل الشيفرة أعلاه.

for info in soup.find_all('h3'): print(info.text) print('__________')

ثم باستخدام حلقة للتكرار، يتم استخراج جميع علامات h3 لعرض العناوين.

استخدام البروكسيات السكنية لكشط نتائج محرك البحث جوجل SERPs

كما ذكرنا سابقًا، تفرض محركات البحث مثل جوجل قيودًا تشمل حظر عنوان IP الخاص بك عندما تتجاوز حد الكشط. هذا هو المكان الذي تلعب فيه البروكسيات دورًا حاسمًا في إخفاء عنوان IP الخاص بك. من بين جميع الوكلاء المتاحين، تعد البروكسيات السكنية الخيار المثالي. وذلك لأن عناوين IP الخاصة بهم تنشأ من مالكيها السكنيين الحقيقيين.

ومع ذلك، عندما تتخلص من أول عدد قليل من SERPs، سيلاحظ جوجل أن تصرفاتك غير إنسانية. ثم سيحظر عنوان IP الخاص بالوكيل الخاص بك، وسيتعين عليك التعامل مع اختبارات CAPTCHA.

هذا هو المكان الذي تعمل فيه شبكة البروكسيات السكنية كمنقذ لك. عندما تستخدم شبكة من البروكسيات السكنية، سيكون لكل منها عنوان IP فريد. لذلك ستتمكن من الكشط من SERPs عن طريق تدوير عناوين IP. ثم ستظهر أفعالك على أنها بشرية لمحرك البحث.

للحصول على شرح تفصيلي للوكلاء السكنيين، يرجى الرجوع إلى هذه المقالة.

الآثار القانونية المترتبة على استخدام البروكسي السكني لكشط نتائج محرك البحث جوجل SERPs

الآن، يجب أن تكون لديك فكرة واضحة عن ماهية الوكلاء السكنيين وكيف يمكنهم مساعدتك في التغلب على حظر بروتوكول الإنترنت. الآن سوف ننظر في عامل حاسم يهمله العديد من المستخدمين عند الكشط من SERPs من Google. هذه هي الآثار القانونية المترتبة على استخدام البروكسيات السكنية.

بادئ ذي بدء، من القانوني استخدام الوكلاء السكنيين لكشط محركات البحث على محرك جوجل SERPs. لذلك مع وضع ذلك في الاعتبار، قد تميل إلى إرسال طلبات غير محدودة إلى محركات البحث مثل جوجل. على هذا النحو، سيؤدي ذلك إلى زيادة التحميل على خوادم جوجل بعدد كبير من الطلبات. ليس هذا هو الشيء الصحيح الذي يجب القيام به، حتى وفقًا لخوارزمية Google SERPs.

لذلك، عليك أن تتأكد من احترامك الدائم لموقع الويب أو محرك البحث المستهدف الذي ستقوم بكشط البيانات منه. سيتعين عليك أيضًا استخدام أفضل ممارسات الكشط الممكنة، بما في ذلك أن تكون الكاشطة الخاصة بك محترمة لمحرك البحث المستهدف.

يجب عليك على الفور الحد من الطلبات أو إيقاف عملية الكشط إذا تلقيت أنت أو موفر البروكسي شكوى من خادم الويب الهدف. يمكن أن تكون الشكوى أن خادم الويب المستهدف قد يكون يعاني من عبء عمل كبير بسبب طلباتك غير المحدودة. لذلك عليك توخي الحذر من مثل هذه الحقائق.

الأسئلة المتداولة

هل الكشط من جوجل غير قانوني؟

في العادة، لا يحب جوجل عندما تقوم أدوات الكشط بكشط البيانات منه. وكما ذكرت عدة مرات في هذه المقالة، يمكنه حظر عناوين IP الخاصة بك. أيضًا، حتى الآن، لم تتخذ جوجل أي إجراء حتى الآن بسبب الإفراط في كشط البيانات. من الواضح أن شركات تحسين محركات البحث لن يكون لديها مخرج إذا اتخذت جوجل مثل هذه الإجراءات.

الخاتمة

نأمل الآن أن تكون قد اكتسبت معرفة شاملة بالطرق المختلفة التي يستخدمها كاشطو الويب لكشط البيانات من SERPs، حيث تستخدم ظروف مختلفة أساليب مختلفة. وأخيراً، تكون قد تعلمت كيف يمكنك استخدام الوكلاء السكنيين لكشط SERPs إلى جانب الآثار القانونية المترتبة عليها.

نأمل أن تجد هذه المقالة مفيدة، وترقبوا المزيد من المقالات.