شعار proxyscrape داكن

كيفية كشط جوجل باستخدام بايثون

كيفية القيام بذلك, بايثون, كشط, Nov-15-20225 دقائق للقراءة

يُعد Google اللاعب الأكبر بين جميع محركات البحث عندما يتعلق الأمر بالبحث عن المعلومات على الإنترنت. فوفقًا للتقديرات، يتم إجراء أكثر من 3.5 مليار عملية بحث على محرك بحث Google كل يوم. نحن (مستخدمو Google) لا نحصل على قدر معين من المعلومات إلا بناءً على تحليلات Google Analytics وإعلانات Google. تستخدم Google واجهة برمجة التطبيقات الخاصة بها

جدول المحتويات

يُعد Google اللاعب الأكبر بين جميع محركات البحث عندما يتعلق الأمر بالبحث عن المعلومات على الإنترنت. ووفقًا للتقديرات، يتم إجراء أكثر من 3.5 مليار عملية بحث على محرك بحث Google كل يوم. نحن (مستخدمو Google) لا نحصل على قدر معين من المعلومات إلا بناءً على تحليلات Google Analytics وإعلانات Google. تستخدم Google واجهة برمجة التطبيقات ( API ) الخاصة بها (واجهة برمجة التطبيقات) وتختار بشكل أساسي المعلومات الأكثر قيمة بالنسبة لنا بناءً على أبحاثها وتصنيفاتها. ولكن ماذا لو أردنا أن نتعمق أكثر في المعلومات ذات القيمة الحقيقية بالنسبة لك؟ 

هنا تأتي الحاجة إلى الكشط. يمكنك التفكير في مكشطة جوجل كوسيلة لتسليط الضوء على أهم فصول الكتاب. عندما تفحص كتابًا مدرسيًا بحثًا عن معلومات، فإنك تميل إلى انتقاء النص الأكثر قيمة لبحثك أو اختبارك. لكن شبكة الإنترنت العالمية أكبر من كتاب من 1000 صفحة. لذا، في حالة الإنترنت، يمكن أن تكون مكشطة جوجل هي عينك التي تركز على الليزر التي تلتقط وتجمع على الفور أفضل النتائج حول الموضوع الذي تتساءل عنه. يمكنك استخراج نتائج بحث جوجل بناءً على كلمات رئيسية محددة. على سبيل المثال، إذا قمت بكشط جوجل باستخدام الكلمة الرئيسية "أسود"، ستعطيك مكشطة جوجل عددًا معينًا من عناوين URL الأعلى تصنيفًا بناءً على تلك الكلمة الرئيسية. وكلما زاد عدد الكلمات المفتاحية التي تستخدمها، ستزودك جوجل بعناوين URL وبيانات أكثر تحديدًا. وكلما كانت البيانات أكثر تحديداً، كلما كانت البيانات أكثر تحديداً، كلما كانت مصممة خصيصاً لتلبية متطلباتك. ولكن دعنا نفهم أولاً الحاجة إلى كشط جوجل.

لماذا تحتاج إلى كشط جوجل؟

أنت تعلم أن Google هي نقطة الدخول الرئيسية إلى الإنترنت لمليارات الأشخاص، وكل نشاط تجاري تقريبًا يريد أن يظهر في نتائج بحث Google. تقييمات ومراجعات جوجل لها تأثير كبير على الملفات الشخصية للشركات المحلية على الإنترنت. تعتمد وكالات التسويق التي لديها العديد من العملاء من مختلف الصناعات بشكل كبير على الحصول على أدوات موثوقة لتحسين محركات البحث (SEO). فهي وسيلة لأداء المهام المختلفة بفعالية ووسيلة لإدارة النتائج وتحليلها بنجاح. 

فيما يلي بعض حالات استخدام كشط Google.

  • يمكنك تحليل الإعلانات لمجموعة معينة من الكلمات المفتاحية.
  • يمكنك مراقبة منافسيك في كل من النتائج العضوية والمدفوعة.
  • يمكنك إنشاء قائمة عناوين URL لكلمات رئيسية محددة. 

تحتاج الشركات إلى كشط Google للأسباب التالية.

  • تحسين محرّكات البحث (SEO) - يُظهر مسح محرّك البحث (SEO) - يُظهر مسح محرّك البحث Google مدى ارتفاع ظهور صفحة موقع الويب الخاص بالشركة على صفحة نتائج Google ويعطي لمحة عن عدد الكلمات الرئيسية التي يستخدمها موقع الويب الخاص بها في أي صفحة. وكلما زاد عدد الكلمات المفتاحية التي يستخدمها الموقع الإلكتروني، كلما ظهرت تلك الصفحة بعينها في صفحة النتائج. لذا، فإن فهم كيفية الاستفادة من تحسين محركات البحث يحافظ على قدرة شركتك على المنافسة بشكل كبير.
  • التسويق - كلما رأينا شعار أمازون على شاشاتنا، زادت احتمالية توجهنا إلى أمازون عندما نحتاج إلى إجراء عملية شراء. يساعدك تجريف Google في جمع البيانات حول كيفية إعلان منافسيك عن منتجاتهم، والمنتجات التي يختارون الإعلان عنها، وكيفية استجابة العملاء لتلك المنتجات. 
  • تكتيكات المبيعات التنافسية - يساعد كشط Google شركتك على وضع تكتيكات مبيعات أكثر تنافسية. إذا كانت شركتك تحتل مرتبة منخفضة في صفحة نتائج معينة، فقد يعطيك ذلك نظرة ثاقبة عن سبب عدم نجاح منتج معين لشركتك. يمنحك الكشط أفضلية على منافسيك ويوفر لك طرقًا جديدة لتكون قادرًا على المنافسة في هذا العالم. 

كشط جوجل باستخدام بايثون

دعونا نرى كيف يمكننا كشط جوجل باستخدام بايثون.

التركيب

أولاً، تحتاج إلى تثبيت وكيل مستخدم مزيف. فهو يستحوذ على وكيل مستخدم محدث بقاعدة بيانات حقيقية.

تثبيت نقطة تثبيت وكيل مستخدم وهمي

مكتبات الاستيراد

عليك استيراد جميع المكتبات اللازمة، كما هو موضح أدناه.

استيراد بانداس ك pd
استيراد numpy ك np
استيراد urllib
من fake_useragent (وكيل المستخدم) استيراد وكيل المستخدم
استيراد الطلبات
استيراد إعادة
من urllib.request استيراد الطلبات، urlopen
من bs4 استيراد حساء جميل

استخدام كلمة رئيسية

عليك إنشاء عنوان URL الخاص بـ Google باستخدام كلمتك الرئيسية وعدد النتائج. للقيام بذلك، سنتبع الخطوتين التاليتين:

ترميز الكلمة الرئيسية في HTML باستخدام urllibأضف المعرف إلى عنوان URL

نفترض أن كلمتنا الرئيسية هي "تعلم الآلة بايثون".

الكلمة المفتاحية= "تعلم الآلة بايثون"
html_keyword= urllib.parse.parse.quote_plus(keyword)
طباعة(html_keyword)

عندما نطبع الكلمة الرئيسية، نحصل على النتيجة التالية.

إنشاء عنوان URL لـ Google

بعد ترميز الكلمة الرئيسية إلى HTML باستخدام urllib، علينا إنشاء عنوان URL الخاص بـ Google كما هو موضح أدناه.

العدد_من_النتيجة = 15
google_url = "https://www.google.com/search?q=" + html_keyword + "&num=" + str(number_of_of_result)
طباعة(google_url)

نحصل على عنوان URL التالي:

احصل على النتائج

الآن، علينا الآن الضغط على عنوان URL والحصول على النتائج. ولتحقيق ذلك، سيساعدنا في ذلك كل من Beautiful Soup و Fake Useragent.

ua = UserAgent()
response = requests.get(google_url, {"User-Agent": ua.random})
soup = BeautifulSoup(response.text, "html.parser")

نحتاج فقط إلى التعبيرات العادية لاستخراج المعلومات التي نريدها.

result = soup.find_all('div', attrs = {'class': 'ZINbbc'})
results=[re.search('\/url\?q\=(.*)\&sa',str(i.find('a', href = True)['href'])) for i in result if "url" in str(i)]
#this is because in rare cases we can't get the urls
links=[i.group(1) for i in results if i != None]
links

إليك ما نحصل عليه.

هذه هي الطريقة التي يمكنك بها كشط Google باستخدام Python. 

يمكننا أيضًا تلخيص الكود أعلاه في دالة كاشطة واحدة، كما هو موضح أدناه.

def google_results(keyword, n_results):
    query = keyword
    query = urllib.parse.quote_plus(query) # Format into URL encoding
    number_result = n_results
    ua = UserAgent()
    google_url = "https://www.google.com/search?q=" + query + "&num=" + str(number_result)
    response = requests.get(google_url, {"User-Agent": ua.random})
    soup = BeautifulSoup(response.text, "html.parser")
    result = soup.find_all('div', attrs = {'class': 'ZINbbc'})
    results=[re.search('\/url\?q\=(.*)\&sa',str(i.find('a', href = True)['href'])) for i in result if "url" in str(i)]
    links=[i.group(1) for i in results if i != None]
    return (links)

هنا google_results هي دالة الكاشطة التي نمرر فيها الكلمة المفتاحية وعدد النتائج كمعلمات وننشئ عنوان URL الخاص ب Google.

نتائج_جوجل("التعلم الآلي في بايثون"، 10)

إليك ما نحصل عليه.

استخدام الوكلاء

ماذا لو كنت تريد الاتصال بواجهة برمجة تطبيقات إعلانات Google؟ يمكنك القيام بذلك من خلال وكيل عن طريق تعيين تهيئة http_proxy في ملف google-ads.yaml كما هو موضح أدناه.

http_proxy: إدراج_وكيل_هنا

يمكنك تحديد http://user:pass@المضيف المحلي:8082 كوكيل. يمكنك أيضًا تكوين إعداد الوكيل برمجيًا بمساعدة أساليب GoogleAdsClient على النحو التالي:

  • تحميل_من_القائمة
  • التحميل_من_العنف
  • تحميل_من_سلسلة

على سبيل المثال, 

config = {
  ...
  "http_proxy": "INSERT_PROXY_HERE",
}
googleads_client = GoogleAdsClient.load_from_dict(config)

يجب أن تقوم بتعيين متغير البيئة GOOGLE_ADS_HTTP_PROXY لاستخدام وكيل من طريقة التحميل_من_الخارج.

لماذا تستخدم وكلاء Google Proxies؟

فيما يلي أسباب استخدام وكلاء Google.

  • احصل على نتائج سريعة وفريدة من نوعها - جميع محركات البحث، بما في ذلك جوجل، تستهجن استخدام البرامج الآلية لاستخراج النتائج. عندما يجدون عدة استفسارات بحث قادمة من عنوان IP، فإنهم يحظرون عنوان IP ويمنعونه من الوصول إلى أي بيانات. لذا، مع مجموعة كاملة من البروكسيات الخاصة الفريدة والمخصصة، لن تتمكن فقط من استخدام البرامج الآلية لاستخراج نتائج بحث جوجل، ولكنك ستتمكن أيضًا من الحصول على البيانات بسرعة كبيرة.
  • الحفاظ على الخصوصية- تضمن وكلاء Google أن عنوان IP الأصلي الخاص بك سيكون آمنًا ومأمونًا ولن يكون عرضة لأي محاولات اختراق. كما أنها ستضمن لك الاحتفاظ بالمعلومات الحساسة في حاسوبك في مكان آمن.
  • الأتمتة - يعمل برنامج الأتمتة بشكل صحيح باستخدام وكلاء ذوي جودة عالية، ولا تحتاج إلى شراء أي شيء آخر بالتزامن مع وجود الوكلاء المخصصين وبرنامج الأتمتة.

الخاتمة

يمكنك كشط Google باستخدام Python من أجل:

  • تحليل المنافسين
  • بناء الروابط
  • تسليط الضوء على الحضور الاجتماعي
  • كلمات البحث عن كلمات البحث

عند كشط البيانات من جوجل، تعتبر البروكسيات ضرورية لأنها يمكن أن تساعد الشركات على تعزيز ترتيبها على محركات البحث وتمنع حظر عنوان IP الخاص بها على الإنترنت. يمكنك استخدام مجموعة كاملة من البروكسيات المخصصة لكشط جوجل، وهي تساعدك في الحصول على البيانات بسرعة كبيرة.

آمل أن تكون قد فهمت كيفية كشط جوجل باستخدام بايثون.