داكن proxyscrape شعار

How To Scrape Twitter Using Python- The Easy Approach in 2024

كيف ، بايثون ، 03-ديسمبر-20225 دقائق للقراءة

لا يمكن للعديد من المواقع الارتباط عند ذكر كلمة "البيانات الضخمة". لكن تويتر يمكن تبادل أكثر من 500 مليون تغريدة على منصته يوميا ، بما في ذلك نسبة كبيرة من الصور والنصوص ومقاطع الفيديو. يمكن أن توفر لك تغريدة واحدة معلومات حول:

  • عدد الأشخاص الذين شاهدوا التغريدة
  • التركيبة السكانية للأشخاص الذين سجلوا إعجابهم بالتغريدة أو أعادوا تغريدها
  • إجمالي عدد النقرات على ملفك الشخصي

على عكس العديد من منصات الوسائط الاجتماعية الأخرى ، يمتلك Twitter واجهة برمجة تطبيقات عامة ودية للغاية ومكلفة ومجانية يمكن استخدامها للوصول إلى البيانات على نظامه الأساسي. كما يوفر واجهة برمجة تطبيقات متدفقة للوصول إلى بيانات Twitter الحية. ومع ذلك ، فإن واجهات برمجة التطبيقات لها بعض القيود على عدد الطلبات التي يمكنك إرسالها خلال فترة زمنية نافذة. تأتي الحاجة إلى Twitter Scraping عندما لا يمكنك الوصول إلى البيانات المطلوبة من خلال واجهات برمجة التطبيقات. يعمل الكشط على أتمتة عملية جمع البيانات من تويتر بحيث يمكنك استخدامها في جداول البيانات والتقارير والتطبيقات وقواعد البيانات. 

قبل الغوص في كود python لكشط بيانات Twitter ، دعنا نرى لماذا نحتاج إلى كشط بيانات Twitter.

لا تتردد في الانتقال إلى أي قسم لمعرفة كيفية كشط Twitter باستخدام python!

جدول المحتويات

لماذا تحتاج إلى كشط تويتر؟

أنت تعلم أن Twitter هو موقع تدوين مصغر ومساحة مثالية تحتوي على معلومات غنية يمكنك كشطها. لكن هل تعرف لماذا تحتاج إلى كشط هذه المعلومات؟

فيما يلي بعض أسباب كشط بيانات Twitter التي تساعد الباحثين:

  • فهم شبكة تويتر الخاصة بك وتأثير تغريداتك
  • معرفة من يذكر من خلال @usernames
  • دراسة كيفية نشر المعلومات
  • استكشاف كيفية تطور الاتجاهات وتغيرها بمرور الوقت
  • فحص الشبكات والمجتمعات
  • معرفة شعبية / تأثير التغريدات والأشخاص
  • جمع البيانات حول مكبرات الصوت التي قد تشمل:
    • اصدقاء
    • شوهد
    • المفضله
    • صورة الملف الشخصي
    • تاريخ التسجيل وما إلى ذلك.

وبالمثل ، يمكن أن يساعد تجريف Twitter المسوقين في:

  • مراقبة منافسيهم بشكل فعال
  • استهداف جمهور التسويق بالتغريدات ذات الصلة
  • إجراء تحليل المشاعر
  • مراقبة العلامات التجارية في السوق
  • التواصل مع المؤثرين الكبار في السوق
  • دراسة سلوك العملاء

كيفية كشط تويتر باستخدام بايثون

هناك العديد من الأدوات المتاحة لكشط بيانات تويتر بتنسيق منظم. البعض منهم:

  • حساء جميل - إنها حزمة Python توزع مستندات HTML و XML وهي مفيدة جدا لكشط Twitter.
  • Twitter API عبارة عن غلاف Python يقوم بتنفيذ طلبات واجهة برمجة التطبيقات مثل تنزيل التغريدات والبحث عن المستخدمين وغير ذلك الكثير. يمكنك إنشاء تطبيق تويتر للحصول على مفاتيح OAuth والوصول إلى واجهة برمجة تطبيقات تويتر.
  • مكشطة تويتر - يمكنك استخدام مكشطة تويتر لكشط بيانات تويتر بكلمات رئيسية أو مواصفات أخرى. 

دعونا نرى كيفية كشط التغريدات لموضوع معين باستخدام مكتبة ناطحة تويتر في Python.

تثبيت مكشطة تويتر

يمكنك تثبيت مكتبة ناطحة التغريد باستخدام الأمر التالي:

!pip تثبيت تويترمكشطة

يمكنك استخدام الأمر أدناه لتثبيت أحدث إصدار.

!pip تثبيت تويترscraper ==1.6.1

أو

تثبيت نقطة ناطحة تويتر --ترقية

استيراد المكتبات

سوف تستورد ثلاثة أشياء ، أي ؛

  1. get_tweets
  2. الباندا

من twitter_scraper get_tweets الاستيراد 
استيراد الباندا ك PD

اذكر المواصفات

لنفترض أننا مهتمون بكشط قائمة علامات التصنيف التالية:

  • التعلم الآلي
  • التعلم العميق
  • البرمجة اللغوية العصبية
  • الرؤية الحاسوبية
  • منظمه العفو الدوليه
  • تينسورفلو
  • بيتورش
  • علم البيانات 
  • تحليل البيانات وما إلى ذلك.

الكلمات الرئيسية = ['التعلم الآلي' ، 'ML' ، 'التعلم العميق' ، 
            "#artificialintelligence" ، "#NLP" ، "رؤية الكمبيوتر" ، "الذكاء الاصطناعي" ، 
            "Tensorflow" ، "Pytorch" ، "sklearn" ، "الباندا" ، "المؤامرة" ، 
            "سباسي" ، "فاستاي" ، "علم البيانات" ، "تحليل البيانات"]

.

إنشاء إطار بيانات

نقوم بتشغيل تكرار واحد لفهم كيفية تنفيذ get_tweets المكتبة. نمرر حجتنا أو موضوعنا الأول كعلامة تصنيف نريد جمع التغريدات منها. 

تغريدات = get_tweets("#machinelearning"، الصفحات = 5)

هنا سقسقة هو كائن. يتعين علينا إنشاء Pandas DataFrame باستخدام الكود أدناه:

tweets_df = pd. إطار البيانات ()

نستخدم الوظيفة أدناه لطباعة المفاتيح والقيم التي تم الحصول عليها.

للتغريد في التغريدات:
  طباعة ("مفاتيح:" ، قائمة (تغريدة.keys()), '\n')
  كسر

المفاتيح المعروضة هي كما يلي:

استخراج البيانات ذات الصلة

الآن ، نقوم بتشغيل الكود لكلمة رئيسية واحدة واستخراج البيانات ذات الصلة. لنفترض أننا نريد استخراج البيانات التالية:

  • نص
  • isRetweet
  • الردود
  • إعادات التغريد
  • يحب

يمكننا استخدام حلقة for لاستخراج هذه البيانات ، وبعد ذلك يمكننا استخدام وظيفة head() للحصول على الصفوف الخمسة الأولى من بياناتنا.

for tweet in tweets:
  _ = pd.DataFrame({'text' : [tweet['text']],
                    'isRetweet' : tweet['isRetweet'],
                    'replies' : tweet['replies'],
                    'retweets' : tweet['retweets'],
                    'likes' : tweet['likes']
                    })
  tweets_df = tweets_df.append(_, ignore_index = True)
tweets_df.head()

إليك إطار البيانات الذي يحتوي على البيانات المطلوبة ، ويمكنك بسهولة تصور جميع التغريدات التي تم جمعها. 

تهانينا على إلغاء التغريدات من تويتر. الآن ، ننتقل إلى فهم الحاجة إلى وكلاء تويتر.

لماذا نستخدم بروكسيات تويتر؟

هل سبق لك أن نشرت شيئا لا يجب أن يكون لديك؟ وكلاء تويتر هم الحل الأفضل للمستخدمين الذين لا يستطيعون ترك فيلق من المتابعين دون محتوى جديد لفترة زمنية طويلة. بدونهم ، لن يحالفك الحظ وقد تفقد المتابعين بسبب قلة النشاط. تعمل هذه الخوادم الوكيلة نيابة عن جهاز الكمبيوتر الخاص بك وتخفي عنوان IP الخاص بك عن خوادم تويتر. حتى تتمكن من الوصول إلى النظام الأساسي دون حظر حسابك.

تحتاج أيضا إلى وكيل مناسب عند استخدام أداة تجريف لكشط بيانات تويتر. على سبيل المثال ، يستخدم المسوقون في جميع أنحاء العالم وكلاء أتمتة Twitter مع أدوات الكشط لكشط Twitter للحصول على معلومات قيمة عن السوق في جزء صغير من الوقت.

الوكلاء السكنيون - يمكنك استخدام بروكسيات سكنية سريعة وآمنة وموثوقة وفعالة من حيث التكلفة. إنها توفر تجربة عالية الجودة بشكل استثنائي لأنها عناوين IP آمنة وشرعية لمزود خدمة الإنترنت.

أدوات الأتمتة - يمكنك أيضا استخدام أداة أتمتة عند استخدام وكيل تويتر. تساعد هذه الأدوات في إدارة حسابات متعددة لأنها تستطيع التعامل مع العديد من المهام في وقت واحد.

على سبيل المثال ، يعد TwitterAttackPro أداة رائعة يمكنها التعامل مع جميع واجبات Twitter تقريبا نيابة عنك ، بما في ذلك:

  • متابعة/إلغاء متابعة
  • التغريد/إعادة التغريد
  • الرد على تعليق
  • التفضيل

لاستخدام أدوات الأتمتة هذه ، يجب عليك استخدام وكيل Twitter. إذا لم تقم بذلك ، فسيحظر Twitter جميع حساباتك.

ما هو أفضل وكيل لكشط تويتر باستخدام بايثون؟

ProxyScrape هو واحد من مزودي البروكسي الأكثر شعبية وموثوقية على الإنترنت. تتضمن ثلاث خدمات بروكسي خوادم بروكسي مخصصة لمركز البيانات وخوادم بروكسي سكنية وخوادم بروكسي متميزة. إذن ، ما هو أفضل وكيل ممكن لكشط Twitter باستخدام python؟ قبل الإجابة على هذه الأسئلة ، من الأفضل رؤية ميزات كل خادم وكيل.

يعد وكيل مركز البيانات المخصص هو الأنسب للمهام عالية السرعة عبر الإنترنت ، مثل دفق كميات كبيرة من البيانات (من حيث الحجم) من خوادم مختلفة لأغراض التحليل. إنه أحد الأسباب الرئيسية التي تجعل المؤسسات تختار وكلاء مخصصين لنقل كميات كبيرة من البيانات في فترة زمنية قصيرة.

يحتوي وكيل مركز البيانات المخصص على العديد من الميزات ، مثل النطاق الترددي غير المحدود والاتصالات المتزامنة ، وبروكسيات HTTP المخصصة لسهولة الاتصال ، ومصادقة IP لمزيد من الأمان. مع وقت تشغيل بنسبة 99.9٪ ، يمكنك أن تطمئن إلى أن مركز البيانات المخصص سيعمل دائما خلال أي جلسة. أخيرا وليس آخرا ProxyScrape يوفر خدمة عملاء ممتازة وسيساعدك على حل مشكلتك في غضون 24-48 ساعة عمل. 

التالي هو وكيل سكني. السكنية هي وكيل الانتقال لكل مستهلك عام. السبب الرئيسي هو أن عنوان IP الخاص بالوكيل السكني يشبه عنوان IP الذي يوفره مزود خدمة الإنترنت. هذا يعني أن الحصول على إذن من الخادم الهدف للوصول إلى بياناته سيكون أسهل من المعتاد. 

الميزة الأخرى ل ProxyScrapeالوكيل السكني هو ميزة دوارة. يساعدك الوكيل الدوار على تجنب الحظر الدائم على حسابك لأن الوكيل السكني الخاص بك يغير عنوان IP الخاص بك ديناميكيا ، مما يجعل من الصعب على الخادم الهدف التحقق مما إذا كنت تستخدم وكيلا أم لا. 

بصرف النظر عن ذلك ، فإن الميزات الأخرى للوكيل السكني هي: عرض النطاق الترددي غير المحدود ، إلى جانب الاتصال المتزامن ، وبروكسيات HTTP / s المخصصة ، والوكلاء في أي جلسة زمنية بسبب 7 ملايين بالإضافة إلى الوكلاء في تجمع الوكيل ، ومصادقة اسم المستخدم وكلمة المرور لمزيد من الأمان ، وأخيرا وليس آخرا ، القدرة على تغيير خادم البلد. يمكنك تحديد الخادم الذي تريده عن طريق إلحاق رمز البلد بمصادقة اسم المستخدم. 

آخر واحد هو الوكيل المتميز. الوكلاء المتميزون هم نفس وكلاء مراكز البيانات المخصصين. تظل الوظيفة كما هي. الفرق الرئيسي هو إمكانية الوصول. في الوكلاء المميزين ، يتم توفير قائمة الوكيل (القائمة التي تحتوي على بروكسي) لكل مستخدم على ProxyScrapeشبكة. هذا هو السبب في أن الوكلاء المتميزين يكلفون أقل من وكلاء مراكز البيانات المخصصة.

إذن ، ما هو أفضل وكيل ممكن لكشط Twitter باستخدام python؟ الجواب سيكون "وكيل سكني". السبب بسيط. كما ذكر أعلاه ، فإن الوكيل السكني هو وكيل دوار ، مما يعني أنه سيتم تغيير عنوان IP الخاص بك ديناميكيا على مدار فترة زمنية يمكن أن يكون مفيدا لخداع الخادم عن طريق إرسال الكثير من الطلبات في إطار زمني صغير دون الحصول على كتلة IP. 

بعد ذلك ، سيكون أفضل شيء هو تغيير الخادم الوكيل بناء على البلد. عليك فقط إلحاق البلد ISO_CODE في نهاية مصادقة IP أو مصادقة اسم المستخدم وكلمة المرور. 

التعليمات:

1. كيفية كشط تويتر باستخدام بايثون؟
يمكنك كشط Twitter باستخدام python بمساعدة مكتبة python تسمى "twitterscraper". إنه أسهل بكثير في الاستخدام مقارنة بمكتبات الكشط الأخرى. باستخدام هذه المكتبة ، يمكنك كشط البيانات مثل إعادة التغريد والردود والتعليقات وغير ذلك الكثير بسرعة.
2. هل من القانوني كشط تويتر؟
لم تكن ذات أهمية. يمكنك كشط البيانات العامة من Twitter دون أي مشاكل. لكن يمكن لتويتر حظرك إذا أرسلت عددا غير طبيعي من الطلبات في فترة قصيرة. من الأفضل استخدام وكيل لإخفاء عنوان IP الخاص بك.
3. ما هو أفضل وكيل لكشط تويتر باستخدام بايثون؟
الوكيل السكني هو أفضل وكيل لكشط Twitter باستخدام python. السبب بسيط. الوكيل السكني هو وكيل دوار ، مما يعني أنه سيتم تغيير عنوان IP الخاص بك ديناميكيا على مدار فترة زمنية يمكن أن يكون مفيدا لخداع الخادم عن طريق إرسال الكثير من الطلبات في إطار زمني صغير دون الحصول على كتلة IP.

استنتاج

ناقشنا أنه يمكنك كشط Twitter باستخدام واجهات برمجة تطبيقات Twitter والكاشطات. يمكنك استخدام مكشطة Twitter لكشط Twitter من خلال ذكر الكلمات الرئيسية والمواصفات الأخرى ، تماما كما فعلنا أعلاه. يتعين على مسوقي وسائل التواصل الاجتماعي الذين يرغبون في الحصول على أكثر من حساب Twitter للوصول إلى نطاق أوسع استخدام وكلاء Twitter لمنع حظر الحساب. أفضل الوكلاء هم الوكلاء السكنيون الذين يتمتعون بسرعة فائقة ولا يتم حظرهم أبدا. 

آمل أن تكون قد حصلت على فكرة حول كيفية كشط Twitter باستخدام Python.