شعار proxyscrape داكن

كشط مقاطع فيديو يوتيوب باستخدام بايثون - نهج سهل في عام 2024

كيفية القيام بذلك, بايثون, كشط, Dec-23-20225 دقائق للقراءة

بعد Google، يُعد YouTube ثاني أشهر محرك في العالم بعد Google. وهو خدمة لمشاركة الفيديو حيث يمكن للمستخدمين مشاهدة مقاطع الفيديو ومشاركتها والإعجاب بها والتعليق عليها وتحميلها. وهو موطن لمدوني الفيديو، والمحتوى الإعلامي، ومقاطع الفيديو التعليمية، والكثير من البيانات الأخرى. بعض الوظائف الرئيسية لـ Youtube هي: بمساعدة تجريف الويب

بعد Google، يُعد YouTube ثاني أشهر محرك في العالم بعد Google. وهو خدمة لمشاركة الفيديو حيث يمكن للمستخدمين مشاهدة مقاطع الفيديو ومشاركتها والإعجاب بها والتعليق عليها وتحميلها. وهو موطن لمدوني الفيديو، والمحتوى الإعلامي، ومقاطع الفيديو التعليمية، والكثير من البيانات الأخرى. بعض الوظائف الرئيسية لـ Youtube هي:

  • البحث عن مقاطع الفيديو ومشاهدتها
  • إنشاء قناة يوتيوب شخصية
  • رفع مقاطع الفيديو إلى قناتك
  • الاشتراك في قنوات ومستخدمين آخرين
  • الإعجاب بمقاطع فيديو أخرى على Youtube ومشاركتها
  • إنشاء قوائم تشغيل لتنظيم مقاطع الفيديو معًا

بمساعدة كشط الويب، يمكنك استخراج البيانات من Youtube وإفادة مؤسستك من خلال الحصول على رؤى قيمة من تلك البيانات. عندما تتعلم استخراج البيانات من Youtube، من المهم أن تعرف نوع البيانات التي تريدها. على سبيل المثال، إذا كنت ترغب في معرفة ردود فعل الناس على عملك، يمكنك كشط قسم التعليقات لتحليل مشاعر المستخدمين. وبالمثل، إذا كنت تريد تتبع نجاح مقطع فيديو، يمكنك كشط بيانات أداء الفيديو. 

قبل أن نتعلم كيفية كشط مقاطع فيديو Youtube، دعنا نتعلم لماذا نحتاج إلى كشطها.

جدول المحتويات

لماذا كشط مقاطع الفيديو على Youtube؟

فيما يلي ذكر سببين رئيسيين لكشط بيانات Youtube.

  • بيانات أداء الفيديو - عندما تنشر مقاطع فيديو إعلامية لعلامة تجارية، من المهم تتبع كيفية استجابة جمهورك لها. سيساعدك مسح الصفحة لمقطع فيديو معين في الحصول على عدد المشاهدات والإعجابات وعدم الإعجاب والتعليقات ومشتركي القناة وغير ذلك. يجب أن تضع في اعتبارك نسبة كل من هذه المقاييس. على سبيل المثال، يمكن أن يحظى مقطع فيديو بملايين المشاهدات ويحظى بملايين المشاهدات وعدد مرات عدم الإعجاب أكثر من عدد مرات الإعجاب. لا يشير عدد المشاهدات إلى أن عدد المشاهدات لا يدل على فيديو محبوب أو عالي الجودة. بدلاً من ذلك، يمكن أن تكون نسبة المشاهدات إلى الإعجابات/عدم الإعجاب/عدم الإعجاب شكلاً من أشكال تحليل المشاعر.
  • بيانات القناة - عند كشط الصفحة الخاصة بقناة على Youtube، ستحصل على بيانات تتعلق بقوائم التشغيل وعدد مقاطع الفيديو والمشتركين والمزيد. وعلاوة على ذلك، فإن كشط صفحات القنوات المنافسة مفيد وغني بالمعلومات لفهم ما إذا كانت قناتك في نفس مستوى تأثير قنواتهم. 
  • تحقيق الأتمتة - تتيح لك أدوات كشط الويب القوية استخراج البيانات من Youtube تلقائيًا. فهي توفر الوقت حيث يمكنك جمع البيانات بحجم أكبر مما يمكن أن يأمل الإنسان في تحقيقه. 
  • ذكاء الأعمال والرؤى - يمكنك الحصول على صورة أفضل عن نشاط منافسيك من خلال تنزيل البيانات وتنظيفها وتحليلها بأحجام كبيرة، مما يؤدي إلى اتخاذ قرارات أفضل في مجال الأعمال.

كشط مقاطع فيديو يوتيوب باستخدام بايثون

لنرى كيفية استخراج بيانات فيديو يوتيوب باستخدام سيلينيوم وبايثون. سيلينيوم هي أداة شائعة لأتمتة متصفحات الويب. يمكنك بسهولة برمجة برنامج بايثون النصي لأتمتة متصفح الويب باستخدام سيلينيوم. 

يتطلب Selenium برنامج تشغيل للتفاعل مع المتصفح الذي اخترته. على سبيل المثال، يتطلب متصفح Chrome برنامج تشغيل ChromeDriver الذي يجب تثبيته قبل بدء الكشط.

إعداد بيئة بايثون

الخطوة 1 - تحتاج إلى فتح جهازك الطرفي وتثبيت سيلينيوم باستخدام الأمر أدناه.

$$ تثبيت سيلينيوم

الخطوة 2 - تحتاج إلى تنزيل Chrome WebDriver باتباع الخطوات التالية.

  • عليك زيارة https://sites.google.com/a/chromium.org/chromedriver/download
  • عليك تحديد برنامج التشغيل المتوافق مع إصدار Chrome لديك.
  • تحتاج إلى التحقق من إصدار Chrome الذي تستخدمه بالنقر على النقاط الرأسية الثلاث في الزاوية العلوية اليمنى.
  • بعد ذلك، عليك الانتقال إلى المساعدة -> حول جوجل كروم.

الخطوة 3 - تحتاج إلى نقل ملف برنامج التشغيل إلى مسار.

عليك الذهاب إلى دليل التنزيلات والقيام بما يلي.

  • فك ضغط الملف.
  • انقله إلى usr/local/bin PATH.
$ تنزيلاتالقرص المضغوط 
$ Unzip chromedriver_linux64.zip
$ mv chromedriver /usr/local/bin/

كشط مقاطع فيديو يوتيوب

سنقوم بكشط معرّف الفيديو والعنوان والوصف لفئة معينة من Youtube. الفئات التي يمكننا كشطها هي:

  • العلوم
  • الطعام
  • السفر
  • التصنيع وما إلى ذلك.

مكتبات الاستيراد

تحتاج إلى استيراد المكتبات الضرورية مثل Pandas وSelenium.

من سيلينيوم استيراد webdriver من سيلينيوم 
استيراد بانداس ك pd 
من selenium.webdriver.common.by استيراد By 
من selenium.webdriver.support.ui استيراد WebDriverWait 
من selenium.webdriver.support.support استيراد الشروط المتوقعة ك EC

إعداد برنامج التشغيل

عليك فتح Youtube في متصفحك. اكتب الفئة التي تريد البحث عن مقاطع الفيديو الخاصة بها واضبط الفلتر على "مقاطع الفيديو". ستحصل على مقاطع الفيديو المتعلقة ببحثك. الآن، عليك نسخ عنوان URL.

تحتاج إلى إعداد برنامج التشغيل لجلب محتوى عنوان URL من Youtube.

برنامج التشغيل = webdriver.Chrome() 
driver.get("Your_LINK_HERE")

الآن، الصق الرابط في الدالة driver.get("Your_LINK_HERE"). قم بتشغيل الخلية، وستفتح نافذة متصفح جديدة لهذا الرابط. تحتاج إلى جلب روابط الفيديو الموجودة في تلك الصفحة المحددة. يمكنك إنشاء قائمة لتخزين تلك الروابط. بعد ذلك، يجب عليك الانتقال إلى نافذة المتصفح والقيام بما يلي.

  • انقر بزر الماوس الأيمن على الصفحة.
  • حدد عنصر "فحص".

يجب عليك البحث عن علامة الارتساء ذات المعرف = "عنوان الفيديو". انقر بزر الماوس الأيمن عليها -> نسخ -> XPath. سيبدو XPath هكذا:

//*[@id=”video-title”]

جلب روابط فيديو يوتيوب

يمكنك استخدام الكود أدناه لجلب سمة "href" لعلامة الارتساء التي بحثت عنها.

user_data = driver.find_elements_by_xpath('//*[@id="video-title"])
الروابط = []
بالنسبة إلى i في user_data:
            روابط.append(i.get_attribute('href'))

 طباعة(len(links)))

إنشاء إطار بيانات

تحتاج إلى إنشاء إطار بيانات يحتوي على الأعمدة الأربعة أدناه.

  • الرابط
  • العنوان
  • الوصف
  • الفئة

يمكنك تخزين تفاصيل مقاطع الفيديو للفئات المختلفة في هذه الأعمدة.

df = pd.DataFrame(الأعمدة = ['الرابط'، 'العنوان'، ' الوصف'، 'الفئة'])

أنت مستعد لكشط تفاصيل فيديو Youtube باستخدام كود Python أدناه.

الانتظار = WebDriverWait(driver, 10)
v_الفئة = "CATEORYGATEORY_NAME"
لـ x في الروابط
            driver.get(x)
            v_id = x.strip('https://www.youtube.com/watch?v=')
            v_title = wait.until.until(EC.presence_of_element_located(
                           (بواسطة.By.CSS_SELECTOR,"h1.title yt-formated-string"))).text
            v_description = wait.until(EC.presence_of_element_located(
                                         (بواسطة.By.CSS_SELECTOR,"div#description 
                                         yt-formated-string")))).text
            df.loc[len(df)] = [v_id, v_title, v_description, v_description, v_category]

هنا,

  • يتجاهل الانتظار مثيلات NotFoundException التي تصادفها افتراضيًا في حالة "حتى". 
  • معلمات دالة الانتظار هي: برنامج التشغيل - هو مثيل WebDriver الذي سيتم تمريره إلى الظروف المتوقعة.timeOutInSeconds - هو المهلة عند استدعاء التوقع.
  • برنامج التشغيل - هو مثيل WebDriver الذي سيتم تمريره إلى الشروط المتوقعة.
  • TimeOutOutInSeconds - هي المهلة عند استدعاء التوقع.
  • يُستخدم v_category لتخزين اسم_فئة_الفيديو.
  • قمنا بتطبيق حلقة التكرار لقائمة الروابط التي تم إنشاؤها أعلاه.
  • يقوم برنامج التشغيل.get(x) بتنفيذ الوظائف التالية: يستعرض جميع الروابط واحدًا تلو الآخريفتحها في المتصفح لجلب التفاصيل
  •  يمر عبر جميع الروابط واحدًا تلو الآخر
  • فتحها في المتصفح لجلب التفاصيل
  • v_id يستخدم لتخزين معرف الفيديو المخطط من الرابط.
  • v_title يخزن عنوان الفيديو الذي تم جلبه باستخدام CSS_SELECTOR
  • وبالمثل، يخزن v_description وصف الفيديو باستخدام CSS_SELECTOR

سنتبع نفس الخطوات مع الفئات المتبقية. سيكون لدينا أربعة إطارات بيانات مختلفة، وسنقوم بدمجها في إطار بيانات واحد. بهذه الطريقة، سيحتوي إطار البيانات النهائي على التفاصيل المطلوبة لمقاطع الفيديو من جميع الفئات المذكورة أعلاه.

الإطارات = [df_travel، df_science، df_science، df_food، df_manufacturing]
df_copy = pd.concat(إطارات، المحور=0، ضم='خارجي'، ضم_المحاور=لا شيء، تجاهل_الفهرس=صحيح، مفاتيح=لا شيء، مستويات=لا شيء، أسماء=لا شيء، تحقق_من_التكامل=خطأ،نسخ=صحيح)

استخدام وكيل لكشط مقاطع فيديو يوتيوب

يمكنك استخدام وكلاء Youtube للمهام التالية:

  • الكشط - يمكنك جمع عناوين الفيديو والتعليقات وأي معلومات بشكل صحيح باستخدام وكيل. يمكنك أيضًا استخدام وكيل لكشط مقاطع فيديو Youtube الموجودة ضمن نطاق المشاع الإبداعي. لذلك، يمكنك إضافة مقاطع فيديو إلى موقعك الإلكتروني دون استخدام يوتيوب كمشغل رسمي.
  • إلغاء حظر Youtube - تحاول العديد من الشركات إخفاء محتواها عن الجمهور لأسباب سياسية أو غيرها. بمساعدة البروكسيات، يمكنك تحميل محتوى Youtube ومشاهدته من موقع يكون وصولك إليه مقيدًا. تساعدك البروكسيات على الوصول إلى مقاطع فيديو يوتيوب التي حظرتها مدرستك أو مكان عملك.

الوكلاء السكنيون هم أفضل الوكلاء ل Youtube مقارنة بوكلاء مركز البيانات. ذلك لأن وكلاء مركز البيانات يتم اكتشافهم بسهولة، وعليك أن تواجه الكثير من Captchas أثناء استخدامها. لذلك ، لتجنب حظر IP و Captchas ، فإن البروكسيات السكنية هي الأنسب لأتمتة Youtube.

لماذا نستخدم البروكسي لتصفح يوتيوب؟

أنت تعلم أن يوتيوب مليء بمليارات البيانات القيّمة. يمكنك تحليل هذه البيانات واستخدامها للقيام بالعديد من الأمور، مثل:

  • اتخاذ القرارات التجارية
  • قرارات التسويق
  • البحوث والدراسات الاجتماعية

أنت بحاجة إلى وكلاء عند كشط يوتيوب. ذلك لأن Youtube يستخدم تقنيات أمن إلكتروني متقدمة تكتشف عندما تحاول شراء عدة عناصر من عنوان IP واحد. للتحايل على الكشف، يجب عليك إعادة توجيه حركة المرور على الإنترنت من خلال عدة خوادم بروكسي. بهذه الطريقة، سيبدو الأمر وكأن حركة مرور الشبكة قادمة من أجهزة كمبيوتر مختلفة.

تعمل الوكلاء أيضًا كدرع للمسوّقين الذين يستخدمون روبوتات Youtube لزيادة عدد مشاهدات الفيديو، والتلاعب بخوارزمية ترتيب Youtube، والمطالبة بالإيرادات من الإعلانات.

ما هو أفضل وكيل لكشط مقاطع فيديو يوتيوب؟

ProxyScrape is one of the most popular and reliable proxy providers online. Three proxy services include dedicated datacentre proxy servers, residential proxy servers, and premium proxy servers. So, what is the best proxy to scrape YouTube videos? Before answering that questions, it is best to see the features of each proxy server.

البروكسي المخصص لمركز البيانات هو الأنسب للمهام عالية السرعة عبر الإنترنت، مثل بث كميات كبيرة من البيانات (من حيث الحجم) من خوادم مختلفة لأغراض التحليل. وهو أحد الأسباب الرئيسية التي تجعل المؤسسات تختار البروكسي المخصص لنقل كميات كبيرة من البيانات في فترة زمنية قصيرة.

يحتوي وكيل مركز البيانات المخصص على العديد من الميزات، مثل النطاق الترددي غير المحدود والاتصالات المتزامنة، ووكلاء HTTP المخصصين لسهولة الاتصال، ومصادقة IP لمزيد من الأمان. مع وقت تشغيل بنسبة 99.9%، يمكنك أن تطمئن إلى أن مركز البيانات المخصص سيعمل دائمًا خلال أي جلسة. وأخيراً وليس آخراً، يقدم ProxyScrape خدمة عملاء ممتازة وسيساعدك على حل مشكلتك خلال 24-48 ساعة عمل. 

التالي هو الوكيل السكني. السكني هو الوكيل المفضل لكل مستهلك عام. السبب الرئيسي هو أن عنوان IP الخاص بالوكيل السكني يشبه عنوان IP الذي يوفره مزود خدمة الإنترنت. وهذا يعني أن الحصول على إذن من الخادم المستهدف للوصول إلى بياناته سيكون أسهل من المعتاد. 

الميزة الأخرى في البروكسي السكني ProxyScrapeهي خاصية البروكسي الدوار. يساعدك البروكسي الدوّار على تجنب الحظر الدائم على حسابك لأن البروكسي السكني يغير عنوان IP الخاص بك ديناميكيًا، مما يجعل من الصعب على الخادم المستهدف التحقق مما إذا كنت تستخدم وكيلًا أم لا. 

وبصرف النظر عن ذلك، فإن الميزات الأخرى للوكيل السكني هي: نطاق ترددي غير محدود، إلى جانب الاتصال المتزامن، وخوادم بروكسي HTTP/ث مخصصة، وخوادم بروكسي في أي وقت بسبب وجود أكثر من 7 ملايين بروكسي في تجمع البروكسي، ومصادقة اسم المستخدم وكلمة المرور لمزيد من الأمان، وأخيرًا وليس آخرًا، القدرة على تغيير الخادم القطري. يمكنك تحديد الخادم الذي تريده عن طريق إلحاق رمز البلد بمصادقة اسم المستخدم. 

الأخير هو الوكيل المتميز. الوكلاء المتميزون هم نفس وكلاء مركز البيانات المخصصين. تظل الوظيفة كما هي. الفرق الرئيسي هو إمكانية الوصول. في الوكلاء المتميزين، يتم توفير قائمة الوكلاء (القائمة التي تحتوي على وكلاء) لكل مستخدم على شبكة ProxyScrape. هذا هو السبب في أن تكلفة البروكسيات المتميزة أقل من تكلفة البروكسيات المخصصة لمراكز البيانات.

إذن، ما هو أفضل وكيل لكشط مقاطع فيديو يوتيوب؟ الإجابة ستكون "الوكيلالسكني". والسبب بسيط. كما قيل أعلاه، فإن الوكيل السكني هو وكيل دوار، مما يعني أن عنوان IP الخاص بك سيتم تغييره ديناميكيًا على مدار فترة زمنية يمكن أن يكون مفيدًا لخداع الخادم عن طريق إرسال الكثير من الطلبات في إطار زمني صغير دون الحصول على حظر IP. 

بعد ذلك، سيكون أفضل شيء هو تغيير الخادم الوكيل بناءً على البلد. ما عليك سوى إلحاق رمز ISO_CODE الخاص بالبلد في نهاية مصادقة IP أو مصادقة اسم المستخدم وكلمة المرور. 

قراءات مقترحة:

كشط تعليقات يوتيوب - 5 خطوات بسيطةبروكسي يوتيوب - 3 أنواع وفوائد مهمة

الأسئلة الشائعة:

1. كيفية كشط مقاطع فيديو يوتيوب باستخدام بايثون؟
يمكنك كشط مقاطع فيديو يوتيوب بمساعدة مكتبة بايثون تسمى selenium (كشط البيانات تلقائيًا من يوتيوب) و pandas (تخزين البيانات المكسوطة في تنسيق إطار بيانات). تحتاج إلى أحدث إصدار من برنامج تشغيل الويب لكشط مقاطع فيديو يوتيوب.
2. هل من القانوني كشط مقاطع فيديو يوتيوب؟
من القانوني كشط أي بيانات متاحة للجمهور من يوتيوب طالما أن طريقة الكشط أو النهج الذي تتبعه لا يلحق أي ضرر بمالك الموقع أو مالك المحتوى بأي شكل من الأشكال.
3. هل واجهة YouTube API متاحة للمستخدمين العاديين؟
نعم، يقدم YouTube واجهة برمجة التطبيقات الخاصة به للمستخدمين العاديين مجانًا. يمكنك استخدامها للتفاعل مع خوادم YouTube مباشرةً دون أي صعوبات في الوصول إليها.

Final Thoughts on Scraping YouTube Videos Using Python:

بالنسبة للمؤسسات ومنشئي المحتوى على Youtube الذين يديرون حساباتهم، يضم Youtube العديد من البيانات المفيدة التي يمكن كشطها لتحليلها. تستخرج أدوات كشط يوتيوب البيانات المتعلقة بالمشاهدات والإعجابات/عدم الإعجاب والتعليقات وغير ذلك، مما يسهل اتخاذ قرارات أفضل في مجال الأعمال. يمكنك كشط مقاطع فيديو يوتيوب باستخدام سيلينيوم وبايثون وتوفير الكثير من الوقت. استخدام البروكسيات مهم لأن حسابك قد يتعرض للحظر إذا اكتشف يوتيوب طلبات متعددة من عنوان IP واحد. أفضل الوكلاء لـ Youtube هم الوكلاء المقيمون، لأنهم سريعون للغاية ولا يمكن اكتشافهم بسهولة.

آمل أن تكون قد فهمت كيفية كشط مقاطع فيديو Youtube باستخدام Python.