Behind Google, YouTube is the second most popular engine in the world. It is a video-sharing service where users can watch, share, like, comment, and upload videos. It is home to vloggers, informative content, educational videos, and lots of other data. Some of the main functions of Youtube are: With the help of web scraping
خلف Google ، يعد YouTube ثاني أكثر المحركات شعبية في العالم. إنها خدمة مشاركة فيديو حيث يمكن للمستخدمين مشاهدة مقاطع الفيديو ومشاركتها والإعجاب بها والتعليق عليها وتحميلها. فهي موطن لمدوني الفيديو والمحتوى الإعلامي ومقاطع الفيديو التعليمية والكثير من البيانات الأخرى. بعض الوظائف الرئيسية ل Youtube هي:
بمساعدة تجريف الويب ، يمكنك استخراج البيانات من Youtube وإفادة مؤسستك من خلال الحصول على رؤى قيمة من تلك البيانات. عندما تتعلم استخراج البيانات من Youtube ، من المهم معرفة نوع البيانات التي تريدها. على سبيل المثال ، إذا كنت تريد معرفة ردود الأشخاص على عملك ، فيمكنك كشط قسم التعليقات لتحليل مشاعر المستخدم. وبالمثل ، إذا كنت ترغب في تتبع نجاح مقطع فيديو ، فيمكنك كشط بيانات أداء الفيديو.
قبل أن نتعلم كيفية كشط مقاطع فيديو Youtube ، دعنا نتعلم لماذا نحتاج إلى كشطها.
فيما يلي سببان رئيسيان لكشط بيانات Youtube.
دعونا نرى كيفية استخراج بيانات فيديو Youtube باستخدام السيلينيوم وبايثون. السيلينيوم هو أداة شائعة لأتمتة متصفحات الويب. يمكنك بسهولة برمجة برنامج نصي Python لأتمتة متصفح الويب باستخدام السيلينيوم.
يتطلب السيلينيوم برنامج تشغيل للتفاعل مع المتصفح الذي اخترته. على سبيل المثال ، يتطلب Chrome ChromeDriver الذي يجب تثبيته قبل البدء في الكشط.
الخطوة 1 - تحتاج إلى فتح جهازك الطرفي وتثبيت السيلينيوم باستخدام الأمر أدناه.
$ نقطة تثبيت السيلينيوم
الخطوة 2 - تحتاج إلى تنزيل Chrome WebDriver باتباع الخطوات أدناه.
الخطوة 3 - تحتاج إلى نقل ملف برنامج التشغيل إلى PATH.
عليك الانتقال إلى دليل التنزيلات والقيام بما يلي.
$ cd التنزيلات $ فك ضغط chromedriver_linux64.zip$ mv chromedriver / usr / محلي / بن /
سنقوم بكشط معرف الفيديو وعنوانه ووصفه لفئة معينة من Youtube. الفئات التي يمكننا كشطها هي كما يلي:
تحتاج إلى استيراد المكتبات الضرورية مثل الباندا والسيلينيوم.
من السيلينيوم استيراد webdriver
استيراد الباندا ك PD
من السيلينيوم.webdriver.common. عن طريق الاستيراد بواسطة من selenium.webdriver.support.ui استيراد WebDriverWait
من selenium.webdriver.support استيراد expected_conditions ك EC
يجب عليك فتح Youtube في متصفحك. اكتب الفئة التي تريد البحث عن مقاطع فيديو لها واضبط الفلتر على "مقاطع الفيديو". ستحصل على مقاطع فيديو متعلقة ببحثك. الآن ، عليك نسخ عنوان URL.
تحتاج إلى إعداد برنامج التشغيل لجلب محتوى عنوان URL من Youtube.
سائق = برنامج تشغيل الويب. كروم()
driver.get ("YOUR_LINK_HERE")
الآن ، الصق الرابط في وظيفة driver.get ("YOUR_LINK_HERE"). قم بتشغيل الخلية ، وسيتم فتح نافذة متصفح جديدة لهذا الرابط. تحتاج إلى جلب روابط الفيديو الموجودة في تلك الصفحة بالذات. يمكنك إنشاء قائمة لتخزين هذه الروابط. بعد ذلك ، يجب عليك الانتقال إلى نافذة المتصفح والقيام بما يلي.
يجب عليك البحث عن علامة الربط باستخدام id = "عنوان الفيديو". انقر بزر الماوس الأيمن فوقه -> نسخ -> XPath. سيبدو XPath كما يلي:
//*[@id=”video-title”]
يمكنك استخدام الكود أدناه لجلب سمة "href" لعلامة الربط التي بحثت عنها.
user_data = سائق.find_elements_by_xpath('//*[@id="عنوان الفيديو"]')
الروابط = []
ل i في user_data:
links.append(i.get_attribute('href'))
طباعة (لين (روابط))
تحتاج إلى إنشاء إطار بيانات بالأعمدة الأربعة أدناه.
يمكنك تخزين تفاصيل مقاطع الفيديو لفئات مختلفة في هذه الأعمدة.
df = PD. DataFrame (الأعمدة = ['رابط' ، 'عنوان' ، 'وصف' ، 'فئة'])
أنت جاهز لكشط تفاصيل فيديو Youtube باستخدام كود Python أدناه.
انتظر = WebDriverWait (سائق ، 10)
v_category = "CATEGORY_NAME" ل x في الروابط:
سائق. الحصول على (x)
v_id = x.strip('https://www.youtube.com/watch?v=')
v_title = انتظر.حتى(EC.presence_of_element_located(
(By.CSS_SELECTOR,"h1.title yt-formatted-string"))). نص
v_description = انتظر.حتى(EC.presence_of_element_located(
(By.CSS_SELECTOR,"div#description
yt-formatted-string"))).text
مدافع. loc[len(df)] = [v_id، v_title، v_description، v_category]
هنا
سنتبع نفس الخطوات للفئات المتبقية. سيكون لدينا أربعة إطارات بيانات مختلفة ، وسنقوم بدمجها في إطار بيانات واحد. بهذه الطريقة ، سيحتوي إطار البيانات النهائي الخاص بنا على التفاصيل المطلوبة لمقاطع الفيديو من جميع الفئات المذكورة أعلاه.
الإطارات = [df_travel ، df_science ، df_food ، df_manufacturing]
df_copy = pd.concat (إطارات ، محور = 0 ، صلة = "خارجي" ، join_axes = لا شيء ، ignore_index = صحيح ، مفاتيح = لا شيء ، مستويات = لا شيء ، أسماء = لا شيء ، verify_integrity = خطأ ، نسخ = صحيح)
يمكنك استخدام بروكسيات Youtube للمهام التالية:
الوكلاء السكنيون هم أفضل وكلاء Youtube مقارنة بوكلاء مراكز البيانات. ذلك لأن وكلاء مركز البيانات يتم اكتشافهم بسهولة ، وعليك مواجهة الكثير من اختبارات التحقق أثناء استخدامها. لذلك ، لتجنب حظر IP و Captchas ، فإن الوكلاء السكنيين هم الأنسب لأتمتة Youtube.
أنت تعلم أن Youtube مليء بمليارات البيانات القيمة. يمكنك تحليل هذه البيانات واستخدامها للقيام بالعديد من الأشياء ، مثل:
أنت بحاجة إلى وكلاء عند تجريف Youtube. ذلك لأن Youtube يستخدم تقنيات الأمن السيبراني المتقدمة التي تكتشف متى تحاول شراء عناصر متعددة من عنوان IP واحد. للتحايل على الاكتشاف ، يجب عليك إعادة توجيه حركة المرور على الإنترنت من خلال العديد من الخوادم الوكيلة. بهذه الطريقة ، سيبدو أن حركة مرور الشبكة قادمة من أجهزة كمبيوتر مختلفة.
تعمل الوكلاء أيضا كدرع للمسوقين الذين يستخدمون روبوتات Youtube لزيادة عدد مشاهدات الفيديو ، والتلاعب بخوارزمية ترتيب Youtube ، والمطالبة بالإيرادات من الإعلانات.
ProxyScrape هو واحد من مزودي البروكسي الأكثر شعبية وموثوقية على الإنترنت. تتضمن ثلاث خدمات بروكسي خوادم بروكسي مخصصة لمركز البيانات وخوادم بروكسي سكنية وخوادم بروكسي متميزة. إذن ، ما هو أفضل وكيل لكشط مقاطع فيديو YouTube؟ قبل الإجابة على هذه الأسئلة ، من الأفضل رؤية ميزات كل خادم وكيل.
يعد وكيل مركز البيانات المخصص هو الأنسب للمهام عالية السرعة عبر الإنترنت ، مثل دفق كميات كبيرة من البيانات (من حيث الحجم) من خوادم مختلفة لأغراض التحليل. إنه أحد الأسباب الرئيسية التي تجعل المؤسسات تختار وكلاء مخصصين لنقل كميات كبيرة من البيانات في فترة زمنية قصيرة.
يحتوي وكيل مركز البيانات المخصص على العديد من الميزات ، مثل النطاق الترددي غير المحدود والاتصالات المتزامنة ، وبروكسيات HTTP المخصصة لسهولة الاتصال ، ومصادقة IP لمزيد من الأمان. مع وقت تشغيل بنسبة 99.9٪ ، يمكنك أن تطمئن إلى أن مركز البيانات المخصص سيعمل دائما خلال أي جلسة. أخيرا وليس آخرا ProxyScrape يوفر خدمة عملاء ممتازة وسيساعدك على حل مشكلتك في غضون 24-48 ساعة عمل.
التالي هو وكيل سكني. السكنية هي وكيل الانتقال لكل مستهلك عام. السبب الرئيسي هو أن عنوان IP الخاص بالوكيل السكني يشبه عنوان IP الذي يوفره مزود خدمة الإنترنت. هذا يعني أن الحصول على إذن من الخادم الهدف للوصول إلى بياناته سيكون أسهل من المعتاد.
الميزة الأخرى ل ProxyScrapeالوكيل السكني هو ميزة دوارة. يساعدك الوكيل الدوار على تجنب الحظر الدائم على حسابك لأن الوكيل السكني الخاص بك يغير عنوان IP الخاص بك ديناميكيا ، مما يجعل من الصعب على الخادم الهدف التحقق مما إذا كنت تستخدم وكيلا أم لا.
بصرف النظر عن ذلك ، فإن الميزات الأخرى للوكيل السكني هي: عرض النطاق الترددي غير المحدود ، إلى جانب الاتصال المتزامن ، وبروكسيات HTTP / s المخصصة ، والوكلاء في أي جلسة زمنية بسبب 7 ملايين بالإضافة إلى الوكلاء في تجمع الوكيل ، ومصادقة اسم المستخدم وكلمة المرور لمزيد من الأمان ، وأخيرا وليس آخرا ، القدرة على تغيير خادم البلد. يمكنك تحديد الخادم الذي تريده عن طريق إلحاق رمز البلد بمصادقة اسم المستخدم.
آخر واحد هو الوكيل المتميز. الوكلاء المتميزون هم نفس وكلاء مراكز البيانات المخصصين. تظل الوظيفة كما هي. الفرق الرئيسي هو إمكانية الوصول. في الوكلاء المميزين ، يتم توفير قائمة الوكيل (القائمة التي تحتوي على بروكسي) لكل مستخدم على ProxyScrapeشبكة. هذا هو السبب في أن الوكلاء المتميزين يكلفون أقل من وكلاء مراكز البيانات المخصصة.
إذن ، ما هو أفضل وكيل لكشط مقاطع فيديو YouTube ؟؟ الجواب سيكون "وكيل سكني". السبب بسيط. كما ذكر أعلاه ، فإن الوكيل السكني هو وكيل دوار ، مما يعني أنه سيتم تغيير عنوان IP الخاص بك ديناميكيا على مدار فترة زمنية يمكن أن يكون مفيدا لخداع الخادم عن طريق إرسال الكثير من الطلبات في إطار زمني صغير دون الحصول على كتلة IP.
بعد ذلك ، سيكون أفضل شيء هو تغيير الخادم الوكيل بناء على البلد. عليك فقط إلحاق البلد ISO_CODE في نهاية مصادقة IP أو مصادقة اسم المستخدم وكلمة المرور.
قراءات مقترحة:
بالنسبة للمؤسسات ومنشئي Youtube الذين يديرون حساباتهم ، يضم Youtube العديد من البيانات المفيدة التي يمكن كشطها للتحليل. تستخرج كاشطات Youtube البيانات المتعلقة بالمشاهدات والإعجابات / عدم الإعجابات والتعليقات والمزيد ، مما يسهل اتخاذ قرارات عمل أفضل. يمكنك كشط مقاطع فيديو Youtube باستخدام السيلينيوم وبايثون وتوفير الكثير من الوقت. يعد استخدام الوكلاء أمرا مهما لأنه يمكن حظر حسابك إذا اكتشف Youtube طلبات متعددة من عنوان IP واحد. أفضل الوكلاء ل Youtube هم الوكلاء السكنيون ، حيث إنهم سريعون للغاية ولا يمكن اكتشافهم بسهولة.
آمل أن تكون قد فهمت كيفية كشط مقاطع فيديو Youtube باستخدام Python.