شعار proxyscrape داكن

الشروع في استخدام Robots.txt وخرائط المواقع لكشط الويب

أدلة إرشادية, 13 نوفمبر - 13 نوفمبر - 20245 دقائق للقراءة

في المشهد الرقمي الشاسع، حيث يتنافس عدد لا يحصى من المواقع الإلكترونية على جذب الانتباه، من الضروري فهم قواعد المشاركة. بالنسبة لمطوّري الويب، ومحترفي تحسين محركات البحث، ومنشئي المحتوى، فإن فك تشفير robots.txt هو مفتاح الكشط الأخلاقي والفعال على الويب. سيساعدك هذا الدليل على فهم كيفية التفاعل بمسؤولية مع مواقع الويب باستخدام robots.txt وخرائط الموقع.

فهم دور Robots.txt في الزحف إلى الويب

يعد الزحف على الويب في صميم كيفية اكتشاف محركات البحث للمحتوى على الإنترنت وفهرسته. تستخدم مواقع الويب ملفات robots.txt كأداة أساسية لإدارة سلوك الزحف هذا والتحكم فيه. تعمل هذه الملفات كمجموعة من الإرشادات لروبوتات الويب، بما في ذلك روبوتات محركات البحث، لتوجيهها بشأن المحتوى الذي يجب الوصول إليه أو تجاهله.

الغرض من robots.txt ذو شقين. فهو يساعد مالكي المواقع على حماية المعلومات الحساسة وتحسين أداء الخادم، مع توفير إطار عمل لكشط الويب الأخلاقي.

فهم الروبوتات.txt 

لتوضيح كيفية عمل الروبوتات.txt، دعونا ننظر في مثال هذا الموقع الإلكتروني. يتضمّن ملف robots.txt النموذجي توجيهات مثل وكيل المستخدم، وعدم السماح والسماح.

  • يحدد وكيل المستخدم الروبوتات التي يجب أن تتبع القواعد. على سبيل المثال، "وكيل المستخدم: *" ينطبق على جميع الروبوتات.
  • يمنع عدم السماح الروبوتات من الوصول إلى مناطق معينة، مثل الأقسام الإدارية أو الدلائل الخاصة.
  • السماح بمنح حق الوصول إلى موارد معينة، مما يضمن إمكانية الوصول إلى الملفات الديناميكية الضرورية لوظائف الموقع.

على هذا الموقع، فإن الروبوتات.txt يظهر الملف على النحو التالي:

  • كما ترى هذا الموقع الإلكتروني عدم السماح بالوصول إلى مسارات عناوين URL هذه:
    • /wp-content/uploads/wc-logs/
    • /wp-content/uploads/woocommerce_transient_files/
    • /wp-content/uploads/woocommerce_uploads/
    • /wp-admin/ (منطقة إدارة ووردبريس)
  • السماح بالوصول على وجه التحديد إلى /wp-admin/admin-ajax.phpمما يسمح لبرامج الزحف بالوصول إلى هذا الملف للحصول على وظائف AJAX الضرورية.
  • كتلة Yoast SEO Block:
    • الخط عدم السماح: فارغة، مما يعني عدم إضافة أي قيود إضافية بواسطة هذه الكتلة.
    • خريطة الموقع المتوفرة: https://daystate.com/sitemap_index.xml، مما يساعد محركات البحث على تحديد جميع عناوين URL الرئيسية للفهرسة.

ما هي خريطة الموقع؟

خريطة الموقع هي عنصر حاسم في الموقع الإلكتروني، حيث تسرد جميع عناوين URL المهمة الخاصة به. وهي تعمل كخارطة طريق لمحركات البحث، مما يسمح لها باكتشاف وفهرسة المحتوى الجديد أو المحدث بسرعة.

بالنسبة لمالكي المواقع، فإن خرائط المواقع لا تقدر بثمن. فهي تضمن أن تكون جميع الصفحات ذات الصلة مرئية لمحركات البحث، مما يسهل الفهرسة والترتيب بشكل أفضل. تمتد فوائد خرائط الموقع إلى ما هو أبعد من تحسين محركات البحث، حيث تساعد في تجربة المستخدم من خلال ضمان سهولة اكتشاف المحتوى.

https://daystate.com/robots.txt يتضمن ملف robots. txt رابطًا لخريطة الموقع الخاصة به، مما يوفر مسارًا منظمًا لمحركات البحث لتتبعه. هذا الرابط ضروري للزحف والفهرسة الفعالة لمحتوى الموقع.

إليك الشكل الذي تبدو عليه خريطة الموقع الخاصة بالدولة اليومية:

على سبيل المثال، دعنا نمضي قدمًا ونضغط على"https://daystate.com/product-sitemap.xml"

كما ترى، يمكننا رؤية جميع عناوين URL لـ "المنتجات" في هذا السيناريو. فيما يلي برنامج Python النصي المصمم لكشط كل منتج. يبدأ البرنامج بتحليل صفحة XML الخاصة بالمنتجات لاستخراج جميع عناوين URL الخاصة بالمنتجات، ثم يقوم بتكرار كل عنوان URL لاستخراج عنوان المنتج وسعره.

import re

import requests
from bs4 import BeautifulSoup


def fetch_xml_sitemap(sitemap_url) -> str:

    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36"
    }

    response = requests.get(sitemap_url, headers=headers)
    response.raise_for_status()  # Check for request errors

    return response.content


def extract_endpoints(response_content):
    output_endpoints = []

    soup = BeautifulSoup(response_content, "xml")
    # Loop through each product entry in the sitemap
    for url in soup.find_all("url"):
        # Extract link, last modified date, and image (if available)
        endpoint = url.find("loc").text if url.find("loc") else None
        if endpoint is not None:
            output_endpoints.append(endpoint)

    return output_endpoints

def extract_product_info(product_url):
    headers = {
        "User-Agent": "input_user_agent"}

    proxy = {
        "http": "http://username:[email protected]:6060",
        "https": "http://username:[email protected]:6060"
    }

    response = requests.get(product_url, headers=headers, proxies=proxy)

    soup = BeautifulSoup(response.content, "html.parser")

    pattern = re.compile(r"^product-\d+$")
    try:
        product_div = soup.find("div", id=pattern)
        product_title = product_div.find("h1", {"class":"product_title entry-title"}).text
        product_price = product_div.find("bdi").text
        return product_title, product_price
    except:
        print("Error Extracting Product Information")
        return None, None

if __name__ == '__main__':
    url_sitemap = "https://daystate.com/product-sitemap.xml"

    sitemap_xml = fetch_xml_sitemap(url_sitemap)

    sitemap_urls = extract_endpoints(sitemap_xml)

    for url in sitemap_urls:
        print(extract_product_info(url))

أهمية كلا الملفين في تحسين محركات البحث وكشط الويب

تشكّل ملفات robots.txt وخرائط الموقع معًا العمود الفقري لتحسين محركات البحث والممارسات الأخلاقية لكشط الويب. الروبوتات.txt توجيه برامج زحف الويب إلى المناطق المسموح بها، مما يحمي البيانات الحساسة ويقلل من حمل الخادم. وفي الوقت نفسه، تعزز خرائط الموقع اكتشاف المحتوى من قبل محركات البحث، مما يضمن فهرسة الصفحات الجديدة على الفور.

بالنسبة لكاشطي الويب، فإن احترام هذه الملفات أمر بالغ الأهمية. يمكن أن يؤدي تجاهل توجيهات robots.txt إلى فرض عقوبات، مما يضر بالسمعة وتصنيفات محرك البحث. يتبع الكاشطون الأخلاقيون هذه الإرشادات، مما يعزز بيئة رقمية محترمة.

الخاتمة

الروبوتات.txt تعد الملفات وخرائط الموقع أدوات لا غنى عنها في الزحف على الويب. فهي توفر نهجاً منظماً لإدارة الوصول إلى الموقع وفهرسته، مما يفيد كلاً من مالكي المواقع وكاشطي المواقع.
من خلال فهم هذه العناصر واحترامها، يمكنك تحسين استراتيجياتك الرقمية، وتعزيز تحسين محركات البحث، والانخراط في ممارسات تجريف الويب الأخلاقية. تذكر أن الاستخدام المسؤول يحافظ على توازن النظام البيئي للويب، مما يضمن تجربة إيجابية لجميع أصحاب المصلحة.