تنظيف البيانات المستخرجة ومعالجتها مسبقًا

أدلة إرشادية, إرشادات إرشادات, أغسطس-09-20245 دقائق للقراءة

سنستكشف في هذه المدونة التحديات المختلفة التي قد تواجهك مع البيانات المُلغاة ونقدم لك دليلًا مفصلاً حول كيفية تنظيفها ومعالجتها مسبقًا للحصول على أفضل النتائج. سواءً كنت محلل بيانات متمرسًا أو محلل بيانات متمرسًا أو مبتدئًا في استخدام لغة بايثون، يهدف هذا الدليل إلى تزويدك بالنصائح والتقنيات العملية لترتيب مجموعات البيانات الخاصة بك بكفاءة.

تابعنا لمعرفة كيفية جعل بياناتك المُلغاة نظيفة وقابلة للتنفيذ قدر الإمكان، بدءًا من الأخطاء الشائعة إلى أفضل الممارسات والأمثلة الواقعية.

التحديات الشائعة في البيانات المكشوفة

غالبًا ما تأتي البيانات المستخرجة مصحوبة بمجموعة من التحديات الخاصة بها. بعض المشاكل الأكثر شيوعًا هي عدم الانتظام والتناقضات والقيم المفقودة. هذه المشاكل يمكن أن تعيق بشكل كبير قدرتك على تحليل البيانات بفعالية.

أمثلة على المخالفات والتناقضات

يمكن أن تتخذ المخالفات أشكالاً عديدة. على سبيل المثال، تخيّل جمع أسعار المنتجات من مواقع إلكترونية متعددة للتجارة الإلكترونية. قد يدرج أحد المواقع الأسعار بما في ذلك الضرائب، بينما قد يستبعدها موقع آخر. كما يمكن أن تختلف وحدات القياس أيضاً - مثل الكيلوغرامات مقابل الجنيهات. تستلزم مثل هذه التناقضات التنظيف الشامل والمعالجة المسبقة لضمان دقة بياناتك وقابليتها للمقارنة.

تأثير رداءة جودة البيانات

لا تؤدي جودة البيانات الرديئة إلى تشويه نتائجك فحسب، بل يمكن أن تؤدي أيضًا إلى اتخاذ قرارات تجارية غير صحيحة. بالنسبة لمحللي البيانات، هذا يجعل مرحلة التنظيف غير قابلة للتفاوض. فالبيانات التي يتم تنظيفها بشكل صحيح تضمن أن تكون التحليلات اللاحقة موثوقة وذات رؤية ثاقبة.

أدوات وتقنيات تنظيف البيانات

دليل خطوة بخطوة باستخدام الباندا

لنستعرض مثالًا أساسيًا لتنظيف مجموعة بيانات باستخدام Pandas. لنفترض أنك قمت بجمع بيانات عن الأفلام، لكن البيانات تتضمن قيمًا مفقودة وتنسيقًا غير متناسق.

الخطوة 1 - تحميل البيانات:

   استيراد بانداس ك pd
   df = pd.read_csv('films.csv)

الخطوة 2 - التعامل مع القيم المفقودة:

   df.fillna(method='ffill'، inplace=True)

الخطوة 3 - توحيد التنسيقات:

df['release_date] = pd.to_datetime(df['release_date])

الخطوة 4 - إزالة التكرارات:

df.drop_duplicates(inplace=صحيح)

الاستفادة من NumPy لتنظيف البيانات

تكمل NumPy Pandas من خلال توفير دوال رياضية عالية الأداء. على سبيل المثال، للتعامل مع القيم المتطرفة، يمكنك استخدام دالة NumPy's 'np.where' الخاصة ب NumPy لتحديد القيم القصوى، وإليك مثال من لغة البيثون

import pandas as pd
import numpy as np
# Sample data
data = {
   'A': [1, 2, 3, 1000, 5],
   'B': [10, 20, 30, 40, 5000]
}
# Create a DataFrame
df = pd.DataFrame(data)
# Define a threshold to cap the values
threshold_A = 100
threshold_B = 100
# Use np.where to cap the extreme values
df['A'] = np.where(df['A'] > threshold_A, threshold_A, df['A'])
df['B'] = np.where(df['B'] > threshold_B, threshold_B, df['B'])
print("DataFrame after handling outliers:")
print(df)

إليك المخرجات من البرنامج النصي أعلاه:

إطار البيانات بعد معالجة القيم المتطرفة:
   أ ب
0 1 1 0
1 2 20
2 3 3 0
3 100 40
4 5 100

أفضل الممارسات في المعالجة المسبقة للبيانات المستخرجة من الكشط

توحيد تنسيقات البيانات وهياكلها

يعد التوحيد القياسي أمرًا بالغ الأهمية عند التعامل مع مصادر بيانات متعددة. تأكد من أن نقاط البيانات المتشابهة من مصادر مختلفة تتبع نفس التنسيق. على سبيل المثال، يجب أن تكون التواريخ بتنسيق قياسي مثل ISO 8601 لتجنب الغموض.

معالجة البيانات المفقودة أو غير الصحيحة

يجب معالجة البيانات المفقودة بشكل مناسب. يمكن لتقنيات مثل التضمين أن تملأ القيم المفقودة بناءً على البيانات الأخرى المتاحة. من ناحية أخرى، غالبًا ما تتطلب البيانات غير الصحيحة فحصًا يدويًا أو خوارزميات التحقق من الصحة لتصحيحها.

ضمان اتساق البيانات

التحقق من الاتساق أمر حيوي. استخدم البرامج النصية للتأكد من أن بياناتك تفي بالقواعد المحددة مسبقًا. على سبيل المثال، إذا كان يجب أن يحتوي عمود ما على أرقام موجبة فقط، اكتب برنامج نصي للتحقق من صحة البيانات للإبلاغ عن أي حالات شاذة.

دراسة حالة: تطبيق في العالم الحقيقي

دعونا نغوص في مثال عملي لنرى كيف يمكننا معالجة بعض التحديات الشائعة في البيانات المُلغاة. سنستعرض عملية كشط البيانات وتنظيفها وتحليلها من موقع إلكتروني افتراضي لقوائم الوظائف، مع التركيز على المشكلات الواقعية التي قد تواجهها.

الخطوة 1: كشط البيانات

تخيل أنك تقوم بكشط البيانات من موقع إلكتروني لقوائم الوظائف. الهدف هو جمع المسميات الوظيفية وأسماء الشركات ونطاقات الرواتب. إليك نموذج نص برمجي Python باستخدام BeautifulSoup لاستخراج هذه البيانات:

from bs4 import BeautifulSoup
import requests
import pandas as pd

url = "https://example-jobsite.com"
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

jobs = []
for job_post in soup.find_all('div', class_='job'):
    title = job_post.find('h2').text
    company = job_post.find('p', class_='company').text
    salary = job_post.find('span', class_='salary').text
    jobs.append({'title': title, 'company': company, 'salary': salary})

df = pd.DataFrame(jobs)

في هذه المرحلة، قد تبدو البيانات في هذه المرحلة على هذا النحو:

العنوان	الشركة	الراتب
مهندس برمجيات	شركة تيك كورب	$100,000
مطور أول	إنوفيتك	$120,000
جونيور ديف	بدء التشغيلX	$80,000
محلل بيانات	شركة BigData Inc	$95000
كبير علماء البيانات	داتامين	140,000 USD

لاحظ التناقضات: اختلاف الأحرف الكبيرة، واختلاف رموز العملات، وعدم اتساق تنسيق قيم الرواتب.

الخطوة 2: تنظيف البيانات

يعد تنظيف هذه البيانات أمرًا بالغ الأهمية قبل إجراء أي تحليل ذي مغزى. دعونا نفصل الخطوات:

1. توحيد البيانات النصية: غالبًا ما تعاني المسميات الوظيفية وأسماء الشركات من عدم اتساق التنسيق. ويمكننا توحيدها من خلال كتابتها بأحرف كبيرة بشكل موحد.

df['title'] = df['title'].str.strip().str.title()
df['company'] = df['company'].str.strip().str.title()

بعد هذه الخطوة، ستبدو البيانات أكثر اتساقاً:

العنوان	الشركة	الراتب
مهندس برمجيات	شركة تيك كورب	$100,000
مطور أول	إنوفيتك	$120,000
جونيور ديف	ستارت أب إكس	$80,000
محلل بيانات	Bigdata Inc	$95000
عالم بيانات أول	داتامين	140,000 USD

2: توحيد البيانات العددية: قد تحتوي قيم الرواتب على رموز وتنسيقات مختلفة، مما يجعل المقارنات المباشرة صعبة. سنقوم بحذف علامة الدولار والفواصل، ثم تحويل هذه السلاسل إلى قيم رقمية.

df['salary] = df['salary].str.replace('[\$,], '', '').str.replace('USD', '').astype(float)

الآن، سيكون لعمود الراتب الخاص بك قيم رقمية متسقة:

العنوان	الشركة	الراتب
مهندس برمجيات	شركة تيك كورب	100000
مطور أول	إنوفيتك	120000
جونيور ديف	ستارت أب إكس	80000
محلل بيانات	Bigdata Inc	95000
عالم بيانات أول	داتامين	140000

3: التعامل مع البيانات المفقودة: لنفترض أن بعض قوائم الوظائف تنقصها معلومات عن الراتب. بدلاً من إسقاط هذه الصفوف، قد تختار ملء القيم المفقودة استناداً إلى بعض المنطق، مثل متوسط الراتب لهذا المسمى الوظيفي:

df['salary].fillna(df.groupby('title)['title']['salary'].transform('median'), inplace=True)

الخطوة 3: تحليل البيانات التي تم تنظيفها

باستخدام البيانات التي تم تنظيفها، يمكنك الآن إجراء تحليل مفيد. على سبيل المثال، قد ترغب في فهم توزيع الرواتب عبر المسميات الوظيفية المختلفة:

طباعة(df.groupby('title))['salary'].describe()))

سيمنحك هذا الأمر ملخصًا إحصائيًا لكل مسمى وظيفي، مما يوفر لك نظرة ثاقبة على اتجاهات الرواتب.

مثال: معالجة القيم المتطرفة باستخدام NumPy

في بعض الحالات، قد تحتوي بياناتك على قيم متطرفة - قيم رواتب مرتفعة أو منخفضة للغاية يمكن أن تحرف تحليلك. يمكن استخدام NumPy لتحديد هذه القيم المتطرفة:

استيراد numpy ك np

# وضع حد أقصى للرواتب عند عتبة (على سبيل المثال، 200,000)
عتبة_الراتب = 200000
df['salary] = np.where(df['salary] > threshold_salary, threshold_salary, df['salary])

طباعة(df)

بعد التغطية، قد تبدو مجموعة بياناتك بهذا الشكل:

العنوان	الشركة	الراتب
مهندس برمجيات	شركة تيك كورب	100000
مطور أول	إنوفيتك	120000
جونيور ديف	ستارت أب إكس	80000
محلل بيانات	Bigdata Inc	95000
عالم بيانات أول	داتامين	200000

التأثير على الرؤى واتخاذ القرارات

من خلال تنظيف بياناتك ومعالجتها مسبقاً، تكون قد حوّلت مجموعة بيانات فوضوية إلى مورد قيّم. والآن، يمكنك استخلاص الرؤى بثقة، مثل تحديد الشركات الأعلى أجراً أو تحليل اتجاهات الرواتب في مختلف المجالات. وتفيد هذه الرؤى استراتيجيات الأعمال بشكل مباشر، مثل قياس الرواتب أو خطط استقطاب المواهب.

الخاتمة والخطوات التالية

في هذه المدونة، قمنا بتغطية أهمية التنظيف والمعالجة المسبقة للبيانات التي تم كشطها. بدءًا من فهم التحديات الشائعة إلى الاستفادة من مكتبات Python القوية مثل Pandas و NumPy، أصبح صندوق أدواتك الآن مليئًا بالأساسيات.

تذكر أن البيانات النظيفة ليست مجرد رفاهية بل ضرورة لاتخاذ قرارات دقيقة وموثوقة. باتباع أفضل الممارسات الموضحة هنا، يمكنك التأكد من أن تحليل بياناتك يتسم بالكفاءة والفعالية.

هل أنت مستعد للارتقاء بتحليل بياناتك إلى المستوى التالي؟ ابدأ في تنفيذ هذه الاستراتيجيات اليوم، وتحقق من مواردنا الأخرى لتعميق فهمك لتنظيف البيانات ومعالجتها مسبقًا. كشط سعيد!

بواسطة: ProxyScrape