كيفية إعداد البيانات لعملية التنقيب عن البيانات

اقرأ في هذا المقال


في عملية تجهيز البيانات يمكن إنشاء مجموعة بيانات من مصدر بيانات واحد أو أكثر للاستكشاف والتمثيل المرئي والنمذجة وتنقيب البيانات له فوائد عديدة، حيث يساعد في اكتشاف الرؤى المختلفة واكتشاف أي مشكلات محتملة في جودة البيانات أو نقاط ضعف في مجموعة البيانات الخاصة.

إعداد البيانات أثناء التنقيب في البيانات

غالباً ما يكون إعداد البيانات إجراءً مستهلكًا للوقت وعرضة للخطأ، حيث عندما يتم جمع عدة نتائج غير صحيحة وخارج النطاق والمفقودة ويمكن أن يكون الناتج أيضًا فوضويًا، كما قد يؤدي تحليل البيانات التي لم يتم فحصها بدقة لهذه المشكلات إلى استنتاجات غير دقيقة، لذلك يعتمد نجاح مشاريع علوم البيانات بشكل كبير على جودة إعداد البيانات أثناء التنقيب في البيانات.

يُعد إعداد البيانات عملية يتم فيها جمع البيانات المناسبة وتنظيفها وتنظيمها وفقًا لمتطلبات العمل، حيث يبدأ عادةً بعد مرحلة فهم البيانات في التنقيب عن البيانات، حيث غالبًا ما تكون البيانات غير نظيفة وغير صالحة للفحص ونظرًا لأنّ البيانات تأتي من مصادر مختلفة فقد تكون البيانات، وعلى وجه الخصوص غير كافية أو غير صحيحة أو غير متسقة في بعض الأحيان.

في العالم الحقيقي تحتوي كل مجموعة بيانات تقريبًا على عيوب، وهذا هو السبب في أنّ إعداد البيانات لعملية التنقيب في البيانات أمر بالغ الأهمية، حيث يشمل إعداد البيانات أيضًا تحديد أفضل تقنية لجمع البيانات وتستهلك هذه التقنيات معظم وقت التنقيب في البيانات، كما قد يتم نشر البيانات عبر عدة جداول وقد يتم حقظ القيم بدقة غير ملائمة للأعمال.

كما يتطلب التعرف على الأنماط والوصول إلى المعلومات والتعلم الآلي والتنقيب في البيانات وذكاء الويب معالجة متقدمة للبيانات الأولية، ويمثل تنظيف البيانات وإعدادها حوالي (80%) من إجمالي العمالة الهندسية للبيانات ومن الضروري إتقان هذه الخطوة في عملية تحضير البيانات بأكملها لاستخراج البيانات، وإذا لم يتم تنفيذ إعداد البيانات لاستخراج البيانات بشكل مناسب فقد تكون هناك مشكلات في النتائج التي يجب توقعها.

الفوائد الرئيسية لإعداد البيانات في عملية التنقيب

كثيرًا ما يشتكي علماء البيانات من أنّهم بدلاً من تقييم البيانات يقضون معظم وقتهم في الحصول عليها وتنقيتها وتنظيمها، حيث تتمثل إحدى أهم مزايا إعداد البيانات النموذجية لعملية التنقيب عن البيانات، في أنّها تتيح لهم وللمستخدمين النهائيين الآخرين التركيز بشكل أكبر على تحليل البيانات وبناء النماذج وبالتالي توفير المزيد من القيمة، ويفيد إعداد البيانات المؤسسة في تحقيق الأهداف التالية:

  • البيانات المستخدمة في تطبيقات التحليلات تولد نتائج موثوقة.
  • اكتشاف وحل مشكلات البيانات التي قد لا يتم اكتشافها لولا ذلك.
  • تمكن من اتخاذ قرارات مستنيرة بشكل أفضل من قبل قادة الأعمال والموظفين التشغيليين.
  • انخفاض نفقات إدارة البيانات والتحليلات.
  • تقليل ازدواجية الجهود في إعداد البيانات لاستخدامها في التطبيقات المختلفة.
  • الحصول على عائد استثمار أكثر أهمية من ذكاء الأعمال واستثمارات التحليلات.
  • يُعد الإعداد المناسب للبيانات أمرًا ضروريًا في بيئات البيانات الضخمة، حيث يتم تخزين مزيج من البيانات المهيكلة وشبه المنظمة وغير المهيكلة، وفي كثير من الأحيان في شكل خام حتى تكون هناك حاجة إليها لأغراض تحليلية محددة.
  • تتطلب تحليلات البيانات والتنقيب عن البيانات والتعلم الآلي (ML) وغيرها من التحليلات المعقدة بشكل عام بيانات عالية الجودة لتوليد النتائج المطلوبة.

خطوات إعداد البيانات لعملية التنقيب عن البيانات

1- جمع بيانات دقيقة

  • يجب جمع بيانات دقيقة من مصادر يمكنك الوثوق بها، وحتى أقوى خوارزميات التعلم الآلي ستفشل إذا لم تكن هناك بيانات كافية.
  • التأكد من أنّ البيانات خالية من الأخطاء البشرية، وذلك باختبار جزء من البيانات التي تم جمعها أو تصنيفها من قبل الأفراد لاكتشاف مدى تكرار حدوث الأخطاء.
  • التحقق لمعرفة ما إذا كانت هناك أية مشكلات في نقل البيانات، حيث بسبب فشل الخادم وفشل التخزين على سبيل المثال ربما تم نسخ مستندات مماثلة وكما يجب فحص تأثير هذه الأحداث على البيانات.
  • فحص البيانات لمعرفة ما إذا كانت هناك أي قيم مفقودة ويمكن أن يكون هناك عدة طرق للتعامل مع البيانات المفقودة مثل دمج القيم الخالية أو تجاهلها.
  • التحقق ممّا إذا كانت المعلومات التي تم جمعها كافية لأداء المهمة.
  • التحقق ممّا إذا كانت البيانات في النظام غير متوازنة.

2- تنسيق البيانات

  • يُشير تنسيق البيانات إلى تحويل البيانات إلى التنسيق المطلوب الذي تريد استخدامه، وكما أنّه ليس من الصعب تحويل مجموعة البيانات إلى تنسيق الملف الذي يفضله نظام التعلم الآلي.
  • إذا تم دمج البيانات من عدة مصادر أو قام العديد من الأشخاص بتحديث مجموعة البيانات يدويًا، فيجب التحقق جيدًا من كتابة جميع المتغيرات داخل سمة معينة بشكل متسق.

3- تقليل كمية البيانات

  • يمكن تقليل البيانات بتجميعها في سجلات أكثر ضخامة عن طريق فصل البيانات المجدولة إلى مجموعات مختلفة ورسم رقم لكل مجموعة.
  • يتم جمعها في تصنيفات أسبوعية أو شهرية بدلاً من النظر إلى السلع الأكثر شيوعًا في أي يوم معين على مدار خمس سنوات، حيث سيساعد هذا في تقليل كمية البيانات ووقت الحساب دون التسبب في أي خسائر تنبؤ يمكن تمييزها.
  • يتم أخذ العينات لزيادة دقة التنبؤ ويمكن حذف السجلات (الكائنات) ذات البيانات المفقودة أو الخاطئة أو الأقل تمثيلاً.
  • في وقت لاحق عندما تحتاج إلى نموذج أولي للتحقق ممّا إذا كان نهج التعلم الآلي الذي اخترته يحقق النتائج المتوقعة وتقييم عائد الاستثمار لمشروع التنقيب في البيانات يمكن استخدام المنهجية.

4- تنظيف البيانات

يُعد تنظيف البيانات من أهم الخطوات، حيث يمكن تنظيفها بعدة طرق ويتأثر اختيار أفضل استراتيجية أيضًا بالبيانات والمجال الذي لديك:

  • استبدل البيانات المفقودة مثل (n / a) للفئات الخالية أو (0) للقيم الرقمية.
  • استبدل الأرقام المتوسطة بالقيم العددية المفقودة.
  • يمكنك أيضًا استخدام الأشياء الأكثر شيوعًا لملء قيم الفئات.
  • قد تتم أتمتة تنظيف البيانات إذا كنت تستخدم التعلم الآلي كمنصة خدمة.

5- إنشاء ميزات جديدة

نظراً لأن بعض الأرقام في مجموعة البيانات الخاصة من المحتمل أن تكون معقدة فإنّ تقسيمها إلى أجزاء أصغر سيسمح بالوصول إلى ارتباطات أكثر تحديدًا، وهذه الطريقة هي النقيض التام لتقليل البيانات لأنّها تتطلب منك إنشاء سمات جديدة بناءً على السمات الحالية.

6- إعادة قياس البيانات

إنّ إعادة قياس البيانات هي إحدى طرق تسوية البيانات التي تهدف إلى تحسين جودة مجموعة البيانات عن طريق تقليل عدد الأبعاد وتجنب المواقف التي يفوق فيها عدد قيم معينة عددًا آخر.

7- تخزين البيانات

بُعد إعداد البيانات قد يتم الاحتفاظ بها أو إرسالها إلى برنامج جهة خارجية مثل أداة ذكاء الأعمال ممّا يسمح بالمعالجة والتحليل.

إعداد البيانات هو عملية جمع البيانات ودمجها وتنظيمها بحيث يمكن استخدامها في الأعمال، وتعمل مرحلة إعداد البيانات على حل مثل العديد من مشكلات البيانات؛ لضمان أنّ مجموعة البيانات المستخدمة في مرحلة النمذجة مقبولة وذات جودة محسنة يمكن أن تؤدي النماذج التحليلية التي يتم تغذيتها ببيانات ذات جودة سيئة إلى تنبؤات مضللة.

المصدر: Foundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: