كيفية تحسين وتطوير عملية تحليل البيانات الاستكشافية

اقرأ في هذا المقال


من المفيد إجراء تحليل استكشافي للبيانات للمساعدة على فهم كميات البيانات قبل البدء في تصميمها، وتحليل البيانات الاستكشافية (EDA) هو أسلوب يمكن لمتخصصي البيانات استخدامه لفهم مجموعة البيانات قبل أن يبدأوا في تصميمها.

كيفية تحسين عملية تحليل البيانات الاستكشافية

1- تنظيم مجموعة البيانات

تتمثل إحدى الأشكال المهمة للقيام بتحليل البيانات الاستكشافية في أنّه يمكن أن يساعد في تنظيم مجموعة بيانات قبل تصميمها، وكما يمكن أن يساعد هذا في البدء في وضع افتراضات وتنبؤات حول مجموعة البيانات الخاصة ويمكن أن يساعد أيضًا في اتخاذ القرارات قبل نمذجة البيانات.

2- اختيار النموذج الصحيح

فائدة أخرى مهمة من (EDA) هي المساعدة في اختيار النموذج المناسب لمجموعة البيانات الخاصة، حيث يمكن استخدام جميع المعلومات التي تحصل عليها من إجراء (EDA) للمساعدة في اختيار نموذج البيانات، ومن المهم اختيار نموذج البيانات الصحيح لأنّه يمكن أن يسهل على كل فرد في المؤسسة فهم البيانات، كما تتضمن بعض نماذج البيانات الشائعة الاستخدام والتي يمكن الاختيار من بينها ما يلي:

  • نموذج البيانات الهرمي: ينظم نموذج البيانات الهرمي قيم مجموعة البيانات في تسلسل هرمي يشبه الأفرع.
  • نموذج البيانات المترابطة: ينظم نموذج البيانات المترابطة قيم البيانات في جداول ذات علاقات.
  • نموذج بيانات الشبكة: إنّ نموذج بيانات الشبكة المماثل للنموذج الهرمي ينظم قيم البيانات في شكل شجرة ولكنه يتضمن أيضًا مخططًا ويُظهر أنواع العلاقات بين القيم.

3- البحث عن أنماط في مجموعة بيانات

يمكن أيضاً استخدام (EDA) للمساعدة في العثور على أنماط في مجموعة بيانات، كما يُعد العثور على أنماط في مجموعة بيانات أمرًا مهمًا لأنّه يمكن أن يساعد في عمل تنبؤات وتقديرات، كما يمكن أن يساعد ذلك المؤسسات في التخطيط للمستقبل وتوقع المشاكل والحلول، وإذا كانت الحياة المهنية تتضمن التنقيب عن البيانات أو تحليلها فمن المفيد معرفة كيفية إجراء تحليل البيانات الاستكشافية.

المصدر: Data Science from Scratch: First Principles with Python by Joel Grus / 2nd EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionFoundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First Edition


شارك المقالة: