يتضمن تحليل البيانات الاستكشافية (EDA) استخدام الرسومات والتصورات لاستكشاف فئات بيانات وتحليلها، حيث أنّ الهدف هو الاستكشاف والتأكد والتعلم بدلاً من تأكيد الفرضيات الإحصائية.
طريقة تحليل البيانات الاستكشافية باستخدام الإحصاء
- بصرف النظر عن التصورات يتم إجراء (EDA) أيضًا بإحصاءات استنتاجية لفهم البيانات بشكل أفضل، حيث لإجراء الإحصائيات يُعد (R) خيارًا واضحًا بحيث تم تطويره من خلال إبقاء الإحصائيات في الاعتبار، كما يتم تنظيم ناتج (R) بشكل جيد للغاية وهو سهل الفهم ولكن للإحصاءات الأساسية، وفي حين أنّ مخرجات (Python) تعمل بشكل صحيح.
- ومع ذلك في (EDA) يقوم علماء البيانات أيضًا بتنفيذ نماذج إحصائية للحصول على رؤى متعمقة حول البيانات، وبالتالي من الأسهل تفسير مخرجات برمجة الانحدار لاتخاذ قرارات مستنيرة وإجراء تحليل متعمق للبيانات، وتسمى عملية اعتماد الملخصات العددية والمرئيات لاستكشاف البيانات وتحديد العلاقات المحتملة بين المتغيرات لتحليل البيانات الاستكشافية (EDA).
- تحليل البيانات الاستكشافية هو عملية استقصائية تستخدم فيها إحصائيات موجزة وأدوات رسومية للتعرف على بياناتك وفهم ما يمكنك تعلمه منها، وباستخدام (EDA) يمكن العثور على حالات شاذة في البيانات مثل القيم المتطرفة أو الملاحظات غير العادية وكشف الأنماط وفهم العلاقات المحتملة بين المتغيرات، وإنشاء أسئلة أو فرضيات مثيرة للاهتمام يمكن اختبارها لاحقًا باستخدام طرق إحصائية أكثر رسمية.
- يشبه تحليل البيانات الاستكشافية العمل التحري، حيث يتم البحث عن أدلة ورؤى يمكن أن تؤدي إلى تحديد الأسباب الجذرية المحتملة للمشكلة التي تحاول حلها، كما يمكن استكشاف متغير واحد في كل مرة ثم متغيرين في وقت واحد ثم العديد من المتغيرات في وقت واحد.
- على الرغم من أنّ (EDA) يشمل جداول إحصائيات موجزة مثل: المتوسط والانحراف المعياري يركز معظم الناس على الرسوم البيانية، كما تُستخدم مجموعة متنوعة من الرسوم البيانية والأدوات الاستكشافية وتذهب إلى حيث يتم أخذ البيانات وإذا كان أحد الرسوم البيانية أو التحليل غير إعلامي فإنّه يتم النظر إلى البيانات من منظور آخر.