يعد تحليل البيانات الاستكشافية إحدى الخطوات الأولى في عملية تحليل البيانات، ولا تقدم الأساليب غير الرسومية خلفية شاملة للبيانات لذلك فإنّ الأساليب الرسومية لها أهمية كبيرة.
أنواع عملية تحليل البيانات الاستكشافية EDA
1- أحادي المتغير الغير رسومي Univariate non-graphical
هذا هو أقل شكل من أشكال تحليل البيانات، حيث تتكون البيانات التي يتم تحليلها من قيمة واحدة فقط ونظرًا لأنه قيمة واحده فإنّه لا يتعامل مع الأسباب أو العلاقات، والغرض الرئيسي من التحليل أحادي المتغير هو إظهار أهمية البيانات والعثور على الأساليب الموجودة داخلها.
2- أحادية المتغير الرسومي Univariate graphical
- المخططات الجذعية والأوراق والتي تُظهر جميع قيم البيانات وشكل التوزيع.
- المدرج التكراري والمخطط الشريطي يمثل فيه كل شريط التكرار (العدد) أو النسبة (العدد / العدد الإجمالي) للحالات لمجموعة من القيم.
- المخططات الصندوقية والتي تصور بيانياً الملخص المتضمن من خمسة أرقام للحد الأدنى والحد الأول والمتوسط والثاني والثالث والحد الأقصى.
3- متعدد المتغيرات nongraphical
البيانات متعددة المتغيرات تنشأ من أكثر من متغير واحد، كما تُظهر تقنيات (EDA) متعددة المتغيرات غير الرسومية بشكل عام العلاقة بين متغيرين أو أكثر من المتغيرات من خلال الجدولة المتقاطعة أو الإحصائيات.
4- متعدد المتغيرات الرسومي Multivariate graphical
تستخدم البيانات متعددة المتغيرات الرسومية لعرض العلاقات بين مجموعتين أو أكثر من مجموعات البيانات، والرسم الأكثر اعتماداً هو مخطط شريطي مركّب أو مخطط شريطي، حيث تمثل كل مجموعة مستوى واحدًا من أحد المتغيرات وكل شريط داخل مجموعة يمثل مستويات المتغير الآخر، وكما تشمل الأنواع الشائعة الأخرى للرسومات متعددة المتغيرات ما يلي:
- مخطط التبعثر: الذي يستعمل لتصوير نقاط البيانات على محور أفقي (Horizontal) وعمودي (vertical) لعرض مدى أهمية متغير بآخر.
- مخطط متعدد المتغيرات: وهو تمثيل رسومي للعلاقات بين العوامل والاستجابة.
- تشغيل المخطط: وهو رسم بياني خطي للبيانات المرسومة بمرور الوقت.
- مخطط دائري فقاعي: وهو تصور بيانات يعرض دوائر متعددة (فقاعات) في مخطط ثنائي الأبعاد.
- الخريطة الحرارية: وهي تمثيل رسومي للبيانات حيث يتم تصوير القيم بالألوان.