يعتمد عالم البيانات في كثير من الأحيان على عملية البيانات (EDA) لتجزئة كميات البيانات والتأكد منها وتلخيص خصائصها الأساسية وغالبًا ما تعتمد على طرق تصور البيانات.
أساسيات تحليل البيانات الاستكشافية EDA
- يساعد تحليل البيانات الاستكشافية (EDA) في تحديد أفضل السبل للتعامل مع موارد البيانات للوصول إلى الإجابات التي تتطلبها ممّا يتيح لعلماء البيانات التحقق من الأساليب أو تعيين الانحرافات أو اختبار الفرضيات أو التحقق من الافتراضات، بحيث تُستخدم (EDA) بشكل أساسي لمعرفة البيانات التي يمكن أن تكشفها خارج مهمة النمذجة الرسمية أو اختبار الفرضيات وتوفر فهمًا أفضل لمتغيرات مجموعة البيانات والعلاقات بينها.
- يمكن أن تعمل أيضًا في تخصيص ما إذا كانت الأساليب الإحصائية التي يتم العمل فيها لتحليل البيانات مناسبة، كما يتم تحسين تقنيات (EDA) في الأصل من قبل عالم الرياضيات الأمريكي “جون توكي” في السبعينيات ولا تزال الأسلوب المعتمد على نطاق كبير في عملية معرفة البيانات اليوم.
- في تحليلات البيانات يُعتبر تحليل البيانات الاستكشافية هو كيف نصف ممارسة التأكد في مجموعة البيانات واختصار ميزاتها الرئيسية وكما أنّه شكل من أشكال التحليلات الوصفية، حيث تهدف عملية تحليل البيانات الاستكشافية إلى اكتشاف الوسائل والاتجاهات وتحديد الانحرافات واختبار الفرضيات المبكرة، وعلى الرغم من إمكانية إجراء تحليل البيانات الاستكشافية في مراحل مختلفة من عملية تحليل البيانات إلّا أنّه يتم إجراؤه عادةً قبل تعيين فرضية ثابتة أو هدف نهائي.
- بشكل عام تركز تحليلات البيانات الاستكشافية على فهم خصائص مجموعة البيانات قبل تحديد ما نريد فعله بمجموعة البيانات هذه، وغالبًا ما تستخدم تحليلات البيانات الاستكشافية تقنيات بصرية مثل: الرسوم البيانية والمؤامرات والتصورات الأخرى، وذلك لأنّ قدراتنا الطبيعية على اكتشاف الأنماط تجعل من السهل جدًا تحديد الاتجاهات والقيم المتطرفة، عندما يتم تمثيلها بصريًا وكمثال بسيط تبرز القيم المتطرفة أو نقاط البيانات التي تحرف اتجاهًا ما على الفور على الرسم البياني المبعثر أكثر مما تبرز في الأعمدة في جدول البيانات.