تقنيات عملية تحليل البيانات الاستكشافية

اقرأ في هذا المقال


إنّ معظم تقنيات (EDA) رسومية بطبيعتها ومفيدة جدًا للكشف عن البيانات الخفية لمجموعة البيانات، ويعتمد الكثير من هذه التقنيات على التصورات التي يمكن إنشاؤها بسهولة باستخدام الأدوات.

ما هي تقنيات عملية تحليل البيانات الاستكشافية

1- مخططات Box-and-whisker

مخططات (Box-and-whisker) هي عروض رسومية تستند إلى ملخص مكون من (5) أرقام لعينة بيانات، وفي مخططه الأصلي يتم رسم مربع يغطي المركز بنسبة (50%) من العينة، كما يتم رسم خط عمودي عند الوسيط ويتم رسم مخططات من المربع المركزي إلى قيم البيانات الأصغر والأكبر، وإذا كانت بعض النقاط بعيدة عن المربع فقد تظهر هذه “النقاط الخارجية” كرموز نقاط منفصلة وأضاف المحللون اللاحقون شقوقًا تُظهر فترات ثقة تقريبية للوسيط وعلامات زائد في متوسط ​​العينة.

2- تقنية Rootogram

يشبه الرسم البياني الجذر المدرج التكراري وفيما عدا أنّه يرسم الجذور التربيعية لعدد الملاحظات التي لوحظت في نطاقات مختلفة من المتغير الكمي، وعادةً ما يتم رسمها مع توزيع مناسب وتتمثل فكرة استخدام الجذور التربيعية في معادلة تباين الانحرافات بين الخطوط والمنحنى والتي قد تزيد مع زيادة التردد، وفي بعض الأحيان تقوم الأشرطة بتعليق التوزيع المناسب ممّا يسمح بإجراء مقارنة بصرية أسهل مع الخط الأفقي المرسوم عند (0)، نظرًا لأن المقارنة المرئية مع الخط المنحني قد تكون خادعة.

3- تقنية مقاومة السلاسل الزمنية

يتوفر العديد من أدوات التجانس غير الخطية والتي تُستخدم لتنعيم بيانات السلاسل الزمنية المتسلسلة وهي جيدة جدًا في تجاهل القيم المتطرفة، وغالبًا ما يتم تطبيقها كخطوة أولى لتقليل تأثير القيم المتطرفة المحتملة قبل تطبيق المتوسط ​​المتحرك.

4- تقنية التجانس Scatterplot

يمكن تجانس مخططات التشتت (X-Y) باستخدام أي من الطرق العديدة كوسائل التشغيل وخطوط التشغيل وتجانس مخطط التشتت الموزون محليًا (LOWESS) ومقاومة (LOWESS)، حيث تعتبر أدوات التجانس مفيدة في اقتراح نوع نموذج الانحدار الذي قد يكون مناسبًا لوصف العلاقة بين متغيرين.

المصدر: Data Science from Scratch: First Principles with Python by Joel Grus / 2nd EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionFoundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First Edition


شارك المقالة: