أشكال أدوات تحليل البيانات الاستكشافية EDA

اقرأ في هذا المقال


تُعد تحليلات البيانات اليوم أكثر تعقيدًا مما كانت عليه في الستينيات وهناك خوارزميات يمكنها أتمتة العديد من المهام، ولقد ثبت مرارًا وتكرارًا أنّ (EDA) الفعالة توفر رؤى لا تقدر بثمن لا تستطيع الخوارزمية القيام بها.

ما هي أدوات تحليل البيانات الاستكشافية EDA

  • تقنيات التجميع وتقليل الأبعاد والتي تعمل على تشكيل تصورات تخطيطية للبيانات عالية الأبعاد تحتوي على العديد من المتغيرات.
  • تصور أحادي المتغير لكل حقل في مجموعة البيانات الأولية ومع إحصائيات موجزة.
  • تصورات ثنائية المتغير وإحصاءات مختصرة تتيح لك تقييم العلاقة بين كل متغير في مجموعة البيانات والمتغير الهدف الذي تبحث عنه.
  • تصورات متعددة المتغيرات لرسم الخرائط وفهم التفاعلات بين الحقول المختلفة في البيانات.
  • (K-mean Clustering) هي طريقة تجميع في التعلم غير الخاضع للإشراف حيث يتم تحديد نقاط البيانات في مجموعات (K) أي عدد المجموعات بالاعتماد على المسافة من النقطه الوسطى لكل مجموعة، كما سيتم جمع نقاط البيانات الأقرب إلى نقطة مركزية محددة ضمن نفس الفئة ويستعمل (K-mean Clustering) بطريقة كبيرة في تجزئة السوق والتعرف على الأنماط وضغط الصور.
  • تستخدم النماذج التنبؤية مثل: الانحدار الخطي والإحصائيات والبيانات للتنبؤ بالنتائج.

أدوات علوم البيانات المستخدمة لإنشاء EDA

  • لغة (Python): وهي لغة برمجة مترجمة ومُعدة للعناصر ذات إشارات ديناميكية، حيث تعمل على جعل هياكل البيانات الموجودة فيها مرتفعة المستوى مرتبطة كذلك مع الكتابة الديناميكية والاتصال الديناميكي، ومهمة للغاية لتطوير التطبيقات السريع وكذلك لاعتمادها كلغة نصية أو لغة لصق لربط المكونات المتوفرة معًا، كما يُتاح اعتماد (Python) و(EDA) معًا لتخصيص القيم المفقودة في مجموعة البيانات وهو أمر مناسب حتى تتمكن من تحديد كيفية التعامل مع القيم المفقودة للتعلم الآلي.
  • لغة (R): وهي لغة برمجة مفتوحة المصدر وأسلوب برمجي متاح للحوسبة والتمثيلات الإحصائية، كما تُعتمد لغة (R) على نطاق كبير بين الإحصائيين في علم البيانات في تطوير الملاحظات الإحصائية وتحليل البيانات.

شارك المقالة: