كيفية تحليل البيانات الاستكشافية باستخدام برمجة R

اقرأ في هذا المقال


تُعد برمجة (R) هي من اللغات الأعلى استعمالاً لتحليل البيانات بواسطة علماء البيانات، حيث لها مزاياها وعيوبها لتنفيذ عمليات التحليل المختلفة، لذلك يقوم علماء البيانات بالتبديل بين لغات البرمجة لإجراء استكشاف البيانات.

كيفية تحليل البيانات الاستكشافية باستخدام برمجة R

تُعد مكتبة (ggplot2) الخاصة ببرمجة (R) واحدة من أفضل المكتبات للتصورات المرئية عبر أي لغة وهذا هو العامل الرئيسي وراء اختيار العديد من علماء البيانات الطموحين لتعلم لغة (R) بدلاً من برمجة (Python)، حيث لا يساعد إتقان التصور في تلخيص البيانات فحسب بل يتم استخدامه أيضًا لتوصيل الأفكار حولها بطريقة فعالة وجذابة.

تعد خوارزمية الكتابة باستخدام (ggplot2) بديهية بسبب تركيبها، وكما أنّ مخططات المخرجات الافتراضية تحتوي على رسومات رائعة، حيث في المكتبات الأخرى يحتاج المرء إلى كتابة أكواد إضافية فقط لتجميل المؤامرات ولكن (ggplot2) يقوم بذلك تلقائيًا وبالتالي يلغي ضرورة تعديل المؤامرات لتحسين الرسومات.

وإلى جانب ذلك يمكن تعديل العملية لإضافة طبقات لتحسين المرئيات خطوة بخطوة، حيث يُمكِّن هذا علماء البيانات من استكشافها تدريجيًا عن طريق قولبتها بشكل مختلف أثناء استمرارهم في الاستكشاف، وفي (R Language) سيتم تنفيذ (EDA) تحت تصنيفين رئيسين:

  • الإحصاء الوصفي: والذي يتضمن المتوسط ​​والوسيط والوضع والنطاق بين الشرائح الربعية وما إلى ذلك.
  • الطرق الرسومية: والتي تشمل المدرج التكراري وتقدير الكثافة ومخططات الصندوق وما إلى ذلك.

وقبل أن يتم العمل مع تحليل البيانات الاستكشافية يجب أن يتم إجراء فحص البيانات بشكل صحيح، حيث في هذا التحليل يتم استخدام (Loafercreek) من حزمة (soilDB) في (R)، كما يتم فحص البيانات للعثور على جميع الأخطاء المطبعية والأخطاء الشاذة ويمكن استخدامها لتحديد القيم المتطرفة وإجراء التحليل الإحصائي المطلوب.

وللتأكد من أنّه يتم التعامل مع المعلومات الصحيحة يكون هناك حاجة إلى رؤية واضحة للبيانات في كل مرحلة من مراحل عملية التحول، وفحص البيانات هو عملية عرض البيانات لأغراض التحقق والتصحيح قبل أو أثناء أو بعد الترجمة.


شارك المقالة: