مع وجود الكثير لنتعلمه والعديد من التطورات التي يجب اتباعها في مجال علم البيانات هناك مجموعة أساسية من المفاهيم الأساسية التي تظل ضرورية، وتشكل الإحصائيات جزءًا أساسيًا من علم البيانات وكما أنّ الإحصاء مجال واسع يقدم العديد من التطبيقات.

 

ما هي المفاهيم الرئيسية لعلم البيانات

 

1- التعلم الآلي

 

التعلم الآلي هو فرع من الذكاء الاصطناعي يعمل عن طريق برمجة النظام لأداء مهمة محددة تلقائيًا، ثم يتعلم النظام ذاتيًا من البيانات، ويقوم بالتعرف على الأنماط ويتخذ القرارات مع القليل من التدخل البشري أو بدونه.

 

فيما يتعلق بعلم البيانات يتم استخدامه لبناء نماذج تنبؤية، نظرًا لأن النظام يتعرض لبيانات جديدة، فإنّ خوارزمية التعلم الآلي قادرة على معالجتها بشكل مستقل وتكييفها للتنبؤ بالنتائج بشكل أكثر دقة، وبالإضافة إلى ذلك لا تستند هذه التنبؤات إلى بيانات جديدة فحسب، بل تستند أيضًا إلى جميع الحسابات السابقة التي تم إجراؤها، والتعلم الآلي هو جوهر إدارة البيانات الضخمة والعمل معها.

 

2- الخوارزميات

 

الخوارزميات هي مجموعة محددة من القواعد أو العمليات المستخدمة في عملية حسابية لحل المشكلات أو أداء مهمة، وأبسط خوارزمية على سبيل المثال هي وصف مجموعة من القواعد التي يجب اتباعها للحصول على نتيجة محددة.

 

في علم البيانات يتم إنجاز العديد من نماذج البيانات وتحليل البيانات باستخدام الخوارزميات، كما يمكن أن تكون هذه إما تلقائية للتعلم الذاتي، كما في حالة التعلم الآلي أو وحدات ماكرو بسيطة مطبقة على أوراق (Excel) في أودر (Oder) لتوليد النتائج بناءً على البيانات المقدمة.

 

3- النماذج الإحصائية

 

النماذج الإحصائية هي نماذج رياضية تحدد العلاقات بين المتغيرات العشوائية وغير العشوائية، وإنّها عملية تحليل مجموعات البيانات عن طريق تمثيل البيانات المرصودة رياضيًا، من أجل عمل استنتاجات من العينات المقدمة، حيث يُعتبر مفهوم علم البيانات هذا جوهر هذا المجال.

 

ويمكن استخدام النماذج لاستخراج المعلومات أو التنبؤ بالنتائج المحتملة بناءً على البيانات المتاحة، كما يمكن اعتبار النماذج الإحصائية بمثابة افتراضات إحصائية ممّا يسمح لعلماء البيانات بحساب احتمالية وقوع حدث ما.

 

4- تحليل الانحدار

 

تحليل الانحدار هو عملية إحصائية تقدر العلاقات بين متغير تابع ومتغيرات مستقلة، لتوفير قيمة رقم حقيقية تمثل كمية على سطر، وعلى سبيل المثال درجة الحرارة ودوران المبيعات، كما يتم استخدامه في علم البيانات للنمذجة الإحصائية للعثور على اتجاهات في البيانات للتنبؤ بسلوكيات معينة، وعلى سبيل المثال توقع اتجاه المبيعات الشهرية للسنة بناءً على البيانات السابقة والحالية، ويتداخل تحليل الانحدار بشكل كبير مع مجال التعلم الآلي.

 

5- البرمجة

 

تستخدم لغات برمجة الكمبيوتر لتطوير وبناء النماذج المستخدمة في تحليل البيانات، وبالإضافة إلى ذلك يمكن أيضًا استخدام البرمجة لتنظيف البيانات وتنظيم البيانات، والمساعدة في تصور البيانات بتنسيقات مفهومة لأصحاب المصلحة.

 

لغات البرمجة شائعة الاستخدام في علوم البيانات هي: (Python) و(R) للإحصاء وكذلك (SQL) للمساعدة في إدارة قواعد البيانات وإنشائها، ومع ذلك فإنّ تحليلات الأعمال أو الأفراد الذين يتخصصون فقط في تفسير البيانات وتحليلها لا يدرسون هذه اللغات في كثير من الأحيان.

 

ملاحظة: “SQL” هي اختصار لـ “Structured Query Language”.

 

ما هي المكونات الأساسية لعلوم البيانات

 

1- مجموعة البيانات

 

تمامًا كما يوحي الاسم إنّ البيانات هي المكون الرئيسي في علم البيانات، ومجموعة البيانات هي مثيل خاص للبيانات المستخدمة للتحليل أو بناء النموذج في أي وقت، تأتي مجموعة البيانات بأشكال مختلفة مثل: البيانات الرقمية والبيانات الفئوية والبيانات النصية وبيانات الصورة والبيانات الصوتية وبيانات الفيديو.

 

يمكن أن تكون مجموعة البيانات ثابتة (لا تتغير) أو ديناميكية (تتغير بمرور الوقت)، علاوةً على ذلك يمكن أن تعتمد مجموعة البيانات على المساحة أيضًا، لبدء مشروعات علوم البيانات فإنّ النوع الأكثر شيوعًا من مجموعة البيانات هو مجموعة البيانات التي تحتوي على بيانات رقمية يتم تخزينها عادةً في تنسيق ملف قيم مفصولة بفواصل (CSV).

 

ملاحظة: “CSV” هي اختصار لـ “comma-separated values”.

 

2- معالجة البيانات

 

الخلاف على البيانات هو عملية تحويل البيانات من شكلها الخام إلى شكل مرتب جاهز للتحليل، وتُعد معالجة البيانات خطوة مهمة في المعالجة المسبقة للبيانات، وتتضمن العديد من العمليات مثل: استيراد البيانات وتنظيف البيانات وهيكلة البيانات ومعالجة السلسلة وتحليل (HTML)، ومعالجة التواريخ والأوقات ومعالجة البيانات المفقودة واستخراج النصوص.

 

تعتبر عملية الخلاف على البيانات خطوة حاسمة لأي عالم بيانات، ونادرًا جدًا ما يمكن الوصول إلى البيانات بسهولة في مشروع علم البيانات لتحليلها، ومن المرجح أن تكون البيانات في ملف أو قاعدة بيانات أو مستخرجة من مستندات مثل: صفحات الويب أو ملفات (PDF)، وستمكن معرفة كيفية مجادلة البيانات وتنصنيفها من استخلاص رؤى مهمة من البيانات التي قد تكون مخفية لولا ذلك.

 

ملاحظة: “PDF” هي اختصار لـ “Portable Document Format”.

ملاحظة: “HTML” هي اختصار لـ “Hypertext Markup Language”.

 

3- عرض مرئي للمعلومات

 

  • يُعد تصور البيانات أحد أهم فروع علم البيانات، وإنّها إحدى الأدوات الرئيسية المستخدمة لتحليل ودراسة العلاقات بين المتغيرات المختلفة.

 

  • يمكن استخدام تصور البيانات على سبيل المثال المخططات المبعثرة والرسوم البيانية الخطية والمخططات الشريطية والرسوم البيانية و(qqplots)، والمخططات الصندوقية والمخططات الزوجية والخرائط الحرارية للتحليلات الوصفية.

 

  • يتم استخدام تصور البيانات أيضًا في التعلم الآلي للمعالجة المسبقة للبيانات والتحليل واختيار الميزات وبناء النماذج واختبار النموذج وتقييم النموذج عند إعداد تصور للبيانات.

 

  • لإنتاج تصور جيد تحتاج إلى وضع عدة أجزاء من التعليمات البرمجية معًا للحصول على نتيجة نهائية ممتازة.

 

4- القيم المتطرفة

 

القيم المتطرفة هي نقطة بيانات مختلفة تمامًا عن بقية مجموعة البيانات، وغالبًا ما تكون القيم المتطرفة مجرد بيانات سيئة على سبيل المثال بسبب جهاز استشعار معطل أو خطأ بشري في تسجيل البيانات، وفي بعض الأحيان يمكن أن تشير القيم المتطرفة إلى شيء حقيقي مثل عطل في النظام.

 

القيم المتطرفة شائعة جدًا ومتوقعة في مجموعات البيانات الكبيرة، وتتمثل إحدى الطرق الشائعة لاكتشاف القيم المتطرفة في مجموعة البيانات في استخدام مخطط مربع، كما يمكن أن تؤدي القيم المتطرفة إلى تدهور كبير في القدرة التنبؤية لنموذج التعلم الآلي.

 

الطريقة الشائعة للتعامل مع القيم المتطرفة هي ببساطة حذف نقاط البيانات، ومع ذلك يمكن أن تكون إزالة القيم المتطرفة في البيانات الحقيقية مفرطة في التفاؤل، ممّا يؤدي إلى نماذج غير واقعية وتتضمن الطرق المتقدمة للتعامل مع القيم المتطرفة طريقة (RANSAC).

 

ملاحظة: “RANSAC” هي اختصار لـ “Random sample consensus”.

 

5- احتساب البيانات

 

تحتوي معظم مجموعات البيانات على قيم مفقودة، وأسهل طريقة للتعامل مع البيانات المفقودة هي ببساطة التخلص من نقطة البيانات، ومع ذلك فإنّ إزالة العينات أو إسقاط أعمدة الميزات بالكامل أمر غير ممكن ببساطة لأنّه قد يتم فقد الكثير من البيانات القيمة.

 

في هذه الحالة يمكن استخدام تقنيات الاستيفاء المختلفة لتقدير القيم المفقودة من عينات التدريب الأخرى في مجموعة البيانات الخاصة، وأحد أكثر تقنيات الاستيفاء شيوعًا هو التضمين المتوسط، حيث يتم استبدال القيمة المفقودة بالقيمة المتوسطة لعمود الميزة بأكمله.

 

الخيارات الأخرى لحساب القيم المفقودة هي الخيار الوسيط أو الأكثر شيوعًا الوضع، حيث يستبدل القيم المفقودة بالقيم الأكثر شيوعًا، ومهما كانت طريقة التضمين التي تستخدمها في النموذج يجب أن يكون التضمين هو مجرد تقريب، وبالتالي يمكن أن ينتج خطأ في النموذج النهائي، وإذا كانت البيانات المقدمة قد تمت معالجتها مسبقًا فسيتعين معرفة كيفية مراعاة القيم المفقودة.