ما المقصود بنماذج علوم البيانات Data Science Models

اقرأ في هذا المقال


تأتي نماذج علوم البيانات بأشكال وتقنيات مختلفة، حيث تعتمد معظم النماذج المتقدمة على اثنان من الأساسيات وعندما تبدأ في التعلم الآلي والذكاء الاصطناعي، يظهر أنّ التقنيات المتقدمة فقط هي التي ستحل جميع المشاكل عندما يتم بناء نموذج تنبؤي، ولكن عندما يتم نسخ الكود يظهر أنّ الحقيقة مختلفة جدًا، ويتم حل الكثير من المشكلات التي ستواجهها كعالم بيانات من خلال مجموعة من عدة نماذج وكأنّ معظمها موجودًا منذ فترة طويلة.

ما المقصود بالنمذجة في علم البيانات

النمذجة في علم البيانات: هو نظام من الفرضيات والبيانات والاستدلالات المقدمة كوصف رياضي لكيان أو حالة من الشؤون ومع ذلك فإنّ النماذج ليست مقتصرة على عبقري الرياضيات وأذكياء الكمبيوتر، والنموذج هو معادلة لمدخلات البيانات التي تؤثر على القيمة المستهدفة وفي هذه الحالة القيمة المستهدفة هي المدة التي يستغرقها العمل.

أشكال نماذج علوم البيانات

1- الانحدار الخطي

أحد أقدم النماذج على سبيل المثال استخدم “فرانسيس جالتون” مصطلح “الانحدار” في القرن التاسع عشر ولا يزال أحد أكثر النماذج فاعلية لتمثيل العلاقات الخطية باستخدام البيانات، وتُعد دراسة الانحدار الخطي عنصرًا أساسيًا في فصول الاقتصاد القياسي في جميع أنحاء العالم.

كما سيمنح تعلم هذا النموذج الخطي حدسًا جيدًا وراء حل مشكلات الانحدار (إحدى أكثر المشكلات شيوعًا التي يجب حلها باستخدام ML) وأيضًا فهم كيفية بناء خط بسيط للتنبؤ بالظواهر باستخدام الرياضيات، وهناك أيضًا فوائد أخرى لتعلم الانحدار الخطي خاصةً عندما تتعلم كلتا الطريقتين المتاحتين لتحقيق أفضل أداء:

  • حل مغلق (Closed form solution)، وهي صيغة تمنح أوزان المتغيرات بمعادلة جبرية بسيطة.
  • نزول الانحدار (Gradient Descent) وهي طريقة تحسين تتقدم نحو البيانات المثلى وتستخدم لتحسين أنواع أخرى من الخوارزميات.
  • بالإضافة إلى ذلك، يمكن تصور الانحدار الخطي في الممارسة العملية باستخدام مخطط بسيط ثنائي الأبعاد يجعل هذا النموذج بداية جيدة حقًا لفهم الخوارزميات.

2- الانحدار اللوجستي

  • الانتباه إلى مشاكل التصنيف وتعدد التصنيفات (جزء كبير من مهام ML).
  • فهم تحويلات الوظائف مثل تلك التي تقوم بها الدالة السينية.
  • فهم استخدام الوظائف الأخرى لـ (Gradient Descent) وكيف أنها غير ملائمة لوظيفة التحسين.
  • الانتباه لوظيفة (Log-Loss).

تمامًا مثل الانحدار الخطي فإنّ اللوجيستية هي أيضًا خوارزمية خطية وبعد دراسة كلاهما ستتعرف على القيود الرئيسية وراء الخوارزميات الخطية وكيف تفشل في تمثيل العديد من التعقيدات في العالم الحقيقي.

ما هي أدوات بناء نموذج لتحليلات البيانات

في هذه المرحلة يحتاج فريق علم البيانات إلى تطوير مجموعات البيانات لأغراض التدريب والاختبار والإنتاج، حيث تمكن مجموعات البيانات هذه عالم البيانات من تطوير طريقة تحليلية وتدريبها مع الاحتفاظ ببعض البيانات جانبًا لاختبار النموذج، كما يقوم الفريق بتطوير مجموعات البيانات لأغراض الاختبار والتدريب والإنتاج.

بالإضافة إلى ذلك في هذه المرحلة يبني الفريق وينفذ النماذج بناءً على العمل المنجز في مرحلة تخطيط النموذج، ويدرس الفريق أيضًا ما إذا كانت أدواته الحالية ستكون كافية لتشغيل النماذج، أو ما إذا كان سيحتاج إلى بيئة أكثر قوة لتنفيذ النماذج ومهام سير العمل (مثال – أجهزة سريعة ومعالجة متوازية):

1- لغات البرمجة R و PL / R

تم وصفها مسبقًا في مرحلة تخطيط النموذج و(PL / R) هي لغة إجرائية لـ (PostgreSQL) مع (R) ويعني استخدام هذا النهج أنّه يمكن تنفيذ أوامر (R) في قاعدة البيانات.

2- لغة أوكتاف Octave

إنّها لغة برمجة برمجية مجانية للنمذجة الحسابية ولها بعض وظائف (MATLAB)، ونظرًا لأنها متاحة مجانًا يتم استخدام (Octave) في الجامعات الكبرى عند تدريس التعلم الآلي.

3- لغة WEKA

إنّها حزمة برامج مجانية للتنقيب عن البيانات مع منضدة عمل تحليلية، ويمكن تنفيذ الوظائف التي تم إنشاؤها في (WAKA) داخل كود (java).

4- لغة بايثون

إنّها لغة برمجة تتيح مجموعات أدوات للتعلم الآلي والتحليل مثل: (scikit-Learn وNumPy وscipy وPandas) وتصور البيانات ذات الصلة باعتماد (matplotlib).

5- لغة SQL

يوفر (SQL) في تطبيقات قواعد البيانات مثل (MADlib)، وهي بديلاً لأدوات تحليل سطح المكتب للذاكرة.

6- لغة MADlib

توفر مكتبة تعلم آلي مفتوحة المصدر من الخوارزميات التي يمكن تنفيذها في قاعدة البيانات لـ (PostgreSQL) أو (Greenplum).

دورة حياة البناء النموذجي في علم البيانات

  • تحديد المتغيرات.
  • بيانات التوازن.
  • نماذج البناء.
  • التحقق.
  • النشر.
  • الحفاظ.
  • تحديد مواطن النجاح.
  • استكشف البيانات.
  • بيانات الحالة.

مبدأ عمل البناء النموذجي في علم البيانات

يتم استخدام استكشاف البيانات لمعرفة جوهر البيانات وتطوير تقييم الخطوة الأولى لجودتها وكميتها وخصائصها، ويمكن أيضًا تطبيق تقنيات التصور، ومع ذلك قد تكون هذه مهمة صعبة في المساحات عالية الأبعاد مع العديد من متغيرات الإدخال وفي تكييف البيانات يتم تجميع البيانات الوظيفية التي يتم تطبيقها على تقنيات النمذجة بعد ذلك يتم إعادة القياس، وفي بعض الحالات تكون إعادة القياس مشكلة إذا تم اقتران المتغيرات، قسم المتغير مهم جدًا لتطوير نموذج الجودة.

تعتمد هذه العملية على النموذج الضمني، حيث يتم استخدامها لتكوين مجموعة المتغيرات التي يجب استخدامها في تطوير النموذج المستمر، وموازنة البيانات هي تقسيم البيانات إلى مجموعات فرعية مناسبة للتدريب والاختبار والتحقق من الصحة وبناء النموذج هو التركيز على الخوارزميات المطلوبة، والأسلوب الأكثر شهرة هو الانحدار الرمزي ويمكن أيضًا تفضيل تقنيات أخرى.

يُعد التحقق من صحة النموذج أمرًا مهمًا لتطوير التأكد والثقة قبل استخدامه، حيث يتضمن تعريف النموذج الجيد المتانة والدقة المحددة جيدًا، لذلك من المحتمل أن يكون النموذج الدقيق الموثوق به ماليًا وخطيرًا ماديًا أيضًا لكنّ المقياس الموثوق به مهم جدًا للانحدار الرمزي والشبكات التحليلية المكدسة.

خطوات البناء النموذجي في علم البيانات

إنّ مفتاح النجاح في العثور على التقنيات التحليلية الصحيحة هو البدء بالإحصاءات الوصفية الأساسية ثم الانتقال إلى الإحصاءات التنبؤية مثل تحليل الانحدار، ومفتاح آخر هو محاولة البدء بأداة مألوفة باستخدام بيانات مألوفة مثل وظائف الانحدار في (Excel) ولمعرفة كيفية عمل المتغيرات التابعة والمستقلة، وفي الواقع مع تحديد مؤشرات الأداء الرئيسية والبيانات ومن السهل إجراء تحليلات بسيطة ونمذجة تنبؤية وقد يتم تجربة بناء بعض نماذج علوم البيانات بنفسك:

  • حدد مشكلة العمل ومؤشرات الأداء الرئيسية المرتبطة بمشكلة العمل.
  • قم ببناء نموذج الأعمال كمخطط انسيابي لعمليات الأعمال الداخلية والعوامل الخارجية التي يمكن أن تؤثر على مؤشرات الأداء الرئيسية لمشكلة الأعمال.
  • حدد البيانات التي تم إنشاؤها بواسطة العناصر في نموذج الأعمال.
  • استخدم تقنيات التحليلات لتقدير تأثير العناصر في نموذج الأعمال على مؤشرات الأداء الرئيسية.

تُعتبر النماذج البسيطة التي تستخدم مدخلات بيانات أقل مكانًا جيدًا للبدء، ويتم استعمال مصادر البيانات الخارجية الأخرى لإضافة قيمة توضيحية ولمزيد من الموضوعية والتحليل القوي، كما يتم زيادة القدرة التنبؤية للنموذج من خلال تضمين المتغيرات التي من المتوقع أن تؤثر على النتائج.

المصدر: Introducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionFoundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: