مراحل النمذجة لدورة حياة مشروع علم البيانات

اقرأ في هذا المقال


يمكن التفكير في النموذج في علم البيانات على أنّه طريقة لترجمة منطق الوصف الدقيق للأشياء في العالم الحقيقي والعلاقات بينها إلى قواعد يمكن اتباعها وإنفاذها بواسطة كود الكمبيوتر، وإنّ فهم كيفية تطبيق النماذج التي تسمح لتلك الأنظمة بتسجيل صورة للعالم الحقيقي هو الشيء الوحيد الذي يجعل المهمة ممكنة حتى عن بُعد.

ما المقصود بنمذجة البيانات

نمذجة البيانات: هي مهارة حاسمة لكل عالم بيانات وسواء كنت تقوم بتصميم بحث أو تقوم بتصميم مخزن بيانات جديد لشركتك، إنّ القدرة على التفكير بشكل واضح ومنهجي حول نقاط البيانات الرئيسية التي سيتم تخزينها واسترجاعها وكيف ينبغي تجميعها وربطها وهو ما يدور حوله مكون نمذجة البيانات في علم البيانات.

تلعب نمذجة البيانات دورًا حيويًا في تخزين البيانات وفقًا للمتطلبات، ونظرًا لأن المؤسسات تتعامل مع كميات هائلة من البيانات يجب أن تكون قادرة على تنظيم البيانات وفهمها والقدرة على توصيلها للآخرين، وعليهم أن يصمموها لفهمها أو استخدامها وبالتالي يلجأون إلى نمذجة البيانات.

إنّ أهمية علم البيانات واضحة جدًا حيث يُطلق عليها أكثر المجالات جاذبية في القرن الحادي والعشرين، حيث تقوم الشركات بنشر مشاريع الذكاء الاصطناعي للعديد من الصناعات المختلفة، كما يتم بناء جميع عمليات نشر مشروع علوم البيانات على فهم واضح لمشكلة العمل باستخدام خوارزميات الذكاء الاصطناعي أو تعلم الآلة المطبقة على المشكلة، ممّا يؤدي إلى نموذج علم البيانات والذي يلبي احتياجات العمل.

وعند بناء نموذج عمل لعلم البيانات لا يوجد شيء مثالي وكل هذا يتعلق بالتجربة والخطأ، كما يقوم علماء البيانات باستمرار بتعديل الخوارزميات والنماذج لتحقيق أعلى مستوى من الدقة، ومع ذلك فإنّ بناء نموذج علم البيانات عملية طويلة مع العديد من الخطوات.

المراحل الرئيسية في بناء نموذج علم البيانات

  • تحديد الأهداف.
  • التواصل مع أصحاب المصلحة الرئيسيين.
  • جمع البيانات اللازمة لتحليل البيانات الاستكشافية (EDA).
  • تحديد الشكل الوظيفي للنموذج.
  • تقسيم البيانات والتحقق من الصحة.
  • تقييم أداء النموذج.
  • نشر النموذج للتنبؤ في الوقت الفعلي.
  • إعادة بناء النموذج.

ملاحظة:“EDA” هي اختصار لـ “Exploratory Data Analysis”.

الهدف من مراحل النمذجة لدورة حياة مشروع علم البيانات

  • إنشاء نموذج إعلامي للتعلم الآلي يتنبأ بالهدف بدقة أكبر.
  • إنشاء نموذجًا للتعلم الآلي مناسبًا للإنتاج.
  • توثيق أفضل لمصادر البيانات وجودة أعلى ونطاق أوضح لاستخدام البيانات مع أداء أسرع وأخطاء قليلة.
  • من وجهة نظر الامتثال التنظيمي تضمن نمذجة البيانات التزام المؤسسة بالقوانين الحكومية ولوائح الصناعة المعمول بها.
  • إنّها تمكن الموظفين من اتخاذ قرارات واستراتيجيات تعتمد على البيانات.
  • يعتمد على ذكاء الأعمال لأنه يسمح بتحديد الفرص الجديدة من خلال توسيع قدرة البيانات.

مهام مراحل النمذجة لدورة حياة مشروع علم البيانات

1- إنشاء ميزات البيانات من البيانات الأولية

إنشاء ميزات البيانات من البيانات الأولية لتسهيل تدريب النموذج، وتتضمن “هندسة الميزات” تحديد المتغيرات الأولية وتجميعها وتحويلها لتكوين الميزات المستخدمة في التحليل، حيث إذا كنت ترغب في الحصول على نظرة ثاقبة حول ما يقود النموذج فأنت بحاجة إلى فهم كيفية ارتباط الميزات ببعضها البعض وكيفية استخدام خوارزميات التعلم الآلي لهذه الميزات.

تتطلب هذه الخطوة مزيجًا إبداعيًا من الخبرة في المجال والأفكار التي تم الحصول عليها من خطوة استكشاف البيانات، وهندسة الميزات هي عملية موازنة لإيجاد وتضمين متغيرات إعلامية، ولكن في نفس الوقت تحاول تجنب الكثير من المتغيرات غير ذات الصلة، والمتغيرات الإعلامية تحسن النتيجة الخاصة بك.

كما تقدم المتغيرات غير ذات الصلة ضوضاء غير ضرورية في النموذج، وتحتاج أيضًا إلى إنشاء هذه الميزات لأي بيانات جديدة يتم الحصول عليها أثناء التسجيل، ونتيجةً لذلك يمكن أن يعتمد إنشاء هذه الميزات فقط على البيانات المتوفرة في وقت التسجيل.

2- اعتماد النموذج المناسب

يتم البحث عن النموذج الذي يجيب على السؤال بدقة أكبر من خلال مقارنة مقاييس نجاحه، واعتمادًا على نوع السؤال الذي تحاول الإجابة عليه، وهناك العديد من خوارزميات النمذجة المتاحة وللحصول على إرشادات حول اختيار خوارزمية تم إنشاؤها مسبقًا مع المصمم، وتتوفر خوارزميات أخرى من خلال حزم مجانية المصدر في (R) أو (Python)، وتحتوي عملية تدريب النموذج الخطوات التالية:

  • تقسيم بيانات الإدخال عشوائيًا للنمذجة إلى مجموعة بيانات تدريب ومجموعة بيانات اختبار.
  • بناء النماذج باستخدام مجموعة بيانات التدريب.
  • تقييم التدريب ومجموعة بيانات الاختبار، واستخدام سلسلة من خوارزميات التعلم الآلي المتنافسة جنبًا إلى جنب مع مختلف معلمات الضبط المرتبطة (المعروفة باسم مسح المعلمات)، والموجهة نحو الإجابة على سؤال الاهتمام بالبيانات الحالية.
  • تحديد الحل “الأفضل” للإجابة على السؤال من خلال مقارنة مقاييس النجاح بين الطرق البديلة.

3- تحديد ما إذا كان النموذج مناسب للإنتاج

  • تفسير النموذج واستخدم لوحة معلومات المرئيات للتفاعل مع تفسيرات النموذج.
  • تقييم النموذج ومراجعة تحميل إحصاءات التقييم وإدراجها وتنزيلها.

العلاقة بين نمذجة البيانات وقواعد البيانات

ألقت مجموعات البيانات الكبيرة جدًا شيئًا من مفتاح الربط في هيمنة أنظمة (RDBMS) وسواء كان من الممكن بسهولة نمذجة البيانات المخزنة بشكل مترابط أم لا، حيث يعتمد نموذج (RDBMS) على نظام قاعدة البيانات نفسه للحفاظ على التنظيم الداخلي وتماسك البيانات الموجودة فيه، وبينما يمكن للنموذج المترابط عند تطبيقه بشكل صحيح وتحقيق ذلك وتأتي العملية مع النفقات العامة.

عندما يتم تخزين ملايين أو تريليونات من نقاط البيانات يمكن أن يؤدي سعر هذا التناسق الداخلي إلى توقف الأداء، وتُعد قواعد بيانات (NoSQL) واحدة من أكثر الحلول الواعدة في الصناعة لهذه المشكلة، حيث تستخدم هذه أحيانًا مخازن بيانات غير طبيعية بشكل جذري بهدف وحيد هو تحسين الأداء.

وكما إنّهم يعتمدون على رمز الاتصال والاستعلامات للتعامل مع نوع الاتساق والتزامن الذي يأتي مدمجًا في نهج (RDBMS)، ممّا يوفر سرعة فائقة وقابلية للتوسع أكثر من سهولة الاستخدام، وللقيام بذلك يستخدمون مخازن بيانات مبسطة مثل:

  • مخازن القيمة الرئيسية.
  • مخازن الوثائق.
  • الرسوم البيانية.

ملاحظة: “RDBMS” هي اختصار لـ “Relational database management system”.

تقنيات نمذجة البيانات في قواعد البيانات

تُعد نمذجة هذه الأنواع من المتاجر خروجًا مهمًا عن طريقة (RDBMS)، وقد يبدأ علماء البيانات من الجانب الناتج من العملية ويسيم تجاهل تكرار البيانات، وسيتعين عليهم التخطيط للتعامل مع تعارضات التزامن ومشكلات التكامل الأخرى في نهاية الإخراج بدلاً من التصميم نفسه، كما قد يختارون تجميع البيانات بدلاً من تقسيمها بشكل منفصل وتستخدم نمذجة بيانات (NoSQL) تقنيات متقدمة مثل:

  • التحديثات الأوتوماتيكي (Atomic updates).
  • تخفيض الأبعاد.
  • أنماط البحث المعكوسة.
  • تجميع الشجرة.

يتيح فهم هذه التقنيات والإمكانيات التي توفرها (NoSQL) لعلماء البيانات اتخاذ أفضل الخيارات لنوع مخزن البيانات الذي يجب استخدامه وكيفية تكوينها، وفي كل حالة تقريبًا سينتهي الأمر بعلماء البيانات في العالم الحقيقي باستخدام مزيج من (RDBMSs) و(NoSQL) أو مصادر البيانات الغريبة الأخرى كجزء يومي من عملهم.

المصدر: Introducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionFoundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: