دورة حياة مشروع علوم البيانات Life Cycle of Data Science projects

اقرأ في هذا المقال


بصفتك عالمًا طموحًا في مجال البيانات، يجب أن تكون حريصًا على فهم كيفية عمل دورة حياة مشروعات علوم البيانات بحيث يسهل عليك تنفيذ مشروعاتك الفردية بنمط مماثل. اليوم، سنناقش بشكل أساسي عملية التنفيذ أي مشروع علم بيانات خطوة بخطوة في سيناريو العالم الحقيقي.

ما هي دورة حياة مشروع علوم البيانات

بعبارات بسيطة، فإن دورة حياة علم البيانات ليست سوى مجموعة متكررة من الخطوات التي تحتاج إلى اتخاذها لإكمال وتسليم مشروع أو منتج إلى عميلك. على الرغم من أن مشاريع علوم البيانات والفِرَق المُشاركة في نشر النموذج وتطويره ستكون مختلفة، فإن كل دورة حياة لعلوم البيانات ستكون مختلفة قليلاً في كل شركة أخرى. مع ذلك، فإن معظم مشاريع علوم البيانات تتبع نهج مماثل إلى حد ما.

لبدء مشروع قائم على علم البيانات وإكماله، نحتاج إلى فهم الأدوار والمسؤوليات المختلفة للأشخاص المشاركين في بناء المشروع وتطويره. دعونا نلقي نظرة على هؤلاء الموظفين المشاركين في مشروع علم بيانات نموذجي:

  • محلل الأعمال.
  • محلل بيانات.
  • علماء البيانات.
  • مهندس بيانات.
  • مهندس البيانات.
  • مهندس تعلم الآلة.

الآن بعد أن أصبح لدينا فكرة عن الأشخاص المشاركين في مشروع تجاري نموذجي، دعنا نفهم ما هو مشروع علم البيانات وكيف نحدد دورة حياة مشروع علم البيانات في سيناريو العالم الحقيقي مثل معرف الأخبار المزيفة.

لماذا نحتاج إلى تحديد دورة حياة مشروع علم البيانات

في الحالة العادية، يحتوي مشروع علم البيانات على البيانات كعنصر رئيسي. وبدون أي بيانات لن نتمكن من إجراء أي تحليل أو توقع أي نتيجة؛ لأننا نبحث عن شيء غير معروف. ومن ثم، قبل البدء في أي مشروع لعلوم البيانات حصلنا عليه من عملائنا أو أصحاب المصلحة أولاً، نحتاج أولاً إلى فهم المشكلة الأساسي الذي قدمها هؤلاء. بمجرد فهمنا لمشكلة العمل، يتعين علينا جمع البيانات ذات الصلة التي ستساعدنا في حل حالة الاستخدام. مع ذلك، تظهر أسئلة كثيرة للمبتدئين مثل: في أي شكل نحتاج البيانات؟ وكيف نحصل على البيانات؟ ماذا علينا أن نفعل بالبيانات؟.

الكثير من الأسئلة والإجابات قد تختلف من شخص لآخر. من ثم، من أجل معالجة كل هذه المخاوف على الفور، لدينا سلسلة أعمال محددة مسبقًا يُطلق عليها دورة حياة مشروع علوم البيانات. العملية بسيطة إلى حد ما حيث يتعين على الشركة أولاً جمع البيانات، وإجراء تنظيف البيانات، وإجراء “EDA” لاستخراج الميزات ذات الصلة، وإعداد البيانات عن طريق إجراء هندسة الميزات وتوسيع نطاق الميزات. في المرحلة الثانية، يتم بناء النموذج ونشره بعد التقييم المناسب. دورة الحياة بأكملها ليست مهمة رجل واحد، لذلك تحتاج إلى أن يعمل الفريق بأكمله معًا لإنجاز العمل من خلال تحقيق المقدار المطلوب من الكفاءة للمشروع

يُعرف الهيكل المقبول عالميًا في حل أي نوع من المشكلات التحليلية عمومًا باسم العملية القياسية عبر الصناعة لاستخراج البيانات أو يُختصر باسم إطار عمل “CRISP-DM”.

شرح دورة حياة مشروع علم البيانات:

1) فهم مشكلة العمل

من أجل بناء نموذج عمل ناجح، من المهم جدًا أن نفهم أولاً مشكلة العمل التي يواجهها العميل. لنفترض أنه يريد أن يتنبأ بمعدل الذي يتوقف عنده العملاء عن التعامل مع كيان ما لأغراض أعمال البيع بالتجزئة الخاصة به، قد ترغب أولاً في فهم عمله ومتطلباته وما يريد تحقيقه بالفعل من التنبؤ. في مثل هذه الحالات، من المهم أخذ استشارة من خبراء المجال وفهم المشكلات الأساسية الموجودة في النظام في النهاية.

يعد محلل الأعمال مسؤولاً بشكل عام عن جمع التفاصيل المطلوبة من العميل وإعادة توجيه البيانات إلى فريق عالم البيانات لمزيد من التكهنات. قد يكون الخطأ البسيط في تحديد المشكلة وفهم المتطلبات أمرًا بالغ الأهمية للمشروع ومن ثم يجب القيام به بأقصى قدر من الدقة. وبعد طرح الأسئلة المطلوبة على أصحاب المصلحة في الشركة أو العملاء، ننتقل إلى العملية التالية والتي تُعرف باسم جمع البيانات.

2) جمع البيانات

بعد توضيح وفهم المشكلة، نحتاج إلى جمع البيانات ذات الصلة لتقسيم المشكلة إلى مكونات صغيرة.

يبدأ مشروع علم البيانات بتحديد مصادر البيانات المختلفة، والتي قد تشمل سجلات خادم الويب ، أو منشورات الوسائط الاجتماعية، أو البيانات من المكتبات الرقمية مثل مجموعات بيانات التعداد السكاني في الولايات المتحدة، أو البيانات التي يتم الوصول إليها من خلال المصادر الموجودة على الإنترنت عبر واجهات برمجة التطبيقات، أو المعلومات الموجودة بالفعل في جدول بيانات (Excel). يستلزم جمع البيانات الحصول على معلومات من مصادر داخلية وخارجية معروفة يمكن أن تساعد في معالجة مشكلة الأعمال.

عادةً ما يكون فريق محلل البيانات مسؤولاً عن جمع البيانات. إنهم بحاجة إلى اكتشاف طرق مناسبة لمصدر البيانات وجمعها للحصول على النتائج المرجوة. هناك طريقتان لمصدر البيانات:

  • من خلال تجريف الويب باستخدام لغة (Python).
  • استخراج البيانات باستخدام واجهات برمجة التطبيقات لجهات خارجية.

3) تجهيز البيانات

بعد جمع البيانات من المصادر ذات الصلة، نحتاج إلى المضي قدمًا في إعداد البيانات. تساعدنا هذه المرحلة على اكتساب فهم أفضل للبيانات وإعدادها لمزيد من التقييم.

بالإضافة إلى ذلك، يشار إلى هذه المرحلة باسم تنظيف البيانات أو مناظرة البيانات. يستلزم خطوات مثل اختيار البيانات ذات الصلة، ودمجها عن طريق خلط مجموعات البيانات، وتنظيفها، والتعامل مع القيم المفقودة إما عن طريق إزالتها أو احتسابها مع البيانات ذات الصلة، والتعامل مع البيانات غير الصحيحة عن طريق إزالتها، وكذلك التحقق من القيم المتطرفة والتعامل معها. باستخدام هندسة الميزات، يمكنك إنشاء بيانات جديدة واستخراج ميزات جديدة من الميزات الموجودة. نسِّق البيانات وفقًا للبنية المرغوبة واحذف أي أعمدة أو وظائف غير ضرورية. يعد إعداد البيانات العملية الأكثر استهلاكا للوقت، حيث يمثل ما يصل إلى “90٪” من إجمالي مدة المشروع، وهذه هي الخطوة الأكثر أهمية طوال دورة الحياة بأكملها.

4) نمذجة البيانات

في معظم حالات تحليل البيانات، تعتبر نمذجة البيانات بمثابة العملية الأساسية. في عملية نمذجة البيانات هذه، نأخذ البيانات المُعدّة كمدخلات وبهذا نحاول تحضير المخرجات المرغوبة. حيث نميل أولاً إلى اختيار النوع المناسب من النماذج الذي سيتم تنفيذه للحصول على النتائج، سواء كانت المشكلة مشكلة انحدار أو تصنيف، أو مشكلة قائمة على التجميع. اعتمادًا على نوع البيانات التي نتلقاها، نختار خوارزمية التعلم الآلي المناسبة والأكثر ملاءمة للنموذج. بمجرد الانتهاء من ذلك، يجب علينا ضبط المعلمات التي في النماذج المختار للحصول على نتيجة إيجابية.

5) نشر النموذج

قبل نشر النموذج، نحتاج إلى التأكد من أننا اخترنا الحل المناسب بعد إجراء تقييم صارم. في وقت لاحق، يتم نشره في القناة والصيغة المطلوبة. هذه بطبيعة الحال هي الخطوة الأخيرة في دورة حياة مشاريع علوم البيانات. يرجى توخي مزيد من الحذر قبل تنفيذ كل خطوة في دورة الحياة لتجنب الأخطاء غير المرغوب فيها. على سبيل المثال، إذا اخترت خوارزمية التعلم الآلي الخاطئة لنمذجة البيانات، فلن تحقق الدقة المطلوبة وسيكون من الصعب الحصول على الموافقة على المشروع من أصحاب المصلحة، وإذا لم يتم تنظيف بياناتك بشكل صحيح، فسيتعين عليك التعامل مع القيم المفقودة أو العناصر و ميزات و سجلات بيانات غير المرغوب فيها والموجودة في مجموعة البيانات لاحقًا. ومن ثم، من أجل التأكد من نشر النموذج بشكل صحيح ومقبول في العالم الحقيقي كحالة استخدام أمثل ، سيتعين عليك إجراء اختبار صارم في كل خطوة.


شارك المقالة: