ما هي منهجية وأسلوب عمل علوم البيانات

اقرأ في هذا المقال


يحتاج كل عالم بيانات إلى منهجية لحل مشاكل علم البيانات، وستحتاج إلى المنهجية الصحيحة لتنظيم العمل وتحليل أنواع متنوعة من البيانات وحل المشاكل، والمنهجية في علم البيانات هي أفضل طريقة للقيام بالعمل بشكل أفضل ودون إضاعة الوقت.

أشكال منهجية عمل علوم البيانات

1- فهم الأعمال

قبل حل أي مشكلة في مجال الأعمال، يجب فهمها بشكل صحيح، ويشكل فهم الأعمال أساسًا ملموسًا ممّا يؤدي أيضًا إلى حل سهل للاستفسارات، كما يجب أن يكون هناك الوضوح لما هي المشكلة بالضبط التي سنحلها.

2- الفهم التحليلي

يجب على المرء أن يقرر النهج التحليلي الذي يجب اتباعه، ويمكن أن تكون الأساليب من أنواع وهي:

  • النهج الوصفي (الحالة الحالية والمعلومات المقدمة).
  • النهج التشخيصي (ويعرف أيضًا باسم التحليل الإحصائي وما يحدث ولماذا يحدث).
  • النهج التنبؤي (يتنبأ بالاتجاهات أو احتمالية الأحداث المستقبلية).
  • النهج التوجيهي (كيف ينبغي حل المشكلة في الواقع).

3- متطلبات البيانات

  • تشير الطريقة التحليلية المختارة إلى محتوى البيانات والأشكال والمصادر الضرورية التي سيتم جمعها.
  • أثناء عملية متطلبات البيانات، يجب على المرء أن يجد إجابات لأسئلة مثل “ماذا” و”أين” و”متى” و”لماذا” و”كيف” و”من”.

4- جمع البيانات

يمكن الحصول على البيانات المجمعة بأي تنسيق عشوائي، لذلك وفقًا للنهج المختار والمخرجات التي سيتم الحصول عليها، ويجب التحقق من صحة البيانات التي تم جمعها، وبالتالي إذا لزم الأمر يمكن للمرء جمع المزيد من البيانات أو تجاهل البيانات غير ذات الصلة.

5- فهم البيانات

  • يجيب فهم البيانات على السؤال “هل البيانات المجمعة تمثل المشكلة المراد حلها؟”، والإحصائيات الوصفية تحسب المقاييس المطبقة على البيانات للوصول إلى المحتوى وجودته، وقد تؤدي هذه الخطوة إلى العودة إلى الخطوة السابقة للتصحيح.

6- تحضير البيانات

  • يتم في عملية تحضير البيانات إزالة الضوضاء، وإذا لم نكن بحاجة إلى بيانات محددة فلا ينبغي أن نفكر في ذلك لمزيد من المعالجة، وتتضمن هذه العملية برمتها التحول والمساواة وما إلى ذلك.

7- النمذجة

  • تحدد النمذجة ما إذا كانت البيانات المعدة للمعالجة مناسبة أو تتطلب مزيدًا من التحسين وتركز هذه المرحلة على بناء النماذج التنبؤية أو الوصفية.

8- التقييم

  • يتم تقييم النموذج أثناء تطوير النموذج، ويتحقق من جودة النموذج المراد تقييمه وأيضًا ما إذا كان يفي بمتطلبات العمل.
  • يخضع لمرحلة قياس التشخيص، بحيث يعمل النموذج على النحو المطلوب وأين تكون التعديلات مطلوبة ومرحلة اختبار الأهمية الإحصائية ويضمن التعامل الصحيح مع البيانات وتفسيرها.

9- النشر

  • نظرًا لتقييم النموذج بشكل فعال، فإنه يصبح جاهزًا للنشر في سوق الأعمال، حيث تتحقق مرحلة النشر من مدى قدرة النموذج على الصمود في البيئة الخارجية وأداء أفضل مقارنة بالآخرين.

10- الاستجابة

  • الاستجابة هي الغرض الضروري الذي يساعد في تحسين النموذج والوصول إلى أدائه وتأثيره، حيث تحدد الخطوات المتضمنة في الاستجابة عملية المراجعة وتتبع السجل وقياس الفعالية والمراجعة مع التعديل.

مراحل منهجية وأسلوب عمل علم البيانات

1- مرحلة المشكلة إلى الطريقة المتبعة

  • يبدأ طلب كل عميل بمشكلة وتكون مهمة علماء البيانات هي فهمها أولاً والتعامل مع هذه المشكلة بتقنيات التعلم الإحصائي والآلي، تعتبر مرحلة فهم الأعمال أمرًا بالغ الأهمية لأنّها تساعد في توضيح هدف العميل.
  • في هذه المرحلة يتعين طرح الكثير من الأسئلة على العميل حول كل جانب من جوانب المشكلة وبهذه الطريقة نكون على يقين من أنّه سندرس البيانات ذات الصلة، وفي نهاية هذه المرحلة سيكون لدينا قائمة بمتطلبات العمل.
  • الخطوة التالية هي النهج التحليلي، حيث بمجرد تحديد مشكلة العمل بوضوح ويمكن لعالم البيانات تحديد النهج التحليلي لحل المشكلة، وتستلزم هذه الخطوة التعبير عن المشكلة في سياق التقنيات الإحصائية وتقنيات التعلم الآلي، وهي ضرورية لأنها تساعد في تحديد نوع الأنماط التي ستكون مطلوبة لمعالجة السؤال بشكل أكثر فعالية.
  • إذا كانت المشكلة هي تحديد احتمالات شيء ما، فيمكن استخدام نموذج تنبؤي، وإذا كان السؤال هو إظهار العلاقات فقد تكون هناك حاجة إلى نهج وصفي، وإذا كانت مشكلتنا تتطلب عددًا فإنّ التحليل الإحصائي هو أفضل طريقة لحلها، ولكل نوع من الأساليب يمكن استخدام خوارزميات مختلفة.

2- مرحلة المتطلبات إلى جمع البيانات

  • بمجرد أن نجد طريقة لحل مشكلتنا سنحتاج إلى اكتشاف البيانات الصحيحة لنموذجنا، ومتطلبات البيانات هي المرحلة التي نحدد فيها محتوى البيانات وتنسيقاتها ومصادرها الضرورية لجمع البيانات الأولية، ونستخدم هذه البيانات داخل خوارزمية النهج الذي اخترناه.
  • في مرحلة جمع البيانات يحدد علماء البيانات موارد البيانات المتاحة ذات الصلة بمجال المشكلة ولاسترداد البيانات يمكن إجراء تجريف الويب على موقع ويب ذي صلة، أو يمكن استخدام مستودع مع مجموعات بيانات معدة مسبقًا جاهزة للاستخدام.
  • عادةً ما تكون مجموعات البيانات المعدة مسبقًا عبارة عن ملفات (CSV) أو (Excel) وإذا تم جمع البيانات من أي موقع ويب أو مستودع، فيجب استخدام (Pandas) وهي أداة مفيدة لتنزيل مجموعات البيانات وتحويلها وتعديلها.

3- مرحلة فهم البيانات إلى تنسيقها

  • يستخدم علماء البيانات الإحصائيات الوصفية وتقنيات التصور لفهم البيانات بشكل أفضل، ويستكشف علماء البيانات مجموعة البيانات لفهم محتواها، وتحديد ما إذا كانت البيانات الإضافية ضرورية لسد أي فجوات ولكن أيضًا للتحقق من جودة البيانات.
  • في مرحلة فهم البيانات يحاول علماء البيانات فهم المزيد عن البيانات التي تم جمعها من قبل، ويجب التحقق من نوع كل بيانات ومعرفة المزيد عن السمات وأسمائها، وفي مرحلة إعداد البيانات يقوم علماء البيانات بإعداد البيانات للنمذجة، والتي تعد واحدة من أهم الخطوات لأنّ النموذج يجب أن يكون نظيفًا وخاليًا من الأخطاء.
  • في هذه المرحلة يجب أن نتأكد من أن البيانات بالتنسيق الصحيح لخوارزمية التعلم الآلي التي تم اختيارها في مرحلة النهج التحليلي، كما يجب أن يحتوي إطار البيانات على اسم أعمدة مناسب وقيمة منطقية موحدة (1 أو 0).
  • يجب الانتباه إلى اسم كل بيانات لأنّه في بعض الأحيان قد تكون مكتوبة بأحرف مختلفة، لكنّها نفس الشيء ويمكن إصلاح هذا ممّا يجعل كل قيمة حرف صغير في العمود، كما يمكن إجراء تحسين آخر عن طريق حذف استثناءات البيانات من إطار البيانات بسبب عدم ملاءمتها.

4- مرحلة النمذجة إلى تقييم البيانات

بمجرد إعداد البيانات لخوارزمية التعلم الآلي المختارة نكون جاهزين للنمذجة، حيث في مرحلة النمذجة يُتاح لعالم البيانات الفرصة لفهم ما إذا كان عمله جاهزًا للانطلاق أو ما إذا كان يحتاج إلى مراجعة، وتركز النمذجة على تطوير النماذج التي تكون إما وصفية أو تنبؤية، وتستند هذه النماذج إلى النهج التحليلي الذي تم اتباعه إحصائيًا أو من خلال التعلم الآلي.

النمذجة الوصفية هي عملية رياضية تصف أحداث العالم الواقعي والعلاقات بين العوامل المسؤولة عنها وعلى سبيل المثال قد يفحص النموذج الوصفي أشياء، النمذجة التنبؤية هي عملية تستخدم التنقيب في البيانات واحتمالية التنبؤ بالنتائج، وفي النمذجة التنبؤية يستخدم علماء البيانات مجموعة تدريب عبارة عن مجموعة من البيانات التاريخية التي تُعرف النتائج فيها بالفعل، ويمكن تكرار هذه الخطوة مرات أكثر حتى يفهم النموذج السؤال ويجيب عليه.

في مرحلة تقييم النموذج يمكن لعلماء البيانات تقييم النموذج بطريقتين الحجز والتحقق من الصحة، حيث في طريقة (Hold-Out)، يتم تقسيم مجموعة البيانات إلى ثلاث مجموعات فرعية وهي مجموعة تدريب كما في مرحلة النمذجة، ومجموعة التحقق التي هي مجموعة فرعية تستخدم لتقييم أداء النموذج المبني في مرحلة التدريب، ومجموعة الاختبار هي مجموعة فرعية لتقييم الأداء المستقبلي المحتمل للنموذج.

5- مرحلة نشر البيانات إلى تلقي الملاحظات

يتعين على علماء البيانات جعل أصحاب المصلحة على دراية بالأداة المنتجة في سيناريوهات مختلفة لذلك بمجرد تقييم النموذج وثقة عالم البيانات بأنه سيعمل ويتم نشره ووضعه في الاختبار النهائي، وتعتمد مرحلة النشر على الغرض من النموذج.

وقد يتم طرحه لمجموعة محدودة من المستخدمين أو في بيئة اختبار وعادةً ما تكون مرحلة التعليقات هي أقصى استفادة من العميل، حيث يمكن للعملاء بعد مرحلة النشر أن يقولوا ما إذا كان النموذج يعمل لأغراضهم أم لا، ويأخذ علماء البيانات هذه التعليقات ويقررون ما إذا كان ينبغي عليهم تحسين النموذج، وذلك لأن العملية من النمذجة إلى التعليقات متكررة للغاية.

بعد نشر النموذج تتلقى الملاحظات من مستخدمي النموذج، حيث يقدم المستخدمون المزيد من الملاحظات حول النموذج، وبعد ذلك يمكنك تحسين النموذج وتقييمه ونشره مرة أخرى، يعود إلى مرحلة الملاحظات ويكرر هذه العملية حتى يكون لديك نموذج نهائي، وبعد ذلك يمكنك نشره على مجموعة كبيرة من المستخدمين.

المصدر: Introducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionFoundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: