مراحل عملية تنقيب الأنماط في التنقيب عن البيانات

اقرأ في هذا المقال


لقد أثبت التنقيب في البيانات عن نفسه كمجال مهم لأبحاث قواعد البيانات التي يكون هدفها الأساسي هو استخراج معلومات غير ظاهرة وذات مغزى من قواعد البيانات، وأحد المجالات الرئيسية لعملية التنقيب عن البيانات هو التنقيب عن الأنماط الذي يهدف إلى تخصيص الطرق والارتباطات المهمة المتوفرة داخل قاعدة البيانات.

مراحل عملية تنقيب الأنماط في التنقيب عن البيانات

1. وقت التشغيل

يقيس هذا الوقت الذي تستغرقه الخوارزمية للعثور على الأنماط في البيانات، حيث يتم قياس ذلك عادةً بالثواني أو الدقائق وهناك عدة طرق مختلفة لقياس أداء خوارزمية التعلم الآلي، ولكن أحد أكثرها شيوعًا هو ببساطة قياس مقدار الوقت الذي يستغرقه تدريب النموذج والتنبؤ ويُعرف هذا باسم “تحديد نمط وقت التشغيل”.

هناك بعض الأمور المختلفة التي يجب وضعها في الاعتبار عند قياس وقت تشغيل الخوارزمية، وعليك أن تأخذ في الاعتبار الوقت المستغرق لتحميل البيانات في الذاكرة، كما تحتاج إلى حساب الوقت المستغرق في المعالجة المسبقة للبيانات وتحتاج إلى حساب الوقت الذي يستغرقه تدريب النموذج وإجراء التنبؤات.

سيزداد وقت تشغيل الخوارزمية مع زيادة عدد البيانات، وهذا لأنّ الخوارزمية يجب أن تعالج المزيد من البيانات من أجل التعلم منها، ومع ذلك هناك بعض الخوارزميات الأكثر كفاءة من غيرها يمكن توسيع نطاقها إلى مجموعات البيانات الكبيرة بشكل أفضل وعند مقارنة الخوارزميات المختلفة، كما إنّ مجموعة البيانات المحددة يتم استخدامها وقد تكون بعض الخوارزميات أكثر ملاءمة لأنواع معينة من البيانات أكثر من غيرها، وبالإضافة إلى ذلك يمكن أن يتأثر وقت التشغيل أيضًا بالأجهزة المستخدمة.

2. دعم النمط

دعم النمط هو النسبة المئوية من إجمالي عدد السجلات التي تحتوي على النمط وتحديد نمط الدعم هو عملية لإيجاد أنماط مناسبة وربما مفيدة في البيانات، والغرض من تحديد نمط الدعم هو تحديد الأنماط المثيرة للاهتمام التي قد تكون مفيدة في اتخاذ القرار، ويستخدم تحديد نمط الدعم عادةً في استخراج البيانات وتطبيقات التعلم الآلي.

هناك عدة طرق لتحديد أنماط الدعم وأحد الأساليب الشائعة هو استخدام مقياس دعم والذي يقيس عدد مرات حدوث نمط في مجموعة بيانات، ونهج شائع آخر هو استخدام مقياس الرفع والذي يقيس نسبة حدوث نمط إلى الحدوث المتوقع للنمط ويمكن استخدام تحديد نمط الدعم للعثور على مجموعة متنوعة من الأنماط المناسبة في البيانات، بما في ذلك قواعد الارتباط والأنماط المتسلسلة وأنماط التسلسل، ويُعد تحديد نمط الدعم جزءًا مهمًا من التنقيب عن البيانات والتعلم الآلي ويمكن استخدامه للمساعدة في اتخاذ قرارات أفضل.

3. الثقة بالنموذج

ثقة النموذج هي النسبة المئوية لمرات اكتشاف أن النمط صحيح، وتقييم نمط الثقة هو طريقة للتنقيب عن البيانات تُستخدم لتحديد جودة الأنماط الموجودة في البيانات، ويتم إجراء هذا التقييم عادةً عن طريق حساب النسبة المئوية لمرات العثور على نمط في مجموعة بيانات ومقارنة هذه النسبة المئوية بالنسبة المئوية، والتي يُتوقع فيها العثور على النمط بناءً على التوزيع العام للبيانات وإذا كانت النسبة المئوية لمرات العثور على نمط أعلى بكثير من النسبة المئوية المتوقعة يقال إنّ هذا النمط هو نمط ثقة قوي.

4. رفع النمط

رفع النمط هو نسبة عدد المرات التي وجد فيها النمط صحيحًا إلى عدد المرات التي يُتوقع أن يكون فيها النمط صحيحًا، وتقييم نمط الرفع هو تقنية للتنقيب عن البيانات يمكن استخدامها لتقييم أداء النموذج التنبؤي، ونمط الرفع هو تمثيل رسومي لأداء النموذج ويمكن استخدامه لتحديد المشاكل المحتملة مع النموذج.

نمط الرفع هو رسم بياني للمعدل الإيجابي الحقيقي (TPR) مقابل المعدل الإيجابي الخاطئ (FPR) وهي النسبة المئوية للحالات الإيجابية التي تم تصنيفها بشكل صحيح بواسطة النموذج، بينما (FPR) هي النسبة المئوية للحالات السلبية التي تم تصنيفها بشكل غير صحيح على أنّها موجبة، ومن الناحية المثالية فإنّ نظام الحماية المؤقت سيكون (100%) و(FPR) سيكون (0%) لكن هذا نادرًا ما يكون هو الحال في الممارسة العملية.

5. تحديد نمط الدقة

تحديد نمط الدقة هو طريقة لتحليل البيانات التي تم جمعها من مجموعة متنوعة من المصادر ويمكن استخدام هذه الطريقة لتحديد الأنماط والاتجاهات في البيانات ولتحديد دقة البيانات، كما يمكن استخدام تحديد النمط الدقيق لتحديد الأخطاء في البيانات ولتحديد سبب الأخطاء ويمكن استخدام هذه الطريقة أيضًا لتحديد تأثير الأخطاء على الدقة الكلية للبيانات، وتحديد نمط الدقة هو أداة قيمة لاستخراج وتحليل البيانات، ويمكن استخدام هذه الطريقة لتحسين دقة البيانات وتحديد الأنماط والاتجاهات في البيانات.

6. التحقق من الصحة

تتضمن هذه الطريقة تقسيم البيانات إلى مجموعتين وتدريب النموذج على مجموعة واحدة ثم اختباره على المجموعة الأخرى ويمكن القيام بذلك عدة مرات باستخدام أقسام مختلفة للحصول على تقدير أكثر موثوقية لأداء النموذج، والتحقق المتقاطع هو أسلوب للتحقق من صحة النموذج لتحديد كيفية تعميم نتائج تحليل التنقيب في البيانات على مجموعة بيانات مستقلة.

كما يتم استخدامه بشكل أساسي في الإعدادات التي يكون فيها الهدف هو التنبؤ ويريد المرء تقدير مدى دقة أداء النموذج التنبؤي في الممارسة العملية ويشار إلى التحقق المتبادل أيضًا باسم الاختبار خارج العينة، والتحقق المتقاطع هو طريقة لتحديد النمط تُستخدم لمعرفة دقة النموذج، ويقوم بذلك عن طريق تقسيم البيانات إلى مجموعة تدريب ومجموعة اختبار ثم يتم وضع النموذج في مجموعة التدريب ويتم قياس الدقة على مجموعة الاختبار، ثم يتم تكرار هذه العملية عدة مرات مع متوسط ​​الدقة على جميع التكرارات.

7. مجموعة الاختبار

تتضمن هذه الطريقة تقسيم البيانات إلى مجموعتين وتدريب النموذج على مجموعة البيانات بأكملها ثم اختبارها على مجموعة الاختبار الثابتة، وهذا أكثر موثوقية من التحقق المتبادل ولكن يمكن أن يكون أكثر تكلفة إذا كانت مجموعة البيانات كبيرة وهناك عدد من الطرق لمعرفة أداء نموذج في مجموعة اختبار، والأكثر شيوعًا هو مقارنة التسميات المتوقعة بالتسميات الحقيقية وحساب النسبة المئوية للمثيلات التي تم تصنيفها بشكل صحيح وهذا يسمى الدقة.

المقياس الشائع الآخر هو الدقة وهو عدد الإيجابيات الحقيقية مقسومًا على مجموع الإيجابيات الحقيقية والإيجابيات الزائفة، وأمّا الاسترجاع هو عدد الإيجابيات الحقيقية مقسومًا على مجموع الإيجابيات الحقيقية والسلبيات الكاذبة، ويمكن دمج هذه المقاييس في درجة (F1)، وهي المتوسط ​​التوافقي للدقة والتذكر.

8. التمهيد

  • تتضمن هذه الطريقة أخذ عينات عشوائية من البيانات مع الاستبدال وتدريب النموذج على بيانات العينة ثم اختبارها على البيانات الأصلية.
  • يمكن استخدام هذا للحصول على توزيع لأداء النموذج والذي يمكن أن يكون مفيدًا لفهم مدى قوة النموذج.
  • يتضمن اختيار عينة من البيانات بشكل عشوائي من مجموعة البيانات الأصلية ثم تدريب النموذج على هذه العينة، ثم يتم اختبار النموذج على عينة أخرى من البيانات التي لم يتم استخدامها، وتتكرر هذه العملية عدة مرات ويتم حساب متوسط ​​دقة النموذج.

المصدر: Data Science from Scratch: First Principles with Python by Joel Grus / 2nd EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionFoundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First Edition


شارك المقالة: