برز التنقيب عن الأنماط كمجال مهم للتنقيب عن البيانات على مر السنين، ولقد بذل جهود كبيراً للتنقيب عن الأنماط النادرة لذلك أصبح التحليل الدقيق والمناسب لتقنيات التنقيب عن الأنماط الحالية ضروريًا؛ لتوسيع نطاق تحليل البيانات باستخدام مفهوم التنقيب عن الأنماط.
ما هي عملية تقييم الأنماط في تنقيب البيانات
تقييم الأنماط: هو عملية تقييم جودة الأنماط المكتشفة، وهذه العملية مهمة لتحديد ما إذا كانت الأنماط مفيدة وما إذا كان يمكن الوثوق بها، حيث هناك عدد من الأساليب المختلفة التي يمكن استخدامها لتقييم الأنماط وسيعتمد اختيار المقياس على التطبيق.
كيفية تقييم الأنماط في تنقيب البيانات
1. دقة نموذج التنقيب عن البيانات
دقة نموذج التنقيب عن البيانات هي مقياس لمدى صحة توقع النموذج للقيم المستهدفة، حيث يتم قياس الدقة على مجموعة بيانات اختبار منفصلة عن مجموعة بيانات التدريب التي تم استخدامها لتدريب النموذج، وهناك عدد من الطرق لقياس الدقة ولكن الأكثر شيوعًا هو حساب النسبة المئوية للتنبؤات الصحيحة ويُعرف هذا بـ “معدل الدقة”.
تشمل مقاييس الدقة الأخرى جذر متوسط الخطأ التربيعي (RMSE) ومتوسط الخطأ المطلق (MAE)، و(RMSE) هو الجذر التربيعي لمتوسط الخطأ التربيعي و(MAE) هو متوسط الأخطاء المطلقة، كما تُعد دقة نموذج التنقيب عن البيانات أمرًا مهمًا ولكنّها ليست الشيء الوحيد الذي يجب مراعاته ويجب أن يكون النموذج أيضًا قويًا وقابل للتعميم.
النموذج الذي يكون دقيقًا بنسبة (100%) على بيانات التدريب ولكنه دقيق بنسبة (50%) فقط في بيانات الاختبار ليس نموذجًا جيدًا، والنموذج يملأ بيانات التدريب ولا يمكن تعميمه على البيانات الجديدة ويُعتبر النموذج الذي يكون دقيقًا بنسبة (80%) على بيانات التدريب و(80%) دقيقًا على بيانات الاختبار نموذجًا جيدًا، والنموذج قابل للتعميم ويمكن استخدامه لعمل تنبؤات بشأن البيانات الجديدة.
2. دقة التصنيف
يقيس هذا مدى دقة الأنماط المكتشفة بواسطة الخوارزمية التي يمكن استخدامها لتصنيف البيانات الجديدة ويتم ذلك عادةً عن طريق أخذ مجموعة من البيانات، والتي تم تصنيفها بعلامات تصنيف معروفة ثم استخدام الأنماط المكتشفة للتنبؤ بتسميات فئات البيانات ويمكن بعد ذلك حساب الدقة من خلال مقارنة الملصقات المتوقعة بالملصقات الفعلية.
تُعد دقة التصنيف أحد أكثر مقاييس التقييم شيوعًا لنماذج التصنيف وهي ببساطة النسبة المئوية للتنبؤات الصحيحة التي قدمها النموذج، وعلى الرغم من كونه مقياسًا مباشرًا وسهل الفهم إلّا أنّ دقة التصنيف قد تكون مضللة في مواقف معينة وعلى سبيل المثال إذا كان هناك مجموعة بيانات ذات توزيع غير متوازن للغاية للفئة، فإنّ النموذج الذي يتنبأ دائمًا بالفئة (1) سيحقق دقة تصنيف عالية تبلغ (90%)، ومع ذلك ومن الواضح أنّ هذا النموذج ليس مفيدًا للغاية لأنّه لا يقدم أي تنبؤات صحيحة للفئة (0).
هناك عدة طرق مختلفة لتقييم نماذج التصنيف مثل: الدقة والاسترجاع وهي أكثر إفادة في مجموعات البيانات غير المتوازنة، حيث أنّ الدقة هي النسبة المئوية للتنبؤات الصحيحة التي قام بها النموذج لفئة معينة، والاسترجاع هو النسبة المئوية لمثيلات فئة معينة تم توقعها بشكل صحيح بواسطة النموذج، وهناك طريقة أخرى لتقييم نماذج التصنيف وهي استخدام المصفوفة الفوضوية والمصفوفة الفوضوية هي جدول يوضح عدد التنبؤات الصحيحة وغير الصحيحة التي قدمها النموذج لكل فئة.
يمكن أن تكون هذه طريقة مفيدة لتصور أداء النموذج وتحديد مكان ارتكاب الأخطاء، وعلى سبيل المثال ستظهر المصفوفة الفوضوية أنّ النموذج يقوم بجميع التنبؤات للفئة (1) ولا توجد تنبؤات للفئة (0) وبشكل عام تُعد دقة التصنيف مقياسًا جيدًا لاستخدامه عند تقييم نماذج التصنيف، ومع ذلك من المهم أن تكون مدركًا لقيودها وأن تستخدم مقاييس تقييم أخرى في المواقف التي قد تكون فيها دقة التصنيف مضللة.
3. دقة التجميع
يقيس هذا مدى دقة الأنماط المكتشفة بواسطة الخوارزمية التي يمكن استخدامها لتجميع البيانات الجديدة، حيث يتم ذلك عادةً عن طريق أخذ مجموعة من البيانات التي تم تصنيفها باستخدام تسميات عنقودية معروفة، ثم استخدام الأنماط المكتشفة للتنبؤ بتسميات المجموعة للبيانات، ويمكن بعد ذلك حساب الدقة من خلال مقارنة الملصقات المتوقعة بالملصقات الفعلية وهناك عدة طرق لتقييم دقة خوارزمية التجميع:
أولاً: المؤشرات الخارجية
تقارن هذه المؤشرات المجموعات التي تنتجها الخوارزمية ببعض الحقائق الأساسية المعروفة، وعلى سبيل المثال يمكن استخدام مؤشر (Rand) أو معامل (Jaccard) إذا كانت الحقيقة الأساسية معروفة.
ثانياً: المؤشرات الداخلية
تقيم هذه المؤشرات جودة التجميع دون الرجوع إلى أي معلومات خارجية، والمؤشر الداخلي الأكثر شيوعًا هو مؤشر (Dunn).
ثالثاً: الاستقرار
يقيس هذا مدى قوة التجميع للتغييرات الصغيرة في البيانات، وربما تكون خوارزمية التجميع تكون مستقرة وعند تطبيقها على عينات مختلفة من نفس البيانات فإنّها تنتج نفس النتائج.
رابعاً: الكفاءة
يقيس هذا مدى سرعة تقارب الخوارزمية مع التجميع الصحيح.
4. التغطية
يقيس هذا عدد الأنماط الممكنة في البيانات التي اكتشفتها الخوارزمية، ويمكن حساب ذلك بأخذ العدد الإجمالي للأنماط الممكنة وقسمته على عدد الأنماط التي اكتشفتها الخوارزمية، ونمط التغطية هو نوع من الأنماط المتسلسلة التي يتم العثور عليها من خلال البحث عن العناصر التي تميل إلى الظهور معًا بترتيب تسلسلي.
لتقييم نمط التغطية ينظر المحللون عادةً إلى شيئين هُما: الدعم والثقة، والدعم هو النسبة المئوية للمعاملات التي تحتوي على النمط. الثقة هي النسبة المئوية للمعاملات، والتي تحتوي على النمط مقسومة على عدد المعاملات التي تحتوي على العنصر الأول في النمط.
وإذا كان دعم هذا النمط (0.1%) فهذا يعني أنّ (0.1%) من جميع المعاملات تحتوي على النمط وإذا كانت ثقة هذا النمط (80%) فهذا يعني أنّ (80%) من المعاملات التي تحتوي على العنصر (A) تحتوي أيضًا على العنصر (B)، وبشكل عام تشير قيمة الدعم والثقة الأعلى إلى نمط أقوى، ومع ذلك يجب على المحللين الإنتباه لتجنب الإفراط في التخصيص وهو عندما يتم العثور على نمط خاص جدًا بالبيانات ولن يكون قابلاً للتعميم على مجموعات البيانات الأخرى.
5. البحث البصري
ربما تكون هذه هي الطريقة الأكثر شيوعًا، حيث ينظر عالم البيانات ببساطة إلى الأنماط ليرى ما إذا كانت منطقية أم لا وفي البحث البصري يتم رسم البيانات بتنسيق رسومي ويتم ملاحظة النمط، وتُستخدم هذه الطريقة عندما لا تكون البيانات كبيرة جدًا ويمكن رسمها بسهولة.
يتم استخدامه أيضًا عندما تكون البيانات فئوية بطبيعتها والبحث البصري هو طريقة لتقييم الأنماط في عملية التنقيب عن البيانات حيث يتم فحص البيانات بصريًا بحثًا عن الأنماط، كما يمكن القيام بذلك من خلال النظر إلى الرسم البياني للبيانات أو بالنظر إلى البيانات الأولية نفسها، وغالبًا ما تستخدم هذه الطريقة للعثور على القيم المتطرفة أو الأنماط غير العادية.