اقرأ في هذا المقال
- ما هي خوارزمية التصنيف
- ما هي خوارزمية التنبؤ
- الفرق بين خوارزمية التنبؤ وخوارزمية التصنيف
- شرح الاختلافات بين خوارزمية التصنيف وخوارزمية التنبؤ
هناك نوعان من خوارزمية التنقيب في البيانات التي يمكن استخدامها للنماذج التي تصف فئة الأهمية أو لتقدير توليد البيانات المتوقعة والنوعان من مناطق التنقيب في البيانات أحدهما هما التصنيف والآخر هو التنبؤ، والتصنيف والتنبؤ في عملية التنقيب عن البيانات هما النوعان المرتبطان باستخراج البيانات، والبيانات ذات صلة بمعظم مؤسسات الأعمال لتوسيع مكاسبها المالية وفهم الصناعات.
ما هي خوارزمية التصنيف
التصنيف: هي عملية العثور على نموذج جيد يصف فئات البيانات أو المفاهيم والغرض من التصنيف هو التنبؤ بفئة الكائنات التي يكون تصنيفها غير معروف، كما يمكن التفكير في التصنيف على أنّه تصنيف للبيانات الجديدة الواردة بناءً على الافتراضات الحالية أو السابقة التي يتم وضعها والبيانات التي تتوفر بالفعل معنا.
التصنيف هو تحديد الفئة أو تسمية الفئة لملاحظة جديدة، حيث يتم استخدام مجموعة من البيانات كبيانات أولية ويتم إعطاء مجموعة بيانات الإدخال والمخرجات المقابلة للخوارزمية، لذلك تتضمن مجموعة البيانات الأولية بيانات الإدخال وتسميات الفصل المرتبطة بها، وباستخدام مجموعة البيانات الأولية تشتق الخوارزمية نموذجًا أو مصنفًا.
يمكن أن يكون النموذج المشتق عبارة عن شجرة قرار أو صيغة رياضية أو شبكة عصبونية تلافيفية، حيث في التصنيف عندما يتم إعطاء بيانات غير مسماة للنموذج، يجب أن يجد الفئة التي ينتمي إليها والبيانات الجديدة المقدمة إلى النموذج هي مجموعة بيانات الاختبار.
التصنيف هو عملية تصنيف السجل وأحد الأمثلة البسيطة على التصنيف هو التحقق مما إذا كانت السماء تمطر أم لا ويمكن أن تكون الإجابة بنعم أو لا، لذلك هناك عدد معين من الخيارات وفي بعض الأحيان يمكن أن يكون هناك أكثر من فئتين لتصنيفهما وهذا ما يسمى التصنيف متعدد الطبقات.
كيفية عمل خوارزمية التصنيف
أولاً: تطوير المصنف أو إنشاء النموذج
هذا المستوى هو مرحلة التعلم أو عملية التعلم، وتقوم خوارزميات التصنيف ببناء المصنف في هذه المرحلة ويتم إنشاء المصنف من مجموعة تدريب تتكون من سجلات قواعد البيانات وأسماء الفئات المقابلة لها، ويشار إلى كل فئة تشكل مجموعة التدريب على أنها فئة وقد نشير أيضًا إلى هذه السجلات كعينات أو كائنات أو نقاط بيانات.
ثانياً: تطبيق العينات على التصنيف
العينات تستخدم للتصنيف في هذا المستوى، حيث يتم استخدام بيانات الاختبار لتقدير دقة خوارزمية التصنيف وإذا تم اعتبار الاتساق كافياً، يمكن توسيع قواعد التصنيف لتشمل سجلات البيانات الجديدة ويشمل:
- تحليل القابلية: تحليل القابلية مفيد للغاية في مراقبة وسائل التواصل الاجتماعي، حيث يمكن استخدامه لاستخراج رؤى وسائل التواصل الاجتماعي، ويمكن بناء نماذج لتحليل القابلية لقراءة الكلمات التي بها أخطاء إملائية وتحليلها باستخدام خوارزميات التعلم الآلي المتقدمة وتوفر النماذج المدربة الدقيقة نتائج دقيقة باستمرار وتؤدي إلى جزء بسيط من الوقت.
- تصنيف الوثيقة: يمكن استخدام تصنيف الوثيقة لتنظيم الوثائق إلى أقسام حسب المحتوى، ويشير تصنيف الوثيقة إلى تصنيف النص ويمكن تصنيف الكلمات في الوثيقة بأكملها وبمساعدة خوارزميات تصنيف التعلم الآلي يمكن تنفيذها تلقائيًا.
- تصنيف الصورة: يستخدم تصنيف الصور للفئات المدربة للصورة، حيث يمكن أن تكون هذه التسمية التوضيحية للصورة أو قيمة إحصائية أو موضوع ويمكن تمييز الصور لتدريب النموذج على الفئات ذات الصلة من خلال تطبيق خوارزميات التعلم الخاضعة للإشراف.
- تصنيف التعلم الآلي: يستخدم قواعد الخوارزمية التي يمكن إثباتها إحصائيًا لتنفيذ المهام التحليلية التي قد تستغرق مئات الساعات الإضافية لأداء البشر.
ثالثاً: خطوات عملية تصنيف البيانات
- إنشاء أهداف تصنيف البيانات والاستراتيجية وسير العمل وبنية تصنيف البيانات.
- تصنيف التفاصيل السرية التي نقوم بتخزينها.
- استخدام العلامات من خلال تسمية البيانات.
- لتحسين الحماية واستخدم التأثيرات.
- البيانات معقدة والطريقة المستمرة هي تصنيف.
ما هي خوارزمية التنبؤ
يمكن التفكير في أنّ التنبؤ يشبه شيئًا قد يقع في المستقبل، ومثل ذلك في التنبؤ يتم تحديد أو توقع البيانات المفقودة أو غير المتاحة لملاحظة جديدة بناءً على البيانات السابقة، والتي تكون متوفرة وعلى أساس الافتراضات المستقبلية في التنبؤ الناتج هو قيمة مستمرة.
عندما يتم تقديم المعلومات الجديدة يجب أن يكتشف النموذج ناتجًا رقميًا، وعلى الرغم من التصنيف فإنّ هذا الإجراء لا يحتوي على تسمية أو ملاحظات للفئة ويقوم النموذج بتقدير القيمة الحالية أو قيمة الأمر، ويستخدم الانحدار (النمو) في معظم الحالات للتنبؤ:
- لتحديد العناصر المفقودة أو غير المعروفة في ورقة البيانات.
- يتم بناء نموذج التصنيف للتنبؤ بالنتيجة.
- لا يعتمد على تسمية الفئة.
- يتم عمل التنبؤات باستخدام كل من نماذج الانحدار والتصنيف.
الفرق بين خوارزمية التنبؤ وخوارزمية التصنيف
الرقم | خوارزمية التنبؤ | خوارزمية التصنيف |
1 | يتعلق التوقع بالتنبؤ بعنصر مفقود أو غير معروف (قيمة مستمرة) لمجموعة البيانات. | يتعلق التصنيف بتحديد فئة (أو تصنيف) (فئوي) لعنصر في مجموعة بيانات. |
2 | يمكن التفكير في التنبؤ على أنّه توقع العلاج الصحيح لمرض معين لفرد ما. | في حين أن تجميع المرضى بناءً على سجلاتهم الطبية يمكن اعتباره تصنيفًا. |
3 | النموذج المستخدم للتنبؤ بالقيمة غير المعروفة يسمى “المتنبئ”. | النموذج المستخدم لتصنيف القيمة غير المعروفة يسمى “المصنف”. |
4 | يتم إنشاء المتنبئ من مجموعة تدريب وتشير دقته إلى مدى نجاحه في تقدير قيمة البيانات الجديدة. | يتم إنشاء المصنف أيضًا من مجموعة تدريب تتكون من سجلات قواعد البيانات وأسماء الفصول المقابلة لها. |
شرح الاختلافات بين خوارزمية التصنيف وخوارزمية التنبؤ
- الدقة: حيث يمكن الإشارة إلى دقة المصنف على أنّها قدرة المصنف على التنبؤ بتسمية الفئة بشكل صحيح ويمكن الإشارة إلى دقة المتنبئ بمدى قدرة متنبئ معين على تقدير القيمة غير المعروفة.
- السرعة: تعتمد سرعة الطريقة على التكلفة الحسابية لتوليد واستخدام المصنف أو المتنبئ.
- المتانة: هي القدرة على عمل تنبؤات أو تصنيفات صحيحة وفي سياق قوة استخراج البيانات هي قدرة المصنف أو المتنبئ على عمل تنبؤات صحيحة من البيانات غير المعروفة الواردة.
- قابلية التوسع: تشير قابلية التوسع إلى زيادة أو نقصان في أداء المصنف أو المتنبئ بناءً على البيانات المحددة.
- التفسير: يمكن الإشارة إلى القابلية للتفسير على أنّها مدى سهولة فهمنا للمنطق الكامن وراء التنبؤات أو التصنيف الذي أجراه المتنبئ أو المصنف.
إنّ التصنيف والتنبؤ هُما طريقتان رئيسيتان تستخدمان لعملية التنقيب عن البيانات، حيث يم استخدام هاتين الطريقتين لتحليل البيانات ولاستكشاف المزيد حول البيانات غير المعروفة، والتصنيف والتنبؤ هما شكلان من أشكال التنقيب في البيانات التي يمكن اعتمادها لتجريد النماذج التي تصف فئات البيانات المهمة أو لتوقع اتجاه البيانات في المستقبل.