للعثور على مخرجات رقمية يتم اعتماد التنبؤ، كما تحتوي مجموعة بيانات التدريب على المدخلات وقيم الإخراج الرقمية ووفقًا لمجموعة بيانات المتوفرة تُنشئ الخوارزمية نموذجًا أو متنبئًا.
ما هي خوارزمية التنبؤ في التنقيب عن البيانات
الهدف الرئيسي من التنقيب في البيانات هو العثور على ارتباطات وأنماط صحيحة ومفيدة وسهلة الفهم في البيانات الموجودة ويمكن أن يحقق تنقيب البيانات هذا الهدف من خلال النمذجة إمّا بطبيعتها التنبؤية أو الوصفية، وتقنيات التنقيب عن البيانات لها تطبيقات كثيرة في علم البيانات ويتم استخدامها للعثور على أنواع متنوعة من الأساليب.
عندما يتم توفير بيانات جديدة يجب أن يجد النموذج ناتجًا رقميًا، وهذا النهج على عكس التصنيف لا يحتوي على تصنيف للفئة ويتنبأ النموذج بوظيفة ذات قيمة مستمرة أو قيمة مرتبة، وفي معظم الحالات يتم استخدام الانحدار لعمل تنبؤات ويُعد تحضير البيانات للتنبؤ التحدي الأكثر إلحاحًا، بحيث تشارك الأنشطة التالية في إعداد البيانات للتنبؤ بها:
- تنظيف البيانات: تتضمن بيانات التنظيف تقليل الضوضاء وتحسين القيم الضائعة، بحيث تعمل تقنيات التنظيف على إزالة الضوضاء ويتم حل مشكلة القيم الضائعة عن طريق استبدال القيمة الضائعة بالقيمة الأكثر تكرارًا لتلك الخاصية.
- تحليل الصلة: قد تكون السمات غير ذات الصلة موجودة أيضًا في قاعدة البيانات، حيث يتم استخدام طريقة تحليل الارتباط لتحديد ما إذا كانت السمتان متصلتان أم لا.
- تحويل البيانات وخفضها: يمكن استخدام أي من الطرق لتحويل البيانات.
- التسوية: تستخدم التسوية لتحويل البيانات، والتسوية هي عملية قياس جميع القيم لسمة معينة بحيث تقع ضمن نطاق ضيق وعند استخدام الشبكات العصبية أو الأساليب التي تتطلب قياسات في عملية التعلم ليتم إجراء التسوية.
- التعميم: يمكن أيضًا تعديل البيانات من خلال تطبيق فكرة أعلى عليها، ويمكن استخدام مفهوم التسلسل الهرمي لهذا الغرض، وتشمل تقنيات تقليل البيانات الأخرى معالجة الكميات والتجميع وتحليل الرسم البياني والتكتل.