تُستخدم وظائف عملية التنقيب عن البيانات لتمثيل نوع الأنماط التي يجب الوصول إليها في مهام التنقيب عن البيانات، وبشكل عام يمكن تصنيف مهام التنقيب في البيانات إلى نوعين بما في ذلك الوصف والتنبؤ، حيث تحدد مهام التنقيب الوصفي السمات المشتركة للبيانات في قاعدة البيانات وتعمل مهام التنقيب التنبؤية على الاستدلال على المعلومات الحالية لتطوير التنبؤات.
وظائف عملية التنقيب عن البيانات المختلفة
تم تصميم مهام التنقيب عن البيانات لتكون شبه آلية أو آلية بالكامل وعلى مجموعات بيانات كبيرة للكشف عن أنماط مثل المجموعات الغير عادية أو المجموعات فوق البيانات، والتي تسمى اكتشاف الانحراف والتبعيات مثل: الارتباط والنمط التسلسلي وبمجرد الكشف عن الأنماط، يمكن اعتبارها بمثابة ملخص لبيانات الإدخال حيث يمكن إجراء الكثير من عمليات التحليل باستخدام التعلم الآلي والتحليلات التنبؤية.
قد تساعد خطوة التنقيب عن البيانات في تحديد مجموعات متعددة في البيانات التي يمكن لنظام دعم القرار استخدامها، وكما أنّ جمع البيانات وإعدادها وإعداد التقارير ليست جزءًا من التنقيب عن البيانات، وهناك الكثير من الالتباس بين التنقيب عن البيانات وتحليل البيانات، حيث تُستخدم وظائف التنقيب عن البيانات لتحديد الاتجاهات أو الارتباطات الواردة في أنشطة التنقيب عن البيانات.
يتم استخدام استخراج البيانات على نطاق واسع في العديد من المجالات أو القطاعات، كما يتم استخدامه للتنبؤ بالبيانات وتوصيفها ولكن الهدف النهائي في وظائف التنقيب عن البيانات هو مراقبة الاتجاهات المختلفة في التنقيب عن البيانات، وهناك العديد من وظائف التنقيب عن البيانات التي توفرها الأساليب المنظمة والعلمية.
بينما يتم استخدام تحليل البيانات لاختبار النماذج الإحصائية التي تناسب مجموعة البيانات ويستخدم التنقيب في البيانات التعلم الآلي والنماذج الرياضية والإحصائية لاكتشاف الأنماط المخفية في البيانات، وبالمقارنة يمكن تقسيم أنشطة التنقيب عن البيانات إلى فئتين:
- التنقيب عن البيانات الوصفية: يتضمن معرفة معينة لفهم ما يحدث داخل البيانات دون فكرة سابقة ويتم تمييز ميزات البيانات المشتركة في مجموعة البيانات وعلى سبيل المثال العد والمتوسط.
- التنقيب عن البيانات التنبؤية: يساعد المطورين على تقديم تعريفات غير مسماة للسمات ومع البيانات المتاحة أو التاريخية السابقة، ويمكن استخدام التنقيب عن البيانات لعمل تنبؤات حول مقاييس الأعمال الهامة بناءً على خطية البيانات، وعلى سبيل المثال التنبؤ بحجم العمل في الربع التالي بناءً على الأداء في الأرباع السابقة على مدار عدة سنوات أو بناءً على نتائج الفحوصات الطبية للمريض على أنّه يعاني من أي مرض معين.
ما هي مهام عملية التنقيب عن البيانات
1- توصيف البيانات
هو تلخيص للخصائص العامة لفئة كائن من البيانات، ويتم جمع البيانات المقابلة للفئة المحددة من قبل المستخدم بشكل عام بواسطة استعلام قاعدة البيانات ويمكن تقديم مخرجات توصيف البيانات في أشكال متعددة.
2- تمييز البيانات
هو مقارنة بين الخصائص العامة لكائنات بيانات الفئة المستهدفة مع الخصائص العامة للكائنات من فئة أو مجموعة من الفئات المتناقضة، ويمكن تمثيل الفئات الهدف والمتناقضة بواسطة المستخدم ويتم جلب كائنات البيانات المكافئة من خلال استعلامات قاعدة البيانات.
3- تحليل الارتباط
تحليل مجموعة العناصر التي تحدث بشكل عام معًا في مجموعة بيانات المعاملات، حيث هناك نوعان من المعلمات التي يتم استخدامها لتحديد قواعد الاقتران:
- يحدد مجموعة العناصر المشتركة في قاعدة البيانات.
- الثقة هي الاحتمال الشرطي لحدوث صنف في معاملة عند حدوث عنصر آخر.
4- التصنيف
التصنيف هو إجراء لاكتشاف نموذج يمثل ويميز فئات أو مفاهيم البيانات وبهدف التمكن من استخدام النموذج للتنبؤ بفئة الكائنات التي يكون تصنيفها مجهولاً، كما يتم إنشاء النموذج المشتق بناءً على تحليل مجموعة من بيانات التدريب (أي كائنات البيانات التي يكون تصنيف فئتها شائعًا).
5- التنبؤ
يحدد التنبؤ ببعض قيم البيانات غير المتاحة أو الاتجاهات المعلقة، كما يمكن توقع كائن بناءً على قيم سمات الكائن وقيم سمات الفئات ويمكن كذلك أن يكون تنبؤًا بقيم رقمية مفقودة أو اتجاهات زيادة أو نقصان في المعلومات المتعلقة بالوقت.
6- التجميع
إنّه مشابه للتصنيف ولكن الفئات غير محددة مسبقًا، حيث يتم تمثيل الفئات بسمات البيانات وإنّه تعلم غير واقع تحت الإشراف ويتم تجميع الكائنات وهذا يعتمد على مبدأ تعظيم التشابه داخل الطبقة أو تقليل التشابه داخل الطبقة.
7- التحليل الخارجي
القيم المتطرفة هي عناصر بيانات لا يمكن تجميعها في فئة أو مجموعة معينة وهذه هي كائنات البيانات التي لها سلوك متعدد من السلوك العام لكائنات البيانات الأخرى ويمكن أن يكون تحليل هذا النوع من البيانات ضروريًا لاستخراج المعرفة.
8- تحليل التطور
يحدد اتجاهات الكائنات التي يتغير سلوكها بمرور الوقت.