إنّ التنقيب في البيانات يبحث عن أنماط في مخازن البيانات الضخمة، حيث تقدم هذه العملية طرقًا مفيدة وبالتالي يمكن التوصل إلى استنتاجات حول البيانات، كما يؤدي هذا أيضًا إلى إنشاء معلومات جديدة حول البيانات التي نمتلكها بالفعل وتتضمن الأساليب أنماط التتبع والتصنيف والارتباط والكشف الخارجي والتكتل والانحدار والتنبؤ ومن السهل التعرف على الأنماط، حيث يمكن أن يكون هناك تغيير مفاجئ في البيانات المقدمة، ولقد تم جمع البيانات وتصنيفها بناءً على أقسام مختلفة لتحليلها مع الفئات ويتم جمع البيانات بناءً على أوجه التشابه بين البيانات.
طرق عملية التنقيب عن البيانات المختلفة
1. الطرق المنظمة Association
يتم استخدامه لإيجاد ارتباط بين عنصرين أو أكثر من خلال تحديد النمط المخفي في مجموعة البيانات، وبالتالي يسمى أيضًا “تحليل العلاقة” وتستخدم هذه الطريقة في تحليل سلة السوق للتنبؤ بسلوك العميل، هناك نوعان من قواعد الرابطة:
- قاعدة الاقتران أحادي البعد: حيث تحتوي هذه القواعد على سمة واحدة تتكرر.
- قاعدة الاقتران متعدد الأبعاد: بحيث تحتوي هذه القواعد على سمات متعددة تتكرر.
2. التصنيف
تُستخدم طريقة التنقيب عن البيانات هذه لتمييز العناصر في مجموعات البيانات إلى فئات أو مجموعات، ويساعد على التنبؤ بسلوك الكيانات داخل المجموعة بدقة، وعلى سبيل المثال تستخدم شركة مصرفية لتحديد المتقدمين للحصول على قروض بمخاطر ائتمانية منخفضة أو متوسطة أو عالية، وبالمثل يقوم باحث طبي بتحليل بيانات السرطان للتنبؤ بالدواء الذي يجب وصفه للمريض، حيث إنّها عملية من خطوتين:
- خطوة التعلم (مرحلة التدريب): حيث في هذا تقوم خوارزمية التصنيف ببناء المصنف من خلال تحليل مجموعة التدريب.
- خطوة التصنيف: حيث تُستخدم بيانات الاختبار لتقدير دقة قواعد التصنيف.
3. طريقة التحليل العنقودي
يتشابه التجميع تقريبًا مع التصنيف ولكن في هذه المجموعة يتم إجراؤها اعتمادًا على أوجه التشابه بين عناصر البيانات، حيث أنّ المجموعات المختلفة لها كائنات غير متشابهة أو غير ذات صلة، كما يُطلق عليها أيضًا “تقسيم البيانات” لأنها تقسم مجموعات البيانات الضخمة إلى مجموعات وفقًا لأوجه التشابه، ويتم استخدام طرق التجميع المختلفة:
- طرق التجميع الهرمي.
- الطرق المستندة إلى الشبكة.
- طرق التقسيم.
- الطرق المستندة إلى النموذج.
- الطرق المعتمدة على الكثافة.
4. التنبؤ
تُستخدم هذه الطريقة للتنبؤ بالمستقبل بناءً على الاتجاهات أو مجموعة البيانات السابقة والحالية ويستخدم التنبؤ في الغالب للجمع بين طرق التنقيب الأخرى مثل: التصنيف ومطابقة الأنماط وتحليل الاتجاه والعلاقة، وعلى سبيل المثال إذا كان مدير المبيعات يرغب في توقع مقدار الإيرادات التي سيولدها كل عنصر بناءً على بيانات المبيعات السابقة، ويصمم دالة ذات قيمة مستمرة تشير إلى قيم البيانات الرقمية المفقودة.
5. الأنماط المتسلسلة أو تتبع الأنماط
تُستخدم هذه الطريقة لتحديد الأنماط التي تحدث بشكل متكرر خلال فترة زمنية معينة، وعلى سبيل المثال يرى مدير مبيعات شركة ملابس أن مبيعات السترات قد زادت قبل موسم الشتاء مباشرة.
6. أشجار القرار
شجرة القرار هي طريقة شجرة (كما يوحي اسمها)، حيث تمثل كل كتلة داخلية اختبارًا على السمة والفرع يدل على نتيجة الكشف، والعقد الطرفية تحمل تسمية الفئة والعقدة العليا هي العقدة الجذرية والتي تحتوي على سؤال بسيط يحتوي على إجابتين أو أكثر، وفقًا لذلك تنمو الشجرة ويتم إنشاء مخطط انسيابي مثل الهيكل، وفي هذا القرار يتم تصنف المواطنين حسب طريقة الشجرة الذين تقل أعمارهم عن (18) عامًا أو أكبر من (18) عامًا، وهذا من شأنه أن يساعدهم في تقرير ما إذا كان يجب إصدار الترخيص لمدينة معينة أم لا.
7. التحليل الخارجي أو تحليل الاختلافات
تخصص هذه الطريقة عناصر البيانات التي لا تتشابه مع النمط المحتمل أو السلوك المحتمل، حيث تُعتبر عناصر البيانات غير المتوقعة هذه القيم المتطرفة أو الضوضاء، وكما أنّها مفيدة في العديد من المجالات مثل: الكشف عن التزوير على بطاقات الائتمان واكتشاف التسلل واكتشاف الأخطاء وما إلى ذلك، وهذا ما يسمى أيضًا “التنقيب الخارجي”.
أمّا التحليل العنقودي هو عملية تحديد المجموعات والعناقيد في البيانات، لذلك فإنّ درجة الارتباط بين كائنين تكون عالية إذا كانا في نفس المجموعة، وبالمثل فإنّ الارتباط يكون منخفضًا إذا لم يحدث ذلك ويمكن للمرء إنشاء ملف تعريف العميل نتيجةً لهذا التحليل.
الكتلة هي مجموعة من عناصر البيانات التي يمكن مقارنتها مع بعضها البعض داخل الكتلة، وهذا يشير إلى الأشياء قابلة للمقارنة في مجموعتهم، ومع ذلك فهم مختلفون عن بعضهم البعض وبالإضافة إلى ذلك فإنّه يوضح ما إذا كانت ليست متشابهة أو لا علاقة لها بكائنات في مجموعات أو مجموعات أخرى.
8. الشبكة العصبونية التلافيفية
تعتمد هذه الطريقة أو النموذج على الشبكات العصبونية التلافيفية، حيث إنّها مجموعة من الخلايا العصبية مثل وحدات المعالجة ذات الوصلات الموزونة بينها، كما يتم استخدامها لنمذجة العلاقة بين المدخلات والمخرجات ويتم استخدامها للتصنيف وتحليل الانحدار ومعالجة البيانات وما إلى ذلك، بحيث تعمل هذه التقنية على ثلاث ركائز:
- النموذج
- خوارزمية التعلم خاضعة للإشراف أو غير خاضعة للإشراف
- وظيفة التنشيط
هناك العديد من الطرق المستخدمة في التنقيب عن البيانات ولكن الخطوة الحاسمة هي اختيار النموذج المناسب منها وفقًا للعمل أو بيان المشكلة، بحيث تساعد هذه الأساليب في التنبؤ بالمستقبل ثم اتخاذ القرارات وفقًا لذلك وتساعد هذه أيضًا في تحليل مجالات السوق وزيادة إيرادات الشركة.