تُحدد عملية التنقيب عن البيانات إمتلاك المعرفة التي تم التنقيب عنها من كميات هائلة من البيانات، حيث يتم اعتماد التنقيب عن البيانات بشكل عام في الأماكن التي يتم فيها تخزين كمية هائلة من البيانات ومعالجتها، وعلى سبيل المثال يستخدم النظام المصرفي التنقيب عن البيانات لتوفير كميات هائلة من البيانات التي تتم معالجتها باستمرار.
أنواع البيانات التي يمكن التنقيب عنها
1- البيانات المخزنة في قاعدة البيانات
تسمى قاعدة البيانات أيضًا بنظام إدارة قواعد البيانات (DBMS)، حيث يقوم كل نظام (DBMS) بتخزين البيانات المرتبطة ببعضها البعض بطريقة أو بأخرى، كما أنّ لديها مجموعة من البرامج التي تستخدم لإدارة البيانات وتسهيل الحصول عليها وتخدم هذه البرامج العديد من الأغراض بما في ذلك تحديد بنية قاعدة البيانات، والتأكد من أنّ المعلومات المخزنة تظل آمنة ومتسقة وإدارة أنواع مختلفة من الوصول إلى البيانات مثل: المشاركة والموزعة والمتزامنة.
تتضمن قاعدة البيانات المترابطة على جداول لها أسماء وسمات مختلفة ويمكنها حفظ صفوف أو سجلات مجموعات البيانات الكبيرة وكل سجل مخزّن في جدول له مفتاح فريد، حيث يتم إنشاء نموذج علاقة الكيانات لتوفير تمثيل لقاعدة بيانات مترابطة تتميز بالكيانات والعلاقات الموجودة بينها.
تمثل كل مجموعة في جدول مترابط كائنًا تم تحديده بواسطة مفتاح فريد ويتم وصفه بواسطة مجموعة من قيم السمات، حيث غالبًا ما يتم إنشاء نموذج البيانات الدلالية، مثل: نموذج بيانات علاقة الكيان (ER) لقواعد البيانات المترابطة ويُعتبر نموذج بيانات التقارير الإلكترونية قاعدة البيانات كمجموعة من الكيانات وعلاقاتها.
2- بيانات مستودعات البيانات
يُعد مستودع البيانات بأنّه مخزن للبيانات التي تم جمعها من موارد متنوعة ويتم حفظها في إطار مخطط موحد بحيث تتوفر عادةً في مكان واحد، حيث يتم تكوين مستودعات البيانات خلال عملية تنظيف البيانات وتكامل البيانات وتعديل البيانات وتحميل البيانات والتطوير الدوري للبيانات.
يتم تخزين البيانات لتوفير المعلومات من منظور زمني (على سبيل المثال من السنوات الخمس إلى العشر الماضية) ويتم تلخيصها عادةً، كما أنه يتم تصميم مستودع البيانات بواسطة بنية قاعدة بيانات متعددة الأبعاد، حيث يتوافق كل بُعد مع سمة أو مجموعة من السمات في المخطط وتخزن كل خلية قيمة بعض المقاييس الإجمالية مثل العدد أو مبلغ المبيعات.
قد يكون الهيكل المادي الفعلي لمستودع البيانات عبارة عن مخزن بيانات ارتباط أو مكعب بيانات متعدد الأبعاد، ويوفر مكعب البيانات عرضًا متعدد الأبعاد للبيانات ويسمح بالحساب المسبق والوصول السريع إلى البيانات الملخصة.
3- بيانات المعاملات
تقوم قاعدة بيانات المعاملات بتخزين السجلات التي يتم تسجيلها على أنّها معاملات، حيث تشمل هذه المعاملات حجز الرحلات وشراء العملاء والنقر على موقع ويب وغير ذلك، وكل سجل معاملة له معرّف فريد وكما يسرد جميع العناصر التي جعلتها معاملة.
4- أنواع أخرى من البيانات
هناك الكثير من أنواع البيانات الأخرى المعروفة أيضًا ببنيتها ومعانيها الدلالية وتعدد استخداماتها، حيث يتم استخدامها في الكثير من التطبيقات، ومن أنواع البيانات هذه تدفقات البيانات وبيانات التصميم الهندسي وبيانات التسلسل وبيانات الرسم البياني والبيانات المكانية وبيانات الوسائط المتعددة.
في عملية التنقيب عن البيانات يتم النظر في أنماط البيانات المخفية وفقًا للفئات المتعددة في جزء من البيانات المفيدة، حيث يتم تجميع هذه البيانات في منطقة تشمل مستودعات البيانات لتحليلها، ويتم تنفيذ خوارزميات التنقيب عن البيانات وتسهل هذه البيانات في اتخاذ قرارات فعالة تقلل من القيمة وتزيد من الإيرادات.