أنواع مصادر البيانات في عملية التنقيب عن البيانات

اقرأ في هذا المقال


تعمل عملية التنقيب عن البيانات جنبًا إلى جنب مع التحليل التنبؤي وهو فئة من فئات العلوم الإحصائية تستخدم خوارزميات معقدة مصممة للعمل مع مجموعة خاصة من المشكلات، حيث يحدد التحليل التنبؤي أولاً الأنماط في كميات هائلة من البيانات والتي يعممها التنقيب عن البيانات للتنبؤات، كما يخدم التنقيب عن البيانات غرضًا فريدًا وهو التعرف على الأنماط في مجموعات البيانات لمجموعة من المشكلات التي تنتمي إلى مجال معين.

مصادر البيانات في عملية التنقيب عن البيانات

يوفر الإنترنت وينشئ كميات كبيرة من البيانات على أساس يومي، وقد تتم مراقبة البيانات من مصادر البيانات وعلى سبيل المثال لا الحصر وسائل التواصل الاجتماعي وموجزات الويب وتعليقات العملاء، وقواعد بيانات الشركة الداخلية ومخازن البيانات الخاصة وباستخدام الأدوات المناسبة، يمكن استخدام البيانات المستخرجة من مصادر البيانات لتوفير تحليل لمواضيع مختلفة.

قد تشير البيانات المستخرجة إلى أنماط الاضطرابات المحلية أو عادات أو أنماط العميل، ولم يتم تصميم محركات البحث النموذجية لتحليل نقاط بيانات متعددة في الوقت الفعلي، وعلاوةً على ذلك فإنّ استعلام محرك البحث يقتصر على مصطلح البحث الدقيق ويقتصر محرك البحث النموذجي على الاستعلام عن مواقع الويب المفهرسة، أي أنّ محركات البحث عادةً ما تقتصر على البحث في مصادر البيانات المنظمة.

حسب بعض الحسابات لا تتم فهرسة ما يقرب من سبعين بالمائة من صفحات الويب بواسطة محركات البحث، وقد تكون صفحات الويب غير المفهرسة، على سبيل المثال مخازن بيانات مملوكة ومواقع ويب خلف جدران الحماية أو أقسام تعليق على صفحة ويب، ووفقًا لذلك فإنّ البيانات التي يتم الحصول عليها عبر محركات البحث محدودة وغير مرغوب فيها لتحليل البيانات في الوقت الفعلي المحدد للتنقيب عن البيانات تلقائيًا.

وبالتالي مع استمرار زيادة الطلب على المعلومات في الوقت الفعلي هناك حاجة لمزيد من التحسينات في التنقيب عن البيانات وتقنيات البحث على الويب، ويفضل أن تكون هذه التحسينات قابلة للتطبيق على جميع تقنيات التنقيب عن البيانات في الوقت الفعلي والأنظمة الرقمية التي تستخدم هذه التقنيات.

أنواع مصادر البيانات في عملية التنقيب

1- الملفات المسطحة Flat Files

  • البيانات المخزنة في الملفات المسطحة ليس لها علاقة أو مسار فيما بينها مثل إذا تم تخزين قاعدة بيانات مترابطة في ملف ثابت فلن تكون هناك علاقات بين الجداول.
  • يتم تمثيل الملفات المسطحة بواسطة قاموس البيانات، وعلى سبيل المثال ملف (CSV).
  • يتم استخدامها في (Data Warehousing) لتخزين البيانات ويستخدم في نقل البيانات من وإلى الخادم.

2- قواعد البيانات المترابطة

  • يتم تعريف قاعدة البيانات المترابطة على أنّها مجموعة البيانات المنظمة في جداول بها صفوف وأعمدة.
  • المخطط المادي في قواعد البيانات المترابطة هو مخطط يحدد بنية الجداول.
  • المخطط المنطقي في قواعد البيانات المترابطة هو مخطط يحدد العلاقة بين الجداول.
  • واجهة التطبيق القابلة للبرمجة (API) القياسية لقاعدة البيانات المترابطة هي (SQL).
  • يتم تطبيقها في عملية استخراج البيانات ونموذج (ROLAP).

3- مستودع البيانات

  • يُعرّف مستودع البيانات بأنّه مجموعة بيانات متكاملة من مصادر متعددة من شأنها الاستفسار واتخاذ القرار.
  • هناك ثلاثة أنواع من مستودعات البيانات وهي مستودع بيانات المؤسسة و(Data Mart) و(Virtual Warehouse).
  • يمكن استخدام طريقتين لتحديث البيانات في (Datawarehouse)، هي النهج المستند إلى الاستعلام والنهج المستند إلى التحديث.
  • يتم استخدامها في عملية صنع القرار التجاري والتنقيب عن البيانات.

4- قواعد بيانات المعاملات

  • قواعد بيانات المعاملات عبارة عن مجموعة من البيانات المنظمة حسب الطوابع الزمنية والتاريخ وما إلى ذلك لتمثيل المعاملات في قواعد البيانات.
  • هذا النوع من قواعد البيانات لديه القدرة على التراجع عن العملية أو التراجع عنها عند عدم اكتمال المعاملة أو الالتزام بها.
  • نظام مرن للغاية، حيث يمكن للمستخدمين تعديل المعلومات دون تغيير أي معلومات حساسة.
  • يتبع خاصية (ACID) لـ (DBMS).
  • يتم استخدامها في البنوك والأنظمة الموزعة وقواعد البيانات.

5- قواعد بيانات الوسائط المتعددة

  • تتكون قواعد بيانات الوسائط المتعددة من الصوت والفيديو والصور والوسائط النصية.
  • يمكن تخزينها في قواعد بيانات كائنية التوجه.
  • يتم استخدامها لتخزين المعلومات المعقدة بتنسيقات محددة مسبقًا.
  • يتم استخدامها في المكتبات الرقمية والفيديو عند الطلب والأخبار عند الطلب وقاعدة البيانات الموسيقية.

6- قاعدة البيانات المكانية

  • تخزين المعلومات الجغرافية.
  • يخزن البيانات في شكل إحداثيات وطوبولوجيا وخطوط ومضلعات وما إلى ذلك.

7- قواعد بيانات السلاسل الزمنية

  • تحتوي قواعد بيانات السلاسل الزمنية على بيانات البورصة والأنشطة التي يسجلها المستخدم.
  • تتعامل مع مجموعة من الأرقام المفهرسة حسب الوقت والتاريخ وما إلى ذلك.
  • تتطلب تحليلاً في الوقت الفعلي.
  • يتم تطبيقها في (eXtremeDB) والجرافيت و(InfluxDB).

8- شبكة الويب العالمية WWW

  • إنّ شبكة الويب العالمية (WWW) عبارة عن مجموعة من المستندات والموارد مثل: الصوت والفيديو والنصوص وما إلى ذلك والتي يتم تحديدها بواسطة (URLs) من خلال متصفحات الويب وربطها بصفحات (HTML)، ويمكن الوصول إليها عبر شبكة الإنترنت.
  • إنّه أكثر المستودعات غير المتجانسة لأنّه يجمع البيانات من مصادر متعددة.
  • إنّه ديناميكي بطبيعته حيث أنّ حجم البيانات يتزايد ويتغير باستمرار.
  • يتم استخدامه في التسوق عبر الإنترنت والبحث عن وظيفة والبحث والدراسة.

9- البيانات الناتجة عن أدوات عملية التنقيب عن البيانات

قد يشتمل نظام التنقيب عن البيانات على وحدة تنقيب بيانات لنشر أدوات التنقيب عن البيانات، بحيث يمكن الإشارة إلى مستخرجي البيانات بالمستخرجين، وتشير أداة التنقيب عن البيانات إلى التطبيقات التي تراقب البيانات وتستخرجها من مواقع أو مصادر اهتمام يحددها المستخدم مثل مصدر البيانات.

أي عند النشر يقوم المستخرجون بالتنقيب عن البيانات من مصدر معين لتحليلها، وعلاوةً على ذلك حتى يتم إنهاؤها يتم الاحتفاظ بأجهزة التنقيب عن في مصدر البيانات لرصد أي تغييرات تطرأ على البيانات، حيث يتم تحليل تغييرات البيانات لمطابقتها مع الكلمات الرئيسية للاستعلام ويتم نقل البيانات إلى وحدة تحليل البيانات عندما يكون هناك تطابق.

في بعض الحالات قد تكون أدوات التنقيب عن البيانات روبوتات أو برامج، وقد يكون عدد أدوات التنقيب التي تم نشرها لمصدر بيانات ديناميكيًا، وفي تكوين واحد يزداد عدد برامج التنقيب عن البيانات التي تم نشرها لمصدر البيانات عندما يزداد النشاط على مصدر البيانات.

إنّ التنقيب عن البيانات أسلوب لأنماط التحقيق في البيانات التي تنتمي إلى منظورات معينة، حيث يساعد هذا في تصنيف البيانات إلى معلومات مفيدة، ثم يتم تجميع هذه المعلومات المفيدة إما لتخزينها في خوادم قواعد البيانات مثل مستودعات البيانات أو استخدامها في خوارزميات استخراج البيانات والتحليل للمساعدة في اتخاذ القرار.

المصدر: Data Science from Scratch: First Principles with Python by Joel Grus / 2nd EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionFoundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First Edition


شارك المقالة: