ما هي بنية نظام التنقيب عن البيانات

اقرأ في هذا المقال


إنّ التنقيب عن البيانات هو عملية لإيجاد واستكشاف الأنماط الأساسية أو ذات المستوى المتقدم في مجموعة معقدة من مجموعات البيانات الكبيرة التي تتضمن الأساليب الموضوعة عند تقاطع الإحصائيات والتعلم الآلي وأنظمة قواعد البيانات، كما يمكن أن يكون مجالًا متعدد التخصصات للإحصاء وعلوم الكمبيوتر، حيث يكون الهدف هو استخراج المعلومات باستخدام الأساليب والتقنيات الذكية من مجموعة معينة من البيانات من خلال الاستخراج وبالتالي تحويل البيانات.

ما هي عملية التنقيب عن البيانات

عملية التنقيب عن البيانات: هو تقنية للحصول على المعرفة المثيرة للاهتمام من مجموعة من كميات ضخمة من البيانات المخزنة في العديد من مصادر البيانات، مثل: أنظمة الملفات ومستودعات البيانات وقواعد البيانات وهو طريقة مهمة حيث يتم استخراج معلومات غير معروفة سابقًا، ويحتمل أن تكون مفيدة من الكمية الهائلة من البيانات وتتضمن عملية التنقيب عن البيانات عدة مكونات وتشكل هذه المكونات “بنية نظام التنقيب عن البيانات”.

المكونات الأساسية لبنية نظام التنقيب عن البيانات

1. مصادر البيانات

مجموعة كبيرة ومتنوعة من المستندات الحالية مثل: مستودع البيانات أو قاعدة البيانات أو شبكة الاتصالات العالمية أو المعروفة باسم شبكة الويب العالمية لتصبح مصادر البيانات الفعلية، وفي معظم الأحيان يمكن أيضًا أن تكون الحالة أن البيانات غير موجودة في أي من هذه المصادر الذهبية ولكن فقط في شكل ملفات نصية أو ملفات عادية أو ملفات متسلسلة أو جداول بيانات، ثم تحتاج المعلومات إلى المعالجة بشكل كبير جدًا.

بنفس الطريقة التي تتم بها المعالجة على البيانات الواردة من المصادر الذهبية، يتم الحصول على الجزء الأكبر من البيانات اليوم من الإنترنت أو شبكة الويب العالمية، حيث أنّ كل شيء موجود على الإنترنت اليوم عبارة عن بيانات بشكل أو بآخر تشكل شكلاً من أشكال وحدات تخزين المعلومات.

قبل معالجة البيانات مسبقًا تتضمن العمليات المختلفة التي تمر من خلالها تنقية البيانات والتكامل والاختيار قبل أن يتم تمرير المعلومات في النهاية إلى قاعدة البيانات أو أي من خادم مستودع بيانات المؤسسة (EDW)، حيث أنّ التحدي الرئيسي الذي يكمن في بعض الأحيان مع هذه المجموعة من البيانات هو مصادر مختلفة ومجموعة واسعة من تنسيقات البيانات، والتي تشكل مكونات البيانات.

لذلك لا يمكن استخدام البيانات مباشرة للمعالجة في حالتها (naive Bayes) ولكن معالجتها وتحويلها وصنعها بطريقة أكثر قابلية للاستخدام، وبهذه الطريقة يتم أيضًا ضمان موثوقية البيانات واكتمالها وتتضمن الخطوة الأساسية جمع البيانات وتنظيفها وتكاملها ونشر البيانات ذات الصلة فقط، ويشكل كل هذا النشاط جزءًا من مجموعة منفصلة من الأدوات والتقنيات.

2. خادم مستودع البيانات أو قاعدة البيانات

خادم قاعدة البيانات هو المساحة الفعلية، حيث يتم احتواء البيانات بمجرد استلامها من مصادر البيانات المختلفة، ويحتوي الخادم على مجموعة البيانات الفعلية التي تصبح جاهزة للمعالجة، وبالتالي يدير الخادم استرداد البيانات وكل هذا النشاط يعتمد على طلب التنقيب عن البيانات للشخص.

3. محرك تنقيب البيانات

في التنقيب عن البيانات يشكل المحرك المكون الأساسي وهو الجزء الأكثر حيوية أو القوة الدافعة التي تتعامل مع جميع الطلبات وتديرها وتستخدم لاحتواء عدة وحدات، حيث يشمل عدد الوحدات الموجودة مهام التنقيب مثل: تقنية التصنيف وتقنية الارتباط وتقنية الانحدار والتوصيف والتنبؤ والتكتل وتحليل السلاسل الزمنية، و(naive Bayes) وآلات ناقلات الدعم وطرق التجميع وتقنيات التعزيز والتعبئة والغابات العشوائية (random forests) وأشجار القرار.

4. وحدات تقييم الأنماط

تقنية تقييم الوحدات هذه مسؤولة بشكل أساسي عن قياس مدى اهتمام كل تلك الأنماط المستخدمة لحساب المستوى الأساسي لقيمة العتبة وتستخدم للتفاعل مع محرك التنقيب عن البيانات للتنسيق في تقييم الوحدات الأخرى، والغرض الرئيسي من هذا المكون هو البحث عن جميع الأنماط الشيقة والقابلة للاستخدام التي يمكن أن تجعل البيانات ذات جودة أفضل نسبيًا والبحث عنها.

يستخدم هذا الجزء عادةً مقاييس الحصة التي تتعاون مع وحدات التنقيب عن البيانات لتركيز البحث على أنماط رائعة، كما قد تستخدم حد الحصة لتصفية الأنماط المكتشفة، ومن ناحية أخرى قد يتم تنسيق نموذج تقييم النمط مع وحدة التنقيب واعتمادًا على تنفيذ تقنيات التنقيب في البيانات المستخدمة، ومن أجل التنقيب الفعّال في البيانات يُقترح بشكل غير طبيعي دفع تقييم حصة النمط قدر الإمكان في إجراءات التنقيب لحصر البحث في الأنماط الرائعة فقط.

5. واجهة المستخدم الرسومية

عندما يتم توصيل البيانات بالمحركات بين تقييم الأنماط المختلفة للوحدات النمطية، يصبح من الضروري التفاعل مع المكونات المختلفة الموجودة وجعلها أكثر سهولة في الاستخدام، بحيث يمكن تحقيق الاستخدام الفعال لجميع المكونات الحالية وبالتالي تنشأ الحاجة إلى واجهة مستخدم تُعرف باسم “واجهة المستخدم الرسومية”.

تستخدم هذه الواجهة لإنشاء إحساس بالاتصال بين المستخدم ونظام التنقيب عن البيانات وبالتالي مساعدة المستخدمين على الوصول إلى النظام واستخدامه بكفاءة وسهولة لإبقائهم خاليين من أي تعقيد ينشأ في العملية وهذا شكل من أشكال الإزالة، حيث يتم عرض المكونات ذات الصلة فقط للمستخدمين.

وجميع التعقيدات والوظائف المسؤولة عن بناء النظام مخفية من أجل البساطة وكما أنّه عندما يقدم المستخدم استعلامًا تتفاعل الوحدة النمطية بعد ذلك مع المجموعة الكلية لنظام التنقيب عن البيانات؛ لإنتاج مخرجات ذات صلة تظهر بسهولة للمستخدم بطريقة أكثر قابلية للفهم.

6. قاعدة المعرفة

هذا هو المكون الذي يشكل الأساس لعملية التنقيب عن البيانات الشاملة لأنّه يساعد في توجيه البحث أو في تقييم مدى اهتمام الأنماط المتكونة، حيث تتكون قاعدة المعرفة هذه من معتقدات المستخدم والبيانات التي تم الحصول عليها من تجارب المستخدم والتي تساعد في عملية التنقيب عن البيانات، كما قد يحصل المحرك على مجموعة مدخلاته من قاعدة المعرفة التي تم إنشاؤها وبالتالي توفير نتائج أكثر كفاءة ودقة وموثوقية.

يُعد التنقيب عن البيانات أحد أهم التقنيات اليوم التي تتعامل مع إدارة البيانات ومعالجة البيانات والتي تشكل العمود الفقري لأي مؤسسة، حيث سيؤدي تحليل البيانات في أي منظمة إلى نتائج مثمرة وكل مكون من مكونات تقنية وبنية التنقيب عن البيانات له طريقته الخاصة في أداء المسؤوليات واستكمال التنقيب في البيانات بكفاءة.

قاعدة المعرفة مفيدة في عملية التنقيب عن البيانات بأكملها، وقد يكون من المفيد توجيه البحث أو تقييم حصة أنماط النتائج وقد تحتوي قاعدة المعرفة حتى على وجهات نظر المستخدم وبيانات من تجارب المستخدم، والتي قد تكون مفيدة في عملية التنقيب عن البيانات وقد يتلقى محرك التنقيب عن البيانات مدخلات من قاعدة المعرفة لجعل النتيجة أكثر دقة وموثوقية، كما تتفاعل وحدة تقييم النمط بانتظام مع قاعدة المعرفة للحصول على المدخلات وكذلك تحديثها.

المصدر: Introducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionFoundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: