ما هو تنقيب البيانات الموزعة Distributed Data Mining

اقرأ في هذا المقال


مع نمو كمية البيانات التي يتم جمعها تتجه معظم الشركات والمؤسسات إلى التنقيب في البيانات لتحليلها، حيث يساعد التنقيب في البيانات على اكتشاف الاتجاهات التي تساعد بشكل أكبر في اتخاذ القرارات الصحيحة للشركة ونموها، كما يتم تطبيق طريقة التنقيب في البيانات على البيانات المكتسبة من أجل اشتقاق تنبؤات الوحدة وإيجاد اتجاهات مثيرة للاهتمام ويتم تخزين معظم البيانات في موقع واحد.

ما هو التنقيب عن البيانات الموزعة

تتضمن عملية التنقيب عن البيانات الموزعة استخراج مجموعات البيانات الموزعة المخزنة في قواعد بيانات محلية متعددة، حيث غالبًا ما يتم توزيع البيانات بين عدة قواعد بيانات ممّا يجعلها أكثر عرضة للمخاطر الأمنية، وبمساعدة تنقب البيانات الموزعة يمكن للمسؤولين إجراء تحليل البيانات وعمليات التنقيب بطريقة موزعة لاكتشاف المعرفة واستعمالها بكفاءة لعمليات الأعمال.

توفر الأنظمة متعددة العوامل (MAS) بنية لحل المشكلات الموزعة، حيث تركز خوارزميات التنقيب عن البيانات الموزعة (DDM) على فئة واحدة من مهام حل المشكلات الموزعة هذه أي تحليل ونمذجة البيانات الموزعة، وفي الوقت الحاضر هناك ضرورة بحاجة إلى تحويل هذه البيانات إلى معلومات ومعرفة مفيدة.

ويمكن استخدام المعرفة المكتسبة من البيانات لتطبيقات مثل: تحليل السوق والاحتفاظ بالعملاء ومراقبة الإنتاج، ويعد التنقيب عن البيانات مهمة حوسبة ضخمة تتعامل مع كمية هائلة من البيانات المخزنة في نظام مركزي أو موزع للتنقيب عن معلومات أو معرفة مفيدة.

تلعب الحوسبة الموزعة دورًا مهمًا في عملية التنقيب عن البيانات لعدة أسباب، حيث غالبًا ما يتطلب التنقيب عن البيانات كميات هائلة من الموارد في مساحة التخزين ووقت الحساب، ولجعل الأنظمة قابلة للتطوير من المهم تطوير آليات توزع عبء العمل بين عدة مواقع بطريقة مرنة، وغالبًا ما يتم توزيع البيانات بطبيعتها في عدة قواعد بيانات ممّا يجعل المعالجة المركزية لهذه البيانات غير فعالة للغاية وعرضة للمخاطر الأمنية، ويستكشف التنقيب عن البيانات الموزعة تقنيات كيفية تطبيق تنقيب البيانات بطريقة غير مركزية.

بنية تنقيب البيانات الموزعة DDM

غالبًا ما يتم توزيع البيانات بين عدة قواعد بيانات ممّا يجعلها أكثر عرضة للمخاطر الأمنية، وبمساعدة تنقيب البيانات الموزعة يمكن للمسؤولين إجراء تحليل البيانات وعمليات التنقيب بطريقة موزعة لاكتشاف المعرفة واستخدامها بكفاءة لعمليات الأعمال، وهذه البنية غير مدعومة من قبل تنقيب البيانات الموزعة لأنّها تفتقر إلى الاستخدام المناسب للموارد الموزعة، وتدعم وقت الاستجابة الطويل وتشتمل على خصائص خوارزمية تنقيب البيانات المركزية.

الحل الوحيد لذلك هو إعداد تطبيق موزع للمعالجة التي تتحكم فيها الموارد المحتملة والعوامل البشرية، حيث إذا نظرت إلى الصورة الصحيحة يقوم (DDM) بإجراء جميع عمليات التنقيب في البيانات على أساس الموارد المتاحة وأنواع العمليات، كما يختار الموقع للوصول إلى البيانات بناءً على إمكانات التخزين والحوسبة والاتصال ثم إجراء جميع العمليات مركزيًا.

ما هي عمليات التنقيب عن البيانات الموزعة

قبل أن تبدأ عملية التنقيب، يتم إعداد البيانات عن طريق اختيار المعلومات المناسبة والقضاء على البيانات المزعجة ودمج البيانات من قواعد بيانات متعددة، حيث تُعد تنقية البيانات والتكامل والحد والتحول والتنقيب وتقييم الأنماط وتمثيل المعرفة كلها مكونات لعملية التنقيب في البيانات، وأمّا العمليات المتضمنة في (DDM) هي:

1- تنظيف البيانات

تنظيف البيانات هو المبدأ الأساسي الذي يتم بموجبه حذف جميع البيانات المتطرفة أو غير المناسبة أو غير المنجزة من المجموعة، كما يزيل أي بيانات متطرفة غير مطلوبة للتحليل.

2- تكامل البيانات

كجزء من عملية تكامل البيانات يتم دمج جميع المعلومات التي تأتي من مجموعات بيانات مختلفة بما في ذلك قواعد البيانات أو مكعبات البيانات أو مستودعات البيانات أو الملفات لإجراء التحليل، كما تساعد هذه الخطوة في تحسين كفاءة وسرعة عملية استخراج البيانات.

3- تقليل البيانات

تساعد هذه التقنية في الفرز والحصول على البيانات ذات الصلة فقط من المجموعة لتحليلها، ويركز على تقليل عدد السمات وحجم البيانات الأصلي مع الحفاظ على السلامة.

4- تحويل البيانات

بالنسبة لعملية التنقيب في البيانات يتم تجميع البيانات وتحويلها هنا، ونتيجةً لذلك يتم تبسيط فهم وتحديد الاتجاهات في عملية التنقيب.

5- التنقيب في البيانات

في إطار عملية التنقيب في البيانات يبحث الخبراء عن أنماط جديدة ويحاولون جمع المعلومات من مجموعات البيانات الكبيرة للقيام بالتحليل وحل مشكلات الأعمال.

6- تقييم الأنماط

بناءً على مقاييس الاهتمام يتم تحديد بعض الأنماط المثيرة للاهتمام، وبعد تحديد الأنماط يتم ممارسة تقنيات تلخيص البيانات والتصور لتقييم البيانات وتسهيل فهمها على المستخدم.

7- تمثيل المعرفة

يتم تصور جميع المعلومات والبيانات المستخرجة في شكل تقارير ويتم تقديمها باستخدام أدوات تمثيل المعرفة للمستخدم.

أصناف خوارزميات التنقيب عن البيانات الموزعة

  • نظام متعدد العوامل: يتم استخدام خوارزمية النظام متعدد العوامل (MAS) في الغالب في الحالات التي تكون فيها هناك حاجة لمقارنة البيانات في العقد المختلفة، ويعتمد سلوك الوكلاء في نظام متعدد العوامل (MAS) كليًا على البيانات التي تم جمعها من المصادر الموزعة وهذه الآلية مفيدة لـ (DDM)، حيث أن جميع العوامل متطابقة وتتفاعل في بيئة مشتركة لحل المشكلات.
  • (Meta-Learning): يتم تطبيق خوارزمية (Meta-Learning) بواسطة نظام (JAM) وهي تقنية يتم فيها إنشاء المصنفات أو النماذج المحلية من مجموعات البيانات الموزعة، كما يتم استخدام هذه المصنفات لاحقًا لإنتاج مصنفات عالمية وفي الأساس في ظل هذه الخوارزمية يقوم (DDM) بإجراء تحليل جزئي في مواقع مختلفة، وإعادة توجيه نسخة مختصرة من التحليل إلى المواقع النظيرة لمزيد من التحليل.
  • الشبكة: تسمح هذه الخوارزمية للمؤسسات بتوزيع بيانات كثيفة الحوسبة بين الموارد البعيدة وبيانات التنقيب، حيث يتم تخزينها.

فوائد التنقيب عن البيانات الموزعة

في البداية اقتصر التنقيب عن البيانات على فرز مجموعات البيانات المركزية المخزنة في موقع واحد، ولكن مع تزايد استخدام البيانات تم إنشاء العديد من قواعد البيانات المترابطة وتوزيعها عبر شبكة كمبيوتر كبيرة، وتقنية التنقيب عن البيانات غير قادرة على التعامل مع مجموعات البيانات الموزعة، ونتيجةً لذلك تم تقديم مفهوم التنقيب عن البيانات الموزعة، وفيما يلي بعض فوائد التنقيب عن البيانات الموزعة:

  • هناك العديد من الشركات متعددة الجنسيات (MNCs) حيث يتم توزيع البيانات بطبيعتها، حيث يُعد إرسال جميع البيانات إلى موقع مركزي لاستخراج البيانات حلاً رائعًا، ولكن يمكن أن يكون عملية معتمدة على الوقت ومكلفة بسبب حجمها الكبير وفي هذه الحالة يُعد استخدام عملية التنقيب عن البيانات الموزعة هو الحل الأفضل.
  • يمكن لتنقيب البيانات الموزعة التعامل مع مجموعات البيانات الكبيرة التي تتجاوز قدرة التنقيب عن البيانات وبوتيرة أسرع لأنّها توزع عبء العمل بين المواقع المختلفة.
  • يتيح التنقيب عن البيانات الموزعة تنفيذ استعلامات متعددة في مواقع مختلفة في نفس الوقت، ممّا يؤدي إلى تحسين الأداء.
  • توفر هذه التقنية نتائج أسرع ممّا يساعد الشركات بشكل أكبر في تخطيط الاستراتيجيات وإدارة العمليات.
  • يساعد في إنشاء نماذج تحليلية وتقارير ثاقبة تساعد الشركات في اتخاذ قرارات أفضل.

المصدر: Foundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: