خوارزمية التنقيب عن البيانات المتوازية Parallel Data Mining

اقرأ في هذا المقال


التنقيب عن البيانات هو التحليل الآلي لكميات كبيرة من البيانات ويبحث عن العلاقات والمعرفة “الشيقة” المتضمنة في كميات كبيرة من البيانات، حيث تتعلق أعمال البحث والتطوير في مجال التنقيب عن البيانات المتوازية بدراسة وتعريف الخوارزميات والأساليب والأدوات المتوازية لاستخراج أنماط جديدة ومفيدة وضمنية من البيانات باستخدام بنيات عالية الأداء.

ما هي خوارزمية التنقيب عن البيانات المتوازية

عندما يتم تنفيذ أدوات التنقيب عن البيانات على أجهزة كمبيوتر متوازية عالية الأداء يمكنها تحليل قواعد البيانات الضخمة في وقت معقول، كما تعني المعالجة الأسرع أيضًا أنّه يمكن للمستخدمين تجربة المزيد من النماذج لفهم البيانات المعقدة ويجعل الأداء العالي من العملي للمستخدمين تحليل كميات أكبر من البيانات التي بدورها تؤدي إلى تنبؤات محسنة.

تعمل المعالجة المتوازية على تسريع عمل أنظمة دعم القرار مثل التنقيب عن البيانات عن طريق تقسيم استعلام معقد إلى أجزاء متعددة وتعيين كل جزء إلى معالج منفصل، والخوارزميات المتوازية لاستخراج البيانات والأنظمة المتوازية مثل: المعالجة المتعددة المتماثلة (SMP) والمعالجة المتوازية على نطاق واسع (MPP)، كما تشترك أنظمة (SMP) في ذاكرة مشتركة بين مجموعات الآلات وغالبًا ما تكون أنظمة (MPP) مناسبة تمامًا للتطبيقات التي تحتوي على بيانات متكتلة والتي تُستخدم بكثرة لاستعلامات التنقيب عن البيانات.

شهدت الأوقات الأخيرة نموًا هائلاً في توافر أنواع مختلفة من البيانات، حيث نتج عن ذلك فرصة غير مسبوقة لتطوير تقنيات مؤتمتة تعتمد على البيانات لتنقيب المعرفة المفيدة المتوازية، ويتكون التنقيب في البيانات المتوازية هو خطوة مهمة في عملية اكتشاف المعرفة هذه من طرق تكتشف أنماطًا مهمة ومفيدة مخبأة في البيانات.

وحتى الآن كانت القوة الدافعة الرئيسية وراء البحث في التنقيب عن البيانات هي تطوير خوارزميات لمجموعات البيانات الناشئة في مختلف الأعمال التجارية واسترجاع المعلومات والتطبيقات المالية، وبسبب أحدث التطورات التكنولوجية أصبحت مجموعات البيانات الكبيرة جدًا متاحة في العديد من التخصصات العلمية أيضًا، إنّ معدل إنتاج مجموعات البيانات هذه يفوق بكثير القدرة على تحليلها يدويًا وتقنيات التنقيب عن البيانات تحمل وعودًا كبيرة لتطوير مجموعات جديدة من الأدوات التي يمكن استخدامها لتحليل مجموعات البيانات الضخمة الناتجة عن مثل هذه المحاكاة تلقائيًا.

خصائص خوارزمية التنقيب عن البيانات المتوازية

يتم التنقيب عن البيانات المتوازية القائمة على منصة الحوسبة السحابية، حيث يتم توفير منصة الحوسبة السحابية بإطار لتقليل الخريطة وتتكون طريقة استخراج البيانات المتوازية من الخطوات التالية:

  • تنشئ العقد الموزعة جدول اتصال بالحقيقة لقاعدة بيانات تطبيق برنامج كخدمة (SAAS)، وتقوم العقد الموزعة باستخراج البيانات إلى كل جدول أبعاد فردي وفقًا لجدول الاتصال بالحقيقة لمعرفة ذلك مجموعة عناصر متكررة لكل جدول أبعاد فردي واكتشف مجموعة عناصر متكررة لجدول تقاطع أبعاد وفقًا لجدول اتصال الحقيقة.
  • يتم إدخال مجموعات العناصر المتكررة التي تم العثور عليها بواسطة جميع العقد الموزعة التي تعمل كملفات متوسطة في عقد تبسيط المهمة.
  • تقوم مهمة تبسيط العقد بدمج الملفات الوسطى المستلمة وإخراج مجموعة العناصر المتكررة المدمجة لتكون بمثابة نتائج استخراج البيانات، واستنادًا إلى إطار تقليل الخريطة تتيح طريقة التنقيب عن البيانات المتوازية القائمة على منصة الحوسبة السحابية إجراء عملية التنقيب لمجموعة بيانات واسعة النطاق في الحوسبة السحابية في مجموعة من العقد الموزعة.
  • وأخيرًا مجموعة العناصر المتكررة من عقد تبسيط المهمة يتم دمجها لإخراج النتائج النهائية لاستخراج البيانات وبالتالي يتم تحقيق التعدين الفعال للبيانات الجماعية وتحسين كفاءة التنقيب عن البيانات بشكل كبير.

مبدأ عمل خوارزمية التنقيب عن البيانات المتوازية

يتم استخدام وحدة الحصول على مجموعة عناصر متكررة لجدول أحادي البعد وفقًا لقائمة جهات الاتصال الحقيقية ويتم تنفيذ كل جدول أبعاد مستقل لقاعدة بيانات تطبيق (SAAS) الموزعة، واكتشاف مجموعة العناصر المتكررة الموصوفة لكل جدول أبعاد مستقل وعبر جدول الأبعاد يتم استخدام وحدة الحصول على مجموعة العناصر المتكررة، لاكتشاف العناصر المتكررة وفقًا لقائمة جهات الاتصال الحقيقية الموصوفة عبر جدول الأبعاد لقاعدة بيانات تطبيق (SAAS) الموزعة الموصوفة.

تُستخدم خلية إدخال البيانات لمجموعة العناصر المتكررة التي تجد أنّها إدخال إلى عقدة مهمة الاختصار كملف وسيط، وكما يتم استخدام عقدة المهمة للملف الوسيط الذي يستقبل من كل عقدة موزعة، ويتم دمج العنصر المتكرر بعد دمج الإخراج كنتائج استخراج البيانات.

استنادًا إلى مخطط التقنية تعتمد الخوارزمية على إطار رسم الخرائط الذي ينفذ عملية التنقيب لمجموعة البيانات واسعة النطاق في الحوسبة السحابية في مجموعة من العقد الموزعة، وتصدير نتائج تنقيب البيانات النهائية بواسطة العنصر المتكرر تعيين دمج عقدة اختصار المهمة أخيرًا وبالتالي أدركت التنقيب الفعال للبيانات الجماعية وحسنت بشكل كبير من كفاءة التنقيب عن البيانات.

في الواقع تستعد تطبيقات التنقيب عن البيانات لتصبح المستهلك المسيطر للحوسبة الفائقة في المستقبل القريب، حيث هناك ضرورة لتطوير خوارزميات متوازية فعالة لتقنيات استخراج البيانات المختلفة، ومع ذلك فإنّ تصميم مثل هذه الخوارزميات يمثل تحديًا.

المصدر: Foundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: