قابلية التوسع في خوارزميات عملية التنقيب عن البيانات

اقرأ في هذا المقال


تُعد قابلية التوسع جانبًا مهمًا من خوارزميات التنقيب عن البيانات لأنّها تحدد مدى قدرة الخوارزمية على التعامل مع مجموعات البيانات الكبيرة والمعقدة، وعندما تكون الخوارزمية لديها القدرة للتطوير فإنّها تكون قادرة على معالجة وتحليل كميات كبيرة من البيانات بكفاءة وفعالية ودون انخفاض كبير في الأداء.

قابلية التوسع في خوارزميات التنقيب عن البيانات

يطرح الكم الهائل من البيانات المتوفرة الآن في أي مجال من مجالات البحث مشاكل جديدة لاستخراج البيانات وطرق اكتشاف المعرفة، ونظرًا لهذه الكمية الهائلة من البيانات فإنّ معظم خوارزميات التنقيب عن البيانات الحالية غير قابلة للتطبيق على العديد من مشكلات العالم الحقيقي، وتصبح خوارزميات التنقيب عن البيانات غير فعالة عندما يصبح حجم المشكلة كبيرًا جدًا.

في كثير من الحالات تكون متطلبات الخوارزمية من حيث وقت التشغيل كبيرة جدًا ولا يمكن تطبيق طرق التنقيب عندما تنمو المشكلة، حيث يرتبط هذا الجانب ارتباطًا وثيقًا بالتعقيد الزمني للطريقة ومشكلة ثانية مرتبطة بالأداء وعلى الرغم من أنّ الطريقة قد تكون قابلة للتطبيق إلّا أنّ حجم مساحة البحث يمنع التنفيذ الفعال والحلول الناتجة غير مرضية، وتم اعتماد طريقتين للتعامل مع هذه المشكلة لتوسيع نطاق خوارزميات التنقيب عن البيانات وتقليل البيانات.

ومع ذلك نظرًا لأنّ تقليل البيانات يعد مهمة تنقيب عن البيانات في حد ذاته فإنّ هذه التقنية تعاني أيضًا من مشاكل قابلية التوسع وبالتالي بالنسبة للعديد من المشكلات، وخاصةً عند التعامل مع مجموعات بيانات كبيرة جدًا فإنّ الطريقة الوحيدة للتعامل مع المشكلات هي توسيع نطاق خوارزمية استخراج البيانات، كما يتم بذل العديد من الجهود للحصول على الأساليب التي يمكن استخدامها لتوسيع نطاق خوارزميات التنقيب عن البيانات الحالية.

كما تتمثل الجودة الرئيسية لهذه البيانات في الظهور والتجميع عبر الإنترنت بسرعة عالية والضعف في التحولات في توزيعات البيانات بسبب البيئة الديناميكية، والتحدي الأكبر لتحليل هذه البيانات هو الافتقار إلى التوافر غير المقيد لمجموعة البيانات غير الثابتة للتقييم والمقارنة، حيث يُعد التنقيب عن المعلومات المفيدة من مجموعة البيانات غير الثابتة أمرًا صعبًا أيضًا نظرًا لطبيعته المتدرجة.

خصائص قابلية التوسع في خوارزميات التنقيب عن البيانات

إنّ عملية التنقيب هي فرع من علوم البيانات يهدف إلى استخراج المعلومات المتعلقة بالعملية من بيانات الأحداث الموجودة في أنظمة المعلومات والتي تتزايد باطراد في الكمية، حيث يتم تطوير العديد من الخوارزميات وإطار عمل مفتوح المصدر للأغراض العامة في السنوات الأخيرة لاكتشاف العمليات وفحص المطابقة والتعلم الآلي على بيانات الأحداث، ومع ذلك في حالات قليلة جدًا كانت قابلية التوسع هدفًا مع إعطاء الأولوية لجودة المخرجات على سرعة التنفيذ وتحسين الموارد.

كما يؤدي هذا إلى زيادة صعوبة تطبيق التنقيب عن البيانات باستخدام محطات العمل السائدة على بيانات الأحداث الواقعية باستخدام أي إطار عمل لتنقيب العمليات مفتوح المصدر، ومن ثم فإنّ استكشاف المزيد من تقنيات التخزين القابلة للتطوير وهياكل البيانات في الذاكرة والخوارزميات الأكثر أداءً هي حاجة ملحة تمامًا.

يتم استخدام المخازن العمودية السائدة وأطر البيانات لزيادة قابلية تنقيب العمليات، حيث يمكن أن تحل هذه الهياكل محل هياكل سجل الأحداث الكلاسيكية في معظم المهام، ولكنّها تتطلب تطبيقات مختلفة تمامًا فيما يتعلق بخوارزميات التنقيب في العمليات السائدة، كما يتم تحديد أطر البيانات ويتم تقديم بعض الخوارزميات على هذه الهياكل ويتم حساب مدى تعقيدها.

توسيع نطاق تقنيات تنقيب البيانات إلى مجموعات البيانات الكبيرة

تمكّن التطورات في تكنولوجيا الأجهزة والبرامج من جمع كميات كبيرة من البيانات وتخزينها وتوزيعها على نطاق واسع جدًا، حيث يُعرف اكتشاف واستخراج المعرفة المخفية تلقائيًا في شكل أنماط من أحجام البيانات الكبيرة هذه باسم التنقيب عن البيانات، ولا تُعد تقنية التنقيب عن البيانات جزءًا من ذكاء الأعمال فحسب، بل تُستخدم أيضًا في العديد من مجالات التطبيق الأخرى مثل: البحث والتسويق والتحليلات المالية.

ومع ذلك فإنّ استخراج المعرفة في شكل أنماط من أحجام البيانات الضخمة يفرض عددًا من التحديات الحسابية من حيث وقت المعالجة والذاكرة وعرض النطاق الترددي واستهلاك الطاقة، وقد أدت هذه التحديات إلى تطوير نهج تحليل البيانات المتوازية والموزعة واستخدام الشبكة والحوسبة السحابية.

قابلية التوسع في خوارزميات التنقيب للبيانات غير الثابتة

يتزايد تدفق البيانات يومًا بعد يوم في تطبيقات العالم الحقيقي مثل سوق الأوراق المالية والبيانات المالية وما إلى ذلك، وتتمثل الجودة الرئيسية لهذه البيانات في الظهور، والتجميع عبر الإنترنت بسرعة عالية والضعف في التحولات في توزيعات البيانات بسبب البيئة الديناميكية، والتحدي الأكبر لتحليل هذه البيانات هو الافتقار إلى التوافر غير المقيد لمجموعة البيانات غير الثابتة للتقييم والمقارنة.

يُعد تنقيب المعلومات المفيدة من مجموعة البيانات غير الثابتة أمرًا صعبًا أيضًا نظرًا لطبيعته المتدرجة، حيث يتم تطبيق تقنيات تصنيف مختلفة لاستخراج البيانات لتحليل مجموعة البيانات غير الثابتة باستخدام طرق مختلفة؛ لتوسيع نطاق التتالي الحالية في البيانات والمقترحة، وبمجرد أن تتم معالجة مجموعة البيانات مسبقًا يتم تحللها إلى مجموعات بيانات أصغر من مجموعات فرعية متساوية الحجم.

ثم يتم تطبيق نهج التنقيب عن البيانات المحدد بشكل مماثل على كل مجموعة فرعية، ويتم تجميع نتائج نهج التنقيب عن البيانات في جميع المجموعات الفرعية وتجميعها من أجل الناتج النهائي، وكما يتم تقييم أداء الخوارزمية المقترحة باستخدام عدد من المعايير، بما في ذلك الدقة والاستدعاء والنتيجة ووقت التنفيذ.

ويتم تقييم التحليل المقارن لمقاييس الأداء لمختلف مناهج التنقيب عن البيانات بحيث يتضمن التحليل المقارن التالي طريقة القياس غير المتدرجة وطريقة القياس التعاقبي المقترحة لمختلف مناهج التنقيب عن البيانات، ويتم تقييم مقارنة أداء طرق القياس الحالية مع طريقة القياس التسلسلي المقترحة لمعلمة الدقة، حيث حققت الطريقة المقترحة أداءً جوهريًا على مجموعة البيانات غير الثابتة.

أنواع قابلية التوسع في خوارزميات التنقيب عن البيانات

1- قابلية التوسع الحسابي

يشير هذا إلى قدرة الخوارزمية على العمل بكفاءة على نظام أساسي للأجهزة مثل جهاز واحد أو مجموعة من الآلات.

2- قابلية التوسع الزمني

يشير هذا إلى قدرة الخوارزمية على التعامل مع مجموعات البيانات الكبيرة في فترة زمنية معقولة.

3- قابلية توسيع البيانات

يشير هذا إلى قدرة الخوارزمية على التعامل مع مجموعات البيانات الكبيرة التي قد تحتوي على أبعاد عالية أو تعقيد.

4- قابلية التوسع للميزة

يشير هذا إلى قدرة الخوارزمية على التعامل مع عدد كبير من الميزات أو المتغيرات في مجموعة البيانات، وبشكل عام تُعد قابلية التوسع مهمة في التنقيب عن البيانات؛ لأنّها تتيح للخوارزميات التعامل مع مجموعات البيانات الكبيرة والمعقدة بشكل فعال وهو أمر مهم بشكل متزايد حيث تصبح البيانات أكثر وفرة وتنوعًا، وتُعد قابلية التوسع مهمة بشكل خاص في تطبيقات مثل تحليلات البيانات الضخمة، حيث يمكن أن يكون حجم البيانات وتعقيدها مرتفعين للغاية.

المصدر: Introducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd EditionFoundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First Edition


شارك المقالة: