عملية تدفق البيانات خلال التنقيب في البيانات

اقرأ في هذا المقال


يتم إنشاء ونقل كميات هائلة من البيانات الرقمية كل ثانية في العالم الحقيقي، كما أنّ البيانات الضخمة تحيط بنا ويُطلق على البيانات التي يتم إنشاؤها ونقلها باستمرار اسم “دفق البيانات”، ومع ذلك فإنّ استخراج المعرفة القيمة من هذه البيانات الضخمة مهمة كبيرة، ويستغرق الأمر الكثير من الوقت والجهد والمهارات لاستخراج الرؤى من البيانات الضخمة.

ما هي عملية تدفق المعلومات

عملية دفق البيانات: هي عبارة عن سلسلة بيانات مستمرة وسريعة التغيير ومرتبة يتم إرسالها بسرعة عالية جدًا، حيث إنّه تسلسل مرتب للمعلومات لفترة زمنية محددة، كما يتم نقل بيانات المرسل من جانب المرسل وتظهر على الفور في تدفق البيانات من جانب المستلم، والتدفق لا يعني تنزيل البيانات أو تخزين المعلومات على أجهزة التخزين لذلك هناك حاجة إلى تنفيذ تدفقات البيانات في تقنيات التنقيب عن البيانات لنقل الرؤى القيمة من البيانات إلى المستلم.

مصادر تدفق البيانات

  • حركة المرور على الإنترنت وكذلك المعاملات عبر الإنترنت.
  • بيانات أجهزة الاستشعار.
  • بيانات الحدث المباشر.
  • سجلات المكالمات.
  • بيانات الأقمار الصناعية.
  • الاستماع الصوتي.
  • مشاهدة فيديوهات.
  • أنظمة المراقبة في الوقت الحقيقي.

خصائص تدفق البيانات في عملية التنقيب في البيانات

  • الدفق المستمر للبيانات: يتميز دفق البيانات بأنّه دفق مستمر لا نهائي ينتج عنه بيانات ضخمة، حيث في تدفق البيانات يتم تمرير تدفقات بيانات متعددة في وقت واحد.
  • حساس للوقت: إنّ تدفقات البيانات حساسة للوقت وتحمل عناصر تدفقات البيانات طوابع زمنية معها، وبعد وقت معين يفقد دفق البيانات أهميته ويكون وثيق الصلة بفترة معينة.
  • تقلب البيانات: لا يتم تخزين أي بيانات في تدفق البيانات لأنها متقلبة، وبمجرد الانتهاء من استخراج البيانات وتحليلها يتم تلخيص المعلومات أو تجاهلها.
  • تطور البيانات مع مرور الوقت: لا يمكن التنبؤ بتدفقات البيانات حيث تتغير البيانات أو تتطور مع مرور الوقت وكما هو الحال في هذا العالم الديناميكي لا يوجد شيء ثابت.

خوارزميات تدفقات البيانات في تقنيات تنقيب البيانات

يتم تنفيذ تدفقات البيانات في تقنيات التنقيب عن البيانات لاستخراج الأنماط والرؤى من تدفق البيانات، حيث تتوفر مجموعة واسعة من الخوارزميات لتنقيب التدفق، وهناك أربع خوارزميات رئيسية مستخدمة لتدفقات البيانات في تقنيات التنقيب عن البيانات، وهي كالتالي:

1. التصنيف

التصنيف هو أسلوب تعلم خاضع للإشراف، وفي التصنيف يتم بناء نموذج المصنف بناءً على بيانات التدريب (أو البيانات السابقة مع تسميات النواتج)، ثم يتم استخدام نموذج المصنف هذا للتنبؤ بتسمية الحالات أو العناصر غير المسماة التي تصل باستمرار عبر دفق البيانات، كما يتم التنبؤ بالعناصر غير المعروفة أو الجديدة التي لم يرها النموذج مطلقًا، ويتم استخدام الأمثلة المعروفة بالفعل لتدريب النموذج، وبشكل عام تصنيف تنقيب الدفق جاهز للقيام بإحدى المهام في أي لحظة:

  • الحصول على عنصر غير مسمى وتوقعه بناءً على نموذجه الحالي.
  • تلقي ملصقات للعناصر المعروفة السابقة واستخدامها لتجهيز النموذج.

2. الانحدار

يُعد الانحدار أيضًا أسلوبًا تعليميًا خاضعًا للإشراف يستخدم للتنبؤ بالقيم الحقيقية لسمات التسمية لمثيلات التدفق وليس القيم المنفصلة مثل التصنيف، ومع ذلك فإنّ فكرة الانحدار تشبه التصنيف إمّا للتنبؤ بتسمية القيم الحقيقية للعناصر المجهولة باستخدام نموذج الانحدار أو تدريب النموذج وضبطه باستخدام البيانات المعروفة مع التسمية، ومن أفضل خوارزميات الانحدار للتنبؤ بتسميات تدفقات البيانات:

  • مصنف (k-Nearest Neighbor).
  • الانحدار الخطي.

3. التجميع

التجميع هو أسلوب تعلم غير خاضع للإشراف، حيث يكون التجميع وظيفيًا عندما يكون هناك حالات غير مسماة ويجب إيجاد مجموعات متجانسة فيها بناءً على أوجه التشابه بين عناصر البيانات، وقبل عملية التجميع المجموعات غير معروفة وتتشكل المجموعات من خلال تدفقات البيانات المستمرة بناءً على البيانات وتواصل إضافة عناصر إلى المجموعات المختلفة.

4. تنقيب الأنماط المتسلسلة

يُعتبر تنقيب الأنماط المتسلسلة مهمة أساسية في التعلم غير الخاضع للإشراف، حيث يتم اعتماده لوصف البيانات والعثور على قواعد الاتصال أو الميزات التمييزية في البيانات التي ستساعد بشكل أكبر في تصنيف المهام وتجميعها وإنه يقوم على قاعدتين وهما:

  • مجموعة العناصر المتكررة: وهي مجموعة العناصر التي تحدث معًا بشكل متكرر.
  • قواعد الارتباط: وهو مؤشر العلاقة القوية بين عنصرين.

أدوات وبرامج تدفقات البيانات

1- برنامج التحليل الشامل عبر الإنترنت MOA

إنّ برنامج التحليل الشامل عبر الإنترنت (MOA) هو أشهر البرامج متاحة المصدر التي تم تطويرها في (Java) لتدفقات البيانات في عملية التنقيب عن البيانات، حيث يتم تنفيذ العديد من خوارزميات التعلم الآلي مثل: الانحدار والتصنيف والكشف عن العوامل الخارجية والتجميع وأنظمة التوصية لاستخراج البيانات، بالإضافة إلى ذلك فهو يحتوي على مولدات التدفق واكتشاف انحراف المفاهيم وأدوات التقييم مع تفاعل ثنائي الاتجاه مع التعلم الآلي.

2- أداة Scikit-Multiflow

(Scikit-Multiflow) هو أيضًا إطار عمل تعلم آلي مجاني ومفتوح المصدر للمخرجات المتعددة وتدفقات البيانات في عملية التنقيب عن البيانات المطبقة في (Python)، حيث يحتوي (Scikit) متعدد التدفق على مولدات تيار واكتشافات الانجراف المفهوم وطرق تعلم الدفق للأهداف الفردية والمتعددة وكاشفات الانجراف المفهوم وتقييم محولات البيانات وطرق التصور.

3- برنامج رابيدماينر RapidMiner

إنّ (RapidMiner) هو برنامج تجاري يستخدم لتدفقات البيانات في عملية التنقيب عن البيانات واكتشاف المعرفة والتعلم الآلي وتمت كتابة (RapidMiner) بلغة برمجة (Java)، وتستخدم لتحميل البيانات وتحويلها (ETL) والمعالجة المسبقة للبيانات والتصور وفضلاً عن ذلك يوفر (RapidMiner) واجهة مستخدم رسومية تفاعلية لتصميم وتنفيذ عمليات التنقيب وسير العمل التحليلي.

4- أداة StreamDM

إنّ (StreamDM) هو إطار عمل مفتوح المصدر لتدفقات البيانات كبيرة النطاق في عملية التنقيب عن البيانات التي تستخدم (Spark Streaming) وذلك لتوسيع واجهة (Spark API) الأساسية، كما إنّه إطار عمل متخصص لـ (Spark Streaming) يعالج الكثير من المشكلات المعقدة لمصادر البيانات الأساسية مثل: البيانات خارج الترتيب والاسترداد من حالات الفشل.

5- أداة River

يُعد (River) هو إطار عمل (Python) جديد للتعلم الآلي باستخدام تدفقات البيانات عبر الإنترنت، حيث يوفر خوارزميات التعلم الحديثة وطرق تحويل البيانات ومقاييس الأداء لمختلف مهام التعلم المباشر، كما إنّه ناتج دمج أفضل أجزاء مكتبات (crème) و(scikit) متعددة التدفق وكلاهما تم إنشاؤهما لنفس الهدف من استخدامه في تطبيقات العالم الحقيقي.

يتم إنشاء دفق البيانات من خلال مولدات دفق البيانات المختلفة، وبعد ذلك يتم تنفيذ تقنيات التنقيب عن البيانات لاستخراج المعرفة والأنماط من تدفقات البيانات، لذلك تحتاج هذه التقنيات إلى معالجة تدفقات بيانات متعددة الأبعاد ومتعددة المستويات وممر واحد وعبر الإنترنت.


شارك المقالة: