خوارزميات عملية التنقيب عن البيانات

اقرأ في هذا المقال


تتوفر العديد من خوارزميات التنقيب عن البيانات الشائعة وهي أشجار القرار والوسائل لتحليل البيانات العنقودية وخوارزمية (Naive Bayes) وخوارزميات آلية المتجهات الداعمة وخوارزمية (Apriori) للتنقيب عن بيانات السلاسل الزمنية، وهذه الخوارزميات هي جزء من تنفيذ تحليلات البيانات للأعمال وتعتمد هذه الخوارزميات على الصيغ الإحصائية والرياضية التي يتم تطبيقها على مجموعة البيانات.

ما هي خوارزميات عملية التنقيب عن البيانات

خوارزميات التنقيب عن البيانات: هي فئة معينة من الخوارزميات المفيدة في تحليل البيانات وتطوير نماذج البيانات لتحديد الأنماط ذات المعنى، وهذه جزء من خوارزميات التعلم الآلي ويتم تنفيذ هذه الخوارزميات من خلال برامج مختلفة مثل: لغة (R) و(Python) وأدوات استخراج البيانات لاشتقاق نماذج البيانات المحسنة، وكل هذه تساعد في تحليل مجموعات كبيرة من البيانات وتنفيذ مهام تحليل البيانات الأخرى ومن ثم فهي خوارزميات التحليلات الأكثر فائدة وموثوقية.

1. خوارزمية C4.5

يتم استخدام بعض التركيبات بواسطة المصنفات وهي أدوات في استخراج البيانات، حيث تأخذ هذه الأنظمة مدخلات من مجموعة من الحالات، وحيث تنتمي كل حالة إلى أحد الأعداد الصغيرة من الفئات ويتم وصفها بقيمها لمجموعة ثابتة من السمات، كما يمكن لمصنف الإخراج التنبؤ بدقة بالمستوى الذي ينتمي إليه واستخدام أشجار القرار، حيث يتم الحصول على أول شجرة أولية باستخدام خوارزمية فرق تسد.

لنفترض أنّ (S) عبارة عن فئة وأن القسم مصنف على شكل أنواع الأكثر شيوعًا في (S)، ويمكن استخدام اختيار اختبار بناءً على سمة واحدة ذات نتيجتين أو أكثر من إجراء هذا الاختبار كجذر فرع واحد لكل عمل من أعمال الاختبار، وتتوافق الأقسام مع المجموعات الفرعية (S1 وS2) وما إلى ذلك وهي نتائج لكل حالة.

يسمح (C4.5) لمنتجات متعددة، حيث قدم (C4.5) معادلة بديلة في أشجار القرار المترابطة والتي تتكون من قائمة من القواعد حيث يتم تجميع هذه القواعد لكل فئة، ولتصنيف الحالة يُطلق على الفئة الأولى التي يتم استيفاء شروطها اسم الفئة الأولى وإذا لم يستوف الفئة أي قوة فسيتم تعيين فئة افتراضية له، كما يتم تشكيل مجموعات القواعد (C4.5) من شجرة القرار الأولية ويعزز (C4.5) قابلية التوسع من خلال سلاسل المعالجة المتعددة.

2. خوارزمية الوسائل k

هذه الخوارزمية هي طريقة بسيطة لتقسيم مجموعة بيانات معينة إلى عدد محدد من قبل المستخدم من المجموعات، كما تعمل هذه الخوارزمية على متجهات الأبعاد (d)، حيث إنّها نقطة البيانات وللحصول على أساس البيانات الأولية هذه يجب أخذ عينات من البيانات بشكل عشوائي، وهذا يحدد حل تجميع مجموعة فرعية صغيرة من البيانات والمتوسط ​​العالمي للبيانات (k) مرة.

يمكن إقران هذه الخوارزمية بخوارزمية أخرى لوصف المجموعات غير المختلفة، حيث يقوم بإنشاء مجموعات (k) من مجموعة الكائنات المحددة ويستكشف مجموعة البيانات بأكملها مع تحليل الكتلة الخاص بها، وإنّه بسيط وأسرع من الخوارزميات الأخرى عندما يتم استخدامه مع خوارزميات مختلفة، كما يتم تصنيف هذه الخوارزمية في الغالب على أنّها شبه خاضعة للإشراف إلى جانب تحديد عدد المجموعات، فإنّه يستمر أيضًا في التعلم دون أي معلومات ويراقب المجموعة ويتعلم.

3. خوارزمية Naive Bayes

  • تعتمد هذه الخوارزمية على نظرية بايز (Bayes)، حيث تُستخدم هذه الخوارزمية بشكل أساسي عندما تكون أبعاد المدخلات عالية، كما يمكن لهذا المصنف بسهولة حساب الناتج المحتمل التالي.
  • يمكن إضافة بيانات أساسية جديدة أثناء وقت التشغيل وهي توفر مصنفًا احتماليًا أفضل.
  • تتضمن كل فئة على مجموعة معلومة من المتجهات التي تهدف إلى تكوين قاعدة تتيح بتخصيص الأفرع للفئات في المستقبل.
  • نواقل المتغيرات تصف الأشياء المستقبلية، وهذه واحدة من أكثر الخوارزميات راحة لأنّها سهلة الإنشاء ولا تحتوي على أي مخططات معقدة لتقدير المعلمات.
  • يمكن تطبيقه بسهولة على مجموعات البيانات الضخمة أيضًا، ولا يحتاج إلى أي مخططات متكررة لتقدير المعلمات وبالتالي يمكن للمستخدمين غير المهرة فهم سبب إجراء التصنيفات.

4. خوارزمية دعم آلات المتجهات Support Vector Machines

  • إذا أراد المستعمل طرقًا قوية ودقيقة، فيجب تجربة خوارزمية أجهزة (Vector Support)، حيث تعتمد (SVMs) بشكل أساسي لتعلم التصنيف أو الانحدار أو التفريع.
  • يتم تشكيلها على أساس تقليل المخاطر الهيكلية ونظرية التعلم الإحصائي، ويجب تحديد حدود القرار وهو ما يُعرف باسم المستوى الفائق.
  • يساعد في الفصل الأمثل بين الطبقات، حيث تتمثل المهمة الرئيسية لـ (SVM) في تحديد تعظيم الهامش بين نوعين.
  • يتم تعريف الهامش على أنّه مقدار المسافة بين نوعين، وتشبه وظيفة الطائرة الفائقة معادلة الخط، ويمكن تمديد (SVM) لإجراء عمليات حسابية عددية أيضًا.
  • يستخدم (SVM kernel) بحيث يعمل بشكل جيد في أبعاد أعلى، وهذه خوارزمية خاضعة للإشراف ويتم استخدام مجموعة البيانات أولاً لإعلام (SVM) بجميع الفئات، بمجرد الانتهاء من ذلك يمكن أن يكون (SVM) قادرًا على تصنيف هذه البيانات الجديدة.

5. خوارزمية Apriori

تُستخدم خوارزمية (Apriori) على نطاق واسع للعثور على مجموعات العناصر المتجددة من مجموعة بيانات المعاملة واشتقاق قواعد الارتباط، والعثور على العناصر المتكررة ليس بالأمر الصعب بسبب انفجارها الاندماجي وبمجرد أن نحصل على مجموعات العناصر المتكررة يصبح من الواضح إنشاء قواعد ارتباط للحد الأدنى المحدد أو المتساوي من الثقة.

إنّ (Apriori) هي خوارزمية تساعد في إيجاد مجموعات البيانات الروتينية من خلال الاستفادة من توليد المرشح، حيث يفترض أن مجموعة العناصر أو العناصر الموجودة مرتبة بترتيب معجمي، وبعد إدخال (Apriori) يتم تعزيز أبحاث التنقيب عن البيانات بشكل خاص، حيث إنه بسيط وسهل التنفيذ والنهج الأساسي لهذه الخوارزمية هو كما يلي:

  • الانضمام: يتم استخدام قاعدة البيانات الكاملة لمجموعات العناصر (1) المتكررة.
  • الترتيب: يجب أن تفي مجموعة العناصر هذه بالدعم والثقة للانتقال إلى الجولة التالية لمجموعتي العناصر.
  • التكرار: حتى لا يتم الوصول إلى الحجم المحدد مسبقًا حتى يتم تكرار ذلك لكل مستوى مجموعة عناصر.

6- خوارزمية PageRank

ينتشر استخدام (PageRank) بواسطة محركات البحث مثل (Google)، حيث إنّها خوارزمية تحليل الارتباط التي تحدد الأهمية النسبية لكائن مرتبط داخل شبكة من الكائنات، وتحليل الارتباط هو نوع من تحليل الشبكة الذي يستكشف الارتباطات بين الكائنات ويستخدم بحث (Google) هذه الخوارزمية من خلال فهم الروابط الخلفية بين صفحات الويب.

7- خوارزمية AdaBoost

إنّ (AdaBoost) هي خوارزمية تعزيز تستخدم لبناء مصنف، والمصنف هو أداة تنقيب عن البيانات تأخذ البيانات وتتنبأ بفئة البيانات بناءً على المدخلات وخوارزمية التعزيز هي خوارزمية تعلم جماعية تدير خوارزميات تعلم متعددة وتجمع بينها، وتأخذ خوارزميات التعزيز مجموعة من المتعلمين الضعفاء وتجمعهم لتكوين متعلم قوي واحد والمتعلم الضعيف يصنف البيانات بدقة أقل.

مع استخدام خوارزميات عملية التنقيب عن البيانات بشكل بارز يساعد البعض الآخر في استخراج البيانات والتعلم، حيث إنّه يدمج تقنيات مختلفة بما في ذلك التعلم الآلي والإحصاءات، والتعرف على الأنماط والذكاء الاصطناعي وأنظمة قواعد البيانات.


شارك المقالة: