خوارزميات التحليلات التنبؤية Predictive Analytics Algorithms

اقرأ في هذا المقال


يتم تشغيل أدوات التحليلات التنبؤية بواسطة عدة نماذج وخوارزميات مختلفة يمكن تطبيقها على مجموعة واسعة من حالات الاستخدام، ويُعد تحديد تقنيات النمذجة التنبؤية الأفضل لشركتك هو المفتاح لتحقيق أقصى استفادة من حل التحليلات التنبؤية والاستفادة من البيانات لاتخاذ قرارات ثاقبة.

ما هي الخوارزميات التنبؤية المشتركة

1- خوارزمية التعلم الآلي

يتضمن التعلم الآلي البيانات الهيكلية، بحيث تشمل الخوارزميات الخاصة بذلك كلاً من الأصناف الخطية وغير الخطية وتتدرب الخوارزميات الخطية بسرعة أكبر، بينما يتم تحسين الخوارزميات غير الخطية بشكل أفضل للمشكلات التي من المحتمل أن تواجهها والتي غالبًا ما تكون غير خطية.

2- خوارزمية التعلم العميق

التعلم العميق هو مجموعة فرعية من التعلم الآلي الأكثر شيوعًا للتعامل مع الصوت والفيديو والنصوص والصور، وباستخدام النمذجة التنبؤية للتعلم الآلي هناك العديد من الخوارزميات المختلفة التي يمكن تطبيقها.

أنواع خوارزميات التحليلات التنبؤية

1- خوارزميات Random Forest

ربما تكون (Random Forest) هي خوارزمية التصنيف الأكثر شيوعًا وهي القادرة على التصنيف والانحدار ويمكنها تصنيف كميات كبيرة من البيانات بدقة، ويشتق اسم (Random Forest) من حقيقة أنّ الخوارزمية هي مزيج من أشجار القرار، وتعتمد كل شجرة على قيم ناقل عشوائي يتم أخذ عينات منها بشكل مستقل بنفس التوزيع لجميع الأشجار في “الغابة”، وكل واحد ينمو إلى أقصى حد ممكن.

تحاول خوارزميات التحليلات التنبؤية تحقيق أقل خطأ ممكن إما باستخدام “التعزيز” أي تقنية تضبط وزن الملاحظة بناءً على التصنيف الأخير، أو “التعبئة” التي تُنشئ مجموعات فرعية من البيانات من عينات التدريب ويتم اختيارها عشوائيًا مع الاستبدال ويستخدم (Random Forest) التعبئة، حيث إذا كان لديك الكثير من عينات البيانات فبدلاً من التدريب عليها جميعًا يمكنك أن تأخذ مجموعة فرعية وتتدرب على ذلك.

كما تأخذ مجموعة فرعية أخرى وتتدرب على ذلك (التداخل مسموح به)، وكل هذا يمكن أن يتم بالتوازي ويتم أخذ عينات متعددة من بياناتك لإنشاء متوسط، وفي حين أنّ الأشجار الفردية قد تكون “متعلمين ضعفاء” فإنّ مبدأ (Random Forest) هو أنّها يمكن أن تشكل معًا “متعلمًا قويًا” واحدًا، وتكون مزايا خوارزمية (Random Forest):

  • تقلل الأفرع المتعددة التباين والانحياز لمجموعة أصغر أو فرع واحد.
  • مقاومة فرط التجهيز.
  • يمكن التعامل مع الآلاف من متغيرات الإدخال دون حذف متغير.
  • يمكن تقدير المتغيرات المهمة في التصنيف.
  • يوفر طرق فعالة لتقدير البيانات المفقودة.
  • يحافظ على الدقة عند فقد نسبة كبيرة من البيانات.

شجرة القرار هي في الأساس مجموعة من الأسئلة حول ميزات البيانات التي تؤدي إلى نتيجة، وتؤدي هذه الأشجار بشكل فردي أداءً جيدًا للتحليلات التنبؤية ولكن تجميعها معًا والحصول على تصويت لكل شجرة لتوقعها يكون أكثر قوة، وتشتهر (Random Forest) بتعدد استخداماتها وقلة تحيزها.

ومع ذلك لا تقدم سببًا واضحًا وراء (Random Forest) النتيجة المتوقعة مثل معادلة الانحدار الخطي وتُعد (Random Forest) نموذجًا رائعًا لاستخدامه في معظم التطبيقات التي لا تحتاج إلى تفكير شامل وراء التنبؤات، والاستخدام الجيد لـ (Random Forest) هو الموافقة على الطلب، وسيصنف مصنف (Random Forest) مقدم الطلب إلى موافقة أو رفض بناءً على الميزات التي تم جمعها من التطبيق.

2- خوارزمية النموذج الخطي المعمم GLM لقيمتين

النموذج الخطي المعمم (GLM) هو البديل الأكثر تعقيدًا للنموذج الخطي العام، ويتطلب الأمر مقارنة النموذج الأخير لتأثيرات المتغيرات المتعددة على المتغيرات المستمرة قبل الرسم من مجموعة من التوزيعات المختلفة؛ للعثور على النموذج “الأفضل ملاءمة”، وسيضيق النموذج الخطي المعمم قائمة المتغيرات ممّا يشير على الأرجح إلى أن هناك زيادة في المبيعات تتجاوز درجة معينة وانخفاض أو تسطيح في المبيعات.

وميزة هذه الخوارزمية أنّها تتدرب بسرعة كبيرة، ويمكن أن يكون لمتغير الاستجابة أي شكل من أشكال التوزيع الأسي والنموذج الخطي المعمم قادر أيضًا على التعامل مع المتنبئين الفئويين بينما يكون تفسيره مباشرًا نسبيًا، وعلاوةً على ذلك فإنّه يوفر فهمًا واضحًا لكيفية تأثير كل من المتنبئين على النتيجة، وهو مقاوم إلى حد ما للتركيب الزائد ومع ذلك فإنّه يتطلب مجموعات بيانات كبيرة نسبيًا وعرضة للقيم المتطرفة.

3- خوارزمية نموذج التدرج المعزز GBM

تنتج خوارزمية التدرج المعزز نموذج تنبؤ يتكون من مجموعة من أشجار القرار وكل منها “متعلم ضعيف” وكما كان الحال مع (Random Forest) قبل التعميم، كما يوحي اسمها فهي تستخدم تقنية التعلم الآلي “المعززة” بدلاً من التعبئة التي تستخدمها (Random Forest) ويتم استخدامه لنموذج التصنيف.

السمة المميزة لـ (GBM) هي أنّها تبني أشجارها فرع واحد في كل مرة، وتساعد كل شجرة جديدة في تصحيح الأخطاء التي ارتكبتها الفروع المدربة سابقًا على عكس نموذج (Random Forest)، حيث لا توجد علاقة بين الفروع وغالبًا ما يتم استخدامه في تصنيف التعلم الآلي كما هو الحال في محركات البحث (Yahoo) و(Yandex).

من خلال نهج (GBM) تكون البيانات أكثر تعبيرًا وتظهر النتائج المعيارية أنّ طريقة (GBM) هي الأفضل من حيث الدقة الكلية للبيانات، ومع ذلك نظرًا لأنّها تبني كل فرع بالتتابع فإنها تستغرق أيضًا وقتًا أطول ومع ذلك يُعتبر الأداء الأبطأ يؤدي إلى تعميم أفضل.

4- خوارزمية K

تتضمن خوارزمية (K) التي تحظى بشعبية كبيرة وعالية السرعة خاصة في علم البيانات وضع نقاط بيانات غير مسماة في مجموعات منفصلة بناءً على أوجه التشابه، ويتم اعتماد هذه الخوارزمية لنموذج التجميع، كما يحاول (K-mean) معرفة الخصائص المشتركة للأفراد وتجميعهم معًا ويكون هذا مفيدًا بشكل خاص عندما يكون لديك مجموعة بيانات كبيرة، وتتطلع إلى تنفيذ خطة مخصصة يصعب جدًا القيام بذلك مع مليون شخص.

5- خوارزمية نموذج الانحدار الذاتي والمتوسط المتحرك ARIMA

يستخدم نموذج (ARIMA) للتحليلات التنبؤية للسلاسل الزمنية لتحليل النتائج المستقبلية باستخدام نقاط البيانات على نطاق زمني ويستخدم نموذج (ARIMA) التنبؤي والمعروف أيضًا باسم طريقة (Box-Jenkins)، على نطاق واسع عندما تظهر حالات الاستخدام تقلبات عالية وغير ثابتة في البيانات، ويتم استخدامه أيضًا عند تسجيل المقياس على فترات منتظمة ومن الثواني إلى الفترات اليومية أو الأسبوعية أو الشهرية.

يشير الانحدار التلقائي في خوارزمية (ARIMA) إلى مشاركة المتغيرات ذات الأهمية اعتمادًا على قيمتها الأولية وكما أنّ خطأ الانحدار هو مزيج خطي من الأخطاء التي تتعايش قيمها في أوقات مختلفة في الماضي، وفي الوقت نفسه يقترح التكامل في نموذج التحليلات التنبؤية (ARIMA) استبدال قيم البيانات بالاختلافات بين قيمتها والقيم السابقة، وهناك طريقتان أساسيتان لخوارزميات توقع (ARIMA):

  • وحيد المتغير، ويستخدم فقط القيم السابقة في نموذج السلاسل الزمنية للتنبؤ بالمستقبل.
  • متعدد المتغيرات، ويستخدم المتغيرات الخارجية في سلسلة القيم لعمل التنبؤات والتنبؤ بالمستقبل.

لا توجد خوارزمية ذات حجم واحد يناسب الجميع للتحليلات التنبؤية لأنّ النماذج المختلفة لها نقاط قوتها وضعفها، وفي حين أنّ تطبيقات هذه الخوارزميات معقدة، يمكن أن تكون الفكرة الأساسية بسيطة للغاية وهناك نوعان رئيسيان من خوارزميات التنبؤ وهي التصنيف والانحدار.

المصدر: Data Science from Scratch: First Principles with Python by Joel Grus / 2nd EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionFoundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First Edition


شارك المقالة: