اقرأ في هذا المقال
- ما هي تقنيات التحليلات التنبؤية
- دور تقنيات التحليلات التنبؤية في النمذجة
- أشكال تقنيات التحليلات التنبؤية
على الرغم من أنّ استخدام علم البيانات للتسويق والتجارة الإلكترونية موثق جيدًا، فإنّ التحليلات التنبؤية لها أيضًا القدرة على إحداث تأثير اجتماعي كبير، والتحليلات التنبؤية لها أيضًا القدرة على إحداث تأثير اجتماعي كبير والتحليلات التنبؤية هي علم استخدام البيانات للتنبؤ بالنتائج المستقبلية.
ما هي تقنيات التحليلات التنبؤية
تتطلب التحليلات التنبؤية مستوى عاليًا من الخبرة في الأساليب الإحصائية والقدرة على بناء نماذج تحليلات تنبؤية، وعادةً ما يكون مجال علماء البيانات والإحصائيين ومحللي البيانات المهرة الآخرين، ويتم دعمهم من قبل مهندسي البيانات الذين يساعدون في جمع البيانات ذات الصلة وإعدادها للتحليل، ومن قبل مطوري ذكاء الأعمال ومحللي الأعمال الذين يساعدون في تصور البيانات ولوحات المعلومات والتقارير.
يستخدم علماء البيانات نماذج تنبؤية للبحث عن الارتباطات بين عناصر البيانات المختلفة في بيانات النقر على موقع الويب وسجلات صحة المريض وأنواع أخرى من مجموعات البيانات، حيث بمجرد أن يتم جمع البيانات يتم صياغة نموذج إحصائي وتدريبه وتعديله حسب الحاجة للحصول على نتائج دقيقة، ثم يتم تشغيل النموذج مقابل البيانات المحددة لإنشاء تنبؤات.
يتم تحليل مجموعات البيانات الكاملة في بعض التطبيقات ولكن في تطبيقات أخرى تستخدم فرق التحليلات عينات البيانات لتبسيط العملية، حيث يتم التحقق من صحة النمذجة التنبؤية أو مراجعتها على أساس مستمر مع توفر بيانات إضافية ولا تكون عملية التحليلات التنبؤية دائمًا خطية، وغالبًا ما تظهر الارتباطات نفسها حيث لا يبحث علماء البيانات.
لهذا السبب تملأ بعض المؤسسات مناصب علماء البيانات من خلال توظيف أشخاص لديهم خلفيات أكاديمية في الفيزياء وتخصصات العلوم الصعبة الأخرى، وتماشياً مع المنهج العلمي هؤلاء العمال مرتاحون للذهاب إلى حيث تقودهم البيانات وحتى إذا اتبعت الشركات المسار الأكثر تقليدية لتوظيف علماء البيانات المدربين في الرياضيات والإحصاء وعلوم الكمبيوتر، فإنّ امتلاك عقل متفتح بشأن استكشاف البيانات هو سمة أساسية للتحليلات التنبؤية الفعالة.
دور تقنيات التحليلات التنبؤية في النمذجة
بمجرد أن ينتج عن النمذجة التنبؤية نتائج قابلة للتنفيذ يمكن لفريق التحليلات مشاركتها مع المديرين التنفيذيين عادةً بمساعدة لوحات المعلومات والتقارير التي تقدم المعلومات وتسلط الضوء على فرص العمل المستقبلية بناءً على النتائج، كما يمكن أيضًا تضمين النماذج الوظيفية في التطبيقات التشغيلية ومنتجات البيانات لتوفير إمكانات تحليلية في الوقت الفعلي، مثل محرك التوصية على موقع ويب للبيع بالتجزئة عبر الإنترنت يوجه العملاء إلى منتجات معينة بناءً على نشاط التصفح وخيارات الشراء الخاصة بهم.
التنقيب عن البيانات لفرز مجموعات البيانات الكبيرة للأنماط والعلاقات التي يمكن أن تساعد في حل مشاكل العمل من خلال تحليل البيانات، وتحليلات النص لتعدين المحتوى المستند إلى النص مثل: مستندات (Microsoft Word) والبريد الإلكتروني ومنشورات الوسائط الاجتماعية.
والتعلم الآلي بما في ذلك استخدام خوارزميات التصنيف والتجميع والانحدار التي تساعد في تحديد أنماط البيانات والعلاقات وتعلم عميق أكثر تقدمًا يعتمد على الشبكات العصبية التلافيفية، والتي تحاكي الدماغ البشري ويمكن أن تزيد من أتمتة جهود التحليلات التنبؤية.
أشكال تقنيات التحليلات التنبؤية
1. التنقيب عن البيانات
التنقيب عن البيانات هو أسلوب يجمع بين الإحصائيات والتعلم الآلي لاكتشاف الحالات الشاذة والأنماط والارتباطات في مجموعات البيانات الضخمة، ومن خلال هذه العملية يمكن للشركات تحويل البيانات الأولية إلى ذكاء الأعمال رؤى البيانات في الوقت الفعلي والتنبؤات المستقبلية التي تساعد في صنع القرار.
ينطوي التنقيب عن البيانات على تحديد البيانات المتكررة وغير المهيكلة واكتشاف الأنماط التي تبرز الرؤى ذات الصلة، وتحليل البيانات الاستكشافية (EDA) هو نوع من تقنيات التنقيب عن البيانات التي تتضمن تحليل مجموعات البيانات؛ لتلخيص خصائصها الرئيسية وغالبًا باستخدام الأساليب المرئية.
2. تخزين البيانات
- تخزين البيانات هو الأساس لمعظم جهود التنقيب عن البيانات على نطاق واسع، ومستودع البيانات هو نوع من أنظمة إدارة البيانات مصمم لتمكين ودعم جهود ذكاء الأعمال.
- يقوم بذلك عن طريق مركزية مصادر البيانات المتعددة ودمجها مثل: ملفات سجل التطبيق وبيانات المعاملات من أنظمة نقاط البيع (POS).
- عادةً ما يتكون مستودع البيانات من قاعدة بيانات مترابطة لتخزين البيانات واستردادها وخط استخراج ونقل وتحميل (ETL) لإعداد البيانات للتحليل وأدوات التحليل الإحصائي وأدوات تحليل العميل لتصور البيانات وتقديمها إلى عملاء.
3. التجميع
التجميع هو أحد أكثر تقنيات التنقيب عن البيانات شيوعًا والذي يستخدم التعلم الآلي لتجميع الكائنات في فئات بناءً على أوجه التشابه بينها، وبالتالي تقسيم مجموعة بيانات كبيرة إلى مجموعات فرعية أصغر كتجميع العملاء بناءً على عادات الشراء المماثلة أو القيمة الدائمة، وبالتالي إنشاء شرائح العملاء وتمكين الأعمال التجارية من إنشاء حملات تسويقية مخصصة على نطاق واسع.
التجميع الصلب يعني أنّه يتم تخصيص نقاط البيانات مباشرةً للفئات، ويقوم التجميع الناعم بتعيين احتمال أن تنتمي نقطة البيانات إلى مجموعة واحدة أو أكثر بدلاً من تعيين نقطة البيانات هذه إلى نظام مجموعة، وتعني (K) أن التجميع هو أحد أكثر خوارزميات التعلم الآلي غير الخاضعة للإشراف شيوعًا، وتتضمن هذه التقنية البحث عن عدد ثابت من المجموعات في مجموعة بيانات بناءً على الرقم المستهدف (k) ويتم تخصيص كل نقطة بيانات إلى مجموعة عن طريق تقليل مجموع المربعات داخل المجموعة.
4. التصنيف
التصنيف هو أسلوب تنبؤ يستلزم حساب احتمالية انتماء عنصر ما إلى فئة معينة، وتسمى مشكلة الفئتين بمشكلة التصنيف الثنائي بينما المشكلة مع أكثر من فئتين هي مشكلة تصنيف متعدد الفئات، وتولد نماذج التصنيف قيمة مستمرة تعبر عن احتمال أن تنتمي ملاحظة إلى فئة معينة تُعرف أيضًا بالثقة، كما يمكن تحويل الاحتمالية المتوقعة إلى تسمية فئة عن طريق تحديد الفئة ذات الاحتمالية الأعلى.
5. النمذجة التنبؤية
النمذجة التنبؤية هي تقنية نمذجة إحصائية تستخدم فيها الاحتمالات والتنقيب في البيانات للتنبؤ بالأحداث المستقبلية، كما تُستخدم هذه التنبؤات بعد ذلك لتطبيق الإجراءات أو القرارات المستقبلية.
6. الانحدار اللوجستي
تُعد نمذجة الانحدار اللوجستي إحدى الأدوات الأساسية للنمذجة التنبؤية، والغرض الرئيسي من تقنيات الانحدار هو إيجاد الارتباطات بين المدخلات والمخرجات في شكل تعبير خطي يصف قوة العلاقة في شكل معادلة رياضية، حيث تعبر الصيغة عن المخرجات كدالة للمدخلات زائد ثابت ثم يتم استخدام هذه العلاقة الخطية للتنبؤ بالقيمة العددية المستقبلية للمتغير.
يسمى المتغير الذي يتم توقعه بالمتغير التابع في حين أنّ العوامل المستخدمة للتنبؤ بقيمة المتغير التابع تُعرف بالمتغيرات المستقلة، وهناك نوعان من نماذج الانحدار هي الانحدار الخطي البسيط (متغير تابع واحد ومتغير مستقل واحد) وانحدار خطي متعدد (متغير تابع واحد ومتغيرات مستقلة متعددة).
7. تحليل السلاسل الزمنية
تحليل السلاسل الزمنية هو طريقة لتحليل بيانات السلاسل الزمنية، كما تتنبأ نماذج السلاسل الزمنية بالقيم المستقبلية بناءً على القيم التي لوحظت سابقًا، والسلسلة الزمنية هي سلسلة من نقاط البيانات التي تحدث خلال فترة زمنية وعلى سبيل المثال التغيرات في متوسط دخل الأسرة أو سعر السهم بمرور الوقت، وفي هذه الحالة تحدث القيم المتوقعة على طول سلسلة متصلة بالنسبة إلى الوقت، وإنّها مفيدة للغاية للتنبؤ بالسلوك أو المقاييس خلال فترة زمنية أو في القرارات التي تنطوي على عامل عدم اليقين بمرور الوقت.
8. الشبكات العصبية
تستخدم الشبكات العصبية على نطاق واسع لمشاكل تصنيف البيانات وهي مستوحاة من الناحية البيولوجية من الدماغ البشري، كما تستخدم معظم الشبكات العصبية معادلات رياضية لتنشيط الخلايا العصبية، حيث يتوافق كل مدخل مع ناتج، يتم إنشاء الشبكة العصبية عن طريق إنشاء شبكة من عقد الإدخال (حيث يتم إدخال البيانات)، وعقد الإخراج (التي تظهر النتائج عند مرور البيانات عبر الشبكة) وطبقة مخفية بين هذه العقد.
الطبقة المخفية هي التي تجعل الشبكة أكثر ذكاءً من الأدوات التنبؤية التقليدية؛ لأنّها “تتعلم” بالطريقة التي يتعلم بها الإنسان من خلال تذكر الاتصالات السابقة في البيانات ودمج هذه البيانات في الخوارزمية، ومع ذلك تمثل هذه الطبقة المخفية علماء البيانات الذين لا يمكنهم بالضرورة فهم كيفية إنتاج الخوارزمية لحساباتها وفقط المدخلات والمخرجات يمكن ملاحظتها مباشرة.
9. الذكاء الاصطناعي والتعلم الآلي
في سياق النمذجة التنبؤية يُعد التعلم الآلي طريقة للتعلم الحسابي تقوم بتحليل البيانات وإنشاء نموذج يناسب البيانات، لكنّ نماذج التعلم الآلي هذه هي في الأساس صناديق سوداء، حيث يتم اشتقاق النماذج مباشرة من البيانات كنتيجة للتعلم الآلي ودون الاعتماد على البرمجة الواضحة من قبل الإنسان.
وبالتالي فإنّ فعالية تقنيات التعلم الآلي تتوقف على جودة بيانات التدريب، والبيانات المتحيزة أو القديمة أو التي لا تمثل السكان المستهدفين بشكل كافٍ تؤدي إلى تآكل دقة تنبؤات النموذج، وتتمثل ميزة التعلم الآلي في أنه يمكن اشتقاق أنماط من ملايين الملاحظات، ويستخدم النموذج بعد ذلك التعرف على الأنماط هذا لتدريب نفسه على تعلم التعرف على الأنماط في البيانات التي لم يرها بعد.