ما هو الانحدار الخطي في علم البيانات

اقرأ في هذا المقال


يُعد الانحدار الخطي مثاليًا لنمذجة الارتباطات الخطية في علم البيانات وكذلك الارتباطات الخطية تقريبًا وبالإضافة إلى ذلك فهو يتمتع بأداء ممتاز مقارنة بأساليب التعلم الإحصائي الأخرى نظرًا لتعقيدها، وهذا يجعل الانحدار الخطي في كثير من الأحيان طريقة الاختيار عندما تكون جودة التنبؤ جيدة كما هو الحال مع الطرق الأخرى الأكثر تعقيدًا.

ما هو الانحدار الخطي

الانحدار الخطي: هو خوارزمية تعلم خاضعة للإشراف شهيرة تستخدم للتنبؤ بمخرجات ذات قيمة حقيقية، ونموذج الانحدار الخطي هو مزيج خطي من ميزات أمثلة الإدخال، وهو ممارسة إحصائية لحساب خط مستقيم يحدد علاقة رياضية بين متغيرين بحيث توفر علاقة خطية بين متغير مستقل ومتغير تابع للتنبؤ بنتيجة الأحداث المستقبلية.

خصائص الانحدار الخطي في علم البيانات

  • الانحدار الخطي هو خوارزمية توفر علاقة خطية بين متغير ثابت ومتغير تابع للتنبؤ بنتيجة الأحداث المستقبلية.
  • إنّها طريقة إحصائية تستخدم في علوم البيانات والتعلم الآلي للتحليل التنبؤي.
  • المتغير المستقل هو أيضًا المتنبئ أو المتغير التوضيحي الذي يظل دون تغيير بسبب التغيير في المتغيرات الأخرى، ومع ذلك يتغير المتغير التابع مع التقلبات في المتغير المستقل.
  • يتنبأ نموذج الانحدار بقيمة المتغير التابع وهو الاستجابة أو متغير النتيجة الذي يتم تحليله أو دراسته.
  • وبالتالي فإنّ الانحدار الخطي هو خوارزمية تعلم خاضعة للإشراف تحاكي العلاقة الرياضية بين المتغيرات وتضع تنبؤات للمتغيرات المستمرة أو الرقمية.
  • تُعد طريقة التحليل هذه مفيدة عندما يتوفر متغيرين على الأقل في البيانات، كما هو ملاحظ في التنبؤ بإدارة المحافظ والتحليل العلمي.

كيفية عمل الانحدار الخطي المتجه في علم البيانات

يستخدم الانحدار الخطي بيانات التدريب لتحديد التأثير الخطي للمعلمات المختلفة على القيمة المستهدفة، حيث يتم عرض هذه التأثيرات الخطية كمعامِلات للمعلمات الفردية وتؤدي إلى نموذج الانحدار، وبمساعدة هذا النموذج يمكن بعد ذلك التنبؤ بالقيم المستهدفة غير المعروفة بمعلمات معينة بالاقتران مع المعاملات المحسوبة، وفي حالة وجود قيمة مستهدفة واحدة يتم وصف نموذج الانحدار من خلال وظيفة النموذج الخطي المتعددة.

وغالبًا ما يتطلب الانحدار الخطي أن يتم توزيع النتيجة (التابعة) والمتغيرات المستقلة بشكل طبيعي حتى يكون التحليل صحيحًا حيث يجب توزيع القيم المتبقية (الفرق بين المتغير التابع المتوقع والمتغيرات المستقلة المرصودة) بشكل طبيعي، حتى تكون الاختبارات صالحة، والسبب الشائع للمخلفات الموزعة بشكل غير طبيعي هو المتغيرات المعتمدة أو المتنبئة الموزعة بشكل غير طبيعي.

الفوائد الرئيسية للانحدار الخطي

1. سهولة التنفيذ

نموذج الانحدار الخطي سهل التنفيذ حسابيًا لأنه لا يتطلب الكثير من النفقات الهندسية ولا قبل إطلاق النموذج ولا أثناء تعديله.

2. التفسير

على عكس نماذج التعلم العميق الأخرى (الشبكات التلافيفية)، فإن الانحدار الخطي بسيط نسبيًا، ونتيجةً لذلك تقف هذه الخوارزمية في مقدمة النماذج التي تقصر في تبرير متغير الإدخال الذي يتسبب في تغيير متغير الإخراج.

3. قابلية التوسع

الانحدار الخطي ليس ثقيلًا من الناحية الحسابية وبالتالي فهو مناسب تمامًا للحالات التي يكون فيها القياس ضروريًا، وعلى سبيل المثال يمكن للنموذج أن يتوسع بشكل جيد فيما يتعلق بحجم البيانات المتزايد (البيانات الضخمة).

4. مثالي للإعدادات عبر الإنترنت

تتيح سهولة حساب هذه الخوارزميات استخدامها في الإعدادات عبر الإنترنت، ويمكن تدريب النموذج وإعادة تدريبه مع كل مثال جديد لتوليد تنبؤات في الوقت الفعلي، وعلى عكس الشبكات العصبية أو آلات ناقلات الدعم الثقيلة من الناحية الحسابية وتتطلب الكثير من موارد الحوسبة ووقت انتظار كبير لإعادة التدريب على مجموعة بيانات جديدة، وكل هذه العوامل تجعل هذه النماذج كثيفة الحوسبة باهظة الثمن وغير مناسبة للتطبيقات في الوقت الفعلي.

ما هي أنواع الانحدار الخطي

1- الانحدار الخطي البسيط

يكشف الانحدار الخطي البسيط عن العلاقة بين المتغير التابع (المدخلات) والمتغير المستقل (المخرجات)، وبشكل أساسي يصف هذا النوع من الانحدار على قوة العلاقة بين المتغيرات المعطاة، كالعلاقة بين مستويات التلوث وارتفاع درجات الحرارة وكما تعتمد قيمة المتغير التابع على قيمة المتغير المستقل كقيمة مستوى التلوث عند درجة حرارة معينة.

2- الانحدار الخطي المتعدد

يؤسس الانحدار الخطي المتعدد العلاقة بين المتغيرات المستقلة (متغيران أو أكثر) والمتغير التابع المقابل، حيث يمكن أن تكون المتغيرات المستقلة إما مستمرة أو قاطعة، ويساعد هذا النوع من الانحدار في التنبؤ بالاتجاهات وتحديد القيم المستقبلية والتنبؤ بتأثيرات التغييرات ويمكن اعتبار الطول والوزن ومقدار التمرين متغيرات مستقلة ويمكن استخدام الانحدار الخطي المتعدد لتحليل العلاقة بين المتغيرات الثلاثة المستقلة ومتغير تابع واحد، حيث أن جميع المتغيرات المدروسة كمية.

3. الانحدار اللوجستي

الانحدار اللوجستي ويشار إليه أيضًا باسم “النموذج اللوجيستي” وهو قابل للتطبيق في الحالات التي يوجد فيها متغير تابع واحد ومتغيرات مستقلة أكثر، بحيث يتمثل الاختلاف الأساسي بين الانحدار المتعدد والانحدار اللوجستي في أنّ المتغير المستهدف في النهج اللوجستي منفصل (قيمة ثنائية أو قيمة ترتيبية)، ومما يعني أن المتغير التابع محدود أو قاطع إمّا (P أو Q) (الانحدار الثنائي) أو مجموعة من الخيارات المحدودة (P أو Q أو R أو S).

تقتصر القيمة المتغيرة على نتيجتين محتملتين فقط في الانحدار الخطي ومع ذلك يعالج الانحدار اللوجستي هذه المشكلة، حيث يمكنه إرجاع درجة احتمالية توضح فرص أي حدث معين، ويمكن تحديد احتمالية اختيار عرض على موقع الويب الخاص بك (متغير تابع)، وعلاوةً على ذلك يتم استخدام الانحدار اللوجستي على نطاق واسع في خوارزميات التعلم الآلي في حالات مثل اكتشاف البريد الإلكتروني العشوائي.

4. الانحدار الترتيبي

يتضمن الانحدار الترتيبي متغيرًا ثنائي التفرع تابعًا واحدًا ومتغيرًا مستقلًا واحدًا ويمكن أن يكون إما ترتيبيًا أو اسميًا ويسهل التفاعل بين المتغيرات التابعة ذات المستويات المتعددة المرتبة مع واحد أو أكثر من المتغيرات المستقلة، وبالنسبة للمتغير التابع مع فئات (m) سيتم إنشاء معادلات (m -1)، وكل معادلة لها تقاطع مختلف ولكن نفس معاملات الميل لمتغيرات التوقع.

وبالتالي فإن الانحدار الترتيبي يخلق معادلات تنبؤ متعددة لفئات مختلفة، حيث في التعلم الآلي ويشير الانحدار الترتيبي إلى ترتيب التعلم أو تحليل الترتيب المحسوب باستخدام نموذج خطي معمم (GLM).

ملاحظة:“GLM” هي اختصار لـ “Generalized Linear Models”.

5. الانحدار اللوجستي متعدد الحدود

يتم إجراء الانحدار اللوجستي متعدد الحدود (MLR) عندما يكون المتغير التابع اسميًا بأكثر من مستويين، بحيث يحدد العلاقة بين متغير اسمي تابع واحد ومتغير واحد أو أكثر من المتغيرات المستقلة، وذات المستوى المستمر (الفاصل الزمني والنسبة أو ثنائية التفرع)، كما يشير المتغير الاسمي إلى متغير بدون ترتيب جوهري، والمتغير التابع هو اختيار البرامج ذات المستويات المتعددة (غير مرتبة)، كما يتم استخدام تقنية الانحدار اللوجستي متعدد الحدود لعمل تنبؤات في مثل هذه الحالة.

الانحدار الخطي هو أداة إحصائية شائعة تستخدم في علم البيانات وذلك بفضل الفوائد العديدة التي يقدمها، وكان الانحدار الخطي قوة دافعة حاسمة وراء العديد من تطبيقات الذكاء الاصطناعي وعلوم البيانات، وهذه التقنية الإحصائية مفيدة للشركات لأنّها طريقة بسيطة وقابلة للتفسير وفعالة لتقييم الاتجاهات وعمل تقديرات أو تنبؤات مستقبلية.

المصدر: Data Science from Scratch: First Principles with Python by Joel Grus / 2nd EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionFoundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First Edition


شارك المقالة: