أفضل ممارسات الانحدار الخطي في علم البيانات

اقرأ في هذا المقال


الانحدار الخطي هو طريقة تعلم تقارن متغيرات الإدخال والنواتج بناءً على البيانات المعروفة، حيث يتم استخدامه لإيجاد العلاقة بين المتغيرين والتنبؤ بالنتائج المستقبلية بناءً على العلاقات السابقة.

ما هي ممارسات الانحدار الخطي في علم البيانات

الانحدار الخطي البسيط مفيد في إيجاد علاقة بين متغيرين مستمرين، حيث تكشف الصيغة عن علاقة إحصائية وليست علاقة حتمية، وبمعنى آخر يمكن أن تعبر عن الارتباط وليس السببية وإنّه يوضح مدى ارتباط القيمتين بشكل وثيق ولكن ليس إذا تسبب أحد المتغيرات في الآخر.

والفكرة الأساسية من الانحدار الخطي هي الحصول على خط يناسب البيانات بشكل أفضل، وأفضل خط مناسب هو الخط الذي يكون فيه إجمالي خطأ التنبؤ (جميع نقاط البيانات) صغيرًا قدر الإمكان والخطأ هو المسافة بين النقطة إلى خط الانحدار، وعند العمل باستخدام الانحدار الخطي فإنّ الهدف الرئيسي هو العثور على أفضل خط ملائم، ممّا يعني أنّه يجب تقليل الخطأ بين القيم المتوقعة والقيم الفعلية أفضل خط مناسب سيكون له أقل خطأ.

1- استخدام دالة التكلفة

  • تعطي القيم المختلفة للأوزان أو معامل الخطوط خط الانحدار المختلف ويتم استخدام دالة التكلفة لتقدير قيم المعامل لأفضل خط ملائم.
  • تعمل دالة التكلفة على تحسين معاملات الانحدار أو الأوزان وتقيس كيفية أداء نموذج الانحدار الخطي.
  • يمكن استخدام دالة التكلفة للعثور على دقة وظيفة التعيين والتي تحدد متغير الإدخال إلى متغير الإخراج، كما تُعرف وظيفة التعيين هذه أيضًا باسم “وظيفة الفرضية”.
  • والمسافة بين القيمة الفعلية والقيم المتوقعة تسمى “المتبقية”، وإذا كانت النقاط الملحوظة بعيدة عن خط الانحدار فإنّ المتبقي سيكون مرتفعًا وبالتالي ستكون دالة التكلفة عالية.
  • إذا كانت نقاط التشتت قريبة من خط الانحدار، فإن المتبقي سيكون صغيرًا ومن ثم دالة التكلفة.

2- استخدام الانحدار المتدرج

  • يستخدم الانحدار المتدرج لتقليل (MSE) عن طريق حساب التدرج اللوني لوظيفة التكلفة.
  • يستخدم نموذج الانحدار النسب المتدرج لتحديث معاملات الخط عن طريق تقليل دالة التكلفة.
  • يتم ذلك عن طريق اختيار عشوائي لقيم المعامل ثم تحديث القيم بشكل متكرر للوصول إلى دالة التكلفة الدنيا.

المصدر: Foundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: