ما هي تقنية الانحدار في عملية التنقيب عن البيانات

اقرأ في هذا المقال


يشير الانحدار إلى تقنية التنقيب عن البيانات المستخدمة للتنبؤ بالقيم الرقمية في مجموعة بيانات معينة، ويمكن استخدام الانحدار للتنبؤ بتكلفة المنتج أو الخدمة أو المتغيرات الأخرى، كما أنّها تستخدم في صناعات مختلفة لسلوك الأعمال والتسويق وتحليل الاتجاهات والتنبؤ المالي.

ما هي تقنية الانحدار في تنقيب البيانات

يشير الانحدار إلى نوع من تقنيات التعلم الآلي الخاضعة للإشراف والتي تُستعمل للتنبؤ بأي سمة ذات قيمة مستمرة، حيث يساعد الانحدار أي مؤسسة تجارية على تحليل المتغير المستهدف والتنبؤ بالعلاقات المتغيرة، كما أنّها الأداة الأكثر أهمية لتحليل البيانات التي يمكن استخدامها للتنبؤ المالي ونمذجة السلاسل الزمنية.

يتضمن الانحدار تقنية تركيب خط مستقيم أو منحنى على العديد من نقاط البيانات ويحدث ذلك بوسيلة تجعل المسافة بين نقاط البيانات والعلاج هي الأدنى، وأكثر أنواع الانحدار شيوعًا هي الانحدارات الخطية واللوجستية وبخلاف ذلك يمكن إجراء العديد من أنواع الانحدار الأخرى اعتمادًا على أدائها في مجموعة بيانات فردية.

يمكن أن يتنبأ الانحدار بجميع مجموعات البيانات التابعة معبراً عنها في التعبير عن المتغيرات المستقلة ويكون الاتجاه متاحًا لفترة محدودة ويوفر الانحدار طريقة جيدة للتنبؤ بالمتغيرات، ولكن هناك بعض القيود والافتراضات مثل: استقلالية المتغيرات والتوزيعات العادية المتأصلة للمتغيرات.

أنواع تقنية الانحدار في تنقيب البيانات

1- الانحدار الخطي

الانحدار الخطي هو نوع الانحدار الذي يشكل علاقة بين المتغير الهدف ومتغير واحد أو أكثر من المتغيرات الثابتة التي تستخدم خطًا مستقيمًا، كما تمثل المعادلة المعطاة معادلة الانحدار الخطي:

Y = a + b*X + e

حيث: تمثل (a) التقاطع وتمثل (b) ميل خط الانحدار و(e) تمثل الخطأ وتمثل (X وY) المتنبئ والمتغيرات المستهدفة على التوالي، وإذا كانت (X) تتكون من أكثر من متغير واحد يُطلق عليها معادلات خطية متعددة، وفي الانحدار الخطي يتم تحقيق أفضل خط ملائم باستعمال وسيلة التربيع الصغرى ويقلل المجموع الكلي لمربعات الانحرافات من كل نقطة بيانات إلى خط الانحدار، كما لا يتم إلغاء الانحرافات الموجبة والسالبة حيث يتم تربيع جميع الانحرافات.

2- الانحدار متعدد الحدود

إذا كانت قوة المتغير المستقل أكثر من (1) في معادلة الانحدار فإنها تسمى “معادلة متعددة الحدود” وتتمثل المعادلة كالآتي:

Y = a + b * x2

في الانحدار المعين لا يعتبر أفضل خط ملائم خطًا مستقيمًا مثل المعادلة الخطية، ومع ذلك فإنّه يمثل منحنى مناسبًا لجميع نقاط البيانات، كما يمكن أن يؤدي تطبيق تقنيات الانحدار الخطي إلى زيادة التجهيز عندما تميل إلى تقليل الأخطاء عن طريق جعل المنحنى أكثر تعقيدًا.

3- الانحدار اللوجستي

عندما يكون المتغير التابع ثنائيًا بطبيعته أي (0 و1) أو صواب أو خطأ أو نجاح أو فشل تظهر تقنية الانحدار اللوجستي، كما تتراوح القيمة المستهدفة (Y) من (0 إلى 1) ويتم استخدامها بشكل أساسي للمشكلات القائمة على التصنيف، وعلى عكس الانحدار الخطي فإنّه لا يحتاج إلى أي متغيرات مستقلة أو تابعة لعلاقة خطية.

4- انحدار Ridge

يشير انحدار (Ridge) إلى عملية تُستخدم لتحليل بيانات الانحدار المتنوعة التي لديها مسألة الخطية المتعددة والترابط الخطي المتعدد هو وجود ارتباط خطي بين متغيرين مستقلين، كما يوجد انحدار (Ridge) عندما تكون تقديرات المربعات الصغرى هي الأقل تحيزًا مع تباين كبير لذا فهي مختلفة تمامًا عن القيمة الحقيقية، ومع ذلك بإضافة درجة من التحيز إلى قيمة الانحدار المقدرة ويتم تقليل الأخطاء عن طريق تطبيق انحدار (Ridge).

5- انحدار Lasso

يشير المصطلح (LASSO) إلى منخفض وتقلص مطلق وعامل التحديد، وانحدار (LASSO) هو نوع خطي من الانحدار يستخدم التقليص وفي انحدار “اللاسو” يتم تقليص جميع نقاط البيانات باتجاه نقطة مركزية تُعرف أيضًا باسم “المتوسط”، كما تُعتبر عملية (lasso) أكثر ملاءمة للنماذج البسيطة والمتفرقة مع معلمات أقل من الانحدار الآخر، وهذا النوع من الانحدار مناسب تمامًا للنماذج التي تعاني من علاقة خطية متعددة.

6- الانحدار المتعدد القياسي

النوع الأكثر شيوعًا لتحليل الانحدار المتعدد هو هذا النوع ويتم ملء المعادلة بكل المتغيرات المستقلة في نفس الوقت ويتم تقييم القدرة التنبؤية لكل متغير مستقل، وكما يمكن توقع ضغط الدم باستخدام عوامل مستقلة مثل الطول والوزن والعمر وساعات النشاط الأسبوعية.

7- الانحدار الهرمي

بعد التحكم في جميع العوامل الأخرى ويمكن استخدام الانحدار الهرمي لمعرفة ما إذا كانت المتغيرات ذات الأهمية تصف تباينًا مهمًا من الناحية الإحصائية في المتغيرات الخارجية (المتغير التابع)، وبدلاً من إجراء إحصائي يعد هذا نموذجًا لمقارنة النماذج.

8- الانحدار المعياري

هو الإنشاء المتكرر لنموذج الانحدار الذي يتم فيه اختيار نقاط البيانات التي سيتم استخدامها في النموذج النهائي خطوة بخطوة وكما يستلزم إضافة أو حذف العوامل التفسيرية المحتملة بشكل متزايد، مع كل تكرار يتطلب تقييم الأهمية الإحصائية وعلى سبيل المثال استخدام بيانات الحالة أو التحكم أو بيانات.

تطبيقات الانحدار في عملية التنقيب عن البيانات

  • يُعد الانحدار أسلوبًا شائعًا للغاية وله تطبيقات واسعة في الأعمال التجارية والصناعات، حيث يتضمن إجراء الانحدار متغير المتنبئ ومتغير الاستجابة.
  • تحليل السلوك التجاري والتسويق.
  • تحليل الاتجاهات والأنماط الجديدة.
  • نمذجة الاستجابة للأدوية.
  • تخطيط الأعمال والتسويق.
  • التنبؤ أو التنبؤ المالي.
  • المحاكاة البيئية.
  • معايرة البيانات الإحصائية.
  • العلاقة بين الكيميائيات الفيزيائية.
  • تحليل صور الأقمار الصناعية.
  • تقدير إنتاج المحاصيل.

خصائص الانحدار في عملية التنقيب عن البيانات

الانحدار والتصنيف متشابهان تمامًا مع بعضهما البعض، حيث أنّ التصنيف والانحدار هما مسألتان هامتان للتنبؤ يتم استخدامهما في التنقيب عن البيانات، والاختلاف الوحيد هو أنه في التصنيف وتكون المخرجات منفصلة بينما في الانحدار تكون المخرجات ليست كذلك، لكنّ المفاهيم غير واضحة كما هو الحال في “الانحدار اللوجستي” والذي يمكن تفسيره إمّا على أنّه تصنيف أو طريقة انحدار لذلك يصعب على المستخدم فهم وقت استعمال التصنيف والانحدار.

تشير طريقة الانحدار في تنقيب البيانات إلى تقنية للتنبؤ بالكميات العددية في كميات البيانات، حيث يمكن التنبؤ بتكلفة المنتج أو الخدمة بالإضافة إلى المتغيرات الأخرى باستخدام الانحدار، كما أنّها تُستخدم في مجموعة من الصناعات لسلوك الأعمال والتحكم البيئية وأبحاث الاتجاهات والتنبؤ المالي والانحدار هو أسلوب إحصائي يستخدم في مختلف المجالات؛ لتحديد قوة وطبيعة الاتصال بين متغير تابع واحد (يشار إليه عادةً بواسطة Y) ومجموعة من المتغيرات الأخرى تُعتبر المتغيرات المستقلة.

ويمكن توقع أي سمة ذات قيمة مستمرة باستخدام الانحدار وهو شكل من أشكال نهج التعلم الآلي الخاضع للإشراف، كما يمكن لأي مؤسسة تجارية استخدام الانحدار لفحص الارتباطات بين المتغير المستهدف ومتغير التوقع، وإنّها أداة مهمة لتحليل البيانات التي يمكن تطبيقها على تقييم الأعمال والتنبؤ بمجموعة البيانات، وتُعرف عملية ملاءمة خط مستقيم تمامًا أو منحنى لمجموعة من نقاط البيانات باسم الانحدار، وإنّها تُبنى بطريقة تجعل المسافة بين أشكال العينة والحلول هي الأقصر.

يمكن تحليل الانحدار عادةً من مقارنة تأثيرات أنواع مختلفة من متغيرات السمات المقاسة على مقاييس متعددة مثل التنبؤ بأسعار الأراضي بناءً على المنطقة، والمساحة الإجمالية والمناطق المحيطة وتساعد هذه النتائج على إزالة الميزة غير المجدية وتقييم أفضل الميزات لحساب النماذج الفعالة.

المصدر: Foundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: