خوارزمية شجرة القرار Decision Tree Algorithm

اقرأ في هذا المقال


في عالم “البيانات الضخمة” اليوم يعني مصطلح “تنقيب البيانات” أنّه هناك حاجة إلى النظر في مجموعات البيانات الكبيرة وإجراء “التنقيب” على البيانات وإبراز جوهر ما تريد البيانات، ومن بين الأدوات في التنقيب عن البيانات تُعد “شجرة القرار” واحدة منها وبالتالي يُعد التنقيب عن البيانات في حد ذاته مجالًا واسعًا.

ما هي خوارزمية شجرة القرار

خوارزمية شجرة القرار: هي نوع من تقنيات التنقيب عن البيانات التي تبني نموذجًا لتصنيف البيانات، وتم بناء النماذج على شكل هيكل شجري وبالتالي تنتمي إلى شكل التعلم الخاضع للإشراف، بخلاف نماذج التصنيف تُستخدم أشجار القرار لبناء نماذج الانحدار للتنبؤ بتسميات الفئات أو القيم التي تساعد في عملية صنع القرار.

وتقسم الخوارزمية مجموعة البيانات إلى مجموعات فرعية بناءً على السمة الأكثر أهمية، بحيث يتم تعيين السمة الأكثر أهمية في عقدة الجذر وهذا هو المكان الذي يحل فيه التقسيم مكان مجموعة البيانات الكاملة الموجودة في عقدة الجذر، ويُعرف هذا التقسيم بـ “عقد القرار” وفي حالة عدم وجود المزيد من الانقسام فإنّ هذه العقدة تسمى “عقدة طرفية”.

مبدأ عمل خوارزمية شجرة القرار

لإيقاف الخوارزمية من الوصول إلى مرحلة ضخمة يتم استخدام معيار الإيقاف، وأحد معايير التوقف هو الحد الأدنى لعدد الملاحظات في العقدة قبل حدوث الانقسام، حيث أثناء تطبيق شجرة القرار في تقسيم مجموعة البيانات يجب أن يكون المرء حذرًا من أن العديد من العقد قد تحتوي على بيانات متطرفة.

لتلبية مشكلات البيانات الخارجية أو المتطرفة، يتم استخدام تقنيات تُعرف باسم “تقليم البيانات” ولا يُعد تقليم البيانات سوى خوارزمية لتصنيف البيانات من المجموعة الفرعية ممّا يجعل من الصعب التعلم من نموذج معين، ويتم إصدار خوارزمية شجرة القرار باسم (ID3 التكراري)، ومخطط عمل لخوارزمية شجرة القرار هو:

  • يتم أخذ نقاط بيانات (n) لفهم للكود الزائف ولكل منها سمات (k)، ويتم وضع المخطط الانسيابي مع الأخذ في الاعتبار “كسب المعلومات” كشرط للتقسيم.
  • بدلاً من كسب المعلومات (IG) يمكن أيضًا استخدام مؤشر جيني (Gini Index) كمعايير مقسمة ولفهم الفرق بين هذين المعيارين من حيث المصطلحات العادية، يمكن التفكير في كسب المعلومات هذا على أنّه اختلاف في (Entropy) قبل الانقسام وبعد الانقسام (الانقسام بناءً على جميع الميزات المتاحة).
  • إنّ الانتروبيا (Entropy) مثل العشوائية وستصل إلى نقطة بعد الانقسام لنحصل على أقل حالة عشوائية ومن ثم يجب أن يكون اكتساب المعلومات هو الأفضل في الميزة التي يجب تقسيمها، حيث إذا تم اختيار القسمة على أساس مؤشر (Gini Index) فسيجد فهرس جيني لسمات مختلفة ونستخدمها، كما يتم اكتشاف المؤشر الجيني الموزون لتقسيم مختلف واستخدام المؤشر الجيني أعلى لتقسيم مجموعة البيانات.

مصطلحات خوارزمية شجرة القرار

  • عقدة الجذر: وهذه هي العقدة الأولى التي يحدث فيها الانقسام.
  • العقدة الورقية: وهذه هي العقدة التي لا يوجد بعدها مزيد من التفرع.
  • عقدة القرار: وتُعرف العقدة التي تشكلت بعد تقسيم البيانات من عقدة سابقة باسم عقدة القرار.
  • الفرع: وهو قسم فرعي من شجرة يحتوي على معلومات حول تداعيات الانقسام عند عقدة القرار.
  • التقليم: وعند إزالة العقد الفرعية لعقدة القرار لتلبية احتياجات البيانات الخارجية أو المتطرفة يسمى “التقليم” ويُعتقد أيضًا أنّه عكس الانقسام.

تطبيقات خوارزمية شجرة القرار

تحتوي شجرة القرار على نوع مخطط انسيابي من البنية المدمجة مع نوع الخوارزمية، حيث يحتوي بشكل أساسي على نمط (If X else Y else Z) أثناء إجراء الانقسام، كما يستخدم هذا النوع من الأنماط لفهم الحدس البشري في المجال البرنامجي ومن ثم يمكن للمرء استخدام هذا على نطاق واسع في مشاكل التصنيف المختلفة:

  • يمكن استخدام هذه الخوارزمية على نطاق واسع في المجال الذي ترتبط فيه الوظيفة الهدف بتحليلها.
  • عندما يكون هناك العديد من مسارات العمل المتاحة.
  • تحليل البيانات الناتجة.
  • فهم مجموعة الميزات المهمة لمجموعة البيانات بأكملها و”خاص m” بالميزات القليلة من قائمة تضم مئات الميزات في البيانات الضخمة.
  • اختيار أفضل رحلة للسفر إلى وجهة معينة.
  • عملية صنع القرار على أساس المواقف الظرفية المختلفة.

مزايا خوارزمية شجرة القرار

  • سهولة الفهم: والطريقة التي يتم بها تصوير شجرة القرار في أشكالها الرسومية تجعل من السهل فهمها بالنسبة لشخص لديه خلفية غير تحليلية، وخاصةً بالنسبة للأشخاص في القيادة الذين يرغبون في إلقاء نظرة على الميزات المهمة فإنّ مجرد إلقاء نظرة على شجرة القرار يمكن أن يبرز فرضيتهم.
  • استكشاف البيانات: حيث إنّ الحصول على متغيرات مهمة هو وظيفة أساسية لشجرة القرار واستخدام نفس الشيء ويمكن للمرء أن يكتشف أثناء استكشاف البيانات تحديد المتغير الذي يحتاج إلى اهتمام خاص أثناء مرحلة التنقيب عن البيانات والنمذجة.
  • هناك القليل جدًا من التدخل البشري أثناء مرحلة إعداد البيانات، ونتيجةً لذلك يقل الوقت المستغرق أثناء البيانات ويتم تقليل التنظيف.
  • شجرة القرار قادرة على التعامل مع المتغيرات الفئوية وكذلك العددية، كما أنّها تلبي مشاكل التصنيف متعدد الفئات أيضًا وكجزء من الافتراض لا تملك أشجار القرار أي افتراض من التوزيع المكاني وبنية المصنف.

تجلب خوارزمية أشجار القرار فئة مختلفة تمامًا من اللاخطية وتخدم حل المشكلات على اللاخطية في عملية التنقيب عن البيانات، وهذه الخوارزمية هي أفضل خيار لتقليد تفكير البشر على مستوى القرار وتصويره في شكل رسوم بيانية رياضية ويأخذ نهجًا من أعلى إلى أسفل في تحديد النتائج من البيانات الجديدة غير المرئية ويتبع مبدأ فرق تسد.

المصدر: Foundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: