ما هو تصنيف بايزي Bayesian Classification

اقرأ في هذا المقال


يقوم تصنيف “إحصاء” بايزي على “نظرية بايز”، والمصنفات البايزية هي المصنفات الإحصائية ويمكن لمصنفات بايز أن تتنبأ باحتمالات عضوية الفئة مثل احتمال أن تنتمي مجموعة معينة إلى فئة معينة من البيانات.

تعريف تصنيف بايزي

في العديد من التطبيقات يكون الاتصال بين مجموعة السمات ومتغير الفئة غير محدد، وبعبارة أخرى يمكن أن يتم تسمية الفصل لسجل الاختبار لا يمكن افتراضها على وجه اليقين على الرغم من أن مجموعة السمات الخاصة بها هي نفسها، وقد تظهر هذه الظروف بسبب البيانات المتطرفة أو وجود بعض العوامل المذهلة التي تؤثر على التصنيف، ولكن لم يتم تضمينها في التحليل.

يستخدم تصنيف بايز نظرية بايز للتنبؤ بحدوث أي حدث والمصنفات البايزية هي المصنفات الإحصائية مع تفاهمات احتمالية بايز وتعبر النظرية عن مستوى الاحتمالية ومعبراً عنه كاحتمال، وكما ظهرت نظرية بايز بعد “توماس بايز” الذي اعتمد أولاً الاحتمال الشرطي لتقديم خوارزمية تعتمد على الدليل لحساب الحدود على معلمة غير معروفة ويتم التعبير عن نظرية بايز رياضيًا بالمعادلة التالية:

P(H/X)= P(X/H)P(H) / P(X)

خصائص تصنيف بايزي

يعتمد المصنف بايزي على فكرة أن دور الفئة (الطبيعية) هو التنبؤ بقيم السمات لأعضاء تلك الفئة، ويتم تجميع الأمثلة في فئات لأن لديهم قيمًا مشتركة للميزات، وغالبًا ما تسمى هذه الفئات الأنواع الطبيعية وفي هذا القسم تتوافق الميزة الهدف مع فئة منفصلة والتي ليست بالضرورة ثنائية.

الفكرة الكامنة وراء المصنف بايزي هي أنه إذا كان الوكيل يعرف الفئة فيمكنه التنبؤ بقيم الميزات الأخرى، إذا لم تكن تعرف الفئة فيمكن استخدام قاعدة (Bayes) للتنبؤ بالفئة المعطاة (بعض) قيم الميزة، وفي مصنف بايزي يبني عامل التعلم نموذجًا احتماليًا للميزات ويعتمد هذا النموذج للتنبؤ بتصنيف مثال جديد.

المتغير الكامن هو متغير احتمالي لا يتم ملاحظته ومصنف بايز هو نموذج احتمالي، حيث يكون التصنيف متغيرًا كامنًا يرتبط احتماليًا بالمتغيرات المرصودة ثم يصبح التصنيف استنتاجًا في النموذج الاحتمالي، وأبسط حالة هي المصنف البايزي والذي يجعل افتراض الذاتية والثبات أنّ ميزات الإدخال مستقلة بشكل مشروط عن بعضها البعض بالنظر إلى التصنيف.

يتم تجسيد استقلالية المصنف بايزي (naive) في شبكة اعتقاد معينة، حيث تكون الميزات هي العقد والمتغير الهدف (التصنيف) ليس له أساس والتصنيف هو الأصل الوحيد لكل ميزة إدخال، كما تتطلب شبكة الاعتقاد هذه التوزيعات الاحتمالية “P (Y)” للميزة المستهدفة (Y) و”P (Xi | Y)” لكل ميزة إدخال (Xi)، ويمكن حساب التنبؤ عن طريق التكييف على القيم المرصودة لميزات الإدخال وعن طريق الاستعلام عن التصنيف.

مبدأ عمل تصنيف بايزي

1- تفسير بايزي

في تفسير بايزي يحدد الاحتمال “درجة الاعتقاد”، وتربط نظرية بايز درجة الاعتقاد في الفرضية قبل وبعد حساب الأدلة وترتبط درجة الاعتقاد في الفرضية قبل النظر في الدليل بدرجة الاعتقاد في الفرضية بعد النظر في نفس الفرضية.

2- شبكات الاعتقاد البايزية

تحدد شبكات الاعتقاد البايزية التوزيعات الاحتمالية المشروطة المشتركة، وتُعرف أيضًا باسم شبكات بايزي أو الشبكات الاحتمالية حيث تسمح شبكة المعتقدات بتحديد الاستقلالية الشرطية للفئة بين مجموعات فرعية من المتغيرات، ويوفر نموذجًا رسوميًا للعلاقة السببية التي يمكن إجراء التعلم عليها، ويمكن استخدام شبكة بايزي المدربة للتصنيف، وهناك نوعان من المكونات التي تحدد شبكة الاعتقاد بايزي:

  • توجيه الرسم البياني غير الدوري.
  • مجموعة من جداول الاحتمال الشرطي.

كما يتم تمثيل كل عقدة في الرسم البياني غير الدوري الموجه متغيرًا عشوائيًا، وقد تكون هذه المتغيرات منفصلة أو ذات قيمة مستمرة وقد تتوافق هذه المتغيرات مع السمة الفعلية الواردة في البيانات، وتندرج شبكة بايز تحت تصنيف إجراء النمذجة الرسومية الاحتمالية (PGM) الذي يستخدم لحساب حالات عدم اليقين من خلال استخدام مفهوم الاحتمالية.

وتُستخدم شبكات (Bayesian) المعروفة عمومًا باسم شبكات المدينة، لإظهار أوجه عدم اليقين باستخدام الرسوم البيانية غير الدورية الموجهة (DAG)، ويستخدم الرسم البياني غير الدوري الموجه لإظهار شبكة بايزي ومثل بعض الرسوم البيانية الإحصائية الأخرى يتكون (DAG) من مجموعة من العقد والروابط، حيث تشير الروابط إلى الاتصال بين العقد.

تطبيقات نظرية بايز

  • يمكن استخدامها كحجر بناء ونقطة انطلاق لمنهجيات أكثر تعقيدًا وعلى سبيل المثال شبكات (Bayesian) الشائعة.
  • تستخدم في مشاكل التصنيف والأسئلة الأخرى المتعلقة بالاحتمالات.
  • الاستدلال البايزي، ونهج خاص للاستدلال الإحصائي.
  • في علم الوراثة يمكن استخدام نظرية بايز لحساب احتمالية امتلاك الفرد نمطًا وراثيًا معينًا.

أثناء التنقيب في البيانات ستجد أنّ الاتصال بين متغير الفئة ومجموعة السمات غير محدد، وهذا يعني أنّه لا يمكن افتراض تسمية الفصل لسجل الاختبار بيقين مطلق حتى لو كانت مجموعة السمات هي نفسها أمثلة التدريب، وتحدد نظرية بايز إمكانية تأثير حدث بالاعتماد على معرفة سابقة بالأمور التي قد تُعد متصلة بالحدث ومعنى آخر نظرية بايز هي إضافة لـ “الاحتمال الشرطي”.

المصدر: Foundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: