طريقة التقسيم للخوارزمية التصنيفية K-Mean

اقرأ في هذا المقال


مع الاستخدام المتزايد للإنترنت في مجتمع اليوم فإنّ كمية البيانات التي تم إنشاؤها ضخمة بشكل غير مفهوم وعلى الرغم من أنّ طبيعة البيانات الفردية واضحة ومباشرة، إلّا أنّ الكم الهائل من البيانات المراد تحليلها يجعل المعالجة صعبة حتى بالنسبة لأجهزة الكمبيوتر، و(K-Mean) هي تقنية لتجميع البيانات يمكن استخدامها للتعلم الآلي غير الخاضع للإشراف وإنّه قادر على تصنيف البيانات غير المسماة إلى عدد محدد مسبقًا من المجموعات بناءً على أوجه التشابه (k).

ما هي طريقة التقسيم للخوارزمية التصنيفية K-Mean

طريقة التقسيم (K-Mean): هي طريقة التجميع التي تصنف المعلومات إلى مجموعات متعددة بناءً على خصائص وتشابه البيانات، ويقوم محللو البيانات بتحديد عدد المجموعات التي يجب إنشاؤها لطرق التجميع وفي طريقة التقسيم عندما تحتوي قاعدة البيانات (D) التي تحتوي على كائنات متعددة (N)، تقوم طريقة التقسيم بإنشاء أقسام محددة من قبل المستخدم (K) من البيانات التي يمثل فيها كل قسم مجموعة ومنطقة معينة.

طريقة التقسيم للخوارزمية التصنيفية K-Mean في التنقيب

هناك العديد من الخوارزميات التي تندرج تحت طريقة التقسيم، و(K-Mean) أسلوب قائم على النقطه الوسطى بحيث تأخذ خوارزمية (K) تعني معلمة الإدخال (K) من المستخدم، وتقسم مجموعة البيانات التي تحتوي على كائنات (N) إلى مجموعات (K) بحيث يكون التشابه الناتج بين كائنات البيانات داخل المجموعة (intracultural) مرتفعًا، ولكن تشابه كائنات البيانات مع كائنات البيانات من خارج الكتلة منخفض (interclassed).

عند استخدام خوارزمية (K-mean)، يجب أن نضع في الاعتبار تطبيع البيانات أثناء التعامل مع خوارزميات التجميع مثل (K-Means) نظرًا لأن هذه الخوارزميات تستخدم القياس القائم على المسافة لتحديد التشابه بين نقاط البيانات، وبسبب الطبيعة التكرارية لـ (K-Means) والتهيئة العشوائية للنقط الوسطى، وقد تصبح (K-Means) عالقة في المستوى المحلي الأمثل وتفشل في التقارب مع المستوى الأمثل العالمي، ونتيجةً لذلك يُنصح باستخدام عمليات تهيئة النقط الوسطى المميزة.

و(K-mean clustering) هو طريقة تقسيم وكما هو متوقع حيث تحلل هذه الطريقة مجموعة بيانات إلى مجموعة من المجموعات المفككة وبالنظر إلى مجموعة البيانات تُنشئ طريقة التقسيم عدة أقسام من هذه البيانات، حيث يمثل كل قسم مجموعة وكما تعمل هذه الطرق على إعادة تحديد موضع المثيلات عن طريق نقلها من مجموعة إلى أخرى بدءًا من التقسيم الأولي.

وخوارزمية (K-mean) عبارة عن خوارزمية تجميع تم تصميمها في عام (1967) بواسطة (MacQueen) والتي تسمح بتقسيم مجموعات من الكائنات إلى أقسام (K) بناءً على سماتها، كما إنّه تباين في خوارزمية رفع التوقع (EM) التي تهدف إلى تحديد مجموعات البيانات (K) الناتجة عن توزيعات (Gaussian)، وتختلف خوارزمية (K-mean) في الطريقة المستخدمة لحساب المسافة الإقليدية أثناء حساب المسافة بين كل عنصر من عنصري البيانات ويستخدم (EM) الأساليب الإحصائية.

عمل الخوارزمية التصنيفية K-Mean

  • توفير عدد المجموعات (K) التي يجب إنشاؤها بواسطة هذه الخوارزمية.
  • بعد ذلك تحديد نقاط بيانات (K) عشوائيًا وقم بتعيين كل منها إلى مجموعة، وتصنيف البيانات بناءً على عدد نقاط البيانات.
  • يتم بعد ذلك حساب النقط الوسطى العنقودية.
  • تكرير الخطوات التالية حتى يتم إيجاد النقطة المركزية المثالية وهي تعيين نقاط البيانات لمجموعات لا تختلف.
  • يتم حساب مجموع المسافات التربيعية بين نقاط البيانات والنقط الوسطى أولاً.
  • في هذه المرحلة هناك حاجة إلى تخصيص كل نقطة بيانات إلى الكتلة الأقرب إلى المجموعات الأخرى (centroid).
  • حساب النقط الوسطى للمجموعات عن طريق حساب متوسط ​​جميع نقاط بيانات الكتلة.
  • تنفذ (K) الوسائل استراتيجية تعظيم التوقع لحل المشكلة، ويتم استخدام خطوة التوقع لتعيين نقاط البيانات إلى أقرب مجموعة ويتم استخدام خطوة التعظيم لحساب النقطه الوسطى لكل مجموعة.

كيفية اختيار عدد المجموعات في طريقة التقسيم لخوارزمية K-Mean

أحد العيوب الرئيسية لتجميع الوسائل (k) هو حقيقة أنّه يجب تحديد عدد المجموعات كمدخل للخوارزمي، كما تم تصميمها فإنّ الخوارزمية غير قادرة على تحديد العدد المناسب من المجموعات وتعتمد على المستخدم لتحديد ذلك مسبقًا، وعلى سبيل المثال إذا كان لديك مجموعة من الأشخاص سيتم تجميعهم استنادًا إلى الأرقام الثنائية كـ (0 أو 1)، فإنّ استدعاء خوارزمية (k-mean) باستخدام الإدخال (k = 3) سيجبر الأرقام على ثلاث مجموعات عندما يكون اثنان فقط أو إدخال (k = 2) من شأنه أن يوفر ملاءمة أكثر طبيعية.

وبالمثل، إذا تم تجميع مجموعة من الأرقام بسهولة بناءً على الحالة الأصلية وقمت باستدعاء خوارزمية (k-mean) مع الإدخال (k = 20) فقد تكون النتائج عامة جدًا بحيث لا تكون فعالة، ولهذا السبب غالبًا ما يكون من الجيد تجربة قيم مختلفة لـ (k) لتحديد القيمة التي تناسب بياناتك على أفضل وجه، كما قد ترغب أيضًا في استكشاف استخدام خوارزميات التنقيب عن البيانات الأخرى في العمل وراء المعرفة المستفادة آليًا.

خصائص طريقة التقسيم لخوارزمية K-Mean في التنقيب

(K) يعني التجميع هو خوارزمية التقسيم الأكثر شيوعًا، حيث يُعيد (K-mean) تعيين كل بيانات في مجموعة البيانات إلى مجموعة واحدة فقط من المجموعات الجديدة التي تم تكوينها، كما يتم تعيين سجل أو نقطة بيانات لأقرب مجموعة باستخدام مقياس المسافة أو التشابه.

تقوم خوارزمية الوسائل (k) بإنشاء معلمة الإدخال (k) وتقسيم مجموعة من الكائنات (n) إلى مجموعات (k) بحيث يكون التشابه داخل العنقود الناتج كبيرًا ولكن التشابه بين المجموعات منخفض، كما يتم حساب تشابه الكتلة فيما يتعلق بالقيمة المتوسطة للكائنات في الكتلة والتي يمكن النظر إليها على أنها النقطه الوسطى للعنقود أو مركز الثقل.

والقيم الأصلية للوسائل مسموح بها بشكل تعسفي، حيث يمكن تعيين هذه بشكل عشوائي أو ربما يمكن استخدام القيم من عناصر الإدخال الأولى (k) نفسها، ويمكن أن يعتمد عنصر التقارب على الخطأ التربيعي ولكن يجب ألّا تكون كذلك وعلى سبيل المثال يتم تعيين الخوارزمية لمجموعات مختلفة، كما يتم قفل تقنيات الإنهاء الأخرى ببساطة عند عدد ثابت من التكرارات ويمكن تضمين أقصى عدد من التكرارات لضمان التسوق حتى بدون تقارب.

يتم استخدامه لتحديد ثلاثة كائنات بشكل تعسفي كمراكز الكتلة الأصلية الثلاثة، حيث يتم الإشارة إلى مراكز المجموعة بعلامة “+” ويتم توزيع كل كائن على كتلة اعتمادًا على مركز الكتلة الذي يناسبه، وبعد ذلك يتم تحديث مراكز الكتلة ويُعاد حساب القيمة المتوسطة لكل مجموعة بناءً على الكائنات السائدة في الكتلة، ومن خلال استخدام مراكز الكتلة الجديدة يتم إعادة توزيع الكائنات على المجموعات اعتمادًا على مركز الكتلة المجاور، وهيكل إعادة التوزيع هذا عبارة عن صور ظلية جديدة محاطة بمنحنيات متقطعة.


شارك المقالة: