نظرًا لبساطتها الجوهرية وشعبيتها في عمليات التعلم الآلي اكتسبت (K-mean) شعبية بين علماء البيانات، يتيح تطبيقها في عمليات استخراج البيانات لعلماء البيانات الاستفادة من الخوارزمية.
مبدأ عمل خوارزمية k-Means
- تحدد خوارزمية (K-mean) عددًا معينًا من النقط الوسطى داخل مجموعة البيانات والنقطة الوسطى هي الوسط الحسابي لكافة نقاط البيانات التي تنتمي إلى مجموعة معينة.
- تقوم الخوارزمية بعد ذلك بتخصيص كل نقطة بيانات إلى أقرب مجموعة، حيث تحاول إبقاء المجموعات صغيرة قدر الإمكان (تشير “الوسائل” في (K-mean) إلى مهمة حساب متوسط البيانات أو العثور على النقطه الوسطى).
- في الوقت نفسه تحاول (K-mean) إبقاء المجموعات الأخرى مختلفة قدر الإمكان.
- يتم بعد ذلك تحديث مراكز الكتلة لتكون “مراكز” جميع النقاط المخصصة لها في هذا التمرير، ويتم ذلك عن طريق إعادة حساب مراكز الكتلة كمتوسط للنقاط في كل مجموعة على حدة.
- تتكرر الخوارزمية حتى يكون هناك حد أدنى من التغيير في مراكز المجموعات من التكرار الأخير.
- إنّ (K-mean) عالية جدًا في التقاط البنية وإجراء استدلالات البيانات إذا كانت المجموعات ذات شكل كروي موحد، ولكن إذا كانت المجموعات تحتوي على أشكال هندسية أكثر تعقيدًا، فإن الخوارزمية تقوم بعمل ضعيف في تجميع البيانات.
- كما أنّه في (K-mean) لا تسمح لنقاط البيانات البعيدة عن بعضها البعض بمشاركة نفس المجموعة وبغض النظر عما إذا كانت تنتمي إلى الكتلة.
- لا تتعلم (K-mean) نفسها عدد المجموعات من البيانات بل يجب أن تكون المعلومات محددة مسبقًا وعندما يكون هناك تداخل بين المجموعات لا يمكن (K-mean) تحديد كيفية تعيين نقاط البيانات، حيث يحدث التداخل.
- يتم اعتمادها في علم البيانات لاستخلاص استنتاجات مختلفة من بيانات الأعمال وتمكين اتخاذ قرارات أكثر دقة تعتمد على البيانات وعلى الرغم من قيود الخوارزمية، وينتشر على نطاق واسع من بين الخوارزميات أو علماء البيانات الأكثر أهمية للأعمال.