هناك طرق متعددة لتجميع البيانات ولكن خوارزمية (K-Means) هي الخوارزمية الأكثر استخدامًا، والتي تحاول تحسين التشابه بين المجموعة مع إبقاء المجموعات بعيدة عن بعضها البعض قدر الإمكان.
خصائص خوارزمية k-Means
- تعمل (K-Means) بشكل أساسي على حساب المسافة والتي تستخدم مرة أخرى “المسافة الإقليدية” لهذا الغرض والمسافة الإقليدية تحسب المسافة بين نقطتين.
- تعمل (K-Means) ومعظم تقنيات المجموعات الأخرى على مفهوم المسافات، ويحسب المسافة من نقاط معينة ويحاول تقليلها وكما تحدث المشكلة عندما تحتوي المتغيرات المختلفة على وحدات مختلفة.
- (K-Means) هي عملية تكرارية للتجميع التي تستمر في التكرار حتى تصل إلى أفضل حل أو مجموعات في مساحة المشكلة.
- الهدف من التجميع هو جعل المجموعات متجانسة داخل مجموعات ومتميزة عن المجموعات الأخرى، والهدف ذاته يعمل كحل لتحديد عدد المجموعات (K) التي نريد الحصول عليها في البيانات.
- يوجد عدد من التقنيات للتحقق من صحة (K) بما في ذلك التحقق المتبادل ومعايير المعلومات وطريقة القفز النظري للمعلومات وطريقة الصورة الظلية وخوارزمية (G-mean)، وبالإضافة إلى ذلك توفر مراقبة توزيع نقاط البيانات عبر المجموعات نظرة ثاقبة حول كيفية تقسيم الخوارزمية للبيانات لكل (K).
تطبيقات خوارزمية k-Means
1- تقسيم العملاء
- تساعد المجموعات المسوقين على تحسين قاعدة عملائهم والعمل على المناطق المستهدفة وتقسيم العملاء بناءً على سجل الشراء أو الاهتمامات أو مراقبة النشاط.
- يساعد هذا التقسيم الشركات على استهداف مجموعات محددة من العملاء لحملات محددة.
2- تصنيف المستندات
- مستندات الكتلة في فئات متعددة بناءً على العلامات والموضوعات ومحتوى المستند وهذه مشكلة تصنيف قياسية للغاية والوسائل (k) هي خوارزمية مناسبة لهذا الغرض.
- هناك حاجة إلى المعالجة الأولية للمستندات لتمثيل كل مستند كمتجه واستخدام تواتر المصطلح لتحديد المصطلحات شائعة الاستخدام التي تساعد في تصنيف المستند.
- يتم بعد ذلك تجميع متجهات المستند للمساعدة في تحديد التشابه في مجموعات المستندات.
3- تحليل تفاصيل سجل المكالمات
- تسجيل تفاصيل المكالمة هو المعلومات التي تلتقطها شركات الاتصالات أثناء المكالمة والرسائل ونشاط الإنترنت للعميل.
- يمكن استخدام خوارزمية (K-mean) لفهم شرائح العملاء فيما يتعلق باستخدامهم بالساعات.