خصائص وتطبيقات خوارزمية k-Means في علم البيانات

اقرأ في هذا المقال


هناك طرق متعددة لتجميع البيانات ولكن خوارزمية (K-Means) هي الخوارزمية الأكثر استخدامًا، والتي تحاول تحسين التشابه بين المجموعة مع إبقاء المجموعات بعيدة عن بعضها البعض قدر الإمكان.

خصائص خوارزمية k-Means

  • تعمل (K-Means) بشكل أساسي على حساب المسافة والتي تستخدم مرة أخرى “المسافة الإقليدية” لهذا الغرض والمسافة الإقليدية تحسب المسافة بين نقطتين.
  • تعمل (K-Means) ومعظم تقنيات المجموعات الأخرى على مفهوم المسافات، ويحسب المسافة من نقاط معينة ويحاول تقليلها وكما تحدث المشكلة عندما تحتوي المتغيرات المختلفة على وحدات مختلفة.
  • (K-Means) هي عملية تكرارية للتجميع التي تستمر في التكرار حتى تصل إلى أفضل حل أو مجموعات في مساحة المشكلة.
  • الهدف من التجميع هو جعل المجموعات متجانسة داخل مجموعات ومتميزة عن المجموعات الأخرى، والهدف ذاته يعمل كحل لتحديد عدد المجموعات (K) التي نريد الحصول عليها في البيانات.
  • يوجد عدد من التقنيات للتحقق من صحة (K) بما في ذلك التحقق المتبادل ومعايير المعلومات وطريقة القفز النظري للمعلومات وطريقة الصورة الظلية وخوارزمية (G-mean)، وبالإضافة إلى ذلك توفر مراقبة توزيع نقاط البيانات عبر المجموعات نظرة ثاقبة حول كيفية تقسيم الخوارزمية للبيانات لكل (K).

تطبيقات خوارزمية k-Means

1- تقسيم العملاء

  • تساعد المجموعات المسوقين على تحسين قاعدة عملائهم والعمل على المناطق المستهدفة وتقسيم العملاء بناءً على سجل الشراء أو الاهتمامات أو مراقبة النشاط.
  • يساعد هذا التقسيم الشركات على استهداف مجموعات محددة من العملاء لحملات محددة.

2- تصنيف المستندات

  • مستندات الكتلة في فئات متعددة بناءً على العلامات والموضوعات ومحتوى المستند وهذه مشكلة تصنيف قياسية للغاية والوسائل (k) هي خوارزمية مناسبة لهذا الغرض.
  • هناك حاجة إلى المعالجة الأولية للمستندات لتمثيل كل مستند كمتجه واستخدام تواتر المصطلح لتحديد المصطلحات شائعة الاستخدام التي تساعد في تصنيف المستند.
  • يتم بعد ذلك تجميع متجهات المستند للمساعدة في تحديد التشابه في مجموعات المستندات.

3- تحليل تفاصيل سجل المكالمات

  • تسجيل تفاصيل المكالمة هو المعلومات التي تلتقطها شركات الاتصالات أثناء المكالمة والرسائل ونشاط الإنترنت للعميل.
  • يمكن استخدام خوارزمية (K-mean) لفهم شرائح العملاء فيما يتعلق باستخدامهم بالساعات.

المصدر: Foundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: