عملية الرسم البياني العنقودي للبيانات

اقرأ في هذا المقال


جعل التقدم التكنولوجي تحليل البيانات والتصور أمرًا سهلاً، وتشمل هذه تطوير تقنيات البرمجيات والأجهزة ووفقًا للبيانات الضخمة حيث تضاعفت (90%) من البيانات العالمية منذ (2014م)، وفي كل عقد يمكن أن نشهد أنّ تحليل البيانات أصبح أكثر وضوحًا وسرعة وهذا يدل على أنّ صناعة تحليل البيانات والتصور تحتاج إلى المزيد من الناس، ويعد الرسم البياني العنقودي موضوعًا مهمًا ويتعامل مع تجميع العُقد مع الرسوم البيانية.

ما هي عملية الرسم البياني العنقودي للبيانات

يتضمن التنقيب عن البيانات تحليل مجموعات البيانات الكبيرة ممّا يساعد على تحديد القواعد والأنماط الأساسية في قصة البيانات الخاصة، ومن ناحية أخرى يُصنف الرسم البياني العنقودي كائنات متشابهة في مجموعات مختلفة على رسم بياني واحد وفي حالة بيولوجية يمكن أن يكون للأجسام سمات فسيولوجية متشابهة، ومع ذلك يمكن أن تكون الكائنات من نفس النوع.

عندما تريد إجراء الرسم البياني العنقودي، فإنّ بعض المعلمات التي يمكن وضعها في الاعتبار تتضمن كثافة نقطة البيانات والمسافة بين نقاط البيانات، وخاصةً لعالم بيانات أو بائع تجزئة فدور الرسم البياني العنقودي مهم جداً، وهذا لأنّه يمكن أن يساعد في جمع معلومات حيوية حول كيفية ارتباط نقاط البيانات ببعضها البعض.

عندما تستخدم طرق الرسم البياني العنقودي في التنقيب عن البيانات فإنك تحدد العلاقات في قصة البيانات الخاصة، وتقوم بعض الأساليب المقترحة مؤخرًا بإجراء التجميع مباشرة على البيانات المستندة إلى الرسم البياني، وبعض المناهج الهامة تجاه العناقيد المبنية على الرسم البياني هي المجموعات والتكتلات القائمة على التواصل.

خصائص عملية الرسم البياني العنقودي للبيانات

يمكن تمثيل بيانات مشكلة التجميع للبيانات على شكل عنقودي كرسم بياني، حيث يتم تمثيل كل عنصر يتم تجميعه كعقدة ويتم نمذجة المسافة بين عنصرين من خلال وزن معين على الحافة التي تربط العقد، وبالتالي في تجميع الرسم البياني ترتبط العناصر الموجودة داخل الكتلة ببعضها البعض ولكن ليس لها اتصال بعناصر خارج تلك المجموعة، ويستخلص تحليل الكتلة على بيانات الرسم البياني والشبكة معرفة ومعلومات قيمة وتحظى هذه البيانات بشعبية متزايدة في العديد من التطبيقات.

الرسم البياني عبارة عن بنية بيانات منتشرة في كل مكان في علم البيانات يتم تطبيقها على نطاق واسع في الشبكات الاجتماعية والرسوم البيانية لتمثيل المعرفة وأنظمة التوصية، وعند إعطاء مجموعة بيانات رسم بياني تتكون من رسم بياني واحد أو أكثر من الرسوم البيانية، حيث يتم ترجيح الرسوم البيانية بشكل عام فإنّ الخطوة الأولى غالبًا للعثور على مجموعات في الرسوم البيانية.

تطبيقات عملية الرسم البياني العنقودي للبيانات

1- في عالم الأعمال

  • يمكن استخدام طرق الرسم البياني العنقودي لتجميع العملاء كمسوقين.
  • يمكن تجميع العملاء بناءً على سلوكهم الشرائي وتفضيلاتهم عندما تحصل على رؤى مفيدة.
  • يمكن أيضًا تصنيف المنتجات والموقع الجغرافي الذي تبيع فيه أكثر من غيرها.
  • بصفتك رجل أعمال، يمكنك استخدام مجموعات الرسوم البيانية لمساعدتك في تحديد كيفية تأثير منصات الوسائط الاجتماعية المختلفة على نموذج عملك.

2- في علم الأحياء

  • إذا كنت طالبًا أو عالمًا في علم الأحياء فيمكن استخدام طرق تجميع الرسوم البيانية في تصنيف النباتات والحيوانات.
  • في فصول علم الأحياء كان أحد الأساسيات هو تصنيف تصنيفات النباتات بناءً على جيناتها، وتُعد طرق تجميع الرسوم البيانية مفيدة لأنّها يمكن أن تساعد في معرفة الأنواع المختلفة وما يشترك فيهما.

3- في الجغرافيا

  • يمكن أن تساعد طرق تجميع الرسم البياني في التنقيب عن البيانات كخبير جغرافي، ويمكن إنشاء رؤى مثل تغطية الغابات وتوزيع السكان.
  • يمكنك تصنيف المناطق التي تشهد ظروفًا مناخية متشابهة، ومع ذلك يمكن تجميع مناطق جغرافية معينة بناءً على أنماط توزيع هطول الأمطار الخاصة بها.

ما هي طرق عملية الرسم البياني العنقودي للبيانات

1- الرسم البياني العنقودي الهرمي

إنّها إحدى طرق الرسم البياني العنقودية الأكثر شيوعًا التي يمكنك استخدامها، وعند استخدام طريقة التجميع هذه يظهر الرسم البياني الخاص كأقسام من الهياكل الهرمية، وهذه الطريقة لها نوعان من الاستراتيجيات وهما:

  • استراتيجية الانقسام.
  • استراتيجية التكتل.

عند رسم الرسم البياني الخاص في الاستراتيجية الانقسامية تقوم بتجميع نقاط البيانات الخاصة في مجموعة واحدة في البداية وأثناء انتقالك إلى أسفل التسلسل الهرمي، تقوم المجموعة بتقسيم نقاط البيانات المهمة في كل خطوة ومن ناحية أخرى عند استخدام الإستراتيجية التراكمية، بحيث تبدأ من الأسفل إلى الأعلى.

تمثل كل عقدة في الرسم البياني مجموعة مختلفة لكل أزواج عنقود، وكلما تحركت لأعلى حتى تنتمي جميع العقد إلى مجموعة واحدة، كما تتمثل إحدى مزايا طرق الرسم البياني العنقودي الهرمي في التنقيب عن البيانات في سهولة تنفيذها ويعطي تصنيف الفئات المختلفة بهذه الطريقة أفضل النتائج.

2- طريقة الرسم البياني K-Means العنقودية

عند استخدام هذه الطريقة تقوم بتقسيم الرسم البياني كمخطط خطي ومخطط شريطي ومخطط قياس إلى مجموعات تظهر بشكل حرف (k)، كما يمكن استخدام الوسائل (k) لحساب النقط الوسطى وكميات المتجهات، ويأخذ خطوات سهلة في بناء طريقة (K-mean clustering)، والتي تشمل:

  • يمكن تحديد (K) لتمثيل النقط الوسطى الأصلية.
  • التالي هو تعيين نقاط لأقرب النقط الوسطى من مجموعة (K) الخاصة.
  • العمل على إعادة تقييم النقط الوسطى الخاصة بك للتأكد من أنها لا تتغير.
  • إحدى الميزات التي يمكن الحصول عليها من هذه الطريقة هي أنّها يمكن أن تساعد في معالجة مجموعات البيانات الكبيرة.

3- طريقة الرسم البياني العنقودية القائمة على الكثافة

تعمل الطرق المستندة إلى الكثافة معجزات عندما تريد تحديد مجموعات في مجموعات بيانات أكبر وهذا لأنّه يمكن تحليل نقاط البيانات بناءً على كثافتها، كما يُطلق على نقطتي بيانات متقاربتين اسم الجيران والمفهوم الكامن وراء هذه الطريقة هو كثافة الاتصال وقابلية الوصول للكثافة، كما تجد العديد من علماء البيانات ورجال الأعمال الذين يستخدمون التكتل المكاني القائم على الكثافة للتطبيقات ذات الضوضاء (DBSCAN)، وتتضمن بعض الخطوات التي يمكنك استخدامها في هذه الطريقة ما يلي:

  • يمكن بدء عملية التجميع عندما تجد نقاط بيانات كافية في الرسم البياني الخاص.
  • تعمل نقطة البيانات الحالية كنقطة انطلاق.
  • تستخدم نقطة البداية الخاصة إلى الكتلة الجديدة مسافة مماثلة تحدد المنطقة المجاورة لها.
  • ستستمر في هذه العملية في كل مجموعة جديدة حتى تقوم بتسمية جميع نقاط البيانات.
  • من المزايا التي يمكن إيجادها من طريقة تجميع الرسم البياني هذه أنّه يمكن التعرف على البيانات المتطرفة.

من خلال طرق التجميع المختلفة لعملية التنقيب عن البيانات يمكن تجميع البيانات في مجموعات، وهذه المهمة ضرورية لفهم العلاقة بين مجموعات البيانات الخاصة، ومع ذلك فإنّ طرق الرسم البياني العنقودي في عملية التنقيب في البيانات لها عيوبها المختلفة.

المصدر: Foundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: