خوارزمية التجميع في عملية التنقيب عن البيانات

اقرأ في هذا المقال


إنّ التجميع في عملية التنقيب عن البيانات هي طريقة لاستخراج البيانات تُستخدم لوضع عناصر البيانات في مجموعاتها المتشابهة، وخوارزمية التجميع هي إجراء تقسيم كائنات البيانات إلى فئات فرعية وتعتمد جودة التجميع على الطريقة التي يتم استخدمها ويسمى التجميع أيضًا بـ “تجزئة البيانات”، حيث يتم تقسيم مجموعات البيانات الكبيرة حسب تشابهها.

ما هي خوارزمية التجميع في التنقيب عن البيانات

خوارزمية التجميع: هو تجميع كائنات محددة بناءً على خصائصها وأوجه التشابه بينها، وبالنسبة للتنقيب عن البيانات تقسم هذه المنهجية البيانات الأكثر ملاءمة للتحليل المطلوب باستخدام خوارزمية ربط خاصة، حيث يسمح هذا التحليل للكائن ألا يكون جزءًا أو بشكل صارم من كتلة، وهو ما يسمى بـ “التقسيم الصلب” من هذا النوع.

تُشير الأقسام المتجانسة إلى أن كل كائن في نفس الدرجة ينتمي إلى مجموعات، حيث يمكن إنشاء أقسام أكثر تحديدًا مثل كائنات مجموعات متعددة، ويمكن إجبار مجموعة واحدة على المشاركة أو حتى يمكن إنشاء أشجار متدرجة في علاقات المجموعة، كما يمكن وضع نظام الملفات هذا في مكانه بطرق مختلفة بناءً على نماذج مختلفة وتنطبق هذه الخوارزميات المميزة على كل نموذج مع تمييز خصائصها، وكذلك نتائجها وخوارزمية التجميع الجيدة قادرة على تحديد الكتلة بشكل مستقل عن شكل الكتلة.

في عملية تحليل التجميع تتمثل الخطوة الأولى في تقسيم مجموعة البيانات إلى مجموعات بمساعدة تشابه البيانات ثم يتم تخصيص المجموعات للتسميات الخاصة بكل منها، وأكبر ميزة للتجميع المفرط في التصنيف هي أنّه يمكن أن يتكيف مع التغييرات التي تم إجراؤها ويساعد على تحديد الميزات المفيدة التي تميز المجموعات المختلفة.

ما هي طرق خوارزمية التجميع في التنقيب عن البيانات

1. أسلوب التقسيم القائم

تقوم خوارزمية التقسيم بتقسيم البيانات إلى مجموعات فرعية عديدة، ويشير هذا إلى أنّ كل مجموعة لديها كائن واحد على الأقل وأنّ كل كائن يجب أن ينتمي إلى مجموعة واحدة بالضبط.

2. الطريقة المعتمدة على الكثافة

تنتج هذه الخوارزميات مجموعات في موقع محدد بناءً على الكثافة العالية للمشاركين في مجموعة البيانات، حيث يقوم بتجميع بعض مفاهيم النطاق لأعضاء المجموعة في مجموعات إلى مستوى قياسي للكثافة، كما يمكن أن يكون أداء مثل هذه العمليات أقل في اكتشاف مناطق المجموعة السطحية.

3. الطريقة المستندة إلى Centroid

  • يشير متجه القيم إلى كل مجموعة تقريبًا في هذا النوع من تقنية تجميع نظام التشغيل، وبالمقارنة مع المجموعات الأخرى كل كائن هو جزء من المجموعة مع الحد الأدنى من الاختلاف في القيمة.
  • يجب تحديد عدد المجموعات مسبقًا وهي أهم مشكلة خوارزمية من هذا النوع، وهذه المنهجية هي الأقرب إلى موضوع التحديد وتستخدم بشكل واسع لمشاكل التحسين.

4. الطريقة الهرمية

ستنشئ الطريقة تحليلًا هرميًا لمجموعة معينة من كائنات البيانات، وبناءً على كيفية تكوين التحلل الهرمي يمكن تصنيف الطرق الهرمية إلى:

أولاً: النهج التجميعي

يُعرف النهج التجميعي أيضًا باسم نهج (Button-up) وهنا يبدأ كل كائن يشكل مجموعة منفصلة ويستمر في دمج العناصر أو المجموعات بالقرب من بعضها البعض.

ثانياً: نهج الانقسام

يُعرف نهج الانقسام أيضًا باسم النهج من أعلى إلى أسفل ويبدأ بكل الأشياء في نفس المجموعة وهذه الطريقة صلبة، أي أنّه لا يمكن التراجع عنها أبدًا بمجرد اكتمال الاندماج أو الانقسام، وهناك طريقتان يمكن استخدامهما لتحسين جودة المجموعات الهرمية في التنقيب عن البيانات وهما:

  • يجب على المرء أن يحلل بعناية روابط الكائن عند كل تقسيم للتجميع الهرمي.
  • يمكن للمرء استخدام خوارزمية تكتلية هرمية لدمج التكتل الهرمي، وفي هذا النهج أولاً يتم تجميع الكائنات في مجموعات صغيرة وبعد تجميع كائنات البيانات في مجموعات صغيرة يتم إجراء التجميع الكلي على الكتلة الدقيقة.

5. الطريقة القائمة على الشبكة

تعمل الطرق المستندة إلى الشبكة في مساحة الكائن بدلاً من تقسيم البيانات إلى شبكة، حيث يتم تقسيم الشبكة على أساس خصائص البيانات، وباستخدام هذه الطريقة من السهل إدارة البيانات غير الرقمية ولا يؤثر ترتيب البيانات على تقسيم الشبكة، من المزايا المهمة للنموذج المستند إلى الشبكة أنه يوفر سرعة تنفيذ أسرع وهي تنطبق على أي نوع سمة وكما يوفر المرونة المتعلقة بمستوى التفاصيل.

6. الطريقة القائمة على النموذج

تستخدم هذه الطريقة نموذجًا مفترضًا يعتمد على توزيع الاحتمالات ومن خلال تجميع دالة الكثافة وتحدد هذه الطريقة موقع المجموعات وكما يعكس التوزيع المكاني لنقاط البيانات.

مجالات تطبيق خوارزمية التجميع في التنقيب عن البيانات

يمكن أن يساعد التجميع في العديد من المجالات مثل: علم الأحياء والنباتات والحيوانات المصنفة حسب خصائصها والتسويق كما يساعد التجميع في تحديد العملاء الذين لديهم سجل عميل معين بسلوك مشابه، حيث في العديد من التطبيقات مثل: أبحاث السوق والتعرف على الأنماط ومعالجة البيانات والصور.

يتم استخدام تحليل المجموعات بأعداد كبيرة ويمكن أن يساعد التجميع أيضًا المعلنين في قاعدة عملائهم في العثور على مجموعات مختلفة، كما يمكن تحديد مجموعات العملاء من خلال شراء الأنماط ويتم استخدامه في علم الأحياء لتحديد تصنيفات النبات والحيوان لتصنيف الجينات ذات الوظائف المتشابهة والبصيرة في الهياكل المتأصلة في السكان، وفي قاعدة بيانات مراقبة الأرض يسهل التجميع أيضًا العثور على مناطق ذات استخدام مماثل في الأرض.

ويساعد على تحديد مجموعات المنازل والشقق حسب نوع وقيمة ووجهة المنزل، كما يعد تجميع المستندات على الويب مفيدًا أيضًا في اكتشاف المعلومات وتحليل الكتلة هو أداة لاكتساب نظرة ثاقبة على توزيع البيانات لمراقبة خصائص كل مجموعة كوظيفة التنقيب في البيانات.

ما هي متطلبات خوارزمية التجميع في التنقيب عن البيانات

  • قابلية التوسع: بحيث تحتاج إلى خوارزميات تجميع قابلة للتطوير بدرجة كبيرة للعمل مع قواعد البيانات الكبيرة.
  • القدرة على التعامل مع أنواع مختلفة من السمات: ويجب أن تكون الخوارزميات قادرة على العمل مع نوع البيانات مثل: البيانات الفئوية والرقمية والثنائية.
  • اكتشاف المجموعات ذات شكل السمة: بحيث يجب أن تكون الخوارزمية قادرة على اكتشاف المجموعات في أشكال عشوائية ويجب ألّا تكون مقيدة بقياسات المسافة.
  • القابلية للتفسير: يجب أن تكون نتيجة التجميع قابلة للاستخدام ومفهومة وقابلة للتفسير والهدف الرئيسي من التجميع في تحليلات البيانات هو التأكد من تخزين البيانات العشوائية في مجموعات بناءً على تشابهها المميز.
  • الأبعاد العالية: حيث يجب أن تكون الخوارزمية قادرة على التعامل مع مساحة عالية الأبعاد بدلاً من معالجة البيانات ذات الأبعاد المنخفضة فقط.
  • المساعدة في التعامل مع البيانات المتطرفة: حيث عادةً ما تكون البيانات معطلة وغير منظمة ولا يمكن تحليلها بسرعة وهذا هو سبب أهمية تجميع المعلومات في التنقيب عن البيانات، ويمكن أن يعطي التجميع بعض البنية للبيانات عن طريق تنظيمها في مجموعات من كائنات البيانات المتشابهة.

المصدر: Data Science from Scratch: First Principles with Python by Joel Grus / 2nd EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First Edition Foundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First Edition


شارك المقالة: