عملية تنقيب القيم المتطرفة لمجموعة بيانات

اقرأ في هذا المقال


قد تحتوي قاعدة البيانات على كائنات بيانات لا تتشابه مع السلوك العام أو نموذج البيانات وكائنات البيانات هذه هي القيم المتطرفة ويُعرف التحقيق في بيانات (OUTLIER) باسم (OUTLIER MINING)، ويمكن الكشف عن الانحراف باعتماد الاختبارات الإحصائية التي تفترض وجود نموذج توزيع أو احتمالية للبيانات أو باستخدام مقاييس المسافة، حيث تعتبر الكائنات التي تحتوي على جزء صغير من الجيران “القريبين” في الفضاء من القيم المتطرفة.

ما هي عملية تنقيب القيم المتطرفة الجماعية

تغير مجموعة فرعية من كائنات البيانات بشكل جماعي إتجاهها بشكل كبير عن مجموعة البيانات بأكملها حتى إذا كانت كائنات البيانات الفردية قد لا تكون متطرفة، حيث توجد القيم المتطرفة الجماعية بشكل شائع في اكتشاف التطفل مثل عندما يستمر عدد من أجهزة الكمبيوتر في إرسال حزم رفض الخدمة لبعضها البعض.

والبيانات المتطرفة (الخارجة) هي البيانات التي تنحرف بشكل كبير عن البيانات الأخرى ولا تفي بالنمط العام أو سلوك البيانات وتتعارض مع البيانات الأخرى الموجودة، وغالبًا ما تحتوي على كمية كبيرة من المعلومات القيمة التي لا يكتشفها الأشخاص بسهولة، كما يتم تطبيق التنقيب عن البيانات المتطرفة وهو فرع مهم من التنقيب عن البيانات وعلى نطاق واسع في مجالات سوق الأمن وتحليل البيانات الطيفية الفلكية وتطفل الشبكة والاحتيال المالي وتحليل الطقس.

في بيانات الكتلة عالية الأبعاد، نظرًا لحجم البيانات الكبير والأبعاد العالية يتأثر التنقيب عن البيانات المتطرفة وكفاءته بشكل خطير، وقد لا يتم العثور على بعض البيانات الخارجية المخفية في فضاء فرعي وبعض البيانات الخارجية المحلية الموزعة على الحافة.

نظرًا لخاصية التجميع لمجموعة البيانات المتفرقة عالية الأبعاد غالبًا ما يوجد توزيع البيانات الخارجية في فضاء فرعي معين بدلاً من المساحة المميزة بأكملها، لكن بنية الكتلة للبيانات تكون أكثر ضبابية بسبب الخصائص غير ذات الصلة وإذا لا يمكن العثور على بنية الكتلة في مجموعة البيانات بشكل جيد، ويصعب اكتشاف الخارج في مجموعة البيانات ولا يمكن تحقيق التنقيب عن البيانات المتطرفة.

كيفية تنقيب القيم المتطرفة الجماعية

تسمى مجموعة عناصر البيانات التي تنحرف بشكل كبير عن مجموعة البيانات بأكملها “مجموعة خارجية”، وفي البيانات الجماعية الخارجية هناك احتمال ألا يكون كل كائن فرديًا بعيدًا، ويُعد الكشف عن الحالات المتطرفة الجماعية أكثر صعوبة من الاكتشاف الخارجي التقليدي والسياقي، حيث يجب فحص بنية علاقات مجموعة البيانات بين كائنات البيانات المتعددة.

يعتمد التنقيب الجماعي في البيانات المتطرفة كليًا على نوع بنية البيانات، لكنّ التحديد المسبق لهيكل كائنات البيانات هو مهمة صعبة وقد يكون مستحيلًا في بعض الأحيان، وتستكشف الهياكل الداخلية التي تتشكل من هياكل البيانات الزمنية مثل: أجزاء من السلاسل الزمنية أو التتابعات اللاحقة، وتستكشف المناطق المحلية لاكتشاف القيم المتطرفة الجماعية في البيانات المكانية.

كما تستكشف الرسوم البيانية الفرعية في الرسم البياني وبيانات الشبكة المترابطة، حيث تتشابه الكشف الخارجي عن السياق مع الكشف للقيم المتطرفة الجماعية؛ لأنّه فى كل من طرق الكشف هذه يتم استكشاف البنى التحتية والمناطق المحلية وفي الكشف عن الأوضاع المتطرفة السياقية، يعتبر سياق كائنات البيانات هو السمة الرئيسية لاكتشاف القيم المتطرفة.

تكون هنا المعلومات السياقية هي السمة الهيكلية، ويُعد الكشف عن الحالات المتطرفة الجماعية أمرًا صعبًا، حيث يتم استكشاف هياكل البيانات لاكتشاف القيم المتطرفة، ويعتمد أيضًا على نوع التطبيق وكائنات البيانات ونظرًا لأن عملية التنقيب الخاصة بالاكتشاف للقيم المتطرفة الجماعي تتضمن العديد من تقنيات التنقيب عن البيانات المعقدة والتعلم الآلي، فإنّ لها تكلفة حسابية عالية ولكن الاكتشاف الجماعي للقيم المتطرفة قابل للتطبيق عمليًا في العديد من المواقف.

أنواع عملية تنقيب القيم المتطرفة الجماعية

طرق الكشف الجماعية للقيم المتطرفة من نوعين مختلفين، حيث في الفئة الأولى يتم تقليل مشكلة الكشف المتطرف الجماعي إلى الكشف المتطرف التقليدي، ويحدد الوحدات الهيكلية للبيانات ومن كل وحدة من الوحدات الهيكلية إمّا مقطع سلسلة زمنية أو منطقة محلية أو رسم بياني فرعي يتم استخراج ميزات مهمة لتحديد القيم المتطرفة الجماعية، والآن يتم تحويل مشكلة الكشف عن الحالات المتطرفة الجماعية إلى القيم المتطرفة الخارجية.

تُعتبر كائنات البيانات التي ينحرف سلوكها عن الميزات المستخرجة من الهياكل قيمًا متطرفة، وفي حين أنّ جميع الكائنات العادية تظهر نوعًا مشابهًا من السلوك الهيكلي، وأمّا الفئة الثانية من الكشف عن الحالات المتطرفة الجماعية هي بناء نموذج للسلوك المتوقع للوحدات الهيكلية للسمات، على سبيل المثال لاكتشاف القيم المتطرفة الجماعية في البيانات المكانية يمكن بناء نموذج عن طريق التنقيب عن الأسلوب المناسب للوحدات الهيكلية لسمات البيانات.

ويتم تحديد كائنات البيانات على أنّها قيم متطرفة جماعية إذا انحرفت عن النموذج، وبالنظر إلى مجموعة البيانات فإنّ مجموعة فرعية من كائنات البيانات تشكل استثناءًا جماعيًا إذا انحرفت الكائنات ككل بشكل كبير عن مجموعة البيانات بأكملها، والأهم من ذلك قد لا تكون كائنات البيانات الفردية قيمًا متطرفة.

تنقيب القيم المتطرفة الجماعية باستخدام الرسم البياني

يمكن إجراء تنقيب القيم المتطرفة الجماعية على الشبكة الاجتماعية، ويمكن افتراض الشبكات الاجتماعية كرسم بياني غير مسمى، ويمكن معاملة كل رسم بياني فرعي محتمل للشبكة أو الرسم البياني كوحدة هيكلية وهو المعيار المهم لمعرفة القيم المتطرفة في الرسم البياني، حيث يتم الأخذ في الاعتبار السمتين وهما عدد الرؤوس في الرسم البياني الفرعي (S) وتكرار الرسم البياني الفرعي المعين في الشبكة لاكتشاف القيم المتطرفة في الرسم البياني أو الشبكة.

بمعنى التردد (S) هو عدد الرسوم البيانية الفرعية في الشبكة المتشابهة والتي لها خصائص متساوية الشكل في الشبكة بحيث إذا كان الرسم البياني الفرعي يحتوي على رؤوس متعددة وتردد عالٍ مقارنةً بالرسوم البيانية الفرعية الأخرى، فسيتم تحديده على أنّه الانحراف الجماعي، وبشكل عام من المتوقع أن تكون الرسوم البيانية الفرعية التي تحتوي على عدد أقل من الرؤوس هي الرسوم البيانية الفرعية المتكررة.

يُفترض أن تكون الرسوم البيانية الفرعية الكبيرة أقل تكرارًا ولكن أثناء التجربة إذا كان كل من التردد وعدد القمم مرتفعًا فسيتم إعلان هذه القيم المتطرفة في الشبكة الاجتماعية، ويُعد الاكتشاف الجمعي الخارجي دقيقًا بسبب التحدي المتمثل في استكشاف الهياكل في البيانات.

يستخدم الاستكشاف عادةً الاستدلال وبالتالي قد يكون معتمداً على التطبيق، وغالبًا ما تكون التكلفة الحسابية مرتفعة بسبب عملية التنقيب المعقدة، وعلى الرغم من كونه مفيدًا للغاية في الممارسة العملية إّلا أن الكشف عن الحالات المتطرفة الجماعية يظل اتجاهًا صعبًا يستدعي مزيدًا من البحث والتطوير.

المصدر: Foundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: