تنقيب القيم المتطرفة وأنواعها

اقرأ في هذا المقال


تدل القيم المتطرفة على نقاط البيانات الموجودة خارج ما هو متوقع، والشيء الرئيسي في القيم المتطرفة هو ما تفعله بها وإذا كنت ستحلل أي مهمة لتحليل كميات البيانات سيكون لديك دائمًا بعض الافتراضات بناءً على كيفية إنشاء هذه البيانات، وإذا وجدت بعض نقاط البيانات التي من المحتمل أن تحتوي على شكل من أشكال الخطأ فهذه بالتأكيد قيم متطرفة.

ما هي القيم المتطرفة Outlier

القيم المتطرفة (Outlier): هي أخطاء أو بعض انحرافات تحدث خلال عملية التنقيب عن البيانات وتحليل البيانات والتنبؤ بالمعلومات التي تحتفظ بها البيانات، بحيث ينحرف كائن معين لمجموعة البيانات عن العناصر الأخرى ويتم إنشاؤها في الغالب بسبب أخطاء معينة في القياس أو التنفيذ، كما يُشتبه في أنّها لم يتم إنشاؤها بنفس الطريقة مثل باقي عناصر البيانات، وتتضمن عملية التنقيب عن البيانات التحليل والتنبؤ بالبيانات التي تحتفظ بها البيانات، وفي عام (1969م) قدم جروبس التعريف الأول للقيم المتطرفة.

كيفية تحليل القيم المتطرفة في عملية التنقيب

يتم التخلص من القيم المتطرفة في العديد من الأماكن عند تطبيق التنقيب عن البيانات، ولكنّه لا يزال مستخدمًا في العديد من التطبيقات مثل اكتشاف الاحتيال والطبية وما إلى ذلك، وعادةً ما يكون ذلك بسبب أنّ الأحداث التي نادراً ما يمكن أن تخزن معلومات أكثر أهمية من الأحداث التي تحدث بشكل منتظم، وتسمى العملية التي يتم فيها تحديد سلوك القيم المتطرفة في مجموعة البيانات “التحليل الخارجي” ويُعرف أيضًا باسم “التنقيب الخارجي”، وتُعرَّف العملية بأنها مهمة للتنقيب عن البيانات، ومن التطبيقات الأخرى التي يلعب فيها الكشف الخارجي دورًا حيويًا:

  • يمكن تحليل أي استجابة غير عادية تحدث بسبب العلاج الطبي من خلال التحليل الخارجي في استخراج البيانات.
  • كشف الاحتيال في صناعة الاتصالات.
  • في تحليل السوق يمكّن التحليل الخارجي المسوقين من تحديد سلوكيات العميل.
  • في مجال التحاليل الطبية.
  • كشف الاحتيال في البنوك والتمويل مثل: بطاقات الائتمان وقطاع التأمين وما إلى ذلك.

أنواع القيم المتطرفة

1- القيم المتطرفة العالمية أو النقطة

تُعرف أيضًا باسم (Point Outliers)، وهذه هي أبسط أشكال القيم المتطرفة وإذا كانت نقطة البيانات وفي كميات بيانات معينة تنحرف بشدة عن جميع نقاط البيانات المتبقية فإنّها تُعرف باسم “الخارجة العالمية”، حيث في الغالب تهدف جميع طرق الكشف المختلفة إلى العثور على القيم المتطرفة العالمية.

في مجموعة بيانات معينة يكون عنصر البيانات متطرفاً عالميًا إذا انحرف بشكل أساسي عن بقية كميات المعلومات، وتُعرف القيم المتطرفة العالمية باسم “الانحرافات النقطية”، وهي أسهل أنواع القيم المتطرفة وتهدف معظم طرق الكشف المتطرفة إلى اكتشاف القيم المتطرفة العالمية.

يمكن تحديد القيم المتطرفة العالمية والمسألة المهمة هي اكتشاف قياس مناسب للانحراف فيما يتعلق بالتطبيق المعني، حيث يتم اقتراح العديد من القياسات وبناءً على هذه الأساليب ويتم تقسيم أساليب الكشف الخارجة إلى فئات متعددة، ويُعد الكشف عن الحالات الخارجية العالمية أمرًا ضروريًا في العديد من التطبيقات.

2- القيم المتطرفة الجماعية

إذا كانت بعض نقاط البيانات ككل تنحرف بشكل كبير عن بقية مجموعة البيانات في مجموعة بيانات معينة، فيمكن وصفها بالقيم المتطرفة الجماعية، وهنا قد لا تكون عناصر البيانات الفردية متطرفة ولكن عندما ينظر إليها ككل فإنّها قد تتصرف مثل القيم المتطرفة، ولاكتشاف هذه الأنواع من القيم المتطرفة قد نحتاج إلى معلومات أساسية حول العلاقة بين كائنات البيانات التي توضح سلوك القيم المتطرفة.

في مجموعة معينة من البيانات عندما تنحرف مجموعة من نقاط البيانات عن بقية مجموعة المعلومات يُعرف باسم “القيم المتطرفة الجماعية”، لذلك لا يمكن أن تكون المجموعة المحددة من كائنات البيانات قيمًا متطرفة ولكن عندما يمكن اعتبار كائنات البيانات ككل فإنّها يمكن أن تكون بمثابة قيم متطرفة.

ويمكنه التعرف على أنواع القيم المتطرفة المتعددة بحيث يلزم المرور عبر بيانات الخلفية حول العلاقة بين سلوك القيم المتطرفة التي تظهرها كائنات بيانات متعددة، ويُقال أنّ مجموعة فرعية من نقاط البيانات في مجموعة بيانات مختلفة إذا كانت هذه القيم كمجموعة تنحرف بشكل ملحوظ عن مجموعة البيانات بأكملها، ومع ذلك فإن قيم كل نقطة بيانات لا تختلف سواء من حيث السياق أو المعنى الشامل.

3- القيم المتطرفة السياقية أو الشرطية

تُعرف أيضًا باسم “القيم المتطرفة الشرطية”، حيث إذا كان كائن البيانات في كميات بيانات معينة ينحرف بشكل كبير عن نقاط البيانات الأخرى بناءً على سياق أو شرط معين فقط، وقد تكون نقطة البيانات متقطعة بسبب حالة معينة وقد تظهر سلوكًا طبيعيًا في ظل حالة أخرى.

لذلك يجب تحديد السياق كجزء من بيان المشكلة من أجل تحديد القيم المتطرفة السياقية، كما يوفر تحليل السياق الخارجي المرونة للمستخدمين، حيث يمكن للمرء فحص القيم المتطرفة في سياقات مختلفة والتي يمكن أن تكون مرغوبة للغاية في العديد من التطبيقات ويتم تحديد سمات نقطة البيانات على أساس السمات السياقية والسلوكية.

تسمى القيم المتطرفة السياقية بالقيم المتطرفة الشرطية، وتظهر هذه الأنواع من القيم المتطرفة إذا انحرف عنصر البيانات عن نقاط البيانات المتعددة بسبب بعض الشروط المحددة في كميات بيانات معينة، وهناك نوعان من سمات كائنات البيانات بما في ذلك السمات السياقية والسمات السلوكية، ويسمح تحليل السياق الخارجي للمستخدمين بتحديد القيم المتطرفة في سياقات وشروط متعددة والتي يمكن أن تكون مفيدة في العديد من التطبيقات.

في السمات السلوكية يمكن أن تمثل خصائص الكائن وتُستخدم لحساب ما إذا كان الكائن غريبًا في السياق الذي يفهمه والقيم المتطرفة السياقية هي تعميم للقيم المتطرفة المحلية، وهو مفهوم تم تقديمه في طرق التحليل المختلفة القائمة على الكثافة والكائن في مجموعة البيانات هو متطرف محلي إذا كانت كثافته تنحرف أساسًا عن المنطقة المحلية التي يظهر فيها.

يمكن أن يُعنى الاكتشاف العالمي الخارجي كطريقة خاصة للكشف عن الظروف الخارجية السياقية، حيث تكون مجموعة السمات السياقية خالية، وبعبارة أخرى يحتاج الاكتشاف الخارجي العالمي إلى مجموعة البيانات بأكملها كسياق بحيث يدعم تحليل السياق الخارجي المرونة للمستخدمين، حيث يمكن للمرء تحديد القيم المتطرفة في العديد من السياقات والتي يمكن أن تكون مرغوبة في العديد من التطبيقات.

المصدر: Foundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: