طرق استكشاف القيم المتطرفة خلال التنقيب عن البيانات

اقرأ في هذا المقال


يتم تطبيق تقنيات مختلفة مقترنة بأساليب مختلفة لاكتشاف أي سلوك غير طبيعي في مجموعة البيانات، وطرق استكشاف القيم المتطرفة يعني اكتشاف كائنات البيانات، والتي تختلف خصائصها وسلوكياتها عن باقي الكائنات في الكتلة أو مجموعات البيانات الكشف الخارجي هو عملية إيجاد القيم المتطرفة من الأشياء العادية.

تقنيات استكشاف القيم المتطرفة

1. طريقة الفرز

  • تتضمن الطريقة فرز البيانات وفقًا لحجمها في أي من الأدوات المستخدمة لمعالجة البيانات.
  • يمكن أن تؤدي مراقبة البيانات بعد ذلك إلى تحديد أي كائنات لها قيمة نطاق أعلى أو نطاق أقل.
  • يمكن التعامل مع هذه الكائنات على أنّها قيم متطرفة.

2. استخدام البيانات الرسومية

  • تتضمن التقنية استخدام الرسم البياني لرسم جميع نقاط البيانات، بحيث سيسمح هذا للمراقب بتصور نقاط البيانات التي تتباعد فعليًا عن الكائنات الأخرى في مجموعة البيانات.
  • يتم ملاحظة القيم المتطرفة بطريقة أسهل.
  • تشمل أنواع المخططات التي يمكن استخدامها للكشف عن القيم المتطرفة في التنقيب عن البيانات المدرج التكراري ومؤامرة التشتت ومخطط الصندوق.
  • تمثل الملاحظة المجمعة لنقاط البيانات على جانب واحد مقارنة بنقاط البيانات على جانب آخر القيم المتطرفة في الرسم البياني.

3. استخدام Z-Score

  • يتم استخدام (Z-Score) لتحديد مدى انحراف نقاط البيانات عن متوسط ​​العينة من خلال حساب الانحرافات المعيارية للنقاط ويفترض توزيع غاوسي في هذه الحالة.
  • في الحالات التي لا يتم فيها تطبيق التوزيع الغاوسي لوصف البيانات ليتم تطبيق التحويلات مثل تحجيمها.
  • إذا كانت قيمة (Z-score) هي (2) فإنّها تشير إلى أنّ الكائن يقع فوق المتوسط ​​بانحراف معياري قدره (2)، بينما تشير القيمة (-2) إلى أن الملاحظة تنحرف عن أقل من المتوسط ​​بانحراف معياري قدره (2).
  • لأي نقطة من مجموعة البيانات يتم استخدام التعبير التالي لحساب درجة (Z) ويتم تحديد عتبة قياسية لدرجة (Z) ومن غير المعتاد أن تكون القيمة بعيدة عن قيمة الصفر، وعادةً ما تُستخدم قيمة (Z-Score) البعيدة عن الصفر بقيمة (+/- 3) لتحديد القيم المتطرفة.
  • إذا تم اعتبار التوزيع البارامتري في مساحة ميزة ذات أبعاد منخفضة، فإنّ الدرجة (Z) تعمل على أن تكون طريقة فعالة لإزالة القيم المتطرفة من مجموعة البيانات ويمكن استخدام طرق مثل: (Isolation Forests) و(Dbscan) بحيث يكون التوزيع غير معلمي.

4. طريقة دبسكان Dbscan

  • الطريقة هي نهج التصنيف ويشار إليها باسم “التجميع المكاني القائم على الكثافة للتطبيقات مع الضوضاء”.
  • يبدو أن طرق التصنيف مفيدة لتحسين التصور وفهم البيانات.
  • يمكن استخدام (Dbscan) لتمثيل العلاقات الموجودة بين الميزات والاتجاهات في مجموعة البيانات بيانياً.
  • تحدد خوارزمية التجميع المعتمدة على الكثافة الكائنات المجاورة من خلال الكثافة في مجال (n-dimensional) ذات نصف قطر “ɛ”.
  • المجموعة المحددة في مساحة الميزة من خلال هذه الطريقة هي مجموعة من النقاط المتصلة من خلال “الكثافة”.
  • فئات نقاط البيانات كما حددها (Dbscan) هي والنقطة الأساسية والنقطة الحدودية والنائية.
  • تُعرَّف النقطة الأساسية بأنّها النقطة التي تحتوي على الأقل على نفس عدد النقاط أو تحتوي على نقاط أكثر بكثير من (MinPts).
  • ومع ذلك لا يزال من الممكن أن تكون النقطة هي “الكثافة التي تصل إليها” النقاط الأخرى الموجودة في المجموعة، أمّا الخارجة هي نقطة غير موجودة في أي مجموعة وليست “كثافة متصلة” بنقاط أخرى.

5. طريقة فصل القيم

  • للكشف عن نوع من المستجدات أو القيم المتطرفة هذا النوع من الطريقة هو الأكثر فعالية.
  • تعتمد الطريقة على تطبيق القيم الثنائية.
  • المبدأ الأساسي الذي تتبعه طريقة “الغابة العشوائية” هو أنّ النقاط التي هي القيم المتطرفة قليلة العدد وتنحرف بعيدًا عن الملاحظات الأخرى في البيانات.
  • تلتقط خوارزمية الطريقة أي ميزة وتقوم بتقسيم عشوائي للقيمة التي تقع بين الحد الأدنى والحد الأقصى لمدى القيم، ثم يتم إنشاء قيم لجميع الملاحظات الأخرى في المجموعة.
  • يتم إجراء التنبؤات من خلال مقارنة قيمة التقسيم.
  • يتم تعريف “طول المسار” على سبيل المثال على أنّه “الأجزاء” التي تم إنشاؤها بواسطة الخوارزمية.
  • تُعرَّف القيم المتطرفة بأنّه يكون لها طول مسار أقصر مقارنةً بالملاحظات الأخرى في مجموعة البيانات.
  • يمكن أيضًا تجميع مناهج التحليل الخارجي في التنقيب عن البيانات في طرق إحصائية وطريقة خاضعة للإشراف للكشف عن الحالات الخارجية وطريقة غير خاضعة للإشراف للكشف عن الحالات الخارجية.
  • تشمل الأساليب الإحصائية تقنيات رسم البيانات ودرجة (Z) لتحديد القيم المتطرفة، وعندما يتم الكشف عن قيم متطرفة واحدة فمن المستحسن استخدام اختبار (Grubbs).
  • تتضمن الأساليب الخاضعة للإشراف استخدام مجموعة تدريب من البيانات التي لها حالات لتحديد الفئات داخل البيانات بما في ذلك القيم المتطرفة.
  • في طريقة غير خاضعة للإشراف، لا توجد حالات معنونة ومع ذلك يتم إجراء التنبؤ بناءً على افتراض أنّ مجموعة البيانات تحتوي على غالبية الحالات العادية.

تحديات طرق استكشاف القيم المتطرفة

1- نمذجة القيم المتطرفة العادية بشكل فعال

تعتمد جودة الكشف عن القيم المتطرفة على نمذجة الكائنات العادية (التي ليست استثناءً)، حيث غالبًا ما يكون بناء نموذج لإيجاد الحالة الطبيعية للبيانات أمرًا صعبًا للغاية، وربما مستحيلًا لأنّه من الصعب تحديد جميع الخصائص السلوكية للأشياء العادية ومن الصعب التنبؤ بالحدود بين القيم المتطرفة العادية والقيم المتطرفة غير الطبيعية.

تميز بعض طرق كشف القيم المتطرفة عن طريق تعيين كل بيانات إدخال لاعتراض تسمية إما “عادية” أو “خارجية” وبينما تستخدم بعض الطرق الأخرى مقياس الدرجة كعامل لتحديد ما إذا كان الكائن متشددًا، وبناءً على تناسق التطبيق ونوع البيانات الخاص به يتم اختيار طريقة الكشف عن العوامل الخارجية.

2- الكشف عن حالات القيم المتطرفة الخاصة بالتطبيق

يعتمد نموذج العلاقة على نوع التطبيق ويصف خصائص كائنات البيانات العادية، حيث تتطلب التطبيقات المختلفة أنواعًا متعددة من البيانات كمدخلات وتتطلب خوارزميات مختلفة للنمذجة والتحليل، ويعكس انحراف صغير في قيم البيانات اختيار الظرف وفي المقابل في تحليل التسويق هناك حاجة إلى انحراف أكبر لقيم البيانات لتبرير الانحراف.

يعتمد اختيار طريقة الكشف الخارجي على نوع التطبيق، حيث يحتاج إلى اكتشاف القيم المتطرفة من مجموعة كبيرة ومتنوعة من بيانات التطبيقات، لذلك قد تختلف أنواع البيانات لمجموعات البيانات هذه ولا توجد طريقة فريدة للكشف عن الحالات الخارجية لجميع الاستخدامات.

3- معالجة الضوضاء في عملية الكشف عن القيم المتطرفة

عادةً ما توجد الضوضاء في جميع كميات البيانات، والضوضاء موجودة في القيم المتطرفة أيضًا ولكن هناك سوء فهم بأنّ الضوضاء والقيم المتطرفة هي نفسها، وتجعل الضوضاء جودة مجموعة البيانات غير كاملة وتحدث الضوضاء غالبًا عندما يتم جمع البيانات من العديد من الموارد والتطبيقات.

تحدث الضوضاء في مجموعات البيانات بسبب المجموعات المكررة والقيم المفقودة وانحراف سمات البيانات، والضوضاء في مجموعات البيانات يجعل البيانات فقيرة ويصبح تحديًا كبيرًا لاكتشاف القيم المتطرفة، حيث في حالة وجود ضوضاء في البيانات يصبح من الصعب استرداد الكائنات العادية وفصل القيم المتطرفة عن كميات البيانات وقد تخفي القيم المفقودة القيم المتطرفة وتقلل فرصة اكتشاف القيم المتطرفة.

4- قابلية الفهم

في بعض الحالات يطلب العميل الشرط الذي يجعل كائنًا معينًا قد أصبح غريبًا لأنّه قد يكون مفيدًا لعملية التطبيقات حيث يوجب أن يكون هناك معيار وشرطي محدد ومبرر لتمييز الكائنات العادية عن القيم المتطرفة، ويجب أن يصاغ هذا التبرير بشكل جيد، حيث أنّ الكائنات العادية لها مقاييس القرب تقريبًا وحيث تختلف القيم المتطرفة بشكل كبير في مقياس القرب.

المصدر: Data Science from Scratch: First Principles with Python by Joel Grus / 2nd EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionFoundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First Edition


شارك المقالة: