كيفية معالجة القيم المتطرفة خلال التنقيب عن البيانات

اقرأ في هذا المقال


القيم المتطرفة هي قيم غير عادية في مجموعة البيانات الخاصة، ويمكن أن تشوه التحليلات الإحصائية وتنتهك افتراضاتها ولسوء الحظ سيواجه جميع المحللين القيم المتطرفة وسيضطرون إلى اتخاذ قرارات بشأن ما يجب فعله معها، ونظرًا للمشكلات التي يمكن أن تسببها فمن الأفضل إزالتها من بياناتك، وإزالة القيم المتطرفة أمر مشروع فقط لأسباب محددة.

معالجة القيم المتطرفة خلال التنقيب عن البيانات

يمكن أن تكون القيم المتطرفة مفيدة للغاية حول مجال الموضوع وعملية جمع البيانات، ومن الضروري فهم كيفية حدوث القيم المتطرفة وما إذا كانت تحدث مرة أخرى كجزء طبيعي من العملية أو منطقة الدراسة، لكن قد تكون مقاومة إزالة القيم المتطرفة بشكل غير لائق أمرًا صعبًا، والقيم المتطرفة تزيد من التباين في البيانات ممّا يقلل من القوة الإحصائية وبالتالي يمكن أن يتسبب استبعاد القيم المتطرفة في أن تصبح النتائج ذات دلالة إحصائية.

هناك العديد من الاستراتيجيات للتعامل مع القيم المتطرفة في البيانات، واعتمادًا على الموقف ومجموعة البيانات يمكن أن تكون أي طريقة صحيحة أو خاطئة، وبالإضافة إلى ذلك تحتوي معظم أدوات الاختبار الرئيسية على استراتيجيات للتعامل مع القيم المتطرفة لكنّها تختلف عادةً في كيفية القيام بذلك.

لهذا السبب لا يزال من المهم إجراء تحليل مخصص فيما يتعلق بالقيم المتطرفة وحتى إذا كانت أداة الاختبار تحتوي على معلمات افتراضية، ولا يمكن الوثوق فقط في بيانات الاختبار الخاصة ولكن في بعض الأحيان ينتج عن تحليل القيم المتطرفة رؤيته الخاصة التي تساعد في التحسين.

من أجل اتخاذ قرارات قائمة على الحقائق هناك حاجة غالبًا إلى استخدام البيانات لاستخلاص الاستنتاجات والتوصل إلى استنتاجات، وهناك العديد من الأدوات الإحصائية القوية المتاحة التي يمكن استخدامها لتحليل البيانات ومع ذلك فإنّ بعض هذه الأدوات حساسة للغاية لوجود القيم المتطرفة في البيانات، وإذا تم تجاهل القيم المتطرفة أو استخدم أدوات إحصائية خاطئة للتحليل، فقد ينتهي الأمر إلى استخلاص استنتاجات خاطئة.

أسباب ظهور القيم المتطرفة خلال عملية التنقيب

لا ينبغي أبدًا حذف أي قيم متطرفة في البيانات دون إجراء تحقيق مناسب لأن القيم المتطرفة قد تحتوي على الكثير من المعلومات القيمة التي سيتم فقدها إذا تم حذف القيم المتطرفة، وبالتالي من المهم أن يتم تحليل القيم المتطرفة قبل تحديد مسار العمل، وفيما يلي بعض الأسباب الشائعة للقيم المتطرفة في مجموعة البيانات:

1- أخطاء إدخال البيانات

تحدث بسبب أخطاء بشرية أثناء جمع البيانات أو تسجيلها أو إدخالها، وعلى سبيل المثال الطلبات السنوية لعميل واحد هي بالآلاف وبالصدفة الشخص الذي يدخل أسعار البيانات أضاف صفر إضافي بالألف، بهذه الطريقة سيصبح الطلب أعلى (10) مرات ومن الواضح أن هذا سيكون قيمة خارجية مقارنة بالعملاء الآخرين.

2- أخطاء القياس أو أخطاء الأداة

هذا هو السبب الأكثر شيوعًا للقيم المتطرفة، حيث يحدث هذا النوع من الخطأ عندما تصبح الأداة معيبة.

3- أخطاء أخذ العينات

ضع في اعتبارك مثالًا حيث يتعين علي قياس الوزن ولكن عن طريق الخطأ تم تضمين بعض الأوزان مختلفة النوع في العينة الآن من المحتمل جدًا أن يتسبب هذا التضمين في حدوث قيم شاذة في مجموعة البيانات.

4- خطأ في معالجة البيانات

يحدث هذا الخطأ أثناء إجراء استخراج البيانات من مصادر متعددة، هناك احتمال أن يحدث بسبب بعض التلاعب أو أخطاء الاستخراج حيث تظهر هناك بعض القيم المتطرفة في مجموعة البيانات.

5- المستجدات الطبيعية في البيانات

تسمى القيم المتطرفة التي لا تنتج عن أي خطأ القيم المتطرفة الطبيعية.

كيفية معالجة القيم المتطرفة خلال التنقيب عن البيانات

1- حذف القيم

يمكن حذف القيم المتطرفة إذا كنت تعلم أن القيم المتطرفة خاطئة أو إذا كان سبب إنشاء القيم المتطرفة لن يحدث أبدًا في المستقبل.

2- تغيير القيم

يمكن أيضًا تغيير القيم في الحالات التي نعرف فيها سبب القيم المتطرفة، فمثلاً في القياس أو أخطاء الجهاز حيث إذا كان (10) فولت متر واحد منها كان معيبًا، وهنا يمكن القيام بأخذ مجموعة أخرى من القراءات باستخدام مقياس الفولتميتر الصحيح واستبدالها بالقراءات التي تم أخذها بواسطة الفولتميتر الخاطئ.

3- تحويل البيانات

يُعد تحويل البيانات مفيدًا عندما نتعامل مع مجموعات بيانات شديدة الانحراف، ومن خلال تحويل المتغيرات يمكن القضاء على القيم المتطرفة، وعلى سبيل المثال يؤدي أخذ السجل الطبيعي لقيمة ما إلى تقليل التباين الناجم عن القيم المتطرفة ويمكن القيام بذلك أيضًا لمجموعات البيانات التي لا تحتوي على قيم سالبة.

4- استخدام طرق تحليل مختلفة

يمكن أيضًا استخدام اختبارات إحصائية مختلفة لا تتأثر كثيرًا بوجود القيم المتطرفة وعلى سبيل المثال استخدام الوسيط لمقارنة مجموعات البيانات بدلاً من المتوسط ​​أو استخدام اختبارات غير معلمية مكافئة، ويعد تحديد القيم المتطرفة والتعامل معها جزءًا لا يتجزأ من العمل مع البيانات، ولا يختلف التعلم الآلي عن ذلك، ويعتمد تطوير الخوارزمية عادةً على مصفوفات ضخمة من بيانات التدريب لتحقيق مستوى عالٍ من الدقة.

بمجرد نشرها ستقوم النماذج بمعالجة كميات هائلة من البيانات ممّا يوفر رؤى حول الاتجاهات والأنماط، وفي هذه البيئة الغنية بالبيانات يمكن للمؤسسات أن تتوقع التعامل مع البيانات الخارجية، ويمكن للقيم المتطرفة أن تحرف الاتجاهات ويكون لها تأثير خطير على دقة النماذج، ويمكن أن يكون وجود القيم المتطرفة علامة على انحراف المفهوم لذا يلزم إجراء تحليل متطرف مستمر في التعلم الآلي.

تتعلم نماذج التعلم الآلي من البيانات لفهم الاتجاهات والعلاقة بين نقاط البيانات، ويمكن للقيم المتطرفة أن تحرف النتائج ويمكن أن تؤثر الحالات الشاذة في بيانات التدريب على فعالية النموذج بشكل عام، ويُعد اكتشاف القيم المتطرفة أداة رئيسية في حماية جودة البيانات، حيث يمكن حذف البيانات والأخطاء الشاذة وتحليلها بمجرد تحديدها.

5- تقدير القيم المتطرفة

في حالة وجود سبب وجيه لوجود العناصر المتطرفة وهي جزء من العملية الطبيعية، يجب التحقيق في سبب الانحراف لأنّه يمكن أن يوفر أدلة قيمة يمكن أن تساعدك على فهم أداء العملية بشكل أفضل، وقد تكون القيم المتطرفة تخفي معلومات ثمينة قد تكون ذات قيمة لتحسين أداء العملية.

كما يجب أخذ الوقت الكافي لفهم الأسباب الخاصة التي ساهمت في هذه القيم المتطرفة، بحيث يمكن أن يمنح إصلاح هذه الأسباب الخاصة دفعة كبيرة في أداء العملية وتحسين رضا العملاء، وعلى سبيل المثال يستغرق التسليم العادي للطلبات من يوم إلى يومين لكن بعض الطلبات يستغرق أكثر من شهر لإكمالها، كما يمكن أن يساعد فهم سبب استغراق الشهر وإصلاح هذه العملية العملاء في المستقبل حيث لن يتأثروا بفترات الانتظار الطويلة هذه.

المصدر: Data Science from Scratch: First Principles with Python by Joel Grus / 2nd EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionFoundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First Edition


شارك المقالة: