ما هي البيانات الضوضائية خلال عملية التنقيب

اقرأ في هذا المقال


البيانات الضوضائية هي بيانات تحتوي على كمية كبيرة من المعلومات الإضافية التي لا معنى لها والتي تسمى الضوضاء، حيث يتضمن ذلك تلف البيانات وغالبًا ما يستخدم المصطلح كمرادف للبيانات الفاسدة، ويشمل أيضًا أي بيانات لا يستطيع نظام المستخدم فهمها وتفسيرها بشكل صحيح والعديد من الأنظمة.

ما هي البيانات الضوضائية

البيانات الضوضائية: هي بيانات تالفة أو مشوهة أو ذات نسبة إشارة إلى ضوضاء منخفضة، حيث يمكن أن تؤدي الإجراءات غير الصحيحة (أو الإجراءات الموثقة بشكل غير صحيح) لطرح الضوضاء في البيانات إلى شعور زائف بالدقة أو استنتاجات خاطئة.

البيانات = إشارة حقيقية + ضوضاء

يمكن أن تحدث البيانات المزعجة بسبب فشل الأجهزة وأخطاء البرمجة والإدخال المبهم من الكلام أو برامج التعرف الضوئي على الأحرف (OCR) ويمكن أن تعيق الأخطاء الإملائية واختصارات الصناعة واللغة العامية أيضًا قراءة الآلة، والضوضاء مشكلة لا مفر منها تؤثر على عمليات جمع البيانات وإعدادها في تطبيقات التنقيب عن البيانات.

قد يؤثر وجود ضوضاء في البيانات على الخصائص الجوهرية لمشكلة التصنيف، حيث يمكن أن تؤدي حالات الفساد هذه إلى إدخال خصائص جديدة في مجال المشكلة، وعلى سبيل المثال يمكن أن تؤدي الضوضاء إلى إنشاء مجموعات صغيرة من أمثلة فئة معينة في مناطق المجال المقابلة لفئة أخرى، أو يمكن أن تتسبب في اختفاء الأمثلة الموجودة في المناطق الرئيسية داخل فئة معينة.

تُعد حدود الفئات والتداخل بينها أيضًا من العوامل التي يمكن أن تتأثر نتيجة للضوضاء، وكل هذه التعديلات صعبة استخراج المعرفة من البيانات، وتفسد النماذج التي تم الحصول عليها باستخدام تلك البيانات الضوضائية عند مقارنتها بالنماذج المستفادة من البيانات النظيفة، والتي تمثل المعرفة الضمنية الحقيقية للمشكلة لذلك فإنّ البيانات التي يتم جمعها من مشاكل العالم الحقيقي ليست مثالية أبدًا.

مصادر البيانات الضوضائية

تأتي الاختلافات في البيانات المقاسة في العالم الحقيقي من القيم الحقيقية من عدة عوامل تؤثر على القياس، حيث غالبًا ما تكون الضوضاء العشوائية مكونًا كبيرًا للضوضاء في البيانات، ويتم قياس الضوضاء العشوائية في الإشارة على أنها نسبة الإشارة إلى الضوضاء، وتحتوي الضوضاء العشوائية على كميات متساوية تقريبًا من نطاق واسع من الترددات وتسمى “الضوضاء البيضاء” (حيث تتحد ألوان الضوء لتكوين الأبيض)، والضوضاء العشوائية مشكلة لا مفر منها وإنّه يؤثر على عمليات جمع البيانات وإعدادها حيث تحدث الأخطاء بشكل شائع، والضوضاء مصدران رئيسيان:

  • الأخطاء التي أدخلتها أدوات القياس.
  • يتم إدخال أخطاء عشوائية عن طريق المعالجة أو الخبراء عند جمع البيانات.

ويمكن أن تؤدي التصفية غير الصحيحة إلى حدوث ضوضاء إذا تم التعامل مع الإشارة المصفاة كإشارة تم قياسها مباشرة، ويؤدي التمييز بين المرشحات الرقمية إلى تضخيم الضوضاء العشوائية في البيانات الأصلية، والبيانات الخارجية هي البيانات التي يبدو أنها لا تنتمي إلى مجموعة البيانات، ويمكن أن يكون ناتجًا عن خطأ بشري مثل تبديل الأرقام والتسميات الخاطئة وأخطاء البرمجة.

إذا تم تحديد البيانات الصحيحة على أنها خارجية وتمت إزالتها عن طريق الخطأ فإن ذلك يفسد النتائج أيضًا، إذا لم تتم إزالة القيم المتطرفة الفعلية من مجموعة البيانات فإنّها تفسد النتائج إلى درجة صغيرة أو كبيرة وحسب الظروف، وقد يتعمد الأفراد تحريف البيانات للتأثير على النتائج نحو النتيجة المرجوة، والبيانات التي تبدو جيدة مع القليل من القيم المتطرفة تنعكس جيدًا على الفرد الذي يجمعها، وبالتالي قد يكون هناك حافز لإزالة المزيد من البيانات على أنها قيم متطرفة أو جعل البيانات تبدو أكثر سلاسة ممّا هي عليه.

أنواع بيانات الضوضاء المؤثرة على عملية التنقيب

يحدد عدد كبير من المكونات جودة مجموعة البيانات ومن بينها تؤثر تسميات الفئة وقيم السمات بشكل مباشر على جودة مجموعة بيانات التصنيف، تشير جودة تسميات الفئة إلى ما إذا كان قد تم تعيين فئة كل مثال بشكل صحيح وخلافًا لذلك تُشير جودة السمات إلى قدرتها على توصيف الأمثلة بشكل صحيح لأغراض التصنيف إذا كان التشويش يؤثر على قيم السمات، وهذه القدرة على التوصيف وبالتالي تقل جودة السمات، وبناءً على مصدري المعلومات هذين يمكن تمييز نوعين من الضوضاء في مجموعة بيانات معينة.

1. ضوضاء الفئة وضوضاء التسمية

يحدث هذا عندما يتم تسمية مثال بشكل غير صحيح، يمكن أن تُعزى ضوضاء الفئة إلى عدة أسباب مثل الذاتية أثناء عملية وضع العلامات أو أخطاء إدخال البيانات أو المعلومات غير الكافية المستخدمة لتسمية كل مثال، كما تنقسم ضوضاء الفصل أيضًا إلى نوعين مثل:

  • متناقضة.
  • أخطاء التصنيف.

2. ضوضاء السمة

يشير هذا إلى الاختلاف في قيم واحدة أو أكثر من السمات، وأمثلة ضوضاء السمة هي:

  • قيم السمات الخاطئة.
  • قيم سمات مفقودة أو غير معروفة.
  • سمات غير مكتملة أو قيم لا تهتم.

المصدر: Data Science from Scratch: First Principles with Python by Joel Grus / 2nd EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionFoundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First Edition


شارك المقالة: