تتمثل الخطوة الأولى في تنظيف البيانات السيئة في فحصها وتعيين مكان وجود مشاكل في تحليلك وبناء النموذج، ويمكن بدء هذه العملية بتعيين جميع الصفوف ذات القيم الخاصة في الحقل الهدف.
ما هي عملية التنظيف الذكي للبيانات
- بمجرد الحصول على هذه القيم من المهم تحديدها بشكل فردي وفحص كل صف من البيانات، وفي بعض الأحيان ستحتوي البيانات على قيم مكررة ولكن عادةً ما يكون من الممكن تحديد واحد فقط من التكرارات.
- إذا بدا أن سجلات متعددة تحتوي على سجلات متطابقة فقد تتم إزالة هذه السجلات من مجموعة البيانات أيضًا، ومن المهم مراجعة جميع المعلومات المتوفرة في مجموعة البيانات الخاصة قبل تحديد ما إذا كنت تريد إزالة صفوف معينة أم لا.
- أثناء مراجعة البيانات يجب أن تأخذ في الاعتبار حجم ملف البيانات ومقدار الحساب المطلوب لبناء نموذج جيد، وكما يجب تجنب استخدام أكثر من عاملين للنمذجة ما لم يكن هناك سبب مناسب للقيام بذلك.
- تتمثل الخطوة الرئيسية في عملية تنظيف البيانات في تحديد البيانات السيئة، وينطوي على وضع إجراءات تصحيحية ومثال على هذا الإجراء التصحيحي هو استبدال البيانات السيئة ببيانات جيدة من عينة أخرى من مجموعة البيانات.
- قبل ظهور الذكاء الاصطناعي (AI) ومجموعة فرعية من التعلم الآلي (ML) كان على شركات تحليل البيانات استخدام حلول تنقية البيانات التقليدية للقيام بهذه المهمة، وهذه الأساليب لا تعمل على نطاق واسع أو عند العمل مع البيانات ولا تستطيع الأساليب التقليدية ببساطة مواكبة التدفقات الكبيرة من البيانات الجديدة بدرجات متفاوتة من الفائدة.
- ويعني دخول الذكاء الاصطناعي الآن أنّه يمكن لخبراء تنقية البيانات استخدام حلول تنقية البيانات وتحسينها استنادًا إلى التعلم الآلي ونظرًا لأن البيانات تتدفق من مصادر عديدة؛ فإنّ أي برنامج يستخدم تعلم الآلة يحتاج إلى الحصول على البيانات في ترتيب مستقر لتبسيطها وضمان أنماط متسقة عبر جميع نقاط جمع البيانات.