ما هي طرق عملية تنظيف البيانات

اقرأ في هذا المقال


بشكل دوري يجب تقييم عمليات تنظيف البيانات الخاصة وتعديلها حسب الضرورة، وعلى الرغم من أنّ كل مجموعة بيانات فريدة من نوعها إلا أنّه لا يزال من المهم تطوير عملية موحدة إلى حد ما لإدارة البيانات لاستخدامها كنقطة بداية.

طرق عملية تنظيف البيانات

سيضمن تنظيف البيانات عدم تخطي خطوات تنظيف البيانات المهمة عن طريق الخطأ مع توفير مرونة كافية لضبط إطار العمل حسب الحاجة وتنظيف البيانات هو عملية إزالة البيانات غير الصحيحة أو المكررة أو الخاطئة من مجموعة البيانات، ويمكن أن تتضمن هذه الأخطاء بيانات منسقة بشكل غير صحيح وإدخالات زائدة عن الحاجة وبيانات ذات تسمية خاطئة ومشكلات أخرى، وغالبًا ما تنشأ عند دمج مجموعتين أو أكثر من مجموعات البيانات معًا.

يعمل تنظيف البيانات على تحسين جودة بياناتك بالإضافة إلى أي قرارات تجارية تتخذها بناءً على البيانات، ولا توجد وسيلة واحدة صحيحة لتنظيف مجموعة بيانات، حيث إن كل مجموعة مختلفة وتقدم قائمة فريدة خاصة بها من الأخطاء التي تحتاج إلى تصحيح ويمكن الآن أتمتة العديد من تقنيات تنظيف البيانات بمساعدة برنامج مخصص، ولكن يجب تنفيذ جزء من العمل يدويًا لضمان أكبر قدر من الدقة وعادةً ما يتم هذا العمل من قبل محللي جودة البيانات ومحللي (BI) ومستخدمي الأعمال.

تختلف طرق تنظيف البيانات لكل مؤسسة بالنسبة لاحتياجاتها الفردية بالإضافة إلى القيود الخاصة لمجموعة البيانات، ومع ذلك فإن معظم خطوات تنظيف البيانات تتبع إطار عمل قياسي:

  • تحدد قيم البيانات الهامة التي تحتاجها لتحليلك.
  • جمع البيانات التي تحتاجها ثم العمل على فرزها وتنظيمها.
  • تحديد القيم المكررة أو غير ذات الصلة وقم بإزالتها.
  • البحث عن القيم المفقودة واملأها، حتى يكون لديك مجموعة بيانات كاملة.
  • إصلاح أي أخطاء هيكلية أو متكررة متبقية في مجموعة البيانات.
  • التحقق من صحة مجموعة البيانات الخاصة للتأكد من أنّها جاهزة لتحويل البيانات وتحليلها.
  • بمجرد التحقق من صحة المجموعة العمل على إجراء التحويل والتحليل.

المصدر: Foundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: