دور عملية تنظيف البيانات خلال التنقيب عن البيانات

اقرأ في هذا المقال


يُعد تنظيف البيانات عملية حاسمة في التنقيب عن البيانات، حيث أنّها تلعب دورًا مهمًا في بناء النموذج ويمكن اعتبار تنظيف البيانات بمثابة العملية المطلوبة ولكن غالبًا ما يتجاهلها الجميع، وجودة البيانات هي القضية الرئيسية في إدارة جودة المعلومات وكما تحدث مشاكل جودة البيانات في أي مكان في أنظمة المعلومات، بحيث يتم حل هذه المشكلات عن طريق تنظيف البيانات.

ما هي عملية تنظيف البيانات

عملية تنظيف البيانات: هي العملية التفصيلية لحذف أي تفاصيل غير كاملة أو خاطئة أو غير منظمة من مجموعة البيانات ولا توجد طريقة واحدة محددة لتنظيف مثل هذه البيانات وتختلف العملية من بيانات إلى بيانات، وعادةً ما ينشئ علماء البيانات ويتبعون مجموعة من خطوات تنقية البيانات التي ربما نجحت لهم تاريخيًا، ويحصلون على النتائج الصحيحة عن طريق إزالة البيانات التالفة أو المنسقة بشكل غير صحيح أو المكررة أو المضللة.

وإذا كانت البيانات غير صحيحة فإنّ النتائج والخوارزميات لا يمكن الاعتماد عليها وعلى الرغم من أنّها قد تبدو صحيحة، وعند الخلط بين مصادر بيانات متنوعة هناك العديد من الفرص لتكرار البيانات أو تسميتها بشكل خاطئ.

مبدأ عملية تنظيف البيانات

يعمل تنظيف البيانات على تقليل الأخطاء وتحسين جودة البيانات، حيث يمكن أن يكون تصحيح الأخطاء في البيانات والتخلص من السجلات التالفة عملية شاقة ومستهلكة للوقت، ولكن لا يمكن تجاهلها والتنقيب عن البيانات هو تقنية أساسية لتنظيف البيانات، والتنقيب عن البيانات هو أسلوب لاكتشاف معلومات مثيرة للاهتمام في البيانات والتنقيب عن جودة البيانات هو نهج حديث يطبق تقنيات استخراج البيانات لتحديد واستعادة مشاكل جودة البيانات في قواعد البيانات الكبيرة.

يقوم التنقيب عن البيانات تلقائيًا باستخراج المعلومات المخفية والجوهرية من مجموعات البيانات، واستخراج البيانات له تقنيات مختلفة مناسبة لتنظيف البيانات، ويُعد فهم جودة البيانات وتصحيحها أمرًا ضروريًا للوصول إلى تحليل نهائي دقيق وكما يجب إعداد البيانات لاكتشاف الأنماط الحاسمة، ويعتبر التنقيب عن البيانات استكشافية ويسمح تنظيف البيانات في استخراج البيانات للمستخدم باكتشاف بيانات غير دقيقة أو غير كاملة قبل تحليل الأعمال والرؤى.

ما هي خطوات عملية تنظيف البيانات

1. إزالة الملاحظات المكررة أو غير ذات الصلة

قم بإزالة الملاحظات غير المرغوب فيها من مجموعة البيانات الخاصة بما في ذلك الملاحظات المكررة أو الملاحظات الغير مرتبطة بهم، وستحدث الملاحظات النظيرة في الكثير من الأوقات أثناء جمع البيانات وعندما تعمل على دمج مجموعات البيانات من أماكن متنوعة أو تتخلص من البيانات أو تستلم البيانات من عملاء أو أقسام متعددة، فهناك فرص لإنشاء بيانات مكررة.

يُعد إلغاء الازدواجية أحد أكبر المجالات التي يجب مراعاتها في هذه العملية والملاحظات غير ذات الصلة هي عندما تلاحظ ملاحظات لا تتناسب مع المشكلة المحددة التي تحاول تحليلها، وعلى سبيل المثال إذا تم العمل على تحليل البيانات المتعلقة بالعملاء من جيل الألفية، لكنّ مجموعة البيانات المتوفرة تتضمن الأجيال الأكبر سناً ويمكن إزالة تلك الملاحظات غير ذات الصلة ويمكن أن يجعل هذا التحليل أكثر كفاءة، ويقلل من تشتيت الانتباه عن هدفك الأساسي وإنشاء مجموعة بيانات أكثر قابلية للإدارة والتنفيذ.

2. إصلاح الأخطاء الهيكلية

تحدث الأخطاء الهيكلية عندما تقوم بقياس البيانات أو نقلها وتلاحظ اصطلاحات تسمية غريبة أو أخطاء مطبعية أو أحرف كبيرة غير صحيحة، حيث يمكن أن تتسبب هذه التناقضات في تسمية فئات أو فئات غير صحيحة، وعلى سبيل المثال قد تجد (N / A) و(Not Applicable) في أي ورقة ولكن يجب تحليلهما في نفس الفئة.

3. تصفية القيم المتطرفة غير المرغوب فيها

في كثير من الأحيان ستكون هناك ملاحظات لمرة واحدة حيث لا يبدو أنها تتناسب مع البيانات التي تقوم بتحليلها، وإذا كان هناك سبب ضروري لإزالة استثناء مثل الإدخال غير المناسب للبيانات، فإنّ القيام بذلك سيساعد في أداء البيانات التي تعمل معها ومع ذلك في بعض الأحيان فإنّ ظهور الخارج سوف يثبت النظرية التي تعمل عليها، ومجرد وجود فائض لا يعني أنه غير صحيح وهذه الخطوة ضرورية لتحديد صلاحية هذا الرقم وإذا ثبت أن أحد العناصر الخارجية غير ذي صلة بالتحليل أو كان خطأً ففكر في إزالته.

4. التعامل مع البيانات المفقودة

لا يمكن تجاهل البيانات المفقودة لأنّ العديد من الخوارزميات لن تقبل القيم المفقودة، وهناك طريقتان للتعامل مع البيانات المفقودة، لا يعتبر أي منهما مثاليًا ولكن يمكن النظر في كليهما مثل:

  • يمكنك إسقاط الملاحظات بقيم مفقودة ولكن هذا سيؤدي إلى إسقاط المعلومات أو فقدها لذا كن حذرًا قبل إزالتها.
  • يمكن إدخال القيم المفقودة بناءً على إشعارات أخرى، ومرة أخرى هناك فرصة لفقد جودة البيانات لأنّه قد تعمل من الافتراضات وليس الملاحظات الفعلية في تغيير كيفية استخدام البيانات للتنقل بين القيم الخالية بشكل فعال.

5. التحقق من صحة البيانات وQA

في نهاية عملية تنظيف البيانات يجب أن تكون قادرًا على الإجابة على هذه الأسئلة كجزء من التحقق الأساسي مثل:

  • هل البيانات منطقية؟
  • هل تتبع البيانات القواعد المناسبة لمجالها؟
  • هل يثبت أو يدحض نظرية العمل الخاصة بك أو يسلط الضوء على أي بصيرة؟
  • هل يمكنك العثور على اتجاهات في البيانات لمساعدتك في نظريتك التالية؟

إذا لم يكن كذلك فهل هذا بسبب مشكلة جودة البيانات، وبسبب البيانات غير الصحيحة؟ يمكن للاستنتاجات الخاطئة أن تفيد في استراتيجية العمل واتخاذ القرارات السيئة، كما يمكن أن تؤدي الاستنتاجات الخاطئة في إعداد التقارير عندما تدرك أن البيانات ليست في وضع يسمح لها بالدراسة، وقبل الوصول إلى هناك من المهم إنشاء ثقافة للبيانات عالية الجودة في مؤسستك، وللقيام بذلك يجب عليك توثيق الأدوات التي قد تستخدمها لإنشاء هذه الاستراتيجية.

طرق عملية تنظيف البيانات

  • (ignore the tuples): هذه الطريقة ليست مجدية جدًا، حيث أنها تستخدم فقط عندما يكون للمجموعة سمات عديدة بها قيم مفقودة.
  • ملأ القيمة المفقودة: هذا النهج أيضًا ليس فعالًا أو ممكنًا، وعلاوةً على ذلك يمكن أن تكون طريقة مستهلكة للوقت وفي النهج على المرء أن يملأ القيمة المفقودة، حيث عادةً ما يتم ذلك يدويًا ولكن يمكن إجراؤه أيضًا من خلال متوسط ​​السمة أو باستخدام القيمة الأكثر احتمالية.
  • طريقة (Binning): هذا النهج سهل الفهم بحيث يتم تجانس البيانات التي تم فرزها باستخدام القيم الموجودة حولها، ثم يتم تقسيم البيانات إلى عدة أجزاء متساوية الحجم، وبعد ذلك يتم تنفيذ الطرق المختلفة لإكمال المهمة.
  • الانحدار: يتم جعل البيانات سلسة بمساعدة استخدام وظيفة الانحدار، حيث يمكن أن يكون الانحدار خطيًا أو متعددًا والانحدار الخطي له متغير مستقل واحد فقط، والانحدارات المتعددة لها أكثر من متغير مستقل واحد.
  • التجميع: تعمل هذه الطريقة بشكل أساسي على المجموعة والتجميع كميات البيانات في كتلة ثم يتم الكشف عن القيم المتطرفة بمساعدة التجميع، بعد ذلك يتم ترتيب القيم المتشابهة في “مجموعة”.

في معظم الحالات يمكن أن يكون تنظيف البيانات في عملية التنقيب عن البيانات عملية شاقة وتتطلب عادةً موارد تكنولوجيا المعلومات للمساعدة في الخطوة الأولى لتقييم البيانات؛ لأنّ تنظيف البيانات قبل استخراج البيانات يستغرق وقتًا طويلاً ولكن بدون جودة البيانات المناسبة، سيعاني التحليل النهائي من عدم الدقة أو من المحتمل أن تصل إلى نتيجة خاطئة.

المصدر: Foundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: