تقنية المعالجة المسبقة للبيانات

اقرأ في هذا المقال


تصف المعالجة المسبقة للبيانات وهي أحد مكونات إعداد البيانات أي نوع من المعالجة التي يتم إجراؤها على البيانات الخام لإعدادها لإجراء معالجة بيانات آخر، ولقد كان تقليديًا خطوة أولية مهمة لعملية التنقيب عن البيانات وفي الآونة الأخيرة تم تكييف تقنيات المعالجة المسبقة للبيانات لتدريب نماذج التعلم الآلي ونماذج الذكاء الاصطناعي وتشغيل الاستدلالات ضدها.

ما هي تقنية المعالجة المسبقة للبيانات

تقنية المعالجة المسبقة للبيانات: هي عملية تحويل البيانات الإبتدائية إلى شكل مفهوم، حيث أنّها أيضًا مرحلة ضرورية في التنقيب عن البيانات، حيث لا يمكن العمل مع البيانات الخام ويجب التحقق من جودة البيانات قبل تطبيق خوارزميات التعلم الآلي أو خوارزميات التنقيب عن البيانات.

لماذا تعتبر تقنية المعالجة المسبقة للبيانات مهمة

يتطلب أي نوع من أنواع تحليل البيانات أو علم البيانات أو تطوير الذكاء الاصطناعي تقريبًا نوعًا من المعالجة المسبقة للبيانات لتوفير نتائج موثوقة ودقيقة وقوية لتطبيقات المؤسسة، حيث أنّ بيانات العالم الحقيقي فوضوية وغالبًا ما يتم إنشاؤها ومعالجتها وتخزينها بواسطة مجموعة متنوعة من البشر والعمليات التجارية والتطبيقات.

نتيجةً لذلك قد تفتقد مجموعة البيانات إلى حقول فردية أو تحتوي على أخطاء إدخال يدوية أو تحتوي على بيانات مكررة أو أسماء مختلفة لوصف الشيء نفسه، كما يمكن للبشر في كثير من الأحيان تحديد هذه المشكلات وتصحيحها في البيانات التي يستخدمونها في مجال الأعمال، ولكن البيانات المستخدمة لتحسين التعلم الآلي أو خوارزميات التعلم العميق تحتاج إلى معالجة تلقائية مسبقًا.

تعمل خوارزميات التعلم الآلي والتعلم العميق بشكل أفضل عند تقديم البيانات بتنسيق يسلط الضوء على الجوانب ذات الصلة المطلوبة لحل مشكلة ما، وتساعد ممارسات هندسة الميزات التي تتضمن مناظرة البيانات وتحويل البيانات وتقليل البيانات واختيار الميزات وتوسيع نطاق الميزات في إعادة هيكلة البيانات الأولية إلى نموذج مناسب لأنواع معينة من الخوارزميات.

كما يمكن أن يقلل هذا بشكل كبير من قوة المعالجة والوقت اللازمين لتدريب خوارزمية جديدة للتعلم الآلي أو الذكاء الاصطناعي أو إجراء استنتاج ضدها، وتحذير واحد يجب مراعاته في بيانات المعالجة المسبقة هو احتمال إعادة تشفير التحيز في مجموعة البيانات، ويعد تحديد التحيز وتصحيحه أمرًا بالغ الأهمية للتطبيقات التي تساعد في اتخاذ القرارات التي تؤثر على الأشخاص.

على الرغم من أن علماء البيانات قد يتجاهلون عن عمد متغيرات إلّا أن هذه السمات قد تكون مرتبطة بمتغيرات أخرى مثل الرموز البريدية أو المدارس التي حضرها ممّا يؤدي إلى نتائج متحيزة، وتتضمن معظم حزم وخدمات علوم البيانات الحديثة مكتبات معالجة مسبقة متنوعة تساعد في أتمتة العديد من هذه المهام.

الخطوات المتبعة في تقنية المعالجة المسبقة للبيانات

1. تنظيف البيانات

يمكن أن تحتوي البيانات على العديد من الأجزاء غير ذات الصلة والمفقودة، وللتعامل مع هذا الجزء يتم تنظيف البيانات ويتضمن التعامل مع البيانات المفقودة والبيانات الضوضائية وما إلى ذلك.

أولاً: البيانات المفقودة

ينشأ هذا الموقف عندما تكون بعض البيانات مفقودة في البيانات، ويمكن التعامل معها بطرق مختلفة وهذه بعضها:

  • تجاهل المجموعات: وهذا النهج مناسب فقط عندما تكون مجموعة البيانات التي لدينا كبيرة جدًا وقيم متعددة مفقودة داخل المجموعة.
  • ملأ القيم المفقودة: هناك طرق مختلفة للقيام بهذه المهمة ويمكن اختيار تعبئة القيم المفقودة يدويًا من خلال متوسط ​​السمة أو القيمة الأكثر احتمالية.

ثانياً: البيانات المشوشة

البيانات المشوشة هي بيانات لا معنى لها ولا يمكن للآلات تفسيرها ويمكن إنشاؤها بسبب خلل في جمع البيانات وأخطاء إدخال البيانات وما إلى ذلك ويمكن التعامل معها بالطرق التالية:

  • طريقة (Binning): تعمل هذه الطريقة على البيانات المصنفة من أجل تسهيلها ويتم تقسيم البيانات بأكملها إلى أجزاء متساوية الحجم ومن ثم يتم تنفيذ طرق مختلفة لإكمال المهمة، كما يتم التعامل مع كل مجزأة على حدة ويمكن للمرء أن يحل محل جميع البيانات في مقطع من خلال المتوسط ​​أو يمكن استخدام قيم الحدود لإكمال المهمة.
  • التراجع: هنا يمكن جعل البيانات سلسة من خلال ملاءمتها مع دالة الانحدار، وقد يكون الانحدار المستخدم خطيًا (له متغير مستقل واحد) أو متعدد (له متغيرات مستقلة متعددة).
  • التجميع: يجمع هذا النهج البيانات المتشابهة في كتلة، وقد لا يتم اكتشاف القيم المتطرفة أو أنّها ستقع خارج المجموعات.

2. تحويل البيانات

يتم اتخاذ هذه الخطوة من أجل تحويل البيانات إلى أشكال مناسبة لعملية التنقيب ويتضمن ذلك الطرق التالية:

  • التطبيع: يتم ذلك من أجل قياس قيم البيانات في نطاق محدد (-1.0 إلى 1.0 أو من 0.0 إلى 1.0)
  • اختيار السمة: في هذه الإستراتيجية، يتم تكوين سمات جديدة من مجموعة معينة من السمات للمساعدة في عملية التنقيب.
  • التكتم: يتم ذلك لاستبدال القيم الأولية للسمة الرقمية بمستويات الفاصل الزمني أو المستويات المفاهيمية.
  • مفهوم جيل التسلسل الهرمي: هنا يتم تحويل السمات من المستوى الأدنى إلى المستوى الأعلى في التسلسل الهرمي وعلى سبيل المثال السمة “المدينة” يمكن تحويلها إلى “البلد”.

3. تقليل البيانات

نظرًا لأنّ التنقيب عن البيانات هو تقنية تُستخدم للتعامل مع كمية هائلة من البيانات، وأثناء العمل مع حجم ضخم من البيانات أصبح التحليل أكثر صعوبة في مثل هذه الحالات، وللتخلص من هذا يتم استخدام تقنية تقليل البيانات يهدف إلى زيادة كفاءة التخزين وتقليل تكاليف تخزين البيانات وتحليلها، والخطوات المختلفة لتقليل البيانات هي:

  • تجميع مكعب البيانات: يتم تطبيق عملية التجميع على البيانات الخاصة ببناء مكعب البيانات.
  • تحديد مجموعة السمات الفرعية: يجب استخدام السمات ذات الصلة للغاية ويمكن التخلص من الباقي، ولأداء اختيار السمة يمكن للمرء استخدام مستوى الأهمية والقيمة (p) للسمة، ويمكن تجاهل السمة التي لها قيمة (p) أكبر من مستوى الأهمية.
  • الحد من الأعداد: يمكّن هذا من تخزين نموذج البيانات بدلاً من البيانات الكاملة وعلى سبيل المثال نماذج الانحدار.
  • تخفيض الأبعاد: يؤدي هذا إلى تقليل حجم البيانات عن طريق آليات التشفير ويمكن أن تكون ضائعة أو غير ضائعة، وإذا كان من الممكن استرداد البيانات الأصلية بعد إعادة الإعمار من البيانات المضغوطة، فإنّ هذا التخفيض يسمى التقليل بدون فقدان البيانات أو يسمى تقليل الضياع، والطريقتان الفعالتان لتقليل الأبعاد هما: تحويلات (Wavelet) وتحليل المكونات الرئيسية (PCA).

4. إثراء البيانات

في هذه الخطوة يطبق علماء البيانات مكتبات هندسة الميزات المتنوعة على البيانات لإحداث التحولات المرغوبة، ويجب أن تكون النتيجة مجموعة بيانات منظمة لتحقيق التوازن الأمثل بين وقت التدريب لنموذج جديد والحساب المطلوب.

5. التحقق من صحة البيانات

  • في هذه المرحلة يتم تقسيم البيانات إلى مجموعتين وتُستخدم المجموعة الأولى لتدريب نموذج التعلم الآلي أو التعلم العميق والمجموعة الثانية هي بيانات الاختبار المستخدمة لقياس دقة ومتانة النموذج الناتج.
  • تساعد هذه الخطوة في تحديد أي مشاكل في الفرضية المستخدمة في تنظيف البيانات وهندستها المميزة.
  • إذا كان علماء البيانات راضين عن النتائج فيمكنهم دفع مهمة المعالجة المسبقة إلى مهندس بيانات يكتشف كيفية توسيع نطاقها للإنتاج، وإذا لم يكن الأمر كذلك يمكن لعلماء البيانات العودة وإجراء تغييرات على الطريقة التي نفذوا بها تنقية البيانات وخطوات هندسة الميزات.

المصدر: Foundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: