عملية تطبيع البيانات خلال التنقيب وطرقها

اقرأ في هذا المقال


يتم استخدام التطبيع لقياس بيانات السمة بحيث تقع في نطاق أصغر مثل: (-1.0 إلى 1.0 أو من 0.0 إلى 1.0)، وكما إنّه مفيد بشكل عام لخوارزميات التصنيف، وكما أنّ تطبيق تطبيع التنقيب عن البيانات معقول ويسمح بتحقيق نتائج معينة وهناك بعض تقنيات تطبيع التنقيب عن البيانات المستخدمة على نطاق واسع لتحويل البيانات.

ما هي عملية تطبيع البيانات خلال التنقيب

يُعد تطبيع البيانات عنصرًا أساسيًا في التنقيب عن البيانات، ويعني تحويل البيانات أي تحويل بيانات المصدر إلى تنسيق آخر يسمح بمعالجة البيانات بشكل فعال، حيث أنّ الغرض الرئيسي من تسوية البيانات هو تقليل أو حتى استبعاد البيانات المكررة وهذه مسألة أساسية ومهمة للغاية؛ لأنّه من الصعب بشكل متزايد الاحتفاظ بالبيانات في قواعد البيانات المترابطة التي تحفظ بيانات متطابقة في أكثر من مكان.

التطبيع مطلوب بشكل عام عندما نتعامل مع سمات على نطاق مختلف، وإلّا فقد يؤدي إلى تخفيف فعالية سمة مهمة بنفس القدر (على نطاق أقل) بسبب سمة أخرى لها قيم على نطاق أوسع، وعندما توجد سمات متعددة ولكن تحتوي السمات على قيم بمقاييس مختلفة فقد يؤدي ذلك إلى نماذج بيانات رديئة أثناء إجراء عمليات التنقيب عن البيانات، ولذلك يتم تطبيعهم لجعل جميع السمات على نفس المقياس.

تطبيع التنقيب عن البيانات هو عملية متعددة المراحل تعمل على تحويل البيانات إلى جدول حذف البيانات المتكررة من قواعد البيانات المترابطة، حيث إنّه أمر مهم للغاية لأنّه إذا كانت مجموعة البيانات رائعة وتتضمن العديد من الميزات الرائعة ولكن لم يتم تطبيعها ويمكن أن تسود إحدى الميزات على الميزات الأخرى وتطبيع البيانات يحل هذه المشكلة.

خصائص عملية تطبيع البيانات خلال التنقيب

يُعد تطبيع البيانات مكونًا أساسيًا في استخراج البيانات لضمان الاتساق في سجلات البيانات، حيث يستلزم تحويل البيانات أو تحويل البيانات الأصلية إلى تنسيق يتيح معالجة البيانات بكفاءة، والهدف الأساسي من تطبيع البيانات هو تقليل البيانات الزائدة عن الحاجة أو إزالتها في مجموعة بيانات واحدة أو أكثر.

تُعد ازدواجية البيانات مشكلة خطيرة لأنّ تخزين البيانات في قواعد البيانات المترابطة والاحتفاظ بالبيانات المماثلة في عدة مواقع يصبح أمرًا صعبًا، والتطبيع هي طريقة لتشريح الجداول لإزالة تكرار البيانات وتوحيد المعلومات لتحسين سير عمل البيانات وإنّه إجراء متعدد الخطوات لتحويل البيانات إلى تنسيق جدولي وإزالة البيانات المكررة من الجداول المترابطة.

تُستخدم تقنيات التطبيع في تنقيب البيانات لتقليل نطاق قيم السمة مثل (-1.0 إلى 1.0)، حيث يستخدم تطبيع البيانات بشكل أساسي لتقليل البيانات الزائدة عن الحاجة، وبالتالي المساعدة في تقليل حجم البيانات لتسريع معالجة المعلومات وفي معظم الحالات يتم تنفيذ تقنيات تطبيع البيانات في تنقيب البيانات في نماذج التصنيف، وتُعد تقنيات التطبيع في التنقيب عن البيانات مفيدة لأنّها تتيح الحصول على المزايا.

مزايا عملية تطبيع البيانات

  • يتم تحويل البيانات إلى التنسيق الذي يمكن للجميع فهمه.
  • يمكن استخراج البيانات من قواعد البيانات بشكل أسرع.
  • يُعد تطبيق تقنيات التطبيع في تنقيب البيانات على مجموعة من البيانات الموحدة أسهل بكثير.
  • توفر تقنيات التطبيع في تنقيب البيانات المطبقة على مجموعة من البيانات الموحدة نتائج أكثر دقة وفعالية.
  • يصبح التنقيب عن البيانات من قواعد البيانات أسرع بكثير بمجرد توحيد البيانات.
  • في البيانات الموحدة، يمكن استخدام طرق تحليل بيانات أكثر تخصصًا.

طرق عملية تطبيع البيانات خلال التنقيب

1- طريقة القياس العشري للتطبيع

يتم التطبيع عن طريق تحريك الفاصلة العشرية لقيم البيانات ولتطبيع البيانات بواسطة هذه التقنية يتم تقسيم كل قيمة من البيانات على القيمة القصوى المطلقة للبيانات، وفي التنقيب عن البيانات يُعد القياس العشري طريقة أخرى للتطبيع وهي تعمل من خلال تقريب عدد صحيح إلى أقرب نقطة عشرية.

يتم تطبيع البيانات عن طريق تحويل الفاصلة العشرية للأرقام ويتم تقسيم كل قيمة بيانات على أكبر قيمة مطلقة للبيانات لتطبيع البيانات باستخدام هذا النهج ويتم تسوية قيمة البيانات (vi) إلى (vi’) باستخدام الصيغة التالية:

vi‘ = vi / 10 j

2- الحد الأدنى للتطبيع

في هذه التقنية لتطبيع البيانات يتم إجراء التحويل الخطي على البيانات الأصلية، حيث يتم جلب الحد الأدنى والحد الأقصى لقيمة البيانات وإنّه التحويل الخطي للبيانات الأصلية غير المهيكلة ويقيس البيانات من (0 إلى 1)، وتصبح البيانات أكثر قابلية للفهم عندما يكون نطاق القيم الدنيا والأعلى أقل، وتعمل طريقة التطبيع (min-max) على تحويل مجموعة البيانات إلى مقياس يتراوح من (0 إلى 1)، تخضع البيانات الأصلية لتعديل خطي في إجراء تطبيع البيانات هذا، ويتم استرداد القيم الدنيا والقصوى من البيانات ويتم تغيير كل قيمة باستخدام الصيغة التالية:

(new_min A) + (new_max A – new_min A) * (max A – min A) / (v – min A)

3- تطبيع الدرجة Z

في هذه التقنية يتم تسوية القيم بناءً على المتوسط ​​والانحراف المعياري للبيانات، ويسمى أيضًا “التطبيع الصفري” وجوهر هذه التقنية هو تحويل البيانات من خلال محادثة القيم إلى مقياس مشترك، حيث يساوي الرقم المتوسط ​​صفرًا والانحراف المعياري واحدًا.

تُعد قيمة (Z-Score) إحدى تقنيات التطبيع في عملية التنقيب عن البيانات التي تحدد مدى انحراف عنصر البيانات عن المتوسط ويقوم بحساب الانحرافات المعيارية التي تُعد أقل من المتوسط ​​أو فوقه، كما قد يكون في أي مكان بين (-3 و+3) انحرافات معيارية وتُعد تقنيات تطبيع درجة (Z) في استخراج البيانات مفيدة؛ لتحليل البيانات التي تتطلب مقارنة قيمة بمتوسط ​​قيمة (متوسط) مثل: نتائج الاختبار أو المسح.

أهمية تقنيات التطبيع في التنقيب عن البيانات

عند التعامل مع مجموعات البيانات الضخمة عادةً ما يكون التطبيع ضروريًا لضمان عدم اعتبار تناسق البيانات وجودتها أمرًا مفروغًا منه، ونظرًا لأنّه لا يمكن البحث عن المشكلات وحل كل سجل بيانات في البيانات الضخمة فمن الأهمية بمكان استخدام تقنيات التطبيع في التنقيب عن البيانات لتحويل البيانات وضمان الاتساق.

عند وجود العديد من الخصائص ولكن تختلف قيمها فقد تؤدي نماذج البناء إلى تنبؤات غير دقيقة وبالتالي يتم تطبيعهم لوضع جميع الصفات على نفس المقياس، وهناك عدة أسباب لاستخدام تقنيات التطبيع في تنقيب البيانات بحيث تتم ترجمة البيانات إلى تنسيق يمكن للجميع فهمه، ويمكن سحب البيانات من قواعد البيانات بسرعة أكبر ويمكن تحليل البيانات بطريقة محددة.

عيوب إجراء عملية تطبيع البيانات

  • نظرًا لطبيعة تجزئة البيانات فإنّها تنشئ مهمة أطول، حيث يوجد الآن المزيد من الجداول التي يجب ضمها وهذا يزيد من طول المهمة ويجعلها أكثر دنيوية وأبطأ وأيضًا يصبح فهم قاعدة البيانات أكثر صعوبة.
  • ستحتوي الجداول التي سيتم إنشاؤها على أكواد بدلاً من البيانات الحقيقية وهذا يرجع إلى حقيقة أنّ البيانات المتكررة يتم تخزينها كسطر من التعليمات البرمجية بدلاً من البيانات العادية، وبالتالي هناك دائمًا حاجة إلى استعراض جدول البحث ممّا يجعل العملية بأكملها بطيئة مرة أخرى.
  • يصبح إجراء الاستعلامات أمرًا صعبًا بمجرد تطبيق التطبيع على مجموعة البيانات، وذلك لأنّ (SQL) الذي يحتوي عليه مبني ديناميكيًا وعادةً ما يتكون من أدوات استعلام ملائمة لسطح المكتب.
  • أصبح التحليل والتصميم أكثر تفصيلاً وصعوبة، وتطبيع البيانات أمر معقد وصعب بالفعل وعلاوةً على ذلك فإنّ معرفة الغرض من قاعدة البيانات ثم تعديل كل شيء وفقًا لها يصبح أكثر صعوبة، وإذا قام أحد الخبراء بتطبيع قاعدة البيانات بشكل سيء فلن يكون أداؤها مناسبًا وقد لا يكون قادرًا على تخزين البيانات المطلوبة.

المصدر: An Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionFoundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First Edition


شارك المقالة: