تقنية تحويل البيانات في عملية التنقيب عن البيانات

اقرأ في هذا المقال


من الصعب تتبع البيانات الخام أو فهمها، ولهذا السبب يجب معالجتها بشكل مسبق قبل استرداد أي معلومات منها، ويُعد تحويل البيانات تقنية أساسية للمعالجة المسبقة للبيانات يجب إجراؤها على البيانات قبل استخراج البيانات لتوفير أنماط يسهل فهمها.

ما هي تقنية تحويل البيانات

تحويل البيانات: هي تقنية تستخدم لتحويل البيانات الخام إلى تنسيق مناسب يسهل عملية التنقيب عن البيانات بكفاءة ويسترجع المعلومات الاستراتيجية، حيث يتضمن تحويل البيانات تقنيات تنظيف البيانات وتقنية تقليل البيانات لتحويل البيانات إلى النموذج المناسب.

يتم استخدام تحويل البيانات عندما تحتاج البيانات إلى التحويل لمطابقة البيانات الخاصة بالنظام الوجهة، حيث يمكن أن يحدث هذا في مكانين من خط أنابيب البيانات، وأولاً تستخدم المؤسسات التي لديها تخزين بيانات في الموقع مقتطفًا وتحويلًا وتحميلًا مع إجراء تحويل البيانات أثناء خطوة “التحويل” الوسطى.

تستخدم المؤسسات اليوم في الغالب مستودعات البيانات المستندة إلى السحابة لأنها تتمكن من تطوير نطاق موارد الحوسبة والتخزين في ثوانٍ، ويمكن للمؤسسات القائمة على السحابة مع توفر قابلية التوسع الهائلة هذه تخطي عملية (ETL) وبدلاً من ذلك يستخدمون عملية تحويل تقوم بتحويل البيانات أثناء تحميل البيانات الأولية، وهي عملية تسمى التنقيب والتحميل والتحويل ويمكن معالجة عملية تحويل البيانات يدويًا أو آليًا أو مزيجًا من كليهما.

مبدأ عمل تقنية تحويل البيانات

يُغير تحويل البيانات تنسيق البيانات أو هيكلها أو قيمها ويحولها إلى بيانات نظيفة وقابلة للاستخدام، حيث يمكن تحويل البيانات في مرحلتين من خط أنابيب البيانات لمشاريع تحليل البيانات، كما تعتمد المنظمات التي تستخدم مستودعات البيانات المحلية بشكل عام على عملية استخراج وتحويل وتحميل (ETL)، حيث يكون تحويل البيانات هو الخطوة الوسطى.

يعمل تحويل البيانات على الهدف البسيط المتمثل في استخراج البيانات من المصدر وتحويلها إلى تنسيق قابل للاستخدام ثم تسليم البيانات المحولة إلى النظام الوجهة، وتتضمن مرحلة استخراج البيانات التي يتم سحبها إلى مستودع مركزي من مصادر أو مواقع مختلفة لذلك عادةً ما تكون في شكلها الأصلي الخام وغير قابلة للاستخدام.

لضمان سهولة استخدام البيانات المستخرجة يجب تحويلها إلى التنسيق المطلوب من خلال أخذها من خلال عدد من الخطوات وفي بعض الحالات تحتاج البيانات أيضًا إلى التنظيف قبل إجراء التحويل، كما تعمل هذه الخطوة على حل مشكلات القيم المفقودة والتناقضات الموجودة في مجموعة البيانات وتتم عملية تحويل البيانات في خمس مراحل.

اليوم تستخدم معظم المؤسسات مستودعات البيانات المستندة إلى السحابة لتوسيع نطاق موارد الحوسبة والتخزين مع زمن انتقال يُقاس بالثواني أو الدقائق، بحيث تتيح قابلية توسيع النظام الأساسي السحابي للمؤسسات تخطي تحويلات التحميل المسبق وتحميل البيانات الأولية في محزن البيانات ثم تحويلها في وقت الاستعلام، وقد يعني هذا أن تحويل البيانات قد يكون:

  • بنّاء: عملية تحويل البيانات تضيف البيانات أو تنسخها.
  • مدمر: يقوم النظام بحذف الحقول أو السجلات.
  • جمالي: يعمل التحويل على توحيد البيانات لتلبية المتطلبات أو المعلمات.
  • هيكلي: تتم إعادة تنظيم قاعدة البيانات عن طريق إعادة تسمية الأعمدة أو نقلها أو دمجها.

أنواع تقنيات تحويل البيانات

1. تجانس البيانات

تجانس البيانات هي عملية تُستخدم لإزالة الضوضاء من مجموعة البيانات باستخدام بعض الخوارزميات، حيث يسمح بإبراز الميزات المهمة الموجودة في مجموعة البيانات، وكما يساعد في التنبؤ بالأنماط وعند جمع البيانات يمكن التلاعب بها لإزالة أو تقليل أي تباين أو أي شكل آخر من أشكال الضوضاء.

المفهوم الكامن وراء تجانس البيانات هو أنه سيكون قادرًا على تحديد التغييرات البسيطة للمساعدة في التنبؤ بالاتجاهات والأنماط المختلفة، حيث يعمل هذا كمساعدة للمحللين أو المتداولين الذين يحتاجون إلى إلقاء نظرة على الكثير من البيانات التي يصعب غالبًا استيعابها للعثور على أنماط لا يرونها بطريقة أخرى.

  • التكتل (Binning): تقسم هذه الطريقة البيانات التي تم فرزها إلى عدد الكتل وتحسين قيم البيانات في كل مجموعة مع مراعاة قيم الجوار حولها.
  • الانحدار: تحدد هذه الطريقة العلاقة بين سمتين تابعتين بحيث إذا كانت لدينا سمة واحدة، فيمكن استخدامها للتنبؤ بالسمة الأخرى.
  • التجميع: تجمع هذه الطريقة قيم بيانات متشابهة وتشكل كتلة وتُعرف القيم التي تقع خارج الكتلة بالقيم المتطرفة.

2. بناء السمة

في طريقة إنشاء السمة تستشير السمات الجديدة السمات الحالية لإنشاء مجموعة بيانات جديدة تسهل استخراج البيانات حيث يتم إنشاء سمات جديدة وتطبيقها لمساعدة عملية التنقيب من السمات المحددة، وهذا يبسط البيانات الأصلية ويجعل التنقيب أكثر كفاءة، ويساعد هذا أيضًا في فهم العلاقات بين السمات في مجموعة البيانات.

3. تجميع البيانات

جمع البيانات أو تجميعها هو طريقة تخزين البيانات وتقديمها في شكل ملخص، حيث يمكن الحصول على البيانات من مصادر بيانات متعددة لدمج مصادر البيانات هذه في وصف تحليل البيانات، وهذه خطوة حاسمة لأنّ دقة رؤى تحليل البيانات تعتمد بشكل كبير على كمية ونوعية البيانات المستخدمة.

من الضروري جمع بيانات دقيقة ذات جودة عالية وكمية كبيرة لتحقيق النتائج ذات الصلة، ويُعد جمع البيانات مفيدًا لكل شيء بدءًا من القرارات المتعلقة بالتمويل أو استراتيجية العمل للمنتج والتسعير والعمليات واستراتيجيات التسويق.

4. تطبيع البيانات

يشير تطبيع البيانات إلى قياس قيم البيانات إلى نطاق أصغر بكثير مثل [-1 ، 1] أو [0.0 ، 1.0]، وهناك طرق مختلفة لتطبيع البيانات وهي:

  • الحد الأدنى للتطبيع: تنفذ هذه الطريقة تحويلًا خطيًا على البيانات الأصلية.
  • القياس العشري: تعمل هذه الطريقة على تسوية قيمة السمة (A) عن طريق تحريك الفاصلة العشرية في القيمة وتعتمد حركة الفاصلة العشرية هذه على القيمة القصوى المطلقة لـ (A).

5. تفصيل البيانات

هذه عملية تحويل البيانات المستمرة إلى مجموعة من فترات البيانات، حيث يتم استبدال قيم السمات المستمرة بتسميات فواصل زمنية صغيرة، وهذا يجعل البيانات أسهل للدراسة والتحليل وإذا كانت مهمة التنقيب عن البيانات تتعامل مع سمة مستمرة فيمكن استبدال قيمها المنفصلة بسمات جودة ثابتة وهذا يحسن كفاءة المهمة.

تسمى هذه الطريقة أيضًا آلية تقليل البيانات لأنّها تحول مجموعة بيانات كبيرة إلى مجموعة من البيانات الفئوية ويستخدم التقدير أيضًا خوارزميات قائمة على شجرة القرار لإنتاج نتائج قصيرة ومضغوطة ودقيقة عند استخدام قيم منفصلة، ويمكن تصنيف البيانات التقديرية إلى نوعين التقدير الخاضع للإشراف، حيث يتم استخدام معلومات الفصل والتقدير غير الخاضع للإشراف والذي يعتمد على الاتجاه الذي تسير فيه العملية، أي “استراتيجية التقسيم من أعلى إلى أسفل” أو “استراتيجية الدمج من أسفل إلى أعلى”.

6. تعميم البيانات

تقوم هذه التقنية بتحويل سمات البيانات منخفضة المستوى إلى سمات بيانات عالية المستوى باستخدام التسلسل الهرمي للمفهوم، وهذا التحويل من مستوى أدنى إلى مستوى مفاهيمي أعلى مفيد للحصول على صورة أوضح للبيانات، ويجب الحفاظ على معلمات التطبيع مثل: المتوسط ​​والانحراف المعياري والقيمة المطلقة القصوى لتطبيع البيانات المستقبلية بشكل موحد، ويمكن تقسيم تعميم البيانات إلى طريقتين:

  • نهج عملية مكعب البيانات (OLAP).
  • نهج الاستقراء الموجه للسمات (AOI).

المصدر: Foundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: