كيفية وطرق دمج البيانات Integrate Data

اقرأ في هذا المقال


إنّ دمج البيانات هو عملية دمج مجموعتين من البيانات متشابهتين أو أكثر في سجل واحد، ويتم الدمج لإضافة متغيرات إلى مجموعة البيانات أو إلحاق أو إضافة حالات أو ملاحظات إلى مجموعة البيانات أو إزالة التكرارات.

ما هي طرق دمج البيانات

1- عملية الدمج المسبق

  • تنميط البيانات: قبل الدمج من الأهمية بمكان تعريف البيانات وتحليل الأجزاء المختلفة لمصادر البيانات وتساعد هذه الخطوة المؤسسة على فهم نتائج الدمج ومنع أي أخطاء محتملة قد تحدث.
  • توحيد البيانات وتحويلها: قد تحتوي مصادر البيانات على قيم غير كاملة وغير صالحة ولا يمكن دمج مجموعات البيانات هذه قبل توحيدها، وبالإضافة إلى الأخطاء قد تحتوي سمات البيانات من مصادر متنوعة على نفس المعلومات.
  • تصفية البيانات: يمكن دمج جزء أو مجموعة فرعية من مصادر البيانات الأصلية بدلاً من مصدر البيانات بالكامل، ويتم إجراء هذا التقطيع الأفقي للبيانات عندما يلزم دمج البيانات في فترة زمنية محدودة.
  • تفرد البيانات: قد يتم تخزين المعلومات من كيان واحد عبر عدد من المصادر، ويصبح دمج البيانات أكثر تعقيدًا إذا كانت مجموعات البيانات تحتوي على تكرارات.

2. الدمج كتكامل أو كتجميع البيانات

يمكن أن تكون عملية الدمج تكاملًا أو تجميعًا، وبمجرد اكتمال جميع الخطوات السابقة تصبح البيانات جاهزة للدمج وهناك عدد من الطرق التي يمكن من خلالها تحقيق هذه العملية وهي:

  • إضافة صفوف: يتم إضافة الصفوف عندما يلزم دمج السجلات التي تم الحصول عليها من مجموعات بيانات مختلفة في مكان واحد ويجب أن يكون لمصادر البيانات المراد ضمها بنية متطابقة.
  • إضافة أعمدة: تتم هذه العملية عندما يلزم إضافة المزيد من الأبعاد إلى سجل موجود، وفي مثل هذه السيناريوهات يجب جعل جميع الأعمدة من مصادر مختلفة فريدة.
  • الدمج الشرطي: يتم استخدام الدمج الشرطي عند وجود مجموعات بيانات غير مكتملة تحتاج إلى توحيدها وفي هذا النوع من الدمج يجب البحث عن القيم من مجموعة بيانات واحدة وملء مجموعات البيانات الأخرى وفقًا لذلك.

المصدر: Foundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: