تقنية تكامل البيانات في عملية التنقيب عن البيانات

اقرأ في هذا المقال


تكامل البيانات هو عملية دمج البيانات من عدة مصادر متباينة، وأثناء إجراء تكامل البيانات يجب أن تعمل على تكرار البيانات وعدم الاتساق والازدواجية وما إلى ذلك، وفي التنقيب عن البيانات يُعد تكامل البيانات طريقة معالجة مسبقة للسجل تتضمن دمج البيانات من اثنين من مصادر البيانات غير المتجانسة في بيانات متماسكة للاحتفاظ بوحدة موحدة وتوفيرها.

ما هي تقنية تكامل البيانات

تقنية تكامل البيانات: عبارة عن تقنية معالجة مسبقة للبيانات تجمع البيانات من مصادر بيانات متعددة غير متجانسة في مخزن بيانات متماسك، وتوفر عرضًا موحدًا للبيانات وقد تتضمن هذه المصادر مجموعات بيانات متعددة أو قواعد بيانات أو ملفات ثابتة، وكما يتم دمجها بشكل متماسك للاحتفاظ برؤية موحدة للمعلومات.

قد تتضمن مصادر البيانات هذه مجموعات بيانات متعددة أو قواعد بيانات أو ملفات ثابتة، بحيث تُعرف استراتيجية تكامل البيانات رسميًا بالنهج الثلاثي (G وS وM)، حيث يمثل (G) المخطط العام ويمثل (S) المصدر غير المتجانس للمخطط ويمثل (M) التعيين بين استفسرات المخطط العام والمصدر.

كما يتم دمج البيانات من مصادر متنوعة مختلفة لإنتاج نتائج ذات مغزى، بحيث يجب أن تستبعد النتائج الموحدة التناقضات والتكرار وعدم المساواة، ويُعد تكامل البيانات مهمًا لأنه يعطي رؤية موحدة للبيانات المتفرقة مع الحفاظ أيضًا على دقة البيانات، وإنّه يساعد برنامج التنقيب عن البيانات في معلومات التنقيب المفيدة والتي بدورها تساعد المدراء التنفيذيين على اتخاذ قرارات استراتيجية لصالح المؤسسة.

طرق القيام بتقنية تكامل البيانات

1- الاقتران المحكم

  • في هذه الطريقة يتم التعامل مع مستودع البيانات كمكون لاسترجاع المعلومات.
  • يتم دمج البيانات من مصادر مختلفة في موقع مادي واحد عبر عملية الاستخراج والتحويل والتحميل (ETL).

2- الاقتران غير المحكم

  • في هذه الطريقة يتم تزويد المستخدمين بواجهة لإدخال استعلاماتهم ثم تقوم هذه الواجهة بتحويلها بطريقة يمكن لقاعدة البيانات المصدر فهم الاستعلامات ثم إرسالها مباشرة إلى قواعد البيانات المصدر للحصول على النتائج.
  • في الاقتران غير المحكم تبقى البيانات فقط في قواعد بيانات المصدر الفعلية.

مشكلات تكامل البيانات في عملية التنقيب عن البيانات

1- مشكلة تحديد الكيان

  • نظرًا لأنه يتم جمع البيانات من مصادر غير متجانسة، فإنّ مطابقة هويات العالم الحقيقي من البيانات تصبح مشكلة، حيث يؤدي تحليل معلومات البيانات الوصفية للسمة إلى منع حدوث أخطاء في تكامل المخطط.
  • التأكد من أن التبعية الوظيفية للسمة في النظام المصدر وقيودها المرجعية تتطابق مع التبعية الوظيفية والقيود المرجعية لنفس السمة في النظام المستهدف يمكن أن تحقق التكامل الهيكلي.
  • يكتمل التكامل الهيكلي من خلال ضمان أن التبعية الوظيفية والقيود المرجعية لحرف ما في الآلة المصدر تتطابق مع التبعية الوظيفية والقيود المرجعية للحرف المتطابق في الجهاز المستهدف.

2- تحليل التكرار والارتباط

  • إحدى المشكلات الكبيرة أثناء تكامل البيانات هي التكرار، ولم تعد هناك حاجة إلى هذه البيانات الزائدة عن الحاجة وغير المهمة ويمكن أن تنشأ بسبب السمات التي يمكن اشتقاقها باستخدام سمة أخرى في مجموعة البيانات.
  • يمكن أيضًا رفع مستوى التكرار من خلال التناقضات في السمات ويمكن اكتشافها باستخدام تحليل الارتباط، وهنا يتم تحليل السمات للكشف عن ترابطها مع بعضها البعض وبالتالي التمكن من اكتشاف العلاقة بينهما.

3- المضاعفة الثلاثية Triple Duplication

يجب أن يتعامل تكامل البيانات أيضًا مع المجموعات المكررة، وقد تصبح هذه جزءًا من البيانات الناتجة إذا تم استخدام جدول غير منسق كمصدر لتكامل البيانات.

4- كشف تعارض البيانات وحلها

  • يحدث تعارض البيانات عندما لا تتطابق البيانات المدمجة من مصادر مختلفة، وقد يكون هذا بسبب اختلاف قيم السمات في مجموعات البيانات المختلفة.
  • قد يكون أيضًا بسبب التمثيلات المختلفة في مجموعات البيانات المختلفة، ومن المفترض أن يتم اكتشاف مثل هذه المشكلات وحلها في تكامل البيانات.

لماذا تعتبر تقنية تكامل البيانات مهمة

الشركات التي تريد أن تظل قادرة على المنافسة وذات الصلة بالبيانات الضخمة المرحب بها وجميع مزاياها وعيوبها، ويعد جمع بيانات السوق والمستهلك من أكثر التطبيقات شيوعًا لخدمات وتقنيات تكامل البيانات، بحيث يدعم تكامل البيانات الاستعلامات في مجموعات البيانات الضخمة هذه، مستفيدًا من ذكاء الشركات وتحليلات بيانات المستهلك لتحفيز نقل المعلومات في الوقت الفعلي.

يعمل تكامل بيانات المؤسسة على تغذية البيانات المدمجة في مراكز البيانات؛ لتمكين تقارير المؤسسة والتحليلات التنبؤية وذكاء الأعمال، وتكامل البيانات مهم بشكل خاص في صناعة الرعاية الصحية وتساعد البيانات المتكاملة من سجلات وعيادات المرضى المختلفة الأطباء في تحديد الاضطرابات والأمراض الطبية، من خلال دمج البيانات من العديد من الأنظمة في منظور واحد للمعلومات المفيدة التي يمكن من خلالها استخلاص رؤى مفيدة.

أنواع تقنيات تكامل البيانات

1- التكامل اليدوي

تتجنب هذه الطريقة استخدام الأتمتة أثناء تكامل البيانات، حيث يقوم محلل البيانات بجمع وتنظيف ودمج البيانات لإنتاج معلومات مفيدة، وهذه الإستراتيجية مناسبة لمنظمة صغيرة ذات مجموعة بيانات محدودة وعلى الرغم من أنّ التكامل الضخم والمعقد والمتكرر سيستغرق وقتًا طويلاً، ونظرًا لأنّ العملية بأكملها يجب أن تتم يدويًا فهي عملية تستغرق وقتًا طويلاً.

2- تكامل البرامج الوسيطة

يتم استخدام البرنامج الوسيط لأخذ البيانات من العديد من المصادر وتطبيعها وتخزينها في مجموعة البيانات الناتجة، حيث عندما تحتاج المؤسسة إلى دمج البيانات من الأنظمة القديمة إلى الأنظمة الحديثة، يتم استخدام هذه التقنية وتعمل البرمجيات الوسيطة كمترجم بين الأنظمة القديمة والمتقدمة، كما يمكن استخدام محول يسمح بتوصيل نظامين بواجهات مختلفة وإنّه قابل للتطبيق فقط على أنظمة معينة.

3- التكامل القائم على التطبيق

تستخدم تطبيقات برمجية للتنقيب عن البيانات وتحويلها وتحميلها من مصادر متنوعة، حيث توفر هذه الإستراتيجية الوقت والجهد ولكنّها أكثر تعقيدًا بعض الشيء لأنّ بناء مثل هذا التطبيق يتطلب فهمًا تقنيًا.

4- تكامل الوصول الموحد

تجمع هذه الطريقة البيانات من مصدر أكثر تباينًا، ومع ذلك لم يتم تغيير موضع البيانات في هذا السيناريو وتبقى البيانات في موقعها الأصلي، وتولد هذه التقنية فقط عرضًا موحدًا للبيانات المتكاملة ولا يلزم تخزين البيانات المدمجة بشكل منفصل لأن المستخدم النهائي يرى فقط طريقة العرض المدمجة.

5- تخزين البيانات

ترتبط هذه التقنية بتقنية تكامل الوصول الموحد بطريقة ملتوية، ومن ناحية أخرى يتم تخزين العرض الموحد في مكان مختلف بحيث تمكن محلل البيانات من التعامل مع استفسارات أكثر تعقيدًا، وعلى الرغم من أنّه حل واعد وتكاليف تخزين متزايدة إلّا أنّ عرض البيانات الموحدة أو نسخها يتطلب تكاليف تخزين وصيانة منفصلة.

أدوات تكامل البيانات في عملية التنقيب

  • أداة تكامل البيانات المحلية: تعمل هذه الأداة على دمج البيانات من المصادر المحلية وربط قواعد البيانات القديمة باستخدام برامج وسيطة.
  • أداة تكامل البيانات مفتوحة المصدر: حيث إذا كان هناك هدف من تجنب حلول المؤسسات باهظة الثمن فإنّ أداة تكامل البيانات مفتوحة المصدر هي البديل المثالي، وعلى الرغم من أنّه ستكون مسؤولاً عن أمان وخصوصية البيانات إذا كنت تستخدم الأداة.
  • أداة تكامل البيانات المستندة إلى السحابة: بحيث قد توفر أداة تكامل البيانات المستندة إلى السحابة “منصة تكامل كخدمة”.

المصدر: Foundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: