ما هو التنقيب عن البيانات من المستندات

اقرأ في هذا المقال


في عصر اقتصاد المعلومات هذا يتم إنشاء البيانات من كل جهاز حوسبة رقمية وهاتف محمول باليد ومحطة عمل وخادم، بحيث تقوم المنظمات بتخزين البيانات ومعالجتها وتحليلها أكثر من أي وقت مضى في التاريخ، وتنقيب البيانات هو عملية تحديد الأنماط في مجموعات البيانات الكبيرة للوصول إلى الإجابة على أسئلة العمل والتنبؤ بالاتجاهات والسلوكيات المستقبلية، ومع ذلك تأتي كمية وفيرة من البيانات المفيدة من مستندات الأعمال اليومية وهنا يأتي دور بيانات المستند في تنقيب البيانات.

ما هو التنقيب عن البيانات من المستندات

من السهل جدًا أن تضيع في مزيج البيانات من مصادر متعددة، حيث تحتوي المستندات على غالبية المعلومات غير المهيكلة والتي يصعب الوصول إليها، والنصوص أكثر تعقيدًا بكثير من الأرقام والسلاسل الزمنية وما إلى ذلك وهذا هو المكان الذي يتم فيه الانتقال من تنقيب البيانات المهيكلة إلى التنقيب في البيانات غير المهيكلة.

تنقيب المستندات هو عملية البحث عن أنماط مفيدة واستخراجها في مجموعة من المعلومات النصية غير المنظمة والغامضة بحيث تتضمن بيانات المستندات في التنقيب عن البيانات خوارزميات البرامج، والتعلم الآلي والطرق الإحصائية لاستخراج المعلومات ومعالجة اللغة الطبيعية وتلخيص المستندات، كما تهدف بيانات المستند في التنقيب عن البيانات إلى تقديم معلومات غير معروفة وغير مكتشفة سابقًا محفوظة في كتلة من النص.

أهمية الحصول على البيانات من المستندات

قد تبدو المستندات كمصدر للبيانات غريبة في البداية ولكن هناك مزايا لاستغلال هذه المعلومات المتاحة بسهولة بحيث يتطلب الحصول على بيانات الشركة من قواعد البيانات البعيدة، وكذلك المنتشرة في جميع أنحاء المؤسسة وقتًا وموارد وخدمة متخصصي تكنولوجيا المعلومات ومعرفة بهيكل البيانات، ومن ناحية أخرى فإنّ سحب المعلومات المطلوبة مباشرة من المستندات أمر بسيط للغاية ويستغرق وقتًا أقل.

أرشيفات المستندات ثابتة وتحتوي على جميع البيانات التاريخية من الماضي، حيث يتطلب اكتشاف البيانات واستخراجها من الإصدارات القديمة لأنظمة متعددة الوقت والموارد، من حيث الأموال التي يتم إنفاقها على موفري الخدمات الخارجيين واهتمام متخصصي تكنولوجيا المعلومات المهرة، ولكن يمكن جمع المعلومات من أرشيفات المستندات بسهولة ويستغرق سحب البيانات الأولية من مستودع المستندات والتعامل معها بضعة أسابيع فقط.

حالات استخدام بيانات المستندات في التنقيب عن البيانات

استخدامات بيانات المستندات في التنقيب عن البيانات غير محدودة تقريبًا، حيث يمكن استخدام بيانات المستند في تنقيب البيانات لتوجيه الرسائل أو إعادة تسلسل ملفات الطباعة أو دمج قطع البريد كجزء من الاستراتيجية، كما يؤدي تنقيب البيانات من المستندات إلى جعل عمليات إعادة الطباعة الآلية في متناول مزودي الخدمة في حالة تلف المستندات، كما يمنح تنقيب المستندات مزودي خدمات الطباعة ميزة تنافسية في السوق من خلال توفير وظائف ورؤى إضافية لهم.

في بعض الأحيان يمكن دمج البيانات المستخرجة من المستندات مع معلومات إضافية خارج المصدر لتطوير مستندات جديدة تمامًا وفيما يلي بعض الأمثلة على كيفية قيام تنقيب بيانات المستندات بإحداث تقدم في التقنية الرقمي:

  • يمكن استخدام تفاصيل معاملة شراء المنتج لإنشاء رمز الاستجابة السريعة والذي يمكن استخدامه بدوره لنشر مقاطع فيديو تعليمية أو أسئلة وأجوبة للعملاء، وسيساعد هذا الشركة على زيادة رضا العملاء وتقليل إرجاع المنتج.
  • يمكن استخدام تفاصيل معاملات الدفع السابقة لإرسال غطاء حوالة بالبريد فقط للعملاء الذين يدفعون عبر الإنترنت.
  • يمكن أن تساعد بيانات المستندات في تنقيب البيانات سلسلة البيع بالتجزئة في العثور على علاقة بين البيع وتعديل التسويق والمخزون وتحسينهما وفقًا لذلك لزيادة الأرباح.
  • تُستخدم بيانات المستند في تنقيب البيانات أيضًا لتوجيه رسائل تسويق انتقائية استنادًا إلى معلومات العنوان في مستندات المعاملات، ويمكن أيضًا استخدامه من قبل المؤسسات لبيع مساحة إعلانية في شكل فواتير للمعلنين.
  • يمكن استخدام معلومات شراء المنتج المسترجعة من المستندات لجذب متابعات عبر البريد الإلكتروني فيما يرتبط بمراجعات العملاء والتعليقات والعروض المثيرة.

كيفية استخراج البيانات من المستندات

يعتبر استخراج المعلومات أحد المكونات المهمة لعملية التنقيب في المستندات، حيث يتضمن مسح النصوص بهدف استخراج الحقائق الموجودة في النص، وفي استخراج المعلومات يتم استخدام المعجم لتحديد الحقائق والعلاقة بين المعلومات وكما يمكن أن تكون القواميس المقروءة آليًا (MRD) مصدرًا قيمًا لاكتساب المعجم تلقائيًا.

أولاً: استخراج الحقائق

يُعنى استخراج الحقائق بتحديد الحقائق الفردية الموجودة في المستند، حيث تعتبر المعرفة الخاصة بالمجال أمرًا بالغ الأهمية هنا حيث يمكن تشفير التعرف على الأنماط لحقائق معينة، وفيما يلي بعض التقنيات المستخدمة في استخراج الحقائق:

1- نمط المطابقة

تستخدم مطابقة الأنماط التعبيرات العادية الشائعة لتشكيل أدنى مستوى من التنقيب، حيث يقوم بشكل أساسي ببناء تحليل فعال للنص من أسفل إلى أعلى، وغالبًا ما يتم استخدام مطابقة الأنماط على نطاق واسع أثناء معالجة الرموز المميزة ذات القيمة النحوية.

2- التحليل المعجمي

يبدأ النهج المعجمي لاستخراج الحقائق بفصل النص إلى رموز مميزة ثم تحديد الجمل، كما تُستخدم القواميس المختلفة والمعاجم الخاصة بالمجال لتحديد السياق المحتمل للكلمات والعبارات، وفي هذه المرحلة يتم التعرف على الرموز المميزة التي تمثل أسماء علم.

3- البنية النحوية والدلالية

تقوم الطبقة التالية من التنقيب بتعيين مكون نحوي للكلمات أو العبارات في كل جملة ويمكن تحديد الأسماء أو الأفعال أثناء قراءة النص المحلي أي الجملة الحالية، كما يوفر نظرة ثاقبة في سياق تكرارات الكلمة في الجملة وفي هذه المرحلة يمكن لنظام استخراج المعلومات المدرب أن يبدأ في البحث عن الأنماط الدلالية في الجملة.

ثانياً: تكامل الحقائق

يتعامل تكامل الحقائق في الغالب مع مشكلة المرجع وتتجمع الحقائق الفردية في المستند معًا لتشكيل صورة أكبر تعطي سياقًا تفصيليًا، حيث تتعامل المراحل الأولى من تكامل الحقائق مع حل المراجع المشوهة وعلى سبيل المثال يجب حل الإشارة لتحديد الشخص المشار إليه بالانتقال إلى المراحل اللاحقة من التكامل يصبح مفهوم دمج الأحداث مهمًا.

ثالثاً: تمثيل المعرفة

كما يوحي الاسم فإنّ هذه المرحلة من استخراج المعلومات تتعامل بشكل أساسي مع النتائج النهائية لبيانات المستند في تنقيب البيانات، وهذه مرحلة سهلة من (IE) ولكنها غالبًا ما تكون حرجة للغاية مع الأخذ في الاعتبار الاستخدام النهائي للمعلومات المستخرجة، حيث يصبح من المهم للغاية تمثيل ونقل الأفكار المكتسبة من المعلومات المستخرجة ويمكن استخدام أدوات التصور لهذا الغرض.

الفرق بين التنقيب في البيانات وتنقيب بيانات المستندات

يشير التنقيب عن البيانات إلى عملية الوصول إلى مجموعات البيانات الأولية الكبيرة وهيكلتها والتعرف على الأنماط المختلفة في البيانات من خلال الخوارزميات التحليلية والرياضية والحاسوبية، حيث يساعد هذا في توليد معلومات جديدة وفتح العديد من الرؤى القيمة وتساعد هذه المعلومات القيمة المؤسسات العامة والخاصة على تخزين البيانات ومراقبتها وتحليلها لأغراض مختلفة، وكان تنقيب البيانات موجودًا منذ بعض الوقت وهو تقنية ناضجة إلى حد ما.

ومع ذلك فإنّ التنقيب في البيانات يتعامل تقليديًا مع المعلومات المنظمة التي تتضمن الأرقام والسلاسل الزمنية وما إلى ذلك وللوصول إلى المعلومات غير المنظمة في شكل مستندات كنصوص وكلمات وصوت وفيديو، يتم استخدام استخراج المستندات وتنقيب المستندات، لا يزال في مرحلة التصور وعلى الرغم من أنّ أدوات التنقيب عن النص تحقق تقدمًا إلّا أنّ أدوات تنقيب الصور والصوت والفيديو ليست متاحة بعد، حيث يكمن مستقبل بيانات المستندات في التنقيب عن البيانات بشكل أساسي في توفر أدوات التنقيب وقدرتها.

المصدر: Foundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: