كيفية التنقيب في البيانات غير المهيكلة

اقرأ في هذا المقال


تقوم المؤسسات بإنشاء واستهلاك كميات هائلة من البيانات غير المهيكلة بتنسيقات متعددة بما في ذلك الصوت والفيديو والرسوم المتحركة وغير ذلك الكثير، لذلك يصبح من الضروري معالجة هذه البيانات غير المهيكلة الكبيرة وإدارتها للحصول على رؤى مفيدة، حيث يُعد التنقيب عن البيانات أحد هذه العمليات التي تعتمد العديد من الأدوات والتقنيات لتحويل كل من البيانات المهيكلة وغير المهيكلة إلى رؤى ذات مغزى.

خطوات التنقيب عن البيانات غير المهيكلة

1- تنظيف البيانات

تحتاج الفرق في المؤسسات إلى تنظيف البيانات قبل إرسالها لمزيد من المعالجة، وقد تؤدي البيانات غير المكتملة أو المتطرفة إلى رؤى ضعيفة وفشل النظام ممّا يكلف الوقت والمال، لذلك يصبح من الضروري للمطورين تنظيف البيانات باستخدام عدة طرق للتنظيف اعتمادًا على موارد المؤسسة، كما تتمثل إحدى طرق تنظيف البيانات هذه في ملء القيم المفقودة يدويًا وإزالة القيم المكررة والمزيد في البيانات.

2- تقليل البيانات لاستخراجها

يشير تقليل البيانات إلى عملية تقلل من حجم البيانات وتمثلها في حجم أصغر، حيث هناك العديد من تقنيات تقليل البيانات مثل تقليل الأبعاد وتقليل العدد المستخدمة للحصول على تمثيل مخفض لمجموعات البيانات، كما لا تساعد هذه التقنيات في تقليل البيانات الفعلية فحسب بل تحافظ أيضًا على سلامة المعلومات، لذلك لا يؤثر تقليل البيانات على النتائج التي يتم الوصول إليها من عملية التنقيب في البيانات.

3- تحويل البيانات

تحويل البيانات هي عملية يقوم فيها المهندسون بتغيير البيانات إلى تنسيق مقبول، حيث يتم بتحويل البيانات الأولية إلى نموذج محدد أو مرغوب فيه ممّا يسهل عملية استرداد المعلومات الاستراتيجية، كما يشمل تحويل البيانات أيضًا تعيين البيانات وتقنيات علم البيانات الأخرى بما في ذلك عمليات مثل التجميع والتطبيع والتقدير، وبمجرد اكتمال التحويل يمكن المضي قدمًا في بناء النموذج الخاص ببيانات التنقيب غير المهيكلة.

4- بناء النماذج وتنقيب الأنماط

يمكن اكتشاف السلوك أو الأنماط المثيرة للاهتمام في بياناتك باستخدام قواعد الارتباط والارتباطات والمزيد، كما يمكن أيضًا استخدام خوارزميات التعلم العميق لتصنيف مجموعات البيانات أو تجميعها اعتمادًا على خصائص وتشابه البيانات، وإذا تم تصنيف البيانات المتاحة فيمكن الاستفادة من خوارزميات التعلم الآلي للغابات العشوائية وأشجار القرار والمزيد لتصنيف تلك البيانات، ومع ذلك إذا كانت البيانات المتاحة غير مصنفة فيمكن استخدام خوارزميات التجميع مثل: (K-mean) و(DBSCAN) والقائمة على النقطتين والقائمة على التوزيع والقائمة على الكثافة.

5- تحليل النتيجة

تحتاج إلى تقييم وتفسير النتائج التي تم الحصول عليها بمجرد الحصول على البيانات المجمعة، حيث يجب أن تكون هذه النتائج مفيدة وسهلة الفهم حتى تتمكن المنظمات من استخدامها لتنفيذ استراتيجيات جديدة وتحقيق أهداف كل منها.

كيفية معالجة البيانات غير المهيكلة خلال عملية التنقيب

تأتي البيانات غير المهيكلة من الملفات والصور وجداول البيانات ورسائل البريد الإلكتروني ومنشورات الوسائط الاجتماعية ولا يحتوي على أسلوب محدد مسبقًا، لذلك يصبح من الصعب نقل هذه البيانات إلى النظام المستهدف وأسهل طريقة لمعالجة بياناتك غير المهيكلة هي نقلها إلى فئات بيانات من خلال عمليات (ELT).

أولاً: طرق لتحليل البيانات غير المهيكلة

1. البيانات الوصفية

البيانات الوصفية هي البيانات التي توفر معلومات حول البيانات، حيث تلعب دورًا حيويًا في إدارة وتخزين وتحليل البيانات غير المهيكلة، ونظرًا لعدم وجود معايير صناعية بشأن البيانات الوصفية يمكن لكل مؤسسة تحديد حقول البيانات الوصفية الخاصة بها بناءً على متطلبات للإشارة إلى طبيعة البيانات غير المهيكلة، ونتيجةً لذلك تساعد البيانات الوصفية المؤسسات على تسهيل البحث عن البيانات وتحليلها.

2. معالجة اللغة الطبيعية NLP

إنّها منهجية تعلم آلي تساعد المستخدمين على تحليل البيانات غير المهيكلة، حيث تحاكي البرمجة اللغوية العصبية قدرة الدماغ البشري على معالجة اللغات الطبيعية مثل: الإنجليزية والصينية والإسبانية وغيرها، كما يمكن للغة البرمجة اللغوية العصبية أن تكتشف معنى البيانات النصية باستخدام العلاقات الدلالية والنحوية، ويستخدم البرمجة اللغوية العصبية (NLP) النماذج التالية لمعالجة البيانات غير المهيكلة.

  • الترميز: يقسم هذا النموذج النص إلى رموز مميزة ويقسم النص إلى جمل وكلمات.
  • إزالة كلمات الإيقاف: يزيل هذا النموذج المقالات وحروف الجر من النص مثل: “the” و”to” و”an” والمزيد ممّا لا يضيف أي قيمة لعملية البرمجة اللغوية العصبية.
  • (Stemming): يزيل هذا النموذج اللواحق أو الإضافات إلى جذر الكلمة من خلال بادئة قبل الكلمة أو لاحقة بعد الكلمة.
  • (Lemmatization): يحول هذا النموذج الكلمات إلى تنسيق قاموسها الذي يسمى (lemma)، ويشير (Lemmatization) إلى سياق الكلمة، حيث يمكن للكلمة نفسها لها كلمات مختلفة حسب مكان وكيفية استخدامها.
  • نمذجة الموضوع: يُستخدم هذا النموذج للعثور على مجموعة من الكلمات من مجموعة من المستندات التي تمثل المعلومات بشكل أفضل ويمكنه تجميع مجموعات الكلمات والتعبيرات المماثلة في المستند.

3. تحليل الصورة

تتكون البيانات غير المهيكلة أيضًا من الصور، وعلى سبيل المثال تشخيص الحالات الطبية من خلال تحليل صور الأشعة السينية أو التصوير بالرنين المغناطيسي، وتحليل الصور هو عملية تحويل الصور إلى مكوناتها الأساسية واستخراج معلومات قيمة ويتضمن مهام العثور على الأشكال وإزالة الضوضاء واكتشاف الحواف وعد الكائنات وميزات الصورة.

4. تصور البيانات

تصور البيانات هو التمثيل الرسومي للبيانات الذي يعزز الفهم الأسهل، حيث تساعد الأساليب المتبعة في تصور البيانات المشاهدين على اكتساب رؤى سريعة حول البيانات، كما يعرض تصور البيانات كل بنية معقدة في البيانات والتي يمكن أن تساعد الأشخاص على فهم بياناتهم بكفاءة، يُبرز تصور البيانات كيانات مثل الأشخاص أو الشركات أو المدن التي تظهر في النص والتصور قادرة أيضًا على اكتشاف الموضوعات أو الكلمات الأساسية وتحديد المفاهيم والمزيد.

ثانياً: ممارسات لفهم البيانات غير المهيكلة

1. تحديد أهداف واضحة

من الضروري معرفة هدفك في فهم البيانات غير المهيكلة، وعلى سبيل المثال إذا أرادت شركة قائمة على المنتج معرفة المراجعات من العملاء فيمكنها جمع البيانات من وسائل التواصل الاجتماعي وتحليل المعلومات، ولكن النظر في المراجعات الشاملة لا يكفي ويمكن استخدام البيانات التي تم جمعها للعثور على السبب الجذري للمراجعات السلبية على وسائل التواصل الاجتماعي وإصلاح المشاكل للعملاء ويمكن أن يفيد الحفاظ على هدف واضح الشركة من البيانات غير المهيكلة.

2. تحديد مصادر البيانات

يمكنك تحديد مصادر البيانات المختلفة مثل منصات المراجعة عبر الإنترنت ودعم رسائل البريد الإلكتروني والمزيد لجمع البيانات غير المنظمة، وعلى سبيل المثال إذا كنت تمتلك موقعًا للتجارة الإلكترونية فيمكن العثور على البيانات المحددة للمنتج باستخدام علامات التصنيف والكلمات الرئيسية من منشورات وسائل التواصل الاجتماعي، كما يمكن أيضًا البحث من خلال مواقع المراجعة عبر الإنترنت والعثور على البيانات المرتبطة بالمنتجات.

3. تنظيف البيانات

عندما تعمل مع بيانات غير مهيكلة فإنّ تنظيف البيانات هو الجانب الأساسي لتحليل البيانات لنماذج التعلم الآلي، حيث يمكن تنظيف البيانات عن طريق إزالة المسافات والرموز والمزيد، وهناك طريقة أخرى لتنظيف البيانات وهي إنشاء علاقات بين مصادر البيانات وكيانات الاستخراج والتي ستصمم قاعدة بيانات منظمة للتحليل.

المصدر: Foundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: