كيفية دمج عمليتي تصور البيانات والتنقيب عن البيانات

اقرأ في هذا المقال


التنقيب عن البيانات هو عملية تتفاعل مع مجموعة ضخمة من البيانات، ومن هذا المنظور يكشف النقاب عن أنماط مناسبة من بيانات غير معروفة منظمة، كما قد ينطبق الأمر نفسه على استخراج بيانات الصوت والفيديو أيضًا ويمكن للمستعملين الانتقال إلى حجم كبير من بيانات الوسائط المتعددة الناتجة عن تكنولوجيا المعلومات وسهولة توافر أنظمة الوسائط المتعددة.

طرق التنقيب عن البيانات المرئية

يستخدم التنقيب عن البيانات المرئية أساليب تصور البيانات والمعرفة للعثور على المعرفة الضمنية والمناسبة من كميات البيانات الضخمة، حيث تدير العين والدماغ النظام البصري البشري والذي يمكن اعتبار الأخير منه محركًا ديناميكيًا للمعالجة والاستدلال المتوازي إلى حد كبير بما في ذلك قاعدة معرفية ضخمة.

يجمع التنقيب عن البيانات المرئية بشكل أساسي بين قوة هذه المكونات ممّا يجعلها أداة جذابة وفعالة للغاية لفهم توزيعات البيانات والأنماط والمجموعات والقيم المتطرفة في البيانات، ويمكن اعتبار التنقيب عن البيانات المرئية بمثابة ارتباط بين تخصصين مثل: تصور البيانات واستخراج البيانات، ويمكن أن يرتبط أيضًا برسومات الكمبيوتر وأنظمة الوسائط المتعددة والتفاعل بين الإنسان والحاسوب وتحديد الأنماط والحوسبة عالية الأداء، وبشكل عام يمكن دمج تصور البيانات والتنقيب عن البيانات بالطرق التالية:

1- تصور البيانات

يمكن عرض البيانات الموجودة في قاعدة بيانات أو مستودع بيانات بمستويات متنوعة من التفصيل أو التجريد أو كمجموعات مختلفة من السمات أو الأبعاد، ويمكن تقديم البيانات في أشكال مرئية مختلفة بما في ذلك مخططات الصندوق والمكعبات ثلاثية الأبعاد ومخططات توزيع البيانات والمنحنيات والأسطح والرسوم البيانية للربط وما إلى ذلك، كما يمكن أن يعمل العرض المرئي في إعطاء المستخدمين انطباعًا واضحًا ونظرة عامة على خصائص البيانات في البيانات الهائلة.

2- تصور نتيجة التنقيب عن البيانات

تصور نتائج استخراج البيانات هو عرض للنتائج أو المعرفة التي تم الحصول عليها من استخراج البيانات في أشكال مرئية، كما قد تتضمن هذه الأشكال مخططات مبعثرة ومخططات مربعة، وأشجار القرار وقواعد الارتباط والمجموعات والقيم المتطرفة والقواعد المعممة وما إلى ذلك.

3- تصور عملية التنقيب عن البيانات

يعرض هذا النوع من التصور العمليات المختلفة لاستخراج البيانات في أشكال مرئية بحيث يمكن للمستخدمين معرفة كيفية استخراج البيانات ومن أي قاعدة بيانات أو مستودع بيانات يتم استخراجها، وكذلك كيفية تنظيف البيانات المحددة ومتكاملة ومعالجة ومُلغومة، وعلاوةً على ذلك قد يُظهر أيضًا الطريقة المختارة لاستخراج البيانات وأين يتم تخزين النتائج وكيف يمكن عرضها.

4- التنقيب عن البيانات المرئية التفاعلية

في التنقيب التفاعلي عن البيانات المرئية يمكن استخدام أدوات التصور في عملية التنقيب عن البيانات للتسهيل على المستخدمين على اتخاذ قرارات ذكية لاستخراج البيانات، وعلى سبيل المثال يمكن عرض توزيع البيانات في مجموعة من السمات باستخدام قطاعات ملونة بحيث تمثل الدائرة المساحة بأكملها، كما تساعد هذه الشاشة المستخدمين في تحديد القطاع الذي يجب تحديده أولاً للتصنيف وأين يمكن أن تكون نقطة الانقسام الجيدة لهذا القطاع.

تقنيات دمج عمليتي تصور البيانات والتنقيب عن البيانات

لكي يكون استخراج البيانات فعالاً من المهم إشراك البشر في عملية استكشاف البيانات والجمع بين المرونة والإبداع والمعرفة العامة للإنسان مع سعة التخزين الهائلة والقوة الحسابية لأجهزة الكمبيوتر الحالية، حيث يحدد محلل البيانات عادةً بعض المعلمات لتقييد مساحة البحث، كما تقوم الخوارزمية باستخراج البيانات تلقائيًا.

يتم تقديم الأنماط التي تم العثور عليها بواسطة خوارزمية التنقيب التلقائي عن البيانات إلى محلل البيانات على الشاشة، ونظرًا لأنّ خوارزمية التنقيب عن البيانات التلقائية تولد العديد من الأنماط في شكل نصي، فمن المستحيل تقريبًا على البشر تفسير وتقييم النمط بالتفصيل واستخراج المعرفة الشيقة والخصائص العامة.

يهدف التنقيب عن البيانات المرئية إلى دمج البشر في عملية التنقيب عن البيانات وتطبيق القدرات الإدراكية البشرية لتحليل كميات البيانات الكبيرة المتاحة في أنظمة الكمبيوتر الحالية، حيث غالبًا ما يعزز تقديم البيانات في شكل رسومي تفاعلي رؤى جديدة ويشجع على تكوين فرضيات جديدة والتحقق من صحتها حتى نهاية حل المشكلات بشكل أفضل واكتساب معرفة أعمق بالمجال.

عادةً ما يتبع استكشاف البيانات المرئية عملية من ثلاث خطوات نظرة عامة والتكبير أو التصغير والتصفية ثم التفاصيل عند الطلب ويحتاج محلل البيانات إلى الحصول على نظرة عامة على البيانات، ويحدد محلل البيانات الأنماط أو المجموعات المثيرة للاهتمام في البيانات ويركز على واحد أو أكثر منها.

مبدأ عمل تقنيات دمج عمليتي تصور البيانات والتنقيب عن البيانات

تُعد تقنيات التصور مفيدة لإظهار نظرة عامة على البيانات ممّا يسمح لمحلل البيانات بتحديد مجموعات فرعية مثيرة للاهتمام وهذه الخطوة مهمة للحفاظ على تصور النظرة العامة مع التركيز على المجموعة الفرعية باستخدام تقنية تصور أخرى، كما يمكن القيام بذلك عن طريق تخصيص نسبة عرض أكبر للمجموعات الفرعية المناسبة، مع تقليل استخدام الشاشة للبيانات غير المهم ولمزيد من استكشاف المجموعات الفرعية المثيرة للاهتمام، يحتاج محلل البيانات إلى قدرة للتنقيب لمراقبة التفاصيل حول البيانات.

كما أنّ تقنية التصور توفر تقنيات التصور الأساسية لجميع الخطوات الثلاث وتجسر الفجوات بين الخطوات، حيث يمكن اعتبار التنقيب عن البيانات المرئية عملية لتوليد الفرضيات، وتسمح تصورات البيانات لمحلل البيانات باكتساب نظرة ثاقبة على البيانات والتوصل إلى فرضيات جديدة، كما يمكن أيضًا التحقق من الفرضيات من خلال تصور البيانات ولكن يمكن تحقيقه أيضًا من خلال تقنيات تلقائية من الإحصائيات أو التعرف على الأنماط أو التعلم الآلي.

نتيجةً لذلك، يسمح التنقيب عن البيانات المرئية عادةً باستكشاف البيانات بشكل أسرع ويوفر غالبًا نتائج أفضل خاصة في الحالات التي تفشل فيها خوارزميات التنقيب عن البيانات التلقائية، وبالإضافة إلى ذلك توفر تقنيات التنقيب عن البيانات المرئية درجة أعلى بكثير من رضا المستخدم وثقته في نتائج الاستكشاف، حيث تؤدي هذه الحقيقة إلى ارتفاع الطلب على تقنيات الاستكشاف البصري وتجعلها لا غنى عنها بتقنيات الاستكشاف التلقائي.

طرق دمج عمليتي تصور البيانات والتنقيب عن البيانات

1- التصور السابق PV

يتم عرض البيانات في شكل مرئي قبل تشغيل خوارزمية التنقيب عن البيانات، حيثمن خلال التفاعل مع البيانات الأولية يتمتع محلل البيانات بالسيطرة الكاملة على التحليل في مساحة البحث، كما يتم اكتشاف أنماط مثيرة للاهتمام من خلال استكشاف البيانات.

2- التصور اللاحق SV

تقوم خوارزمية التنقيب عن البيانات التلقائية بتنفيذ المهمة عن طريق استخراج الأنماط من مجموعة بيانات معينة، حيث يتم تصور هذه الأنماط لجعلها قابلة للتفسير لمحلل البيانات، كما تمكن التصورات اللاحقة محلل البيانات من تحديد التغذية الراجعة وبناءً على التصور قد يرغب محلل البيانات في العودة إلى خوارزمية التنقيب عن البيانات واستخدام معلمات إدخال مختلفة للحصول على نتائج أفضل.

3- التصور المتكامل بإحكام TIV

تحلل خوارزمية التنقيب عن البيانات التلقائية البيانات ولكنها لا تعطي النتائج النهائية، ويتم استخدام تقنية التصور لتقديم النتائج الوسيطة لعملية استكشاف البيانات، وبعد ذلك يحدد محلل البيانات الأنماط المثيرة للاهتمام في تصور النتائج الوسيطة بناءً على معرفته بالمجال، حيث يتيح الجمع بين بعض خوارزميات التنقيب عن البيانات التلقائية وتقنيات التصور تقديم ملاحظات المستخدم المحددة لعملية التنقيب عن البيانات التالية.

الدافع وراء هذا النهج هو تحقيق استقلالية خوارزميات التنقيب عن البيانات عن التطبيق، بحيث يمكن أن تكون خوارزمية التنقيب عن البيانات التلقائية معينة مفيدة جدًا في مجال واحد ولكن قد يكون لها عيوب في بعض المجالات الأخرى، ونظرًا لعدم وجود خوارزمية تلقائية للتنقيب عن البيانات مناسبة لجميع مجالات التطبيق، يؤدي التصور المتكامل بإحكام إلى فهم أفضل للبيانات والأنماط المستخرجة.

المصدر: Foundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: