تحديات عملية التنقيب في البيانات

اقرأ في هذا المقال


البيانات اليوم هي ما يحافظ على استمرار الأعمال، حيث يتمكن معظم أصحاب الأعمال من الحصول على الراحة إذا كان بإمكانهم تتبع البيانات المتعلقة بأداء مؤسساتهم، وعلى الرغم من أنّ التنقيب في البيانات أمر مذهل إلّا أنّه يواجه العديد من الصعوبات أثناء استخدامه، ويمكن تحديد الصعوبات من خلال التقنيات المستخدمة والأساليب والبيانات والأداء وما إلى ذلك ويصبح مقياس التنقيب عن البيانات مثمرًا عندما يتم التعرف على الصعوبات أو المشكلات بدقة وتحديدها بشكل مناسب.

ما هي تحديات عملية التنقيب في البيانات

1. الأمن والتحديات الاجتماعية

تتم التقنيات الديناميكية من خلال مشاركة مجموعة البيانات والتي تتطلب أمانًا مثيرًا للإعجاب، ويتم جمع المعلومات الخاصة حول الأشخاص والمعلومات الحساسة من أجل الملفات الشخصية للعميل، وفهم معايير السلوك الخاصة بالعميل والقبول غير المشروع للمعلومات والفكرة السرية لتحويل المعلومات إلى مشكلة كبيرة.

2. بيانات ضخمة وغير كاملة

يُعد التنقيب في البيانات طريقة للوصول إلى معلومات من كميات ضخمة من البيانات بانتظام ستكون غير موثوقة أو غير دقيقة، وقد تكون هذه المشكلات بسبب أخطاء بشرية أو أخطاء فادحة أو أخطاء في الأدوات التي تقيس البيانات.

3. البيانات الموزعة

عادةً ما يتم تخزين البيانات الحقيقية في مراحل مختلفة في ظروف المعالجة الموزعة، وقد يكون على الإنترنت أو الأنظمة الفردية أو حتى قواعد البيانات، ومن الصعب بشكل أساسي نقل جميع البيانات إلى أرشيف بيانات موحد بشكل أساسي لأسباب فنية وتنظيمية.

4. البيانات المعقدة

البيانات الحقيقية غير متجانسة وقد تكون بيانات وسائط، بما في ذلك نص اللغة الطبيعية والسلاسل الزمنية والبيانات المكانية والبيانات الزمنية والبيانات المعقدة والصوت أو الفيديو والصور، ومن الصعب حقًا التعامل مع هذه الأنواع المختلفة من البيانات والتركيز على المعلومات الضرورية وفي أغلب الأحيان يجب إنشاء أجهزة وأنظمة جديدة لفصل المعلومات المهمة.

5. الأداء

يقوم عرض إطار عمل استخراج البيانات بشكل أساسي على إنتاجية التقنيات والخوارزميات المستخدمة، وإذا لم تكن التقنيات والخوارزميات المخططة كافية، وفي هذه المرحلة فإنّها ستؤثر على عرض مقياس التنقيب في البيانات بشكل غير موات.

6. قابلية التوسع وكفاءة الخوارزميات

يجب أن تكون خوارزمية تنقيب البيانات قابلة للتطوير وفعالة لاستخراج المعلومات من المقاييس الهائلة للبيانات في مجموعة البيانات، وتستطيع استخراج البيانات بشكل فعال من كمية كبيرة من البيانات في قواعد البيانات ويجب أن تكون خوارزميات اكتشاف المعرفة فعالة وقابلة للتطوير لقواعد البيانات الضخمة، وعلى وجه التحديد يجب أن يكون وقت تشغيل خوارزمية التنقيب عن البيانات متوقعًا ومقبولًا في قواعد البيانات الضخمة، ولن تكون الخوارزميات ذات التعقيد الأسي أو حتى متعدد الحدود لترتيب القنوات ذات فائدة فعالة.

7. دمج خلفية المعرفة

في حالة إمكانية توحيد المعرفة الأساسية يمكن العثور على ترتيبات أكثر دقة وموثوقية لاستخراج البيانات، ويمكن أن تقدم المهام التنبؤية تنبؤات أكثر دقة، بينما يمكن أن تأتي المهام الوصفية بنتائج أكثر فائدة ومهما كان الأمر فإنّ جمع المعرفة الأساسية وإدراجها أمر لا يمكن التنبؤ به.

8. تصور البيانات

يُعد تصور البيانات دورة حيوية في التنقيب عن البيانات لأنّه التفاعل الأول الذي يظهر المخرجات بطريقة محترمة للعميل، وكما يجب أن تنقل المعلومات المستخرجة أهمية ما تخطط لنقله، ومع ذلك عادةً ما يكون من الصعب حقًا معالجة المعلومات بدقة وبشكل مباشر للمستخدم النهائي، ومعلومات المخرجات وبيانات الإدخال التي تكون فعالة للغاية وناجحة ومعقدة يجب تطبيق أساليب إدراك البيانات لجعلها مثمرة.

9. خصوصية البيانات وأمنها

عادةً ما يؤدي التنقيب عن البيانات إلى مشكلات كبيرة تتعلق بالحوكمة والخصوصية وأمن البيانات، وعلى سبيل المثال عندما يحقق بائع تجزئة في تفاصيل الشراء، فإنّه يكشف عن معلومات حول ميول الشراء وخيارات العملاء دون إذن منهم.

10. واجهة المستخدم

  • يتم تحديد المعرفة باستخدام أجهزة التنقيب عن البيانات ذات القيمة فقط في حالة كونها رائعة أو أكثر منطقية من قبل العميل.
  • من خلال الترجمة التمثيلية الرائعة للبيانات يمكن تسهيل نتائج التنقيب وفهم الأفضل للمتطلبات الأساسية.
  • يتم إجراء العديد من الاستكشافات لمجموعات البيانات الضخمة التي تتلاعب بالمعرفة الملغومة وتعرضها للحصول على تصور رائع.

11. تكامل المعرفة الخلفية

يمكن استخدام المعلومات السابقة لتوصيل أمثلة للتعبير عن الأنماط المكتشفة وتوجيه عملية الاستكشاف، ويجب أن تصور المعرفة المحددة محتويات قاعدة البيانات بالضبط وأن تكون مفيدة لتطبيقات محددة، ويجب تحديد النقص من خلال مقاييس عدم اليقين في شكل قواعد تقريبية أو قواعد كمية.

يجب إدارة الضوضاء والبيانات الاستثنائية بأناقة في أنظمة التنقيب عن البيانات، ويحفز هذا أيضًا دراسة منهجية لقياس جودة المعرفة المكتشفة مثل الاهتمام والموثوقية من خلال تطوير النماذج والأدوات الإحصائية والتحليلية والمحاكاة.

12. تحديات منهجية التنقيب

يتم تحديد هذه الصعوبات مع أساليب التنقيب عن البيانات وحدودها، وطرق التنقيب التي تسبب المشكلة هي التحكم في الضوضاء في البيانات ومعالجتها وأبعاد المجال وتنوع البيانات المتاحة وتنوع طريقة التنقيب وما إلى ذلك.

13. التعبير عن أنواع مختلفة من نتائج التنقيب عن البيانات

يمكن اكتشاف عدة أنواع من المعرفة من كمية هائلة من البيانات ويمكنه أيضًا فحص المعرفة المكتشفة من وجهات نظر متعددة وعرضها في أشكال مختلفة، والحاجة إلى تحديد كل من طلبات التنقيب عن البيانات والمعرفة المكتشفة باللغات عالية المستوى أو واجهات المستخدم الرسومية، بحيث يمكن تحديد مهمة استخراج البيانات من قبل غير الخبراء.

كما يمكن أن تكون المعرفة المكتشفة مفهومة ومتاحة بدقة من قبل المستخدمين ويحتاج هذا أيضًا إلى نظام الاكتشاف لاختيار تقنيات تمثيل المعرفة التعبيرية، ونظرًا لأنه من المعقد التنبؤ بما يمكن اكتشافه بالضبط من قاعدة البيانات يجب اعتبار استعلام استخراج البيانات عالي المستوى بمثابة مسبار يمكنه الكشف عن بعض الآثار المثيرة للاهتمام لمزيد من الاستكشاف.

يجب تشجيع الاكتشاف التفاعلي والذي يمكّن المستخدم من تحسين طلب التنقيب في البيانات بشكل تفاعلي وتغيير تركيز البيانات ديناميكيًا وتعميق عملية استخراج البيانات تدريجيًا، وعرض نتائج استخراج المعلومات والبيانات بمرونة على مستويات متعددة من التجريد ومن زوايا متعددة.

14. استخراج المعلومات من مصادر مختلفة للبيانات

شبكة الكمبيوتر المحلية والعريضة المتاحة على نطاق واسع مثل الإنترنت ويمكنها ربط مصادر مختلفة من البيانات وتشكيل قواعد بيانات ضخمة موزعة وغير متجانسة، ويشكل استخراج المعرفة من مصادر متعددة للمعلومات المنسقة أو غير المنسقة مع دلالات البيانات المتنوعة مطلبًا جديدًا للتنقيب في البيانات.

خلاف ذلك يمكن أن يساعد التنقيب عن البيانات في الكشف عن انتظام البيانات عالية المستوى في قواعد البيانات غير المتجانسة والتي بالكاد يمكن اكتشافها بواسطة أنظمة الاستعلام البسيطة، وعلاوةً على ذلك فإنّ الحجم الضخم لقاعدة البيانات والتوزيع الواسع للبيانات والتعقيد الحسابي للعديد من طرق التنقيب عن البيانات، يحفز على تقدم خوارزميات استخراج البيانات المتوازية والموزعة.

في هذه الأيام يعمل التنقيب عن البيانات وكشف المعلومات على تطوير ابتكارات مهمة للباحثين والشركات في العديد من الأماكن، وكما أنّ تنقيب البيانات يتشكل في طريقة الإعداد ويؤمن السيطرة، حيث يجب معالجة تحديات التنقيب عن البيانات القادمة.

المصدر: Foundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: