عملية استكشاف البيانات مقابل عملية التنقيب عن البيانات

اقرأ في هذا المقال


هناك طريقتان أو تقنيتان رئيسيتان تستخدمان لاسترداد البيانات ذات الصلة من التجمعات الكبيرة غير المنظمة، وإنها طرق يدوية وآلية بحيث أنّ الطريقة اليدوية هي اسم آخر لاستكشاف البيانات، بينما تُعرف الطريقة التلقائية أيضًا باسم “التنقيب عن البيانات” ويشير التنقيب عن البيانات عمومًا إلى جمع البيانات ذات الصلة من قواعد البيانات الكبيرة.

ما هي عملية استكشاف البيانات

تشير عملية استكشاف البيانات إلى بداية عملية تحليل البيانات، حيث يستخدم محللي البيانات تصور البيانات والتقنيات الإحصائية لوصف توصيفات مجموعة البيانات مثل: الحجم والكمية والدقة لفهم طبيعة البيانات بشكل أفضل، وتتضمن تقنيات استكشاف البيانات كلاً من التحليل اليدوي وحلول برمجيات استكشاف البيانات الآلية، والتي تستكشف وتعرف بصريًا العلاقات بين متغيرات البيانات المختلفة وهيكل مجموعة البيانات ووجود القيم المتطرفة وتوزيع قيم البيانات للكشف عن الأنماط ونقاط الاهتمام ممّا يتيح محللو البيانات لاكتساب نظرة ثاقبة على البيانات الأولية.

غالبًا ما يتم جمع البيانات بأحجام كبيرة غير منظمة من مصادر مختلفة، حيث يجب على الأشخاص الذين يحللون البيانات أولاً فهم وتطوير عرض شامل للبيانات قبل استخراج البيانات ذات الصلة لمزيد من التحليل، مثل: تحليل المكونات أحادية المتغير وثنائية المتغير ومتعددة المتغيرات والمكونات الرئيسية.

لماذا يعتبر استكشاف البيانات مهمًا

يعالج البشر البيانات المرئية بشكل أفضل من البيانات الرقمية، لذلك من الصعب للغاية على علماء البيانات ومحللي البيانات تعيين معنى لآلاف الصفوف والأعمدة من نقاط البيانات وإيصال هذا المعنى دون أي مكونات مرئية، ويستفيد تصور البيانات في استكشاف البيانات من الإشارات المرئية المألوفة مثل: الأشكال والأبعاد والألوان والخطوط والنقاط والزوايا.

وذلك بحيث يمكن لمحللي البيانات تصور وتحديد البيانات الوصفية بشكل فعال ثم إجراء تنقية البيانات، كما يؤدي تنفيذ الخطوة الأولية لاستكشاف البيانات إلى تمكين محللي البيانات من فهم الحالات المتطرفة، والعلاقات التي قد لا يتم اكتشافها بشكل مرئي وتحديدها بشكل مرئي.

ما هي أدوات استكشاف البيانات

تستلزم طرق استكشاف البيانات اليدوية كتابة البرامج النصية لتحليل البيانات الأولية أو تصفية البيانات يدويًا في جداول البيانات بحيث تساعد أدوات استكشاف البيانات المؤتمتة، مثل برنامج تصور البيانات علماء البيانات على مراقبة مصادر البيانات بسهولة وتنفيذ استكشاف البيانات الضخمة على مجموعات بيانات كبيرة للغاية، كما تُعد العروض الرسومية للبيانات مثل: المخططات الشريطية والمخططات المبعثرة أدوات قيمة في استكشاف البيانات المرئية.

من الأدوات الشائعة لاستكشاف البيانات يدويًا جداول بيانات (Microsoft Excel)، والتي يمكنها إنشاء مخططات أساسية لاستكشاف البيانات وعرض البيانات الأولية وتحديد الارتباط بين المتغيرات، ولتحديد الارتباط بين متغيرين مستمرين في (Excel) واستخدم الدالة (CORREL ()) لإرجاع الارتباط، ولتحديد الارتباط بين متغيرين فئويين في (Excel) تعتبر طريقة الجدول ثنائي الاتجاه وطريقة مخطط العمود المكدس واختبار مربع كاي فعالة.

هناك مجموعة متنوعة من حلول استكشاف البيانات المؤتمتة المملوكة بما في ذلك أدوات ذكاء الأعمال وبرامج تصور البيانات وموردي برامج إعداد البيانات ومنصات استكشاف البيانات، كما يتوفر هناك أيضًا أدوات استكشاف بيانات مفتوحة المصدر تتضمن إمكانات الانحدار وميزات التصور، والتي يمكن أن تعمل الشركات على دمج مصادر البيانات المتنوعة لتمكين استكشاف البيانات بشكل أسرع، كما تتضمن معظم برامج تحليل البيانات أدوات تصور البيانات.

ما هي أهداف عملية استكشاف البيانات

  • الأرشفة: يمكن لاستكشاف البيانات تحويل البيانات من التنسيقات المادية (مثل الكتب والصحف والفواتير) إلى تنسيقات رقمية (مثل قواعد البيانات) للنسخ الاحتياطي.
  • نقل تنسيق البيانات: إذا كنت ترغب في نقل البيانات من موقع الويب الحالي الخاص بك إلى موقع ويب جديد قيد التطوير فيمكن جمع البيانات من موقع الويب الخاص بك عن طريق استخراجها.
  • تحليل البيانات: باعتباره الهدف الأكثر شيوعًا، يمكن تحليل البيانات المستخرجة بشكل أكبر لتكوين رؤى وقد يبدو هذا مشابهًا لعملية تحليل البيانات في التنقيب عن البيانات، لكن لاحظ أن تحليل البيانات هو الغرض من استكشاف البيانات وليس جزءًا من عمليتها، وعلاوةً على ذلك يتم تحليل البيانات بشكل مختلف وأحد الأمثلة على ذلك هو أنّ أصحاب المتاجر الإلكترونية يستخرجون تفاصيل المنتج من مواقع التجارة الإلكترونية مثل أمازون لمراقبة استراتيجيات المنافسين.

ما هي حالات استخدام عملية استكشاف البيانات

تم استخدام استكشاف البيانات على نطاق واسع في العديد من الصناعات التي تخدم أغراضًا مختلفة، وإلى جانب مراقبة الأسعار في التجارة الإلكترونية، يمكن أن يساعد استكشاف البيانات في البحث الورقي الفردي وتجميع الأخبار والتسويق والعقارات والسفر والسياحة والاستشارات والتمويل وغير ذلك الكثير.

  • إنشاء العملاء المحتملين: يمكن للشركات استخراج البيانات من الدلائل مثل: (Yelp) و(Crunchbase) و(Yellowpages) وإنشاء عملاء محتملين لتطوير الأعمال.
  • تجميع المحتوى والأخبار: يمكن لمواقع تجميع المحتوى الحصول على موجز بيانات منتظم من مصادر متعددة والحفاظ على مواقعها محدثة.
  • تحليل المشاعر: حيث بعد استخراج التعليقات أو التعليقات عبر الإنترنت من مواقع التواصل الاجتماعي مثل: (Instagram) و(Twitter) يمكن للأشخاص تحليل المواقف الأساسية وفهم كيفية إدراكهم للعلامة التجارية أو المنتج أو الظاهرة.

ما هي عملية التنقيب عن البيانات

إنّ عملية التنقيب عن البيانات هي عملية الكشف عن الأنماط والمعلومات القيمة الأخرى من مجموعات البيانات الكبيرة، ونظرًا لتطور تكنولوجيا حفظ البيانات ونمو البيانات الضخمة، فقد تسارع اعتماد تقنيات استخراج البيانات على مدار العقدين الماضيين ممّا ساعد الشركات عن طريق تحويل بياناتها الأولية إلى معرفة مفيدة.

ومع ذلك على الرغم من حقيقة أنّ هذه التكنولوجيا تتطور باستمرار للتعامل مع البيانات على نطاق واسع لا يزال القادة يواجهون تحديات في قابلية التوسع والأتمتة، وعلاوةً على ذلك يتم استخدامه لبناء نماذج التعلم الآلي التي يتم استخدامها بشكل أكبر في الذكاء الاصطناعي.

وكعملية معقدة نسبيًا يأتي استخراج البيانات كنماذج اكتشاف لفهم البيانات والتنبؤ بالمستقبل، وكلاهما يتطلب مجموعات مهارات وخبرات مختلفة، ومع ذلك فإن الشعبية المتزايدة لأدوات استكشاف البيانات غير المشفرة وأدوات التنقيب في البيانات تعزز الإنتاجية بشكل كبير وتجعل حياة الناس أسهل بكثير.

الفرق بين استكشاف البيانات وعملية التنقيب عن البيانات

الرقمعملية استكشاف البياناتعملية التنقيب عن البيانات
1يتم استخدام استكشاف البيانات بالتبادل مع استكشاف الويب وكشف الويب وتغير الويب واسترجاع البيانات وجمع البيانات وما إلى ذلك.يُطلق على التنقيب عن البيانات أيضًا اسم الحصول على المعرفة في قواعد البيانات والاستخراج وتحليل البيانات أو الأساليب وجمع المعلومات.
2عادةً ما يسترد استكشاف البيانات البيانات من مصادر البيانات غير المنظمة أو سيئة التنظيم.دراسات التنقيب عن البيانات هي في الغالب على البيانات المنظمة.
3يتمثل استكشاف البيانات في جمع البيانات وجمعها في مكان يمكن تخزينها فيه أو معالجتها بشكل أكبر.يهدف التنقيب عن البيانات إلى جعل البيانات المتاحة أكثر فائدة لتوليد الأفكار.
4يعتمد استكشاف البيانات على لغات البرمجة أو أدوات استكشاف البيانات للزحف إلى مصادر البيانات.يعتمد التنقيب عن البيانات على الأساليب الرياضية للكشف عن الأنماط أو الاتجاهات.
5يتعامل استكشاف البيانات مع المعلومات الموجودة.الغرض من التنقيب في البيانات هو العثور على حقائق لم تكن معروفة أو تم تجاهلها من قبل.
6يمكن أن يكون استكشاف البيانات أمرًا سهلاً للغاية ومنخفض التكلفة عند إجرائه باستخدام الأداة المناسبة.يعد التنقيب عن البيانات أكثر تعقيدًا ويتطلب استثمارات كبيرة في تدريب الموظفين.

المصدر: Foundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: