ما هي عملية التنقيب عن البيانات Data Mining

اقرأ في هذا المقال


تكشف البيانات عن الرؤى ممّا يجعلها سلعة ثمينة للمؤسسات التي تعمل على تحقيق الدخل منها بمساعدة متخصصي التنقيب عن البيانات، والتنقيب في البيانات هو تحليل مجموعات كبيرة من المعلومات أو البيانات الضخمة للتعرف على الأنماط وإنّها عملية أساسية في علم البيانات لأنّها تمكن علماء البيانات من طرح الأسئلة الصحيحة.

ما هي عملية التنقيب عن البيانات

التنقيب في البيانات: هي وسيلة التحقيق من خلال مجموعات البيانات الهائلة؛ لتحديد الأساليب والوسائل التي يمكن أن تساعد في حل مشاكل العمل عن طريقة العمليات على البيانات، حيث تعمل تقنيات وأدوات البحث عن البيانات المؤسسات من التنبؤ بالاتجاهات المستلمة واتخاذ قرارات عمل أكثر معرفة.

لماذا يعد التنقيب عن البيانات مهما في علم البيانات

  • التنقيب في البيانات هو صنع القرار وبيان تدفق البيانات المتدفقة التي يتزايد حجمها بسرعة، وفي الواقع يساهم بـ (1.7 ميجابايت) أخرى في حصيلة البيانات العالمية كل ثانية.
  • أي بيانات ليست في نظام إدارة قواعد البيانات الارتباطية (RDBMS) هي بيانات غير منظمة، ولهذا السبب يمكن أن تستغرق المرحلة الثالثة من (CRISP-DM)، وهي إعداد البيانات وما يُقارب إلى (80 في المائة) من وقت عالم البيانات لتحويل مجموعات البيانات الضخمة إلى بيانات منظمة.
  • يُعد استخراج البيانات أمرًا مهمًا في علم البيانات؛ لأنّه لا يقوم فقط بإخراج البيانات الزائدة عند إعداد البيانات ولكنّه أيضًا يوائم البيانات مع فهم الأعمال لإنتاج تصورات البيانات والمعلومات التي تؤثر على اتخاذ القرار الفعال.
  • يُعتبر التنقيب عن البيانات جزءًا أساسيًا من تحليلات البيانات بشكل عام وأحد التخصصات الأساسية في علم البيانات والذي يعتمد تكنولوجيا تحليلات متقدمة للعثور على معلومات مفيدة في مجموعات البيانات، وعلى مستوى أكثر دقة يُعد استخراج البيانات طريقة في تحري المعرفة في عملية قواعد البيانات (KDD) وهي منهجية علم البيانات لجمع البيانات ومعالجتها وتحليلها، ويُطلق أحيانًا على التنقيب في البيانات بـ (KDD) لكن يُعتبر بشكل أكثر معرفةً بأنّها أشياء مميزة.
  • يُعد التنقيب عن البيانات مكونًا حاسمًا في مبادرات التحليلات الناجحة في المؤسسات، ويمكن استخدام المعلومات التي تنشئها في ذكاء الأعمال (BI) وتطبيقات التحليلات المتقدمة التي تتضمن تحليل البيانات التاريخية، بالإضافة إلى تطبيقات التحليلات في الوقت المناسب التي تلاحظ تدفق البيانات عند إنشائها أو جمعها.
  • يساعد تنقيب البيانات المؤثر في العديد من جوانب تنظيم استراتيجيات الأعمال وإدارة العمليات، بحيث يحتوي ذلك أعمال مواجهة العملاء مثل التسويق والإعلان والمبيعات ودعم العملاء، بالإضافة إلى التصنيع وإدارة سلسلة التوريد والتمويل والموارد البشرية.
  • يساند التنقيب عن البيانات على إدارة المخاطر وتخطيط الأمن السيبراني والكثير من حالات استعمال الأعمال المهمة الأخرى وكما أنّه يلعب دورًا مهمًا في الرعاية الصحية والحكومة والبحث العلمي والرياضيات والرياضة وغير ذلك.

كيف تتم عملية التنقيب عن البيانات

عادةً ما يتم استخراج البيانات من قبل علماء البيانات وغيرهم من المتخصصين المهرة في مجال ذكاء الأعمال والتحليل، ولكن يمكن أيضًا إجراؤها من قبل محللي الأعمال والمديرين التنفيذيين والعاملين البارعين في اعتماد البيانات، والذين يعملون كعلماء بيانات أشخاص في مؤسسة ما.

تتضمن عناصره الأساسية التعلم الآلي والتحليل الإحصائي إلى جانب مهام إدارة البيانات التي يتم القيام بها لإعداد البيانات للتحليل، حيث أدى اعتماد خوارزميات التعلم الآلي وأدوات الذكاء الاصطناعي (AI) إلى أتمتة العديد من العملية وجعل من السهل الحصول على مجموعات البيانات الضخمة، مثل قواعد بيانات المشتركين وسجلات المعاملات وملفات السجل من خوادم الويب وتطبيقات الأجهزة المحمولة وأجهزة الاستشعار، كما يمكن تقسيم عملية التنقيب عن البيانات إلى هذه المراحل الأساسية الأربع:

1- جمع البيانات

يتم تخصيص البيانات ذات العلاقة لتطبيق التحليلات وتجميعها، حيث قد تكون البيانات موجودة في أنظمة مصادر مختلفة أو مستودع بيانات أو بحيرة بيانات وهو مستودع شائع بشكل متزايد في بيئات البيانات الضخمة، والتي تتضمن على مزيج من البيانات المهيكلة وغير المهيكلة وتستطيع أيضًا اعتماد مصادر البيانات الخارجية وأينما تأتي البيانات غالبًا ما ينقلها عالم البيانات إلى مجموعة بيانات للخطوات المتبقية في العملية.

2- تحضير البيانات

تتضمن هذه المرحلة مجموعة من الخطوات لتجهيز البيانات للتنقيب، حيث يبدأ باستكشاف البيانات والتوصيف والمعالجة المسبقة ومتبوعًا بأعمال تنظيف البيانات لإصلاح الأخطاء ومشكلات جودة البيانات الأخرى، كما يتم القيام بتغيير البيانات أيضًا لجعل مجموعات البيانات متسقة وما لم يكن عالم البيانات يبحث عن تحليل البيانات الأولية غير المفلترة لتطبيق معين.

3- التنقيب في البيانات

بمجرد إعداد البيانات يختار عالم البيانات تقنية استخراج البيانات المناسبة ثم يقوم بتنفيذ واحدة أو أكثر من الخوارزميات للقيام بالتعديل، حيث في استخدامات التعلم الآلي يجب ممارسة الخوارزميات عادةً على مجموعات بيانات نموذجية للبحث عن المعلومات المطلوبة قبل تشغيلها مقابل المجموعة الكاملة من البيانات.

4- تحليل البيانات وتفسيرها

  • تُستعمل نتائج التنقيب عن البيانات لتكوين نماذج تحليلية يمكن أن تساعد في دفع عملية إنتاج القرار وإجراءات العمل الأخرى.
  • يجب على عالم البيانات أو أي عضو آخر في فريق علم البيانات أن ينقل الحصيلة إلى المديرين التنفيذيين والمستخدمين وغالبًا من خلال تصور البيانات واستخدام تقنيات سرد القصص.

أنواع تقنيات التنقيب عن البيانات

يمكن اعتماد تكنولوجيا متعددة لتحسين البيانات لتطبيقات علوم البيانات المختلفة، والتعرف على الأنماط هو حالة اعتماد شائعة للبحث البيانات يتم تمكينها من خلال تقنيات متعددة مثل اكتشاف التطرف، والذي يهدف إلى تحديد القيم الخارجية في مجموعات البيانات وتتضمن تقنيات التنقيب عن البيانات الشائعة الأنواع التالية:

1- قواعد الارتباط

  • في التنقيب عن البيانات تكون قواعد الارتباط عبارة عن عبارات شرطية تحدد العلاقات بين عناصر البيانات.
  • تُستخدم معايير الدعم والثقة لتقييم العلاقات ويقيس الدعم مدى تكرار ظهور العناصر ذات الصلة في مجموعة البيانات، بينما تعكس الثقة عدد المرات التي يكون فيها بيان الشرط حينئذٍ دقيقًا.

2- التصنيف

  • يقوم هذا النهج بتحديد العناصر في مجموعات البيانات إلى فئات مختلفة محددة كجزء من عملية استخراج البيانات.
  • تُعد أشجار القرار ومصنفات (Naïve Bayes) وأقرب (k) والانحدار اللوجستي بعض الأمثلة على طرق التصنيف.

3- تجميع عناصر البيانات

في هذه الحالة يتم تجميع عناصر البيانات التي تشترك في خصائص معينة معًا في مجموعات كجزء من تطبيقات التنقيب عن البيانات، حيث تتضمن الأمثلة مجموعات (k-mean) والتجميع الهرمي ونماذج الخليط (Gaussian).

4- التراجع

هذه طريقة أخرى للعثور على العلاقات في مجموعات البيانات عن طريق حساب قيم البيانات المتوقعة بناءً على مجموعة من المتغيرات، والانحدار الخطي والانحدار كثير المتغيرات هي أمثلة ويمكن استخدام أشجار القرار وبعض طرق الأشكال الأخرى لإجراء عمليات الانحدار أيضًا.

5- تحليل التسلسل والمسار

يمكن أيضًا استخراج البيانات للبحث عن أشكال تؤدي فيها مجموعة محددة من الأحداث أو القيم إلى أحداث لاحقة.

6- الشبكات العصبونية التلافيفية

الشبكة العصبونية التلافيفية هي مجموعة من الخوارزميات التي تحاكي نشاط الدماغ البشري، حيث تُعد الشبكات العصبية مفيدة بشكل خاص في تطبيقات التعرف على الأنماط المعقدة التي تتضمن التعلم العميق وهو فرع أكثر تقدمًا من التعلم الآلي.

علم البيانات مهم لمستقبل جميع الصناعات، ويمثل التنقيب عن البيانات دور حاسم في هذا المجال مع نموه، كما يمكن أن يقوم على تطوير المهارات من خلال التعليم المتقدم على اكتساب فهم متعمق لما هو استخراج البيانات، وكيف يمكن أن يثري حياتك المهنية في علم البيانات.

المصدر: Data Science from Scratch: First Principles with Python by Joel Grus / 2nd EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionFoundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First Edition


شارك المقالة: