أنظمة أتمتة علوم البيانات في التعلم الآلي

اقرأ في هذا المقال


في عصر التحول الرقمي، تُعد التحليلات التنبؤية والتعليمية أساسية لنجاح الأعمال، ونتيجةً لذلك تحاول المؤسسات استخراج أنواع مختلفة من الرؤى من البيانات وخاصة البيانات الضخمة، وفي العقد الماضي كان هناك العديد من التطورات في أتمتة بناء الذكاء الاصطناعي (AI)، وفي كثير من الأحيان في حوار حول مستقبل الذكاء الاصطناعي، قد تسمع إشارة إلى أتمتة علم البيانات وأتمتة التعلم الآلي المستخدمة بالتبادل.

ما هي أنظمة أتمتة علوم البيانات التحليلية في التعلم الآلي

تشير أهداف التعلم الآلي الحالي (المعروفة باسم AutoML) تحديدًا إلى أتمتة بناء النماذج لكنّ عمل عالم البيانات يشمل نطاقًا أوسع من المهام من ذلك، وفي أبسط المستويات يستخرج علماء البيانات المعرفة من البيانات لحل مشاكل العالم الحقيقي والتعلم الآلي هو أداة واحدة فقط.

كما تشهد الأتمتة تحدث في كل مرحلة من مراحل دورة حياة علم البيانات، بدءًا من المعالجة المسبقة للبيانات وصولاً إلى نشر الحلول، ويساهم (AutoML) بالتأكيد في تطويرات قيمة نحو الأتمتة في دورة الحياة هذه ولا سيما في مرحلة النمذجة وفي معظم الحالات تستهدف الأتمتة المهام الأكثر تعقيدًا واستهلاكًا للوقت لجعلها أسرع وأسهل، ومع هذه التطورات يكون لعلماء البيانات المزيد من الوقت للقيام بما تم تدريبهم على القيام به كاستخدام رؤى البيانات لتطوير حلول مميزة لمؤسساتهم.

الأتمتة في دورة حياة علم البيانات

تتضمن دورة حياة علم البيانات كل مهمة من المهام التي يكملها علماء البيانات كجزء من تطوير الحلول، وتتضمن كل خطوة في الدورة على الأقل مستوى معين من الأتمتة، وهي حقيقة غير مفاجئة بالنظر إلى الطبيعة كثيفة الوقت للعديد من الخطوات في عملية بناء الذكاء الاصطناعي.

1- أتممة تحضير البيانات

بافتراض أن لدى علماء البيانات مشكلة يحاولون حلها فإنّ المهمة الأولى لعالم البيانات هي جمع البيانات وإعدادها وبشكل عام يتطلب إعداد البيانات تحويلها إلى التنسيق الصحيح وتحديد الأخطاء وإصلاح الحالات المتطرفة، وحاليًا هذه الخطوة مؤتمتة جزئيًا ويمكن لعلماء البيانات استخدام أساليب الاستدلال البسيطة أو أدوات تنظيف البيانات التابعة لجهات خارجية لتنظيف البيانات، وعلى سبيل المثال يمكن أن يحدد الكشف عن مجريات الأمور أي أرقام خارج النطاق الواقعي يتم حذفها تلقائيًا.

تقوم أدوات تنظيف البيانات تلقائيًا بتنظيف المخططات وإجراء التنميط الإحصائي وإكمال خطوات الإعداد الأخرى حسب الحاجة، كما أنّ العقبة الرئيسية هي حقيقة أن علماء البيانات يحتاجون غالبًا إلى اتخاذ قرارات ذاتية بشأن البيانات، وأيضًا قد تتضمن مجموعة البيانات العديد من حالات الحافة وقد لا تستوعب الأدوات أو الاستدلال بسهولة.

2- أتممة استكشاف البيانات

الخطوة التالية في دورة حياة علم البيانات هي استكشاف البيانات، وفي هذه المرحلة يستخدم علماء البيانات أدوات التصور للحصول على نظرة عامة على البيانات، ومثل الخطوة الأولى لا يمكن أن تكون هذه المرحلة مؤتمتة إلّا جزئيًا وكما يمكن لعلماء البيانات أتمتة إنشاء الرسومات ولكنّ تحليل هذه الرسومات لا يزال يتطلب خبرتهم.

3- أتممة هندسة الخصائص

أصبحت هندسة الميزات تدريجيًا جزءًا من اختصاص (AutoML) ومن المحتمل أن تكون المجال التالي للفرصة لمزيد من التشغيل الآلي في (ML)، وهندسة الميزات نفسها هي إنشاء متغيرات إدخال جديدة ذات صلة بالمشكلة التي تحاول حلها من المدخلات الحالية، وعند القيام بشكل صحيح تعمل هندسة الميزات على تحسين أداء النموذج من خلال لفت انتباه النموذج إلى المتغيرات المهمة غير الموجودة بشكل صريح في البيانات.

باستخدام الأتمتة يمكن للأدوات اشتقاق ميزات من جداول ونصوص وبيانات جغرافية مكانية وبيانات متسلسلة زمنية ومن بين مصادر أخرى، كما تقوم هذه الأدوات بسرعة بتقييم المئات إن لم يكن الملايين من الميزات وإخراج أكثرها صلة بنموذجك وما كان تقليديًا عملية اختيار يدوية لعلماء البيانات أصبح أسرع وأكثر كفاءة مع الأتمتة.

4- أتممة بناء نموذج

يتضمن بناء النموذج اختيار النموذج والتحقق من الصحة وتحسين المعلمة الفائقة (HPO) وهذا هو المكان الذي يتألق فيه (AutoML) بحيث تتوفر الأتمتة الكاملة، كما يمكن لأدوات (AutoML) التنقل عبر مجموعة متنوعة من النماذج لمجموعة واحدة من بيانات الإدخال واختيار النموذج الأفضل أداءً، ويمكن للأدوات ضبط النموذج تلقائيًا لتحسين الدقة باستخدام تحسين المعلمة الفائقة وإجراءات التحقق المتكررة وأنّ نماذج (AutoML) لا تزال تؤدي أداءً عاليًا فيما يتعلق بمقاييس الدقة والثقة، ولا يتم التضحية بالجودة من أجل الكفاءة.

5- أتممة الانتشار المستمر

لا تنتهي دورة حياة علم البيانات عند النشر، حيث يتطلب كل نموذج من نماذج الذكاء الاصطناعي صيانة مستمرة أثناء الإنتاج لذا فإنّ إنشاء خط أنابيب لإعادة التدريب سيكون أمرًا بالغ الأهمية لتحقيق النجاح، وفي هذا المجال يُشهد ظهور أدوات آلية توفر فحوصات صيانة منتظمة للنماذج ممّا يضمن أنّها لا تزال تفي بحدود الدقة والثقة، وفي حين أنّه لا يزال من المفيد الاحتفاظ بشخص في الحلقة في هذه المرحلة فإنّ الأتمتة تحل محل عملية يدوية كاملة بخلاف ذلك لحل المشكلة بشكل أسرع.

إنّ الطلب على الأتمتة ينبع من حقيقة أنّ إطلاق حل للذكاء الاصطناعي يتطلب موارد كثيرة ويتطلب استثمارًا كبيرًا للوقت والخبرة التي غالبًا ما تكون باهظة بالنسبة للمؤسسات الصغيرة، ومع ظهور أدوات الأتمتة ستقل هذه الحواجز أمام الدخول ممّا يسمح لمزيد من المشاركين في الفضاء بالتجربة والابتكار.

المصدر: Foundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: