ما هي التحديات التي تواجه علوم البيانات

اقرأ في هذا المقال


تسعى المنظمات في جميع أنحاء العالم لإطلاق الأهمية للقيمة التي يمكن أن تقدمها البيانات، حيث في هذا المسعى قاموا بتوظيف علماء البيانات على نطاق كبير على أمل تحقيق النتائج على الفور، ومع ذلك اتضح أنّ العديد من الشركات تفشل في تحقيق أقصى استفادة من علماء البيانات لديها؛ لأنّهم غير قادرين على تزويدهم بالبيانات والمواد المطلوبة المناسبة.

أشكال تحديات علوم البيانات

1- البحث عن البيانات

ليس من المستغرب أن تكون الخطوة الأولى في أي مشروع لعلم البيانات هي العثور على أصول البيانات اللازمة لبدء العمل، إلّا أنّ توافر البيانات “الصحيحة” لا يزال يمثل التحدي الأكثر شيوعًا لعلماء البيانات، ممّا يؤثر بشكل مباشر على قدرتهم على بناء نماذج قوية.

والمشكلة الأولى هي أنّ معظم الشركات تجمع كميات هائلة من البيانات دون تحديد ما إذا كان سيتم استهلاكها حقًا، وهذا مدفوع بالإمكانية من فقدان الأفكار الرئيسية التي يمكن استخلاصها منه وتوافر التخزين غير المناسب، والجانب المظلم من جنون جمع البيانات هذا هو أن المؤسسات ينتهي بها الأمر بجمع بيانات عديمة الفائدة، ممّا يجعل التركيز بعيدًا عن قابلية التنفيذ.

هذا يجعل من الصعب على مستخدمي البيانات العثور على أصول البيانات ذات الصلة حقًا لاستراتيجية العمل بحيث تحتاج الشركات إلى التأكد من أنها تجمع البيانات ذات الصلة التي سيتم استخدامها، لذلك من المهم أن فهم ما يجب قياسه من أجل وضع عملية صنع القرار وهذا يختلف باختلاف المنظمات المختلفة.

كما تنتشر البيانات في مصادر متعددة ممّا يجعل من الصعب على علماء البيانات العثور على الأصل الصحيح وجزء من الحل هو دمج المعلومات في مكان واحد، ولهذا السبب تستخدم العديد من الشركات مستودع بيانات حيث تقوم بتخزين البيانات من جميع مصادرها المختلفة.

ومع ذلك فإن وجود مصدر واحد للحقيقة لأصول البيانات الخاصة بك لا يكفي بدون توثيق البيانات، والفائدة التي يمكنك الاستفادة بها من مستودع بيانات ضخم هو أنّه المفتاح لعلماء البيانات للعثور على الجداول ذات الصلة بعملهم هو الحفاظ على جرد منظم بدقة لأصول البيانات، كما يجب إثراء كل جدول بسياق حول ما يحتويه ومن قام باستيراده في الشركة، ولوحة التحكم ومؤشر الأداء الرئيسي المرتبط به وأي معلومات أخرى يمكن أن تساعد علماء البيانات في تحديد موقعه.

كما يمكن الاحتفاظ بهذا المخزون يدويًا وفي جدول بيانات (Excel) يتم مشاركته مع موظفي الشركة، وإذا كان هذا هو ما تحتاجه في الوقت الحالي، أمّا إذا كانت مؤسستك كبيرة جدًا بحيث لا يمكن التوثيق اليدوي فإنّ الحل البديل هو استخدام أداة فهرسة البيانات لإبراز أصول البيانات الخاصة بك، وإذا كنت تفضل هذا الخيار فتأكد من اختيار الأداة التي تناسب احتياجات شركتك.

2- الوصول إلى البيانات

بمجرد تحديد علماء البيانات للجدول الصحيح، يكون التحدي التالي هو الوصول إلى الجدول الأخير، حيث تجعل مشكلات الأمان والامتثال من الصعب على علماء البيانات الوصول إلى مجموعات البيانات، ومع انتقال المؤسسات إلى إدارة البيانات السحابية أصبحت الهجمات الإلكترونية شائعة جدًا، وقد أدى ذلك إلى مشكلتين رئيسيتين وهما:

  • أصبحت البيانات السرية عرضة لهذه الهجمات.

نتيجةً لذلك يكافح علماء البيانات للحصول على الموافقة على استخدام البيانات ممّا يؤدي إلى إبطاء عملهم بشكل كبير، والأسوأ من ذلك عندما يتم رفض وصولهم إلى مجموعة البيانات، وبالتالي تواجه المؤسسات تحديًا يتمثل في الحفاظ على أمان البيانات وضمان الالتزام الصارم بمعايير حماية البيانات، مثل القانون العام لحماية البيانات (GDPR) مع السماح للأطراف ذات الصلة بالوصول إلى البيانات التي يحتاجون إليها.

كما سيؤدي الفشل في أحد هذين الهدفين إما إلى مشاكل كبيرة وعمليات تدقيق تستغرق وقتًا طويلاً أو إلى استحالة الاستفادة من البيانات بكفاءة، ويكمن الحل في أدوات الفهرسة بحيث تجعل كتالوجات البيانات الامتثال التنظيمي عملية خالية من العيوب، ومع التأكد من أن الأشخاص المناسبين يمكنهم الوصول إلى البيانات التي يحتاجون إليها.

يتم تحقيق ذلك بشكل أساسي من خلال ميزات إدارة الوصول، حيث يمكنك منح أو تقييد الوصول بنقرة واحدة إلى الجداول بناءً على حالات الموظفين، وبهذه الطريقة سينقل علماء البيانات بسلاسة إلى مجموعات البيانات التي يحتاجون إليها.

ملاحظة:“GDPR” هي اختصار لـ “General Data Protection Regulation”.

3- فهم البيانات

قد يُعتقد أنّه بمجرد أن يجد علماء البيانات جدولًا معينًا ويحصلون عليه يمكنهم أخيرًا عمل وبناء نماذج تنبؤية قوية لكن لا يزال الأمر كذلك، حيث عادةً تكون هناك مجموعة من الأسئلة، وعلى الرغم من أنّ هذه الأسئلة تكون بسيطة إلّا أنّ الحصول على إجابة ليس كذلك، حيث لا توجد ملكية لمجموعات البيانات في المؤسسات.

والحل لمنع علماء البيانات في مؤسستك من قضاء الكثير من الوقت على هذه الأسئلة الأساسية هو توثيق أصول البيانات، وبهذه إذا كان بالإمكان الحصول على تعريف مكتوب لكل عمود في كل جدول في مستودع البيانات الخاص بك، فسترى زيادة إنتاجية علماء البيانات لديك.

كما أنّ الأمر يستغرق وقتًا أقل من ترك الأصول غير الموثقة تتجول في عملك، حيث يقضي علماء البيانات غير المنتجين (80%) من وقتهم في محاولة اكتشافها، وأيضًا تحتوي حلول توثيق البيانات الحديثة على ميزات أتمتة ممّا يعني أنه عند تحديد عمود واحد في جدول، ويتم نشر هذا التعريف إلى جميع الأعمدة الأخرى التي تحمل اسمًا مشابهًا في جداول أخرى.

ما هي مشاكل استخدام علوم البيانات

1- مشكلة تنظيم البيانات

يقضي علماء البيانات معظم وقتهم في المعالجة المسبقة للبيانات لجعلها متسقة قبل تحليلها بدلاً من بناء نماذج ذات مغزى، وتتضمن هذه المهمة تنظيف البيانات وإزالة القيم المتطرفة وترميز المتغيرات وما إلى ذلك، وعلى الرغم من أنّ المعالجة المسبقة للبيانات غالبًا ما تعتبر أسوأ جزء من عمل عالم البيانات، فمن الأهمية بمكان أن تُبنى النماذج على بيانات نظيفة وعالية الجودة.

بخلاف ذلك تتعلم نماذج التعلم الآلي الأنماط الخاطئة ممّا يؤدي في النهاية إلى تنبؤات خاطئة، ويمكن لعلماء البيانات إذن قضاء وقت أقل في المعالجة المسبقة للبيانات مع ضمان استخدام البيانات عالية الجودة فقط لتدريب نماذج التعلم الآلي، ويكمن أحد الحلول في استخدام التحليلات المعززة.

إن استخدام تقنيات مثل التعلم الآلي والذكاء الاصطناعي للمساعدة في إعداد البيانات لزيادة كيفية قيام علماء البيانات بمعالجة البيانات مسبقًا، بحيث يتيح ذلك إمكانية أتمتة جوانب معينة من تنقية البيانات والتي يمكن أن توفر لعلماء البيانات كميات كبيرة من الوقت مع الحفاظ على نفس مستويات الإنتاجية.

2- مشكلة توجيه وتحسين عملية صنع القرار

يُقصد بذلك أن يتماشى عمل علماء البيانات تمامًا مع إستراتيجية الأعمال، حيث أنّ الهدف النهائي لعلم البيانات هو توجيه وتحسين عملية صنع القرار في المؤسسات، ومن ثم فإنّ أحد أكبر تحدياتهم هو توصيل نتائجهم إلى رجال الأعمال التنفيذيين، وفي الواقع يجهل المدراء وأصحاب المصلحة الآخرون الأدوات والأعمال الكامنة وراء النماذج.

بحيث يكون عليهم أن يبنيوا قراراتهم على تفسيرات علماء البيانات، وإذا لم يتمكن الأخير من شرح كيف سيؤثر نموذجهم على أداء المنظمة، فمن غير المرجح أن يتم تنفيذ حلهم وهناك شيئان يجعلان من هذا الاتصال لأصحاب المصلحة غير التقنيين تحديًا:

  • غالبًا ما يتمتع علماء البيانات بخلفية تقنية ممّا يجعل من الصعب عليهم ترجمة نتائج بياناتهم إلى رؤى تجارية واضحة، ولكن هذا شيء يمكن ممارسته يمكنهم تبني مفاهيم مثل “سرد البيانات” لتقديم سرد قوي لتحليلهم وتصوراتهم.
  • يتم تعريف شروط العمل ومؤشرات الأداء الرئيسية بشكل سيء في معظم الشركات، حيث يعرف الجميع تقريبًا ما يتكون منه عائد الاستثمار في الشركة، ولكن نادرًا ما يكون هناك فهم مشترك عبر جميع الإدارات لكيفية حسابه بالضبط، وبالتالي ينتهي الأمر بالعديد من تعريفات عائد الاستثمار بقدر ما يقوم الموظفون بحسابه، وهي نفس القصة بالنسبة لمؤشرات الأداء الرئيسية وشروط العمل الأخرى وهذا يجعل من الصعب على علماء البيانات فهم وشرح تأثير عملهم المتعلق بمؤشرات أداء رئيسية محددة.

حدد مؤشرات الأداء الرئيسية الخاصة بك وتأكد من أن كل شخص لديه فهم مشترك لكل مقياس، وستسمح مؤشرات الأداء الرئيسية المناسبة للأعمال بقياس تأثير الأعمال الناتج عن تحليلات علماء البيانات بالضبط، ومن الطرق الجيدة لبناء مصدر واحد للحقيقة لمؤشرات الأداء الرئيسية وشروط العمل استخدام كتالوج البيانات، كما يضمن هذا الحل توافق الجميع فيما يتعلق بالتعاريف الرئيسية لعملك.

المصدر: Introducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionFoundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: