ما هي مبادئ عمليات علوم البيانات Data Science Process

اقرأ في هذا المقال


يتم إنشاء مبادئ علم البيانات للمساعدة على ربط النقاط بين الرياضيات والبرمجة وتحليل الأعمال، ويدور علم البيانات حول استخراج المعرفة من البيانات، كما يتم تحديد علم البيانات على أنّه حرفة متعددة التخصصات تجمع بين الأشخاص والعمليات والأنظمة الحاسوبية ومنصات البيانات الضخمة والغرض الخاص بالتطبيق وإمكانية البرمجة.

ما هي مبادئ عمليات علم البيانات

1- البيانات هي أحد الأصول الإستراتيجية

هذا المفهوم هو عقلية تنظيمية، والشركات المولودة في السحابة تعتمد بشكل جوهري على البيانات ويُعتبر التعامل مع البيانات كأصل إستراتيجي في نفسية هذه العقلية ليس صالحًا لمعظم المنظمات.

2- عملية منهجية لاستخراج المعرفة

يجب أن تكون هناك عملية منهجية لاستخراج الرؤى من البيانات، كما يجب أن تحتوي هذه العملية على مراحل واضحة ومميزة مع نتائج واضحة، وُتعد العملية القياسية عبر الصناعة لاستخراج البيانات (CRISP-DM) إحدى هذه العمليات.

3- فهم البيانات

تحتاج المؤسسات إلى الاستثمار في الأشخاص المتحمسين للبيانات، بحيث يتم تحويل البيانات وهناك حاجة إلى فهم قيمة البيانات وإلى ربط البيانات والتكنولوجيا والأعمال.

4- عامل تمكين لاتخاذ القرار

إنّ علم البيانات هو عامل تمكين لاتخاذ القرار، وعلم البيانات هو أداة وليس وسيلة وهو ليس في عالم المطلق وإنّه في عالم الاحتمالات، ويحتاج صناع القرار إلى تبني هذه الحقيقة، وإلى تبني عدم اليقين الكمي في عملية صنع القرار لديهم ولا يمكن ترسيخ عدم اليقين.

المبادئ التوجيهية لعلوم البيانات

1- العملية

تدمج عمليات سير عمل علوم البيانات في الرسوم البيانية القابلة للتنفيذ، حيث يُعتقد أنّ التفكير الموجه نحو العمليات هو طريقة تحويلية لإجراء علم البيانات لربط الأشخاص والتقنيات بالتطبيقات، وتشمل التحديات التي تواجه عملية علم البيانات:

  • كيفية دمج جميع المهام المطلوبة بسهولة لبناء مثل هذه العملية.
  • كيفية العثور على أفضل موارد الحوسبة وجدولة عمليات تنفيذ العمليات بكفاءة إلى الموارد بناءً على تعريف العملية وإعدادات المعلمات وتفضيلات المستخدم.

2- الغرض

يأتي الغرض عندما يستخدم الناس عمليات قابلة للتعميم مع وضع هدف معين في الاعتبار، حيث يمكن أن يكون الغرض مرتبطًا بتحليل علمي بفرضية أو مقياس عمل يحتاج إلى تحليل بناءً على البيانات الضخمة في كثير من الأحيان، حيث أن العمليات المماثلة القابلة لإعادة الاستخدام يمكن أن تكون قابلة للتطبيق على العديد من التطبيقات ذات الأغراض المختلفة عند استخدامها في مهام سير عمل مختلفة.

3- الأنظمة الأساسية

بناءً على احتياجات الغرض الذي يحركه التحكم وكمية البيانات والحوسبة المطلوبة لأداء هذا التطبيق يمكن استخدام منصات مختلفة للحوسبة والبيانات كجزء من عملية علم البيانات، ويجب أن تكون قابلية التوسع هذه جزءًا من أي بنية لحلول علوم البيانات.

قد لا ينتج عن إجراء تحليل البيانات الاستكشافية الكثير من الانتباه وقد لا يؤدي بناء نموذج إلى نتائج أفضل من قواعد العمل الحالية المطبقة، ويجب أن يكون هناك عدم تناسق كبير بين المكاسب ويجب أن تكون كبيرة والتكاليف صغيرة لتنفيذ العملية، ومن هذا التباين يمكن أن تؤدي المشاريع التجريبية التجربة والخطأ إلى نتائج.

4- قابلية البرمجة

يتطلب التقاط عملية علم بيانات قابلة للتطوير مساعدة من لغات البرمجة وعلى سبيل المثال (R) والأنماط كـ (MapReduce)، كما أنّ الأدوات التي توفر الوصول إلى تقنيات البرمجة هذه هي المفتاح؛ لجعل عملية علم البيانات قابلة للبرمجة على مجموعة متنوعة من الأنظمة الأساسية.

5- فهم التسلسل الهرمي للذكاء الاصطناعي

إنّ بناء تدفق موثوق للبيانات يعد أمرًا أساسيًا لفعل أي شيء باستخدام البيانات، وفقط عندما تكون البيانات متاحة عندئذ يمكن استكشافها وتحويلها، وعندما يمكن استكشاف البيانات النظيفة بسهولة يمكن تحقيق فهم أفضل للعملاء، حيث تريد العديد من الشركات النتيجة التي يجلبها الذكاء الاصطناعي ولكن ليس لديها البنية التحتية المناسبة لتنفيذ التعلم الآلي.

مبدأ عمليات تقديم علم البيانات

يتم تنفيذ عمليات تقديم علم البيانات بواسطة الكمبيوتر لتوفير علم البيانات كخدمة (DSaaS) باستخدام التنبؤ بالبيانات في الوقت الفعلي، حيث يُسمح بتنفيذ الخوارزميات وإرسالها واستخدام مصادر بيانات الجهات الخارجية واستخدام المحاولات الفرعية لإنشاء تنبؤات بالبيانات، وهناك اتفاق واسع النطاق على أنّ التنبؤ وتحليلات البيانات التنبؤية أمران أساسيان لقدرة معظم الشركات.

تقوم الطريقة الآلية لتطوير النموذج التنبؤي أولاً بتنظيف البيانات وتستخدم خوارزمية لجعل كل مجال من كل سجل متسقًا ومتماسكًا ومنتجًا، ثم يتم إعطاء البيانات المسطحة الناتجة نسيجًا في الخطوة التالية بواسطة خوارزمية إثراء البيانات التي تستبعد الحقول التي لا تساهم في بناء النموذج التنبؤي، وتضيف حقولًا جديدة محسوبة من مجموعات البيانات التي تم اختبارها لإضافة قيمة إلى الخطوات اللاحقة التي تبني أنواعًا مختلفة من النماذج التنبؤية.

كما تستخدم عملية ملفات تعريف الكيانات الخاصة بها خوارزمية أخرى تستفيد بشكل كبير من البيانات النظيفة والمثيرة للغاية ويتم بعد ذلك تقديم النماذج التنبؤية بهم، كمستندات لغة ترميز نموذجية تنبؤية قابلة للتسليم في خطوة أخيرة يتم تنفيذها بواسطة خوارزمية متخصصة.

ملاحظة:“DSaaS” هي اختصار لـ “data science as a service”.

تطور عمليات تقديم علم البيانات

يمكن أن يستخدم التعلم الآلي تقنيات مختلفة، حيث يجب استخراج الهياكل المماثلة من مجموعة عينات ثانية من نفس مصدر البيانات، وتوفر الطريقة التي يتم تنفيذها بواسطة الكمبيوتر ذكاء اصطناعيًا وخدمة التعلم الآلي التي يتم تقديمها عند الطلب لمستهلكي خدمة المستخدم وعملائهم والمستخدمين الآخرين من خلال خوادم الشبكة.

يتم تنفيذ الطرق عادةً باستخدام خوارزميات خاصة يتم تنفيذها بواسطة جهاز كمبيوتر ويتم تسليمها إلى وسائط تخزين غير انتقالية لمقدمي الخدمة ومستهلكي خدمة المستخدم، والذين يبيعون الخدمة أو يستخدمونها بأنفسهم بعد ذلك.

ويمكن للمستخدمين الذين يحتاجون من حين لآخر أو حتى بشكل منتظم إلى الذكاء الاصطناعي وتقنيات التنبؤ بالتعلم الآلي، الحصول على خدمات علوم البيانات الأساسية المطلوبة على السحابة من مزود مناسب، بدلاً من تثبيت الأجهزة المتخصصة وصيانة البرامج الخاصة بهم.

عمليات تقديم علم البيانات الرقمية

تعتمد القيمة الرقمية التي سيتم استخدامها كبديل على أي إشارات أو تفضيلات تم تعيينها لاستخدام القيمة الافتراضية أو المتوسط ​​أو الحد الأدنى أو الحد الأقصى أو القيمة الخالية، ويتم إعطاء بيانات النمذجة نسيجًا جديدًا ومضخمًا؛ لتعزيز وإثراء وتركيز البيانات المأخوذة من العينات أو غير المستندة إلى عينات المخزنة في سجلات البيانات المسطحة باستخدام جهاز لتنفيذ خوارزمية إثراء البيانات.

كما تتم عملية حذف البيانات التي قد تكون موجودة في حقول بيانات معينة والتي تكون أقل أهمية لبناء النماذج التنبؤية، وتتم إزالة حقول البيانات بأكملها والتي تم تحديدها مسبقًا لتكون غير مفيدة لبناء نماذج تنبؤية جيدة تتبع ذلك.

كما تجمع أي بيانات لديها في حقول بيانات جديدة تم تحديدها مسبقًا لتكون أكثر أهمية لبناء مثل هذه النماذج التنبؤية، ويقوم بتحويل النص بجهاز لتنفيذ خوارزمية تعديل السياق ثم تحول مجموعة من النتائج من تنفيذ هذه الخوارزميات إلى مجموعة من سجلات البيانات المخصّصة، والتي يتم تخزينها بشكل جماعي في آلية تخزين يمكن قراءتها آليًا.

المصدر: Introducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionFoundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: