مخطط درو كونواي لعلوم البيانات Drew Conway's Diagram

اقرأ في هذا المقال


يهدف علم البيانات إلى أشياء مختلفة لمختلف الأشخاص ولكن باختصار يستخدم علم البيانات البيانات للإجابة على الأسئلة وهذا التعريف هو تعريف واسع جدًا وذلك لأنّه يجب على المرء أن يقول أن علم البيانات مجال واسع بشكل معقول، علم البيانات هو علم تحليل البيانات الخام باستخدام الإحصائيات وتقنيات التعلم الآلي بهدف استخلاص استنتاجات حول تلك المعلومات.

ما هو مخطط درو كونواي لعلوم البيانات

مخطط درو كونواي لعلوم البيانات: هو مخطط (Venn) لعلوم البيانات يساعد الإحصائي الماهر في نمذجة مجموعات البيانات وتكثيفها والقدرة على إنشاء وتطبيق الخوارزميات لتخزين هذه البيانات ومعالجتها وتصورها بشكل فعال، وتتضمن المجالات الثلاثة في مخطط (Venn) لعلوم البيانات المعرفة الموضوعية وقدرات القرصنة وخبرة الرياضيات والإحصاءات، تُستخدم مخططات فين التي تسمى أيضًا مخططات المجموعة أو الرسوم البيانية المنطقية على نطاق واسع في الرياضيات والإحصاء والمنطق والتدريس واللغويات وعلوم الكمبيوتر والأعمال، والغرض من مخطط فين وفوائده:

  • لتنظيم المعلومات بشكل مرئي لمعرفة العلاقة بين مجموعات العناصر مثل: القواسم المشتركة والاختلافات، ويمكن للطلاب والمهنيين استخدامها للتفكير من خلال المنطق الكامن وراء المفهوم وتصوير العلاقات من أجل الاتصال المرئي، ويمكن أن يتراوح هذا الغرض من الابتدائية إلى المتقدمة للغاية.
  • لمقارنة خيارين أو أكثر ورؤية ما هو مشترك بينهما بوضوح وما قد يميزهما، قد يتم ذلك لاختيار منتج أو خدمة مهمة للشراء.
  • لحل المسائل الرياضية المعقدة.
  • لمقارنة مجموعات البيانات والبحث عن الارتباطات وتوقع احتمالات حدوث بعض الأحداث.
  • للتفكير من خلال المنطق وراء العبارات أو المعادلات مثل المنطق المنطقي وكيف يتم تجميعها.

كيفية عمل مخطط فين لدرو كونواي

1. استخدام مهارات البرمجة

الجزء الأول من علم البيانات هو الترميز، والترميز مطلوب لعلم البيانات لجمع البيانات، والبيانات في كل مكان ويمكن العثور عليه في العديد من مواقع الويب والتطبيقات، وفي بعض الأحيان يكون لهذه البيانات تنسيق مختلف أو يجب استخراجها من مكان ما وهذا هو المكان الذي يأتي فيه التشفير، التشفير مطلوب لاستخراج البيانات وإعداد البيانات.

يستخدم الترميز “التشفير” أيضًا لبناء نموذج تنبؤ من البيانات، حيث غالبًا ما يتم إنشاء نموذج التنبؤ بواسطة عالم بيانات للنظر في البصيرة والتنبؤ بالبيانات المتاحة التالية، وأدوات بناء نموذج التنبؤ هي (Scikit-Learn) ولغة البرمجة الأكثر شيوعًا لعلوم البيانات هي: (Python) و(R) و(SQL) مطلوبة أيضًا لقاعدة البيانات، لذلك تُعد مهارات الترميز جزءًا رئيسيًا من علم البيانات لمعالجة البيانات وجمعها وبناء نموذج تنبؤ لاكتساب رؤية واضحة.

2. استخدام الرياضيات والإحصاء

الرياضيات هي أساس كل ما يتعلق بالتكنولوجيا، والرياضيات هي أيضًا أساس الإحصاء بحيث تلعب الإحصائيات دورًا مهمًا في معالجة البيانات، كما تمنحك الرياضيات والإحصاء الاحتمالية والتوزيع والانحدار وما إلى ذلك، وهذا مفيد للحصول على نظرة ثاقبة للبيانات قبل إنشاء نموذج تنبؤ، وتعتبر الرياضيات والإحصاء مفيدة للغاية في النظر إلى نوع البيانات والمعالجة المسبقة للبيانات وهندسة الميزات ويمكن استخدامها لمعرفة مشكلة البيانات وهذا هو السبب في أهمية الرياضيات والمعرفة الإحصائية لعلوم البيانات.

3. تطبيق مجال المعرفة أو الخبرة الموضوعية

معرفة المجال مثل المعرفة حول مجال معين، حيث تُعد معرفة المجال مفيدة جدًا لعلوم البيانات لأنه في بعض الأحيان توجد أشياء معينة لا يمكن تنفيذ علم البيانات بسبب السبب الميداني، وهذه مشكلة إذا استخدمنا علم البيانات دون معرفة المجال لأننا يمكن أن نحصل على استنتاج خاطئ لرؤى ثاقبة حول البيانات.

في معرفة المجال يجب أن تعرف الهدف والأساليب وأيضًا قيود المجال قبل أن تبدأ في تنفيذ نموذج علم البيانات أو التعلم الآلي بحيث أنّ الهدف من معرفة المجال في علم البيانات هو أن النموذج أو البصيرة يمكن تنفيذها جيدًا في هذا المجال، لذلك تُعد معرفة المجال ذات قيمة كبيرة لعلوم البيانات لعملية التنفيذ.

كيفية استخدام البيانات في مخطط فين لدرو كونواي

بمجرد جمع البيانات وتنظيفها فإنّ الخطوة التالية هي الحصول على نظرة ثاقبة منها، وللقيام بذلك تحتاج إلى استخدام أساليب رياضية وإحصائية مناسبة، والتي تتطلب على الأقل معرفة أساسية بهذه الأدوات، هذا لا يعني أن درجة الدكتوراه في الإحصاء مطلوبة لتكون عالِم بيانات ماهرًا، ولكنها تحتاج إلى فهم ما هو انحدار المربعات الصغرى العادي وكيفية تفسيره.

أمّا الخبرة الموضوعية وفقًا لـ (Drew Conway)، فإنّ “البيانات بالإضافة إلى الرياضيات والإحصاءات تمنحك التعلم الآلي فقط” وهو أمر ممتاز إذا كان هذا هو ما تهتم به ولكن ليس إذا كنت تمارس علم البيانات، والعلم يدور حول التجريب وبناء المعرفة الأمر الذي يتطلب بعض الأسئلة المحفزة حول العالم والفرضيات، والتي يمكن طرحها على البيانات واختبارها باستخدام الأساليب الإحصائية.

من ناحية أخرى إنّ الخبرة الموضوعية والمعرفة في الرياضيات والإحصاء هي المكان الذي يقع فيه الحد الأقصى للباحثين التقليديين، ويستخدم الباحثون على مستوى الدكتوراه معظم وقتهم في اكتساب الخبرة في هذه المجالات لكنّ القليل جدًا من الوقت لاكتساب التكنولوجيا، وجزء من هذا هو ثقافة الأوساط الأكاديمية التي لا تعوض الباحثين عن معرفة التكنولوجيا.

المهارات المطلوبة لفهم مخطط فين

بمساعدة دورات علوم البيانات يمكن لأي شخص تعلم المهارات الرياضية ومهارات القرصنة والخبرة الموضوعية كما هو موضح في أرباع الرسم التخطيطي، ويساعد علماء البيانات الشركات في تطوير وإنتاج ومعالجة التحليلات الثاقبة والتعلم الآلي والبحث التقليدي ومنطقة الخطر هي بعض المجالات في مخطط فين لعلوم البيانات التي تتضمن الترابط بين هذه المهارات:

1. تعلم لغة الآلة

يتطلب التعلم الآلي وفقًا لمخطط (Venn) لعلوم البيانات معرفة ببرمجة الكمبيوتر والرياضيات ولكن ليس خبرة في المجال، وهذا يعني أنّه يمكنك ببساطة إدخال بياناتك في النموذج دون معرفة أي شيء عنها، مثل ماهية البيانات.

2. استخدام البحوث التقليدية

يمثل هذا القسم معرفتك بالرياضيات والإحصاء وكونك خبيرًا في مجالك لكنك لا تعرف الترميز أو البرمجة، ومع ذلك فهذه ليست مشكلة رئيسية في هذه الحالة لأنّ البيانات المستخدمة في البحث التقليدي منظمة للغاية، ونتيجةً لذلك يتم إعداد البيانات لأن البيانات جاهزة للتحليل، حيث يعمل البحث التقليدي على تبسيط مهمتك من خلال السماح لك بالتركيز بالكامل على تحليل البيانات واستخراج الأفكار منه.

يمكن أيضًا وصف مجالات المعرفة الثلاثة من حيث الكفاءات الأساسية والحدس والصلاحية والأتمتة، والارتقاء هو مصطلح آخر للأتمتة بحيث يتم اكتساب رؤية أفضل نتيجة تقاربهم، كما قد تنتج البصيرة أيضًا من الشعور الجيد الأتمتة ليست شرطًا أساسيًا وتُعد أتمتة جمع البيانات ومعالجتها وتحليلها مكونًا رئيسيًا في ضجة التحليلات المتقدمة في الوقت الحالي.

3. تفسير منطقة Danger Zone

كما يوحي الاسم فهي أخطر منطقة في مخطط (Venn) لعلوم البيانات، وتجمع (Danger Zone) بين الترميز والمعرفة بالمجال ولكنها تفتقر إلى الرياضيات والإحصاء، ويمكن للإحصائيين الذين يمكنهم كتابة التعليمات البرمجية ومهارات العمل الأساسية وكذلك رجال الأعمال الذين لديهم معرفة بالبرمجة والرياضيات أن يجربوا أيديهم في (Data Science).

في مخطط فين لدرو كونواي إنّ البيانات هي الجزء الأساسي في علم البيانات، والبيانات هي سلعة يتم تداولها إلكترونيًا والقدرة على إدارة الملفات النصية في سطر الأوامر وتعلم العمليات الموجهة والتفكير حسابيًا، وهي مهارات القرصنة التي تؤدي إلى اختراق ناجح لقرصنة البيانات.

المصدر: Introducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionFoundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: