العمليات على البيانات وخصائصها

اقرأ في هذا المقال


تُعد القدرة على التنبؤ وقابلية الحساب والاستقرار (PCS) ثلاثة مبادئ أساسية لعلوم البيانات، ولقد قاموا بتضمين المبادئ العلمية للتنبؤ والنسخ المتماثل في صنع القرار المستند إلى البيانات مع الاعتراف بالدور المركزي للحساب، وبناءً على هذه المبادئ يهدف إطار عمل (PCS) إلى تحليل مسؤول وموثوق وقابل للتكرار وشفاف عبر مجالات العلوم والعلوم الاجتماعية والهندسة والأعمال والحكومة.

كيفية استخدام البيانات في علم البيانات

بناءً على مبادئ الإحصاء والتعلم الآلي والاستقصاء العلمي والتوسع في ذلك يعتمد إطار عمل قابلية التنبؤ والحساب والاستقرار (PCS) لعلوم البيانات الحقيقية، ويهدف إلى توفير نتائج مسؤولة وموثوقة وقابلة للتكرار وشفافة عبر دورة حياة علم البيانات، كما يستخدم سير عمل (PCS) إمكانية التنبؤ كتحقق من الواقع ويأخذ في الاعتبار أهمية الحساب في جمع أو تخزين البيانات وتصميم الخوارزمية.

كما إنّه يزيد من القدرة على التنبؤ والقابلية للحساب بمبدأ الاستقرار الشامل، ويتوسع الاستقرار في اعتبارات عدم اليقين الإحصائي لتقييم كيفية استدعاء القرار البشري لنتائج بيانات التأثير من خلال اضطرابات البيانات والنموذج أو الخوارزمية، وكجزء من سير عمل (PCS) نقوم بتطوير إجراءات استدلال (PCS)، وهي فترات اضطراب (PCS) واختبار فرضية (PCS) للتحقيق في استقرار نتائج البيانات المتعلقة بصياغة المشكلة وتنظيف البيانات وقرارات النمذجة والتفسيرات.

علم البيانات هو مجال من مجالات الأدلة التي تسعى إلى الجمع بين البيانات ومعلومات المجال لتوليد معرفة جديدة، حيث تبدأ دورة حياة علم البيانات (DSLC) بسؤال أو مشكلة مجال، وتستمر من خلال جمع وإدارة ومعالجة (تنظيف) واستكشاف ونمذجة وتفسير نتائج البيانات لتوجيه الإجراءات الجديدة، وبالنظر إلى الطبيعة متعددة التخصصات لهذه العملية يتطلب علم البيانات مشاركة بشرية من أولئك الذين يفهمون بشكل جماعي كل من المجال والأدوات المستخدمة لجمع البيانات ومعالجتها ونمذجتها.

تم استخدام العديد من الأفكار المضمنة في (PCS) على نطاق واسع في مختلف مجالات علم البيانات، وتلعب القدرة على التنبؤ دورًا مركزيًا في العلم من خلال قابلية التغيير (Popperian)، وإذا كان النموذج لا يتنبأ بدقة بالملاحظات الجديدة فيمكن رفضه أو تحديثه ويتم تبني القدرة على التنبؤ من قبل مجتمع التعلم الآلي، كهدف بحد ذاته وبشكل عام لتقييم جودة نموذج أو نتيجة بيانات.

يمتد دور الحساب إلى ما هو أبعد من التنبؤ، حيث يضع قيودًا على كيفية جمع البيانات وتخزينها وتحليلها ولعبت الحوسبة دورًا أساسيًا في تتبع علوم الكمبيوتر وصولًا إلى عمل (آلان تورينج) الأساسي حول قابلية حساب التسلسلات، حيث تم استخدام تحليلات التعقيد الحسابي منذ ذلك الحين لتقييم قابلية تتبع خوارزميات التعلم الآلي.

ملاحظة: “PCS” هي اختصار لـ “Predictability, computability, and stability”.

ما هي العمليات على البيانات

1- افتراضات الاستقرار

الهدف النهائي لـ (DSLC) هو توليد المعرفة المفيدة للإجراءات المستقبلية وسواء كانت تجربة بيولوجية أو قرار تجاري والاستقرار هو مفهوم مفيد لمعالجة ما إذا كان باحث آخر يتخذ قرارات بديلة ومناسبة سيحصل على استنتاجات مماثلة، حيث في مرحلة النمذجة تمت الدعوة مسبقًا إلى الاستقرار، ويشير الاستقرار إلى الاتساق المقبول لنتائج البيانات بالنسبة إلى الاضطرابات المناسبة في البيانات أو النموذج.

استدعاءات القرار قبل النمذجة تؤثر أيضًا على نتائج البيانات، حيث تعتمد صحة التحليل على افتراضات الاستقرار الضمني التي تسمح بمعالجة البيانات على أنّها تمثيل إعلامي لبعض الظواهر الطبيعية، وعندما لا تصمد هذه الافتراضات نادرًا ما تعمم الاستنتاجات على الأوضاع الجديدة ما لم يتم إثباتها تجريبياً بواسطة المعطيات المستقبلية.

وهذا يجعل تقييمات الاستقرار ضرورية للحماية من الإجراءات المستقبلية المكلفة والاكتشافات الخاطئة ولا سيما في العلوم والأعمال والسياسة العامة، حيث تُستخدم نتائج البيانات لتوجيه الإجراءات واسعة النطاق.

2- صياغة السؤال أو المشكلة

يبدأ (DSLC) بمشكلة مجال أو سؤال والذي يمكن أن يكون مدفوعًا بالفرضية أو قائمًا على الاكتشاف، وفي (DSLC) يجب ترجمة هذا السؤال إلى سؤال يتعلق بإخراج نموذج أو تحليل للبيانات التي يمكن قياسها أو جمعها، حيث غالبًا ما تكون هناك ترجمات متعددة لمشكلة المجال إلى مشكلة في علم البيانات.

ملاحظة:“DSLC” هي اختصار لـ “data science life cycle”.

3- جمع البيانات

للإجابة على سؤال المجال يقوم خبراء المجال وعلماء البيانات بجمع البيانات بناءً على المعرفة السابقة والموارد المتاحة، وعند استخدام هذه البيانات لتوجيه القرارات المستقبلية، يفترض الباحثون ضمنيًا أن البيانات ذات صلة بوقت مستقبلي ويفترضون أنّ الظروف التي تؤثر على جمع البيانات مستقرة، على الأقل بالنسبة لبعض جوانب البيانات.

على سبيل المثال إذا قامت مختبرات متعددة بجمع البيانات للإجابة على سؤال حول المجال فيجب أن تكون البروتوكولات قابلة للمقارنة عبر التجارب والمختبرات إذا كانوا يتوقعون الحصول على نتائج متسقة، وترتبط اعتبارات الاستقرار هذه ارتباطًا وثيقًا بالصلاحية الخارجية في البحث الطبي والتي تميز أوجه التشابه بين الأشخاص في الدراسة والموضوعات التي يأمل الباحثون في تعميم النتائج عليها.

4- تنظيف البيانات والمعالجة المسبقة

تساعد نماذج أو خوارزميات الإحصاء والتعلم الآلي علماء البيانات في الإجابة على أسئلة المجال، ويتطلب استخدام النماذج أو الخوارزميات تنظيف (معالجة مسبقة) للبيانات الخام في تنسيق مناسب، وعندما يقوم علماء البيانات بمعالجة البيانات فإنّهم يفترضون ضمنيًا أن اختياراتهم لا تؤدي عن غير قصد إلى تحيز المعلومات الأساسية في البيانات الأولية.

وبمعنى آخر يفترضون أن المعرفة المستمدة من البيانات مستقرة فيما يتعلق بخيارات المعالجة الخاصة بهم، وإذا كان هذا الافتراض لا يمكن تبريره فيجب عليهم استخدام طرق معالجة مناسبة متعددة وتفسير النتائج المستقرة عبر هذه الطرق، وقد دعا آخرون إلى تقييم النتائج عبر مجموعات البيانات المعالجة بدلاً من ذلك تحت اسم “تحليل الأكوان المتعددة”، وعلى الرغم من أن مبدأ الاستقرار قد تم تطويره بشكل مستقل عن هذا العمل إلّا أنه يؤدي بطبيعة الحال إلى تحليل نمط الأكوان المتعددة.

5- تحليل البيانات الاستكشافية

قبل مرحلة النمذجة وفي التحليلات اللاحقة ينخرط علماء البيانات في تحليل البيانات الاستكشافية (EDA) لتحديد العلاقات المثيرة للاهتمام في البيانات وتفسير النتائج، حيث عند استخدام التصورات أو الملخصات لتوصيل هذه التحليلات يُفترض ضمنيًا أن العلاقات أو النتائج مستقرة فيما يتعلق بأي قرارات يتخذها عالم البيانات.

6- الحوسبة

الحوسبة هي حارس بوابة علم البيانات، وإذا تعذر إنشاء البيانات وتخزينها وإدارتها وتحليلها بكفاءة وقابلية للتوسع فلا يوجد علم بيانات، حيث يعتمد العلم الحديث بشكل كبير على تكنولوجيا المعلومات كجزء من (DSLC) وتعتمد كل خطوة بدءًا من جمع البيانات الخام والتنظيف إلى بناء النماذج وتقييمها، على تقنية الحوسبة وتندرج ضمن قابلية الحوسبة بالمعنى الواسع وبالمعنى الضيق تشير القابلية الحاسوبية إلى الجدوى الحسابية للخوارزميات أو بناء النموذج، ويتم استخدام القابلية الحاسوبية والتي ترتبط ارتباطًا وثيقًا بظهور التعلم الآلي على مدى العقود الثلاثة الماضية.

كما تحدد الأدوات والتقنيات العلمية العمليات التي يمكن قياسها بشكل فعال، وتحدد موارد وتقنيات الحوسبة أنواع التحليلات التي يمكن إجراؤها وتُعد الحوسبة ضرورية لإجراء تحليلات القدرة على التنبؤ والاستقرار داخل إطار عمل (PCS)، كما يمكن أن تعمل القيود الحسابية أيضًا كجهاز للتنظيم، وعلى سبيل المثال يُستخدم أصل التدرج العشوائي على نطاق واسع لتحسين مشكلات التعلم الآلي، وله دور كل من العشوائية والإيقاف المبكر لخوارزمية التدرج العشوائي دور التنظيم الضمني.

نظرًا لمشكلة المجال والبيانات فإنّ الغرض من دورة حياة علم البيانات (DSLC) هو توليد المعرفة والاستنتاجات والإجراءات، بحيث يهدف إطار عمل (PCS) إلى علم البيانات الحقيقي من خلال المبادئ الأساسية.

المصدر: Introducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionFoundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: