اقرأ في هذا المقال
- ما المقصود بإعداد البيانات Data Science Preparation
- ما هي خطوات إعداد البيانات لاستخراج البيانات
- ما هي عملية استكشاف علوم البيانات
إنّ (80%) من وقت وجهد عالم البيانات يتم قضاؤه في جمع البيانات وتحسينها وإعدادها للتحليل لأنّ مجموعات البيانات تأتي بأحجام مختلفة في طبيعتها، حيث من المهم للغاية لعالم البيانات إعادة تشكيل مجموعات البيانات وصقلها إلى مجموعات بيانات قابلة للاستخدام، والتي يمكن الاستفادة منها في التحليلات.
ما المقصود بإعداد البيانات Data Science Preparation
تكشف الإحصائيات أنّ معظم وقت عالم البيانات يقضيه في إعداد البيانات أي التجميع والتصفية والتنظيم قبل أن يتمكن من القيام في تحليل البيانات، حيث هناك العديد من مهام علوم البيانات القيمة مثل استكشاف البيانات وتصور البيانات وما إلى ذلك، ولكن يُشار إلى إعداد البيانات أيضًا باسم اندفاعات البيانات أو معالجة البيانات أو ترتيب البيانات.
كما يعتمد مقدار الوقت اللازم لإعداد البيانات لمشكلة تحليل معينة بشكل مباشر على صحة البيانات أي مدى اكتمالها وعدد القيم المفقودة هناك ومدى صفائها وما هي التناقضات، ويمكن أن تكون نتائج التحليل التنبؤي لعالم البيانات جيدة مثل البيانات التي يتم بتجميعها، كما يُعد إعداد البيانات خطوة حيوية في عملية علم البيانات لأي رؤى قيمة تنبثق.
هناك بيتابايت من البيانات المتاحة ولكن معظمها ليس بتنسيق سهل الاستخدام للتحليل التنبؤي، حيث تضمن مرحلة تحسين البيانات أو إعدادها لعملية علم البيانات تنسيقها بشكل جيد، وتلتزم بمجموعة محددة من القواعد، وجودة البيانات هي العامل الدافع لعملية علم البيانات والبيانات الخالية من الأخطاء مهمة لبناء نماذج تعلم آلي ناجحة لأنّها تعزز أداء ودقة النموذج.
كما يقوم علماء البيانات بتقييم الملاءمة والجودة لتعيين ما إذا كان يمكن إجراء أي تحسينات على مجموعة البيانات لتحقيق النتائج المطلوبة، وعلى سبيل المثال قد يكتشف عالم البيانات أنّ القليل من نقاط البيانات تحيز نموذج التعلم الآلي نحو نتيجة معينة، وهذا يساعدهم على إنشاء مرشح لمعالجة هذا الموقف.
كما يمكن أن تعمل البيانات السيئة أو الجودة الرديئة للبيانات إلى تغيير دقة الرؤى أو قد تؤدي إلى رؤى غير صحيحة، وهذا هو سبب أهمية إعداد البيانات أو تصفيتها على الرغم من أنّها تحتاج وقتًا طويلاً في عملية استخراج البيانات.
ما هي خطوات إعداد البيانات لاستخراج البيانات
1- اختيار البيانات
الخطوة الأولى والأكثر أهمية في مهمة إعداد البيانات التي تتعامل مع تصحيح البيانات غير المتسقة هي ملء القيم الضائعة وتحسين البيانات الغامضة، حيث قد يكون هناك العديد من الصفوف في مجموعة البيانات التي لا تحتوي على قيمة للسمات محل الاهتمام، أو قد تكون هناك بيانات غير متسقة أو سجلات مكررة أو بعض الأخطاء العشوائية الأخرى، بحيث يتم التعامل مع جميع مشكلات جودة البيانات هذه في الخطوة الأولى لإعداد البيانات.
يتم التعامل مع القيم المفقودة بطرق متنوعة اعتمادًا على المتطلبات إمّا عن طريق تجاهل المجموعة أو ملء القيمة المفقودة بالقيمة المتوسطة للسمة، أو باستعمال ثابت عالمي أو بعض التقنيات الأخرى مثل شجرة القرار، ويتم معالجة البيانات المزعجة يدويًا أو من خلال تقنيات الانحدار أو التجميع المختلفة.
2- تكامل البيانات
تتضمن خطوة تكامل البيانات تكامل المخطط وحل تعارضات البيانات إنّ وجدت ومعالجة التكرار في البيانات.
3- تحويل البيانات
تتطلب هذه الخطوة إزالة أي ضوضاء من البيانات والتسوية والتجميع والتعميم.
4- تقليل البيانات
قد يحتوي مستودع البيانات على بيتابايت من البيانات ويمكن أن يكون تشغيل التحليل على البيانات الكاملة الموجودة في المستودع عملية تستغرق وقتًا طويلاً، حيث في هذه الخطوة يحصل علماء البيانات على تمثيل أقل لمجموعة البيانات وهو أصغر حجمًا ولكنه ينتج عنه نتائج التحليل نفسها تقريبًا، كما يتوفر هناك العديد من طرق تقليل البيانات التي يمكن لعالم البيانات تطبيقها، بناءً على تقليل أبعاد المتطلبات وتجميع مكعب البيانات وتقليل العدد.
5- تقدير البيانات
تحتوي مجموعة البيانات عادةً على (3) أشكال من السمات وهي: “مستمر واسمي وترتيبي”، حيث تقبل بعض الخوارزميات السمات الفئوية فقط، وتساعد خطوة تقدير البيانات عالم البيانات في تقسيم السمات المستمرة إلى فترات، وكما تساعد أيضًا في تقليل حجم البيانات أي إعدادها للتحليل.
ما هي عملية استكشاف علوم البيانات
في عملية الاستكشاف تتم مراجعة البيانات الأولية عادةً بمجموعة من مهام سير العمل اليدوية وتقنيات استكشاف البيانات الآلية؛ لاستكشاف مجموعات البيانات بصريًا والبحث عن مجالات التشابه والأنماط والقيم المتطرفة وتحديد العلاقات بين المتغيرات المختلفة، ويشار إلى هذا أيضًا أحيانًا باسم تحليل البيانات الاستكشافية، وهو أسلوب إحصائي يستخدم لتحليل مجموعات البيانات الخام بحثًا عن خصائصها العامة.
لماذا يُعتبر استكشاف البيانات مهمًا
البشر متعلمون بصريون وقادرون على معالجة البيانات المرئية بسهولة أكبر من البيانات الرقمية، وبالتالي يصعب على علماء البيانات مراجعة آلاف صفوف نقاط البيانات واستنتاج المعنى دون مساعدة، حيث تساعد أدوات وعناصر تصور البيانات، مثل: الألوان والأشكال والخطوط والرسوم البيانية والزوايا في الاستكشاف الفعال للبيانات الوصفية ممّا يتيح اكتشاف العلاقات أو الحالات الشاذة.
ما هي الصناعات التي تستخدم عملية استكشاف البيانات
يمكن لأي شركة أو صناعة تجمع البيانات أو تستخدمها الاستفادة من استكشاف البيانات، حيث تشمل بعض الصناعات المشتركة تطوير البرمجيات والرعاية الصحية والتعليم، وكما تمكّن تقنيات التصور المتقدمة التي يستخدمها استكشاف البيانات وأدوات ذكاء الأعمال الشركات، وأصحاب المصلحة من فهم مقاييس الأداء بشكل أفضل عن طريق جعل البيانات الأولية أكثر قابلية للفهم وإنشاء تلخيص حولها.
من خلال تصور الأنماط وإيجاد القواسم المشتركة في تدفقات البيانات المعقدة يمكن أن يساعد استكشاف البيانات المؤسسات على اتخاذ قرارات تعتمد على البيانات لتبسيط العمليات، واستهداف جمهورها المثالي بشكل أفضل وزيادة الإنتاجية وتحقيق عوائد أكبر.
ما هي أفضل لغات وأدوات لاستكشاف البيانات
أكثر الطرق الإحصائية انشاراً في استكشاف البيانات هي لغة البرمجة (R) و(Python)، وكلاهما لغات تحليل بيانات متاحة المصدر، في حين أنّ (R) هي الأفضل للتحليل الإحصائي فإنّ (Python) أكثر علاقةً بخوارزميات التعلم الآلي.
أمّا أدوات استكشاف البيانات فهي تعمل على تسهيل تقديم تحليل البيانات وفهمها من خلال العناصر التفاعلية والمرئية ممّا يسهل مشاركة الأفكار الأساسية وتوصيلها، وتتضمن أدوات استكشاف البيانات برامج تصور البيانات ومنصات ذكاء الأعمال مثل: (Microsoft Power BI) و(Qlik) و(Tableau).
ويمكن أن تتضمن أدوات استكشاف البيانات مفتوحة المصدر المتاحة أيضًا وظائف الانحدار وتوصيف البيانات وقدرات التصور، ممّا يمكّن الشركات من دمج مصادر بيانات متنوعة ومتباينة لاستكشاف البيانات بشكل أسرع وتتضمن بعض الأدوات الشائعة مفتوحة المصدر، مثل: (Knime) و(OpenRefine) و(NodeXL) و(Pentaho) و(R program) و(RapidMiner).
يتم تطوير العديد من الأساليب والتقنيات لإعداد البيانات واستكشاف البيانات هو الخطوة الأولى في تحليل البيانات، والتي تنطوي على استعمال أدوات تصور البيانات والتقنيات الإحصائية للكشف عن خصائص مجموعة البيانات والأنماط الأولية.