علم البيانات هو أحد المجالات المتنامية، ولقد أصبح جزءًا مهمًا من كل قطاع تقريبًا وهو يوفر أفضل الحلول التي تساعد على مواجهة تحديات الطلب المتزايد باستمرار والمستقبل القابل للصيانة، ونظراً لأنّ أهمية علم البيانات تتزايد يومًا بعد يوم فإن الحاجة إلى عالم البيانات تتزايد أيضًا.

 

ما هي البيانات Data

 

البيانات (Data): هي أنواع مختلفة من المعلومات يتم تنسيقها عادةً بطريقة معينة، وتنقسم جميع البرامج إلى فئتين رئيسيتين هي البرامج والبيانات، والبرامج عبارة عن مجموعات من الإرشادات المستخدمة لمعالجة البيانات.

 

يتم اعتماد علم البيانات لتسهيل العمل مع البيانات، ويتم تعريف علم البيانات على أنّه مجال يجمع بين المعرفة بالرياضيات ومهارات البرمجة وخبرة المجال والأساليب العلمية، والخوارزميات والعمليات والأنظمة لاستخراج المعرفة والأفكار القابلة للتنفيذ من كل من البيانات المنظمة وغير المنظمة، ثم تطبيق المعرفة المأخوذة من تلك البيانات إلى مجموعة واسعة من الاستخدامات والمجالات.

 

أنواع البيانات المستخدمة في علم البيانات

 

  • البيانات الكمية (Quantitative data).

 

  • البيانات النوعية (Qualitative data).

 

  • البيانات الاسمية (Nominal data).

 

  • البيانات الترتيبية (Ordinal data).

 

  • البيانات المنفصلة (Discrete data).

 

  • البيانات المستمرة (Continuous Data).

 

أدى النمو في مجال التكنولوجيا وتحديداً في الهواتف الذكية إلى تضمين النصوص والفيديو والصوت ضمن البيانات بالإضافة إلى سجلات نشاط الويب ومعظم هذه البيانات تكون غير منظمة، كما يستخدم مصطلح البيانات الكبيرة في تعريف البيانات لوصف البيانات الموجودة في نطاق بيتابايت أو أعلى، وتوصف البيانات الضخمة أيضًا بأنّها تتضمن خمسة معايير وهي التنوع والحجم والقيمة والصدق والسرعة.

 

في الوقت الحاضر انتشرت التجارة الإلكترونية المستندة إلى الويب على نطاق واسع وتطورت نماذج الأعمال القائمة على البيانات الضخمة وهي تتعامل مع البيانات كأصل بحد ذاته، وهناك العديد من فوائد البيانات الضخمة أيضًا مثل: خفض التكاليف وزيادة الكفاءة وتحسين المبيعات وما إلى ذلك، كما نما معنى البيانات إلى ما هو أبعد من معالجة البيانات في مجال تطبيقات الكمبيوتر، وبناءً على ذلك فإنّ التمويل والتركيبة السكانية والصحة والتسويق لها أيضًا تعريفات مختلفة للبيانات.

 

كيف يتم تخزين البيانات في علم البيانات

 

تمثل أجهزة الكمبيوتر البيانات مثل: النصوص والصور والصوت والفيديو كقيم ثنائية تستخدم رقمين: (1 و0)، حيث أنّ أصغر وحدة من البيانات تسمى “بت” وهي تمثل قيمة واحدة، وبالإضافة إلى ذلك يبلغ طول البايت ثمانية بتات، كما تُقاس الذاكرة والتخزين بوحدات مثل: الميجابايت والجيجابايت والتيرابايت والبيتابايت والإكسابايت.

 

يواصل علماء البيانات التوصل إلى قياسات بيانات أحدث وأكبر مع استمرار نمو كمية البيانات التي يولدها المجتمع، ويمكن تخزين البيانات في تنسيقات ملفات باستخدام أنظمة حاسب مركزي مثل: (ISAM) و(VSAM) على الرغم من وجود تنسيقات ملفات أخرى لتحويل البيانات ومعالجتها وتخزينها، مثل القيم المفصولة بفواصل.

 

تُستخدم تنسيقات البيانات هذه حاليًا عبر مجموعة واسعة من أنواع الماكينات وعلى الرغم من اكتساب المزيد من الأساليب الموجهة نحو البيانات المنظمة موطئ قدم أكبر في عالم تكنولوجيا المعلومات اليوم، كما شهد مجال تخزين البيانات تطورًا أكبر في التخصص، حيث ظهرت قاعدة البيانات ونظام إدارة قواعد البيانات ومؤخرًا تقنية قواعد البيانات العلائقية (relational database technology)، وقد ظهر كل منها لأول مرة وقدم طرقًا جديدة لتنظيم المعلومات.

 

ملاحطة: “ISAM” هي اختصار لـ “Indexed Sequential Access Method”.

ملاحطة: “VSAM” هي اختصار لـ “Virtual Storage Access Method”.

 

كيفية معالجة البيانات في علم البيانات

 

يتم تعريف معالجة البيانات على أنّها إعادة ترتيب أو إعادة هيكلة البيانات من قبل الأشخاص أو الآلات لزيادة فائدتها وإضافة قيمة لوظيفة أو غرض معين، وتتكون معالجة البيانات القياسية من ثلاث خطوات أساسية وهي: الإدخال والمعالجة والإخراج، حيث تشكل هذه الخطوات الثلاث معًا دورة معالجة البيانات.

 

1- الإدخال

 

يتم إعداد بيانات الإدخال للمعالجة في شكل مناسب يعتمد على الجهاز الذي يقوم بالمعالجة.

 

2- المعالجة

 

بعد ذلك يتم تغيير نموذج بيانات الإدخال إلى شيء أكثر فائدة.

 

3- الإخراج

 

في الخطوة الأخيرة يتم جمع نتائج المعالجة كبيانات مخرجات، مع شكلها النهائي اعتمادًا على الغرض الذي يتم استخدامها من أجله.

 

كيفية استخدام البيانات في علم البيانات

 

يدور علم البيانات حول تجربة البيانات الأولية أو المنظمة، والبيانات هي الوقود الذي يمكن أن يقود الأعمال إلى المسار الصحيح أو على الأقل تقديم رؤى قابلة للتنفيذ، يمكن أن تساعد في وضع إستراتيجيات للحملات الحالية وتنظيم إطلاق منتجات جديدة بسهولة أو تجربة تجارب مختلفة.

 

كل هذه الأشياء لها عنصر قيادة مشترك واحد وهو البيانات ونحن ندخل في العصر الرقمي، حيث ننتج الكثير من البيانات، وبعبارات بسيطة البيانات هي سجل منهجي للمعلومات الرقمية المسترجعة من التفاعلات الرقمية كحقائق وأرقام، حيث تعمل أنواع البيانات الإحصائية بمثابة نظرة ثاقبة للتنبؤات المستقبلية وتحسين الخدمات الموجودة مسبقًا.

 

كما ساعد التدفق المستمر للبيانات ملايين المؤسسات على تحقيق النمو بقرارات مدعومة بالحقائق، وكذلك البيانات عبارة عن سجل ضخم للمعلومات مقسمة إلى فئات مختلفة؛ للحصول على أنواع مختلفة وجودة وخصائص البيانات وتسمى هذه الفئات أنواع البيانات.

 

وكما تعتبر الأعداد الكسرية قيمًا مستمرة، حيث يمكن أن تأخذ هذه شكل تردد تشغيل المعالجات وإصدار (android) للهاتف وتردد (wi-fi) ودرجة حرارة النوى وما إلى ذلك، وعلى عكس أنواع البيانات المنفصلة في البحث مع قيمة كاملة وثابتة، يمكن تقسيم البيانات المستمرة إلى أجزاء أصغر ويمكن أن تأخذ أي قيمة.

 

هناك دائمًا بيانات، والبيانات هي أساس علم البيانات، حيث إنّها المادة التي تستند إليها جميع التحليلات وفي سياق علم البيانات هناك نوعان من البيانات وهي البيانات التقليدية والبيانات الضخمة:

 

  • البيانات التقليدية، وهي البيانات التي يتم تنظيمها وتخزينها في قواعد البيانات التي يمكن للمحللين إدارتها من جهاز كمبيوتر واحد؛ حيث إنّه بتنسيق جدول يحتوي على قيم رقمية أو نصية وفي الواقع مصطلح “تقليدي” هو شيء نقدمه للتوضيح، ويساعد في التأكيد على التمييز بين البيانات الضخمة وأنواع البيانات الأخرى.

 

  • من ناحية أخرى، فإنّ البيانات الضخمة أكبر من البيانات التقليدية، سواء من التنوع أي الأرقام والنصوص ولكن أيضًا الصور والصوت وبيانات الجوال وما إلى ذلك إلى السرعة ويتم استردادها وحسابها في الوقت الفعلي إلى الحجم (تقاس بالتيرا والبيتا وإكسا بايت)، فإنّ البيانات الضخمة هي عادةً ما يتم توزيعها عبر شبكة من أجهزة الكمبيوتر.

 

إنّ جميع أنواع البيانات المختلفة لها مكانة حاسمة في الإحصاء والبحث وعلوم البيانات، حيث تعمل أنواع البيانات بشكل مناسب معًا على بناء عملية صنع القرار الناجحة القائمة على البيانات.