خصائص أنواع البيانات وتقسيماتها المختلفة

اقرأ في هذا المقال


يجب عدم الخلط بين أنواع البيانات وبين نوعي البيانات الذان يشار إليهما مجتمعين ببيانات العميل أي بيانات الكيان وبيانات الأحداث، ولتعريف خصائص الأحداث وخصائص الكيانات بشكل صحيح هناك حاجة إلى فهم جيد لأنواع البيانات ويجب أن تحتوي خطة التتبع المحددة جيدًا على نوع البيانات لكل خاصية لضمان دقة البيانات ومنع فقدان البيانات.

ما هي خصائص أنواع البيانات

الشيء الوحيد التي تفعله خطة التتبع هو معالجة البيانات من القراءات التناظرية ثم التحويل الرقمي إلى أي نوع آخر من المدخلات المعطاة لها، وللمعالجة الصحيحة يجب تحويل البيانات المدخلة إلى نوع من البيانات التي تتوافق مع متطلبات الخوارزمية التي تحل المشكلة والتي يتم تحويلها إلى برنامج كمبيوتر عن طريق ترميزها إلى بعض لغات البرمجة.

لا يوجد برنامج كمبيوتر يمكنه حل شيء ما دون اللجوء إلى نوع من البيانات، وداخليًا يعالج الكمبيوتر كل شيء في نوع من البيانات الثنائية وهي ليست أكثر من طريقة لتمثيل الأرقام، والتي مجمعة ضمن مجموعة معينة من القواعد تمثل البيانات المعروضة من وجهة نظر المبرمج على أنها تنتمي إلى نوع ما من بيانات.

البيانات اليوم موجودة في كل مكان وفي كل مجال، سواء كنت عالم بيانات أو مسوقًا أو رجل أعمال أو محلل بيانات أو باحثًا أو كنت تعمل في أي مهنة أخرى، فأنت بحاجة إلى اللعب أو تجربة البيانات الأولية أو المنظمة وهذه البيانات مهمة جدًا لدرجة أنه من المهم التعامل معها وتخزينها بشكل صحيح دون أي خطأ، وأثناء العمل على هذه البيانات من المهم معرفة أنواع البيانات لمعالجتها والحصول على النتائج الصحيحة.

هناك شكلان من البيانات وهما: البيانات النوعية والكمية والتي يتم تصنيفها بشكل أكبر إلى أربعة أنواع من البيانات اسمية وترتيبية ومنفصلة ومستمرة، وتعمل الآن الأعمال على البيانات وتستخدم معظم الشركات البيانات في رؤيتها لإنشاء الحملات وإطلاقها واستراتيجيات التصميم، وإطلاق المنتجات والخدمات أو تجربة أشياء مختلفة، ووفقًا لتقرير يتم اليوم إنتاج ما لا يقل عن (2.5 كوينتيليون بايت) من البيانات يوميًا.

الهدف من تعدد أنواع البيانات

  • تحدد أنواع البيانات نوع المعلومات التي يمكن إدخالها في حقل قاعدة البيانات عند إضافة السجلات.
  • يعني إعداد متغير كنوع بيانات معين أنه مهما كانت القيمة التي يتم تعيينها له لاحقًا، يجب أن يكون متوافقًا مع القواعد التي يفرضها نوع البيانات، ولا يمكن أن تحتوي الأعداد الصحيحة على أحرف، بينما لا يمكن أن تحتوي القيم المنطقية على أي شيء آخر غير نعم ولا القيم.
  • الغرض من أنواع البيانات في لغات البرمجة عالية المستوى هو إظهار البرنامج نوع المحتوى الذي يمكن أن يتوقعه ويمكن أيضًا استخدامها لاختبار ما إذا كان متغير معين يحتوي على نوع من المحتوى (مثل حرف خاص).

ما هي تقسيمات أنواع البيانات حسب أهميتها

قد تتساءل عن سبب أهمية معرفة جميع أنواع البيانات هذه عندما تكون مهتمًا بشكل أساسي بفهم كيفية الاستفادة من بيانات العملاء وهناك سبب رئيسي واحد فقط لجمع بيانات نظيفة ومتسقة، ونوع البيانات هو وسيلة لتصنيف نوع القيمة التي يمتلكها المتغير وسيحدد نوع البيانات أيضًا العمليات والإجراءات المنطقية أو الرياضية أو المترابطة، التي يمكن تنفيذها عليها ويعمل نوع البيانات كسمة ترشد الكمبيوتر إلى كيفية تفسيرها:

1- البيانات العددية أو البيانات الكمية

تتضمن البيانات الكمية أو العددية أشياء مثل: قياسات الجسم وفواتير الهاتف الشهرية، وإذا حاولت أخذ متوسط ​​الأرقام أو ترتيبها بترتيب تصاعدي أو تنازلي فستعرف أن البيانات رقمية، وهناك نوعان من المعلومات العددية منفصلة ومستمرة:

  • في حالة البيانات المنفصلة يتم تمثيل المعلومات بواسطة “أعداد صحيحة” أي أرقام بدون أية منازل عشرية.
  • في حالة البيانات المستمرة يتم تمثيل القيم كأعداد صحيحة كاملة (أو بتمثيلاتها العشرية).

2- البيانات النوعية أو البيانات الفئوية

يتم استخدام تحديد الصفات لتصنيف البيانات، والبيانات الفئوية هي المعلومات التي تحدد الفئات عادةً، وتساعد البيانات الفئوية نموذج التعلم الآلي في تسريع معالجة البيانات من خلال تصنيف الأشخاص أو المفاهيم ذات الصفات المماثلة، ولمزيد من تحليل المعلومات النوعية قد يتم تقسيمها إلى فئتين وهي؛ الاسمية والترتيبية:

  • البيانات التي ليس لها قيمة عددية أو ترتيبية تسمى البيانات الاسمية، حيث لا يوجد نمط يمكن تمييزه لهذه البيانات والتي تحتوي بدلاً من ذلك على أرقام عشوائية موزعة على عدة فئات.
  • يتم تقديم الأرقام في البيانات الترتيبية بشكل مفيد مثل الترتيب الطبيعي بناءً على موضعها على مقياس.
  • كما إنّ البيانات الاسمية تفتقر إلى أي ترتيب بينما البيانات الترتيبية تفتقر إلى ذلك، ولا يمكن استخدام البيانات الترتيبية إلا لرؤية التسلسلات وبالتالي فهي عديمة الفائدة للأغراض الإحصائية، ولا يمكن إجراء أي عمليات حسابية على هذه البيانات لكنّها مفيدة لأغراض المراقبة مثل قياس رضا العملاء وما إلى ذلك.

3- البيانات النصية

عند تدريب نماذج التعلم الآلي يتكون إدخال النص من أي شيء من كلمة واحدة إلى مقالة كاملة، حيث يحتوي على مواد نصية مكونة من العديد من الكلمات التي يكون لها معنى عند أخذها معًا، وإنّ إدراك أنّ كل كلمة يمكن أن يكون لها العديد من المعاني والارتباطات مع الكلمات الأخرى، بالإضافة إلى استيعاب السياق الأكبر والروابط بين الكلمات المختلفة داخل العبارة وهو الصفة الأكثر أهمية.

4- بيانات السلاسل الزمنية

يتم تقديم هذه البيانات كقائمة من نقاط البيانات المتسلسلة ذات الطابع الزمني، وتستخدم التواريخ والأوقات كفهارس في بيانات السلاسل الزمنية، وفي الغالبية العظمى من الوقت يتم جمع هذه المعلومات بانتظام وإنّ امتلاك فهم قوي لكيفية استخدام بيانات السلاسل الزمنية يجعل من السهل مقارنة المعلومات على مدى فترات مختلفة، مثل: الأسابيع أو الأشهر أو السنوات.

5- البيانات على شكل جدول

  • هذا يعني تجميع المعلومات من العديد من المصادر.
  • تتضمن المعلومات المجدولة عدة أعمدة أو خصائص تمثل نوع بيانات فريد.

6- البيانات المنظمة

هناك تنسيقان محتملان لهذه المعلومات وهي الأرقام والكلمات، حيث يمكن تعيين قيم عددية لنوع البيانات المنظمة ولكن لا يمكن استخدامها في الحسابات الرياضية، وغالبًا ما يتم تقديم البيانات من هذا النوع في شكل جدول ومكان شائع للاحتفاظ بهم في قاعدة البيانات المترابطة.

7- البيانات غير المهيكلة

تشير البيانات غير المهيكلة إلى المعلومات التي يجب تنظيمها بعناية بطريقة معينة، ويتضمن كلمات على الصفحة وموسيقى وصور وأفلام وما إلى ذلك.

8- بيانات الفاصل الزمني

يتم ترتيب بيانات الفاصل الزمني البيانات الرقمية مع (0) يشير إلى النقص الكامل لأي قيمة عددية، وفي هذا السياق لا يشير الصفر إلى الفراغ بل له بعض القيمة، وإنّه نطاق صغير إلى حد ما ودرجة الحرارة هي درجات مئوية والوقت بالساعات والدقائق ودرجات (SAT) ودرجات الائتمان ومستويات الأس الهيدروجيني، وغيرها.

9- بيانات النسبة

على غرار بيانات الفاصل الزمني فقط مع الصفر المطلق، كما يمكن استخدام نوع البيانات الكمية هذا لتخزين الأرقام، بحيث يشير الصفر إلى الغياب التام ويبدأ المقياس من الصفر.

10- بيانات الصورة

تحتوي الصور على معلومات مهمة لا يمكن استخلاصها إلّا من خلال تحليل جوانبها واتصالاتها المكانية، الشكل الشائع لهذه المعلومات هو ملفات الصور بتنسيقات مختلفة.

11- بيانات الفيديو

تجعل مقاطع الفيديو بتنسيقات مختلفة هذا النوع من المعلومات بنفس الطريقة التي تشرح نفسها بنفسها، حيث تتمثل إحدى الميزات التي تميز بيانات الفيديو عن بعضها في الحاجة إلى حساب الروابط بين الإطارات في الفيديو، فيما يتعلق بالموقع وحركة الأشياء أو الأشخاص وما إلى ذلك لاستخراج المعلومات بشكل فعال من الأفلام، وفيما يلي بعض مجموعات بيانات التعلم الآلي الأكثر استخدامًا والمتاحة اليوم:

  • البحث من خلال مجموعات بيانات (Google).
  • أصدر قسم البحث والتطوير في (Microsoft) البيانات.
  • مستودع مجموعات بيانات التعلم الآلي في (UCI).

المصدر: Foundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First Edition Data Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: