كيفية تمثيل وتصوير البيانات في علوم البيانات

اقرأ في هذا المقال


الهدف الرئيسي من تمثيل البيانات هو بناء نماذج تفهم البيانات وتجد الأنماط الأساسية، حيث للقيام بذلك من المهم جدًا تغذية البيانات بطريقة يمكن تفسيرها بواسطة الكمبيوتر، ولإدخال البيانات في نموذج يجب تمثيلها كجدول أو مصفوفة للأبعاد المطلوبة، ويُعد تحويل البيانات إلى النموذج الجدولي الصحيح إحدى الخطوات الأولى قبل أن تبدأ المعالجة المسبقة بشكل صحيح.

ما هي عملية تمثيل البيانات

تُعرف عملية جمع البيانات وتحليل تلك البيانات بكميات كبيرة بالإحصاءات، وهو فرع من فروع الرياضيات يتعامل مع جمع وتحليل وتفسير وعرض الحقائق والأرقام العددية، وهو بيان رقمي يساعد في جمع وتحليل البيانات بكميات كبيرة وتستند الإحصائيات إلى مفاهيمها البيانات الإحصائية والعلوم الإحصائية، كما يجب التعبير عن الإحصائيات عدديًا ويجب جمعها بشكل منهجي.

طرق تمثيل البيانات

تشير كلمة البيانات إلى تكوين الأشخاص والأشياء والأحداث والأفكار، ويمكن أن يكون عنوانًا أو عددًا صحيحًا وبعد جمع البيانات يتعين على المحقق تكثيفها في شكل جدول لدراسة ميزاتها البارزة، ويُعرف هذا الترتيب باسم عرض البيانات، يشير إلى عملية تكثيف البيانات المجمعة في شكل جدول أو بيانيًا، حيث يُعرف ترتيب البيانات هذا باسم تمثيل البيانات، ويمكن وضع الصف بترتيب مختلف كما يمكن تقديمه بترتيب تصاعدي أو تنازلي أو يمكن تقديمه بترتيب أبجدي.

1- شريط الرسم البياني

يساعد المخطط الشريطي على تمثيل البيانات التي تم جمعها بصريًا، حيث يمكن تصور البيانات المجمعة أفقيًا أو رأسيًا في مخطط شريطي مثل الكميات والترددات، وكما يمكن أن تكون مجمعة أو مفردة وتساعد في مقارنة العناصر المختلفة، ومن خلال النظر إلى جميع الأشرطة من السهل تحديد الأنواع الموجودة في مجموعة البيانات التي تؤثر على الأخرى.

2- المدرج التكراري

المدرج التكراري هو التمثيل الرسومي للبيانات، وإنّه مشابه لظهور الرسم البياني الشريطي ولكن هناك فرق كبير بين المدرج التكراري والرسم البياني الشريطي؛ لأن ّالرسم البياني الشريطي يساعد في قياس تكرار البيانات الفئوية، وتعني البيانات الفئوية أنها تستند إلى فئتين أو أكثر مثل الجنس والأشهر وما إلى ذلك وفي حين يتم استخدام المدرج التكراري للبيانات الكمية.

3- الرسم البياني الخطي

يُعرف الرسم البياني الذي يستخدم الخطوط والنقاط لتقديم التغيير في الوقت بـ “الرسم البياني الخطي”، ويمكن أن تستند الرسوم البيانية الخطية إلى زيادة عدد سكان العالم يومًا بعد يوم وتدل الرسوم البيانية الخطية عن التغييرات التي تحدث عبر العالم بمرور الوقت، وفي الرسم البياني الخطي يمكن معرفة نوعين أو أكثر من التغييرات التي تحدث حول العالم.

ما المقصود بتصوير البيانات Data Visualization

تصوير البيانات (Data Visualization): هو عملية إنشاء تمثيلات رسومية للبيانات لأغراض مختلفة، كما تُعرف هذه التمثيلات الرسومية عمومًا بالمخططات في مصطلحات علم البيانات.

هناك العديد من الأسباب لتصوير البيانات في علم البيانات، وتشمل مزايا تصوير البيانات توصيل النتائج ومراقبة أداء النموذج في مرحلة التقييم، وضبط المعلمة الفائقة وتحديد الاتجاهات والأنماط والارتباط بين ميزات مجموعة البيانات وتنقية البيانات مثل: الكشف الخارجي والتحقق من صحة افتراضات النموذج.

ما الذي يجعل عملية تصوير البيانات فعالة

  • الوضوح: حيث يجب تصوير البيانات بطريقة يمكن للجميع فهمها.
  • مجال المشكلة: حيث عند تقديم البيانات يجب أن تكون التصويرات مرتبطة بمشكلة العمل.
  • التفاعل: كما تُعد المخططات التفاعلية مفيدة لمقارنة وإبراز أشياء معينة داخل الحبكة.
  • قابلية المقارنة: يمكن مقارنة البيانات بسهولة مع الطرق الجيدة.
  • الجماليات: حيث تُعتبر المخططات عالية الجودة جميلة بصريًا.

أهمية تصوير البيانات في علم البيانات

1. تصفية البيانات

يلعب تصوير البيانات دورًا مهمًا في فحص البيانات، ومن الأمثلة الجيدة اكتشاف القيم المتطرفة وإزالة العلاقات الخطية المتعددة، كما يمكن إنشاء مخططات مبعثرة لاكتشاف القيم المتطرفة وإنشاء خرائط حرارية للتحقق من الخطية المتعددة.

2. استكشاف البيانات

قبل إنشاء أي نموذج هناك حاجة إلى إجراء بعض تحليلات البيانات الاستكشافية لتحديد خصائص مجموعة البيانات، حيث يمكن إنشاء رسوم بيانية للمتغيرات المستمرة للتحقق من الحالة الطبيعية في البيانات ويمكن إنشاء مخططات مبعثرة بين ميزتين للتحقق ممّا إذا كانا مرتبطين أم لا، وبالمثل يمكن إنشاء مخطط شريطي لعمود التسمية مع فئتين أو أكثر لتحديد عدم توازن الفئة.

3. تقييم مخرجات النمذجة

يمكن إنشاء مصفوفة التشوش ومنحنى التعلم لقياس أداء النموذج أثناء التدريب، والمخططات مفيدة أيضًا في التحقق من صحة افتراضات النموذج، وعلى سبيل المثال يمكن إنشاء مخطط للقيم المتبقية ومدرج تكراري لتوزيع القيم المتبقية للتحقق من صحة افتراضات نموذج الانحدار الخطي.

4. تحديد الاتجاهات

تعد المخططات الزمنية مفيدة في تحليل السلاسل الزمنية لتحديد اتجاهات معينة بمرور الوقت.

5. عرض النتائج

بصفتك عالم بيانات ستحتاج إلى تقديم النتائج إلى الشركة أو الأشخاص الآخرين ذوي الصلة الذين ليس لديهم المزيد من المعرفة في مجال الموضوع ويمكنك استخدام مخططات غنية بالمعلومات لتلخص النتائج.

أنواع عملية تصوير البيانات في علم البيانات

1. مخطط التوزيع

يتم استخدام مخطط التوزيع لتصور توزيع البيانات، ومثال على ذلك، مخطط التوزيع الاحتمالي أو منحنى الكثافة.

2. مخطط القيم الربعية

تُستخدم هذه الطريقة لرسم تباين قيم السمة العددية، حيث يمكن الحصول على القيم الربعية الدنيا والقصوى المتوسطة وكذلك الدنيا والعليا.

3. مخطط الثبوت

تُستخدم مخططات الثبوت لرسم تباين ميزة عددية، ولكنّها تحتوي على منحنى كثافة النواة ويقدر منحنى كثافة النواة التوزيع الأساسي للبيانات.

4. المخططات الخطية

يتم إنشاء مخطط الخط عن طريق توصيل سلسلة من نقاط البيانات بخطوط مستقيمة، وعدد الفترات على المحور (X).

5. مخطط الشريط

  • يتم استخدام مخطط الشريط لرسم تواتر حدوث البيانات الفئوية، حيث يتم تمثيل كل فئة بواسطة شريط.
  • يمكن إنشاء الأشرطة عموديًا أو أفقيًا، بحيث أنّ ارتفاعاتهم أو أطوالهم متناسبة مع القيم التي تمثلها.

6. مخططات التبعثر

يتم إنشاء مخططات التبعثر لمعرفة ما إذا كانت هناك علاقة (خطية أو غير خطية وموجبة أو سالبة) بين متغيرين عدديين، ويتم استخدامها بشكل شائع في تحليل الانحدار.

7. الرسم البياني

يمثل الرسم البياني توزيع البيانات الرقمية، وبالنظر إلى الرسم البياني يمكن أن يظهر ما إذا كانت القيم موزعة بشكل طبيعي (منحنى على شكل جرس)، أو منحرفة إلى اليمين أو منحرفة إلى اليسار ويُعد الرسم البياني للقيم مفيدًا للتحقق من صحة الافتراضات المهمة في تحليل الانحدار.

8. المخطط الدائري

يتضمن المخطط الدائري المتغير الفئوي قيم كل فئة كشرائح تتناسب أحجامها مع الكمية التي تمثلها، حيث إنّه رسم بياني دائري مصنوع من شرائح مساوية لعدد الفئات.

9. مخطط المنطقة

يعتمد مخطط المنطقة على المخطط الخطي، ويتم الحصول على مخطط المساحة عندما نغطي المنطقة الواقعة بين الخط والمحور (x).

يمكن أن يعمل تقديم البيانات بالطريقة الصحيحة على فهم العمليات المعقدة وتحديد الاتجاهات وتمثيل البيانات هو أسلوب لتحليل البيانات الرقمية، ويتم توضيح العلاقة بين الحقائق والأفكار والمعلومات والمفاهيم في رسم تخطيطي عبر تمثيل البيانات.

المصدر: Introducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionFoundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: