خصائص ومزايا تصوير البيانات Data Visualization

اقرأ في هذا المقال


يُعد تصور البيانات مهمًا في كل جانب من جوانب علم البيانات، حيث يجب علينا تصفية البيانات قبل القيام بأي تصور ويجب أن نختار الأداة أو البرنامج المناسب الذي يلبي الاحتياجات، مثل: القدرة على تحمل التكاليف وسهولة الاستخدام، حيث يتمثل التحدي الرئيسي في تصور البيانات في اختيار نوع الطريقة الصحيحة وهذا يعتمد على عوامل كثيرة.

ما هي عملية تصوير البيانات

1. الحصول على إنشاء البيانات الخاصة

الخطوة الأولى هي جمع البيانات، حيث يمكن استخدام مجموعات البيانات الحالية إذا كانت ذات صلة بسؤال البحث الخاص، وبدلاً من ذلك يمكن تنزيل مجموعات البيانات مفتوحة المصدر من الإنترنت أو القيام بالبحث عبر الويب لجمع البيانات.

2. تهيئة البيانات

بيانات العالم الحقيقي فوضوية، لذلك تحتاج إلى تصفيتها قبل استخدامها في التصور، كما يمكن تحديد القيم الناقصة والقيم المتطرفة ومعالجتها وفقًا لذلك، ويمكن إجراء اختيار الميزة وإزالة الميزات غير الضرورية من البيانات، وكما يمكن إنشاء مجموعة جديدة من الميزات بناءً على الميزات الأصلية.

3. اختيار نوع الرسم البياني

يعتمد نوع الرسم البياني على العديد من العوامل، وعلى سبيل المثال يعتمد ذلك على نوع الميزة (عددية أو فئوية)، كما يعتمد أيضًا على نوع التصور الذي تحتاجه، وفي الميزتان الرقميتان إذا تم العثور على توزيعاتها فيمكنك إنشاء مدرج تكراري لكل معلم، أمّا إذا تم رسمهم في أشكال مختلفة فيمكن إنشاء مخططات مربعة وخطوط لكل ميزة، ويمكنك إنشاء مخطط مبعثر إذا كان هناك علاقة بين الميزتين.

4. اختيار الأداة

يمكنك استخدام أدوات تصور البيانات مفتوحة المصدر مثل (matplotlib)، كما يمكن أيضاً استخدام البرامج القائمة على (API) مثل (SPSS) وما إلى ذلك.

ملاحظة:“API” هي اختصار لـ “Application Programming Interface”.

ملاحظة:“SPSS” هي اختصار لـ “Statistical Package for the Social Sciences”.

5- تجهيز البيانات

  • يمكنك استخراج الميزات ذات الصلة، حيث يمكن القيام بتوحيد الميزات إذا لم تكن قيم المعالم على نفس المقياس.
  • يمكن تطبيق خطوات المعالجة المسبقة للبيانات مثل (PCA) لتقليل أبعاد البيانات.
  • سيسمح ذلك بتصور البيانات عالية الأبعاد في مؤامرات ثنائية وثلاثية الأبعاد.

ملاحظة:“PCA” هي اختصار لـ “Principal component analysis”.

6. إنشاء مخطط

هذه هي الخطوة النهائية، حيث يتم تحديد عنوان وأسماء المحاور، وكما يجب أيضًا اختيار خلفية مخطط مناسبة لضمان سهولة قراءة المحتوى.

الأدوات والبرامج المستخدمة في عملية تصوير البيانات

  • توفر لغة البرمجة (Python) مكتبات مفتوحة المصدر مثل: (Matplotlib) و(Seaborn) و(Plotty) و(Bokeh) و(Altair).
  • توفر لغة البرمجة (R) مكتبات مفتوحة المصدر مثل: (Ggplot2) و(Lattice).
  • مكتبات أخرى لتصور البيانات مثل: (IBM SPSS) وبرنامج (Minitab) وماتلاب لتصور البيانات و(Tableau) وكما يحظى (Microsoft Power BI) بشعبية كبيرة بين علماء البيانات.

ما هي التقنيات المستخدمة لتصوير البيانات في علم البيانات

1. تحليل التباين الأحادي

في تحليل التباين الأحادي كما يوحي الاسم تتم عملية التحليل بمتغير واحد فقط في كل مرة، وبمعنى آخر يتم تحليل كل متغير على حدة، وتعد المخططات الشريطية والمخططات الدائرية ومخططات المربعات والرسوم البيانية أمثلة شائعة لتصور البيانات أحادي المتغير، كما يتم إنشاء المخططات الشريطية والمخططات الدائرية للمتغيرات الفئوية بينما يتم إنشاء المخططات المربعة والمدرج التكراري للمتغيرات العددية.

2. تحليل التباين الثنائي

في تحليل التباين الثنائي تتم عملية تحليل متغيرين في وقت واحد، حيث غالبًا ما نرى ما إذا كانت هناك علاقة بين المتغيرين ومخطط التبعثر هو مثال كلاسيكي لتصور البيانات ثنائي التباين.

3. التحليل متعدد المتغيرات

في التحليل متعدد المتغيرات تتم عملية تحليل أكثر من متغيرين في وقت واحد، كما تُعد خريطة التمثيل اللوني مثالًا كلاسيكيًا لتصور البيانات متعدد المتغيرات، ومن الأمثلة الأخرى تحليل الكتلة وتحليل المكونات الرئيسية (PCA).

ما هي مزايا عملية تصوير البيانات

  • ضبط المعلمات الفائقة.
  • تحديد الاتجاهات والأنماط والارتباطات بين المتغيرات.
  • مراقبة أداء النموذج.
  • تنظيف البيانات
  • التحقق من صحة افتراضات النموذج.

ما هي عيوب عملية تصوير البيانات

  • تحتاج إلى تنزيل البرامج والمكتبات مفتوحة المصدر وتثبيتها وتكوينها، حيث ستكون العملية صعبة وتستغرق وقتًا طويلاً للمبتدئين.
  • بعض أدوات تصور البيانات غير متاحة مجانًا، بحيث يكون هناك حاجة لدفع ثمنها.
  • عندما تتم عملية تلخيص البيانات سيتم فقد المعلومات الدقيقة.

المهارات الأساسية اللازمة لعملية تصوير البيانات

1. البرمجة

يجب أن تكون على معرفة بلغة (R) أو (Python)، حيث تعتمد (R) عندما يتعلق الأمر بتصور البيانات، كما توفر مكتبة (ggplot2) وظائف عالية المستوى لإنشاء مخططات معقدة بأقل كود، ويمكن عمل تصور البيانات في (Python) باستخدام مكتبات ويمكن استخدام (bokeh) لتصورات البيانات التفاعلية.

2. خبرة في مجال البرمجيات

بالإضافة إلى استخدام لغات (R) أو (Python) يمكن استخدام برنامج تصور البيانات مثل (MATLAB) لتصور البيانات، كما أنّ تصور البيانات في (Excel) شائع أيضًا، ومع ذلك فإنّها توفر تخصيصات محدودة لكل طريقة وبالإضافة إلى ذلك لا يمكن أتمتة عملية إنشاء الطريقة كما يمكن القيام بذلك باستخدام (Python) أو (R).

3. مهارات علوم البيانات

يُعد تصور البيانات أحد مهارات علوم البيانات، ولكن من أجل تصور البيانات الفعال فهناك حاجة إلى مهارات أخرى في علوم البيانات، مثل: التحليل الإحصائي وتحسين البيانات ومعالجة مجموعات البيانات الكبيرة واستخراج البيانات وما إلى ذلك، ولا يمكن عمل تصور البيانات بمفرده حيث إنّها مجموعة من هذه المهارات.

4. استخدام خوارزميات التعلم الآلي

التعلم الآلي هو قدرة أجهزة الكمبيوتر على التعلم من البيانات دون أن تتم برمجتها بشكل صريح، حيث أنها مختلفة تمامًا عن البرمجة التقليدية، كما يمكن استخدام خوارزميات التعلم الآلي للعثور على أنماط وميزات مهمة في البيانات، وبعد ذلك يمكن تصور هذه الأشياء وهناك خوارزميات التعلم الآلي التي يمكن استخدامها لأداء تنظيف البيانات قبل تصور البيانات، والتعلم الآلي هو جزء من عملية تصور البيانات.

ما هي خصائص عملية تصوير البيانات

من السهل فهم وتحليل البيانات المقدمة من خلال العناصر المرئية، ممّا يتيح الاستخراج الفعال للرؤى القابلة للتنفيذ من البيانات، حيث يمكن لأصحاب المصلحة المعنيين بعد ذلك استخدام النتائج لاتخاذ قرارات أكثر كفاءة في الوقت الفعلي، مع وجود البيانات الضخمة هناك احتمال كبير لفرص كبيرة، ولكن العديد من بنوك التجزئة تواجه مشاكل عندما يرتبط الأمر بإيجاد قيمة في استثماراتها الضخمة في البيانات، وعلى سبيل المثال كيف يمكنهم استخدام البيانات الضخمة لتحسين العلاقات مع العملاء.

ونظرًا للطريقة التي يعالج بها الدماغ البشري المعلومات فإن استخدام المخططات أو الرسوم البيانية لتصور كميات كبيرة من البيانات المعقدة أسهل من التمرير في جداول البيانات أو التقارير، حيث يُعد تصور البيانات طريقة سريعة وسهلة لنقل المفاهيم بطريقة عالمية، ويمكن تجربة سيناريوهات مختلفة عن طريق إجراء تعديلات طفيفة، ويمكن لتصور البيانات أيضًا:

  • حدد المجالات التي تحتاج إلى الاهتمام أو التحسين.
  • وضح العوامل التي تؤثر على سلوك العميل.
  • تساعد على فهم المنتجات التي يجب وضعها في المكان.
  • توقع حجم المبيعات.

إنّ أدوات تصور البيانات التي تتضمن دعم تدفق البيانات وتكامل الذكاء الاصطناعي والتضمين والتعاون والاستكشاف التفاعلي وقدرات الخدمة التلقائية لتمثيل البيانات تسهل كيفية جمع وتحليل البيانات والحصول على النتائج.

المصدر: Introducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionFoundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: