ما هي طرق ومصادر جمع البيانات لتحليلها

اقرأ في هذا المقال


جمع البيانات هو عملية الحصول على كميات ضخمة من البيانات وجمعها واستخراجها وتخزينها والتي قد تكون في شكل منظم أو غير منظم مثل: النص أو الفيديو أو الصوت أو ملفات (XML) أو السجلات أو ملفات الصور الأخرى، المستخدمة في المراحل اللاحقة من البيانات التحليلات.

كيفية جمع البيانات المختلفة لتحليلها

تُعرف البيانات التي يتم جمعها بالبيانات الخام التي لا تفيد الآن، ولكن في عملية تنظيف البيانات تستخدم تلك البيانات لمزيد من المعلومات، تُعرف المعلومات التي تم الحصول عليها باسم “المعرفة” والمعرفة لها معاني كثيرة والهدف الرئيسي من جمع البيانات هو جمع البيانات الغنية بالمعلومات.

يبدأ جمع البيانات بطرح بعض الأسئلة مثل نوع البيانات التي سيتم جمعها وما هو مصدر التجميع، ومعظم البيانات التي تم جمعها هي من نوعين معروفين باسم “البيانات النوعية”، وهي مجموعة من البيانات غير العددية مثل: الكلمات والجمل تركز في الغالب على سلوك وأفعال المجموعة، والآخر هو “البيانات الكمية” وهي في شكل نماذج ويمكن حسابها باستخدام أدوات علمية مختلفة وبيانات أخذ العينات.

كما ستكون بعض البيانات موجودة في أشكال الوسائط المتعددة مثل الصور أو الصوت، وهذه موجودة كما هي في المجلدات وبالنسبة لهذا النوع من البيانات، تُستخدم مكتبات مثل (OpenCV) لقراءة الصورة وتحويلها إلى مصفوفة ويتم تحويل الصوتيات بشكل عام إلى صورة مخطط طيفي والتي تعود مرة أخرى إلى مشكلة معالجة الصورة.

ملاحظة:“XML” هي اختصار لـ “Extensible Markup Language”.

مصادر جمع البيانات المختلفة لتحليلها

جوهر علم البيانات هو البيانات، وجميع عمليات صنع القرار تعتمد على البيانات في العالم الحالي مما يجعل البيانات واستخدامها عنصرًا مهمًا في المؤسسات، ومن تحليل البيانات الصحية في الساعات الذكية إلى التيرابايت التي تساوي تحليلات البيانات الضخمة، فإنّ البيانات لها عامل رئيسي في اتخاذ قرارات الأعمال، ولكن مع تغير السيناريو يتغير وسيط التخزين وطريقة البيانات ومن المهم معرفة كيفية استخدام طرق التخزين هذه لاستخراج البيانات وتحليلها، ثم يتم تقسيم البيانات الفعلية بشكل أساسي إلى نوعين معروفين باسم:

أولاً: البيانات الأولية

تُعرف البيانات الأولية والأصلية والمستخرجة مباشرة من المصادر الرسمية بالبيانات الأولية، حيث يتم جمع هذا النوع من البيانات مباشرة من خلال تقنيات الأداء مثل الاستبيانات والمقابلات والاستطلاعات، كما يجب أن تكون البيانات المجمعة وفقًا لطلب ومتطلبات الجمهور المستهدف الذي يتم إجراء التحليل عليه وإلا فسيكون ذلك عبء في معالجة البيانات، وهناك طرق قليلة لجمع البيانات الأولية:

1. طريقة المقابلة

البيانات التي تم جمعها خلال هذه العملية هي من خلال مقابلة الجمهور المستهدف من قبل شخص يسمى “المحاور” ويعرف الشخص الذي يجيب على المقابلة باسم الشخص الذي تمت مقابلته، كما يتم طرح بعض الأسئلة الأساسية المتعلقة بالعمل أو المنتج وتدوينها في شكل ملاحظات أو صوت أو فيديو ويتم تخزين هذه البيانات للمعالجة، ويمكن أن تكون منظمة وغير منظمة مثل: المقابلات الشخصية أو المقابلات الرسمية عبر الهاتف ووجهاً لوجه والبريد الإلكتروني وما إلى ذلك.

2. طريقة المسح

طريقة المسح هي عملية البحث، حيث يتم طرح قائمة بالأسئلة ذات الصلة ويتم تدوين الإجابات في شكل نص أو صوت أو فيديو ويمكن الحصول على طريقة الاستطلاع في كل من الوضع عبر الإنترنت وغير متصل، مثل: نماذج مواقع الويب والبريد الإلكتروني، ثم يتم تخزين إجابات الاستطلاع لتحليل البيانات، والأمثلة هي الاستطلاعات عبر الإنترنت من خلال استطلاعات الرأي على وسائل التواصل الاجتماعي.

3. طريقة الملاحظة

طريقة الملاحظة هي طريقة لجمع البيانات يراقب فيها الباحث عن كثب سلوك وممارسات الجمهور المستهدف باستخدام بعض أدوات جمع البيانات ويخزن البيانات المرصودة في شكل نص أو صوت أو فيديو أو أي تنسيقات أولية، وفي هذه الطريقة يتم جمع البيانات مباشرة عن طريق نشر بعض الأسئلة على المشاركين، وعلى سبيل المثال مراقبة مجموعة من العملاء وسلوكهم تجاه المنتجات وسيتم إرسال البيانات التي تم الحصول عليها للمعالجة.

4. الطريقة التجريبية

الطريقة التجريبية هي عملية جمع البيانات من خلال إجراء التجارب والبحث والتحقيق، وطرق التجربة الأكثر استخدامًا هي:

  • التصميم العشوائي بالكامل (CRD) هو تصميم تجريبي بسيط يستخدم في تحليلات البيانات والذي يعتمد على التوزيع العشوائي والتكرار ويستخدم في الغالب لمقارنة التجارب.
  • تصميم الكتلة العشوائية (RBD) هو تصميم تجريبي يتم فيه تقسيم التجربة إلى وحدات صغيرة تسمى الكتل، ويتم إجراء تجارب عشوائية على كل من الكتل، وويتم رسم النتائج باستخدام تقنية تُعرف باسم تحليل التباين (ANOVA).
  • تصميم (LSD) هو تصميم تجريبي مشابه لكتل (​​CRD) و(RBD) ولكنه يحتوي على صفوف وأعمدة، وإنّه ترتيب لمربعات (NxN) مع عدد متساوٍ من الصفوف والأعمدة التي تحتوي على أحرف تحدث مرة واحدة فقط على التوالي، ومن ثم يمكن العثور بسهولة على الاختلافات مع عدد أقل من الأخطاء في التجربة.
  • التصميم العاملي (FD)، هو تصميم تجريبي حيث تحتوي كل تجربة على عاملين لكل منهما قيم محتملة ويتم اشتقاق عوامل تجميعية أخرى عند تنفيذ المسار.

ملاحظة:“FD” هي اختصار لـ “Final Design”.

ملاحظة: “LSD” هي اختصار لـ “Latin Square Design”.

ملاحظة:“​​RBD” هي اختصار لـ “random block design”.

ملاحظة:“CRD” هي اختصار لـ “Completely random design”.

ثانيًا: البيانات الثانوية

البيانات الثانوية هي البيانات التي تم جمعها بالفعل وإعادة استخدامها مرة أخرى لغرض معين، كما يتم تسجيل هذا النوع من البيانات مسبقًا من البيانات الأولية وله نوعان من المصادر تسمى المصدر الداخلي والمصدر الخارجي.

1- المصدر الداخلي

يمكن العثور بسهولة على هذه الأنواع من البيانات داخل المنظمة مثل: سجل السوق وسجل المبيعات والمعاملات وبيانات العملاء والموارد المحاسبية وما إلى ذلك، وكما أنّ استهلاك التكلفة والوقت أقل في الحصول على المصادر الداخلية.

2- المصدر الخارجي

البيانات التي لا يمكن العثور عليها في المؤسسات الداخلية ويمكن الحصول عليها من خلال موارد خارجية هي بيانات مصدر خارجي، يكون استهلاك التكلفة والوقت أكثر لأنّ هذا يحتوي على كمية هائلة من البيانات، ومن الأمثلة على المصادر الخارجية المنشورات الحكومية والمنشورات الإخبارية ولجنة التخطيط ومكتب العمل الدولي والخدمات النقابية والمنشورات غير الحكومية الأخرى.

3- مصادر أخرى

  • بيانات المستشعرات، حيث مع تقدم أجهزة إنترنت الأشياء تجمع مستشعرات هذه الأجهزة البيانات التي يمكن استخدامها لتحليلات بيانات المستشعرات لتتبع أداء المنتجات واستخدامها.
  • بيانات الأقمار الصناعية، وتجمع الأقمار الصناعية الكثير من الصور والبيانات بالتيرابايت بشكل يومي من خلال كاميرات المراقبة التي يمكن استخدامها لجمع معلومات مفيدة.
  • حركة مرور الويب، نظرًا لمرافق الإنترنت السريعة والرخيصة يمكن التنبؤ بالعديد من تنسيقات البيانات التي يتم تحميلها من قبل المستخدمين على منصات مختلفة وجمعها بإذنهم لتحليل البيانات، وتوفر محركات البحث أيضًا بياناتها من خلال الكلمات الرئيسية والاستعلامات التي يتم البحث عنها في الغالب.

المصدر: Introducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionFoundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: