كيفية الحصول على البيانات وفهمها

اقرأ في هذا المقال


في حين أنّ علم البيانات لا يُعد حديثاً فقد تعدلت المعاني الألفاظ بمرور الوقت، وظهرت الكلمة لأول مرة في الستينيات كمعنى أشمل للإحصاءات، وفي (1990s) قام متخصصو علوم الكمبيوتر بإضفاء الطابع الرسمي على المعنى ورأى المعنى المعتمد لعلوم البيانات أنه مجال مستقل بثلاثة جوانب تكوين البيانات وجمعها وتحليلها، ولا يزال استخدام المصطلح خارج الأوساط الأكاديمية يستغرق عقدًا آخر.

كيفية الحصول على البيانات من المصادر المختلفة

1. البحث عن البيانات في Google Dataset

يتم اللجوء إلى (Google) في كل شيء هذه الأيام، والبيانات ليست استثناء وحيث يتم إطلاق (Google Dataset Search) في عام (2018م) وهو يشبه محرك البحث القياسي من (Google)، ولكنه يتعلق بالبيانات بشكل صارم وعلى الرغم من أنّها ليست أفضل أداة إذا كنت تفضل التصفح، إلّا أنّه إذا كان لديك موضوع معين أو كلمة رئيسية معينة في الاعتبار فيجمع بحث (Google Dataset) البيانات من مصادر خارجية، ويقدم ملخصًا واضحًا لما هو متاح ووصفًا للبيانات والشخص الذي قدمها ووقت آخر تحديث لها وهو مكان ممتاز للبدء.

2. قاعدة البيانات Kaggle

مثل (Google Dataset Search)، تقدم (Kaggle) مجموعات بيانات مجمعة ولكنّها مركز مجتمعي بدلاً من محرك بحث، حيث تم إطلاق (Kaggle) في عام (2010م) بعدد من خوارزميات التعلم الآلي، وتطورت منذ ذلك الحين إلى منصة بيانات مفتوحة شهيرة تقدم تعاونًا قائمًا على السحابة لعلماء البيانات، بالإضافة إلى أدوات تعليمية لتدريس تقنيات الذكاء الاصطناعي وتحليل البيانات وبالإضافة إلى الكثير من مجموعات البيانات الرائعة التي تغطي تقريبًا أي موضوع يمكن تخيله.

3. قاعدة البيانات Datahub.io

الهدف من العديد من محللي البيانات هو المساعدة في اتخاذ قرارات العمل الذكية، وعلى هذا النحو قد يكون من المفيد التفكير في استخدام مجموعات البيانات الاقتصادية أو التجارية لمشروع محفظتك، بينما يغطي (Datahub) مجموعة متنوعة من الموضوعات من تغير المناخ إلى الترفيه، فإنّه يركز بشكل أساسي على مجالات مثل: بيانات سوق الأوراق المالية وأسعار العقارات والتضخم والخدمات اللوجستية، ونظرًا لأنه يتم تحديث العديد من البيانات على البوابة شهريًا أو حتى يوميًا فسيكون لديك دائمًا شيء جديد للعمل به بالإضافة إلى البيانات التي تغطي نطاقات زمنية واسعة.

4. بوابة البيانات المفتوحة CERN

توفر بوابة البيانات المفتوحة (CERN) الوصول إلى أكثر من اثنين بيتابايت من المعلومات، وعلى الرغم من أنّ أسماء مجموعات البيانات هذه معقدة جدًا إلا أن كل إدخال يحتوي على تقسيم مفيد لما تم تضمينه، بالإضافة إلى مجموعات البيانات ذات الصلة وكيفية القيام بتحليلها، وفي كثير من الحالات يقدمون عينة من التعليمات البرمجية للبدء.

كيفية الوصول إلى البيانات التقليدية

يتم تخزين البيانات التقليدية في أنظمة إدارة قواعد البيانات المترابطة، ومع ذلك قبل أن تكون جاهزة للمعالجة تمر جميع البيانات بالمعالجة المسبقة، وهذه مجموعة ضرورية من العمليات التي تحول البيانات الأولية إلى تنسيق أكثر قابلية للفهم وبالتالي يكون مفيدًا لمزيد من المعالجة، والعمليات الشائعة هي:

1- جمع البيانات الأولية وتخزينها على الخادم

هذه بيانات لم يمسها العلماء ولا يستطيع العلماء تحليلها على الفور ويمكن أن تأتي هذه البيانات من الاستطلاعات أو من خلال نموذج جمع البيانات التلقائي الأكثر شيوعًا مثل ملفات تعريف الارتباط على موقع ويب.

2- تصنيف الملاحظات

يتكون هذا من ترتيب البيانات حسب الفئة أو تسمية نقاط البيانات لنوع البيانات الصحيح، وعلى سبيل المثال العددية أو الفئوية.

3- تنقية البيانات

التعامل مع البيانات غير المتسقة مثل الفئات التي بها أخطاء إملائية والقيم المفقودة.

4- موازنة البيانات

إذا كانت البيانات غير متوازنة بحيث تحتوي الفئات على عدد غير متساوٍ من الملاحظات وبالتالي ليست تمثيلية فإنّ تطبيق طرق موازنة البيانات مثل استخراج عدد متساوٍ من الملاحظات لكل فئة وإعداد ذلك للمعالجة يعمل على حل المشكلة.

5- خلط البيانات

إعادة ترتيب نقاط البيانات للتخلص من الأنماط غير المرغوب فيها وتحسين الأداء التنبؤي بشكل أكبر، حيث يتم تطبيق ذلك على سبيل المثال إذا كانت أول (100) ملاحظة في البيانات من أول (100) شخص استخدموا موقعًا على شبكة الإنترنت، والبيانات ليست عشوائية وتظهر الأنماط بسبب أخذ العينات.

6- البيانات الضخمة في علم البيانات

عندما يتعلق الأمر بالبيانات الضخمة وعلوم البيانات هناك بعض التداخل في الأساليب المستخدمة في معالجة البيانات التقليدية ولكن هناك أيضًا الكثير من الاختلافات، وكما يتم تخزين البيانات الضخمة على العديد من الخوادم وهي أكثر تعقيدًا بلا حدود.

ما هي طريقة توفير علم البيانات

1- التحليلات السببية التنبؤية

  • إذا كان عالم البيانات يسعى إلى الحصول على نموذج يمكنه التنبؤ بإمكانيات حدث محدد في المستقبل فهناك حاجة إلى تطبيق التحليلات السببية التنبؤية.
  • يمكن بناء نموذج يمكنه إجراء تحليلات تنبؤية على سجل الدفع للعميل للتنبؤ بما إذا كانت المدفوعات المستقبلية ستتم في الوقت المحدد أم لا.

2- التحليلات الوصفية

إذا كان عالم البيانات يسعى إلى الحصول على نموذج يتمتع بذكاء ووضع قراراته الخاصة والقدرة على تعديله باعتماد معلمات ديناميكية فهناك بالتأكيد حاجة إلى تحليلات وصفية له، وهذا النطاق الحديث نسبيًا يدور حول تقديم القرارات للمساعدة وبمعنى آخر لا يتنبأ فقط بل يقترح مجموعة من الإجراءات الموصوفة والنتائج المرتبطة بها.

3- التعلم الآلي لعمل التنبؤات

إذا كان هناك بيانات معاملات لشركة مالية وهناك حاجة إلى تكوين نموذج لتحديد الاتجاه المستقبلي فإنّ خوارزميات التعلم الآلي هي أفضل طريقة، وهذا يقع تحت نموذج التعلم تحت الإشراف ويطلق عليه اسم “تابع للإشراف”؛ لأنّ هناك بالفعل البيانات التي يمكنك على أساسها تعديل الأجهزة، وعلى سبيل المثال يمكن تدريب نموذج الكشف عن الاحتيال باعتماد سجل تاريخي لعمليات الشراء الاحتيالية.

4- التعلم الآلي لاكتشاف الأنماط

إذا لم يكن هناك المعلمات التي يمكنك من خلالها عمل تنبؤات فهناك حاجة إلى اكتشاف الأنماط المخفية داخل مجموعة البيانات لتتمكن من عمل تنبؤات ذات مغزى، وهذا ليس سوى النموذج غير الخاضع للإشراف لأنّه ليس هناك أي تسميات محددة مسبقًا للتجميع والخوارزمية الأكثر شيوعًا المستخدمة لاكتشاف الأنماط هي (Clustering).

يُعد التعامل مع مثل هذا الكم الهائل من البيانات مهمة صعبة لكل مؤسسة، لذا للتعامل مع هذا الأمر ومعالجته وتحليله فقد احتجنا إلى بعض الخوارزميات والتقنيات المعقدة والقوية والفعالة، وقد ظهرت هذه التكنولوجيا إلى حيز الوجود كعلم بيانات، حيث بمساعدة تكنولوجيا علوم البيانات يمكن تحويل الكمية الهائلة من البيانات الأولية وغير المهيكلة إلى رؤى مناسبة.

كما يتم اختيار تقنية علوم البيانات من قبل العديد من الشركات سواء كانت علامة تجارية كبيرة أو شركة ناشئة وتستخدم (Google) و(Amazon) و(Netflix) وغيرها، التي تتعامل مع كمية هائلة من البيانات وخوارزميات علوم البيانات لتحسين تجربة العملاء، ويعمل علم البيانات على أتمتة النقل وهي مستقبل النقل ويمكن أن يساند علم البيانات في تنبؤات مختلفة.

علم البيانات عبارة عن مزيج من المعدات والخوارزميات ومبادئ التعلم الآلي المتنوعة بهدف اكتشاف الأنماط الغير ظاهرة من البيانات الأولية، وعادةً ما يشرح محلل البيانات ما يجري من خلال معالجة محفوظات البيانات ويتم استخدام أيضًا العديد من خوارزميات التعلم الآلي المتقدمة لتحديد حدوث حدث معين في المستقبل.

المصدر: Introducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionFoundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: