البيانات الضخمة Big Data:
هي عبارة عن مجموعة من البيانات التي تعتبر بحجم هائل، فهي تفوق بذلك قدرة برامج قواعد البيانات العادية على معالجتها وتحليلها، ليتم نقلها بعد ذلك وتخزينها، حيث يتم إدارتها و تحليلها في غضون فترات زمنية قصيرة لهذا الحجم الهائل من البيانات؛ و من وجهة نظر مقدمي الخدمات، هي الأدوات والعمليات التي تحتاجها المنظمات للتعامل مع كمية كبيرة من البيانات لغرض التحليل. فهي بذلك بيانات هائلة لا يمكن معالجتها بالطرق التقليدية في ظل القيود، وتعمل البيانات الضخمة الآن كمساعد حقيقي وفعال فى معالجة أهم القضايا التي تواجه البشرية.
ما هي مصادر البيانات الضخمة؟
تتوفر هناك الكثير من مصادر البيانات الضخمة منها المصادر الناتجة عن إدارة أحد البرامج، سواء كانت هذه البرامج حكومية أو غير حكومية، ومن ذلك السجلات الطبية الإلكترونية، والتي تشمل مجموع الزيارات للمستشفيات وسجلات التأمين، وكذلك السجلات المصرفية وبنوك الطعام وغيرها. وأما المصادر التجارية أو ذات الصلة بالمعاملات، فإنها تُعد مصدراً آخر كالبيانات الناشئة عن معاملات بين كيانين، على سبيل المثال معاملات البطاقات الائتمانية والمعاملات التي تجرى عن طريق الإنترنت بوسائل منها الأجهزة المحمولة.
كما أن هناك مصادر معتمدة على تقنيات إنترنت الأشياء التي تشمل جميع الأجهزة التي يمتلكها المستخدمين، وكما تشمل بذلك شبكات أجهزة الاستشعار وأجهزة التتبع، فعلى سبيل المثال، التصوير بالأقمار الصناعية، وأجهزة استشعار الطرق، وأجهزة استشعار المناخ وتتبع البيانات المستمدة من الهواتف الذكية، والنظام العالمي لتحديد المواقع وغيرها، حيث يمكن أن تكون أحد مصادر البيانات الضخمة.
وهناك نوع آخر من المصادر وهو المعتمد على سلوك المستخدم مثل مرات البحث على الإنترنت عن منتج أو خدمة معينة، أو أي نوع آخر من المعلومات، ومرات مشاهدة إحدى الصفحات على الإنترنت، وأخيرا، مصادر البيانات المتعلقة بالآراء مثل التعليقات على وسائط التواصل الإجتماعي مثل فيسبوك وتويتر وغيرها.
تقنيات البيانات الضخمة:
يتوفر هناك العديد من الأدوات والتقنيات التي يتم استخدامها لتحليل البيانات الضخمة مثل: (Hadoop ،Map Reduce ،HPCC) إلا أنّ أداة (Hadoop) تُعد من أبرز هذه الأدوات، فهي عبارة عن برنامج أو منصة برمجية مفتوحة المصدر ومكتوبة بلغة (Java)، حيث تُستخدم لتخزين ومُعالجة البيانات الضخمة بشكل موزع، أي أن تخزين هذه البيانات الضخمة تكون على عدة أجهزة، ومن ثم توزع عملية المعالجة على هذه الأجهزة لتسريع نتيجة المعالجة، وتعود أو تستدعى كحزمة واحدة.
مما تتكون الأدوات التي تتعامل مع البيانات الضخمة؟
تتكون الأدوات التي تتعامل مع البيانات الضخمة من ثلاثة أجزاء رئيسية وهي:
- أدوات التنقيب عن البيانات( Data Mining).
- أدوات التحليل(Data Analysis).
- وأخيراً أدوات عرض النتائج(Dashboard).
الأطراف في منظومة البيانات الضخمة:
لكي يتم تنظيم أي خدمة يجب تحديد الأطراف التي تتعامل مع هذه الخدمة وتحديد واجبات وحقوق كل طرف. تتكون منظومة البيانات الضخمة من عدة جهات تتفاعل فيما بينها ،هذه المنظومة مُكونة من موفر البيانات الضخمة ومُقدم خدمة البيانات الضخمة وعميل خدمة البيانات الضخمة ويمكن توضيح هذه الجهات كما يلي:
أولاً: موفر البيانات الضخمة:
حيث يعمل على توفير البيانات من العديد من المصادر باختلافها إلى مُقدمي الخدمات، وتضم أنشطة موفري البيانات على سبيل المثال إنشاء البيانات، وإنشاء المعلومات الوصفية(Meta data)، والتي تصف مصدر البيانات، وإيجاد مصادر البيانات المفتوحة (open data) على الإنترنت، وتوفير بيان الخدمات (Service catalogue) إلى مُقدم الخدمة عن البيانات القابلة للاستخدام.
ثانياً: مقدم خدمة البيانات الضخمة:
يتم تحليل البيانات الضخمة من قبل مُقدمي الخدمات، وكذلك تمكين البنية التحتية المناسبة لها، حيث تضم أنشطة مُقدم الخدمة بالبحث في مصادر البيانات المختلفة، جمع البيانات من خلال الطلب المباشر من موفر البيانات، أو البحث في الإنترنت (Data Crawling)، وكما تضم أنشطة مقدم الخدمة تخزين البيانات ودمجها وتوفير الأدوات لتحليلها، ودعم إداراتها مثل خصوصية البيانات وأمن البيانات وملكية البيانات وغيرها.
ثالثاً: عميل خدمة البيانات الضخمة:
وهو المستخدم الأخير (End User) لتقنية البيانات الضخمة، أو هو نظام يستعمل النتائج أو الخدمات التي يقوم بتقديمها مُقدمي خدمات البيانات الضخمة، وكذلك يستطيع المستخدم الحصول على خدمات جديدة أو معرفة، وذلك بناءً على نتائج تحليل البيانات الضخمة. تشمل أنشطة العميل على سبيل المثال طلب خدمة البيانات الضخمة من مزود الخدمة واستخدام مُخرجات خدمة البيانات الضخمة في النشاط الذي يرغبه ويتخصص فيه.