خصائص البيانات الضخمة

اقرأ في هذا المقال


البيانات الضخمة Big Data:

ظهر جيل جديد من التقنيات الحديثة التي تعتمد على البيانات الضخمة (Big Data)، والتي تشهد توجّه كبير وحاجة واسعة في مجال سوق عمل تقنية المعلومات، والتي قد تغيّر عملية نقل البيانات بأنواعها وتسهّل عملية البحث عنها. ويعتبر حجم كبير من البيانات التي تأتي من مصادر مختلفة لا تُعد ولا تُحصى.
فهي تمتاز بذلك بحجم يفوق قدرة أدوات قواعد البيانات التقليدية، والتدفّق الهائل لإتاحة البيانات الضخمة خصوصاً مع انتشار الذكاء الاصطناعي وإنترنت الأشياء. ويطلق مصطلح البيانات الضخمة على مجموعة من حزم البيانات الضخمة والمعقّدة والتي يصعب التعامل معها من خلال نظم إدارة قواعد البيانات التقليدية من كافة النواحي لتشكل بذلك التخزين، البحث، التمثيل، التحليل.

خصائص البيانات الضخمة:

وحتى تكون البيانات ضخمة يجب توفر ثلاثة عوامل رئيسية:

الحجم Volume:

وهي حجم البيانات التي يتم استخراجها من مصدر ما، وهذا هو أساس تحديد ما هي قيمة احتمالية البيانات لكي يتم تحدد من ضمن البيانات الضخمة؛ فهو عدد التيراباتيت من البيانات التي يتم جمعها يومياً من المصادر، و قد تكون الخاصية الأكثر أهمية في تحليل البيانات الضخمة، وكما أن وصفها بالضخمة لا يحدد كمية معينة؛ بل يقاس عادة بالبيتا بايت أو بالإكسا بايت.

حيث يحتوى العالم الإلكتروني على ما يصل إلى 40.000 ميتابايت من البيانات المتاحة للتحليل والمعلومات الناتجة، وتعتبر البيانات الضخمة الجيل القادم من التقنيات التي تعمل على خلق القيمة من خلال مسح وتحليل البيانات، ويقدر أن %90 من البيانات الموجودة في العالم اليوم قد استحدثت خلال السنتين الأخيرتين، بواسطة أجهزة وعلى أيدي بشر ساهم كلاهما في تزايد البيانات.

التنوع Variety:

والمراد بها التنوع في هذه البيانات الناتجة، والتي تساهم في معاونة جميع المستخدمين والمهتمين من الباحثين أو مطويرين تقنيات تعتمد عالى العدد الضخم من البيانات أو حتى محللين، للعمل على اختيار البيانات المناسبة لمجال بحثهم، وهو تنوع هذه البيانات ما بين بيانات مهيكلة وغير مهيكلة في قواعد بيانات ونصف مهيكلة تأتي من طابعها غير الممنهج، مثل: الصور ومقاطع وتسجيلات الصوت وأشرطة الفيديو والرسائل القصيرة وسجلات المكالمات وبيانات الخرائط (gps) وغيرها؛ وتتطلب وقتاً وجهداً لتهيئتها في شكل مناسب للتجهيز والتحليل.

السرعة Velocity:

والمراد بها سرعة الإنتاج والاستخراج لهذه البيانات لتلبية الطلب اللازم للمستخدمين، وبذلك تعد السرعة في الحصول على هذه البيانات خاصية مهمة وأساسية في اتخاذ القرار اعتماداً على هذه البيانات، وهو الوقت الذي يتم قضائه من لحظة وصول هذه البيانات إلى لحظة الخروج بالقرار بناء عليها، سابقا كانت الشركات تستخدم لمعالجة مجموعة صغيرة من البيانات المخزنة في صورة بيانات مهيكلة في قواعد بيانات عملية تسمى (Batch Process)، حيث كان يتم تحليل كل مجموعة بيانات واحدة تلو الأخرى في انتظار وصول النتائج.

بناءً على الارتفاع الكبير في حجم البيانات وسرعة تتابعها، زادت الحاجة لضرورة التوجه إلى أنظمة تمكن من الحصول على سرعة فائقة في معالجة البيانات الضخمة، بأسرع وقت ممكن لتصل إلى سرعة الوقت الفعلي (Real Time) أو سرعة قريبة جداً من الوقت الفعلي لهذه البيانات، أدت تلك الحاجة إلى ابتكار تقنيات وحلول مثل (Apache) و(SAP HANA) و(Hadoop) وغيرها الكثير.

ما هي خصائص البيانات لتكون بيانات ضخمة؟

ومع ازدياد حجم الاختلاف لهذه البيانات الضخمة التي نحتاجها نستخدمها في مختلف القطاعات والشركات، حيث أصبحت اليوم أمام خيارين أساسيين، أحدهما الاستغناء عن هذه البيانات، أو البدء بالتعامل معها بشكل أفضل لتحليلها والإستفادة منها. وتظهر التحديات أمام تقنيات إدارة قواعد البيانات التقليدية في التعامل مع البيانات المختلفة وبالسرعة اللازمة، حيث كانت قواعد البيانات التقليدية تتعامل مع المستندات النصية والأرقام فقط، أما البيانات الضخمة اليوم تحوي أنواع جديدة من البيانات التي لا يمكن تجاهلها، لكن مع استخدام الأدوات التقليدية مسبقاً لن نتمكن من تحليل والاستفادة من هذه البيانات الجديدة الضخمة.

أمثلة على أهمية البيانات الضخمة:

من أبرز الأمثلة على مدى أهمية التعامل والاستفادة من البيانات الضخمة في مختلف القطاعات والتخصصات، فعلى سبيل المثال إن معظم المتاجر الكبيرة حول العالم، والأسواق التجارية التي تتعامل مع بطاقات العملاء العدد الهائل منها، فلا بد من الاستفادة من هذه البيانات والقيام بمعالجتها بطريقة تساعدها على فهم المشترين بشكل أفضل، ليتم من خلال بياناتهم تطوير العمل وتقديم أفضل الخدمات والنتائج، ومن ذلك كل مقاطع الفيديو التي تسجلها الأجهزة الطبية خلال العمليات الجراحية، لا يتم الاستفادة منها بالشكل المطلوب، بل ويتم حذفها خلال أسابيع.


شارك المقالة: