اقرأ في هذا المقال
- ما هي البيانات الضخمة
- ما هو علم البيانات
- ما هي العلاقة بين البيانات الضخمة وعلم البيانات
- الاختلافات الرئيسية بين البيانات الضخمة وعلم البيانات
لا يمكن تحقيق نهج البيانات الضخمة بسهولة باستخدام طرق تحليل البيانات التقليدية، وبدلاً من ذلك تتطلب البيانات غير المهيكلة تقنيات وأدوات وأنظمة متخصصة في نمذجة البيانات؛ لاستخراج الأفكار والمعلومات حسب الحاجة من قبل المؤسسات وعلم البيانات.
ما هي البيانات الضخمة
البيانات الضخمة: يشير هذا المفهوم إلى مجموعة كبيرة من البيانات غير المتجانسة من مصادر مختلفة ولا يتوفر عادةً في تنسيقات قواعد البيانات القياسية التي عادةً ما ندركها، تشمل البيانات الضخمة جميع أنواع البيانات وهي المعلومات المهيكلة وشبه المهيكلة وغير المهيكلة والتي يمكن العثور عليها بسهولة على الإنترنت.
يتم اعتماد البيانات الضخمة في مجال متخصص يتضمن أدوات ونماذج وتقنيات البرمجة العلمية لمعالجة البيانات الضخمة، حيث يوفر تقنيات لاستخراج الأفكار والمعلومات من مجموعات البيانات الكبيرة، كما يدعم المنظمات في صنع القرار ويطبق الأساليب العلمية لاستخراج المعرفة من البيانات الضخمة، وتتعلق بترشيح البيانات وإعدادها وتحليلها والتقاط الأنماط المعقدة من البيانات الضخمة وتطوير النماذج، ويتم إنشاء تطبيقات العمل عن طريق برمجة النماذج المطورة.
يتضمن الاستخدام المكثف للرياضيات والإحصاء والأدوات الأخرى، وأحدث التقنيات أو الخوارزميات لاستخراج البيانات ومهارات البرمجة (SQL) و(NoSQL) ومنصات (Hadoop)، والحصول على البيانات أو إعدادها أو معالجتها أو نشرها أو حفظها أو إتلافها وتصور البيانات والتنبؤ.
أنواع البيانات الضخمة
يمكن فهم جميع البيانات والمعلومات بغض النظر عن نوعها أو شكلها على أنها بيانات ضخمة، وتبدأ معالجة البيانات الضخمة عادةً بتجميع البيانات من مصادر متعددة، وتشمل البيانات الضخمة ما يلي:
- البيانات غير المنظمة: وهي الشبكات الاجتماعية ورسائل البريد الإلكتروني والمدونات والتغريدات والصور الرقمية وموجزات الصوت أو الفيديو الرقمية ومصادر البيانات عبر الإنترنت وبيانات الجوال وبيانات المستشعر وصفحات الويب وما إلى ذلك.
- البيانات شبه المنظمة: مثل ملفات (XML) وملفات سجل النظام وملفات نصية.
- البيانات المنظمة: وهي قواعد البيانات (RDBMS) و(OLTP) وبيانات المعاملات وتنسيقات البيانات المنظمة الأخرى.
ما هو علم البيانات
علم البيانات: هو نهج علمي يطبق الأفكار الرياضية والإحصائية وأدوات الكمبيوتر لمعالجة البيانات الضخمة علم البيانات هو مجال متخصص يجمع بين مجالات متعددة، مثل: الإحصاء والرياضيات وتقنيات التقاط البيانات الذكية وتنقية البيانات والتعدين والبرمجة لإعداد ومواءمة البيانات الضخمة للتحليل الذكي لاستخراج الأفكار والمعلومات.
في الوقت الحالي نشهد جميعًا نموًا غير مسبوق في المعلومات التي تم إنشاؤها في جميع أنحاء العالم وعلى الإنترنت لتؤدي إلى مفهوم البيانات الضخمة، حيث يُعد علم البيانات مجالًا صعبًا للغاية بسبب التعقيدات التي ينطوي عليها الجمع بين وتطبيق طرق وخوارزميات وتقنيات برمجة معقدة مختلفة لإجراء تحليل ذكي في أحجام كبيرة من البيانات، ومن ثم فقد تطور مجال علم البيانات من البيانات الضخمة وكما أنّ البيانات الضخمة وعلوم البيانات لا ينفصلان.
إنّ علم أنواع البيانات المتنوعة التي تم إنشاؤها من مصادر بيانات متعددة، بحيث يشمل جميع أنواع وتنسيقات البيانات وكما يتم اعتماده لتطوير سرعة الأعمال ولاكتساب القدرة التنافسية والاستفادة من مجموعات البيانات لمزايا الأعمال وإنشاء مقاييس واقعية وعائد استثمار، ولتحقيق الاستدامة ولفهم الأسواق واكتساب عملاء جدد.
يتم استخدامه من قبل مستخدمو الإنترنت أو حركة المرور والأجهزة الإلكترونية كأجهزة الاستشعار و(RFID) وتدفقات الصوت أو الفيديو بما في ذلك البث المباشر، وكذلك منتديات المناقشة على الإنترنت والبيانات التي تم إنشاؤها في المؤسسات كالمعاملات وقاعدة البيانات وجداول البيانات ورسائل البريد الإلكتروني، والبيانات التي تم إنشاؤها من سجلات النظام.
ما هي العلاقة بين البيانات الضخمة وعلم البيانات
الرقم | البيانات الضخمة | علم البيانات |
1 |
|
|
2 | يتعلق الأمر باستخراج معلومات حيوية وقيمة من كمية هائلة من البيانات. | يتعلق الأمر بجمع ومعالجة وتحليل واستخدام البيانات في عمليات مختلفة، وإنّه مفاهيمي أكثر. |
3 | إنّها تقنية لتتبع واكتشاف الاتجاهات في مجموعات البيانات المعقدة. | إنّه مجال للدراسة تمامًا مثل: علوم الكمبيوتر أو الإحصاء التطبيقي أو الرياضيات التطبيقية. |
4 | الهدف هو جعل البيانات أكثر حيوية وقابلية للاستخدام، أي عن طريق استخراج المعلومات المهمة فقط من البيانات الضخمة ضمن الجوانب التقليدية الموجودة. | الهدف هو بناء منتجات مهيمنة على البيانات لمشروع. |
5 | تشمل الأدوات المستخدمة في الغالب في البيانات الضخمة (Hadoop) و(Spark) و(Flink) وما إلى ذلك. | الأدوات المستخدمة بشكل أساسي في علوم البيانات تشمل (SAS) و(R) و(Python) وما إلى ذلك. |
6 | إنّها مجموعة فرعية من علوم البيانات مثل: أنشطة التعدين التي هي في نقل البيانات لعلوم البيانات. | إنّها مجموعة شاملة من البيانات الضخمة حيث يتكون علم البيانات من إلغاء البيانات والتنظيف والتصور والإحصاءات والعديد من التقنيات الأخرى. |
7 | يتم استخدامه بشكل أساسي لأغراض العمل ورضا العملاء. | يستخدم بشكل رئيسي للأغراض العلمية. |
8 | هو أكثر انخراطاً في عمليات معالجة البيانات الضخمة. | يركز على نطاق واسع على علم البيانات. |
الاختلافات الرئيسية بين البيانات الضخمة وعلم البيانات
- تحتاج المنظمات إلى البيانات الضخمة لتحسين الكفاءات وفهم الأسواق الجديدة وتعزيز القدرة التنافسية، بينما يوفر علم البيانات الأساليب أو الآليات لفهم واستخدام إمكانات البيانات الضخمة في الوقت المناسب.
- في الوقت الحالي بالنسبة للمؤسسات لا يوجد حد لمقدار البيانات القيمة التي يمكن جمعها، ولكن لاستخدام كل هذه البيانات لاستخراج معلومات مفيدة للقرارات التنظيمية ويلزم علم البيانات.
- تتميز البيانات الضخمة بتنوع سرعتها وحجمها والمعروف شعبياً باسم (3Vs)، بينما يوفر علم البيانات الأساليب أو التقنيات لتحليل البيانات التي تتميز بـ (3Vs).
- توفر البيانات الضخمة إمكانية الأداء، ومع ذلك فإنّ استخراج معلومات البصيرة من البيانات الضخمة للاستفادة من إمكاناتها لتحسين الأداء يمثل تحديًا كبيرًا، ويستخدم علم البيانات المناهج النظرية والتجريبية بالإضافة إلى التفكير الاستنتاجي والاستقرائي، ويتحمل مسؤولية الكشف عن جميع المعلومات الثاقبة المخفية من شبكة معقدة من البيانات غير المهيكلة وبالتالي دعم المؤسسات لتحقيق إمكانات البيانات الضخمة.
- يقوم تحليل البيانات الضخمة بالتنقيب عن المعلومات المفيدة من كميات كبيرة من مجموعات البيانات، وعلى عكس التحليل يستخدم علم البيانات خوارزميات التعلم الآلي والأساليب الإحصائية؛ لتدريب الكمبيوتر على التعلم دون الحاجة إلى الكثير من البرمجة لعمل تنبؤات من البيانات الضخمة، ومن ثم يجب عدم الخلط بين علم البيانات وتحليلات البيانات الضخمة.
البيانات الضخمة موجودة لتبقى في السنوات القادمة لأنّه وفقًا لاتجاهات نمو البيانات الحالية، سيتم إنشاء بيانات جديدة بمعدل (1.7 مليون ميجابايت في الثانية) بحلول عام (2020م)، وسيكون لهذا النمو في البيانات الضخمة إمكانات هائلة ويجب أن تدار بشكل فعال من قبل المؤسسات.