ما الفرق بين عملية التنقيب في البيانات وتقنية الإحصاء

اقرأ في هذا المقال


يتعلق تحليل البيانات السابقة والحالية بالتنبؤ بالمشكلات المستقبلية، كما تستخدم العديد من المؤسسات التنقيب عن البيانات والإحصاءات لاتخاذ قرارات تعتمد على البيانات والتي تعد الجزء الأساسي من علم البيانات، وكلا المصطلحين التنقيب عن البيانات والإحصاءات يبدوان متشابهين لكنهما مختلفان، وتشكل الإحصائيات الجزء الرئيسي من التنقيب عن البيانات والذي يتضمن الإجراء العام لتحليل البيانات.

ما هي عملية التنقيب في البيانات

عملية التنقيب عن البيانات: هي طريقة لتحليل كميات هائلة من البيانات في محاولة لاكتشاف العلاقات والتصاميم والرؤى ويجب أن تكون هذه التصاميم بالتوافق مع (Witten) و(Eibem) ذات مغزى من حيث أنّها تؤدي إلى بعض المزايا، وتُعد البيانات في التنقيب عن البيانات كمية أيضًا بشكل عادي خاصةً عندما يتم التفكير في التطور الأسي في البيانات التي تقدمها وسائل التواصل الاجتماعي لاحقًا لفترة طويلة أي البيانات الضخمة.

التنقيب عن البيانات متاح بشكل أساسي في عدة أنظمة تجارية، حيث يتم استخدام استخراج البيانات على نطاق واسع في كل صناعة تقريبًا وعلى سبيل المثال عادةً ما يكون تحليل البيانات المالية منهجيًا، حيث أن البيانات موثوقة للغاية وتشمل الحالات النموذجية لتحليل البيانات المالية التنبؤ بدفع القروض، وتحليل سياسة ائتمان العملاء وتصنيف العملاء وتجميعهم للتسويق المستهدف واكتشاف غسيل الأموال والجرائم المالية الأخرى.

الإحصائيات تتعلق فقط بقياس البيانات، وبينما يستخدم أدوات للعثور على خصائص البيانات ذات الصلة فإنّه يشبه إلى حد كبير الرياضيات وكما يوفر الأدوات اللازمة للتنقيب عن البيانات، ومن ناحية أخرى يبني التنقيب عن البيانات نماذج لاكتشاف الأنماط والعلاقات في البيانات ولا سيما من قواعد البيانات الكبيرة.

ما المقصود بتقنية الإحصاء

تقنية الإحصاء: هو علم جمع البيانات وتنظيمها وتقليلها وتحليلها لاستخلاص النتائج أو الرد على الأسئلة، حيث في التوسع تدور القياسات حول إعطاء درجة من اليقين في أي استنتاجات، وممارسة أو علم جمع وتحليل المعلومات العددية بكميات ضخمة خاصةً لسبب جمع النطاقات بالكامل من تلك الموجودة في اختبار تمثيلي.

الإحصاء هو أحد مكونات التنقيب عن البيانات الذي يوفر الأدوات وتقنيات التحليل للتعامل مع كميات كبيرة من البيانات، حيث إنه علم التعلم من البيانات ويتضمن كل شيء من التجميع والتنظيم إلى تحليل البيانات وتقديمها، كما تركز الإحصائيات على النماذج الاحتمالية وتحديداً الاستدلال باستخدام البيانات.

في حين أنّ أهداف الإحصاء والتنقيب في البيانات متشابهة فهناك عدد قليل جدًا من الإحصائيين للتعامل مع متطلبات محللي البيانات، والنوعان السائدان من الإحصائيات هما: الوصفي والاستنتاجي بحيث أنّ الإحصاء الوصفي ينظم ويلخص البيانات للعينة، وتسمى منهجية استخدام هذه الملخصات للاستنتاج من مجموعات البيانات بأكملها الإحصائيات الاستنتاجية.

الفرق بين عملية التنقيب في البيانات وتقنية الإحصاء

الرقم

تقنية الإحصاء

عملية التنقيب عن البيانات

1

البيانات المستخدمة رقمية.

البيانات المستخدمة هي رقمية أو غير رقمية.

2

العملية الاستنتاجية (لا تشمل إجراء أي تنبؤات)

العملية الاستقرائية (توليد الفرضية الحديثة من البيانات).

3

يتم استخدام البيانات النظيفة لتطبيق الاستراتيجية الإحصائية.

يتم استنزاف البيانات لتنظيف التنقيب عن البيانات.

4

يعطي تكهنات لاختبار استخدام الإحصاء.

يجب القيام بالتحقيق في البيانات وتجميعها لتبدأ، وتظهر البنيات لتمييز الأنماط وصنع النظريات.

5

مناسبة لمجموعات البيانات الأصغر.

مناسب لمجموعات البيانات الموسعة.

6

يحتاج إلى تفاعل العميل للموافقة على العرض وبالتالي مزعج لأتمتة البيانات.

يحتاج إلى تفاعل أقل مع العميل للموافقة على النموذج وبالتالي فهو سهل التشغيل الآلي.

7

إضفاء الطابع الرسمي على العلاقة في البيانات في شكل شرط رياضي

إنّها عملية حسابية تتعلم من البيانات دون استخدام أي قاعدة برمجة.

8

المهارات المطلوبة للإحصاء هي إحصائية وصفية وإحصائية استنتاجية

المهارات المطلوبة لاستخراج البيانات هي التصنيف والتجميع والشبكة العصبونية التلافيفية والارتباط والتقدير والتحليل القائم على التسلسل.

9

التطبيقات هي الديموغرافيا والعلوم الاكتوارية والإحصاء الحيوي ومراقبة الجودة.

التطبيقات هي تحليل البيانات المالية وصناعة البيع بالتجزئة وصناعة الاتصالات.

الاختلافات الرئيسية بين عملية التنقيب في البيانات وتقنية الإحصاء

  • يُعد التنقيب عن البيانات بداية علم البيانات ويشمل العملية الكاملة لتحليل البيانات، بينما الإحصائيات هي القسم الأساسي لخوارزمية التنقيب عن البيانات، وتنقيب البيانات هي عملية تحليل استكشافية نستكشف فيها البيانات ونجمعها أولاً ونبني نموذجًا على البيانات، وفي حين أنّ الإحصاء هو العملية التأكيدية التي يتم فيها عمل النظريات الأولى ثم يتم تطبيق التحقق من الصحة على تلك النظرية لاختبار مجموعات البيانات.
  • نظرًا لأن حجم البيانات يومًا بعد يوم يتزايد فإنّ تنسيق البيانات يتغير أيضًا في الغالب حيث أن البيانات المستلمة هي بيانات غير منظمة والتي قد تحتوي على بيانات رقمية أو غير رقمية، وكلا النوعين من البيانات مستخدمة للتنقيب عن البيانات، ولكن يتم استخدام النوع الرقمي فقط من البيانات من أجل الاحتمالية و الحساب والتنبؤ الرياضي.
  • يُعد التنقيب عن البيانات عملية بحثية ويستخدم خوارزمية مثل: شجرة القرار وخوارزمية التجميع لاشتقاق قسم البيانات وإنشاء فرضيات من البيانات بينما الإحصائيات هي العملية الاستنتاجية، أي أنّها لا تتضمن أي تنبؤات يتم استخدامها لاشتقاق المعرفة والتحقق من الفرضيات.
  • لا يهتم التنقيب في البيانات كثيرًا بجمع البيانات نظرًا لأنه تحليل استكشافي للبيانات، كما أن استخراج البيانات هو في الغالب برنامج وعملية حسابية لتحديد الأنماط على مجموعات البيانات الكبيرة، في حين أن الإحصائيات تتعلق أكثر بجمع البيانات للحصول على تأكيد على البيانات المتوقعة حيث نحتاج إلى جمع البيانات وتحليلها للإجابة على الأسئلة ويمكن أن تكون البيانات المجمعة بيانات كمية أو نوعية أو أولية أو ثانوية.
  • التنقيب عن البيانات هو عملية حفر عميق في المعلومات غير المعروفة المتوفرة سابقًا ولكنها قابلة للتنفيذ من قواعد البيانات الكبيرة لاستخدامها في اتخاذ بعض القرارات الحاسمة، ويتم استخدام مجموعة من الأساليب للعثور على أنماط وعلاقات داخل البيانات المتاحة، وإنّها مجموعة من العمليات المختلفة بما في ذلك الإحصاء والتعلم الآلي وإدارة قواعد البيانات والذكاء الاصطناعي (AI) والتعرف على أنماط البيانات.
  • إنّ تنقيب البيانات له تطبيقات تجارية مطبقة بشكل أساسي مثل: تحليل البيانات المالية وصناعة التجزئة والاتصالات وعلم الأحياء والكشف العلمي الآخر، بينما يتم استخدام الإحصائيات في كل عينة بيانات لاستخلاص مجموعة من المعلومات الجديدة ويصف طبيعة البيانات المراد تحليلها واستكشاف علاقة البيانات، وتستعمل التحليلات التنبؤية لتشغيل السيناريوهات التي تساعد في اتخاذ قرار بشأن الإجراءات المستقبلية.
  • بعض الاتجاهات المتطورة الشائعة في التنقيب عن البيانات هي استكشاف التطبيقات واستخراج البيانات المرئية واستخراج البيانات البيولوجية والتنقيب عبر الإنترنت واستخراج البرامج واستخراج البيانات الموزعة، واستخراج البيانات الحقيقية وغير ذلك الكثير وتساعد الإحصائيات على تحديد الأنماط الجديدة في البيانات غير المهيكلة المتاحة.

المصدر: Data Science from Scratch: First Principles with Python by Joel Grus / 2nd EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionFoundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First Edition


شارك المقالة: