ما هي عملية تلخيص البيانات Data Summarization

اقرأ في هذا المقال


تبدأ عملية التنقيب عن البيانات بتحديد هدف العمل الذي يجب تحقيقه من الاستخراج ثم تنتقل إلى جمع البيانات، حيث يتم تخزين البيانات في مستودع يتم من خلاله تنظيفها وترتيبها؛ لضمان إزالة الإدخالات المتعددة أو المكررة وإضافة البيانات المفقودة وينتج عن التنقيب عن البيانات العثور على المعلومات ذات الصلة التي ستكون مفيدة للمنظمات في حل المشكلات، والتنبؤ بالاتجاهات واكتشاف فرص جديدة وإيجاد الحالات المتطرفة وإظهار الارتباطات وتخفيف المخاطر.

ما هي عملية تلخيص البيانات

تلخيص البيانات: هو تقديم ملخص أو تقرير عن البيانات التي تم إنشاؤها بطريقة مفهومة وغنية بالمعلومات، ولترحيل معلومات حول مجموعة البيانات يتم الحصول على التلخيص من مجموعة البيانات بأكملها، حيث أنه ملخص تم إجراؤه بعناية سينقل الاتجاهات والأنماط من مجموعة البيانات بطريقة مبسطة، وكما يمكن استخدامها في البرمجة أو في أي مكان تريده في بياناتك.

أصبحت البيانات أكثر تعقيدًا وبالتالي هناك حاجة لتلخيص البيانات للحصول على معلومات مفيدة، وتلخيص البيانات له أهمية كبيرة في عملية التنقيب عن البيانات؛ لأنّه يمكن أن يساعد أيضًا في تعيين الاختبارات الإحصائية المناسبة لاستعمالها اعتمادًا على الاتجاهات العامة التي تم الكشف عنها من التلخيص.

تكون هناك حاجة إلى مزيد من تلخيص البيانات في عملية التنقيب، لأنّ العالم هو عالم رقمي، حيث يتم نقل البيانات في ثانية وهو أسرع بكثير من القدرة البشرية، وفي مجال الشركات يعمل الموظفون على حجم ضخم من البيانات المستمدة من مصادر مختلفة مثل: الشبكة الاجتماعية، والوسائط والصحف والكتب وتخزين الوسائط السحابية وما إلى ذلك.

أنواع عملية تلخيص البيانات

  • التلخيص الجدولي: حيث تنقل هذه الطريقة على الفور أنماطًا مثل: توزيع التردد والتكرار التراكمي وما إلى ذلك.
  • تصور البيانات: يمكن أن تساعد التصورات من نمط الرسم البياني المختار مثل: المدرج التكراري والرسم البياني الخطي للسلسلة الزمنية والرسومات البيانية العمودية أو الشريطية وما إلى ذلك في تحديد الاتجاهات فورًا بطريقة جذابة بصريًا.

خصائص عملية تلخيص البيانات

  • يتم العمل على تلخيص البيانات لتبسيطها لتحديد الأنماط بسرعة، وهذا يعطي مقدمة أولية لما يمكن أن يكون عليه تلخيص البيانات في تنقيب البيانات.
  • يُعد تلخيص البيانات في التنقيب عن البيانات مفهومًا رئيسيًا يمكن من خلاله الحصول على وصف موجز لمجموعة البيانات لمعرفة ما يبدو طبيعيًا أو في غير محله، ومن شأن الملخص المختار بعناية للبيانات الأولية أن ينقل العديد من اتجاهات وأنماط البيانات بطريقة يسهل الوصول إليها.
  • يشير مصطلح “التنقيب عن البيانات” إلى هذا بالضبط أي الحصول على معلومات ذات مغزى من البيانات الخام، ويهدف تلخيص البيانات في التنقيب عن البيانات إلى تقديم المعلومات والاتجاهات المستخرجة في شكل جدولي أو رسومي.
  • بشكل عام، يمكن تلخيص البيانات عدديًا في شكل جدول يُعرف بالتلخيص الجدولي أو بصريًا في شكل رسم بياني يُعرف باسم تصور البيانات.
  • على الرغم من أن تقنية “تلخيص البيانات” تعطي قدرًا جيدًا من الجودة لتلخيص البيانات، إلّا أنّه يمكن للعميل أو المستخدم الاستفادة من أبحاثهم و(Excel) هو أفضل أداة لتلخيص البيانات.

مبدأ عملية تلخيص البيانات

لطالما حفز اكتشاف المعرفة في كل من مجموعات البيانات المهيكلة وغير المهيكلة المخزنة في أنظمة قواعد بيانات المستودعات الكبيرة طرقًا لتلخيص البيانات، حيث يرتبط التلخيص ارتباطًا وثيقًا بالضغط والتعلم الآلي واستخراج البيانات وأقرب اتصال هو التنقيب عن البيانات، وعادةً ما تتضمن طرق تلخيص البيانات للمجال غير المهيكل تصنيفًا نصيًا يجمع المستندات التي تشترك في خصائص متشابهة معًا.

مع العدد المتزايد باستمرار من المستندات النصية في أنظمة قواعد البيانات الكبيرة غالبًا ما تكون خوارزميات تلخيص النص في المجال غير المهيكل مثل: تجميع المستندات محدودة بأبعاد ميزات البيانات، ومن ناحية أخرى غالبًا ما يكون تطبيق طرق تلخيص البيانات في بيانات التنقيب والمخزنة عبر جداول متعددة مع علاقات واحد إلى متعدد محدودًا بسبب تعقيد مخطط قاعدة البيانات.

معظم طرق تلخيص البيانات الموجودة في أنظمة قواعد البيانات العلائقية محدودة للغاية من حيث الوظائف والمرونة، وتلخص هذه الخوارزميات البيانات المهيكلة المخزنة في جداول متعددة بعلاقات واحد إلى متعدد من خلال استخدام عوامل التجميع، مثل: المتوسط ​​والجمع والحساب والحد الأدنى والحد الأقصى، وتعتبر عوامل التجميع هذه مثيرة للاهتمام ليس فقط لأنها قادرة على تلخيص البيانات المهيكلة المخزنة في جداول متعددة مع علاقات رأس بأطراف، ولكن أيضًا لأنها تتوسع بشكل جيد.

تحديات عملية تلخيص البيانات في التنقيب عن البيانات

يعمل تلخيص البيانات على استنتاج البيانات التي تضمنت البيانات الأولية والمشتقة، ونظرًا لأنّ البيانات الموجودة في مستودع البيانات ذات حجم كبير جدًا، يجب أن تكون هناك آلية للحصول فقط على المعلومات ذات الصلة وذات المغزى بتنسيق أقل فوضى ويوفر تلخيص البيانات القدرة على إعطاء مستهلكي البيانات نظرة عامة على كميات متباينة من البيانات، حيث أنّه عمل مليء بالتحديات.

يُعد تلخيص البيانات في مجموعات بيانات كبيرة جدًا متعددة الأبعاد كما في حالة مستودعات البيانات عملاً صعبًا للغاية، حيث يتطلب هذا عادةً إجراء تحقيق مكثف للغاية من قبل خبراء تكنولوجيا المعلومات ومسؤولي قواعد البيانات والمبرمجين، بحيث يمكن تحديد الاتجاهات العامة والاستثناءات المهمة والتعامل معها تقنيًا، كما يمكن لجهاز كمبيوتر أو عدة أجهزة كمبيوتر تعمل معًا إجراء عمليات بحث شاملة للغاية باستخدام خوارزميات معقدة للغاية للقيام بتلخيص البيانات.

يعد تلخيص البيانات المستهلكة للوقت أمرًا شائعًا ولكنه قد يتطلب نهجًا قويًا جدًا ويستغرق وقتًا طويلاً من أجل تحليل مجموعات البيانات الكبيرة جدًا، وعلى سبيل المثال عندما يريد شخص ما إجراء تحقيق في بيانات التعداد حتى يتمكن من فهم العلاقة بين الراتب والمستوى التعليمي، يمكن أن يتضمن ذلك الاستعلام عن قواعد بيانات كبيرة الحجم وتجميع مكثف للبيانات.

من السهل تقديم تلخيص البيانات بيانيًا يمكن أن يتم أيضًا مع تطبيق جداول البيانات البسيطة مثل (Microsoft Excel)، وعلى سبيل المثال يمكن جمع عينة عشوائية وباستخدام برامج الكمبيوتر يمكن تلخيص ذلك بسهولة، ونظرًا لأن معظم البرامج تحتوي على واجهة مرئية يمكن للمرء حتى الحصول على عرض رسومي، مثل: مخطط أو رسم بياني شريطي ورسم بياني خطي وتنسيقات عرض رسومية أخرى.

استخدام الأدوات هناك العديد من الأدوات المتاحة في السوق لجعل تلخيص البيانات أسهل بكثير من خلال جعله في البيئة المرئية، وقد تساعد هذه الأدوات مستهلك البيانات في إنتاج ملخص بيانات للبيانات واحدًا تلو الآخر ويمكنها أيضًا السماح للمستخدم النهائي باستكشاف مجموعة البيانات يدويًا، بينما ينقر المستخدم النهائي ويسحب فقط يقوم الكمبيوتر بإجراء بحث شامل في الخلف.

يساعد في تحديد الاتجاهات والأنماط يؤدي تلخيص البيانات إلى تسهيل اكتشاف صانعي الأعمال للاتجاهات والأنماط في الصناعة التي تعمل فيها الأعمال بالإضافة إلى الاتجاهات والأنماط في العمليات الداخلية لمؤسسة الأعمال، وبهذه الطريقة يمكن لصناع القرار الحصول على صور دقيقة لنقاط القوة والضعف في العملية.

المصدر: Foundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: