تقنية تجميع البيانات في عملية التنقيب في البيانات Data binning

اقرأ في هذا المقال


تجميع البيانات (Binning) الذي يُطلق عليه أيضًا اسم “التجميع المنفصل” أو التجميع عبارة عن تقنية معالجة مسبقة للبيانات تُستخدم لتقليل آثار أخطاء الملاحظة البسيطة، حيث إنه شكل من أشكال التكميم ويتم تقسيم قيم البيانات الأصلية إلى فترات زمنية صغيرة تعرف باسم الصناديق، ثم يتم استبدالها بقيمة عامة محسوبة لهذه الخاصية وهذا له تأثير على بيانات الإدخال وقد يقلل أيضًا من فرص الملاءمة الزائدة في حالة مجموعات البيانات الصغيرة خلال عملية التنقيب عن البيانات.

ما هي تقنية تجميع البيانات Binning

تجميع البيانات (Binning): هو طريقة معالجة مسبقة للبيانات تعتمد لخفض آثار أخطاء المراقبة الصغيرة، بحيث يتم تقسيم قيم البيانات الأصلية إلى فترات زمنية صغيرة تعرف باسم “الصناديق”، ثم يتم استبدالها بقيمة عامة محسوبة لهذه الحاوية، وهذا له تأثير سلس على بيانات الإدخال وقد يقلل أيضًا من فرص التخصيص الزائد في حالة مجموعات البيانات الصغيرة.

أشكال تقنية تجميع البيانات Binning

1- تجميع البيانات الإحصائية

إنّ تجميع البيانات الإحصائية هو طريقة لتجميع أرقام أكثر أو أقل من القيم المستمرة في عدد أصغر من “الصناديق”، حيث يمكن استخدامه أيضًا في الإحصائيات متعددة المتغيرات المترابطة في عدة أبعاد في وقت واحد، وعلى سبيل المثال إذا كان هناك بيانات تتعلق بمجموعة من الأشخاص يكون الغرض هو ترتيبها بالنسبة لأعمارهم في عدد أصغر من الفواصل العمرية مثل التجميع كل خمس سنوات معًا.

يمكن أن يحسن (Binning) بشكل كبير استخدام الموارد ونموذج وقت الاستجابة دون خسارة كبيرة في جودة النموذج، كما يمكن لـ (Binning) تحسين جودة النموذج من خلال تقوية العلاقة بين السمات.

2- التجميع الخاضع للإشراف

إنّ التجميع الخاضع للإشراف هو شكل من أشكال التجميع الذكي، حيث يتم استخدام الخصائص المهمة للبيانات لتحديد حدود الحاوية، حيث في التجميع الخاضع للإشراف يتم تحديد حدود الحاوية من خلال شجرة القرار ذات متنبئ فردي تأخذ في الاعتبار التوزيع المشترك مع الهدف ويمكن استعمال (binning) الخاضع للإشراف لكل من السمات العددية والفئوية.

خصائص تقنية تجميع البيانات Binning

  • (Binning)، الذي يُطلق عليه أيضًا التمييز هو تقنية لتقليل العلاقة بين البيانات المستمرة والمنفصلة ويجمع (Binning) القيم المرتبطة معًا في صناديق لتقليل عدد القيم المميزة.
  • يمكن أن يحسن (Binning) استخدام الموارد ونمذجة وقت الاستجابة بشكل كبير دون خسارة كبيرة في جودة النموذج وكما يمكن لـ (Binning) تحسين جودة النموذج من خلال تقوية العلاقة بين السمات.
  • يوجد أيضًا خيار لتجميع القيم الفئوية في سلالة، حيث يكون هذا مفيدًا عندما يكون لديك قيم فئوية في عمود أكثر مما تجده ضروريًا.

لماذا يتم استخدام تقنية تجميع البيانات

يتم استخدام (Binning) أو التقديرية لتحويل متغير مستمر أو رقمي إلى ميزة فئوية وقدم تجميع المتغيرات المستمرة اللاخطية ويميل إلى تحسين أداء النموذج ويمكن استخدامه أيضًا لتحديد القيم المفقودة أو القيم المتطرفة، و(Binning) الذي يُطلق عليه أيضًا التكتم هو تقنية لتقليل أصل البيانات المستمر والمنفصل، كما يجمع (Binning) القيم المرتبطة معًا في صناديق لتقليل عدد القيم المميزة.

يمكن أن تعمل بعض تقنيات التعلم الآلي مع متغيرات التنبؤ الفئوية فقط وليس المتغيرات الرقمية المستمرة، كما يمكن تحويل متغير رقمي مستمر إلى سلسلة من الفئات، عن طريق تعيين نطاقات فرعية لنطاق القيم إلى مجموعة من المتغيرات الجديدة وعلى سبيل المثال يمكن تحديد متغير يتراوح من (1 إلى 100) (تحويله إلى قيم منفصلة) عن طريق تقسيم النطاق إلى أربعة نطاقات فرعية (0-25 ، و26-50 ، و51-75 ، و76-100).

واسم آخر لهذه النطاقات الفرعية هو “صناديق”، وفي عملية (binning) يتم استبدال كل قيمة في نطاق المتغير برقم شكل وتحتوي العديد من حزم التنقيب عن البيانات على مرافق تجميع لإنشاء هذه النطاقات الفرعية تلقائيًا، كما تتمثل إحدى سمات عملية (binning) في أنّها تقلل “الضوضاء” في البيانات وإلى هذا الحد يُعد (binning) أحد أشكال تجانس البيانات.

وتجميع البيانات (binning) هو عملية تجميع بيانات النقطة في شبكة متماثلة من الأشكال الهندسية، حيث يمكن بعد ذلك حساب القيمة الإجمالية من القيم الموجودة في الحاوية واستخدامها لتعيين اللون أو قياس حجم تلك الحاوية؛ لتوفير تمثيل مرئي لمقياس البيانات الذي تحتويه الحاوية.

الشكلان الأكثر شيوعًا في تجميع البيانات هما: المربعات والسداسيات، وعند استخدام الأشكال السداسية يشار إلى هذه العملية أيضًا باسم “سداسي عشري”، كما توفر وحدة تخزين البيانات فئة (Data Binning Layer) التي تجعل من السهل إنشاء صناديق بيانات من صفيفات (Pushpins)، وتمتد صناديق البيانات التي تم إنشاؤها من فئة المضلع وتدعم جميع خيارات وأحداث المضلع.

المصدر: Foundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: