كيفية حدوث الخطأ في عملية نقل البيانات

اقرأ في هذا المقال


يُعد تحديد الأخطاء وتصحيحها أمرًا ضروريًا للعلم ممّا يؤدي إلى ظهور مبدأ مفاده أن العلم يصحح نفسه بنفسه، ومع تنامي كمية البيانات تزداد فرص حدوث أخطاء في نقل البيانات.

كيفية حدوث الخطأ في عملية نقل البيانات

1- افتراض أن مجموعة البيانات ذات جودة عالية وموثوقة

  • البيانات هي المفتاح لأي مهمة تتعلق بعلوم البيانات والتعلم الآلي، وتأتي البيانات بأشكال مختلفة مثل: البيانات الرقمية والبيانات الفئوية والبيانات النصية وبيانات الصورة والبيانات الصوتية وبيانات الفيديو.
  • تعتمد القدرة التنبؤية للنموذج على جودة البيانات المستخدمة في بناء النموذج، لذلك من المهم للغاية قبل تنفيذ أي مهمة في علم البيانات مثل: تحليل البيانات الاستكشافية أو بناء نموذج، أن تتحقق من مصدر بياناتك وموثوقيتها لأنّه حتى مجموعات البيانات التي تبدو مثالية قد تحتوي على أخطاء.

2- تحديد الخطأ العشوائي في البيانات

  • يحتوي كل نموذج على خطأ عشوائي متأصل وينشأ هذا الخطأ من الطبيعة العشوائية المتأصلة لمجموعة البيانات ومن الطبيعة العشوائية التي يتم فيها تقسيم مجموعة البيانات إلى مجموعات تدريب واختبار أثناء بناء النموذج، أو من التوزيع العشوائي للعمود الهدف “طريقة مستخدمة للكشف عن فرط التجهيز”.
  • من المهم دائمًا تحديد كيفية تأثير الخطأ العشوائي على القدرة التنبؤية لنموذجك، وسيساعد هذا في تحسين موثوقية وجودة النموذج.

3- تعدد خطوات النقل والتداخل بين البيانات

  • نظرًا للعدد الكبير من الخطوات في عملية إعداد البيانات، فإنّ نقل البيانات من خطوة إلى أخرى يُعد نقطة حرجة للغاية وستنعكس الأخطاء الناتجة عن عدم كفاية نقل البيانات في كل خطوة تالية، ويمكن أن تؤثر بشكل خطير على النتيجة النهائية.
  • يؤدي التداخل إلى ظهور بيانات متطرفة يؤدي إلى تعطل النظام أو الوحدة النمطية، ويمكن إنشائها بواسطة مصدرين هي مصادر خارجية من معدات النقل والوحدات الداخلية التي يمكن أن تولد تداخلات عالية.
  • تأثيرات هذه الضوضاء لا تلحق الضرر بأي مكون لكنها تغير حالة البيانات بشكل مؤقت.

المصدر: Foundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: