عيوب عملية التنقيب عن البيانات Data mining

اقرأ في هذا المقال


يتم استخدام التنقيب عن البيانات في العديد من الصناعات بما في ذلك الرعاية الصحية وتجارة التجزئة ووسائل التواصل الاجتماعي، كما يعتمد نوع أسلوب النمذجة الذي تستخدمه على المعلومات التي تحاول العثور عليها وكيفية تنظيمها وبغض النظر تطبق جميع مساعي التنقيب عن البيانات خوارزميات رياضية وإحصائية لتحليل كميات كبيرة من البيانات، والتي يتم تنظيمها بعد ذلك في بنية بيانات أو قاعدة بيانات للسماح بالوصول السهل والمزيد من التحليل.

القضايا الرئيسية في عملية التنقيب عن البيانات

  • عند الحديث عن الأدوات؛ تعمل الأدوات المختلفة مع أنواع مختلفة من التنقيب عن البيانات، واعتمادًا على الخوارزميات التي تستخدمها، وبالتالي يجب أن يتأكد محللو البيانات من اختيار الأدوات الصحيحة.
  • تقنيات التنقيب عن البيانات ليست معصومة عن الخطأ، لذلك هناك دائمًا خطر ألا تكون المعلومات دقيقة تمامًا وهذه العقبة ذات صلة خاصة إذا كان هناك نقص في التنوع في مجموعة البيانات.
  • من المحتمل أن تبيع الشركات بيانات العملاء التي جمعتها إلى شركات ومؤسسات أخرى، ممّا يثير مخاوف بشأن الخصوصية.
  • يتطلب التنقيب عن البيانات قواعد بيانات كبيرة ممّا يجعل العملية صعبة الإدارة.

ما هي عيوب عملية التنقيب عن البيانات

1- أدوات التنقيب معقدة وتتطلب التدريب على استخدامها

تحليلات البيانات عملية معقدة وغالبًا ما تتطلب أشخاصًا مدربين لاستخدام الأدوات، حيث يمكن للحاجز أمام إدخال تحليلات البيانات أن يثني الشركات الصغيرة عن استخدام هذه التكنولوجيا، وقد يكون من الصعب أيضًا العثور على بيانات مناسبة ليست بالفعل خاصة أو مملوكة بطبيعتها.

2- تقنيات التنقيب ليست معصومة عن الخطأ

التنقيب عن البيانات لا يوفر دائمًا معلومات دقيقة، وهناك العديد من الطرق المختلفة لتحليل البيانات وبعضها أكثر دقة من البعض الآخر، وعلى سبيل المثال تعتمد النماذج التنبؤية على الافتراضات بأنّه سيتم العثور على أنماط بيانات معينة ويمكن أن يؤدي هذا إلى ثقة مفرطة في دقة التنبؤ عندما لا يكون مدعومًا بجميع الأدلة المتاحة.

هناك مشكلة أخرى وهي عندما تكون هناك معلومات مفقودة في قاعدة بيانات يجب احتسابها لإنشاء تحليل كامل، واعتمادًا على كيفية استخدامها تتوفر أدوات التنقيب المختلفة، وكل منهم لديه خوارزمية وتصميم مميز ولن يكون اختيار الأداة المناسبة ممكنًا إلّا بالمعرفة الفنية المطلوبة، لذلك من الضروري إرسال متخصص مختص للتعامل مع اختيار الأداة.

يتم إنتاج المعلومات الدقيقة في بعض الأحيان فقط من خلال التنقيب في البيانات، حيث هناك طرق عديدة لتحليل البيانات بعضها أكثر دقة من البعض الآخر، وعندما تدعم بعض الحقائق فقط التوقعات فقد يؤدي ذلك إلى المبالغة في تقدير مدى دقتها، كما تنشأ مشكلة أخرى عندما تحتوي قاعدة البيانات على بيانات مفقودة يجب أخذها في الاعتبار لإنتاج تحليل دقيق.

3- مخاوف الخصوصية المتزايدة

أحد العيوب الرئيسية للتنقيب في البيانات هو المخاوف المتعلقة بالخصوصية، وتقليديًا لا تشارك الشركات البيانات الشخصية إلّا مع الشركات الأخرى من أجل تقديم خدمة، وفي الوقت الحاضر يشعر الكثير من الناس بالقلق من بيع معلوماتهم الشخصية إلى أطراف ثالثة دون علمهم، وتجمع الشركات معلومات حول عملائها بعدة طرق لفهم اتجاهات سلوك الشراء لديهم وعلى الرغم من أنّ الأنشطة التجارية لا تدوم إلى الأبد فقد يتم الاستحواذ عليها من قبل آخرين في بعض الأيام أو قد تختفي.

وقد لا يشعر بعض الأشخاص بالراحة عند معرفة أنّ الحكومة يمكنها تتبع معلومات معينة عنهم وكيفية استخدامهم لأجهزتهم ونظرًا لأنّه يتم جمع بيانات ضخمة في أنظمة التنقيب عن البيانات، فقد يتم اختراق بعض هذه البيانات المهمة للغاية من قبل المتسللين كما حدث مع العديد من الشركات الكبرى مثل: (Ford Motors) و(Sony) وما إلى ذلك.

ازدادت المخاوف بشأن الخصوصية الشخصية بشكل كبير مؤخرًا خاصةً عندما يزدهر الإنترنت بالشبكات الاجتماعية والتجارة الإلكترونية والمنتديات والمدونات بسبب مشكلات الخصوصية، حيث يخشى الأشخاص أن يتم جمع معلوماتهم الشخصية واستخدامها بطريقة غير أخلاقية والتي من المحتمل أن تسبب لهم الكثير من المتاعب.

4- الحاجة إلى قواعد بيانات كبيرة

يُعد التنقيب عن البيانات أحد أقوى الأدوات في صندوق أدوات البائع ولكن له عيوبه، وأحد هذه العوائق هو أنّ التنقيب عن البيانات يتطلب قواعد بيانات كبيرة لتكون فعالة، وعلى سبيل المثال إذا كانت قائمة البريد الإلكتروني تحتوي على (100) شخص فقط فلن توفر البيانات الواردة من رسائل البريد الإلكتروني هذه معلومات كافية لاستخراج البيانات، ومن ناحية أخرى إذا كانت القائمة تحتوي على (100000) شخص فسيكون هناك المزيد من المعلومات المتاحة وسيكون التنقيب عن البيانات أكثر نجاحًا.

5- عملية التنقيب باهظة الثمن

يمكن أن يكون التنقيب عن البيانات عملية مكلفة للغاية، وعلى سبيل المثال يتعين على الشركات تعيين موظفين إضافيين ومتخصصين في التكنولوجيا لضمان إجراء التنقيب عن البيانات بشكل صحيح، ويتعين على العديد من الشركات الاستثمار في برامج استخراج البيانات المتقدمة والتي يمكن أن تكون باهظة الثمن أيضًا، كما تفوق تكاليف التنقيب في البيانات بشكل عام الفوائد التي تعود على معظم الشركات الصغيرة لأنّها لا تنتج ما يكفي من الإحصاءات القيّمة.

6- سوء استخدام المعلومات

  • في نظام التنقيب عن البيانات تكون إمكانية اتخاذ تدابير السلامة والأمن ضئيلة للغاية، وهذا هو السبب في أنّ البعض قد يسيء استخدام هذه المعلومات لإلحاق الأذى بالآخرين على طريقتهم الخاصة.
  • لذلك يحتاج نظام التنقيب عن البيانات هذا إلى تغيير مسار عمله، بحيث يمكنه تقليل نسبة إساءة استخدام المعلومات من خلال عملية التنقيب.
  • بالإضافة إلى ذلك فإنّ تقنية استخراج البيانات ليست دقيقة تمامًا، لذلك إذا تم استخدام معلومات غير دقيقة في اتخاذ القرار فسوف يتسبب ذلك في عواقب صعبة.
  • على الرغم من أنّ التنقيب في البيانات قد أنشأ إطارًا لجمع البيانات البسيطة بتقنياته إلّا أنّ دقته لا تزال مقيدة، حيث يمكن أن يكون اتخاذ القرارات معقدًا بسبب المعلومات الخاطئة التي تم الحصول عليها.

7- جمع معلومات إضافية ليس لها صلة

تخلق الوظائف الرئيسية للأنظمة مساحة مناسبة للمعلومات المفيدة وعلى الرغم من وجود مشكلة في عملية جمع المعلومات هذه إلّا أنّ عملية جمع المعلومات قد تكون مربكة قليلاً للجميع، لذلك من الضروري للغاية الحفاظ على حد أدنى من الحد لجميع تقنيات التنقيب عن البيانات.

8- الحاجة لشخص ماهر للتنقيب عن البيانات

  • بشكل عام الأدوات الموجودة للتنقيب عن البيانات قوية جدًا ولكنّها تتطلب شخصًا متخصصًا ماهرًا للغاية لإعداد البيانات وفهم المخرجات.
  • نظرًا لأنّ التنقيب عن البيانات يبرز الأنماط والعلاقات المختلفة التي يجب على المستخدم تحديد أهمية أنماطها وصلاحيتها لذلك فإنّ الحاجة لشخص ماهر أمر لا بد منه.

البيانات قيمة بلا شك، ومع ذلك فإنّ تحليلها ليس بالأمر السهل ومع التوسع الأسي للبيانات يلزم وجود تقنية لاستخراج المعلومات ذات الصلة التي تؤدي إلى رؤى قابلة للاستخدام، وهذا هو المكان الذي يأتي فيه التنقيب عن البيانات بحيث يعمل التنقيب عن البيانات بمثابة العمود الفقري لذكاء الأعمال وتحليلات البيانات.

المصدر: Data Science from Scratch: First Principles with Python by Joel Grus / 2nd EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionFoundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First Edition


شارك المقالة: