كيفية التنقيب عن البيانات التنبؤية

اقرأ في هذا المقال


في كثير من الأحيان ما يتجه متخصصو تكنولوجيا المعلومات عن التنقيب عن البيانات التنبؤية جنبًا إلى جنب مع التحليلات التنبؤية أو يقولون إن التنقيب عن البيانات التنبؤية يدعم التحليلات التنبؤية، والتحليلات التنبؤية هي استخدام البيانات للتنبؤ بالنتائج والتنقيب عن البيانات هو عملية استعراض قواعد بيانات النظام وإيجاد البيانات ذات الصلة لتحليلها.

ما المقصود بالتنقيب عن البيانات التنبؤية

التنقيب عن البيانات التنبؤية: هو التنقيب عن البيانات الذي يتم بهدف اعتماد ذكاء الأعمال أو البيانات المختلفة للتوقع بأشكالها أو التوقع بالمسارات، حيث يمكن أن يساعد هذا النوع من التنقيب في البيانات قادة الأعمال على اتخاذ قرارات أفضل ويمكن أن يضيف قيمة إلى جهود فريق التحليلات.

مبدأ التنقيب عن البيانات التنبؤية

إنّ التنقيب عن البيانات هو تقنية يمكن من خلالها العثور على أنماط مخفية في مجموعة من البيانات ولا يؤدي التنقيب الحقيقي عن البيانات إلى تغيير طريقة عرض البيانات فحسب، بل يكتشف بالفعل العلاقات غير المعروفة سابقًا بين البيانات وعادةً ما يتم تنفيذ استخراج البيانات كبرنامج في أنظمة قواعد البيانات أو بالاشتراك معها، وهناك مكونان رئيسيان (وبعض المكونات الثانوية) لعملية استخراج البيانات وهي نماذج البناء ونماذج النشر.

يشير مفهوم النشر في التنقيب عن البيانات التنبؤية إلى تطبيق نموذج للتنبؤ أو التصنيف للبيانات الجديدة، وبعد تحديد نموذج أو مجموعة نماذج مناسبة (تم بناؤها أو تدريبها) لتطبيق معين، ويتم نشر هذه النماذج (تسجيلها) بحيث يمكن الحصول على التنبؤات أو التصنيفات المتوقعة بسرعة للبيانات الجديدة.

تنشر العديد من أنظمة التنقيب عن البيانات التقليدية نماذج استخراج البيانات من خلال واجهات برمجة التطبيقات (APIs)، حيث تقوم العديد من أنظمة التنقيب عن البيانات التقليدية الأخرى، بالتسجيل خارج قاعدة البيانات عن طريق نقل البيانات والنتيجة داخل وخارج قاعدة البيانات.

كيفية التنقيب عن البيانات التنبؤية

تستخدم عملية التنقيب عن البيانات التنبؤية أنظمة إدارة قواعد البيانات النموذجية لغات الاستعلام مثل لغة الاستعلام الهيكلية (SQL) لإنشاء قواعد البيانات وتعديلها والاستعلام عنها، حيث يؤدي استخدام واجهات برمجة التطبيقات لنشر نماذج استخراج البيانات في أنظمة إدارة قواعد البيانات إلى تعقيد إضافي كبير لمستخدم هذه الأنظمة لاستخراج البيانات، وذلك لأنّ (API) عبارة عن مجموعة إضافية من الوظائف التي يجب استخدامها بالإضافة إلى عبارات (SQL).

بالإضافة إلى ذلك يتسبب هذا التقسيم في أن يكون أداء تسجيل نموذج التنقيب عن البيانات بطيئًا نسبيًا وبسبب النفقات العامة المتضمنة، ومن الممارسات الشائعة أن يتم إنشاء نماذج التنقيب عن البيانات داخل بيئة اختبار بواسطة محللي التنقيب عن البيانات، حيث في العديد من الشركات من الأهمية بمكان نشر هذه النماذج في بيئة إنتاج وحيث يتم استخدامها لتسجيل بيانات غير معروفة.

تحتاج عملية النشر هذه إلى تضمين النموذج وجميع التحويلات التي تم تطبيقها على بيانات الإدخال الأصلية لعملية الإنشاء، كما أنّه تقليديًا يجب على المستخدم تتبع جميع التحولات المطلوبة والتأكد من تطبيقها بشكل صحيح عند النشر، وقد تكون هذه مهمة صعبة وتستغرق وقتًا طويلاً، وتظهر الحاجة إلى تقنية تنقيب البيانات التي توفر سهولة أكبر في النشر والمرونة والأداء من استخدام واجهة برمجة التطبيقات لنشر وظائف تنقيب البيانات في نظام إدارة قواعد البيانات.

وظائف التنقيب عن البيانات التنبؤية

تتضمن وظائف تنقيب البيانات التي يتم إجراؤها بواسطة عبارات لغة الاستعلام المهيكلة تسجيل نموذج تعسفي لاستخراج البيانات، كما يمكن بناء نموذج التنقيب عن البيانات المستخدم بواسطة عبارة لغة الاستعلام المهيكلة إما قبل استدعاء عبارة لغة الاستعلام المهيكلة أو البناء أثناء تنفيذ عبارة لغة الاستعلام المهيكلة، حيث تشتمل عبارات لغة الاستعلام المهيكلة التي تحتوي على وظائف التنقيب عن البيانات على واحدة على الأقل من وظيفة تحدد تنبؤ التنقيب في البيانات.

كما أنّها وظيفة تحدد أن احتمال تنبؤ التنقيب في البيانات يجب تحديده وهي وظيفة تحدد تكلفة البيانات يتم تحديد تنبؤات التعدين ويتم إنشاء وظيفة تحدد مجموعة من تنبؤات التنقيب في البيانات، وهي وظيفة تحدد أنه يجب الحصول على تفاصيل تنبؤ التنقيب في البيانات وتحدد أنّ فاصل الثقة لتنبؤ التنقيب في البيانات هو يتم تحديدها ومعرف الكتلة المطلوب الحصول عليها وتحدد أنّه يجب تحديد الثقة في عضوية صف إدخال في مجموعة معينة وأنّ المجموعة التي تحتوي على جميع المجموعات التي ينتمي إليها صف معين هي ليتم إنشاؤها.

كما يتضمن النظام نظام إدارة قاعدة بيانات متصل بمجموعة متنوعة من مصادر البيانات، وقد يكون النظام متصلاً بمجموعة من مصادر البيانات الداخلية أو الخاصة، وقد تكون الأنظمة أي نوع من مصادر البيانات أو المستودعات أو المخازن بما في ذلك تلك التي لا يمكن الوصول إليها بشكل عام، وتتضمن أمثلة هذه الأنظمة أنظمة مراقبة المخزون وأنظمة المحاسبة وأنظمة الجدولة وما إلى ذلك.

يمكن أيضًا توصيل النظام بمجموعة من مصادر البيانات المسجلة الملكية التي يمكن الوصول إليها بطريقة ما عبر الإنترنت، وقد تكون الأنظمة متاحة للجمهور عبر الإنترنت، وقد تكون متاحة بشكل خاص باستخدام تقنية اتصال آمن أو قد تكون متاحة للعامة والخاصة، كما يمكن أيضًا توصيل النظام بأنظمة أخرى عبر الإنترنت.

استخدام نظام إدارة قواعد البيانات في التنقيب عن البيانات التنبؤية

يتم تضمين وظيفة استخراج البيانات في نظام إدارة قواعد البيانات (DBMS) ويتضمن مكونين رئيسيين هي البيانات ومحرك (DBMS)، حيث تتضمن البيانات التي يتم ترتيبها عادةً كمجموعة من جداول البيانات بالإضافة إلى الفهارس والهياكل الأخرى التي تسهل الوصول إلى البيانات، ويشتمل محرك (DBMS) عادةً على برنامج يتلقى الاستعلامات الخاصة بقاعدة البيانات ويعالجها  ويحصل على البيانات التي تلبي الاستفسارات، ويقوم بإنشاء وإرسال الردود على الاستعلامات.

يتضمن محرك (DBMS) أيضًا كتلة تنقيب البيانات والتي توفر لمحرك (DBMS) القدرة على الحصول على البيانات وإجراء معالجة استخراج البيانات على تلك البيانات، وذلك للاستجابة لطلبات تنقيب البيانات المعالجة من مستخدم واحد أو أكثر وكما تتضمن كتلة التنقيب في البيانات وظائف (SQL) التنبؤية لتعدين البيانات، والتي تنفذ الاختراع الحالي.

كذلك توفر وظائف (SQL) للتنقيب عن البيانات التنبؤية وظيفة تسجيل النقاط كعائلة من وظائف (SQL)، بحيث تسمح وظائف تنقيب البيانات الجديدة هذه للمستخدم بتطبيق النماذج في سياق عبارات (SQL) التعسفية، وإنّ توفير وظيفة مضمنة في (SQL) للتنبؤ باستخراج البيانات له فوائد عديدة، ويصبح نشر النماذج في سياق التطبيقات الحالية أمرًا سهلاً، حيث يمكن تحسين عبارات (SQL) الحالية بسهولة باستخدام هذه الوظائف الجديدة.

كما يتم تحسين أداء تسجيل النقاط بشكل كبير خاصة في حالات تسجيل الصف الفردي، حيث يمكن الاستفادة من وظائف تنفيذ الاستعلام الحالية مثل المؤشرات المشتركة لتخزين البيانات الوصفية للنموذج مؤقتًا، ويتم أيضًا تمكين تسلسل النتائج التي تتضمن تنبؤات تنقيب البيانات، والتي لها العديد من الفوائد بما في ذلك القدرة على إرجاع بعض النتائج بسرعة إلى المستخدم النهائي.

قد تستخدم عملية التنقيب عن البيانات التنبؤية أدوات قائمة على الخوارزمية لتصفح قاعدة بيانات العملاء للنظر في المعاملات السابقة من أجل دعم النظريات المتعلقة بأحجام المعاملات المستقبلية المحتملة، وبمعنى آخر قد تساعد البيانات في توقع ما سيحدث لاحقًا في العمل ممّا يسمح لقادة الأعمال بالتخطيط وفقًا لذلك.

المصدر: Data Science from Scratch: First Principles with Python by Joel Grus / 2nd EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionFoundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First Edition


شارك المقالة: