كيفية عمل التحليلات التنبؤية
مع استمرار تزايد الطلب على البيانات الضخمة من المهم للمهنيين خاصة أولئك الذين ليس لديهم فهم لعلوم البيانات أو تحليل الأعمال أن يتعلموا أساسيات تكنولوجيا التحليلات التنبؤية وكيف تعمل.
مع استمرار تزايد الطلب على البيانات الضخمة من المهم للمهنيين خاصة أولئك الذين ليس لديهم فهم لعلوم البيانات أو تحليل الأعمال أن يتعلموا أساسيات تكنولوجيا التحليلات التنبؤية وكيف تعمل.
ما هي مهام عملية التنقيب عن البيانات 1- توصيف البيانات 2- تمييز البيانات 3- تحليل الارتباط 4- التصنيف 5- التنبؤ 6- التجميع 7- التحليل الخارجى 8- تحليل التطور
أنواع البيانات التي يمكن التنقيب عنها 1- البيانات المخزنة في قاعدة البيانات 2- بيانات مستودعات البيانات 3- بيانات المعاملات 4- أنواع أخرى من البيانات
ما هي أنواع مصادر البيانات في عملية التنقيب عن البيانات 1- الملفات المسطحة Flat Files 2- قواعد البيانات المترابطة 3- مستودع البيانات 4- قواعد بيانات المعاملات 5- قواعد بيانات الوسائط المتعددة 6- قاعدة البيانات المكانية 7- قواعد بيانات السلاسل الزمنية 8- شبكة الويب العالمية WWW 9- البيانات الناتجة من أدوات عملية التنقيب عن البيانات
إعداد البيانات هو عملية جمع البيانات ودمجها وتنظيمها بحيث يمكن استخدامها في الأعمال، وتعمل مرحلة إعداد البيانات على حل مثل العديد من مشكلات البيانات؛ لضمان أنّ مجموعة البيانات المستخدمة في مرحلة النمذجة مقبولة وذات جودة محسنة.
لقد شاع في العالم الرقمي العديد من المصطلحات والعبارات الجديدة بحيث يسهل الشعور بالإرهاق أو فقدان المسار، حيث يُعد التنقيب عن البيانات والتعلم الآلي كلاهما من أساليب علوم الكمبيوتر لاكتشاف الأنماط في البيانات،
اعتمادًا على نماذج المجموعات في عملية التنقيب عن البيانات، يمكن للعديد من المجموعات تقسيم المعلومات إلى مجموعة بيانات، حيث أنّ كل طريقة في خوارزمية التجميع لها مزاياها وعيوبها ويعتمد اختيار الخوارزمية على خصائص وطبيعة مجموعة البيانات.
تجلب خوارزمية أشجار القرار فئة مختلفة تمامًا من اللاخطية وتخدم حل المشكلات على اللاخطية في عملية التنقيب عن البيانات، وهذه الخوارزمية هي أفضل خيار لتقليد تفكير البشر على مستوى القرار وتصويره في شكل رسوم بيانية رياضية.
إنّ قواعد الارتباط في عملية التنقيب عن البيانات مطلوبة بشكل نموذجي لتلبية الحد الأدنى من الدعم المحدد من قبل المستخدم والحد الأدنى من الثقة الذي يحدده المستخدم في وقت ثابت، وهناك مجموعة كبيرة من الخوارزميات المخطط لها لإنشاء قواعد الارتباط.
يشير التنقيب عن البيانات المكانية إلى عملية استخراج المعرفة والعلاقات المكانية والأنماط المثيرة للاهتمام التي لا يتم تخزينها على وجه التحديد في قاعدة بيانات مكانية، ومن ناحية أخرى يشير التنقيب عن البيانات الزمنية إلى عملية استخراج المعرفة
تلخيص البيانات هو مصطلح بسيط لاستنتاج قصير لنظرية أو فقرة كبيرة، ويتم كتابته في الكود وفي النهاية وتعلن النتيجة النهائية في شكل تلخيص البيانات، وتلخيص البيانات له أهمية كبيرة في التنقيب عن البيانات وكما في الوقت الحاضر يعمل الكثير من المبرمجين والمطورين على نظرية البيانات الضخمة.
يتم إنشاء دفق البيانات من خلال مولدات دفق البيانات المختلفة، وبعد ذلك يتم تنفيذ تقنيات التنقيب عن البيانات لاستخراج المعرفة والأنماط من تدفقات البيانات، لذلك تحتاج هذه التقنيات إلى معالجة تدفقات بيانات متعددة الأبعاد ومتعددة المستويات وممر واحد وعبر الإنترنت.
كل من تحليل البيانات وممارسات التنقيب عن البيانات موجودة بالفعل في كل مكان وهي ضرورية في غالبية الشركات، حيث يتم استخدامها من قبل صناع القرار في مجال الأعمال، وفي حين أن استخدام تحليل البيانات والتنقيب عن البيانات
لقد كان تكامل البيانات جزءًا لا يتجزأ من عمليات البيانات لأنّه يمكن الحصول على البيانات من عدة مصادر، وإنّها إستراتيجية تدمج البيانات من عدة مصادر لإتاحتها للمستخدمين في عرض موحد واحد يوضح حالتهم، وتوجد مصادر اتصال بين الأنظمة التي يمكن أن تتضمن قواعد بيانات متعددة أو مكعبات بيانات أو ملفات ثابتة.
التنقيب في البيانات هو المفهوم الذي يتخذ تدابير للتنقيب في البيانات وتحليل العلاقة ونمط التغييرات في البيانات وبالتالي يتم استخدامه أيضًا من قبل المؤسسات للتنبؤ بخوارزميات زيادة الأعمال أو انخفاضها،
يتم إنشاء مستودع البيانات لدعم وظائف الإدارة بينما يتم اعتماد التنقيب عن البيانات لاستخراج المعلومات والأنماط المفيدة من البيانات وتخزين البيانات هو عملية تجميع المعلومات في مستودع بيانات.
تعمل المعالجة المسبقة للبيانات على تحويل البيانات إلى شكل تتم معالجته بسهولة وفعالية أكبر في استعمال البيانات والتعلم الآلي ومهام علوم البيانات الأخرى، وتُستخدم التقنيات عمومًا في المراحل الأولى من التعلم الآلي وخط أنابيب تطوير الذكاء الاصطناعي لضمان نتائج دقيقة.
دعمت (SQL) التنقيب عن البيانات منذ إصدارها في عام 2000م وتتضمن (SQL Data Mining) العديد من الخوارزميات مثل طرق التجميع والشبكات العصبية والانحدار اللوجستي والانحدار الخطي وأشجار القرار ومصنفات (Bayes)، وتتضمن جميع النماذج صورًا مدمجة للمساعدة في تطوير النماذج وتحسينها وتقييمها.
مع التطورات في تنقيب البيانات دخل مفهوم توزيع البيانات (DDM) حيز التنفيذ، حيث ينطوي التنقيب عن البيانات الموزعة على استخراج مجموعات البيانات بغض النظر عن مواقعها المادية، ويتمثل دورها الرئيسي في استخراج المعلومات من قواعد البيانات غير المتجانسة الموزعة واستخدامها في صنع القرار.
تعد معالجة البيانات المهيكلة أبسط مقارنة بالبيانات غير المهيكلة لأنّها تتكون من تنسيق واحد محدد فقط، ومع ذلك نظرًا للتقدم التكنولوجي يمكن للعديد من أدوات التنقيب عن البيانات معالجة البيانات غير المهيكلة بسلاسة، مثل (Talkwalker Analytics) و(Orange) و(RapidMiner).
في الواقع تستعد تطبيقات التنقيب عن البيانات لتصبح المستهلك المسيطر للحوسبة الفائقة في المستقبل القريب، حيث هناك ضرورة لتطوير خوارزميات متوازية فعالة لتقنيات استخراج البيانات المختلفة، ومع ذلك فإنّ تصميم مثل هذه الخوارزميات يمثل تحديًا.
إنّ تقنية تجميع البيانات (Binning) يُطلق عليها أيضًا التميية وهي تقنية لتقليل العلاقة الأساسية للبيانات المستمرة والمنفصلة ويجمع Binning القيم المرتبطة معًا في صناديق لتقليل عدد القيم المميزة، ويمكن لـ (Binning) تطوير قيمة النموذج من خلال تحسين العلاقة بين السمات.
يمكن أن تكون مهمة التنقيب عن البيانات تنبؤية ووصفية وإلزامية، حيث أنّ التنقيب الوصفي ينطوي على إيجاد أنماط أو ارتباطات مثيرة للاهتمام تتعلق بالبيانات، وفي المقابل ينطوي التنقيب التنبئي على التنبؤ وتصنيف البيانات التي تم جمعها في الماضي.
يتم إجراء عملية تحليل التنقيب عن البيانات باستخدام خصائص محور التحليل، حيث يمكن أن تكون هذه الخصائص خاصية فريدة لمكون التركيز وفي بعض الأحيان يمكن أن تكون أيضًا خصائص ذات مستوى أعلى من مستوى مكون التركيز.
أثناء التنقيب في البيانات ستجد أنّ الاتصال بين متغير الفئة ومجموعة السمات غير محدد، وهذا يعني أنّه لا يمكن افتراض تسمية الفصل لسجل الاختبار بيقين مطلق حتى لو كانت مجموعة السمات هي نفسها أمثلة التدريب
إنّ التصنيف والتنبؤ هُما طريقتان رئيسيتان تستخدمان لعملية التنقيب عن البيانات، حيث يم استخدام هاتين الطريقتين لتحليل البيانات ولاستكشاف المزيد حول البيانات غير المعروفة، والتصنيف والتنبؤ هما شكلان من أشكال التنقيب في البيانات
من خلال طرق التجميع المختلفة لعملية التنقيب عن البيانات يمكن تجميع البيانات في مجموعات، وهذه المهمة ضرورية لفهم العلاقة بين مجموعات البيانات الخاصة، ومع ذلك فإنّ طرق الرسم البياني العنقودي في عملية التنقيب في البيانات لها عيوبها المختلفة.
باستخدام التنقيب عن البيانات هناك العديد من المزايا التي تساعد على تحسين العملية المحددة وفي بعض الحالات ويؤدي ذلك إلى توفير التكاليف، ويستخدم التنقيب عن البيانات بشكل شائع للوصول إلى كمية كبيرة من البيانات عن الطرق والاتجاهات.
منذ إنشاء عملية تقييم الأنماط في التنقيب عن البيانات يتم إجراء قدر كبير من الأبحاث في مجال التنقيب عن الأنماط التي تستهدف أنواعًا مختلفة من الأنماط بالإضافة إلى المشكلات والتحديات التي تمت مواجهتها أثناء استخراجها
مع استخدام خوارزميات عملية التنقيب عن البيانات بشكل بارز يساعد البعض الآخر في استخراج البيانات والتعلم، حيث إنّه يدمج تقنيات مختلفة بما في ذلك التعلم الآلي والإحصاءات، والتعرف على الأنماط والذكاء الاصطناعي وأنظمة قواعد البيانات.