ما هي عملية تنقيب الأنماط المتسلسلة في علم البيانات

اقرأ في هذا المقال


تسبب القوة المتزايدة لتكنولوجيا الكمبيوتر كمية كبيرة من البيانات والتخزين بحيث تتزايد قواعد البيانات بسرعة وفي هذا العالم المحوسب يتغير كل شيء عبر الإنترنت وتتزايد البيانات بشكل كبير، كما تأتي البيانات بأشكال وأحجام مختلفة ويتم جمعها بطرق مختلفة، وهو تنقيب الأنماط القابل للتطبيق في تقييم البيانات للعمليات التجارية والصناعات المتنوعة.

ما المقصود بعملية تنقيب الأنماط المتسلسلة

التنقيب في البيانات له أنواع مختلفة من الأنماط و”تنقيب الأنماط المتسلسل” هو أحدها، حيث يتم تقديم هذا المفهوم لقواعد بيانات معاملات التنقيب، والأنماط المتكررة هي أنماط مثل العناصر أو العناصر اللاحقة أو الهياكل الفرعية التي تظهر بشكل متكرر في قاعدة البيانات.

كما أنّها عملية تحليلية تجد الأنماط المتسلسلة أو الارتباطات أو الهياكل السببية من قواعد البيانات في قواعد البيانات المختلفة بحيث تهدف هذه العملية إلى العثور على العنصر الذي يتكرر حدوثه في المعاملة، ومن خلال الأنماط المتسلسلة يمكن تحديد العناصر المترابطة بقوة معًا ويمكن تحديد الخصائص والارتباطات المتشابهة فيما بينها، ومن خلال القيام بالتنقيب المتسلسل في البيانات يمكن المضي قدمًا في التجميع والارتباط.

يمكن إجراء التنقيب المتسلسل عن البيانات باستخدام قواعد الارتباط مع خوارزميات معينة من (eclat) و(apriori)، وعمليات البحث المتسلسلة عن أنماط التنقيب عن العلاقات المتكررة في مجموعة البيانات، وكما أنّه يساعد في العثور على انتظام البيانات لعمل برنامج معالجة سريع بواجهة مستخدم ويستخدم لفترة طويلة دون أي خطأ.

إنّ تنقيب الأنماط المطلوبة المتسلسلة أو الارتباطات أو الهياكل السببية من مجموعات البيانات الموجودة في أنواع مختلفة من قواعد البيانات مثل قواعد البيانات المترابطة وقواعد بيانات المعاملات ومستودعات البيانات الأخرى، وبالنظر إلى مجموعة من المعاملات تهدف هذه العملية إلى إيجاد القواعد التي تمكن من التنبؤ بحدوث عنصر معين بناءً على حدوث عناصر أخرى في المعاملة.

خصائص عملية تنقيب الأنماط المتسلسلة

الأنماط المتسلسلة هي مجموعات العناصر أو التكرارات اللاحقة أو التركيبات الفرعية التي تظهر في مجموعة البيانات بتردد لا يقل عن عتبة يحددها المستخدم، وعلى سبيل المثال مجموعة العناصر التي تظهر معًا بشكل متكرر في مجموعة بيانات المعاملة وهي مجموعة عناصر متكررة، والنتيجة اللاحقة إذا كانت تحدث بشكل متكرر في قاعدة بيانات محفوظات التسوق، وهي نمط تسلسلي (متكرر).

يمكن أن تشير البنية التحتية إلى أشكال هيكلية مختلفة مثل: الرسوم البيانية الفرعية أو الأشجار الفرعية أو الشرائح الفرعية والتي يمكن دمجها مع مجموعات العناصر أو العناصر اللاحقة، وإذا كانت البنية التحتية تحدث بشكل متكرر في قاعدة بيانات الرسم البياني، فإنّها تسمى “النمط الهيكلي”.

ويلعب العثور على الأنماط المتسلسلة دورًا أساسيًا في جمعيات التنقيب والارتباطات والعديد من العلاقات الأخرى المثيرة للاهتمام بين البيانات، وعلاوةً على ذلك فهو يساعد في فهرسة البيانات والتصنيف والتجميع ومهام التنقيب عن البيانات الأخرى أيضًا، ويُعد التنقيب المتكرر عن الأنماط مهمة ضرورية للتنقيب عن البيانات وموضوعًا مركزًا في أبحاث التنقيب عن البيانات.

كيف تدعم عملية تنقيب الأنماط المتسلسة عملية تحليل البيانات

1- تحليل بيانات البيع والتسويق المتقاطع

يساعد في فحص الارتباط بين العناصر المشتراة في عملية شراء واحدة، ولتحديد الأعمال التجارية التي تكمل الأعمال التجارية والتعامل معها وتجاهل المنافسين، وعلى سبيل المثال يدخل المصنعون ووكلاء السيارات في حملات تسويق مشتركة مع شركات الغاز والنفط لأسباب واضحة.

2- تصميم الكتالوجات

تم تصميم الكتالوجات بحيث تعمل عناصر الاختيار كمكملات متبادلة، ممّا يؤدي في النهاية شراء عنصر ما إلى شراء عنصر آخر وبالتالي يكون بمثابة مكملات أو وثيق الصلة.

3- العلاجات الطبية

يتم وصف مجموعة الأمراض المدرجة والمشخصة لكل مريض على أنّها معاملة، ويمكن من خلالها توقع الأمراض التي يحتمل حدوثها بالتتابع أو في وقت واحد.

كيفية توسيع التنقيب عن البيانات لاكتشاف الأنماط المتسلسلة

تتمثل فكرة اكتشاف الأنماط المتسلسلة في العثور على الأحداث التي تحدث بشكل متكرر في قواعد البيانات الكبيرة، حيث يمكن أن تكون تقنيات التنقيب عن البيانات مفيدة في مجالات مختلفة، وعلى سبيل المثال في أنظمة التوصية والتجارة الإلكترونية وتُعد مجموعات شراء المنتجات التي تحدث بشكل متكرر ضرورية في نمذجة تفضيلات المستخدم، وفي المجال البيئي يمكن استخدام أنماط مجموعات الأنواع التي تحدث بشكل متكرر للكشف عن نظرة ثاقبة لديناميكيات تفاعل الأنواع.

على مدى السنوات القليلة الماضية ركزت عملية تنقيب الأنماط الأكثر شيوعًا على كفاءة (سرعة) خوارزميات التنقيب، ومع ذلك في حين أنّ كفاءة مهمة التنقيب لم تُعد تشكل مشكلة، ولا تزال هناك حاجة ملحة للطرق التي تستمد نتائج مدمجة وعالية الجودة مع خصائص تطبيق جيدة.

وهناك مشكلة مهمة في التنقيب عن البيانات في مختلف المجالات مثل: الطب والاتصالات وشبكة الويب العالمية وهي اكتشاف الأنماط، والتنقيب المتسلسل للأنماط هو موضوع البحث المركّز في تحليل قواعد الارتباط وخوارزمية (Apriori) هي خوارزمية كلاسيكية لتنقيب قواعد الارتباط، ويتم اقتراح الكثير من الخوارزميات لقواعد مجموعات التنقيب وتحولاتها على أساس خوارزمية (Apriori).

المصدر: Data Science from Scratch: First Principles with Python by Joel Grus / 2nd EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionFoundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First Edition


شارك المقالة: