خوارزمية الارتباط في التنقيب عن البيانات

اقرأ في هذا المقال


تُستخدم عملية التنقيب عن البيانات للحصول على النمط والاحتمالات من مجموعة البيانات الكبيرة نظرًا لاستخدامها بشكل كبير في الأعمال للتنبؤ بالاتجاهات إلى جانب ذلك، يتم استخدامها أيضًا في مجالات مثل: السوق والتصنيع والتمويل والتنبؤات والتحليلات باستخدام الأدوات والتقنيات مثل لغة (R) واستخراج بيانات (Oracle).

ما هي خوارزمية الارتباط في التنقيب عن البيانات

قواعد الارتباط في عملية التنقيب عن البيانات: هو أسلوب أساسي للتعلم الآلي يساعد على إظهار احتمالية العلاقات بين عناصر البيانات ضمن مجموعات البيانات الكبيرة في أنواع مختلفة من قواعد البيانات، ويحتوي تنقيب قواعد الارتباط على عدد من التطبيقات ويُعتمد على نطاق واسع للمساعدة في اكتشاف ارتباطات المبيعات في بيانات المعاملات أو في مجموعات البيانات الطبية.

في علم البيانات، تُستخدم قواعد الارتباط للعثور على الارتباطات والتواجد المشترك بين مجموعات البيانات ويتم استخدامها بشكل مثالي لشرح الأنماط في البيانات من مستودعات المعلومات التي تبدو مستقلة، مثل: قواعد البيانات المترابطة وقواعد بيانات المعاملات، ويُشار أحيانًا إلى فعل استخدام قواعد الارتباط باسم “مجموعات التنقيب”.

كيفية عمل خوارزمية الارتباط في التنقيب عن البيانات

تنطوي عملية التنقيب عن البيانات لقواعد الارتباط على توظيف نماذج التعلم الآلي لتحليل المعلومات من أجل أنماط المعلومات الهائلة ويحدد ما إذا كانت اقترانات أم لا التي تعرف بقواعد الارتباط، وتتضمن قاعدة الارتباط مجموعة من الأجزاء:

  • سابقة (if): وهي عنصر مرتبط يتم العثور عليه على فترات زمنية بين البيانات والعنصر المقابل هو عنصر مرتبط تم العثور عليه داخل المجموعة مع العنصر السابق.
  • النتيجة (then).

ويتم قياس قوة قاعدة ارتباط معينة من خلال عاملين رئيسيين وهما الدعم والثقة، حيث يشير الدعم إلى عدد المرات التي تظهر فيها قاعدة معينة في قاعدة البيانات التي يتم تنقيبها، وتشير الثقة إلى عدد المرات التي تثبت فيها قاعدة معينة أنّها صحيحة في الممارسة العملية، وقد تُظهر القاعدة ارتباطًا قويًا في مجموعة البيانات لأنّها تظهر كثيرًا ولكنّها قد تحدث بشكل أقل عند تطبيقها وستكون هذه حالة دعم مرتفع ولكن ثقة منخفضة.

على العكس من ذلك قد لا تبرز القاعدة بشكل خاص في مجموعة البيانات ولكنّ التحليل المستمر يظهر أنّها تحدث كثيرًا، حيث ستكون هذه حالة ثقة عالية ودعم منخفض، كما يساعد استخدام هذه المقاييس المحللين على فصل السببية عن الارتباط ويسمح لهم بتقييم قاعدة معينة بشكل صحيح، ومعلمة القيمة الثالثة المعروفة باسم قيمة الرفع هي نسبة الثقة إلى الدعم وإذا كانت قيمة الرفع قيمة سالبة فهناك ارتباط سلبي بين نقاط البيانات، وإذا كانت القيمة موجبة فهناك ارتباط موجب وإذا كانت النسبة تساوي (1) فلا يوجد ارتباط.

خوارزميات قواعد الارتباط في عملية التنقيب عن البيانات

1. خوارزمية Apriori

(Apriori) هي الصيغة المنتسبة للتنقيب المتكرر لمجموعة العناصر وتعلم قواعد الارتباط عبر قواعد البيانات النسبية، حيث ينتج عن ذلك خصائص فردية متكررة في البيانات، ويمدها إلى مجموعات عناصر أكبر وأكبر طالما أن هذه العناصر تبدو كافية بشكل كافٍ مع البيانات.

بالإضافة إلى ذلك، فإنّ العناصر المتكررة التي يتم التحقق منها بواسطة (Apriori) لن تؤكد قواعد الارتباط التي تسلط الضوء على الاتجاهات في البيانات، حيث يستخدم استراتيجية بحث واسعة النطاق لحساب دعم مجموعات العناصر ويستخدم أداء جيل مرشح يستغل خاصية الإغلاق التنازلي للدعم.

2. خوارزمية Eclat

يمثل (Eclat) للمعادلة تحويل الفئة، حيث دعمت صيغة البحث العميقة أولاً تقاطع المجموعة وإنّها قابلة للتطبيق على كل إضافة متتالية إلى التنفيذ الموازي بخصائص تكبير البحث، وهذه هي الصيغة المصاحبة لتعدين الأنماط المتكرر المدعوم بعمق البحث الأول عبر شبكة مجموعة العناصر.

3. خوارزمية النمو FP

يُعرف أيضًا باسم النمط المتكرر وإنّه تحسين مرتبط بصيغة الأبريوري (Apriori) وصيغ نمو (FP) مستخدمة لتحديد موقع مجموعات العناصر المتكررة بشكل رهيب المعلومات بينما ليس الجيل المرشح، وتم تصميم هذا بشكل أساسي لضغط قاعدة البيانات التي تتيح المجموعات المتكررة ثم تقسم البيانات المضغوطة إلى مجموعات من قواعد البيانات الشرطية.

ترتبط قاعدة البيانات الشرطية هذه بمجموعة متكررة ومن ثم تنطبق على التنقيب عن البيانات في كل قاعدة بيانات، ويتم ضغط مصدر البيانات باستخدام بنية بيانات تسمى شجرة (FP)، وتعمل هذه الخوارزمية في خطوتين، تتم مناقشتها على النحو التالي:

  • بناء شجرة (FP).
  • استخراج العناصر المتكررة.

4. خوارزمية AIS

باستخدام خوارزمية (AIS)، يتم إنشاء مجموعات العناصر وحسابها أثناء فحص البيانات وفي بيانات المعاملة تحدد خوارزمية (AIS) مجموعات العناصر الكبيرة التي تحتوي على معاملة، ويتم إنشاء مجموعات عناصر مرشح جديدة من خلال توسيع مجموعات العناصر الكبيرة مع عناصر أخرى في بيانات المعاملة.

5. خوارزمية SETM

تقوم خوارزمية (SETM) أيضًا بإنشاء مجموعات عناصر مرشحة أثناء قيامها بمسح قاعدة بيانات ولكن هذه الخوارزمية تحسب مجموعات العناصر في نهاية الفحص، ويتم إنشاء مجموعات العناصر المرشحة الجديدة بنفس الطريقة التي يتم بها إنشاء خوارزمية (AIS)، ولكن يتم حفظ معرف المعاملة للمعاملة المُنشأة مع مجموعة العناصر المرشحة في بنية بيانات متسلسلة.

في نهاية التمريرة يتم إنشاء عدد الدعم لمجموعات العناصر المرشحة من خلال تجميع الهيكل المتسلسل، والجانب السلبي لكل من خوارزميات (AIS) و(SETM) هو أنّه يمكن لكل منها إنشاء وحساب العديد من العناصر الصغيرة المرشحة.

أنواع قواعد الارتباط في عملية التنقيب عن البيانات

  • قواعد الارتباط متعدد العلاقات.
  • قواعد الارتباط المعممة.
  • قواعد الارتباط الكمي.
  • قواعد جمعية المعلومات المتداخلة.

حالات استخدام قواعد الارتباط في عملية التنقيب عن البيانات

1. في الطب

يمكن للأطباء استخدام قواعد الارتباط للمساعدة في تشخيص المرضى، حيث هناك العديد من المتغيرات التي يجب مراعاتها عند إجراء التشخيص، كما تشترك العديد من الأمراض في الأعراض وباعتماد قواعد الارتباط وتحليل البيانات المدعوم بالتعلم الآلي يمكن للأطباء تعيين الاحتمال الشرطي لمرض محدد من خلال مقارنة علاقات الأعراض في البيانات من الحالات السابقة، ومع إجراء التشخيصات الجديدة يمكن لنموذج التعلم الآلي تكييف القواعد لتعكس البيانات المحدثة.

2. البيع بالتجزئة

يمكن لبائعي التجزئة جمع بيانات حول أنماط الشراء وتسجيل بيانات الشراء، حيث يتم مسح الرموز الشريطية للعناصر ضوئيًا بواسطة أنظمة نقاط البيع، كما يمكن لنماذج التعلم الآلي البحث عن التواجد المشترك في هذه البيانات لتحديد المنتجات التي يُرجح شراؤها معًا، ويمكن لبائع التجزئة بعد ذلك تعديل استراتيجية التسويق والمبيعات للاستفادة من هذه المعلومات.

3. تصميم تجربة المستخدم UX

يمكن للمطورين جمع البيانات حول كيفية استخدام المستهلكين لموقع ويب يقومون بإنشائه ويمكنهم بعد ذلك استخدام الارتباطات في البيانات لتحسين واجهة مستخدم موقع الويب، من خلال تحليل المكان الذي يميل المستخدمون إلى النقر فوقه وما يزيد من فرصة تفاعلهم مع عبارة تحث المستعمل على اتخاذ قرار.

4. وسائل الترفيه

يمكن لخدمات مثل: (Netflix) و(Spotify) استخدام قواعد الارتباط لتغذية محركات توصية المحتوى الخاصة بهم، حيث تحلل نماذج التعلم الآلي بيانات سلوك المستخدم السابقة للأنماط المتكررة، وتطور قواعد الارتباط وتستخدم تلك القواعد للتوصية بالمحتوى الذي من المحتمل أن يتفاعل معه المستخدم، أو ينظم المحتوى بطريقة من المرجح أن تضع المحتوى الأكثر إثارة للاهتمام لمستخدم معين.

المصدر: Data Science from Scratch: First Principles with Python by Joel Grus / 2nd EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionFoundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First Edition


شارك المقالة: