ما هي وظيفة الارتباط التلقائي في علم البيانات

اقرأ في هذا المقال


الارتباط التلقائي هو مقياس للتشابه (الارتباط) بين نقاط البيانات المتجاورة وإنّه المكان الذي تتأثر فيه نقاط البيانات بقيم النقاط التي جاءت من قبل، وهي الدرجة التي تقارن بها ملاحظتان كدالة في الفاصل الزمني بين الملاحظات ويعد التعرف على الارتباط التلقائي في علم البيانات وإصلاح المشكلة سيكون هذا أمرًا حيويًا إذا كانت نتائج الانحدار أو أي تحليلات أخرى مناسبة.

ما المقصود بالارتباط التلقائي Autocorrelation Function

الارتباط التلقائي: هو مقياس درجة التشابه بين سلسلة زمنية معينة والنسخة المتأخرة من تلك السلسلة الزمنية خلال فترات زمنية متتالية، وإنّه مشابه لحساب الارتباط بين متغيرين مختلفين باستثناء الارتباط التلقائي ويتم حساب الارتباط بين نسختين مختلفتين (Xt) و(Xt-k) من نفس السلسلة الزمنية.

يشير الارتباط التلقائي إلى درجة الارتباط بين قيم المتغيرات نفسها عبر الملاحظات المختلفة في البيانات، حيث غالبًا ما تتم مناقشة مفهوم الارتباط التلقائي في سياق بيانات السلاسل الزمنية، والتي تحدث فيها الملاحظات في نقاط زمنية مختلفة وعلى سبيل المثال درجة حرارة الهواء المقاسة في أيام مختلفة من الشهر.

استعمالات وظيفة الارتباط التلقائي

  • يستخدم اختبار الارتباط التلقائي لاكتشاف العشوائية في المتسلسلة الزمنية، وفي العديد من العمليات الإحصائية يتم افتراض أنّ البيانات المولدة عشوائية، ولفحص العشوائية يكون هناك حاجة إلى التحقق من الارتباط التلقائي للتأخر (1).
  • لتحديد ما إذا كانت هناك علاقة بين القيم السابقة والمستقبلية للسلسلة الزمنية نحاول التأخير بين القيم المختلفة.

أنواع الارتباط التلقائي

1- الارتباط التلقائي الإيجابي

يحدث الارتباط الإيجابي الموجب عند حدوث خطأ في قيمة معينة بين قيمتين من سلاسل زمنية متأخرة بمقدار (k) متبوعًا بخطأ من نفس العلامة.

2- الارتباط التلقائي السلبي

يحدث الارتباط التلقائي السلبي عند حدوث خطأ في علامة معينة بين قيمتين من سلاسل زمنية متأخرة بمقدار (k) متبوعًا بخطأ في علامة مختلفة.

3- الارتباط التلقائي القوي

يمكننا أن نستنتج أنّ البيانات لها ارتباط تلقائي قوي إذا كانت نقاط الارتباط التلقائي مشابهة للمخططات التالية:

  • تبدأ نقاط الارتباط التلقائي بارتباط تلقائي عالٍ جدًا عند التأخر (1) ولكنه يتراجع ببطء حتى يصبح سالبًا ويبدأ في إظهار ارتباط تلقائي سلبي متزايد، ويشير هذا النوع من الأنماط إلى ارتباط تلقائي قوي والذي يمكن أن يكون مفيدًا في التنبؤ بالاتجاهات المستقبلية.
  • ينطبق افتراض العشوائية لملاءمة المربعات الصغرى على بقايا النموذج، وهذا يعني أنّه على الرغم من أن البيانات الأصلية تظهر عدم عشوائية فإنّه ينتج عنها بقايا عشوائية.

4- الارتباط التلقائي الضعيف

إنّ البيانات لها ارتباط تلقائي ضعيف إذا كانت مؤامرة الارتباط التلقائي مشابهة للمخطط التالي عند (التأخر = 1)، وفي حالة عدم وجود ارتباط تلقائي ستكون المؤامرة مشابهة لهذه المؤامرة على قيم عشوائية مع (تأخر = 1).

لماذا يحدث الارتباط التلقائي

  • الارتباط التلقائي له مجموعة واسعة من الأسباب وتشمل هذه التأثير المرحلة، حيث تؤثر التأثيرات من اختبار أو حدث سابق على النتائج، وعلى سبيل المثال تتأثر النفقات في فئة معينة بنفس فئة الإنفاق من الفترة الزمنية السابقة وسبب شائع آخر للارتباط التلقائي هو التأثير التراكمي لإزالة المتغيرات من معادلة الانحدار.
  • قد يحدث أيضًا إدخال الارتباط التلقائي في البيانات بسبب التحديد غير الصحيح للعلاقة أو الخطأ في تحديد النموذج، وعلى سبيل المثال قد تعتقد أنّ هناك علاقة خطية بين المتنبئين والاستجابات، بينما يوجد في الواقع عامل سجل أو عامل أسي في النموذج.
  • في كثير من الحالات لا يمكن تجنب الارتباط التلقائي، وهذا ينطبق بشكل خاص على العديد من العمليات الطبيعية وعند العمل مع بيانات السلاسل الزمنية فإنّ الوقت نفسه يسبب الترابط التلقائي.

كيفية كشف الارتباط التلقائي

إحدى أسهل الطرق لاكتشاف التبعية هي إنشاء مخطط مبعثر للمخلفات مقابل الوقت لملاحظة وبافتراض أنّ بياناتك مرتبة حسب الوقت، وتشير البيانات المبعثرة بشكل عشوائي إلى عدم وجود تبعية ولكن إذا كان هناك نمط ملحوظ فمن المحتمل أن بياناتك بها مشكلة تبعية، ممّا يشير إلى عدم وجود ارتباط تلقائي:

  • يمكنك أيضًا عمل مخطط ارتباط، والذي يتم دمجه أحيانًا مع مقياس الارتباط.
  • مخطط ارتباط يوضح اتجاهًا تصاعديًا ثابتًا والقيم العالية، كمؤشرات الارتباط التسلسلي.
  • نظرًا لأن الارتباط التسلسلي يبطل العديد من اختبارات الفرضيات والأخطاء القياسية، فقد ترغب في إجراء اختبار أكثر رسمية له.
  • اختبار (Durbin Watson) هو الاختبار التقليدي لاختبار الارتباط التسلسلي (AR) وهو أبسط نوع من الهياكل، حيث قد يحدث الارتباط التلقائي، والقاعدة العامة هي أنّ القيم الإحصائية لاختبار (DW) خارج النطاق من (1.5) إلى (2.5) والقيم الأقل من (1) أو أكثر من (3) هي سبب متوسط.

ملاحظة:“DW” هي اختصار لـ “Data Wrangling”.

ملاحظة:“AR” هي اختصار لـ “Attachment Regressive”.

كيفية تحسين الارتباط التلقائي

  • كوكرين-أوركوت (Cochrane-Orcutt)، هذه عملية تكرارية، ويحتوي هذا النهج الأساسي على بعض المشكلات فهو لا يعمل دائمًا وخاصةً عندما تكون الأخطاء مرتبطة تلقائيًا بشكل إيجابي، وبالإضافة إلى ذلك يتم تجاهل العينة الأولى أثناء التحويل وهي مشكلة بالنسبة للعينات الصغيرة، وطريقة (Prais-Winsten) هي طريقة بديلة تحتفظ بالعينة الأولى بمقياس مناسب.
  • (Hildreth-Lu)، وهو بديل غير تكراري مشابه لتحويل (Box-Cox)، ويقدم فنسنت جرانفيل (DSC) نهجًا مختلفًا جذريًا وأبسط للطرق المعتادة كإعادة ترتيب الملاحظات عشوائيًا، وإذا لم يؤد ذلك إلى حل المشكلة فهذا يشير إلى وجود خطأ جوهري في مجموعة البيانات وربما في الطريقة التي تم بها جمع البيانات، وفي معظم الحالات يجب أن يعمل هذا النهج وإذا لم يكن الأمر كذلك فقد يساعد تنظيف البيانات أو في الحالات القصوى التخلص من البيانات والبدء من جديد.

ملاحظة: “DSC” هي اختصار لـ “Data Science Corporation”.

ما هو الارتباط التلقائي في السلاسل الزمنية للبيانات

يشير مصطلح الارتباط التلقائي إلى درجة التشابه بين سلسلة زمنية معينة ونسخة متأخرة من نفسها على نفس المدى وفترات زمنية متتالية، وبمعنى آخر يهدف الارتباط التلقائي إلى قياس العلاقة بين القيمة الحالية للمتغير وأي قيم سابقة قد يكون لديك حق الوصول إليها، لذلك يحاول الارتباط التلقائي للسلاسل الزمنية قياس القيم الحالية لمتغير مقابل البيانات التاريخية لهذا المتغير وإنّه يرسم في النهاية سلسلة واحدة على الأخرى ويحدد درجة التشابه بين الاثنين.

من أجل المقارنة فإنّ الارتباط التلقائي هو في الأساس نفس العملية التي ستمر بها عند حساب الارتباط بين مجموعتين مختلفتين من قيم السلاسل الزمنية بنفسك، حيث يتمثل الاختلاف الرئيسي في أنّ الارتباط التلقائي يستخدم نفس السلسلة الزمنية مرتين مرة واحدة في قيمها الأصلية ثم مرة أخرى حدثت عدة فترات زمنية مختلفة.

يُعرف الارتباط التلقائي أيضًا باسم الارتباط التسلسلي وترابط السلاسل الزمنية والارتباط المتأخر، وبغض النظر عن كيفية استخدامه يُعد الارتباط التلقائي طريقة مثالية للكشف عن الاتجاهات والأنماط في بيانات السلاسل الزمنية، والتي كانت ستختفي بدون اكتشافها.

ملاحظة:“ACF” هي اختصار لـ “Autocorrelation Function”.

تكشف وظيفة الارتباط التلقائي (ACF) عن كيف يتغير الارتباط بين أي قيمتين للإشارة مع تغير الفصل بينهما، حيث إنّه مقياس زمني لذاكرة العملية العشوائية، ولا يكشف عن أي معلومات حول محتوى التردد للعملية.

المصدر: Introducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionFoundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: