ما هي بيانات السلاسل الزمنية الثابتة في علم البيانات

اقرأ في هذا المقال


الافتراض الشائع في العديد من تقنيات السلاسل الزمنية هو أنّ البيانات ثابتة خاصةً في علم البيانات، حيث تتميز العملية الثابتة بخاصية أن المتوسط ​​والتباين وبنية الارتباط التلقائي لا تتغير بمرور الوقت، كما يمكن تعريف الثبات بمصطلحات رياضية دقيقة وتضيف هذه الطبيعة الزمنية اتجاهًا أو موسمية إلى البيانات، ممّا يجعلها متوافقة مع تحليل السلاسل الزمنية والتنبؤ بها.

ما هي بيانات السلاسل الزمنية الثابتة

بيانات السلاسل الثابتة: هي البيانات التي إذا كان التوزيع المشترك لأي مجموعة من العينات لا يعتمد على موضع العينة وبالتالي فإنّ دالات التوزيع التراكمي من الدرجة الأولى أي المتوسط ​​والتباين ثابتة، وعلاوةً على ذلك تعتمد وظائف التوزيع التراكمي من الدرجة الثانية مثل: الارتباط التلقائي والتغاير التلقائي فقط على المسافة في الموضع وعلى سبيل المثال عملية غاوس ثابتة بالمعنى الدقيق لأنها محددة تمامًا من خلال دالة الوسط والتغاير.

ملاحظة:إذا كان المتوسط ​​ثابتًا وكان التباين التلقائي دالة تعتمد فقط على المسافة في الموضع فإنّه يتم تسمية البيانات ذات المعنى الواسع ثابتة ببساطة والثابت بالمعنى الصارم يعني الثبات واسع النطاق.

خصائص بيانات السلاسل الثابتة

تضمن ثبات مجموعة البيانات الخصائص الإحصائية غير المتغيرة من الناحية المكانية مثل: المتوسط ​​أو التباين أو الانحدار أو الطيف وتفترض العديد من أنظمة معالجة الصور بيانات ثابتة وبالتالي لا تنطبق على البيانات غير الثابتة، ومع ذلك يمكن تعميم هذه العمليات لتطبيقها على مجموعات البيانات المحلية الثابتة، وهو نوع من البيانات غير الثابتة وكما يتم تقسيم البيانات المحلية الثابتة إلى مكوناتها الثابتة ومعالجتها بشكل فردي باستخدام العملية الثابتة وأخيراً دمج المكونات في ناتج.

تسمى العملية أو الصورة ثابتة إذا كانت الإحصائيات لأي مجموعة فرعية تصف بدقة إحصائيات البيانات بأكملها، وتعتبر الثباتية مفيدة للغاية لدرجة أن العلماء يفترضونها، حتى عندما تكون بيانات معينة ثابتة تقريبًا، لكن لسوء الحظ فإنّ العديد من الأشياء المثيرة للاهتمام في الحياة غير ثابتة والتنبؤات والتحيزات القائمة على مجموعات فرعية صغيرة لا يمكن الاعتماد عليها بشكل ملحوظ.

يعتبر الثبات وعدم الاستقرارية من الخصائص المعروفة في الإحصاء ومعالجة الصور، كما يعتبر تحويل فورييه النافذ في نافذة جابور (Gabor’s) وتحويل فورييه اللاحق قصير المدى تقنيات مبكرة تفصل الصور غير الثابتة إلى مكونات ثابتة، حيث تقوم المكونات بترجمة الأحداث بشكل مضغوط في وقت واحد في مجال الوقت والتردد.

في السنوات الأخيرة تمت إعادة صياغة تحليل التردد الزمني وتطبيقاته لضغط الصورة واكتشاف الحواف والميزات وتحليل النسيج إلى حد كبير عن طريق تحليل الحل المتعدد، وخوارزميات الهرم وتحويلات المويجات على وجه الخصوص وكما أنّ الثبات المحلي هو حالة خاصة من عدم الاستقرار، بحيث يمكن تقسيم مجموعة البيانات المحلية الثابتة إلى مجموعات فرعية ثابتة أصغر.

كيفية معالجة البيانات الثابتة

مجموعة البيانات المحلية الثابتة هي مجموعة بيانات غير ثابتة تتكون من مناطق ثابتة صغيرة، وتقترح الاستقامة المحلية تقسيم البيانات إلى مجموعات فرعية ثابتة فردية، بحيث يمكن بعد ذلك معاملة كل مجموعة فرعية على أنّها بيانات ثابتة بتوصيفها الإحصائي الفردي، كما يتم دمج المجموعات الفرعية المعالجة بشكل فردي في صورة نتيجة واحدة، ويؤدي تطبيق الموجه للكائنات لنهج البيانات إلى إخفاء جميع تفاصيل البيانات من المبرمج وبالإضافة إلى ذلك يوفر التطبيق للمبرمج خيارًا لتحديد حجم التصحيح والتداخل بين تصحيحات الإدخال أو الإخراج.

1- خوارزمية التقسيم والدمج

تطبق هذه الخوارزمية كل مشغل ثابت حصريًا على التصحيح المناسب، بحيث يمكن استخدام التصحيحات الفردية بسهولة لتقدير المشغل المطلوب، وإذا كان يعتمد على بيانات الإدخال الثابتة الخاصة به، ومع ذلك يجب على هذه الخوارزمية معالجة معلومات الفضاء الخاصة بمختلف البيانات بعناية، والمساحات المتجهة لمكتبة برامج (Java) الخاصة في (Jest) والتي يمكن الاعتماد عليها.

إذا كان عامل التشغيل له نطاق متطابقان فيمكن تنفيذ خطوة النافذة الأولية وخطوة الدمج النهائية بواسطة عوامل التشغيل التالية، وتؤدي العوامل الداخلية الثابتة إلى اختلاف نطاق ومجال عملية التقسيم والاستيفاء، وعلاوةً على ذلك فإنّ صف مشغلي الحشو الصفري يرقى إلى تكديس التصحيحات الفردية في منطة النواتج، ولتجنب الحدود المرئية عند حواف البيانات يفضل عادةً مخططات الإدخال الأكثر تعقيدًا.

2- خوارزمية الإدخال Interpolation

إذا تمت عملية التصحيح فإنّ دمج التصحيحات التي تمت معالجتها بشكل فردي يمكن أن يتسبب في ظهور حدود تصحيح مرئية في الصورة النهائية، كما قد نفذت مخطط الإدخال الخاص بـ (Claerbout) لعام (1994م) والذي يقحم خطيًا التصحيحات المتداخلة ويتطلب الإدخال تطبيق الأوزان على كل عنصر من عناصر البيانات، ويتم تنفيذ الترجيح بسهولة باعتباره مقياسًا للعنصر لمتجهين وأحدهما يحتوي على البيانات التي سيتم استكمالها والآخر يحتوي على الوزن المقابل لكل عنصر.

ما هو أنواع الثبات في البيانات

عندما يتعلق الأمر بتحديد ما إذا كانت البيانات ثابتة فهذا يعني تحديد المفاهيم الدقيقة للاستقرار في البيانات، وتشمل أنواع الثبات التي لوحظت في بيانات السلاسل الزمنية:

  • (Trend Stationary): وهي سلسلة زمنية لا تُظهر اتجاهًا.
  • ثابت بشكل غير مستقر: وهو سلسلة زمنية لا تعرض التغيرات الغير مستقرة.
  • ثابت بشكل صارم: وهو التوزيع المشترك للملاحظات ثابت على التحول الزمني.

طريقة التحقق من أن بيانات السلاسل الزمنية المحددة ثابتة

1. رسم بيانات السلاسل الزمنية

يتم ذلك بوضع كود للعمليات والبيانات ورسمها بيانياً.

2. تقويم الإحصاء الوصفي

  • يتم ذلك عادةً عن طريق تقسيم البيانات إلى قسمين أو أكثر وحساب المتوسط ​​والتباين لكل مجموعة.
  • إذا كانت لحظات الترتيب الأول هذه متسقة بين هذه الأقسام، فيمكن افتراض أن البيانات ثابتة.
  • ثم يتم تقسيم هذه البيانات إلى مجموعات مختلفة وحساب المتوسط ​​والتباين للمجموعات المختلفة والتحقق من التناسق.

3. استخدام اختبار ديكي فولر المعزز Dickey-Fuller

هذا اختبار إحصائي تم إنشاؤه خصيصًا لاختبار ما إذا كانت بيانات السلاسل الزمنية أحادية المتغير ثابتة أم لا، حيث يعتمد هذا الاختبار على فرضية ويمكن أن يخبرنا بدرجة الاحتمالية التي يمكن قبولها، وغالبًا ما يتم تصنيفها ضمن أحد اختبارات جذر الوحدة وهي تحدد مدى القوة التي تتبعها بيانات السلاسل الزمنية أحادية المتغير الاتجاه، ويتم تحديد الفرضيات الفارغة والبديلة:

  • H0 (Null Hypothesis): وهي بيانات السلاسل الزمنية غير ثابتة.
  • H1 (فرضية بديلة): وهي بيانات السلاسل الزمنية ثابتة.
  • افتراض أنّ alpha = 0.05 وهذا يعني (95% ثقة).

يتم تفسير نتائج الاختبار بقيمة (p) إذا فشلت (p> 0.05) في رفض فرضية العدم وإلّا إذا رفضت (p <= 0.05) فرضية العدم، وكما إنّ إحصاء (ADF) أكبر بكثير من القيم الحرجة عند مستويات مختلفة، أمّا إذا كانت قيمة (p) أكبر أيضًا من (0.05) فذلك يعني أنّه يمكن أن نفشل في رفض فرضية العدم عند (90%) و(95%) و(99 النسبة المئوية للثقة) وممّا يعني أنّ بيانات السلاسل الزمنية غير ثابتة بشكل كبير.

كما يوضح اختبار (ADF) مرة أخرى أنّ إحصائية (ADF) أكبر بكثير من القيم الحرجة في المستويات المختلفة وكما أنّ قيمة (p) أكبر بكثير من (0.05) ممّا يدل على أنّه يمكن أن نفشل في رفض فرضية العدم عند ثقة (90%) و(95%) و(99%)، كما يبرز اختبار جذر وحدة (ADF) باعتباره اختبارًا قويًا للتحقق ممّا إذا كانت بيانات السلاسل الزمنية ثابتة أم لا.

إنّ بيانات السلاسل الزمنية ثابتة إذا لم تتغير بمرور الوقت أو إذا لم يكن لديها هيكل زمني، لذلك من الضروري للغاية التحقق ممّا إذا كانت البيانات ثابتة، وفي التنبؤ بالسلاسل الزمنية لا يمكن استخلاص رؤى قيمة من البيانات إذا كانت ثابتة.

المصدر: Introducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First EditionFoundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionData Science from Scratch: First Principles with Python by Joel Grus / 2nd Edition


شارك المقالة: