لسنوات عديدة ، توقع الناس أحوال الطقس والأحداث الاقتصادية والسياسية والنتائج الرياضية ، وقد تم تجديد هذه القائمة الواسعة مؤخرًا بالعملات المشفرة. للتنبؤ بالأحداث المتنوعة ، هناك العديد من الطرق لتطوير التنبؤات. على سبيل المثال ، الحدس ، وآراء الخبراء ، واستخدام النتائج السابقة للمقارنة بالإحصاءات التقليدية ، والتنبؤ بالسلاسل الزمنية هي واحدة منها فقط ، في حين أن أكثر أنواع التنبؤات حداثة ودقة مع مجموعة واسعة من التطبيقات.
طريقة السلسلة الزمنية
طريقة السلاسل الزمنية (TS) هي مجموعة بيانات تجمع المعلومات خلال فترة زمنية. توجد طرق خاصة لاستخراج هذا النوع:
- خطي وغير خطي ؛
- حدودي وغير حدودي ؛
- احادي البعد و متعدد الابعاد
وقت التنبؤسلسلة تجلب معها مجموعة فريدة من القدرات لمواجهة تحديات اليوم. تعتمد النمذجة على التعلم لإنشاء القوة الدافعة وراء تغيير البيانات. تأتي العملية من الاتجاهات طويلة الأجل ، والتأثيرات الموسمية ، أو التقلبات غير المنتظمة التي تتميز بها TS ولا يتم رؤيتها في أنواع أخرى من التحليل.
التعلم الآلي هو فرع من فروع علوم الكمبيوتر حيث يتم تجميع الخوارزميات من البيانات وتشمل الشبكات العصبية الاصطناعية والتعلم العميق وقواعد الارتباط وأشجار القرار والتعلم المعزز وشبكات بايز. توفر مجموعة متنوعة من الخوارزميات خيارات لحل المشكلات ، ولكل منها متطلباتها الخاصة والمفاضلات من حيث إدخال البيانات والسرعة ودقة النتائج. سيتم ترجيح هذه ، إلى جانب دقة التوقعات النهائية ، عندما يقرر المستخدم أي خوارزمية ستعمل بشكل أفضل للوضع قيد الدراسة.
يستعير التنبؤ بالسلاسل الزمنية من مجال الإحصاء ، لكنه يعطي طرقًا جديدة لنمذجة المشكلة. المشكلة الرئيسية في التعلم الآلي والسلسلة الزمنية هي نفسها - للتنبؤ بنتائج جديدة بناءً على البيانات المعروفة سابقًا.
الهدف من النموذج التنبئي
TS عبارة عن مجموعة من نقاط البيانات التي يتم جمعها على فترات منتظمة. يتم تحليلها لتحديد اتجاه طويل الأجل ، للتنبؤ بالمستقبل ، أو لإجراء نوع آخر من التحليل. هناك شيئان يجعلان TS مختلفًا عن مشكلة الانحدار العادية:
- يعتمدون على الوقت. لذاالافتراض الأساسي لنموذج الانحدار الخطي بأن الملاحظات مستقلة لا ينطبق في هذه الحالة.
- جنبًا إلى جنب مع الاتجاه المتزايد أو المتناقص ، فإن معظم TS لديها شكل من أشكال الموسمية ، أي التغييرات الخاصة بفترة زمنية معينة.
الهدف من نموذج توقع السلاسل الزمنية هو إعطاء توقعات دقيقة عند الطلب. السلسلة الزمنية لها الوقت (t) كمتغير مستقل والمتغير التابع للهدف. في معظم الحالات ، تكون التوقعات نتيجة محددة ، على سبيل المثال ، سعر بيع منزل ، والنتيجة الرياضية للمنافسة ، ونتائج التداول في البورصة. يمثل التوقع الوسيط والمتوسط ويتضمن فاصل ثقة يعبر عن مستوى ثقة في نطاق 80-95٪. عندما يتم تسجيلها على فترات منتظمة ، تسمى العمليات المتسلسلة الزمنية ويتم التعبير عنها بطريقتين:
- أحادي البعد بمؤشر زمني ينشئ ترتيبًا ضمنيًا ؛
- مجموعة ذات بعدين: الوقت مع متغير مستقل ومتغير تابع آخر.
يعد إنشاء الميزات أحد أهم المهام وأكثرها استهلاكا للوقت في التعلم الآلي التطبيقي. ومع ذلك ، فإن التنبؤ بالسلاسل الزمنية لا يخلق ميزات ، على الأقل ليس بالمعنى التقليدي. هذا صحيح بشكل خاص عندما تريد التنبؤ بالنتيجة عدة خطوات للأمام ، وليس فقط القيمة التالية.
هذا لا يعني أن الميزات معطلة تمامًا. يجب استخدامها بحذر للأسباب التالية:
- غير واضح ما هو المستقبل الحقيقيستكون القيم لهذه الميزات.
- إذا كانت الكائنات يمكن التنبؤ بها ولديها بعض الأنماط ، فيمكنك بناء نموذج تنبؤي لكل منها.
ومع ذلك ، يجب أن تدرك أن استخدام القيم التنبؤية كميزات سينتشر الخطأ في المتغير الهدف ويؤدي إلى أخطاء أو تنبؤات متحيزة.
مكونات السلاسل الزمنية
يوجد الاتجاه عندما تزيد السلسلة أو تنقص أو تظل عند مستوى ثابت بمرور الوقت ، لذلك يتم أخذها كدالة. تشير الموسمية إلى خاصية سلسلة زمنية تعرض أنماطًا دورية تتكرر بتردد ثابت (م) ، على سبيل المثال ، م=12 تعني أن النمط يتكرر كل اثني عشر شهرًا.
يمكن إضافة المتغيرات الوهمية المشابهة للموسمية كدالة ثنائية. يمكنك ، على سبيل المثال ، مراعاة أيام العطل والمناسبات الخاصة والحملات التسويقية بغض النظر عما إذا كانت القيمة أجنبية أم لا. ومع ذلك ، عليك أن تتذكر أن هذه المتغيرات يجب أن يكون لها أنماط معينة. ومع ذلك ، يمكن حساب عدد الأيام بسهولة حتى بالنسبة للفترات المستقبلية والتأثير على توقعات السلاسل الزمنية ، خاصة في المجال المالي.
الدورات هي مواسم لا تحدث بمعدل ثابت. على سبيل المثال ، تعكس سمات التكاثر السنوية للوشق الكندي الأنماط الموسمية والدورية. لا تتكرر على فترات منتظمة وقد تحدث حتى لو كان التردد 1 (م=1).
القيم المتأخرة -يمكن تضمين القيم المتأخرة للمتغير كمتنبئات. تعمل بعض النماذج ، مثل ARIMA ، أو Vector Autoregression (VAR) ، أو Autoregressive Neural Networks (NNAR) ، بهذه الطريقة.
مكونات متغير الاهتمام مهمة جدًا لتحليل السلاسل الزمنية والتنبؤ بها ، لفهم سلوكها وأنماطها ولتكون قادرًا على تحديد النموذج المناسب.
سمات مجموعة البيانات
قد تكون معتادًا على إدخال آلاف وملايين ومليارات من نقاط البيانات في نماذج التعلم الآلي ، ولكن هذا ليس مطلوبًا للسلسلة الزمنية. في الواقع ، من الممكن العمل مع TS الصغيرة والمتوسطة ، اعتمادًا على تردد ونوع المتغير ، وهذا ليس عيبًا في الطريقة. علاوة على ذلك ، هناك بالفعل عدد من المزايا لهذا النهج:
- مثل هذه المجموعات من المعلومات سوف تتوافق مع قدرات الكمبيوتر المنزلي.
- في بعض الحالات ، قم بإجراء تحليل السلاسل الزمنية والتنبؤ باستخدام مجموعة البيانات بأكملها ، وليس مجرد عينة.
- طول TS مفيد لإنشاء الرسوم البيانية التي يمكن تحليلها. هذه نقطة مهمة للغاية لأن المبرمجين يعتمدون على الرسوم البيانية في مرحلة التحليل. هذا لا يعني أنهم لا يعملون مع سلاسل زمنية ضخمة ، ولكن في البداية يجب أن يكونوا قادرين على التعامل مع TS الأصغر.
- يمكن لأي مجموعة بيانات تحتوي على حقل متعلق بالوقت أن تستفيد من تحليل السلاسل الزمنية والتنبؤ بها. ومع ذلك ، إذا كان المبرمج لديه مجموعة أكبر من البيانات ، فإن قاعدة البيانات (TSDB)قد يكون أكثر ملاءمة
تأتي بعض هذه المجموعات من أحداث مسجلة بالطابع الزمني وسجلات النظام والبيانات المالية. نظرًا لأن TSDB يعمل أصلاً مع السلاسل الزمنية ، فهذه فرصة رائعة لتطبيق هذه التقنية على مجموعات البيانات واسعة النطاق.
تعلم الآلة
يمكن أن يتفوق التعلم الآلي على أساليب التنبؤ بالسلاسل الزمنية التقليدية. هناك عدد كبير من الدراسات التي تقارن أساليب التعلم الآلي بالطرق الإحصائية التقليدية على بيانات TS. الشبكات العصبية هي إحدى التقنيات التي تم بحثها على نطاق واسع وتطبيق مناهج TS. تقود أساليب التعلم الآلي تصنيفات جمع البيانات بناءً على السلاسل الزمنية. لقد أثبتت هذه المجموعات فعاليتها ، حيث تفوقت على مجموعات TS النقية ضد M3 أو Kaggle.
MO لديها مشاكلها الخاصة. يعد تطوير الميزات أو إنشاء تنبؤات جديدة من مجموعة البيانات خطوة مهمة بالنسبة لها ويمكن أن يكون لها تأثير كبير على الأداء ويكون وسيلة ضرورية لمعالجة مشكلات الاتجاهات والموسمية لبيانات TS. أيضًا ، تواجه بعض النماذج مشكلات في مدى ملاءمتها للبيانات ، وإذا لم تكن كذلك ، فقد تفوت الاتجاه الرئيسي.
لا ينبغي أن توجد مناهج السلاسل الزمنية والتعلم الآلي بمعزل عن بعضها البعض. يمكن دمجها معًا لإعطاء فوائد كل نهج. تعتبر طرق التنبؤ وتحليل السلاسل الزمنية جيدة في تحليل البيانات إلى بيانات اتجاهية وموسمية.عناصر. يمكن بعد ذلك استخدام هذا التحليل كمدخل إلى نموذج ML الذي يحتوي على معلومات الاتجاه والموسمية في خوارزمية ، مما يوفر أفضل ما في العالمين.
فهم بيان المشكلة
على سبيل المثال ، ضع في اعتبارك TS ذات الصلة بالتنبؤ بعدد الركاب في خدمة جديدة للسكك الحديدية عالية السرعة. على سبيل المثال ، لديك بيانات لمدة عامين (أغسطس 2016 - سبتمبر 2018) ومع هذه البيانات تحتاج إلى توقع عدد الركاب للأشهر السبعة المقبلة ، مع وجود بيانات لمدة عامين (2016-2018) على مستوى الساعة مع عدد الركاب المسافرين ولازم تقدير عددهم مستقبلا
مجموعة فرعية من مجموعة البيانات للتنبؤ بالسلسلة الزمنية:
- إنشاء ملف تدريب واختبار لمحاكاة
- أول 14 شهرًا (أغسطس 2016 - أكتوبر 2017) تستخدم كبيانات تدريب ، والشهرين التاليين (نوفمبر 2017 - ديسمبر 2017) هي بيانات اختبار.
- تجميع مجموعة البيانات على أساس يومي.
قم بعمل تصور للبيانات لترى كيف يتغير خلال فترة من الزمن.
طريقة بناء نهج ساذج
المكتبة المستخدمة في هذه الحالة لتنبؤ TS هي statsmodels. يجب تثبيته قبل تطبيق أي من هذه الأساليب. ربما تم تثبيت statsmodels بالفعل في بيئة Python ، لكنه لا يدعم الطرقالتنبؤ ، لذلك ستحتاج إلى استنساخه من المستودع وتثبيته من المصدر.
في هذا المثال ، فهذا يعني أن أسعار السفر بالعملة المعدنية مستقرة منذ البداية وطوال الفترة الزمنية بأكملها. تفترض هذه الطريقة أن النقطة المتوقعة التالية تساوي آخر نقطة تمت ملاحظتها وتسمى النهج الساذج.
الآن احسب الانحراف المعياري لاختبار دقة النموذج في مجموعة بيانات الاختبار. من قيمة RMSE والرسم البياني أعلاه ، يمكننا أن نستنتج أن Naive غير مناسب لخيارات التقلبات العالية ، ولكنه يستخدم للخيارات المستقرة.
أسلوب متوسط بسيط
لتوضيح الطريقة ، يتم رسم مخطط ، على افتراض أن المحور ص يمثل السعر ويمثل المحور السيني الوقت (أيام).
نستنتج منه أن السعر يرتفع وينخفض بشكل عشوائي بهامش صغير ، بحيث يظل متوسط القيمة ثابتًا. في هذه الحالة يمكنك توقع سعر الفترة التالية بشكل مشابه لمتوسط كل الأيام الماضية.
هذه الطريقة للتنبؤ بالمتوسط المتوقع للنقاط التي تم ملاحظتها سابقًا تسمى طريقة المتوسط البسيط.
في هذه الحالة ، يتم أخذ القيم المعروفة سابقًا ، ويتم حساب المتوسط ويؤخذ على أنه القيمة التالية. بالطبع ، لن يكون هذا دقيقًا ، لكنه قريب جدًا ، وهناك حالات تعمل فيها هذه الطريقة بشكل أفضل.
استنادًا إلى النتائج المعروضة على الرسم البياني ، تعمل هذه الطريقة بشكل أفضل عندما يظل متوسط القيمة لكل فترة زمنية ثابتة. على الرغم من أن الطريقة الساذجة أفضل من المتوسط ، ولكن ليس لجميع مجموعات البيانات. يوصى بتجربة كل نموذج خطوة بخطوة ومعرفة ما إذا كان سيحسن النتيجة أم لا.
نموذج المتوسط المتحرك
بناءً على هذا الرسم البياني ، يمكننا أن نستنتج أن الأسعار قد زادت عدة مرات في الماضي بهامش كبير ، لكنها الآن مستقرة. لاستخدام طريقة حساب المتوسط السابقة ، يجب أن تأخذ متوسط جميع البيانات السابقة. ستؤثر أسعار الفترة الأولية بقوة على توقعات الفترة القادمة. لذلك ، كتحسين عن المتوسط البسيط ، خذ متوسط الأسعار فقط للفترات القليلة الماضية.
تسمى تقنية التنبؤ هذه بتقنية المتوسط المتحرك ، والتي يشار إليها أحيانًا باسم "نافذة متحركة" بالحجم "n". باستخدام نموذج بسيط ، من المتوقع أن تتحقق القيمة التالية في TS من دقة الطريقة. من الواضح أن السذاجة تتفوق على كل من المتوسط والمتوسط المتحرك لمجموعة البيانات هذه.
هناك متغير للتنبؤ بطريقة التسوية الأسية البسيطة. في طريقة المتوسط المتحرك ، يتم ترجيح الملاحظات السابقة "n" بالتساوي. في هذه الحالة ، قد تواجه مواقف يؤثر فيها كل من الماضي على التوقعات بطريقته الخاصة. يسمى هذا الاختلاف ، الذي يقيّم الملاحظات السابقة بشكل مختلف ، بالطريقةالمتوسط المتحرك المرجح
استقراء الأنماط
واحدة من أهم الخصائص اللازمة للنظر في خوارزميات التنبؤ بالسلاسل الزمنية هي القدرة على استنباط الأنماط خارج مجال بيانات التدريب. لا تمتلك العديد من خوارزميات ML هذه الإمكانية لأنها تميل إلى أن تكون مقصورة على منطقة محددة بواسطة بيانات التدريب. لذلك ، فهي ليست مناسبة لـ TS ، والغرض منها هو عرض النتيجة في المستقبل.
خاصية أخرى مهمة لخوارزمية TS وهي إمكانية الحصول على فترات الثقة. في حين أن هذه هي الخاصية الافتراضية لنماذج TS ، إلا أن معظم نماذج ML لا تملك هذه الإمكانية لأنها لا تعتمد جميعها على التوزيعات الإحصائية.
لا تعتقد أنه يتم استخدام طرق إحصائية بسيطة فقط للتنبؤ بتحليل الأثر. الأمر ليس كذلك على الإطلاق. هناك العديد من الأساليب المعقدة التي يمكن أن تكون مفيدة للغاية في حالات خاصة. الانحدار الذاتي المعمم التغاير الشرطي (GARCH) و Bayesian و VAR ليست سوى بعض منها.
هناك أيضًا نماذج للشبكات العصبية يمكن تطبيقها على السلاسل الزمنية التي تستخدم تنبؤات متأخرة ويمكنها التعامل مع ميزات مثل الانحدار التلقائي للشبكة العصبية (NNAR). حتى أن هناك نماذج سلاسل زمنية مستعارة من التعلم المعقد ، لا سيما في عائلة الشبكة العصبية المتكررة ، مثل شبكات LSTM و GRU.
مقاييس التقدير والتشخيص المتبقي
أكثر مقاييس التنبؤ شيوعًا هيجذر متوسط التربيع ، الذي يستخدمه كثير من الناس عند حل مشاكل الانحدار:
- MAPE لأنه مستقل عن المقياس ويمثل نسبة الخطأ إلى القيم الفعلية كنسبة مئوية ؛
- MASE ، والذي يوضح مدى جودة أداء التنبؤ مقارنة بالتنبؤ المتوسط الساذج.
بمجرد تكييف طريقة التنبؤ ، من المهم تقييم مدى قدرتها على التقاط النماذج. على الرغم من أن مقاييس التقييم تساعد في تحديد مدى قرب القيم من القيم الفعلية ، إلا أنها لا تقيم ما إذا كان النموذج يناسب TS أم لا. بقايا الطعام طريقة جيدة لتقييم ذلك. نظرًا لأن المبرمج يحاول تطبيق أنماط TS ، فيمكنه توقع سلوك الأخطاء مثل "الضوضاء البيضاء" لأنها تمثل شيئًا لا يمكن للنموذج التقاطه.
يجب أن تحتوي "الضوضاء البيضاء" على الخصائص التالية:
- المخلفات غير مرتبطة (Acf=0)
- تتبع المخلفات التوزيع الطبيعي بمتوسط صفر (غير متحيز) وتباين ثابت.
- إذا كانت أي من الخاصيتين مفقودة ، فهناك مجال للتحسين في النموذج.
- يمكن اختبار خاصية المتوسط الصفري بسهولة باستخدام اختبار T.
- يتم التحكم بصريًا في خصائص الوضع الطبيعي والتباين الثابت باستخدام رسم بياني للمخلفات أو اختبار طبيعي أحادي المتغير مناسب.
موديل ARIMA
ARIMA - يعد نموذج المتوسط المتحرك الانحدار التلقائي أحد أكثر الطرق شيوعًا المستخدمة في التنبؤ TS ، بشكل أساسيمن خلال الارتباط التلقائي للبيانات لإنشاء نماذج عالية الجودة.
عند تقييم معاملات ARIMA ، فإن الافتراض الرئيسي هو أن البيانات ثابتة. هذا يعني أن الاتجاه والموسمية لا يمكن أن تؤثر على التباين. يمكن تقييم جودة النموذج من خلال مقارنة المخطط الزمني للقيم الفعلية مع القيم المتوقعة. إذا كان كلا المنحنيين قريبين ، فيمكن افتراض أن النموذج يناسب الحالة التي تم تحليلها. يجب أن تكشف عن أي اتجاهات وموسمية إن وجدت.
يجب أن يوضح تحليل المخلفات ما إذا كان النموذج مناسبًا: تعني المخلفات العشوائية أنها دقيقة. سيؤدي تركيب ARIMA مع المعلمات (0 ، 1 ، 1) إلى نفس النتائج مثل التجانس الأسي ، واستخدام المعلمات (0 ، 2 ، 2) سيعطي نتائج تجانس أسية مزدوجة.
يمكنك الوصول إلى إعدادات ARIMA في Excel:
- ابدأ Excel.
- ابحث عن XL MINER على شريط الأدوات.
- على الشريط ، حدد ARIMA من القائمة المنسدلة
ملخص لقدرات نموذج ARIMA:
- ARIMA - متوسط متحرك متكامل ذاتي الانحدار.
- نموذج التنبؤ المستخدم في تحليل السلاسل الزمنية.
- صيغة معلمة ARIMA: ARIMA (p، d، q) حيث p=عدد مصطلحات الانحدار الذاتي ، d=عدد الاختلافات الموسمية ، و q=عدد شروط المتوسط المتحرك.
الخوارزميات في SQL Server
يعد إجراء التنبؤ المتقاطع أحد الأمور المهمةميزات السلاسل الزمنية في التنبؤ بالمهام المالية. إذا تم استخدام سلسلتين مرتبطتين ، فيمكن استخدام النموذج الناتج للتنبؤ بنتائج سلسلة واحدة بناءً على سلوك الآخرين.
يحتوي SQL Server 2008 على ميزات سلاسل زمنية جديدة قوية للتعلم والاستخدام. تحتوي الأداة على بيانات TS يمكن الوصول إليها بسهولة ، وواجهة سهلة الاستخدام لمحاكاة وإعادة إنتاج وظائف الخوارزمية ، ونافذة شرح مع رابط لاستعلامات DMX من جانب الخادم حتى تتمكن من فهم ما يجري في الداخل.
السلاسل الزمنية للسوق هي مجال واسع يمكن تطبيق نماذج وخوارزميات التعلم العميق عليه. تقوم البنوك والوسطاء والصناديق الآن بتجربة نشرهم للتحليلات والتنبؤ بالمؤشرات وأسعار الصرف والعقود الآجلة وأسعار العملات المشفرة والأسهم الحكومية والمزيد.
في توقع السلاسل الزمنية ، تجد الشبكة العصبية أنماطًا يمكن التنبؤ بها من خلال دراسة هياكل واتجاهات الأسواق وتقدم المشورة للمتداولين. يمكن أن تساعد هذه الشبكات أيضًا في اكتشاف الحالات الشاذة مثل القمم والانخفاضات غير المتوقعة وتغيرات الاتجاه وتحولات المستوى. يتم استخدام العديد من نماذج الذكاء الاصطناعي للتنبؤات المالية.