pronóstico de series de tiempo con ciclo y tendencia ... · resumen el pronóstico de series de...

42
Trabajo Final de Maestría Pronóstico de series de tiempo con ciclo y tendencia usando redes neuronales artificiales Jenny Elizabeth Valencia Carmona Ingeniera de Sistemas Director de Tesis Prof. Juan David Velásquez Henao, M.Sc., Ph.D. Universidad Nacional de Colombia Facultad Nacional de Minas Ingeniería de Sistemas e Informática Programa de Maestría en Ingeniería Ingeniería de Sistemas 2016

Upload: truongthuan

Post on 21-Sep-2018

218 views

Category:

Documents


0 download

TRANSCRIPT

Trabajo Final de Maestría

Pronóstico de series de tiempo con ciclo y tendencia usando redes

neuronales artificiales

Jenny Elizabeth Valencia Carmona

Ingeniera de Sistemas

Director de Tesis

Prof. Juan David Velásquez Henao, M.Sc., Ph.D.

Universidad Nacional de Colombia

Facultad Nacional de Minas

Ingeniería de Sistemas e Informática

Programa de Maestría en Ingeniería – Ingeniería de Sistemas

2016

Agradecimientos

Agradezco al profesor Juan David Velásquez por su apoyo, paciencia y valiosa

orientación durante la ejecución de este trabajo.

Resumen

El pronóstico de series de tiempo con ciclo y tendencia ha sido un problema vigente

durante las últimas décadas en la literatura, este usualmente ha sido abordado mediante

métodos clásicos como los modelos SARIMA y métodos más novedosos como las redes

neuronales artificiales. Una decisión a tomar al momento de entrenar la red es si la red

debe ser construida con los datos originales o que por el contrario, la tendencia y el ciclo

deben ser removidos previamente, por lo que el objetivo de este trabajo fue determinar

cuál de las aproximaciones es más adecuada para el pronóstico de series de tiempo con

ciclo y tendencia en términos de precisión del modelo y adicionalmente, explorar la

reproducción de las características de la serie en largo plazo en cada caso.

Para esto, se utilizaron 3 series benchmark y se encontró que el modelo con los datos

originales es capaz de pronosticar la serie de tiempo mejor que las redes a las cuales se les

ha removido el ciclo y tendencia cuando se busca pronosticar el próximo periodo. Sin

embargo, para los resultados en el largo plazo, la red con los datos originales pierde su

capacidad de continuar con los patrones que originalmente mostraban la serie y se

estabiliza, mientras que las redes sin ciclo y tendencia, aunque muestran un desempeño

inferior a corto plazo, en el largo plazo, tienen un comportamiento más cercano a los

resultados obtenidos por el modelo SARIMA que convergen al valor esperado.

Palabras claves: predicción, SARIMA, redes neuronales, series de tiempo con ciclo y

tendencia.

Contenido

1. INTRODUCCIÓN .......................................................................................................1

1.1 EL MODELO SARIMA ............................................................................................4

1.2 REDES NEURONALES ...........................................................................................5

1.3 PRONÓSTICO MÚLTIPLES PASOS ADELANTE. ............................................11

1.4 DEFINICIÓN DEL PROBLEMA ...........................................................................12

1.5 OBJETIVOS ............................................................................................................13

2. DATOS ..........................................................................................................................13

2.1 SERIE AIRLINE PASSENGER .............................................................................14

2.2 SERIE COMPANY’X SALES ...............................................................................15

2.3. SERIE JOHNSON & JOHNSON QUARTERLY EARNINGS ............................15

3. METODOLOGÍA ..........................................................................................................16

4. RESULTADOS .............................................................................................................19

4.1 SERIE AIRLINE PASSENGER .............................................................................19

4.2 SERIE COMPANY’X SALES ................................................................................23

4.3 SERIE JOHNSON & JOHNSON QUARTERLY EARNINGS .............................26

5. DISCUSIÓN ..................................................................................................................29

6. CONCLUSIONES .........................................................................................................30

6.1 EVALUACIÓN DE OBJETIVOS PROPUESTOS ................................................30

6.1.1 OBJETIVO ESPECÍFICO 1 ............................................................................30

6.1.2 OBJETIVO ESPECÍFICO 2 ............................................................................30

6.1.3 OBJETIVO ESPECÍFICO 3 .............................................................................30

6.2 APORTES ADICIONALES ...................................................................................31

BIBLIOGRAFÍA ...............................................................................................................33

Lista de tablas

Pág.

Tabla 1: Resumen de los estadísticos de ajuste para la serie Airline Passenger ............................. 20

Tabla 2: Resumen de los estadísticos de ajuste para la serie Company’X sales ........................... 23

Tabla 3: Resumen de los estadísticos de ajuste para la serie J&J Quarterly Earnings .................... 26

Lista de figuras

Pág.

FIGURA 1: Red Neuronal. ............................................................................................................... 6

FIGURA 2: Pronóstico usando el modelo SARIMA. Serie Airline ............................................... 14

FIGURA 3: Pronóstico usando el modelo SARIMA. Serie Company’X ....................................... 15

FIGURA 4: Pronóstico usando el modelo SARIMA. Serie J&J Quarterly Earnings ..................... 16

FIGURA 5: Pronóstico usando el modelo RN-O. Serie Airline Passenger .................................... 20

FIGURA 6: Pronóstico usando el modelo RN-DSDT Serie Airline Passenger .............................. 21

FIGURA 7: Pronóstico usando el modelo RN-DSDTR Serie Airline Passenger ........................... 21

FIGURA 8: Comparación de pronóstico en el largo plazo SARIMA vs Red Neuronal. Serie

Airline Passenger ............................................................................................................................ 22

FIGURA 9: Pronóstico usando el modelo RN-O Serie Company’X sales. .................................... 24

FIGURA 10: Pronóstico usando el modelo RN-DSDT. Serie Company’X sales. .......................... 24

FIGURA 11 Pronóstico usando el modelo RN-DSDTR. Serie Company’X sales. ........................ 25

FIGURA 12: Comparación de pronóstico en el largo plazo SARIMA vs Red Neuronal. Serie

Company’X sales. ........................................................................................................................... 26

FIGURA 13: Pronóstico usando el modelo RN-O Serie J&J Quarterly Earnings .......................... 27

FIGURA 14: Pronóstico usando el modelo RN-DSDT Serie J&J Quarterly Earnings .................. 27

FIGURA 15: Pronóstico usando el modelo RN-DSDTR. Serie J&J Quarterly Earnings. .............. 28

FIGURA 16: Comparación de pronóstico en el largo plazo SARIMA vs Red Neuronal. Serie J&J

Quarterly Earnings .......................................................................................................................... 28

1

1. INTRODUCCIÓN

Decisiones tales como conocer si el mercado de acciones estará al alza o a la baja el día

de mañana, o como hacer un mejor control de los inventarios, incluso decisiones a nivel

de política social y económica, son ejemplos claros de cómo nos vemos enfrentados

diariamente a la necesidad de tomar decisiones de corto, mediano y largo plazo, teniendo

como base los datos del comportamiento que ha tenido el fenómeno en su pasado el

fenómeno que deseamos pronosticar. Este tipo de datos son conocidos como series

temporales, las cuales pueden ser definidas como una secuencia de datos medidos en un

intervalo uniforme de tiempo.

Lo anterior ha generado un amplio esfuerzo por parte de investigadores para desarrollar

cada vez modelos de pronóstico de series de tiempo más eficientes y precisos tanto en su

ajuste como en el pronóstico de valores futuros [1]. Usualmente, este tema ha sido

abordado mediante numerosas técnicas estadísticas, incluyendo media móvil,

suavizamiento exponencial y ARIMA, los cuales pronostican los valores futuros como

funciones lineales de las observaciones pasadas. Dada la gran cantidad de técnicas, se

debe contar con la capacidad y experticia del modelador para seleccionar cual es el

método más adecuado.

Muchas series de tiempo presentan variaciones estacionales y de tendencia. Existen

muchos métodos usados para analizar y pronosticar series de tiempo con estas

características; uno de los más populares es el método SARIMA (Seasonal

Autoregressive Integrated Moving Average) el cual proporciona una colección extensa de

modelos de predicción, además de ser un procedimiento más sistemático comparado con

sus predecesores. El éxito de este modelo consiste en que se dispone de varios modelos

pueden ajustar el comportamiento de diferentes tipos de series y es necesario estimar

pocos parámetros. Este análisis se basa en la suposición de que los valores que toma la

variable de observación puede ser dividida en cuatro componentes, cada uno

2

independiente de los demás: una componente irregular, una componente estacional, la

componente cíclica y la componente de tendencia.

La componente de estacionalidad se refiere a un patrón periódico y recurrente causado,

por ejemplo, por el clima o las vacaciones. La tendencia en cambio, se refiere a la

evolución de largo plazo de la serie. La descomposición de una serie en su parte de ciclo

y tendencia ha sido fundamental en los análisis y toma de decisiones, por ejemplo en el

sector económico, el proceso de descomposición ha ayudado a analizar el desempeño de

la economía, conocer cuál es el estado actual y cuál es el potencial de crecimiento

basados en la tendencia de la serie. Los ciclos, por su parte, puede ayudar a conocer los

picos y los valles, o para determinar dónde y el por qué se presentan las contracciones.

Para ampliar la información sobre los modelos más populares para predecir series con

ciclo y tendencia desde el enfoque clásico [2].

Aunque el enfoque clásico ha sido ampliamente aceptado, los modelos SARIMA

requieren cumplir con algunos supuestos que están basados en las condiciones de

estacionariedad lo que implica que, en caso de no cumplirlos, que las series deben tener

un tratamiento previo para evitar posibles resultados erróneos. Pero en el mundo real, el

comportamiento de muchas de las series de tiempo va en contraposición de estos

supuestos: una serie de tiempo con tendencia es considerada no-estacionaria, por lo que el

análisis clásico recomienda primero estacionarizar la serie para remover la tendencia y

estabilizar la varianza [3][4].

Otro problema de trabajar con esta metodología es que parte del supuesto de linealidad, a

pesar de que muchas veces los comportamientos irregulares del sistema no se ajustan a

este tipo de relación, por lo que no pueden ser modelados adecuadamente y se puede

perder información que serviría para descifrar la complejidad de las relaciones entre los

datos. Aunque durante muchos años las series de tiempo han sido un tema central de la

investigación estadística, el tema de series de tiempo no lineales es todavía un área en

desarrollo y durante las últimas décadas, un número significativo de modelos de series de

tiempo no lineales se han venido desarrollando como respuesta a los inconvenientes que

este tipo de aproximaciones lineales han dado cuando se aplican a situaciones reales [5].

3

Por ejemplo, los métodos lineales de descomposición ignoran la interacción entre los

componentes de ciclo y tendencia, pero existen series de tiempo complejas que pueden

incluir tendencias estocásticas y determinísticas, aunque hay una gran variedad de

métodos estadísticos desarrollados para identificar dependencias lineales, no ha pasado

así con las tendencias no lineales. Una discusión más general sobre la problemática

vigente en la predicción con modelos no lineales es presentada por [1][5][6]

Un tipo de modelo no lineal usado para pronóstico de series de tiempo son las redes

neuronales, estas están caracterizadas por su gran versatilidad y flexibilidad, por lo que

han surgido como alternativa en numerosos escenarios. Las redes neuronales tienen la

capacidad para representar tanto funciones lineales como funciones no-lineales

complejas, de aprender, re-aprender y de generalizar el conocimiento adquirido. Entre

estas, la más populares son las redes perceptrón multicapa, las cuales son conocidas por

ser “aproximadores universales”.

Dada su naturaleza de aproximador universal, se esperaría que pudieran ser usadas

directamente para modelar las variaciones de ciclo y tendencia en las series de tiempo. A

pesar de esto, no existe un acuerdo de como modelar series con ciclo y tendencia con

redes neuronales [7]. Las investigaciones sobre el tema usualmente se han centrado en 3

estrategias: usar los datos originales antes de entrenar la red, preprocesar los datos

eliminando ciclo y tendencia, o usar modelos híbridos en los cuales se aproveche lo mejor

de cada modelo.

En comparación con el estudio de series de tiempo lineal, el desarrollo del análisis de

series de tiempo no lineal con redes neuronales está en sus inicios. Aunque las

propiedades de estos modelos han sido ampliamente estudiadas, existen problemas como

la selección de las entradas, la estimación de los parámetros, la interpretación de los

resultados, lo que ha llevado a resultados mixtos, por lo que no existe un consenso de

cuál es el método más apropiado[8].

4

1.1 EL MODELO SARIMA

Box y Jenkins desarrollaron un práctico acercamiento para los modelos SARIMA que

tuvo un impacto dominante durante mucho tiempo en el análisis de series de tiempo y su

aplicación en la predicción. En una serie estacional existen 2 tipos de variaciones: La

primera es entre observaciones consecutivas, la segunda, son las variaciones entre

observaciones de la misma estación que pueden estar altamente correlacionadas, lo cual

es la principal propiedad de las series de tiempo que se usa en la identificación del

modelo [9]. Box y Jenkins propusieron utilizar la función de autocorrelación (ACF) y la

función autocorrelación parcial (FAP) de los datos de la muestra como las herramientas

básicas para identificar el orden del modelo.

En los modelos SARIMA (p, d, q) (P, D, Q) s, los parametros p, d, q indica las órdenes

del modelo para las componentes de corto plazo, y P, D, Q indica el modelo para las

componentes estacionales. Los modelos ARIMA estacionales requieren que los datos

sean diferenciados estacionalmente para alcanzar la condición de estacionariedad [10]. La

práctica de este ajuste estacional se hace debido a que se cree que las fluctuaciones

estacionales pueden dominar las demás variaciones en la serie de tiempo causando

dificultad en medir efectivamente las otras componentes de la serie de tiempo.

La ecuación del modelo SARIMA está dada por:

𝝓𝒑(𝑩)𝚽𝑷(𝑩𝒔 )(𝟏 − 𝑩)𝒅(𝟏 − 𝑩𝒔)𝑫𝒚 𝒕 = 𝜽𝒒 (𝑩)𝚯𝑸 (𝑩𝒔)𝜺𝒕

Con

𝝓𝒑(𝑩) = 𝟏 − 𝝓𝟏𝑩 − 𝝓𝟐𝑩𝟐 − ⋯ − 𝝓𝒑𝑩𝒑,

𝚽𝑷(𝑩) = 𝟏 − 𝚽𝒔𝑩𝒔 − 𝚽𝟐𝒔𝑩𝟐𝒔 − ⋯ − 𝚽𝑷𝒔𝑩𝑷𝒔,

𝞠𝒒(𝑩) = 𝟏 − 𝞠𝟏𝑩 − 𝞠𝟐𝑩𝟐 − ⋯ − 𝞠𝒒𝑩𝒒,

𝚯𝑸(𝑩) = 𝟏 − 𝚯𝒔𝑩𝒔 − 𝚯𝟐𝒔𝑩𝟐𝒔 − ⋯ − 𝚯𝑸𝒔𝑩𝑸𝒔,

Los coeficientes 1, Ф1, θ1, and 1 deben ser estimados a partir de los datos, y luego la

ecuación puede ser usada para pronósticos. Luego de estimar los parametros, se debe

hacer pruebas de bondad de ajuste sobre los residuales estimados: los errores aleatorios

deben estar distribuidos idéntica e independientemente con media cero y varianza

5

constante. Finalmente se debe hacer la predicción de salidas futuras basados en datos

conocidos [11].

Los pasos anteriores son repetidos varias veces hasta que un modelo satisfactorio es

seleccionado. En la actualidad, la mayoría de los paquetes de software estadísticos usan

los algoritmos para seleccionar automáticamente la forma apropiada de un modelo

SARIMA. Este enfoque automático ha mostrado mejores resultados comparado con la

identificación manual de los modelos dado que la identificación manual requiere

experiencia por lo que anteriormente, la selección del modelo dependía en gran parte del

juicio del investigador.

1.2 REDES NEURONALES

Las redes neuronales han sido usadas ampliamente durante las dos últimas décadas,

prueba de ello es el creciente número de artículos publicados sobre el tema. Tkáč y

Verner [12], hacen un revisión de un total de 412 artículos publicados entre 1994 y 2015

sobre el uso de las redes neuronales en los negocios y concluye que hace falta el

desarrollo de bases formales y habilidades explicativas en las redes neuronales, por lo que

recomienda centrarse en desarrollar pautas universales y metodologías generales para

temas como: selección de las variables, número de capas ocultas y el diseño en general de

la topología. Pero a pesar de estos inconvenientes, reconoce que el potencial de este tema

continuará, dada la mayor disponibilidad de los datos y el aumento del software

especializado.

El modelo más usado para pronóstico de series de tiempo con redes neuronales es el

Perceptrón Multicapa. Las redes neuronales basadas en el Perceptrón multicapa han sido

capaces de demostrar que se comportan como un aproximador universal de funciones

[13] y de ser un buen competidor frente a los métodos tradicionales de series de tiempo

[14][15].

Un perceptrón está compuesto por 3 capas, una de entrada, que contiene las

observaciones pasadas, la de salida que tiene los valores pronosticados. Los nodos

6

ocultos contienen funciones de transferencia no lineales y son usados para procesar la

información que recibe de los nodos de entrada.

FIGURA 1: Red Neuronal.

El modelo de redes neuronales para series de tiempo tiene la siguiente forma general.

𝑌𝑡 = 𝑓(𝑌𝑡−1, 𝑌𝑡−2 , … 𝑌𝑡−𝑝) + 𝑒𝑡 (1.1)

𝑦𝑡 = 𝑤0 + ∑ 𝑤𝑗𝑄𝑗=1 𝑔(𝑤0𝑗 + ∑ 𝑤𝑖,𝑗

𝑃𝑗=1 𝑦𝑡−𝑖) + 𝑒𝑡 (1.2)

Dentro de las dificultades presentes al hacer pronoscitcos con series de tiempo se

encuentran la selección las entradas y los rezagos que harán parte de las entradas. Este

es un reto en especial cuando no se tiene un conocimiento sobre el tema. La mayoría

de métodos establecidos se concentran en métodos lineales. El objetivo es seleccionar

las variables que si sean relevantes logrando un modelo simple. Esto es especial en las

series de tiempo con ciclo y tendencia dado que es necesario que la red capture, el

ciclo, la tendencia y el comportamiento determinístico en los rezagos de las variables.

Existen técnicas de análisis visual, pero estás pueden fallar cuando hay interacciones

complejas [16].

7

Otro de los inconvenientes en la utilización de redes neuronales es la elección de cada

elemento de la arquitectura de red [17]. Aunque en la teoría, las redes neuronales

deberían ser capaces de aproximar cualquier función continua, el diseño de la red implica

seleccionar una gran cantidad de parametros, lo cual hace de esto una tarea no trivial y se

vuelve un proceso de prueba y error, para lo que es fundamental: tiempo, paciencia y

recursos para experimentar [18][19].

Existen múltiples sugerencias establecidas en la literatura para seleccionar estos

elementos basados principalmente en el análisis de cada serie de tiempo, obteniéndose

buenos resultados. En general, se reconocen tres perspectivas para modelos de redes

neuronales que busquen pronosticar series de tiempo que tengan ciclo y tendencia [20]:

La primera perspectiva hace referencia a pronosticar usando la serie original sin ningún

tipo de transformación. Aunque la serie igualmente puede ser transformada, no se

eliminan ni el ciclo, ni la tendencia. Básicamente el argumento de estos autores es que

las redes neuronales debido a sus características, son capaces de capturar los efectos de

ciclo y tendencia de los datos sin necesidad de que estos sean removidos previamente.

Sharda y Patil [21] presentan un análisis comparativo entre una red neuronal y un modelo

de Box-Jenkins. Los resultados encontrados muestran que una red neuronal puede

predecir tan bien como el sistema Box-Jenkins y no encuentra diferencias significativas

entre ambos. También encontró que la periodicidad de la serie no afecta el desempeño de

la técnica usada y que la red es capaz de incorporar la estacionalidad de manera

automática al modelo.

Alon, Qi, y Sadowski [22] demuestran las ventajas del uso de redes neuronales sobre

métodos estadísticos tradicionales (suavizamiento exponencial, Box-Jenkins, Regresión

Multivariada), llegando a la conclusión que las redes son capaces de capturar tendencias

no lineales y patrones estacionales así como las interacciones entre ellas; los resultados

encontrados fueron que en promedio, las redes neuronales son mejores en relación a los

otros modelos y que la red está en capacidad de capturar los patrones de estacionalidad y

tendencia de dinámica no lineal.

8

Hamzaçebi [23] propone un modelo SANN, que busca mejorar el desempeño de

predicción de series de tiempo del modelo ANN; los resultados del autor sugieren que el

entrenamiento de la estructura estacional en series de tiempo con redes neuronales puede

ser exitoso sin remover los efectos estacionales de los datos y que este modelo debe ser

usado en series de tiempo que incluyan fuerte estacionalidad y en caso que sea débil,

otros tipos de estructura podrían ser más adecuados.

Franses y Draisma [24] argumentan no solo que las redes están en capacidad de trabajar

directamente con datos con ciclo y tendencia, sino que, incluso las redes son capaces de

detectar posibles cambios en el patrón estacional.

Benkachcha, Benhra y El [25] llegan a la conclusión que las redes neuronales llevan a

resultados casi similares con o sin descomposición de la serie original y sugieren que

teniendo en cuenta el factor costo y eficiencia, dado que solo se necesitaría el valor

histórico de la variable a predecir, debería preferirse este último.

Wang,Yu, Tang y Wang [26] descomponen la serie de tiempo y usan una red neuronal

para predecir sus componentes, ciclo, tendencia, y error, de manera independiente, el

resultado final de predicción es la combinación de los tres componentes.

Ansuj, Camargoy y Radharamanan [27] compara un modelo de redes neuronales con un

modelo ARIMA con intervenciones, encontrando que el pronóstico realizado con la red

neuronal es más preciso que el modelo ARIMA. Dado que la serie presentaba una alta

estacionalidad, en lugar de eliminar los componentes de ciclo y tendencia, utilizan 12

unidades binarias para determinar el peso relativo de cada mes en la red dejando que sea

la red la que reconozca el patrón.

Alon, Qi y Sadowski [28] comparan las redes neuronales con modelos tradicionales

obteniendo como resultado que las redes pronostican mejor que los métodos tradicionales

ya que capturan la tendencia no lineal y los patrones estacionales, así como las

interacciones entre ellos, esto último no sería posible si se usará Box-Jenkins debido a su

naturaleza lineal y su metodología basada en la descomposición. Recomienda que el uso

de las redes pueden ser mejores cuando las condiciones económicas son relativamente

9

volátiles, si por el contrario, las condiciones son estables, Box y Jenkins o Winters

podrían ser una mejor opción.

Adhikari y Agrawal [29], concluyen que los ajustes de ciclo y tendencia no solo no son

necesarios, sino que pueden ser inconvenientes dado que pueden provocar propiedades no

lineales en la serie si originalmente era lineal e incrementar la complejidad del modelo. El

autor encuentra que las redes ofrecen buenos resultados y que mejoran significativamente

los resultados de los métodos estadísticos tradicionales sin necesidad de

preprocesamiento.

En la segunda perspectiva, otros autores, por el contrario, argumentan que las redes

neuronales son incapaces de manejar efectos estacionales y de tendencia en la estructura

de los datos porque se cree que estas fluctuaciones podrían hacer que la red se concentre

en dichos componentes, en lugar de otras variaciones determinísticas de la serie, lo que

causaría dificultades en su entrenamiento y en la calidad del pronóstico [30]. Por lo tanto

sugieren remover explícitamente el ciclo y la tendencia encontrando así mejores

resultados. Esta perspectiva es similar al enfoque tradicional de la diferenciación simple

y estacional que se hace con los modelos SARIMA.

Chu y Zhang [30] analizan los resultados de modelos de pronóstico lineales y no lineales

para series con fuertes fluctuaciones estacionales encontrando que un ajuste a priori de la

estacionalidad de los datos puede mejorar significativamente el desempeño de la red

neuronal.

Nelson y Hill [31] [32] encuentran que cuando hay estacionalidad en la serie, la

predicción con redes con datos desestacionalizados son significativamente mas precisas

que cuando no.

M. Zhang y Qi [33] investigan como modelar series con patrones de ciclo y tendencia

estudiando la efectividad de hacer un preprocesamiento a los datos, quitando ciclo y

tendencia, Luego los compara con los resultados obtenidos por el modelo estacional de

Box-Jenkins y encuentra que las redes no están en capacidad por si solas de capturar los

10

cambios en la tendencia y el ciclo efectivamente y que una combinación de preprocesar

los datos puede reducir significativamente el error.

Zhang y Kline [34] realizan preprocesado de datos como desestacionalización y

eliminación de tendencia buscando modelos más simples, y más útiles para mejorar el

desempeño de una red.

La tercera perspectiva es la de proponer la modelos híbridos entre modelos ARIMA y

redes neuronales. Con esto se busca combinar lo mejor de ambos enfoques.

Khashei y Bijari [35] encuentran resultados empíricos que sugieren que la combinación

de diferentes modelos puede ser una forma eficaz de mejorar el rendimiento predictivo de

cada modelo individual. Recomiendan el uso de modelos con marcadas diferencias para

crear técnicas híbridas que sean capaces de capturar las componentes lineales y las

componentes no lineales. Varias investigaciones en la literatura han demostrado que estos

modelos pueden superar a los modelos individuales.

Zhang [36] da tres razones por las cuales recomienda usar modelos híbridos: La primera,

es que es difícil determinar si la serie es generada por una relación lineal o no. La

segunda razón es que raramente una serie es puramente lineal o no lineal y la tercera es

que los diferentes análisis han demostrado que no existe un método que por sí solo sea

adecuado a todas las situaciones y en varios casos los resultados híbridos han mostrado

mejores resultados que los que usan un método único.

Zhang [37] da un ejemplo de un modelo híbrido que consta de un modelo ARIMA para

analizar la parte lineal del problema, luego, usa una red neuronal para modelar los

residuales del modelo ARIMA, los cuales pueden contener información de no linealidad

y servirán para ser usados como predictores del termino de error del modelo ARIMA.

Aladag, Egrioglu, y Kadilar [38] combinan redes neuronales recurrentes de Elman

(ERNN) y modelos ARIMA. Pai y Lin [39] utiliza un modelo ARIMA y un modelo de

máquinas de vectores de soporte (SVMS) para el caso particular de precios de acciones.

Tseng [40] proponen una metodología basada en la combinación de la predicción de un

11

modelo lineal autorregresivo generalizado SARIMA que captura la componente lineal de

los datos y luego, aplican una red neuronal artificial tipo perceptrón multicapa que recibe

como entradas los pronósticos y los residuos del modelo SARIMA logrando combinar la

capacidad del modelo SARIMA y la de las redes de reducir los residuales.

Zou, Xia, Yang y Wang [41] proponen el uso de la técnica de combinación de

pronósticos, la cual es usada para la predicción de una red neuronal artificial y un

modelo ARIMA.

Štěpnička, Cortez, Donate y Štěpničková,[42] introduce una nueva combinación híbrida

durante 3 horizontes de tiempo y la compara con el popular método ARIMA.

Ruiz, Turias, y Jimenez[43] combina SARIMA y redes neuronales. El modelo SARIMA

es usado para capturar los patrones estacionales y lineales, luego la red es usada para

reconocer los patrones no lineales ocultos en la serie de tiempo usando los datos

preprocesados de SARIMA. El modelo hibrido es llamado ARIMA–ANN. También

permite combinar estimaciones que vengan de diferentes horizontes de tiempo.

1.3 PRONÓSTICO MÚLTIPLES PASOS ADELANTE.

Adicional al problema de cómo debe ser manejado el ciclo y la tendencia en el proceso de

entrenamiento de la red, existe otra inquietud cuando se trata de hacer pronósticos de

series de tiempo con redes neuronales. Usualmente, los estudios sobre este tema se han

desarrollado pronosticando uno o pocos pasos adelante, pero en el mundo real, la

necesidad de pronóstico puede ser tanto de corto como de mediano y largo plazo. En el

caso del corto y mediano plazo, los datos pueden mostrar una inercia que permite

extrapolar el comportamiento pasado del fenómeno hacia el futuro cercano asumiendo

que no existirá ningún cambio externo dramático y lograr un pronóstico aceptable, pero

pronosticar muchos pasos adelantes incremente el nivel de incertidumbre.

El pronóstico de múltiples pasos adelantes o múltiperiodo es una de las cuestiones

metodológicas que ha recibido poca atención en el pronóstico de series de tiempo debido

12

a las dificultades y desafíos que representan. Este tipo de pronósticos presentan además el

problema de la elección entre el método iterado: usar un modelo general de un paso, para

generar de forma iterativa los pronósticos o el usar un método directo en el cual se calcula

directamente el valor futuro para cada horizonte de proyección [44] . En la literatura de la

redes neuronales, se han reportado resultados mixtos: Zhang recomienda el uso del

método directo [20]; igualmente, para Nguyen & Chan [45] la exactitud de un modelo de

red neural puede verse comprometida cuando se utiliza de forma recursiva para hacer

predicciones de varios pasos a largo plazo por lo que recomienda también el uso de un

método directo.

1.4 DEFINICIÓN DEL PROBLEMA

Como se puede apreciar en el estado del arte, no existe una metodología aceptada de

manera general por los investigadores cuando se trabaja con series de tiempo con ciclo y

tendencia, sino que la elección de esta depende del conocimiento y la experticia que el

pronosticador tenga sobre los datos. Analizando los diferentes acercamientos que se han

dado el tema se encuentran que usualmente se emplean diferentes tipos de datos y

diferente número de corridas y adicionalmente, hasta el momento no se ha analizado

cuales son los resultados de los modelos cuando se pronostica a largo plazo, en el cual el

nivel de incertidumbre crece.

Esto tópico resulta interesante de analizar dado que, aunque la estimación de las variables

a corto plazo puede ser satisfactoria, a largo plazo estos resultados pueden ser menos

precisos. Esto puede deberse a varias razones, una de ellas son los posibles cambios

externos al modelo que pueden darse con el tiempo, la otra es que el modelo como tal no

sea el más adecuado para manejar los cambios debidos a los ciclos o tendencia y la otra

puede deberse a la propagación de los errores a través de los periodos analizados.

Se sabe que a largo plazo, los modelos SARIMA convergen al valor esperado pero no es

tan claro a que comportamiento convergerá una red neuronal y surge adicionalmente la

inquietud de cuál sería el comportamiento deseado. Dado que el modelo SARIMA

considera como entradas los errores pasados y las versiones no lineales en cambio,

13

consideran como entradas las observaciones pasadas, no es posible usar las herramientas

estadísticas tradicionales de manera equivalente cuando se trabajan con redes neuronales

y no se encuentra en la literatura el análisis equivalente de cómo calcular la parte del

estado estable en el caso de una red neuronal.

1.5 OBJETIVOS

El objetivo general de este trabajo es:

Determinar cuál de las aproximaciones presentadas en la literatura es más adecuada para

el pronóstico de series de tiempo que presentan tendencia y ciclo en términos de precisión

del modelo y de reproducción de las características de largo plazo de la serie estudiada.

Los objetivos específicos son los siguientes:

Aplicar los tres tipos de metodologías al pronóstico de, al menos, tres series de

tiempo con ciclo y patrón estacional.

Comparar la precisión de los pronósticos un paso adelante y varios pasos adelante.

Determinar si el comportamiento de largo plazo de los modelos utilizados

reproduce las características de las series de tiempo pronosticadas.

2. DATOS

En este trabajo se analizará el comportamiento de largo plazo de pronóstico de las redes

neuronales artificiales usando series de tiempo con y sin la remoción de ciclo y

tendencia.

Para dar solución a esto, se seleccionaron 3 series de datos: Airline, Company’X sales y

J&J; cada una con ciclo y tendencia. Las implementaciones fueron realizadas en

Matlab®.

A continuación se listan los detalles de las series seleccionadas:

14

2.1 SERIE AIRLINE PASSENGER

Esta serie ha sido ampliamente analizada por varios investigadores. [47] [52], [53], [54].

Cuenta claramente con tendencia creciente y un ciclo estacional, en total son 144

observaciones mensuales a partir de Enero de 1949 a Diciembre de 1960. Se utilizaron las

primeras 132 observaciones para la estimación del modelo y las siguientes 12 para validar

el pronóstico. La serie es transformada usando logaritmo natural con el fin de disminuir el

efecto que tienen los valores extremos.

FIGURA 2: Pronóstico usando el modelo SARIMA. Serie Airline

Ecuación: (0, 1, 1) × (0, 1,1)12 (2.4)

El modelo identificado por Box y Jenkins corresponde a:

(1-B12)(1-B) yt= (1-θ1B) (1-θ1,12B12)et,

con los parámetros: θ1= 0,5777 y θ1, 12= 0,3266

4,0

4,5

5,0

5,5

6,0

6,5

7,0

7,5

ene.-49 sep.-51 jun.-54 mar.-57 dic.-59 sep.-62 jun.-65 mar.-68

LN(y) Pronóstico

15

2.2 SERIE COMPANY’X SALES

Esta serie corresponde a las ventas de un producto no identificado, está tomado de

Chatfield and Prothero[53]. En total son 272 datos de 1965-1 a 1971-5. Se usan 260 datos

para entrenar la red y el resto es usado para validar el modelo. Como en la serie anterior,

la serie es transformada previamente usando la función logaritmo.

FIGURA 3: Pronóstico usando el modelo SARIMA. Serie Company’X

2.3. SERIE JOHNSON & JOHNSON QUARTERLY EARNINGS

Esta serie corresponde a las ganancias trimestrales por acciones para la compañía

estadounidense Johnson & Johnson, proporcionada por el profesor Paul Griffin [55] [56].

Son 84 trimestres (21 años) medidos desde el primer trimestre de 1960 al último trimestre

de 1980, de las cuales las últimas doce se usaron para la validación del modelo.

3,5

4,5

5,5

6,5

7,5

8,5

9,5

10,5

11,5

ene.-65 sep.-67 jun.-70 mar.-73 dic.-75 sep.-78

LN(y) Pronóstico

16

FIGURA 4: Pronóstico usando el modelo SARIMA. Serie J&J Quarterly Earnings

La ecuación del modelo ajustado es:

(1-B)(1-B4) yt = (1-0,678B) (1-0,314B4) at, (2.5)

3. METODOLOGÍA

En este trabajo se desea comparar el pronóstico de largo plazo de un modelo SARIMA

con el pronóstico de largo plazo de redes neuronales. Para alcanzar este objetivo, en

general, se seguirán los siguientes pasos:

1. Se construirán pronósticos con el modelo SARIMA, este modelo ha sido ampliamente

usado en la literatura en los casos en que las series tengan ciclo y tendencia.

2. Se construirán pronósticos con el modelo de red neuronal sin remover el ciclo y la

tendencia.

3. Se construirán pronósticos removiendo el ciclo y tendencia. En este paso se tendrán en

cuenta tanto redes neuronales regularizadas como no regularizadas para comparar los

resultados.

-1,5

-0,5

0,5

1,5

2,5

3,5

4,5

ene.-49 may.-50 sep.-51 feb.-53 jun.-54 nov.-55 mar.-57 ago.-58

LN(y) Pronóstico

17

Para los pasos 2 y 3 será necesario entonces el entrenamiento de redes neuronales. Tao, y

Chew [46] considera el entrenamiento de una red neuronal como un arte. Esto significa

que no hay un procedimiento específicos para conseguir la mejor red, se parte de una red

inicial, y probando diversas arquitecturas, es que puede obtenerse una red que cumpla las

expectativas del modelador.

El primer paso que sugiere Tao, y Chew [46] es preprocesar los datos, esto puede incluir

en los casos que fuera necesario, utilizar la normalización de los datos ([0,1]):

𝑥𝑡∗ = (𝑥𝑡 − 𝑥𝑚𝑖𝑛)/(𝑥𝑚𝑎𝑥 − 𝑚𝑖𝑛) (2.1)

También en este paso se harán transformaciones, aplicando logaritmo natural sobre los

datos, esto con el fin de estabilizar la variación, dado que por ejemplo, en muchas series

económicas, la variabilidad de las observaciones puede cambiar a través del tiempo. Este

tipo de transformaciones también suelen usarse en general para minimizar los efectos que

tienen los valores extremos. Se ha demostrado que esto logra una más rápida conversión

y por lo tanto un mejor entrenamiento [47].

Se dividirá la información de entrada y salida en base al número de observaciones, para

determinar qué porción de la misma se utiliza para entrenar y validar la red. Los rezagos

escogidos serán los mismos seleccionados en el modelo SARIMA para cada serie

benchmark seleccionada, debido a que se quiere aprovechar la naturaleza auto

correlacionada de los datos de las series de tiempo.

La arquitectura de red seleccionada será la red NAR, esta red, es una de los más usadas

dentro del módulo de redes neuronales de Matlab® para el pronóstico de series de tiempo

univariante. Es un tipo de perceptrón multicapa, con una capa oculta y una capa de salida,

para la cual es necesario definir los parámetros de rezagos, el número de capas ocultas y

la función de entrenamiento. El enfoque más usado para seleccionar el número óptimo de

nodos ocultos es vía ensayo y error [20]. En nuestro trabajo se realizarán entrenamientos

con 1, 2 y 3 neuronas ocultas para cada tipo de red.

18

La función de entrenamiento elegida será la función: trainlm, esta es la función de

retropropagación de Levenberg-Marquardt. El término retropropagación se refiere a la

forma en que el gradiente de la función de transferencia es calculado para redes

neuronales feedforward[48]. Este algoritmo se considera el más eficiente para redes de

tamaño moderado: el algoritmo Levenberg-Marquardt entrena una red neuronal de 10 a

100 veces más rápido que el usual método de gradiente descendente [49]. En particular

este algoritmo estima una taza de aprendizaje en cada dirección del gradiente usando la

matriz Hussian[50]. El entrenamiento de la red involucra un ajuste de los pesos

comparando la salida deseada con la respuesta de la red, de manera que se minimice el

error. La función de transferencia utilizada en la capa oculta de este tipo de red será la

sigmoidal, pues al ser un modelo no lineal, esta debe ser estrictamente monótona, acotada

y diferenciable. Para el caso de la capa de salida, la función de transferencia usada será

lineal.

El indicador de desempeño elegido para esta red será medido por la función por defecto

MSE, o error cuadrático medio.

𝑀𝑆𝐸 = 1

𝑁 ∑(𝑒𝑖)

2 (2.2)

Los otros elementos manipulables para la modelación como lo son los pesos de conexión

entre las neuronas no serán definidos ya que al depender de la interconexión entre ellas,

esto se puede volver muy complejo y dada la capacidad de aprendizaje de las redes, es

mejor dejar que los pesos de conexión se calculen por sí mismos.

Una tercera red, en la cual, al igual que la anterior, se le remueve ciclo y tendencia

previamente, pero en este caso es ajustada usando regularización, esto con el fin de

mejorar la generalización. La regularización consiste en modificar la función de

desempeño (MSE), que es la suma de los cuadrados de la media. Se añade un término que

consiste en la suma de la media de los cuadrados de los pesos de la red y bias [51].

19

msereg = γmse + (1 − γ) msw, (2.3)

donde γ es el radio.

Con el uso de esta función se logra tener pesos y bias más pequeños y obliga a la red a

tener respuestas más suaves lo que evita el sobreajuste. Matlab® cuenta con una función

de regularización automática: trainbr con la que se logra ajustar un valor al parámetro

radio óptimo.

Una vez entrenada, validada y comprobada cada una de las redes, se analizarán los

resultados para obtener un mejor resultado. Finalmente, los resultados de los modelos de

redes neuronales se compararan con el modelo SARIMA según la predicción realizada

con las ecuaciones ajustadas.

4. RESULTADOS

En esta sección se presentan las predicciones logradas mediante el modelo SARIMA y el

modelo de redes neuronales según la metodología explicada en el capítulo anterior.

4.1 SERIE AIRLINE PASSENGER

Los resultados de los ajustes de los diferentes modelos para la serie Airline son resumidos

en la Tabla 1. Nótese que cuando la red fue entrenada se logra un mejor resultado sobre el

estadístico de ajuste elegido (MSE) sobre los datos de entrenamiento con la red RNDSDT

H2 superando el modelo SARIMA. En el caso de la validación, RNO H2 es el modelo con

mejor desempeño, aunque en este caso, el mejor modelo corresponde a un modelo

entrenado con los datos originales.

20

Tabla 1: Resumen de los estadísticos de ajuste para la serie Airline Passenger

Modelo Entrenamiento (MSE) Validación(MSE)

SARIMA 0,00135 0,00176

RN Datos Originales

RNO H1 0,00169 0,00245

RNO H2 0,00173 0,00152*

RNO H3 0,00167 0,00219

RN Datos sin ciclo ni tendencia

RNDSDT H1 0,00151 0,00278

RNDSDT H2 0,00133* 0,00258

RNDSDT H3 0,00156 0,00264

Datos sin ciclo ni tendencia-Regularizada

RNDSDTR H1 0,00144 0,00230

RNDSDTR H2 0,00137 0,00218

RNDSDTR H3 0,00137 0,00243

Otro aspecto a considerar, son los resultados del pronóstico de la serie en el largo plazo,

presentados en la FIGURA 5, en el caso de la serie entrenada con los datos originales, en

el largo plazo la serie tiende a tomar un comportamiento asintótico, perdiendo el patrón

de ciclo y tendencia original.

FIGURA 5: Pronóstico usando el modelo RN-O. Serie Airline Passenger

4,0

4,5

5,0

5,5

6,0

6,5

7,0

7,5

ene.-49 sep.-51 jun.-54 mar.-57 dic.-59 sep.-62 jun.-65 mar.-68

LN(y) Pronóstico

21

En el caso de la red ajustada eliminando el ciclo y la tendencia, a largo plazo el patrón de

ciclo continúa, sin embargo, la tendencia cambia y comienza a presentar una forma

cóncava.

FIGURA 6: Pronóstico usando el modelo RN-DSDT Serie Airline Passenger

Debido a los resultados anteriores, se optó por proponer un cambio en el algoritmo de la

red, utilizando redes regularizadas. Con la aplicación de este cambio, el pronóstico de la

red en el largo plazo parece conservar mejor el patrón de tendencia, que se perdía cuando

la red no era regularizada.

FIGURA 7: Pronóstico usando el modelo RN-DSDTR Serie Airline Passenger

4,0

4,5

5,0

5,5

6,0

6,5

7,0

7,5

ene.-49 sep.-51 jun.-54 mar.-57 dic.-59 sep.-62 jun.-65 mar.-68

LN(y) Pronóstico

4,0

4,5

5,0

5,5

6,0

6,5

7,0

7,5

ene.-49 sep.-51 jun.-54 mar.-57 dic.-59 sep.-62 jun.-65 mar.-68

LN(y) Pronóstico

22

Para un mejor análisis de los resultados obtenidos con cada uno de los modelos

mencionados, se generó una gráfica que está compuesta, en el eje x, por los pronósticos

en el largo plazo para el modelo SARIMA, y en el eje y, correspondiente a los

pronósticos realizados con los tres modelos de redes propuestos. Se grafica

adicionalmente una línea de 45 ° que permita visualizar la diferencia en los pronósticos

del modelo SARIMA con los modelos de redes neuronales.

El análisis grafico de comparar el primero modelo de red, sin eliminar ciclo y tendencia,

muestra que a medida que se hace mayor t deja de seguir el patrón que originalmente

compartía con el pronóstico de la serie hecho por el modelo SARIMA teniendo una clara

separación de la línea de 45°. El segundo modelo, para el cual el ciclo y la tendencia fue

eliminado, se ubica en la parte superior de la línea de 45°, pero igualmente conserva la

tendencia de dicha línea así como el tercer modelo de red regularizado, ubicado en la

parte inferior de la línea.

FIGURA 8: Comparación de pronóstico en el largo plazo SARIMA vs Red Neuronal.

Serie Airline Passenger

6,0

6,2

6,4

6,6

6,8

7,0

7,2

7,4

6,0 6,2 6,4 6,6 6,8 7,0 7,2

RNO RNDSDT RNDSDTR

23

4.2 SERIE COMPANY’X SALES

Para la serie correspondiente a las ventas de la compañía X, los resultados son resumidos

en la Tabla 2. A diferencia de la serie airline, cuando la red fue entrenada se logra un

mejor resultado sobre el estadístico de ajuste elegido (MSE) sobre los datos de

entrenamiento originales: la red RNO H2, superando ampliamente al modelo SARIMA. En

el caso de la validación, RNO H2 es el modelo con mejor desempeño, también con los

datos originales, tal y como sucedió con los resultados de los estadísticos de ajustes para

la serie Airline.

Tabla 2: Resumen de los estadísticos de ajuste para la serie Company’X sales

Modelo Entrenamiento (MSE) Validación(MSE)

SARIMA 0,05239 0,02549

Datos Originales

RNO H1 0,04970 0,07197

RNO H2 0,00146* 0,00213*

RNO H3 0,08800 0,04990

Datos sin ciclo ni tendencia

RNDSDT H1 0,06636 0,08261

RNDSDT H2 0,05578 0,07813

RNDSDT H3 0,06474 0,08673

Datos sin ciclo ni tendencia-Regularizada

RNDSDTR H1 0,04381 0,04512

RNDSDTR H2 0,04709 0,05140

RNDSDTR H3 0,05091 0,05331

Nuevamente, la FIGURA 8 nos muestra un comportamiento, del pronóstico realizado con

la red neuronal con los datos originales, en el cual en el largo plazo, la serie pierde su

forma, pese a ser esta la red que mejor desempeño tuvo en el corto plazo.

24

FIGURA 9: Pronóstico usando el modelo RN-O Serie Company’X sales.

La FIGURA 9, en la cual se usaron los datos sin ciclo y tendencia, muestra un cambio en

el patrón de la tendencia, tomando una forma cóncava, tal y como se vio con la serie

airline.

FIGURA 10: Pronóstico usando el modelo RN-DSDT. Serie Company’X sales.

3,5

4,5

5,5

6,5

7,5

8,5

9,5

10,5

ene.-65 sep.-67 jun.-70 mar.-73 dic.-75 sep.-78

LN(y) Pronóstico

3,5

4,5

5,5

6,5

7,5

8,5

9,5

10,5

ene.-65 sep.-67 jun.-70 mar.-73 dic.-75 sep.-78

LN(y) Pronóstico

25

La FIGURA 10, muestra el pronóstico de largo plazo de la serie de las ventas de la

compañía X, cuando los pesos de la red son regularizados. Los resultados siguen

mostrando que la tendencia se memoriza mejor cuando se usa este método.

FIGURA 11 Pronóstico usando el modelo RN-DSDTR. Serie Company’X sales.

Para la serie Company’X sales, el análisis grafico de comparar el primero modelo de red,

sin eliminar ciclo y tendencia, muestra, tal como en el caso de la serie Airline, que a

medida que se hace mayor t deja de seguir el patrón que originalmente compartía con el

pronóstico de la serie hecho por el modelo SARIMA. Los pronósticos de los modelos de

red, sin ciclo y tendencia, tanto el regularizado como el que no, aparecen en la parte

superior de la línea de 45°, mostrando una separación de esta, pero menos marcada que

los pronósticos de la serie pronosticada con la red con sus datos originales .

3,5

4,5

5,5

6,5

7,5

8,5

9,5

10,5

ene.-65 sep.-67 jun.-70 mar.-73 dic.-75 sep.-78

ln(y) Pronóstico

26

FIGURA 12: Comparación de pronóstico en el largo plazo SARIMA vs Red Neuronal.

Serie Company’X sales.

4.3 SERIE JOHNSON & JOHNSON QUARTERLY EARNINGS

Finalmente, en el análisis de la tercera encontramos nuevamente que el mejor desempeño

de la serie en la etapa de validación se sigue dando con la serie ajustada con los datos

originales. El resumen de los resultados se encuentra en la Tabla 3.

Tabla 3: Resumen de los estadísticos de ajuste para la serie J&J Quarterly Earnings

Modelo Entrenamiento (MSE) Validación(MSE)

SARIMA 0,00987 0,00495

Datos Originales

RNO H1 0,00682 0,00651

RNO H2 0,00611 0,01255

RNO H3 0,00607 * 0,00172 *

Datos sin ciclo ni tendencia

RNDSDT H1 0,01008 0,01000*

RNDSDT H2 0,01002 0,01037

RNDSDT H3 0,01124 0,01009

Datos sin ciclo ni tendencia-Regularizada

RNDSDTR H1 0,01297 0,00969

RNDSDTR H2 0,01727 0,01273

RDSDTR H3 0,01727 0,01273

5,6

6,1

6,6

7,1

7,6

8,1

5,6 6,1 6,6 7,1 7,6 8,1

RNO RNDSDT RNDSDTR

27

Como con la serie airline y Company’X sales, en el largo plazo, la red con datos

originales y las redes con los datos transformados tienen resultados claramente diferentes.

FIGURA 13: Pronóstico usando el modelo RN-O Serie J&J Quarterly Earnings

FIGURA 14: Pronóstico usando el modelo RN-DSDT Serie J&J Quarterly Earnings

-1,0

0,0

1,0

2,0

3,0

4,0

5,0

ene.-49 may.-50 sep.-51 feb.-53 jun.-54 nov.-55 mar.-57 ago.-58

LN(y) Pronóstico

-2,0

-1,0

0,0

1,0

2,0

3,0

4,0

5,0

ene.-49 may.-50 sep.-51 feb.-53 jun.-54 nov.-55 mar.-57 ago.-58

LN(y) Pronóstico

28

FIGURA 15: Pronóstico usando el modelo RN-DSDTR. Serie J&J Quarterly Earnings.

En el caso de la serie J&J, nuevamente se puede visualizar la diferencia entre los

resultados obtenidos entre el modelo SARIMA y los resultados obtenidos mediante el uso

de redes neuronales. Tanto para la primera red, en la cual se hizo uso de los datos

originales, como para las redes preprocesadas, los pronósticos son significativamente

diferentes a los resultados presentados por el modelo SARIMA.

FIGURA 16: Comparación de pronóstico en el largo plazo SARIMA vs Red Neuronal.

Serie J&J Quarterly Earnings

-1,00

0,00

1,00

2,00

3,00

4,00

5,00

ene.-49 may.-50 sep.-51 feb.-53 jun.-54 nov.-55 mar.-57 ago.-58

LN(y) Pronóstico

2,4

2,9

3,4

3,9

4,4

4,9

2,4 2,9 3,4 3,9 4,4 4,9

RNO RNDSDT RNDSDTR

29

5. DISCUSIÓN

En el capítulo anterior se mostró el resultado de la aplicación de 4 métodos diferentes

para el pronóstico a corto y largo plazo de series de tiempo con ciclo y tendencia: El

modelo SARIMA, un modelo de red neuronal que usa los datos originales sin ningún pre

procesamiento previo, un segundo modelo para el cual ha sido removido el ciclo y la

tendencia, y finalmente, un cuarto modelo similar al tercero, excepto que se optó por

regularizar los pesos de la función de desempeño. En los cuatro casos, a corto plazo, fue

posible obtener resultados aceptables y ligeramente similares en los pronósticos.

En este caso, el modelo de red que mejor desempeño presenta es el modelo para el cual ni

el ciclo ni la tendencia son removidos. En los casos en que si lo son, la red regularizada

presenta un mejor desempeño.

En el largo plazo, por el contrario, la respuesta de una red neuronal comparada con el

modelo tradicional SARIMA, comienzan a presentar mayores diferencias a medida que

mayor se hace el horizonte de tiempo. Los pronósticos de las series realizados con los

datos originales, aunque a corto plazo mostraron los mejores resultados de los errores de

ajuste y pronósticos, comparándolos con las otras dos redes, a medida que la variable t

crecía, perdían completamente la información correspondiente a la tendencia y ciclos de

la serie original. Gráficamente se puede observar, como la primera red pierde al poco

tiempo su memoria y converge a un valor fijo, mientras que la tercera y cuarta red se

asemejan más al pronóstico SARIMA y siguen mostrando los patrones de ciclo y

tendencia que presentaban las series originales.

La elección del modelo a utilizar entonces, dependerá de la necesidad del modelador y

del horizonte de tiempo que esté considerando, este último determinaría el

preprocesamiento o no que se deba hacer de los datos si se busca utilizar redes neuronales

para pronóstico en el largo plazo, dado que aunque las redes son conocidas por su buen

desempeño y su capacidad de generalización, esta misma puede hacer que no se tenga un

buen comportamiento a medida que se incrementa el número de pronósticos a realizar si

los datos de entrada al modelo no se manejan de manera adecuada.

30

6. CONCLUSIONES

6.1 EVALUACIÓN DE OBJETIVOS PROPUESTOS

6.1.1 OBJETIVO ESPECÍFICO 1

“Aplicar los tres tipos de metodologías al pronóstico de, al menos, tres series de tiempo

con ciclo y patrón estacional”

Se utilizaron 3 series con ciclo y tendencia a los cuales se les aplicó 4 metodologías: Se

implementó el tradicional modelo SARIMA, luego se implementó una red neuronal

usando los datos con el ciclo y la tendencia original, el tercer caso es la serie con los

datos sin ciclo ni tendencia y un cuarto caso donde se utilizó regularización a los datos de

la metodología 3. En los tres casos, las redes neuronales entrenadas con los datos

originales, mostraron mejores resultados en el corto plazo en comparación del modelo

benchmark SARIMA.

6.1.2 OBJETIVO ESPECÍFICO 2

“Comparar la precisión de los pronósticos un paso adelante y varios pasos adelante”

La precisión de un paso adelante comparada con la predicción varios pasos adelante varía

según la metodología previamente escogida para pronosticar la serie. En el corto plazo, la

serie con los datos originales presenta mayor precisión, en el caso del largo plazo, la red

que se acerca mas al patrón original es la red sin ciclo y tendencia regularizada.

6.1.3 OBJETIVO ESPECÍFICO 3

31

“Determinar si el comportamiento de largo plazo de los modelos utilizados

reproduce las características de las series de tiempo pronosticadas”

Cuando se trabaja con los datos originales, la red pierde su capacidad de recordar el ciclo

y la tendencia a largo plazo y no reproduce las características de las series de tiempo

pronosticadas. En los casos en que ciclo y tendencia son removidos, la red parece

concentrarse mejor en hacer su pronóstico tal y como los autores a favor de preprocesar

enuncian. Por su parte, el modelo SARIMA, con varios pasos adelante, tiende a continuar

la tendencia a largo plazo y converge al valor esperado. Sin embargo, este modelo no es

necesariamente lo mejor para usos futuros, debido a muchos factores como la

incertidumbre pueden afectar las tendencias futuras.

6.2 APORTES ADICIONALES

En este trabajo se presentaron los resultados del pronóstico de series de tiempo con redes

neuronales con ciclo y tendencia. La metodología empleada fue comparar el desempeño

de hacer los pronósticos en primer lugar con los datos originales, luego un segundo

modelo donde el ciclo y la tendencia son eliminados, y un tercer modelo, donde al igual

que el modelo anterior, los datos son divididos en componentes, pero se usa un algoritmo

regularizado. Estos resultados son comparados con el modela SARIMA, el cual es un

modelo ampliamente utilizado como benchmark para este tipo de problemas.

Aunque los resultados presentados no corresponden a una respuesta general, bajo las

condiciones que fueron establecidas las conclusiones obtenidas a través de las 3 series

analizadas fueron:

Eliminar el ciclo y la tendencia no mejora el desempeño, en las 3 series elegidas, los

modelos que mostraron mejor ajuste fueron los modelos en los cuales el ciclo y la

tendencia no fue removidos. Con esto las redes confirman su habilidad para aprender

y adaptarse a la forma de los datos, lo que implicaría una ventaja en comparación de

los métodos convencionales de selección de pronóstico estadístico.

Pese a que los datos originales funcionan mejor para el pronóstico un paso adelante,

eliminar algunas componentes puede ser beneficioso en el largo plazo. Aunque las

32

series pueden tener un mejor desempeño sin necesidad de eliminar el ciclo y la

tendencia, en el largo plazo, conduce a que el pronóstico de la serie pierda su

capacidad de recordar la tendencia y estacionalidades presenten en la serie original.

Esto aporta un nuevo enfoque cuando se considera el pronóstico a largo plazo, tema

que no ha sido hasta el momento ampliamente analizado con modelos no lineales.

A pesar de su popularidad no hay una guía clara de cómo construir una red neuronal

para series de tiempo, por lo que la definición de la arquitectura (número de entradas

y rezagos, nodos ocultos) no es una tarea trivial. Según la literatura revisada, el

número de nodos de entrada, el algoritmo seleccionado, entre otros aspectos del

diseño de la red tienen una alta influencia en los resultados que se obtienen de la red,

por lo que no es tan fácil elegir de manera única cuál metodología es la más adecuada

para tal fin. Se recomienda entonces, que las conclusiones que son encontradas en

este y otros trabajos sobre el tema deben tomarse de manera limitada debido a la gran

cantidad de parametros y estructuras de redes que pueden ser evaluadas y enfocar

futuros trabajos de investigación en determinar cómo se debe desarrollan los modelos

con otro tipo de arquitecturas y otros métodos de selección de entradas al modelo.

33

BIBLIOGRAFÍA

[1] J. De Gooijer and R. Hyndman, “25 years of time series forecasting,” Int. J.

Forecast., vol. 22, no. 3, pp. 443–473, Jan. 2006.

[2] E. Ghylsels and D. R. Osborn, The Econometric Analysis of Seasonal Time Series.

New York, NY, USA: Cambridge University Press, 2001.

[3] K. Gebhard and J. Wolters, Introduction to Modern Time Series Analysis. Berlin,

Heidelberg: Springer Berlin Heidelberg, 2007.

[4] E. S. Gardner, “Exponential smoothing: The state of the art-Part II,” Int. J.

Forecast., vol. 22, no. 4, pp. 637–666, 2006.

[5] W. Bell and S. Hillmer, “Issues involved with the seasonal adjustment of economic

time series,” J. Bus. Econ. Stat., 1984.

[6] P. H. Franses and D. van Dijk, “The forecasting performance of various models for

seasonality and nonlinearity for quarterly industrial production,” Int. J. Forecast.,

vol. 21, no. 1, pp. 87–102, 2005.

[7] M. Qi and G. P. Zhang, “Trend time-series modeling and forecasting with neural

networks,” IEEE Trans. Neural Networks, vol. 19, no. 5, pp. 808–816, 2008.

[8] L. Wang, H. Zou, and J. Su, “An ARIMA‐ANN Hybrid Model for Time Series

Forecasting,” Syst. Res. …, vol. 259, no. May, pp. 244–259, 2013.

[9] J. Faraway and C. Chatfield, “Time series forecasting with neural networks: a

comparative study using the air line data,” … R. Stat. Soc. Ser. …, 1998.

[10] S. Ho, M. Xie, and T. Goh, “A comparative study of neural network and Box-

Jenkins ARIMA modeling in time series prediction,” Comput. Ind. Eng., vol. 42,

pp. 371–375, 2002.

[11] M. Khashei, M. Bijari, and S. R. Hejazi, “Combining seasonal ARIMA models

with computational intelligence techniques for time series forecasting,” Soft

Comput., vol. 16, no. 6, pp. 1091–1105, 2012.

[12] M. Tkáč and R. Verner, “Artificial neural networks in business: Two decades of

research,” Appl. Soft Comput., 2015.

[13] M. Khashei and M. Bijari, “A novel hybridization of artificial neural networks and

ARIMA models for time series forecasting,” Appl. Soft Comput., vol. 11, no. 2, pp.

2664–2675, Mar. 2011.

[14] C. A., C. K. M. Lee, and Z. Wu, “A Comparison between Neural Networks and

Traditional Forecasting Methods: A Case Study,” Int. J. Eng. Bus. Manag., vol. 1,

no. 2, p. 1, 2009.

[15] M. Adya and F. Collopy, “How effective are neural networks at forecasting and

prediction? A review and evaluation,” J. Forecast., vol. 17, no. 56, pp. 481–495,

1998.

34

[16] S. F. Crone and N. Kourentzes, “Input Variable Selection for Time Series

Prediction with Neural Networks-An Evaluation of Visual, Autocorrelation and

Spectral Analysis for varying Seasonality,” Eur. Symp. Time Ser. Predict., pp. 1–

11, 2007.

[17] L. Escobar R, J. Valdes H, and S. Zapata, “Redes Neuronales Artificiales en

predicción de Series de Tiempo . Una aplicación a la Industria,” Univ. Palermo,

pp. 33–48.

[18] I. Kaastra and M. Boyd, “Designing a neural network for forecasting financial and

economic time series,” Neurocomputing, vol. 10, no. 3, pp. 215–236, Apr. 1996.

[19] S. F. Crone and R. Dhawan, “Forecasting seasonal time series with neural

networks: A sensitivity analysis of architecture parameters,” IEEE Int. Conf.

Neural Networks - Conf. Proc., no. September, pp. 2099–2104, 2007.

[20] G. Zhang, B. E. Patuwo, and M. Hu, “Forecasting with artificial neural networks::

The state of the art,” Int. J. Forecast., vol. 14, pp. 35–62, 1998.

[21] R. Sharda and R. Patil, “Connectionist approach to time series prediction: an

empirical test,” J. Intell. Manuf., pp. 317–323, 1992.

[22] I. Alon, M. Qi, and R. Sadowski, “Forecasting aggregate retail sales:: a

comparison of artificial neural networks and traditional methods,” J. Retail.

Consum. Serv., vol. 8, pp. 147–156, 2001.

[23] C. Hamzaçebi, “Improving artificial neural networks’ performance in seasonal

time series forecasting,” Inf. Sci. (Ny)., vol. 178, no. 23, pp. 4550–4559, Dec.

2008.

[24] P. Franses and G. Draisma, “Recognizing changing seasonal patterns using

artificial neural networks,” J. Econom., vol. 81, no. December 1994, pp. 273–280,

1997.

[25] S. Benkachcha, E. H. H, P. Km, and R. El, “Seasonal Time Series Forecasting

Models based on Artificial Neural Network,” Int. J. Comput. Appl., vol. 116, no.

20, pp. 9–14, 2015.

[26] S. Wang, L. Yu, L. Tang, and S. Wang, “A novel seasonal decomposition based

least squares support vector regression ensemble learning approach for

hydropower consumption forecasting in China,” Energy, vol. 36, no. 11, pp. 6542–

6554, 2011.

[27] A. P. Ansuj, M. E. Camargo, R. Radharamanan, and D. G. Petry, “Sales

forecasting using time series and neural networks,” Comput. Ind. Eng., vol. 31, no.

1–2, pp. 421–424, 1996.

[28] I. Alon, M. Qi, and R. J. Sadowski, “Forecasting aggregate retail sales:,” J. Retail.

Consum. Serv., vol. 8, no. 3, pp. 147–156, 2001.

[29] R. Adhikari and R. K. Agrawal, “Forecasting strong seasonal time series with

artificial neural networks,” J. Sci. Ind. Res. (India)., vol. 71, no. 10, pp. 657–666,

2012.

[30] C. Chu and G. Zhang, “A comparative study of linear and nonlinear models for

35

aggregate retail sales forecasting,” Int. J. Prod. Econ., vol. 86, pp. 217–231, 2003.

[31] M. Nelson and T. Hill, “Time series forecasting using neural networks: Should the

data be deseasonalized first?,” J. Forecast., vol. 367, no. June 1997, pp. 359–367,

1999.

[32] M. Nelson, T. Hill, B. Remus, and M. O’Connor, “Can neural networks applied to

time series forecasting learn seasonal patterns: an empirical investigation,” Syst.

Sci. 1994. Proc. Twenty-Seventh Hawaii Int. Conf., vol. 3, pp. 649–655, 1994.

[33] G. Zhang and M. Qi, “Neural network forecasting for seasonal and trend time

series,” Eur. J. Oper. Res., vol. 160, no. 2, pp. 501–514, Jan. 2005.

[34] G. P. Zhang and D. M. Kline, “Quarterly time-series forecasting with neural

networks,” IEEE Trans. Neural Networks, vol. 18, no. 6, pp. 1800–1814, 2007.

[35] M. Khashei and M. Bijari, “Which Methodology is Better for Combining Linear

and Nonlinear Models for Time Series Forecasting ?,” vol. 4, no. 4, pp. 265–285,

2011.

[36] G. P. Zhang, “Time series forecasting using a hybrid ARIMA and neural network

model,” Neurocomputing, vol. 50, pp. 159–175, Jan. 2003.

[37] G. P. Zhang, “An investigation of neural networks for linear time-series

forecasting,” Comput. Oper. Res., vol. 28, no. 12, pp. 1183–1202, Oct. 2001.

[38] C. H. Aladag, E. Egrioglu, and C. Kadilar, “Forecasting nonlinear time series with

a hybrid methodology,” Appl. Math. Lett., vol. 22, no. 9, pp. 1467–1470, Sep.

2009.

[39] P.-F. Pai and C.-S. Lin, “A hybrid ARIMA and support vector machines model in

stock price forecasting,” Omega, vol. 33, no. 6, pp. 497–505, Dec. 2005.

[40] F. Tseng, H. Yu, and G. Tzeng, “Combining neural network model with seasonal

time series ARIMA model,” Technol. Forecast. Soc. …, vol. 69, no. 12, pp. 71–87,

2002.

[41] H. F. Zou, G. P. Xia, F. T. Yang, and H. Y. Wang, “An investigation and

comparison of artificial neural network and time series models for Chinese food

grain price forecasting,” Neurocomputing, vol. 70, no. 16–18, pp. 2913–2923, Oct.

2007.

[42] M. Štěpnička, P. Cortez, J. P. Donate, and L. Štěpničková, “Forecasting seasonal

time series with computational intelligence: On recent methods and the potential of

their combinations,” Expert Syst. Appl., vol. 40, no. 6, pp. 1981–1992, May 2013.

[43] J. J. Ruiz-Aguilar, I. J. Turias, and M. J. Jiménez-Come, “Hybrid approaches based

on SARIMA and artificial neural networks for inspection time series forecasting,”

Transp. Res. Part E Logist. Transp. Rev., vol. 67, pp. 1–13, 2014.

[44] G. Chevillon and D. F. Hendry, “Non-parametric direct multi-step estimation for

forecasting economic processes,” Int. J. Forecast., vol. 21, no. 2, pp. 201–218,

2005.

[45] H. H. Nguyen and C. W. Chan, “Multiple neural networks for a long term time

36

series forecast,” Neural Comput. Appl., vol. 13, pp. 90–98, 2004.

[46] Y. JingTao and L. T. Chew, “Guidelines for financial forecasting with neural

networks,” . Neural Inf. Process. Shanghai, 2001.

[47] G. E. P. Box, G. M. Jenkins, and G. C. Reinsel, Time series analysis. 2011.

[48] G. P. Zhang and M. Qi, “Neural network forecasting for seasonal and trend time

series,” Eur. J. Oper. Res., vol. 160, no. 2, pp. 501–514, Jan. 2005.

[49] M. T. Hagan and M. B. Menhaj, “Training Feedforward Networks with the

Marquardt Algorithm,” IEEE Trans. Neural Networks, vol. 5, no. 6, pp. 989–993,

1994.

[50] B. M. Wilamowski and H. Yu, “Improved computation for Levenberg-Marquardt

training.,” IEEE Trans. Neural Netw., vol. 21, no. 6, pp. 930–7, 2010.

[51] M. H. B. M. T. H. H. B. Demuth, “Neural Network Toolbox User ’ s Guide How

to Contact MathWorks,” MathWorks, 2015.

[52] J. Faraway and C. Chatfield, “Time series forecasting with neural networks: A case

study,” Univ. Bath, Bath (United Kingdom), …, pp. 1–21, 1995.

[53] S. Bisgaard and M. Kulahci, Time Series Analysis and Forecasting by Example.

2011.

[54] M. Ghiassi, H. Saidane, and D. K. Zimbra, “A dynamic artificial neural network

model for forecasting time series events,” Int. J. Forecast., vol. 21, no. 2, pp. 341–

362, Apr. 2005.

[55] R. H. Shumway, Time Series Analysis and Its Applications with R examples. 2006.

[56] S. Ruey, Analysis of Financial Time Series .