capítulo 5: comparación y combinación de pronósticos

64
DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN DE CAUDALES MEDIOS MENSUALES EN COLOMBIA Julián David Rojo Hernández – PARH -UNAL Capítulo 5: Comparación y combinación de pronósticos hidrológicos Los pronósticos de caudales no son únicos puesto que existen diferentes formas de producirlos, y, aun cuando se haya seleccionado un procedimiento en particular para elegir un pronóstico, quedan todavía muchos problemas referentes a la selección de las variables de interés, el funcionamiento del modelo, la técnica de estimación de los parámetros y la incertidumbre del modelo. Como resultado, el investigador cuenta con varios pronósticos de caudales, que lo llevan a formular la inquietud de si se debería escoger el mejor de ellos o tomar de alguna forma un promedio de los resultados arrojados por los diferentes modelos. Desde el trabajo de investigación seminal de Bates y Granger (1969), las combinaciones de pronósticos han llegado a ser vistas como una manera simple y efectiva para mejorar y robustecer el desempeño de pronóstico usando los resultados obtenidos de los modelos individuales.

Upload: others

Post on 20-Nov-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH -UNAL

Capítulo 5:

Comparación y combinación de pronósticos hidrológicos

Los pronósticos de caudales no son únicos puesto que existen diferentes formas de producirlos, y, aun cuando se haya seleccionado

un procedimiento en particular para elegir un pronóstico, quedan todavía muchos problemas referentes a la selección de las variables de interés, el funcionamiento del modelo, la técnica de estimación de los

parámetros y la incertidumbre del modelo. Como resultado, el investigador cuenta con varios pronósticos de caudales, que lo llevan a formular la inquietud de si se debería escoger el mejor de ellos o tomar

de alguna forma un promedio de los resultados arrojados por los diferentes modelos. Desde el trabajo de investigación seminal de Bates y Granger (1969), las combinaciones de pronósticos han llegado a ser vistas como una manera simple y efectiva para mejorar y robustecer el

desempeño de pronóstico usando los resultados obtenidos de los modelos individuales.

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 5-1

5 COMPARACIÓN Y COMBINACIÓN DE PRONÓSTICOS HIDROLÓGIC OS

RESUMEN

El presente trabajo describe el test de Diebold y Mariano para la comparación de pronósticos, el cual puede ser utilizado para estimar la sensibilidad de los modelos a la incorporación de variables explicativas, además permite identificar redundancias entre diferentes métodos de predicción o esquemas de combinación.

Se describen los métodos del promedio simple (MPS), el promedio ponderado (MPP), la red neuronal (MRN) y el sistema de inferencia difuso tipo Takagui-Sugeno (ANFIS), para combinar los pronósticos de los seis modelos usados en el presente trabajo para la predicción de caudales medios mensuales. Una comparación entre los esquemas de combinación muestra que el esquema de combinación ANFIS posee mayor eficiencia siendo los indicadores de error proporcionales a la cantidad de modelos usados en la combinación. Se concluye que los pronósticos de caudales pueden ser sustancialmente mejorados si se utiliza un procedimiento para combinar los diferentes pronósticos individuales.

5.1 INTRODUCCIÓN

Diversos enfoques han contribuido al avance en la fiabilidad de los pronósticos, sin embargo, debido a la complejidad de los fenómenos analizados y la variabilidad de las escalas espacio-temporales muchos aspectos del problema de predicción de caudales aún no han sido resueltos. Es por ello que debe partirse del supuesto de que las técnicas desarrolladas para la predicción hidrológica no son perfectas, haciéndose necesario comparar los resultados de los diferentes modelos, no solo para analizar su fiabilidad, sino también para descartar posibles redundancias. Un análisis eficiente de los resultados y una comparación eficaz de los modelos determinan los pasos a seguir en la ardua tarea de mejorar los pronósticos.

Los capítulos 3 y 4 han demostrado que los pronósticos de caudales no son únicos puesto que existen diferentes formas de producirlos, y, aun cuando se haya seleccionado un procedimiento en particular para elegir un pronóstico, quedan todavía muchos problemas referentes a la selección de las variables de interés, el funcionamiento del modelo, la técnica de estimación de los parámetros y la incertidumbre del modelo. Como resultado, el investigador cuenta con varios pronósticos de caudales, que lo llevan a formular la inquietud de si se debería escoger el mejor de ellos o tomar de alguna forma un promedio de los resultados arrojados por los diferentes modelos. Ésta cuestión ha tenido mucha atención de la literatura académica en los años recientes, y en todas las investigaciones realizadas se concluye que es mejor usar una mezcla de los pronósticos en lugar de usar sólo uno de ellos.

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 5-2

5.2 COMPARACIÓN DE PRONÓSTICOS

5.2.1 Test de Diebold y Mariano

Se vuelve frecuente encontrar dos o mas modelos de pronóstico cuyas habilidades sean parecidas o que técnicamente se encuentran en franca competencia, ello ocurre cuando los errores del proceso de validación para dos o más modelos son semejantes (no necesariamente iguales) o proporcionales por lo que surge la siguiente pregunta: ¿Qué tanto de dicha semejanza se debe al azar?. Diebold y Mariano (1995) han hecho una especial contribución al proponer una prueba estadística que es la base para la comparación de pronósticos.

Supóngase que { }ty denota la serie de tiempo a ser predicha y 1thty + y 2

thty + denotan las

predicciones de dos modelos en competencia del valor hty + , por ejemplo 1thty + puede ser

obtenido por un modelo AR(p) y 2 thty + por un modelo ARMA(p,q), los errores de pronóstico

para los dos modelos están dados por:

11ththttht yy +++ −=ε 5-1

22ththttht yy +++ −=ε 5-2

Siendo h el paso futuro a pronosticar; si se tienen T pronósticos para Tttt ,...,, 10= entonces

se pueden establecer las series de errores durante la validación de ambos modelos como:

{ }T

ttht0

1+ε ,{ }T

ttht0

2+ε 5-3

La habilidad de cada pronóstico es medida mediante una función residual ()L que es de la forma:

)(),( itht

iththt LyyL +++ = ε ; 2,1=i 5-4

Las funciones ()L más utilizadas son:

Error cuadrático:

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 5-3

( )2)( i

thti

thtL ++ = εε 5-5

Error absoluto:

itht

ithtL ++ = εε )( 5-6

Para determinar si un modelo predice mejor que otro entonces se elabora la siguiente hipótesis nula:

( )[ ] ( )[ ]210 : thttht LELEH ++ = εε 5-7

Y su correspondiente hipótesis alternativa:

( )[ ] ( )[ ]211 : thttht LELEH ++ ≠ εε 5-8

La prueba estadística de Diebold y Mariano está basada en residuos diferenciales dados por:

)()( 21thtthtt LLd ++ −= εε 5-9

Los modelos de pronóstico comparados serán redundantes (poseen igual habilidad de pronóstico) si se satisface la hipótesis nula:

[ ] 0:0 =tdEH 5-10

El estadístico de la prueba será:

( )[ ] 21

21

==

TLRV

d

davr

dS

d

5-11

Donde:

∑=

=T

ttd

Td

1

1 5-12

∑∞

=

+=1

0 2j

jdLRV γγ 5-13

Siendo:

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 5-4

( )jttj dd −= ,covγ 5-14

dLRV se conoce como la varianza asintótica de largo plazo, y es usada en el estadístico S

porque representa la persistencia de largo plazo en la serie de los td . Así pues, los td están

seriamente correlacionados si:

( )1,0NS → 5-15

Y para rechazar la hipótesis nula de igualdad en los pronósticos con un nivel de significaría del 5%:

96.1>S 5-16

5.2.2 Aplicaciones del test de Diebold y Mariano en la predicción de caudales

5.2.2.1 Caso 1: Sensibilidad de los modelos de pronóstico de caudales a la incorporación de variables explicativas.

En muchos casos variables explicativas redundantes son introducidas a los modelos por lo que se hace necesario comparar los resultados a fin de estimar la sensibilidad de los modelos a la incorporación de dichas variables. Para el caso de predicción de caudales en el río Guadalupe a un mes con una red neuronal tipo perceptrón multicapa (2 neuronas en la capa oculta) utilizando rezagos de algunas de las variables macro-climáticas que caracterizan el ENSO (MEI, SOI, ONI), se tiene que el caso 3 (C3), que utiliza como variable explicativa el ONI -2, es el modelo mas eficientes dado que posee un coeficiente de Pearson de 0.63 (Figura 5-1). Sin embargo los resultados del C3 son estadísticamente semejantes a los del C2 porque el estadístico S de la prueba de Diebold y Mariano es menor que 1.96, lo que significa que:

RNA(ONI-3)=RNA(SOI-2).

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 5-5

Figura 5-1 Comparación entre casos de predicción del río Guadalupe con ventanas de un mes usando variables explicativas del ENSO

Resulta indiferente utilizar en la red neuronal el ONI o el SOI para el pronóstico de caudales del río Guadalupe utilizando una RNA. La Tabla 5-1 también muestra la redundancia que existe al utilizar múltiples variables que describen el ENSO en una red neuronal. Además de la poca diferencia estadística entre los pronósticos de una RNA(MEI-3) y RNA(SOI-2).

Tabla 5-1 Valores del estimador S del Test de de Diebold y Mariano para casos de pronóstico

usando diferentes variables explicativas

96.1>S

Q=RNA(MEI-3) C1 Q=RNA(SOI-2) C2 Q=RNA(ONI-3) C3 Q=RNA(ENSO) C4

Q=RNA(MEI-3) C1 0.6329 2.5991 1.4292

Q=RNA(SOI-2) C2 0.6329 1.6103 0.7345

Q=RNA(ONI-3) C3 2.5991 1.6103 2.9441

Q=RNA(ENSO) C4 1.4292 0.7345 2.9441

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 5-6

Otro caso interesante corresponde a la introducción de rezagos de la serie de caudales como variable explicativa en el río Guadalupe, En la Figura 5-2 el pronóstico con redes neuronales se vuelve mucho más eficiente, en comparación con el caso de la utilización de una variable macro-climática como el ONI, sin embargo, como se muestra en la Tabla 5-2, existe redundancia entre los modelos RNA(Q-1) y RNA(Q-1,ONI-3) pues 96.1<S , lo que implica

que la incorporación de la variable macro-climática no mejora significativamente la capacidad de pronóstico de los caudales, por lo que el modelo es muy dependiente de los rezagos de caudal.

Tabla 5-2 valores de S obtenidos en la comparación entre modelos de pronóstico con variables

macro-climáticas y rezagos de caudal para el río Guadalupe

Q=RNA(ONI-3) Q=RNA(Q-1) Q=RNA(Q-1º,0NI-3)

Q=RNA(ONI-3) X 2.6282 2.4454

Q=RNA(Q-1) 2.6282 X 1.5009

Q=RNA(Q-1º,0NI-3) 2.4454 1.5009 X

Figura 5-2 Introducción de rezagos de la serie de caudales como variable explicativa en el río Guadalupe-Comparación.

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 5-7

5.2.2.2 Caso 2: Comparación de diferentes modelos para la predicción de caudales.

Dos modelos competitivos pueden ser redundantes si el estadístico de la prueba de Diebold y Mariano S es menor que 1.96. En la Tabla 5-3, la Tabla 5-4, la Tabla 5-5y la Tabla 5-6 se

presenta una comparación de los pronósticos elaborados en el presente trabajo para el caso del río Guadalupe con ventanas de 1,3,6,12 mes; los resultados indican que para pronósticos de un mes el esquema periódico PPON (P)+ HH estadísticamente genera los mismos pronósticos que el modelo MARS (P) +OND; para horizontes de pronóstico de tres meses los modelos RNPOL (P)+AES y RED (P)+HH son redundantes; para pronósticos a 6 meses no existen redundancias y a 12 meses los modelos PPON (P)+ HH y RED (P)+HH y MARS (P) +OND y RNPOL (P)+AES, pronostican los mismo.

Tabla 5-3 valores de S obtenidos en la Comparación de pronósticos de caudales en el río

Guadalupe V=1;

COMPARACIÓN DE MODELOS DE PREDICCIÓN A 1 MES CAUD ALES DEL RIO GUADALUPE 96.1>S

AR(2) RLM RED (P)+HH RLM (P) +AES MARS (P) +OND PPON (P)+ HH RNPOL (P)+AES

AR(2) NaN 6.5654 7.3378 6.048 5.6652 5.895 5.3655

RLM 6.5654 NaN 2.7929 9.2467 10.0077 7.0438 4.644

RED (P)+HH 7.3378 2.7929 NaN 2.9498 3.0003 2.7188 2.5887

RLM (P) +AES 6.048 9.2467 2.9498 NaN 2.8572 4.7009 2.2671

MARS (P) +OND 5.6652 10.0077 3.0003 2.8572 NaN 0.1023 2.2544

PPON (P)+ HH 5.895 7.0438 2.7188 4.7009 0.1023 NaN 6.9228

RNPOL (P)+AES 5.3655 4.644 2.5887 2.2671 2.2544 6.9228 NaN

Tabla 5-4 valores de S obtenidos en la comparación de pronósticos de caudales en el río

Guadalupe V=3;

COMPARACIÓN DE MODELOS PREDICCIÓN A 3 MESES CAUDALE S DEL RIO GUADALUPE 96.1>S

AR(2) RLM RED (P)+HH RLM (P) +AES MARS (P) +OND PPON (P)+ HH RNPOL (P)+AES

AR(2) NaN 2.087 2.7146 2.5599 2.5267 2.7159 2.5513

RLM 2.087 NaN 3.5699 2.9258 2.8595 3.6606 2.9912

RED (P)+HH 2.7146 3.5699 NaN 1.9677 1.7917 2.8997 2.8547

RLM (P) +AES 2.5599 2.9258 1.9677 NaN 3.0561 2.1499 3.0062

MARS (P) +OND 2.5267 2.8595 1.7917 3.0561 NaN 2.015 2.5372

PPON (P)+ HH 2.7159 3.6606 2.8997 2.1499 2.015 NaN 2.1037

RNPOL (P)+AES 2.5513 2.9912 2.8547 3.0062 2.5372 2.1037 NaN

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 5-8

Tabla 5-5 Valores de S obtenidos en la comparación de pronósticos de caudales en el río

Guadalupe V=6;

COMPARACIÓN DE MODELOS PREDICCIÓN A 6 MESES CAUDALE S DEL RIO GUADALUPE 96.1>S

AR(2) RLM RED (P)+HH RLM (P) +AES MARS (P) +OND PPON (P)+ HH RNPOL (P)+AES

AR(2) NaN 4.9143 4.9599 4.6362 4.3218 5.0974 5.1127

RLM 4.9143 NaN 6.3794 4.5907 4.1664 5.1462 5.1499

RED (P)+HH 4.9599 6.3794 NaN 4.6998 2.0874 4.5697 7.0406

RLM (P) +AES 4.6362 4.5907 4.6998 NaN 4.4592 2.335 2.051

MARS (P) +OND 4.3218 4.1664 2.0874 4.4592 NaN 3.1809 2.6903

PPON (P)+ HH 5.0974 5.1462 4.5697 2.335 3.1809 NaN 10.6148

RNPOL (P)+AES 5.1127 5.1499 7.0406 2.051 2.6903 10.6148 NaN

Tabla 5-6 Valores de S obtenidos en la comparación de pronósticos de caudales en el río

Guadalupe V=12

COMPARACIÓN DE MODELOS PREDICCIÓN A 12 MESES CAUDA LES DEL RIO GUADALUPE 96.1>S

AR(2) RLM RED (P)+HH RLM (P) +AES MARS (P) +OND PPON (P)+ HH RNPOL (P)+AES

AR(2) NaN 4.2139 7.831 9.5291 8.861 7.6485 8.1394

RLM 4.2139 NaN 11.1204 19.2553 17.9237 10.3692 13.9627

RED (P)+HH 7.831 11.1204 NaN 2.5169 12.0237 0.3614 18.1542

RLM (P) +AES 9.5291 19.2553 2.5169 NaN 6.3334 3.4689 3.5708

MARS (P) +OND 8.861 17.9237 12.0237 6.3334 NaN 23.5782 1.5379

PPON (P)+ HH 7.6485 10.3692 0.3614 3.4689 23.5782 NaN 20.6276

RNPOL (P)+AES 8.1394 13.9627 18.1542 3.5708 1.5379 20.6276 NaN

5.3 COMBINACIÓN DE PRONÓSTICOS

En años recientes los econometristas han sido grandes precursores de los métodos de combinación de pronósticos. El primer trabajo que se conoce sobre el tema fue presentado por Bates y Granger (1969) y la revisión más completa sobre el asunto fue elaborada por Clemen (1989), sus estudios llegaron a la conclusión de que un pronóstico puede ser sustancialmente mejorado si se utiliza una combinación de pronósticos. Si los resultados de diferentes modelos pueden ser tratados formalmente como pronósticos de diferentes expertos, entonces su combinación no debería generar ninguna controversia, pues equivaldría a combinar en la predicción distintos aspectos y fuentes de información siempre y cuando los pronósticos no sean redundantes; además los fuertes resultados estadísticos obtenidos han permitido dejar atrás las críticas.

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 5-9

El concepto de combinación de pronósticos también echó raíces en el modelamiento del clima; Vislocky y Fritsch (1995) demostraron que el promedio simple de los resultados de diferentes modelos (multi-model ensemble) posee una mayor capacidad de predicción que los diferentes modelos individuales, sin embargo se obtienen mejores resultados al ponderar las salidas de los modelos individuales (multi-model superensemble) y justamente éste postulado es empleado por Krishnamurti (1999,2000,2003) para previsiones del clima de largo plazo. En hidrología existen muy pocas aplicaciones en la combinación de pronósticos, muchas de ellas referidas a la combinación de diferentes modelos lluvia escorrentía. Shamseldin et al (1997) combina las salidas de cinco modelos lluvia escorrentía usando tres aproximaciones diferentes: un promedio simple, un promedio ponderado y una red neuronal; el caudal estimado a partir de la combinación fue más consecuente con la realidad que la mejor de las estimaciones individuales, especialmente para los métodos del promedio ponderado y la red neuronal.

Cuatro métodos son presentados en éste trabajo para la combinación de pronósticos de caudales medios mensuales: el método del promedio simple (MPS), el método del promedio ponderado (MPP) el método de la red neuronal (MRN) y una combinación entre sistemas de inferencia difusa y redes neuronales conocida como ANFIS, Los primeros dos métodos han sido utilizados extensivamente por diferentes autores (Dickson (1975), Mkidraskis et al (1983), Vislocky y Fritsch (1995) y Krishnamurti et al. (1999)), quienes en gran medida sugieren la regresión lineal múltiple como método de combinación. Con el objetivo de explorar relaciones más complejas en la combinación de pronósticos Shamseldin et al (1997) incorporaron las redes neuronales dada su mayor versatilidad a la hora de modelar las relaciones complejas, no lineales entre las diferentes variables involucradas en el problema de la combinación de diferentes modelos lluvia escorrentía, previamente Donaldson and Kamstra (1996) habían usado las redes neuronales para la combinación de pronósticos en economía. Un método de combinación basado en inferencia difusa fue desarrollado por Xion et al (2001) quienes propusieron un sistema de primer orden basado en reglas del tipo Takagi-Sugeno cuya aplicación aumentó la eficiencia de la predicción combinada. Finalmente las redes polinómicas presentadas en el capitulo anterior son en si mismas un método de combinación de pronósticos, dado que cada capa de la red utiliza los mejores ajustes de las PD para mejorar el ajuste.

5.3.1 Esquema general de la combinación de pronósticos

Una estimación combinada del caudal icQ , obtenida a partir de N modelos para el i -ésimo

periodo, está formalmente definida como una función ( )F de los N caudales estimados por los modelos individuales, de forma tal que:

( )iNiNiii QQQQFcQ ,,1,2,1ˆ,ˆ,...,ˆ,ˆˆ

−= 5-17

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 5-10

Donde ijQ ,ˆ es el caudal estimado por el j -ésimo modelo para el i -ésimo periodo

(Shamseldin et al, 1997), cada método de combinación elabora su propia definición de la función ( )F . Un diagrama esquemático del proceso de combinación de pronósticos se presenta en la Figura 5-3. Básicamente cualquier técnica que contribuya a la construcción de la función ( )F puede ser utilizada dentro del proceso de combinación de pronósticos, sin embargo en el presente trabajo se da prioridad a aquellas técnicas utilizadas en literatura para combinar pronósticos.

Figura 5-3 Procedimiento general para la combinación de pronósticos

5.3.2 Método del promedio simple (MPS)

Dadas las predicciones de caudales ijQ ,ˆ de N modelos, una estimación combinada del caudal

para el periodo i usando el método del promedio simple (MPS) está dada por:

∑=

=N

jiji Q

NcQ

1,

ˆ1ˆ 5-18

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 5-11

5.3.3 Método del promedio ponderado (MPP)

Cuando algunos de los modelos individuales seleccionados para la combinación son mas precisos que otros, el método del promedio simple puede ser demasiado ineficiente (Armstrong, 1989), y es allí donde el uso de un promedio ponderado puede considerase.

El método del promedio ponderado (MPP) para la combinación de pronósticos de caudales provistos por diferentes modelos puede ser expresado como (Granger y Ramanathan,1984):

∑=

+=N

jiijji eQacQ

1,

ˆˆ 5-19

Donde ja corresponde al peso asignado al caudal ijQ ,ˆ del j -ésimo modelo y ie es el error en

el ajuste de la combinación. La ecuación 5-19 puede ser expresada en términos matriciales como:

EPAQ += 5-20

Donde P es la matriz que contiene los pronósticos de los diferentes modelos de predicción y está definida por:

=

−−−−−

kNkNkk

kNkNkk

NN

NN

NN

QQQQ

QQQQ

QQQQ

QQQQ

QQQQ

P

,,1,2,1

1,1,11,21,1

3,3,13,23,1

2,2,12,22,1

1,1,11,21,1

ˆˆˆˆ

ˆˆˆˆ

ˆˆˆˆ

ˆˆˆˆ

ˆˆˆˆ

KK

KK

MMMMMM

MMMMMM

KK

KK

KK

5-21

[ ]Tkk QQQQQQ ,,,,, 1321 −= K Corresponde al vector de salida del MPP,

[ ]TNN aaaaaA ,,,,, 1321 −= K es el vector de ponderaciones y [ ]Tkk aeeeeE ,,,,, 1321 −= K es el

vector de errores en la combinación. T Denota el operador transpuesta y k corresponde al número de caudales predichos de manera individual por cada modelo. La ecuación anterior puede ser vista como un modelo de regresión lineal múltiple, donde el vector de pesos A es estimado según el procedimiento de mínimos cuadrados:

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 5-12

( )[ ] QPPPA TT 1ˆ −= 5-22

5.3.4 Método de las Redes Neuronales (MRNA).

La teoría básica de las redes Neuronales fue presentada en el capítulo 3, y para efectos de combinación de pronóstico se propone una topología como la presentada en la Figura 5-4 usando como ejemplo los resultado de tres modelos ( )kkk QQQ ,3,2,1

ˆ,ˆ,ˆ .Los valores que ingresan

a la red (inputs) corresponden a los caudales predichos por tres modelos, y la salida de red corresponde al caudal estimado mediante la combinación

Figura 5-4 Esquema de red Neuronal usada en la combinación de pronósticos.

La capa de entrada tendrá un número de neuronas igual al número de entradas externas a la red, para el caso de la combinación de pronósticos las entradas externas a la red equivalen a los caudales predichos por los N diferentes modelos. Luego, las entradas de cada neurona son trasformadas utilizando una función de transferencia ()f . Por ejemplo, en la capa de entrada,

las variables externas iX son trasformadas por una función que las deja idénticas.

ii XXf =)( 5-23

En la capa oculta las neuronas reciben las salidas trasformadas de la capa de entrada, y por ello tienen una función de trasferencia de la forma:

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 5-13

= ∑=

n

iimimmout Xwfy

1,,, 5-24

Donde mouty , corresponde a la salida de la neurona m , imX , es la entrada a la neurona

proveniente de la neurona i y ()f es la función de transferencia que en este caso corresponde a la sigmoidea bipolar dada por la ecuación:

1)1(

2)(

2−

+= − xe

xf 5-25

Los pesos de la red neuronal deben ser ajustados mediante un entrenamiento, y la ecuación del perceptrón multicapa para la combinación de pronósticos esta dada por:

∑ ∑= =

⋅⋅=m

h

n

iimimmi QwfwcQ

1 1,,

ˆˆ 5-26

5.3.5 Método ANFIS.

Un sistema de inferencia difusa conformado por reglas de Takagi-Sugeno –véase a Sugeno y Kang (1988), Takagi y Sugeno (1983) y Takagi y Sugeno (1985) – puede ser interpretado como una red neurodifusa conocida como ANFIS (Jang, 1993). La Figura 5 presenta la arquitectura de ANFIS para un sistema de inferencia de dos variables difusas x y y donde:

if 1Ax∈ ∧ 1By∈ ⇒ 111 ryqxpz ++=

if 1Ax∈ ∧ 2By∈ ⇒ 221 ryqxpz ++=

if 2Ax∈ ∧ 1By∈ ⇒ 312 ryqxpz ++= 5-27

if 2Ax∈ ∧ 2By∈ ⇒ 422 ryqxpz ++=

El dominio de x está cubierto por los conjuntos borrosos 1A y 2A , y el dominio de y por

los conjuntos borrosos 1B y 2B . La función de pertenencia ( )uµ para dichos conjuntos borrosos se define, comúnmente, como la función de campana generalizada:

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 5-14

( ) ( ) β

αγ

γβαµ2

1

1,,;

−+

=Φ=u

uu 5-28

El proceso de inferencia para una entrada (x , y ) implica:

• Calcular ( )xA1µ , ( )xA2µ , ( )yB1µ y ( )yB2µ usando 5-28.

• Estimar la inferencia producto para cada regla ( ) ( )xxw BA µµ ×=

• Establecer el porcentaje que cada regla aporta a la solución final.

• Estimar la salida del conjunto borroso.

Figura 5-5 Modelo ANFIS para la combinación de pronósticos.

Nótese que en 5-27 las variables que conforman los antecedentes de las reglas son las mismas que conforman sus consecuentes; y que el dominio de cada variable está cubierto por al menos dos conjuntos borrosos, de acuerdo con la definición de reglas de Takagi–Sugeno. Usualmente, la función especificada para el consecuente de las reglas es la combinación lineal de las entradas, pero en el caso general es posible usar funciones más complejas. La ecuación de la campana generalizada 5-28 es una elección común para modelar las funciones de pertenencia con que se especifican los conjuntos borrosos (Velásquez, 2008). El sistema formado por 2-27 puede incluir tanto información proveniente del experto en la forma de

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 5-15

reglas difusas, como reglas aprendidas a partir de información histórica de la serie temporal que se está modelando. Lo anterior se logra a través del afinamiento de la cantidad y las funciones de pertenencia asociadas a cada una de las variables explicativas. El modelo ANFIS se basa en realizar una partición del dominio de las variables que conforman los antecedentes de las reglas, asignando a cada región un modelo paramétrico lineal, así por ejemplo, para el caso de combinación de pronósticos se pueden utilizar las siguientes reglas de inferencia:

SI 1,ˆ AQ ij ∈ ENTONCES ∑

=

++=N

jiijji eQaacQ

1,

)1(0

)1( ˆˆ

SI 2,ˆ AQ ij ∈ ENTONCES ∑

=

++=N

jiijji eQaacQ

1,

)2(0

)2( ˆˆ 5-29

El modelo ANFIS corresponde a una regresión dinámica donde las variables de entrada pertenecen a ciertos rangos definidos por un experto mediante conjuntos borrosos (Velásquez, 2008).

5.3.6 Aplicación de los métodos de combinación a los pronósticos de los caudales medios mensuales de algunos ríos en Colombia.

Inicialmente se presenta el caso del río Miel en el departamento de Caldas, cuyos pronósticos de caudales fueron obtenidos mediante regresión lineal múltiple (RLM), Redes Neuronales artificiales (RNA), un modelo autoregresivo de orden dos AR(2), el modelo MARS y una red polinómica (REDPOL); los modelos de pronostico fueron construidos utilizando diferentes fuentes de información en aras de asegurar que los pronóstico de los diferentes modelos fueran estadísticamente diferentes, corroborado mediante el test de comparación de pronósticos. Los pronósticos a un mes del río Miel arrojados por los diferentes modelos para el periodo 1998-2007 se presentan en la Figura 5-6.

El período de calibración va desde 1965 (año inicial de la serie) hasta 1986 y la validación corresponde al período comprendido entre (1987-2007), las predicciones obtenidas entre 1987 y 1997 fueron usadas para calibrar los modelos de combinación de pronósticos, y la validación de la combinación se llevó a cabo para los años 1998-2007. Los resultados de la combinación de pronósticos para el río Miel se muestran en la Figura 5-7, donde el modelo de combinación ANFIS corresponde a la mejor técnica de combinación, y sus resultados son significativamente diferentes en comparación con el mejor de los modelos de pronóstico (MARS) puesto que el S=2.48>1.96. En este caso la mejor combinación demuestra ser un modelo mucho más eficiente que el mejor de los modelos individuales. Los resultados de los diferentes modelos de combinación de pronósticos comparados con el mejor método individual de pronóstico (RNPOL (P)+AES) para los ríos Guavio y Bata se presentan en la Tabla 5-7. Y para los demás ríos pueden consultarse los resultados en el Anexo 2.

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 5-16

Figura 5-6 Pronósticos a un mes del río Miel arrojados por los diferentes modelos.

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 5-17

Figura 5-7 Resultados de combinación de pronósticos

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 5-18

Tabla 5-7 Combinación de pronósticos para el río Guadalupe validación 2000-2007

1 MES 3 MESES 6 MESES 12 MESES

RN

PO

L (P

)+A

ES

MP

S

MP

P

MR

N

AN

FIS

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 5-19

Tabla 5-8 Combinación de pronósticos para el río Batá validación 2000-2007

1 MES 3 MESES 6 MESES 12 MESES

RN

PO

L (P

)+A

ES

MP

S

MP

P

MR

N

AN

FIS

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 5-20

5.4 ANÁLISIS DE RESULTADOS

Se ha analizado el test de Diebold y Mariano como una herramienta para analizar la sensibilidad a la incorporación de diferentes variables macro-climáticas dentro de modelos de pronóstico hidrológico, y para comparar diferentes métodos de pronóstico. El análisis de sensibilidad hecho a la incorporación de variables macro-climáticas (Tabla 5-1), muestra que involucrar índices macro-climáticos que caracterizan una misma variable puede generar pronósticos redundantes, además la Tabla 5-2 muestra que los modelos matemáticos reconocen con mayor facilidad la persistencia de la propia serie que el efecto de las variables macro-climáticas, es decir, los modelos de regresión suelen discriminar el de algunas explicativas, es por ello que el test de Diebold y Mariano debe ser usado para identificar este tipo de discriminaciones y determinar esquemas de pronóstico que incorporen mejor las variables macro-climáticas.

La comparación hecha para los diferentes métodos, con horizontes de pronósticos uno, tres, seis y doce meses, muestra que existen redundancias en los resultados de algunos de los modelos propuestos, incluso si éstos poseen indicadores de error (MAPE, %RMSE) relativamente diferentes. En la predicción de los caudales del río Guadalupe con ventana de un mes (Tabla 5-3) los resultados de PPON (P)+ HH y MARS (P) + AES son redundantes, para tres meses ( Tabla 5-4) El modelos MARS es redundante con la RNA; a seis meses (Tabla 5-5) no existen redundancias y a 12 meses (Tabla 5-6) la RNPOL y el MARS son redundantes, pese a ello se sabe que los PPON y la RNPOL tienen menor error que el MARS (Anexo 2), Se recomienda por parsimonia descartar en un proceso de combinación aquellos modelos redundantes y de mayor cantidad de parámetros.

Los cuatro métodos de combinación, llamados método del promedio simple (MPS), método del promedio ponderado (MPP), método de redes neuronales (MRN) y el método neuro-difuso (ANFIS) han sido evaluados usando las series de caudales de los diferentes ríos empleados en el presente estudio; los resultados de dicha evaluación demuestran que por lo menos tres de las estimaciones combinadas (MPP, MRN y ANFIS) son mas eficientes que el mejor de los modelos individuales de pronóstico, con lo que se justifica el uso de la metodología de combinación en el contexto de la predicción de caudales medios mensuales.

Las estimaciones de los diferentes modelos para el coeficiente de determinación, el RMSE y el MAPE muestran que el mejor de los modelos de combinación es el ANFIS. Sin embargo cabe resaltar que los resultados del proceso de combinación dependen de las capacidades y habilidades de los diferentes modelos para capturar distintos rasgos de la serie de tiempo a modelar, por ello el uso eficiente del método de combinación depende de un análisis exhaustivo de los datos de entrada y los parámetros de calibración.

El la mayoría de los ríos, adoptar como resultado un simple promedio de los pronósticos es mucho mejor que cualquiera de los pronósticos individuales ( a excepción de los pronósticos obtenidos con las RNPOL) y un promedio ponderado de las predicciones de los diferentes modelos supera ostensiblemente los resultados de cualquier modelo individual, cabe resaltar

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 5-21

que el método del promedio ponderado es bastante fácil de programar y cualquier investigador en el tema que cuente con varios modelos de pronóstico seguramente podrá corroborar los resultados aquí presentados.

Los métodos de combinación más eficientes son el MRN y ANFIS. En todos los ríos la combinación de pronósticos usando ANFIS disminuye ostensiblemente el error medio (Anexo 2) en comparación con el mejor de los modelos individuales. La disminución en los indicadores de error es proporcional a la cantidad de modelos utilizados en el esquema de combinación. En la Figura 5-8 se muestran el error porcentual usando ANFIS en función del número de modelos en la combinación de pronósticos para el rio Guadalupe con horizonte de un mes. Los resultados indican que los esquemas de combinación no solo permiten disminuir el error medio porcentual (MAPE) sino también los errores máximo y mínimo de los pronósticos y que dicha disminución depende de la cantidad de modelos usados en el proceso de combinación.

Figura 5-8: variación del error en función del número de modelos, caso río Guadalupe a un mes.

Finalmente, y para demostrar la eficacia de los métodos de combinación, las Figuras 5-9, 5-10,5-11 y 5-12, presentan un comparación entre los resultados del mejor modelo individual (RNPOL (P) + AES)

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 5-22

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

8.00

10.00

12.00

14.00

16.00

18.00

20.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO GUDALUPE V=1

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

8.00

10.00

12.00

14.00

16.00

18.00

20.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO GUDALUPE V= 3

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

10.00

12.00

14.00

16.00

18.00

20.00

22.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO GUDALUPE V=6

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

14.00

15.00

16.00

17.00

18.00

19.00

20.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO GUDALUPE V=12

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

8.00

10.00

12.00

14.00

16.00

18.00

20.00

22.00

24.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO TENCHE V=1

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

12.00

14.00

16.00

18.00

20.00

22.00

24.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO TENCHE V= 3

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

10.00

12.00

14.00

16.00

18.00

20.00

22.00

24.00

26.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO TENCHE V=6

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

0.00

5.00

10.00

15.00

20.00

25.00

30.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO TENCHE V=12

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

8.00

9.00

10.00

11.00

12.00

13.00

14.00

15.00

16.00

17.00

18.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO GRANDE V=1

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

12.00

13.00

14.00

15.00

16.00

17.00

18.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO GRANDE V= 3

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

14.00

15.00

16.00

17.00

18.00

19.00

20.00

21.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO GANDE V=6

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

14.00

15.00

16.00

17.00

18.00

19.00

20.00

21.00

22.00

23.00

24.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO GRANDE V=12

%RMSE MAPE R2

Figura 5-9 Resultados de combinación de pronósticos

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 5-23

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

8.00

9.00

10.00

11.00

12.00

13.00

14.00

15.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO PORCE V=1

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

12.00

13.00

14.00

15.00

16.00

17.00

18.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO PORCE V= 3

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

12.00

13.00

14.00

15.00

16.00

17.00

18.00

19.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO PORCE V=6

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

14.00

15.00

16.00

17.00

18.00

19.00

20.00

21.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO PORCE V=12

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

8.00

10.00

12.00

14.00

16.00

18.00

20.00

22.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO GUATAPÉ V=1

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

12.00

14.00

16.00

18.00

20.00

22.00

24.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO GUATAPÉ V= 3

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

12.00

14.00

16.00

18.00

20.00

22.00

24.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO GUATAPÉ V=6

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

14.00

16.00

18.00

20.00

22.00

24.00

26.00

RNPOL (P) +AES MPS MPP MRN ANFISR

2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO GUATAPÉ V=12

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

8.00

10.00

12.00

14.00

16.00

18.00

20.00

22.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO NARE V=1

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

12.00

13.00

14.00

15.00

16.00

17.00

18.00

19.00

20.00

21.00

22.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO NARE V= 3

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

12.00

14.00

16.00

18.00

20.00

22.00

24.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO NARE V=6

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

14.00

16.00

18.00

20.00

22.00

24.00

26.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO NARE V=12

%RMSE MAPE R2

Figura 5-10 Resultados de combinación de pronósticos

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 5-24

Figura 5-11 Resultados de combinación de pronósticos

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

8.00

13.00

18.00

23.00

28.00

33.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%

RM

SE, M

AP

E)

COMBINACIÓN DE PORNÓSTICOS RÍO SAN CARLOS V=1

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

12.00

14.00

16.00

18.00

20.00

22.00

24.00

26.00

28.00

30.00

32.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO SAN CARLOSE V= 3

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

12.00

17.00

22.00

27.00

32.00

37.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO SAN CARLOS V=6

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

14.00

19.00

24.00

29.00

34.00

39.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO SAN CARLOS V=12

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

8.00

10.00

12.00

14.00

16.00

18.00

20.00

22.00

24.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE

)

COMBINACIÓN DE PORNÓSTICOS RÍO SAN LORENZO V=1

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

12.00

14.00

16.00

18.00

20.00

22.00

24.00

26.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO SAN LORENZO V= 3

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

12.00

14.00

16.00

18.00

20.00

22.00

24.00

26.00

28.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE

)

COMBINACIÓN DE PORNÓSTICOS RÍO SAN LORENZO V=6

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

14.00

16.00

18.00

20.00

22.00

24.00

26.00

28.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE

)

COMBINACIÓN DE PORNÓSTICOS RÍO SAN LORENZO V=12

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

8.00

10.00

12.00

14.00

16.00

18.00

20.00

22.00

24.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE

)

COMBINACIÓN DE PORNÓSTICOS RÍO MIEL V=1

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

12.00

14.00

16.00

18.00

20.00

22.00

24.00

26.00

28.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO MIEL V= 3

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

12.00

14.00

16.00

18.00

20.00

22.00

24.00

26.00

28.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE

)

COMBINACIÓN DE PORNÓSTICOS RÍO MIEL V=6

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

14.00

16.00

18.00

20.00

22.00

24.00

26.00

28.00

30.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE

)

COMBINACIÓN DE PORNÓSTICOS RÍO MIEL V=12

%RMSE MAPE R2

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 5-25

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

8.00

10.00

12.00

14.00

16.00

18.00

20.00

22.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO MAGADALENA V=1

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

12.00

13.00

14.00

15.00

16.00

17.00

18.00

19.00

20.00

21.00

22.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO MAGDALENA V= 3

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

12.00

14.00

16.00

18.00

20.00

22.00

24.00

26.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO MAGDALENA V=6

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

14.00

15.00

16.00

17.00

18.00

19.00

20.00

21.00

22.00

23.00

24.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO MAGDALENA V=12

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

8.00

10.00

12.00

14.00

16.00

18.00

20.00

22.00

24.00

26.00

28.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO GUAVIO V=1

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

12.00

14.00

16.00

18.00

20.00

22.00

24.00

26.00

28.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO GUAVIO V= 3

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

12.00

14.00

16.00

18.00

20.00

22.00

24.00

26.00

28.00

30.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO GUAVIO V=6

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

14.00

16.00

18.00

20.00

22.00

24.00

26.00

28.00

30.00

RNPOL (P) +AES MPS MPP MRN ANFISR

2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO GUAVIO V=12

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

8.00

13.00

18.00

23.00

28.00

33.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO BATA V=1

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

12.00

17.00

22.00

27.00

32.00

37.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO BATA V= 3

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

12.00

17.00

22.00

27.00

32.00

37.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO BATA V=6

%RMSE MAPE R2

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

14.00

19.00

24.00

29.00

34.00

39.00

RNPOL (P) +AES MPS MPP MRN ANFIS

R2

ERR

OR

(%R

MSE

, MA

PE)

COMBINACIÓN DE PORNÓSTICOS RÍO BATA V=12

%RMSE MAPE R2

Figura 5-12 Resultados de combinación de pronósticos

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 5-26

Referencias

Armstrong J.S. (1989). “Combining forecasts: the end of the beginning or the beginning of the end”. Int. J. Forecast;5:585-588.

ASCE Task Committee on Application of Artificial Neural Networks in Hydrology (2000): “Artificial neural networks in hydrology II: hydrologic applications”, J. Hydrol. Eng., 5, 124–137, 2000b.

Bates J.M. and Granger C.W (1969). “The combination of forecasts”. Oper. Res. Quart ;20:451±468.

Box, G.E.P., Jenkins, G.C. (1970). “Time Series Analysis: Forecasting and Control”. Holden-day Inc., Calif, US.

Bunn, D. (1985)‘ Statistical Efficiency in the Linear Combination of Forecast’, International Journal of Forecasting, 151-163.

Castaño E. & Melo L. (2000). “Métodos de combinación de pronósticos: una aplicación a la inflación”, Lecturas de Economía, Universidad de Antioquia, Departamento de Economía, issue 52, pages 113-165, Enero-Jun.

Clemen R.T. (1989). “Combining forecasts: a review and annotated bibliography”. Int. J. Forecast. 5:559-583.

Coulibaly, P., Baldwin, C.K., 2005. Nonstationary hydrological time series forecasting using nonlinear dynamic methods. J. Hydrol. 307, 164–174.

Dan W. Hammerstrom, Steven Rehfus. (1993). “Neurocomputing hardware: present and future”. Artif. Intell. Rev. 7(5): 285-300.

Diebold, F.X. and R.S. Mariano, 1995, Comparing predictive accuracy, Journal of Business and Economic Statistics 13, 253-263.

Dickinson, J. P. (1973). “Some Statistical Results on the Combination of Forecasts”. Operations Research Quarterly, 24,253-260.

Donaldson, R.G., Kamstra, M. (1996). “Forecast combining with neural networks”. J. Forecast. 15, 49–61.

Granger C.W., Ramanathan, R. (1984). “Improved methods of combining forecasts”. J. Forecast. 3:197-204.

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 5-27

Jang, J. (1993), “Anfis: Adaptive-network-based fuzzy inference system”, IEEE Transactions on Systems, Man, and Cybernetics 23, 665–684.

Krishnamurti, T.N., Kishtawal, C.M., Larow, T.E., Bachiochi, D.R., Zhang, Z., Williford, C.E., Gadgil, S., Surendran, S. (1999). “Improved weather and seasonal climate forecasts from multimodel superensemble”. Science 285, 1548–1550.

Krishnamurti TN, Kishtawal CM, Larow TE, et al. (2000). “Multi-model ensemble forecasts for weather and season climate”. J. Climate. 13:4196-4216.

Krishnamurti, T.N., Surendran, S., Rajendran, K., Kumar, T.S.V.V., Lord, S., Toth, Z., Zou, X., Cocke, S., Ahlquist, J.E., Navon, I.M. (2003). “Improved skill for the anomaly correlation of geopotential heights at 500 hPa”. Mon. Weather Rev. 131, 1082–1102.

Maier, H. and Dandy, G. (2000). “Neural networks for the prediction and forecasting of water resources variables: A review of modeling issues and applications”. Environ. Modell. Softw., 15(1), 101– 104.

Makridakis, S. Winkler, R. (1983). “Averages of forecasts: Some empirical results”. Manage. Sci. 29:987-996.

Rojo, J.D., Carvajal L.F. (2010); “Predicción no lineal de caudales Utilizando variables macroclimàticas y análisis espectral singular”, Tecnología y Ciencia del Agua -antes Ingeniería Hidráulica en México-,vol 1, No 4, oct-dic.

Shamseldin, A.Y., Oconnor K.M., Liang G.C. (1997). “Methods for combining the outputs of different rainfall-runoff models. J. Hydrol”. 1997;197:203-229.

Sugeno, M. y Kang, G. T. (1988). “Structure identification of fuzzy model”, Fuzzy Sets and Systems 28, 15–33.

Takagi, T. y Sugeno,M. (1983). “Derivation of fuzzy control rules from human operator’s control actions”, in ‘Proceedings of the IFAC Symposium on Fuzzy Information, Knowledge Representation and Decision Analysis, pp. 55–60.

Takagi, T. y Sugeno, M. (1985), “Fuzzy identification of systems and its applications to modelling and control”, IEEE Transactions on Systems, Man, and Cybernetics 15, 116–132.

Vislocky, R., Fritsch, J.M. (1995). “Improved model-output-statistics forecasts through model consensus”. Bull. Am. Meteorol. Soc. 76, 1157–1164.

Velasquez, J.D. (2008). “Construcción de Escenarios de Pronóstico del Precio de Eléctricidad en Mercados de Corto Plazo”. Programa de Doctorado en Ingeniería – Área Sistemas Energéticos. Universidad Nacional de Colombia.

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 5-28

Xiong, L. Shamseldin, A, & Connor, K. (2001). “A non-linear combination of the forecasts of rainfall-runoff models by the first-order Takagi -Sugeno fuzzy system” J. Hydrol. 245:196-217.

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH -UNAL

Capítulo 6:

Predicción basada en

reglas de juicio

Divide et impera.

Julio Cesar (100-44 A.C)

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 6-1

6 PREDICCIÓN BASADA EN REGLAS DE JUICIO

RESUMEN

El presente capítulo tiene por objeto introducir los árboles de decisión (tanto estadísticos como empíricos) para corregir los pronósticos de caudales medios mensuales mediante la incorporación de pronósticos de variables macro-climáticas como el ENSO y las temperaturas superficiales del océano pacífico.

Se introduce el concepto de árboles de decisión y se describe el esquema general del algoritmo M5 para la construcción de árboles de decisión basados en esquemas de regresión por inducción. Se explican los diferentes tipos de variables a ser utilizadas en la construcción de un árbol de decisión y se propone una metodológica para la incorporación de información climática mediante reglas de juicio usando M5. Dicha metodología es validada para los diferentes ríos para un horizonte de pronóstico de 1 mes. Los resultados indican que la predicción corregida usando información macro-climática de diferentes fuentes permite mejorar los indicadores de error de forma significativa para horizontes de un mes.

6.1 ÁRBOLES DE DESICIÓN

Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial que sirve para codificar el conocimiento de un experto mediante la construcción de diagramas lógicos. Los árboles de decisión son sistemas de predicción basados en reglas, que sirven para representar y categorizar una serie de condiciones que ocurren de forma sucesiva a fin de dar solución a un problema cuando se cuenta con buenos datos. Los trabajos del investigador Juan Ross Quinlan (1985, 1990, 1992) han contribuido al estudio de los árboles de decisión dentro de la minería de datos, sus principales trabajos están referidos al desarrollo de los algoritmos heurísticos ID3 (Iterative Dichotomiser 3) y C4.5 (extensión del ID3) para clasificación estadística y el M5 para pronóstico.

El algoritmo M5 fue propuesto de Quinlan (1992) para la solución de los árboles regresión-decisión está basado en el siguiente procedimiento: se divide el espacio dado por las variables de entrada en áreas (subespacios) y se construye sobre cada una de ellos un modelo especializado de regresión lineal múltiple. La construcción de los subespacios utiliza el concepto de árbol de decisión pero en lugar de una etiqueta de clasificación, este tendría una función de regresión, por lo que hacen un trabajo análogo al de los modelos de partición propuestos por Friedman. La aplicación del algoritmo M5 permite incorporar en los procesos de pronóstico tanto variables cuantitativas como cualitativas mediante reglas del tipo if – then. Finalmente la construcción de árboles de decisión para el pronóstico de caudales medios mensuales puede hacerse de forma empírica utilizando la experiencia que posee el modelador en el manejo de los diferentes esquemas de pronóstico además de la variabilidad de las predicciones según las condiciones cambiantes de las variables explicativas.

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 6-2

6.2 ÁRBOLES DE REGRESIÓN-DESICIÓN

6.2.1 Aspectos generales del algoritmo de clasificación M5.

En la modelación de series hidrológicos los sistemas complejos podrían resolverse si se descompone el problema en un número finito de procesos de menor complejidad; así pues, el espacio formado por las variables que componen un sistema dinámico puede ser dividido en un número finito de subespacios para los cuales se construye un modelo especializado, denominado modelo experto, y la combinación de varios expertos permite elaborar pronósticos del sistema.

Las combinaciones de expertos (o máquinas comité (Haykin, 1999)) suelen clasificarse en dos categorías: (1) estadística: donde la respuesta de los expertos se combina mediante algún mecanismo que no dependa de las variables de entrada, por ejemplo utilizando un promedio simple de los resultados, y (2) dinámica: donde los expertos son combinados utilizando esquemas ponderados que depende de las variables de entrada. Las máquinas comité dinámicas pueden dividirse nuevamente en dos grupos: (2a) un enfoque estadístico con divisiones flexibles del espacio conformado por las variables de entrada (Jacobs et al, 1991, Jordan & Jcobs, 1994) y (2b) métodos que no combinan las salidas de los diferentes expertos y en cambio usa el más adecuado de ellos (un caso particular donde los pesos de los demás expertos son cero).

El tipo de modelos (2b) se caracterizan por utilizar variables binarias para dividir el espacio de entrada en regiones que cada vez se hacen más estrechas; cada experto es entrenado con los datos de su propia región y finalmente la salida de un solo experto especializado es tenida en consideración, el resultado de dicho procedimiento es una jerarquía, o si se quiere un árbol binario con las normas de división de los subespacios tal como lo muestra la Figura 6-1. Dichas técnicas son conocidas en el medio como modelos modulares y su optimización fue introducida por Friedman (1991) en su trabajo sobre el MARS.

Figura 6-1 Modelo de árbol binario

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 6-3

En cada subconjunto se puede ajustar un modelo de regresión como los presentados en los capítulos 3 y 4 a fin de resolver el problema de pronóstico en cada subregión de datos. Así pues, los nodos del árbol (ramas) están etiquetadas con un Test de clasificación (cuando el valor del atributo es menor, mayor o igual a cierto valor) y las hojas están etiquetadas con una clasificación que corresponde al pronóstico del árbol. Los árboles de regresión son muy eficientes dada su alta capacidad de aprendizaje y su habilidad para hacer frente a problemas de alta dimensionalidad como se muestra en la Figura 6-2.

Figura 6-2 Esquema de un árbol de regresión por inducción.

Para explicar la formulación de diferentes reglas de decisión a partir de divisiones flexibles del espacio conformado por las variables de entrada se retoma el ejemplo del capítulo 4 sobre funciones de influencia radial. Los caudales del río Guadalupe, representados en el espacio formado por las temperaturas superficiales del océano pacífico en las regiones Niño 1-2, Niño 3-4, Se muestran en la Figura 6-3. El espacio formado por las variables explicativas (SST N1-2, SST N3-4) se divide inicialmente en regiones usando como criterio la vecindad de los puntos, por ejemplo: Las regiones 1 (R1), 2 (R2) y 7 (R7) comprenden los siguientes espacios:

:1R SST N1-2 ∈ [ ]21;18 ∧ SST N3-4 ∈ [ ]5.26;24

:2R SST N1-2 ∈ [ ]24;18 ∧ SST N3-4 ∈ [ ]5.28;5.26

:7R SST N1-2 ∈ [ ]28;24 ∧ SST N3-4 ∈ [ ]5.28;5.26

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 6-4

Figura 6-3 Esquema de un árbol de regresión por inducción.

De la Figura 6-3 se puede inferir que el conjunto de los caudales de la región R1 se ubican los caudales máximos, mientras que en las regiones R7 y R6 se presentan los caudales mínimos, las regiones R2, R3, R4, R5 representan situaciones intermedias. por ejemplo, el año 1971 fue un año caracterizado por la presencia de una Niña Fuerte (http://www.cpc.ncep.noaa.gov/products/analysis_monitoring/ensostuff/ensoyears.shtml), y para el mes de agosto de dicho año las SST N1-2 fueron de 19.86°C y las SST N3-4 de 26.24°C, (http://www.cpc.noaa.gov/products/data/indices/), dicha situación se ubica en la región R1. El caudal del río Guadalupe en Agosto del 71 fue de 48.6 m3/s, el segundo registro más alto de caudal para el río Guadalupe contando con una historia desde 1952. Para la misma región también pueden ser asociados valores de las variables explicativas (otras variables macro-climáticas) contemporáneas a los caudales representados en cada región: así por ejemplo: en agosto de 1971 el caudal del río Guadalupe fue de 48.6 m3/s, el índice ONI fue de -0.8, el MEI -1.265, el SOI 2.2… es decir, a una determinada región también pueden ser asociados diferentes valores de las variables explicativas.

Divide y vencerás es el lema del presente capítulo, y por eso supóngase que usando el conjunto de datos agrupados en R1 (tanto caudales, como variables explicativas) se ajusta una función de regresión ( )xf 1 , en la región R2 una función ( )xf 2 … y así sucesivamente. Entonces se pueden construir reglas para el pronóstico que dependen de la ubicación de los caudales y sus variables explicativas en una determinada región del espacio dada por los estados de las SST en las regiones N1-2 y N3-4. Por ejemplo:

Regla 1:

Si SST N1-2 ∈ [ ]21;18

∧ Si SST N3-4 ∈ [ ]5.26;24

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 6-5

Entonces ( )xfQ 1=

End

End

Regla 2:

Si SST N1-2 ∈ [ ]24;18

∧ Si SST N3-4 ∈ [ ]5.28;5.26

Entonces ( )xfQ 2=

End

End…

… Regla 7:

Si SST N1-2 ∈ [ ]28;24

∧ Si SST N3-4 ∈ [ ]5.28;5.26

Entonces ( )xfQ 2=

End

End

Las reglas anteriores pueden ser dispuestas en forma de un árbol de decisión como el de la Figura 6-1 a fin de determinar el modelo (función de regresión) a usar. Quedan entonces dos preguntas que deben ser resueltas: la primera: ¿ Cómo agrupar los datos cuando se tienen más de dos variables explicativas para definir los subconjuntos?. La segunda: ¿Qué tipos de funciones pueden ser usadas como esquemas de regresión en cada subconjunto de datos?.

Para agrupar los datos el algoritmo M5 usa método heurístico, conocido como análisis cluster por reducción de varianza, que busca minimizar la variación interna de los valores de cada subconjunto eligiendo aquel atributo que maximice la reducción de la varianza en los subconjuntos de acuerdo a la siguiente fórmula (Quinlan, (1992)):

( ) ( )∑−=i

ii Tsd

T

TTsdSDR 6-1

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 6-6

Donde T corresponde a la colección de datos en el nodo a dividir, iT el conjunto de datos

correspondiente al atributo i considerando en la división de T , y el operador ( )sd estima la desviación típica de los datos.

Al respecto de las funciones de regresión sobre cada grupo, la aplicación de mínimos cuadrados en cada una de las subregiones obtenidas permite hallar las relaciones existentes entre las diferentes variables involucradas en el problema mediante una función lineal.

6.2.2 Variables usadas en el algoritmo M5

6.2.2.1 Variables cualitativas

Son aquellas variables cuyos valores son un conjunto de cualidades no numéricas a las que se llama categorías o modalidades:

Variable cualitativa nominal: No se puede definir un orden natural entre sus categorías. (Ejemplo: la raza, el color del pelo, o la religión)

Variable cualitativa ordinal: Se pueden establecer relaciones de orden entre las categorías. (Ejemplo: Niño, Normal, Niña)

Variable cualitativa por intervalos: Pueden tratarse como ordinales y se pueden calcular distancias numéricas entre dos niveles. (Ejemplo: Enero, Febrero, Marzo…) además es una variable cuantitativa que puede ser agrupada por intervalos (DEF, MAM, JJA ,SON).

6.2.2.2 Variables binarias

Son variables que adoptan valores 0, 1 (si, no; existe, no existe) y se usan para resolver problemas del tipo inclusión-exclusión. Por ejemplo: llueve-no llueve; verano-invierno.

6.2.2.3 Variables cuantitativas

Son las variables que se expresan mediante cantidades numéricas. Las variables cuantitativas además pueden ser:

Variable discreta: Es la variable que presenta separaciones o interrupciones en la escala de valores que puede tomar. Estas separaciones o interrupciones indican la ausencia de valores entre los distintos valores específicos que la variable pueda asumir. Ejemplo: el número de huracanes.

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 6-7

Variable continua: Es la variable que puede adquirir cualquier valor dentro de un intervalo especificado de valores. Por ejemplo los caudales de un río (210 13 −sm ,25 13 −sm , 6,52 13 −sm ) o el valor de una variable de las temperaturas en el océano (10.3C° , 0.5 C° , 23.8 C° ), que solamente está limitado por la precisión del aparato medidor y en teoría permiten que siempre exista un valor entre dos medidas de la variable.

6.2.3 Propuesta metodológica para la incorporación de información climática mediante reglas de juicio.

Existen diferentes formas de elaborar los pronósticos de caudales, según la fuente y el tipo de información utilizada. Se dice que un pronóstico es “ciego” cuando utiliza rezagos de las variables explicativas para formar los esquemas de regresión, y los pronósticos son “informados” cuando se utilizan predicciones de las variables explicativas para formar las funciones de regresión. Un pronóstico ciego elaborado mediante la aplicación de un modelo matemático o la combinación de varios modelos puede ser corregido si se conocen las tendencias macro-climáticas que han de regir el comportamiento de los caudales a diferentes escalas espacio-temporales, así pues las predicciones hidrológicas pueden ser sustancialmente mejoradas si se utiliza las previsiones climáticas futuras de diferentes fuentes.

Si se cuenta con datos históricos de pronósticos de caudales (información de validación de los diferentes modelos), pronósticos de variables explicativas como las SST en diferentes regiones Niño, y pronósticos sobre el desarrollo de condiciones El Niño, La Niña o Neutro podrá elaborarse un esquema de regresión basado en el algoritmo M5 que sirva para corregir los pronósticos de un modelo específico. Para incorporar los pronósticos climáticos a las predicciones hidrológicas se propone el siguiente procedimiento:

• Paso 1: identificar las fuentes de información

En la Actualidad son muchos los modelos que predicen las anomalías de temperaturas del océano pacifico, entre ellos los modelos Markovianos, que utiliza datos del re-análisis NCEP para predecir a 12 meses las anomalías de temperatura sobre la región Niño 3-4 según la metodología propuesta por Xue & Leetmaa (2000). La NOAA posee un centro de predicciones climáticas conocido como NCEP/NWS (http://www.cpc.ncep.noaa.gov/products/analysis_monitoring/enso_advisory/) donde se resumen las predicciones de las temperaturas superficiales del océano para los diferentes modelos propuestos por varios autores, además existe un variado compendio de los diversos diagnósticos climáticos elaborados a escala mensual y estacional con información relevante sobre las variables macro-climáticas con mayor impacto a escala planetaria. Sin embargo en la NOAA solo se puede acceder a los boletines climáticos elaborados a partir de 1999, cosa que no sucede con los pronósticos de las temperaturas en la región Niño 3-4. Los cuales pueden encontrarse desde 1980 (Figura 6-4).

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 6-8

De otro lado el instituto de Investigación Internacional para Clima y Sociedad (IRI por sus siglas en inglés) ha desarrollado un modelo probabilístico estacional que estima la probabilidad de ocurrencia de los estados Niño, Normal, y Niña. (http://portal.iri.columbia.edu/portal/server.pt?open=512&objID=945&PageID=7612&cached=true&mode=2&userID=2 ); la base de datos tiene un periodo de registro que comprende reportes desde el año 2003 a la fecha y los pronósticos están dados para 10 meses (en valores estacionales promedio). Un esquema de los pronósticos probabilísticos elaborados por el IRI se muestra en la Figura 6-5 los valores de probabilidad asociados a la ocurrencia de las diferentes fases del ENSO permitirían conocer con anticipación la ocurrencia de condiciones Niño, Niña y Normal.

Figura 6-4 Pronóstico de las SST en la región Niño 3.4 usando un modelo marcoviano (http://www.cpc.ncep.noaa.gov/products/people/yxue/SL_forecast_clim71-00_godas.html).

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 6-9

Figura 6-5 Pronóstico probabilístico del ENSO elaborado por el IRI

• Paso 2. Construcción de las variables del árbol de decisión

Las variables a ser utilizadas en la construcción de un árbol M5 pueden ser cualitativas y/o cuantitativas; el primer tipo de variable a tener en cuenta son los caudales medios mensuales históricos los cuales serán usados para calibrar y validar el árbol construido definiendo los periodo de calibración y validación respectivos. Cabe recordar que en el presente estudio la combinación de pronósticos fue validada para el periodo 2000-2007 y por tanto los datos son insuficientes para aplicar una corrección usando la presente metodología, entonces usaremos como segunda variable cuantitativa los pronósticos de caudales medios mensuales obtenidos de alguno de los modelos presentados en el capítulo 3 o el capitulo 4 cuyo periodo de validación va desde 1990 hasta el 2007.

Para el presente trabajo se define como variable cualitativa los pronósticos del ENSO cuyos atributos son construidos en función de los valores de probabilidad asociados al pronóstico de cada una s de sus (Figura 6-5). Así por ejemplo:

==

==

2

1

0

NIÑA

NORMAL

NIÑO

ENSO 6-2

Finalmente los pronósticos de caudales medios mensuales son dependientes del mes de pronóstico por lo que se puede definir una variable cualitativa ordinal para incluir los meses del año dentro de la corrección propuesta.

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 6-10

Tabla 6-1 Clasificación de las fases del ENSO para los pronósticos probabilísticos del IRI

Estación La Niña Neutral El Niño ENSO JFM 2011 98% 2% 0.3% 2 FMA 2011 88% 11% 1% 2 MAM 2011 67% 29% 4% 2 AMJ 2011 46% 44% 10% 2 MJJ 2011 33% 50% 17% 1 JJA 2011 27% 50% 23% 1 JAS 2011 27% 50% 23% 1 ASO 2011 27% 50% 23% 1 SON 2011 27% 50% 23% 1 OND 2011 27% 50% 23% 1

Tabla 6-2 Tipos de variables utilizadas para la corrección de pronósticos usando M5

Variables Tipo de variable CAUDALES HISTÓRICOS Cuantitativa-Continua

PRONÓSTICO DE CAUDALES Cuantitativa-Continua SST Cuantitativa-Continua

ENSO Cualitativa-ordinal (0,1,2) MESES Cualitativa-ordinal(1,2,3..12)

• Calibración del árbol de decisión

Una de las dificultades más notorias para la calibración de los árboles de decisión usando pronósticos de variables explicativas es la poca información histórica disponible de los pronósticos climáticos para diferentes ventanas de tiempo. Es por ello que en el presente trabajo se sugiere utilizar los datos históricos del ONI para construir la serie de eventos niño, niña, normal que será usada en la calibración del modelo. Los pronósticos de las SST pueden ser usados en la calibración dado que las bases de datos poseen un registro desde 1981.

El objeto es construir una relación de la forma:

( )mesENSOSSTQpredichofQcorregido ,,,= 6-3

Cuya base corresponde a las reglas surgidas del agrupamiento planteadas por el algoritmo M5.

• Validación del árbol de decisión

Usando los pronósticos de las SST y el ENSO se corrigen los pronósticos de caudales para un periodo definido. Los pronósticos corregidos se comparan con los registros históricos durante el periodo de validación a fin de cuantificar la eficiencia del árbol de decisión; los criterios de validación a usar corresponden a los expuestos en el capítulo 3 numeral 3.3.

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 6-11

6.2.4 Aplicación del modelo M5 sobre los pronósticos de caudales

El algoritmo M5 será aplicado en la corrección de los pronósticos de los caudales medios mensuales del río Guadalupe obtenidos mediante redes neuronales polinómicas. Las variables cualitativas y cuantitativas utilizadas para la calibración del árbol se presentan en la Figura 6-6. El árbol de decisión obtenido mediante la calibración del algoritmo M5 para los caudales medios mensuales del río Guadalupe en el periodo 1989-1998 se presenta en la Figura 6-7; los resultados del particionamiento recursivo permiten obtener reglas que corrigen los pronósticos en función del mes, la condición del ENSO y los pronósticos de las SST.

Finalmente las reglas obtenidas en el paso anterior son utilizadas para corregir los pronósticos de caudales durante el periodo de validación (1999-2007) usando las predicciones de las diferentes variables macro-climáticas, y los resultados de dicha validación en el río Guadalupe para ventanas de un mes se presentan en la Figura 6-8; los resultados para los demás ríos con validación a un mes se presentan en la Tabla 6-3, Tabla 6-4 y la Tabla 6-5.

Figura 6-6 Variables utilizadas en la construcción del árbol de decisión para el río Guadalupe

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 6-12

Figura 6-7 Árbol de decisión generado por el Algoritmo M5 para el río Guadalupe

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 6-13

Figura 6-8 Validación de la corrección de los pronósticos usando un árbol de Decisión M5

Tabla 6-3 Corrección de pronósticos usando M5 para los ríos Tenche y Guatapé.

NOMBRE RNPOL (P) +AES CORRECCIÓN USANDO M5

RIO TENCHE

RIO

GUATAPE

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 6-14

Tabla 6-4 Corrección de pronósticos usando M5 para los ríos Nare, San Carlos y san Lorenzo.

NOMBRE RNPOL (P) +AES CORRECCIÓN USANDO M5 RIO NARE

RIO SAN CARLOS

RIO SAN LORENZO

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 6-15

Tabla 6-5 Corrección de pronósticos usando M5 para los ríos Magdalena, Guavio y Batá.

NOMBRE RNPOL (P) +AES CORRECCIÓN USANDO M5 RIO MAGDALENA

RIO GUAVIO

RIO BATA

6.3 ÁRBOLES DECISIÓN DERIVADOS EMPÍRICAMENTE

El algoritmo M5 estima de forma automática las reglas de decisión a fin de corregir los resultados de un determinado modelo de pronóstico. Sin embargo, en muchas ocasiones la experiencia adquirida por un experto en el manejo de los protocolos de pronóstico y un

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 6-16

análisis detallado de los resultados de la validación pretermiten elaborar reglas de juicio cuya utilización permite simplificar procedimientos y obtener resultados más adecuados, la codificación de dichas reglas de forma empírica permite obtener un árbol de decisión que reflejan el conocimiento del experto sobre el funcionamiento de los diferentes esquemas de pronóstico. Las personas con una vasta experiencia en la predicción de caudales están capacitadas para aportar sus conocimientos a fin de mejorar los pronósticos, solo basta con plasmar ese conocimiento en un procedimiento inductivo, basado en reglas fácilmente legibles que ayuden a obtener mejores resultados.

6.3.1 Matriz de Validación

Los errores de validación de los diferentes métodos de pronóstico pueden ser codificados mediante un arreglo matricial; en el eje de las abscisas se ubica el mes en el cual se inician los pronósticos, y en el eje de las ordenadas se muestran los meses predichos. Cada celda de dicha matriz contiene el error %RMSE o el MAPE de un determinado período. Por ejemplo: si se quiere evaluar el MAPE al predecir julio de cualquier año comenzando en diciembre del año anterior, el criterio usado establece la estimación del MAPE para todos los caudales del mes julio que fueron predichos desde diciembre, y dicho valor corresponde a la entrada mes de inicio D y mes predicho J; una vez construida la matriz de validación la escala de grises permite identificar las zonas más oscuras como los meses que presenta un menor error de pronóstico. El ajedrez (matriz) de validación para el río Guadalupe usando la combinación ANFIS (período 2000-2007) con ventana de 12 meses se muestra en la Figura 6-9. Usando el índice ONI los pronósticos de un determinado río pueden ser clasificados en pronósticos para períodos Niño, Normal y Niña, lo que facilita el análisis del desempeño de cada uno de los modelos en función de la condición climática regida por el ENSO. A manera de ejemplo se muestran los casos de los ríos Guadalupe, Tenche, Porce y Riogrande (Grupo 1) en la Tabla 6-6.

Mes de Inicio

Mes

Pre

dich

o

AJEDREZ RIO GUADALUPE USANDO COMBINACIÓN-ANFIS

D E F M A M J J A S O N

D

N

O

S

A

J

J

M

A

M

F

E

15

20

25

30

35

Figura 6-9 Árboles de decisión para la predicción de los ríos Guadalupe, Tenche, Grande, Porce

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 6-17

Tabla 6-6 Matriz de Validación para los ríos Guadalupe, Tenche , Porce y Grande, para pronósticos durante eventos El Niño, Normales (Neutros) y La Niña

RIO NIÑO NORMAL NIÑA

RÍO

GU

AD

ALU

PE

Mes de Inicio

Mes

Pre

dich

o

AJEDREZ RIO GUADALUPE USANDO COMBINACIÓN-ANFIS

D E F M A M J J A S O N

D

N

O

S

A

J

J

M

A

M

F

E

15

20

25

30

35

Mes de InicioM

es P

redi

cho

AJEDREZ RIO GUADALUPE USANDO COMBINACIÓN-ANFIS

D E F M A M J J A S O N

D

N

O

S

A

J

J

M

A

M

F

E

15

20

25

30

35

Mes de Inicio

Mes

Pre

dich

o

AJEDREZ RIO GUADALUPE USANDO COMBINACIÓN-ANFIS

D E F M A M J J A S O N

D

N

O

S

A

J

J

M

A

M

F

E

15

20

25

30

35

RÍO

TE

NC

HE

Mes de Inicio

Mes

Pre

dich

o

AJEDREZ RIO TENCHE USANDO COMBINACIÓN-ANFIS

D E F M A M J J A S O N

D

N

O

S

A

J

J

M

A

M

F

E 16

18

20

22

24

26

28

30

32

Mes de Inicio

Mes

Pre

dich

o

AJEDREZ RIO TENCHE USANDO COMBINACIÓN-ANFIS

D E F M A M J J A S O N

D

N

O

S

A

J

J

M

A

M

F

E 16

18

20

22

24

26

28

30

32

Mes de Inicio

Mes

Pre

dich

o

AJEDREZ RIO TENCHE USANDO COMBINACIÓN-ANFIS

D E F M A M J J A S O N

D

N

O

S

A

J

J

M

A

M

F

E 16

18

20

22

24

26

28

30

32

RÍO

PO

RC

E

Mes de Inicio

Mes

Pre

dich

o

AJEDREZ RIO GRANDE USANDO COMBINACIÓN-ANFIS

D E F M A M J J A S O N

D

N

O

S

A

J

J

M

A

M

F

E 16

18

20

22

24

26

28

30

32

Mes de Inicio

Mes

Pre

dich

o

AJEDREZ RIO GRANDE USANDO COMBINACIÓN-ANFIS

D E F M A M J J A S O N

D

N

O

S

A

J

J

M

A

M

F

E 16

18

20

22

24

26

28

30

32

Mes de Inicio

Mes

Pre

dich

o

AJEDREZ RIO GRANDE USANDO COMBINACIÓN-ANFIS

D E F M A M J J A S O N

D

N

O

S

A

J

J

M

A

M

F

E 16

18

20

22

24

26

28

30

32

RÍO

GR

AN

DE

Mes de Inicio

Mes

Pre

dich

o

AJEDREZ RIO PORCE USANDO COMBINACIÓN-ANFIS

D E F M A M J J A S O N

D

N

O

S

A

J

J

M

A

M

F

E 10

15

20

25

30

35

Mes de Inicio

Mes

Pre

dich

o

AJEDREZ RIO PORCE USANDO COMBINACIÓN-ANFIS

D E F M A M J J A S O N

D

N

O

S

A

J

J

M

A

M

F

E 10

15

20

25

30

35

Mes de Inicio

Mes

Pre

dich

o

AJEDREZ RIO PORCE USANDO COMBINACIÓN-ANFIS

D E F M A M J J A S O N

D

N

O

S

A

J

J

M

A

M

F

E 10

15

20

25

30

35

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 6-18

Con el objeto de regionalizar los resultados, las matrices de validación pueden ser agrupadas calculando el promedio de varias matrices obteniéndose la matriz de validación para un determinado grupo de ríos, por ejemplo, el grupo G1 estaría conformado por los ríos Guadalupe, Tenche, Porce, Riogrande, todos pertenecen a la cuenca del río Porce-Nechi, además dicha matriz puede ser llevada a un esquema trimestral para conocer cuáles son las estaciones del año con mayor dificultad de pronóstico. En la Tabla 6-7 se presenta las matrices agregadas para el Grupo 1 a escala mensual y trimestral.

Tabla 6-7 Matriz agregadas de validación para los ríos del Grupo 1.

RIO NIÑO NORMAL NIÑA

MA

TR

IZ M

EN

SU

AL

Mes de Inicio

Mes

Pre

dich

o

AJEDREZ RIO GRUPO 1: GUADALUPE, TENCHE, PORCE GRANDE

D E F M A M J J A S O N

D

N

O

S

A

J

J

M

A

M

F

E 14

16

18

20

22

24

26

28

30

32

34

Mes de Inicio

Mes

Pre

dich

oAJEDREZ RIO

GRUPO 1: GUADALUPE, TENCHE, PORCE GRANDE

D E F M A M J J A S O N

D

N

O

S

A

J

J

M

A

M

F

E 14

16

18

20

22

24

26

28

30

32

34

Mes de Inicio

Mes

Pre

dich

o

AJEDREZ RIO GRUPO 1: GUADALUPE, TENCHE, PORCE GRANDE

D E F M A M J J A S O N

D

N

O

S

A

J

J

M

A

M

F

E 14

16

18

20

22

24

26

28

30

32

34

MA

TR

IZ T

RIM

ES

TR

AL

Mes de Inicio

Mes

Pre

dich

o

AJEDREZ TRIMESTRAL RIOS GRUPO1

SON JJA MAM DEF

SON

JJA

MAM

DEF

14

15

16

17

18

19

20

21

22

23

24

Mes de Inicio

Mes

Pre

dich

o

AJEDREZ TRIMESTRAL RIOS GRUPO1

SON JJA MAM DEF

SON

JJA

MAM

DEF

14

15

16

17

18

19

20

21

22

23

24

Mes de Inicio

Mes

Pre

dich

o

AJEDREZ TRIMESTRAL RIOS GRUPO1

SON JJA MAM DEF

SON

JJA

MAM

DEF

14

15

16

17

18

19

20

21

22

23

24

Las matrices agregadas y trimestrales de validación son un insumo de gran importancia que permiten evaluar el desempeño de un determinado modelo en función de la condición macro-climática existente (En este caso los estados del sistema ENSO), el trimestre de pronóstico y la ubicación del río. A manera de ejemplo se propone el siguiente análisis: La hidrología de la región Andina, más concretamente la zona norte de Antioquia, presenta un ciclo bimodal donde los trimestres DEF y JJA se caracterizan por tener menor precipitación y los trimestres MAM y SON mas húmedos, siendo SON la temporada húmeda más activa (debido a la activación de chorro del Chocó). Según las matrices trimestrales de la Tabla 6-7 :

Durante eventos El Niño: los trimestres JJA y SON los de mayor dificultad de pronóstico para los ríos del grupo G1, el trimestre MAM es el de menor error. En general el pronóstico bajo la influencia de El Niño presenta los mayores errores y en los trimestres JJA y SON

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 6-19

Durante eventos Normales: el trimestre JJA sigue siendo el de mayor error de pronóstico y el de menor error es DEF.

Durante evento la Niña: el modelo posee un mejor desempeño DEF son MAM son los trimestres de menor error.

6.3.2 Sobre el signo de error de validación

Los indicadores de error MAPE y %RMSE no permiten analizar aquellas situaciones donde los pronósticos del modelo sobrestiman o subestiman las condiciones hidrológicas. Algunas técnicas, como el análisis de aciertos por terciles (Poveda et al, 2001) son un excelente referente para analizar el desempeño de los modelos, sin embargo todavía queda pendiente hacer un análisis del signo del error y su significado en los procesos de pronóstico. Si se define el error como ttt yye −= ˆ entonces si 0>te es porque tt yy >ˆ y se puede afirmar que los

caudales predichos por un determinado esquema de pronósticos poseen mayor magnitud que los caudales históricos (el modelo sobre-estima los caudales); si 0<te es porque tt yy <ˆ y

entonces el modelo subestima los caudales.

Asociado a cada matriz de validación puede generarse una matriz con el signo del error, el signo (+) corresponde a aquellos casos donde el modelo sobre-estima los caudales y el signo (–) para aquellos casos donde el modelo subestima los caudales. En la Tabla 6-8 se muestra la matriz de validación y el signo asociado, los meses de mayor error durante el fenómeno del Niño son Julio y Agosto y el signo del error es (+), lo que significa que error se debe a una sobre-estimación de los caudales, así mismo pueden construirse las matrices de validación y de error trimestral para los diferentes ríos como se muestra en la Figura 6-10.

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 6-20

Tabla 6-8 Matriz de validación y signo del error para los ríos del Grupo 1 (Guadalupe, Tenche, Porce y Riogrande)

RIO NIÑO NORMAL NIÑA

Mat

riz d

e va

lidac

ión

Mes de Inicio

Mes

Pre

dich

o

AJEDREZ RIO GUADALUPE USANDO COMBINACIÓN-ANFIS

D E F M A M J J A S O N

D

N

O

S

A

J

J

M

A

M

F

E

15

20

25

30

35

Mes de InicioM

es P

redi

cho

AJEDREZ RIO GUADALUPE USANDO COMBINACIÓN-ANFIS

D E F M A M J J A S O N

D

N

O

S

A

J

J

M

A

M

F

E

15

20

25

30

35

Mes de Inicio

Mes

Pre

dich

o

AJEDREZ RIO GUADALUPE USANDO COMBINACIÓN-ANFIS

D E F M A M J J A S O N

D

N

O

S

A

J

J

M

A

M

F

E

15

20

25

30

35

Sig

no d

e er

ror

Figura 6-10 Árboles de decisión para la predicción de los ríos Guadalupe, Tenche, Grande, Porce

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 6-21

6.3.3 Construcción de árboles de decisión

De los resultados de validación y la experiencia en predicción de las series de caudales obtenida durante la elaboración del presente trabajo, se han elaborado algunos lineamientos que pueden ayudar a la predicción de caudales en función de las características del ENSO y la estación del año. Dichos árboles se presentan en la Figura 6-11, Figura 6-12,Figura 6-13. Cuando un determinado esquema de pronóstico tiene valores altos de error (superiores al 25%) y se sabe que dicho error posee signo negativo (el modelo subestima) se sugiere corregir al alza valor del pronóstico el percentil asociado al 60% del pronóstico probabilístico (Q60). Si se demuestra que el modelo sobre estima el caudal (errores altos con signo positivo) entonces se sugiere corregir el pronóstico a la baja usando el Q40.

Figura 6-11 Árboles de decisión para la predicción de los ríos Guadalupe, Tenche, Grande, Porce

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 6-22

Figura 6-12 Árboles de decisión para el pronóstico la predicción de los ríos Nare y Guatapé

Figura 6-13 Árboles de decisión para el pronóstico de los ríos San Carlos y San Lorenzo

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 6-23

Figura 6-14 Árboles de decisión para el pronóstico de los ríos Miel y Magdalena en Betania

Figura 6-15 Árboles de decisión para el pronóstico de los ríos Batá y Guavio

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 6-24

6.4 ANÁLISIS DE RESULTADOS

Esta primera aproximación a la incorporación de los árboles de regresión-decisión para la corrección de los pronósticos de caudales ha permitido disminuir el error al incorporar tanto información cualitativa como cuantitativa de las variables macro-climáticas. Los pronósticos de las temperaturas superficiales del océano pacífico y de las condiciones del ENSO pueden ser fácilmente incorporados en la corrección de las predicciones de caudales mediante el uso del algoritmo M5.

Los resultados obtenidos luego de la aplicación del algoritmo M5 para la corrección de los pronósticos de caudales medios mensuales con horizonte de un mes, muestran que el uso de árboles de decisión incorporando pronósticos variables explicativos permite disminuir significativamente el error de los pronósticos al incorporar de forma indirecta la información macro climática a modelos de pronóstico previamente establecidos. Analizando el indicador de error MAPE y comparándolo con los valores obtenidos para el mejor modelo de pronóstico con horizonte de un mes, dicho indicador disminuyó del 9% al 5% para el río Guadalupe; los ríos Tenche, San Lorenzo, Miel y Guatapé del 15% al 11%; el río Nare del 12% al 9% ; el río Bata del 23% al 14% y el río Guavio del 23% al 17%. En algunos casos la disminución de error es significativamente comparable a la disminución obtenida mediante combinación de pronósticos (Ver Anexo 2).

Finalmente la incorporación de árboles de inducción permite convertir el pronóstico de caudales en un procedimiento lógico, que incorpora información macro-climática de diferentes tipos y fuentes cuyos resultados pueden ser muy favorables en la obtención de resultados más acertados. Cualquier pronóstico fiable sobre los estados del ENSO puede ser incorporado, así pues los pronósticos del IRI pueden ser reemplazados por los del IDEAM u otra agencia que conserve los reportes de los diversos diagnósticos climáticos. Se espera que con el pasar de los años exista mucho mas información cualitativa en las bases de datos de las diferentes fuentes de información climática que pueda ser usada para calibrar y validar los modelos de corrección a fin de obtener mejores resultados.

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 6-25

Referencias

J.H. Friedman, Multivariate adaptive regression splines, Ann. Statist. 19 (1991) 1–141.

J.R. Quinlan, Learning withcontinuous classes, Proceedings of the Australian Joint Conference on Artificial Intelligence, World Scientific, Singapore, 1992 pp. 343–348.

M.I. Jordan, R.A. Jacobs, Hierarchical mixtures of experts and the EM algorithm, Neural Comput 6 (1994) 181–214.

R.A. Jacobs, M.I. Jordan, S.J. Nowlan, G.E. Hinton, Adaptive mixtures of local experts, Neural Comput. 3 (1991) 79–87.

S. Haykin, Neural Networks: A Comprehensive Foundation, Prentice-Hall, Engelwoods Cliffs, NJ, 1999.

Poveda, G., C. Hoyos, J. F. Meja, L. F. Cavajal, O. J. Mesa, A. Cuartas, y J. Barco, 2001: Predicción no lineal de los caudales medios mensuales del rio Nare. Revista Avances Recursos Hidráulicos, Posgrado en Aprovechamiento de Recursos Hidráulicos, no 8, septiembre de 2001. p 65-76.

Wang, Y.,Witten,I.H.,1997.Induction of model trees for predicting continuous classes. In:Proceedings of the Poster Papers of the European Conference on Machine Learning,UniversityofEconomics,Faculty of Informatics and Statistics, Prague.

Xue, Y. and A. Leetmaa, 2000: Forecasts of tropical Pacific SST and sea level using a Markov model. Geophys. Res. Lett. , 27, 2701-2704.

Xue, Y., A. Leetmaa, and M. Ji, 2000: ENSO prediction with Markov models: The impact of sea level. J. Climate, 13, 849-871.

Zhang, D., Tsai, J.J.P., 2007. Advances in machine learning applications in software engineering, IdeaGroupInc.ISBN:1-59140-941-1.

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH-UNAL 6-26

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH -UNAL

Anexo 1

Métodos de descomposición Espectral

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – UNAL-PARH

A1-1

A1 TECNICAS DE DESCOMPOSICIÓN ESPECTRAL

A1.1 ANÁLISIS ESPECTRAL SINGULAR

El Análisis Espectral Singular (AES) es usado en estudios climáticos para referirse a la aplicación univariada del Análisis de Componentes Principales (ACP) en el tiempo, y es equivalente a aplicar las Funciones Ortogonales Empíricas, a series de tiempo univariadas. El AES trata de capturar la evolución del sistema en el espacio de fases. La implementación del AES procede de manera análoga a la reconstrucción artificial de la evolución de las trayectorias en el espacio de las fases de un sistema no lineal. La reconstrucción artificial basada en el teorema de Takens (1981) es un método usado en el análisis de procesos que exhiben sensibilidad a las condiciones iniciales o caos determinístico.

La metodología se basa en la aplicación de diferentes formas del Análisis de Componentes Principales (ACP) en el dominio del tiempo y del espacio (Plaut y Vautard, 1994). El AES se basa en el ACP en el espacio de los vectores conformados por versiones rezagadas de una serie de tiempo. En este contexto, la connotación del Análisis Espectral no se refiere al tradicional análisis en el dominio de la frecuencia, sino que se refiere a la expansión de la evolución de un campo espacio-temporal en diferentes modos ortogonales empíricos (obtenidos a partir de los datos).

El análisis clásico de ACP se usa con múltiples series de tiempo obteniendo las direcciones principales de una secuencia de vectores M-dimensionales ( )NiX i ≤≤1 , , al expandirlos con

respecto a una base ortogonal ( )MkE k ≤≤1 , . El AES es la expansión de un campo discreto

( )NiX i ≤≤1 , , de sus componentes principales y Funciones Ortogonales Empíricas

considerando una longitud de ventana M , tal que:

MjEaX kj

cp

k

ik

ji ≤≤=∑=

1 1

, 1-1

Los coeficientes de proyección, ika , son los llamados Componentes Principales (CP) y los vectores, i

kE , son las funciones ortogonales empíricas (FOE). Para la implementación del análisis espectral simple la expansión es de la forma:

10 ;1 1

−≤≤≤≤=∑=

+ MjniEaX kj

k

kiji 1-2

Las FOE son los autovectores de la matriz Toepletiz, Tx, que contiene los coeficientes de covarianza cruzada de los diferentes vectores para rezagos de 0 a M-1. Las anteriores ecuaciones resultan de la aplicación de la expansión biortogonal de Karhunen-Loeve muy usada en el procesamiento de señales digitales (Ghil, 2002).

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – UNAL-PARH

A1-2

La ortogonalidad en tiempo (covarianza cruzada igual a cero para dos CP en el rezago cero) y espacio (ortogonalidad de las FOE), implica que kλ (autovalor k de la matriz de la matriz de

Toeplitz) representa la varianza de la k -ésima CP.

A1.2 TRANSFORMADA EN ONDITAS

La trasformada en onditas (Walvelet) es un tipo especial de trasformada de Fourier que representa una señal en términos de versiones trasladadas y dilatadas de una onda finita denominada ondita madre. El término original francés es ondelette, introducido por Jean Morlet y Alex Grossmann, ha sido traducido al inglés como wavelet, y también al castellano como, óndulas y onditas. Una ondita es una función que satisface ciertas condiciones matemáticas pudiendo representar series de tiempo y otro tipo de funciones; todas las onditas están basadas en una función llamada Onda Madre u onda de análisis )(tψ la cual posee unas propiedades especiales y satisface la condición 0)0(ˆ =ψ . Bajo dicha condición la trasformada en onditas para una señal unidimensional )(tX es definida como:

( ) ( )∫∞

∞−

−= dts

t

stxsW

τψτ *1, , 0−ℜ∈∧ℜ∈ sτ 1-3

Donde ( )sW ,τ es el coeficiente de onda; las series de la señal descompuesta, ( )t*ψ es la conjugada compleja de )(tψ ; τ es un parámetro de posición y s es el parámetro de escala. La ecuación inversa de [1], o reconstrucción de )(tx puede ser representada como:

( ) ( )∫∫∞

∞−

∞−

−= dsds

t

ssW

CtX ττψτ

ψ2

1,

1 1-4

Siendo ψC una constante de admisibilidad la cual depende de la ondita usada y satisface la

condición de admisibilidad:

( )∞≤= ∫

∞−

dww

wC

ψψ

ˆ 1-5

Donde ( )wψ representa la trasformada de Fourier de ( )tψ ; En la práctica es necesario discretizar la ondita y sus trasformaciones para poderlas aplicar a las series de tiempo, Mediante discretización la ecuación [2] se representa como:

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – UNAL-PARH

A1-3

( ) ∑∑∈ ∈

=Zj Zk

jkjktx ψϕ 1-6

Con jkϕ como coeficiente de ondita ( ) ( )jjk kWsW 2,, == τϕ y

−=j

j

jjk

kt

2

2

2

1 ψψ 1-7

El algoritmo empleado para la multiresolución, y recontracción de onditas fue presentado por en Mallat (1989).

A1.3 DESCOMPOSICIÓN EN MODOS EMPÍRICOS

El primer paso para realizar el análisis de una señal con la transformada Hilbert-Huang es la descomposición empírica (EMD: Empirical mode decomposition, Wang, 2007). La EMD descompone una señal en un número finito de series de tiempo que corresponden a sus oscilaciones características conocidas como funciones intrínsecas (IMF: Intrinsic Mode Function) .Con el propósito de definir una base casi ortogonal de descomposición, estas IMF deben satisfacer dos condiciones: (i) para todo el conjunto de datos el número de máximos y el número de cruces por cero deben ser igual o por lo menos ser diferentes por uno; y (ii) en cualquier punto el valor medio del contorno definido por la interpolación de los máximos locales y el contorno definido por la interpolación de los mínimos locales debe ser cero. La definición de estas señales permite la extracción de los comportamientos oscilatorios característicos de la señal. Cada una de estas funciones IMF es capaz de contener una señal modulada en amplitud y frecuencia, permitiendo el análisis de señales no estacionarias. El procedimiento para el cálculo de las funciones IMF puede ser descrito con los siguientes pasos (Xie, Z. Wang, 2006):

(a) Identificar los extremos de la señal ( )tx , y formar los contornos superior e inferior definidos por los puntos máximos locales y mínimos locales respectivamente, mediante una interpolación polinomial de orden 4 (cubic spline).

(b) Calcular el valor medio ( )tm1 mediante el promedio aritmético de los contornos superior e inferior, y realizar la resta entre la señal original y la media para obtener el primer componente

)(1 th :

( )tmtxth 111 )()( −= 1-8

(c) Si el primer componente no es una IMF, sea )(1 th la nueva señal a analizar. Repetir los pasos (a) y (b) hasta que el primer componente sea una IMF.

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – UNAL-PARH

A1-4

Figura 1-1 Proceso de división de la señal original usando EMD. (a) Señal original, (b) en azul la señal original, en rojo los contornos superior e inferior definidos por los máximos y mínimos locales

respectivamente, (c) media de los contornos donde se aprecia que todavía no se tiene un IMF debido a que existen máximos y mínimos locales sugiriendo la existencia de ondas moduladas.

(d) El primer componente que además es una IMF es llamado )(1 tc . Sea

( ) )()( 11 tctxtr −= Continuar con los pasos (a) – (c) hasta que )(trn sea más pequeño que un

valor predeterminado o se convierta en una señal monótona decreciente de donde no pueda ser extraída ninguna función IMF.

Siguiendo el algoritmo anterior (mostrado en Figura 1-1), la señal original puede ser expresada mediante la suma de componentes IMF y el residuo final:

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – UNAL-PARH

A1-5

( ) ( ) ( )∑=

+=n

jnj trtctx

1)

1-9

Donde n es el número de IMFs, )(trn es el residuo final que puede ser una constante o la moda

de la serie, y las funciones )(1 tc son casi ortogonales entre sí, y todas tienen valor medio cero. Aunque esta representación es completa no es totalmente ortogonal y no puede ser mostrado analíticamente. Sin embargo la construcción de las IMF por medio de la resta de la señal y la media de los contornos superior e inferior asegura que los componentes son localmente ortogonales entre sí y cualquier discrepancia es pequeña, por lo que este método puede ser considerado una proyección ortogonal (Huang et al, 1998).

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – UNAL-PARH

A1-6

Referencias

Ghil M., Allen M., Dettinger M., Ide M., Kondrashov D., Mann M., Robertson A., Saunders A., Tian Y. y Varadi F. y Yiou P. 2002. “Advanced Spectral Methods for Climatic Time Series”. Review of Geophysics. American Geophysical Union, Vol. 40, N° 1. pp. 1-41.

Mallat, S.(1989) "Multiresolution approximation and wavelet orthonormal bases of L2,” Trans. Amer. Math. Soc., June.

Vautard, R. et al. 1992. “Singular-spectrum analysis: A toolkit for shot, noisy chaotic signals”. Physica, D 58 (1992): 95-126. North-Holland.

N. E. Huang, Z. Shen, S. R. Long, M. L. C. Wu, H. H. Shin, Q. N. Zheng, N. C. Yen, C. C. Tung, H. H. Liu. “The empirical mode decomposition and the Hilbert spectrum for non-linear and non-stationary time series analysis”. Proc. Roy. Soc. Lond. Ser. A: Math. Phys. Eng. Sci. 454, pp. 903-995, 1998.

H. Xie, Z. Wang. “Mean frequency derived via Hilbert.Huang transform with application to fatigue EMG signal analisys”. Comp. methods and programs in Biomed., 82, pp. 114-120, 2006.

DESARROLLO DE UN SISTEMA EXPERTO PARA LA PREDICCIÓN

DE CAUDALES MEDIOS MENSUALES EN COLOMBIA

Julián David Rojo Hernández – PARH -UNAL

Anexo 2

Resultados de la validación de los modelos