Download - Predicción de parámetros de energía eólica utilizando

I

UNIVERSIDAD CENTRAL “MARTA ABREU” DE LAS VILLAS

FACULTAD DE MATEMÁTICA, FÍSICA Y COMPUTACIÓN

CENTRO DE ESTUDIOS DE INFORMÁTICA

Predicción de parámetros de energía eólica utilizando

modelos de regresión

Tesis de Diploma

Licenciatura en Ciencia de la Computación

Autor: Omar González Amor

Tutor (es): Dr. Víctor Samuel Ocaña Guevara

Ing. Ricardo Wilfredo Pino

Santa Clara, Cuba, 2015

II

El que suscribe, Omar González Amor, hago constar que el presente trabajo de diploma fue

realizado en la Universidad Central “Marta Abreu” de Las Villas como parte de la

culminación de estudios de la especialidad de Ciencia de la Computación autorizando a que el

mismo sea utilizado por la Institución, para los fines que estime conveniente, tanto de forma

parcial como total y que además no podrá ser presentado en eventos, ni publicados sin

autorización de la Universidad.

Firma del Autor

Los abajo firmantes certificamos que el presente trabajo ha sido realizado según acuerdo de la

dirección de nuestro centro y el mismo cumple con los requisitos que debe tener un trabajo de

esta envergadura referido a la temática señalada.

Firma del Tutor

Firma del Jefe de Departamento

donde se defiende el trabajo

Firma del Responsable de

Información Científico-Técnica

III

PENSAMIENTO

“Cada fracaso enseña al hombre algo que necesita aprender”

Charles Dickens

IV

DEDICATORIA

A mi familia por su apoyo, esfuerzo y consistencia brindada durante tanto tiempo.

A mi novia por creer en mí y ofrecerme todo su amor.

A mis amigos por ayudarme a alcanzar mis metas.

V

AGRADECIMIENTOS

A mi familia por su apoyo incondicional en todo momento.

A mi novia Arachely por su necesaria presencia en mi vida.

A mis suegros Olga Lidia y Víctor por comportarse como padres.

A mis tutores Ricardo y Víctor Samuel por brindarme su tiempo y dedicación.

A mis amigos universitarios por ser mis hermanos, por su ayuda y por compartir tantas cosas

juntos.

A todos los docentes que influyeron en mi educación durante toda mi vida académica.

VI

RESUMEN

Actualmente la empresa CITMA en Santa Clara utiliza varios tipos de fuentes de energía, con

el objetivo de generar energía mecánica, eléctrica o térmica que resultan indispensables para el

desarrollo laboral del local. Se utiliza la energía hidráulica, solar, biomasa, energía química

(combustibles), pero solo será objeto de estudio en este trabajo la energía eólica. Este portador

energético forma parte de los recursos renovables y posee parámetros que se encuentran en

constante variación ya que su disponibilidad cambia constantemente según el tiempo y

espacio, pues es un recurso natural.

Por tal motivo se definen parámetros relacionados con estos portadores energéticos en aras de

lograr almacenar de alguna manera su comportamiento en datos históricos, los cuales

conformarían la base de casos sobre la cual se debe trabajar con el empleo de algún modelo de

regresión eficiente para lograr predecir con efectividad la línea de actividad que tendrán los

parámetros de dichos portadores en algún instante de tiempo, ya que este tipo de energía,

luego de aplicarse un proceso de energización determinado sobre ella va a producir o generar

electricidad( energía eléctrica), aumento o decremento de la temperatura (energía térmica),

movimiento de maquinaria (energía mecánica), por lo que resulta necesario predecir el estado

en el cual deben encontrarse los rasgos de este portador energético en algún momento

especificado para facilitar la toma de decisiones de la empresa.

Palabras claves: fuente de energía, portador energético, energía eólica, comportamiento de sus

parámetros, datos históricos, predecir, generar, consumo energético.

VII

ABSTRACT

At present the enterprise CITMA in Santa Clara utilizes several types of energy sources,

generating mechanical energy, electric or thermic which are indispensable for the labor

development of this Enterprise. The waterpower, biomass, solar energy, chemical energy

(fuels) are utilized, but only it is needed to examine the aeolian energy. This energetic bearer

is a part of the renewable resources and it has parameters that are in constant variation,

because his availability changes constantly according to the time and space, after all it is a

natural resource.

That’s why have been defined parameters relating to this type of source of energy with the

goal of store somehow his behavior in historic data, which would conform the base of cases

that must be worked up with the use of any efficient regression model in order to predict with

efficiency the line of activity that the parameters of this source in some instant of time will

has, because this kind of energy, next of being applicable a process of energizing determined

on ti, it is going to produce or to generate electricity ( electric power ), increase or decrement

of temperature ( thermic power ), movement of machinery ( mechanical energy ), so it proves

to be necessary to predict the status of the energetic bearer’characteristics in some specified

moment.

Keywords: source of energy, energetic bearer, aeolian energy, behavior of parameters, historic

data, predicting, generating, energetic consumption.

VIII

TABLA DE CONTENIDOS

PENSAMIENTO..................................................................................................................... III

DEDICATORIA ..................................................................................................................... IV

AGRADECIMIENTOS............................................................................................................ V

RESUMEN………………………………………………………………………………….. VI

ABSTRACT…………………………………………………………………………………VII

INTRODUCCIÓN .....................................................................................................................1

PLANTEAMIENTO DEL PROBLEMA ................................................................................2

OBJETIVO GENERAL ............................................................................................................2

OBJETIVOS ESPECÍFICOS ...................................................................................................3

JUSTIFICACIÓN ......................................................................................................................4

VIABILIDAD DE LA INVESTIGACIÓN ..............................................................................4

ESTRUCTURA DE LA TESIS ................................................................................................4

CAPÍTULO 1. ESTUDIO DE DATOS Y HERRAMIENTAS ..............................................5

1.1 ENERGÍA EÓLICA ........................................................................................................5

1.2 ESTADO DEL ARTE DE LA PREDICCIÓN EÓLICA .............................................6

1.3 CONJUNTO DE DATOS INICIAL ...............................................................................7

1.3.1 DIRECCIÓN DEL VIENTO MÁXIMO................................................................8

1.3.2 VIENTO MÁXIMO Y VIENTO MEDIO..............................................................8

1.3.3 TEMPERATURA MÁXIMA, MEDIA Y MÍNIMA .............................................9

1.3.4 HUMEDAD RELATIVA MEDIA .......................................................................10

1.4 SERIES DE TIEMPO...................................................................................................11

1.4.1 APLICACIONES DE LAS SERIES DE TIEMPO .............................................12

1.5 MÉTODO DE TRABAJO............................................................................................12

1.6 WEKA ............................................................................................................................13

1.6.1 LA INTERFAZ DE USUARIO .............................................................................13

1.7 VISUAL PARADIGM ..................................................................................................17

CAPÍTULO 2. TRANSFORMACIÓN DE DATOS Y MODELOS DE REGRESIÓN ....19

2.1 CONFORMANDO LOS CASOS DE ESTUDIO .......................................................19

2.2 PREPROCESAMIENTO DE DATOS .......................................................................19

IX

2.2.1 DEPENDENCIA ENTRE LAS VARIABLES .....................................................19

2.2.2 TRANSFORMACIONES DE DATOS.................................................................20

2.2.3 CÓDIGO PARA TRANSFORMAR LOS DATOS .............................................21

2.2.4 ESTRUCTURA DEL CÓDIGO............................................................................21

2.3 MODELOS DE REGRESIÓN EN WEKA .................................................................22

2.4 RESULTADOS DE LOS MODELOS DE REGRESIÓN .........................................28

2.4.1 PRIMER ESTUDIO ..............................................................................................28

2.4.2 SEGUNDO ESTUDIO ..........................................................................................29

2.4.3 TERCER ESTUDIO ............................................................................................33

CAPÍTULO 3. EEPP. HERRAMIENTA PARA LA PREDICCION DE PARÁMETROS

DE LA ENERGÍA EOLICA ...................................................................................................38

3.1 INGENIERÍA DE SOFTWARE DE LA HERRAMIENTA ....................................38

3.1.1 CASOS DE USO DE LA HERRAMIENTA ........................................................38

3.1.2 DIAGRAMAS DE ACTIVIDADES DE LA HERRAMIENTA ........................40

3.1.3 DIAGRAMA DE PAQUETES DEL SISTEMA ..................................................41

3.1.4 DIAGRAMA DE CLASES DEL SISTEMA ........................................................43

3.2 EEPP. HERRAMIENTA PARA LA PREDICCIÓN DE PARÁMETROS DE

ENERGÍA EOLICA ............................................................................................................44

3.2.1 DESCRIPCIÓN Y REQUISITOS MÍNIMOS .....................................................44

3.2.2 IMPLEMENTACIÓN DE LOS CLASIFICADORES .......................................45

3.2.3 DESPLIEGUE DE LA APLICACIÓN ................................................................46

3.3 ANÁLISIS DE COSTO TEMPORAL ........................................................................50

CONCLUSIONES Y RECOMENDACIONES GENERALES...........................................52

REFERENCIAS BIBLIOGRÁFICAS...................................................................................54

X

ÍNDICE DE TABLAS

Tabla 1 Dependencia entre variables .....................................................................................20

Tabla 2 Nueva estructura de datos.........................................................................................20

Tabla 3 Resultados del Primer Estudio .................................................................................28

Tabla 4 Resultado del segundo estudio (2009) ......................................................................29

Tabla 5 Resultado del segundo estudio (2009-2010) .............................................................30



Tabla 8 Resultado del tercer estudio (Invierno) ...................................................................33

Tabla 9 Resultado del tercer estudio (Primavera) ................................................................34

Tabla 10 Resultado del tercer estudio (Verano) ...................................................................35

Tabla 11 Resultado del tercer estudio (Otoño) .....................................................................36

Tabla 12 Casos de Uso de la herramienta .............................................................................39

ÍNDICE DE FIGURAS

Figura 1 ventana Inicial de WEKA........................................................................................14

Figura 2 WEKA Explorer .......................................................................................................16

Figura 3 Diagrama de Casos de Uso de la herramienta .......................................................39

Figura 4 Diagrama de Actividad de la operación Crear Nueva Instancia .........................40

Figura 5 Diagrama de Actividad de la operación Realizar Predicciones ...........................41

Figura 6 Diagrama de Paquetes de la herramienta ..............................................................42

Figura 7 Diagrama de Clases del sistema ..............................................................................44

Figura 8 Ventana Inicial de EEPP .........................................................................................46

Figura 9 Ventana de Datos de EEPP .....................................................................................47

Figura 10 Ventana de Operaciones de datos .........................................................................48

Figura 11 Ventana de Predicciones de EEPP........................................................................48

Figura 12 EEPP realizando predicciones ..............................................................................49

Figura 13 Gráfico de costo de tiempo general.......................................................................50

Figura 14 Gráfico de costo temporal por modelos ...............................................................51

1

INTRODUCCIÓN

El consumo de energía es uno de los grandes medidores del progreso y bienestar de una

sociedad. Puesto que las fuentes de energía fósil y nuclear son finitas, es inevitable que en un

determinado momento la demanda no pueda ser abastecida y todo el sistema colapse, salvo

que se descubran y desarrollen otros nuevos métodos para obtener energía: éstas serían las

energías alternativas, entre las que se encuentran la energía solar y la energía eólica. Por otra

parte, el empleo de las fuentes de energía actuales tales como el petróleo, gas natural o carbón

acarrea consigo problemas como la progresiva contaminación, o el aumento de los gases

invernadero, sin mencionar que son recursos finitos.(Gheorghe, 2009)

Apenas un 2% de la energía solar que llega a la Tierra se convierte en energía eléctrica y sólo

podemos aprovechar una pequeña parte de ella. Aun así, se ha calculado que el potencial

eólico es unas veinte veces el actual consumo mundial de energía, lo que hace de la energía

eólica una de las fuentes de energía renovable más importantes.(Moragues, 2003)

Diversas empresas y locales utilizan la energía eólica para la generación de energía eléctrica,

aunque además se puede generar energía térmica y energía mecánica, tal es el caso de la

empresa CITMA en Santa Clara, la cual no solo utiliza fuentes de energía tradicionales

(combustibles), sino que también hace uso de la energía proporcionada por el viento y el sol,

independientemente de las constantes variaciones en su comportamiento, debido a que son

procesos naturales y están sujetos a sufrir las consecuencias de los distintos fenómenos de la

naturaleza.

Por lo tanto resulta de gran interés y utilidad realizar algún tipo de predicción o pronóstico

sobre el comportamiento de la energía eólica para cualquier momento o instante deseado con

el propósito de suponer el estado de sus parámetros.

La realización de este proyecto será determinante para la toma de decisiones de la empresa en

cuestión, ya que va a proporcionar el estado de la energía eólica en cualquier momento

deseado y así se podrá determinar qué cantidad de energía es capaz de aportar esta fuente y, de

esta manera, conocer también cuándo y cómo hacer uso eficiente de la misma.

2

PLANTEAMIENTO DEL PROBLEMA

Para cubrir la demanda energética de un sistema existen diversas fuentes de energía, como los

combustibles fósiles, los alternativos, la energía solar, hidráulica, geotermal y la energía eólica

entre otras. A todas estas fuentes se les aplica un proceso de transformación para la obtención

de energía eléctrica, térmica o mecánica, entre otras. El comportamiento de la disponibilidad

de los combustibles, de manera general, es constante y precisa ya que siempre que exista

reserva de estos portadores o capacidad para adquirirlos se garantiza eficientemente el aporte

energético que estos pueden ofrecer al sistema, por otra parte el comportamiento de la energía

eólica tiene grandes variaciones debido a que depende de las condiciones climáticas, por lo

que sus parámetros sufren cambios constantemente con respecto al tiempo, por tanto varía

también su disponibilidad en distintos instantes de tiempo y debido a esto se necesita realizar

un modelo de predicción para determinar eficientemente el comportamiento de los rasgos

(parámetros) que esta energía posee para que el experto logre conocer de manera eficaz la

cantidad de energía de cualquier tipo que esta fuente le podría aportar a la empresa.

OBJETIVO GENERAL

Desarrollar un sistema capaz de predecir el comportamiento de los parámetros de la

energía eólica contenidos en series de tiempo utilizando modelos de regresión.

3

OBJETIVOS ESPECÍFICOS

1. Obtener a partir del conjunto de datos históricos inicial distintos subconjuntos como

casos de estudio.

2. Determinar el conjunto óptimo de variables predictoras a través del análisis del

experto.

3. Explorar los modelos de aprendizajes de WEKA aplicables al problema en cuestión.

4. Proponer un modelo de aprendizaje óptimo para cada variable existente.

5. Desarrollar un mecanismo para la obtención de las predicciones utilizando los modelos

más eficientes.

PREGUNTAS DE INVESTIGACIÓN

1. ¿Cuáles son las dependencias entre las variables más influyentes en el comportamiento

de la energía eolica?

2. ¿Cuál es la cantidad de instancias o días pasados necesarios para lograr una predicción

eficiente?

3. ¿Cómo definir un criterio de comparación entre los modelos de regresión de WEKA

según sus resultados?

4

JUSTIFICACIÓN

Es de vital importancia la utilización de las energías renovables y naturales para disminuir el

uso de los combustibles que son limitados y propagan la contaminación. Con pronósticos

sobre el comportamiento de los parámetros de la energía eólica se puede conocer el tiempo de

consumo disponible de las energías generadas a partir de estas fuentes, algo que es una

necesidad vigente de la empresa CITMA en Santa Clara para poder optimizar la toma de sus

decisiones. Además con la aplicación de este sistema se puede obtener una mejora

significativa de alguna manera cuanto al ahorro de energía eléctrica.

El sistema a desarrollar ofrece una metodología novedosa y bien definida para la utilización de

técnicas de regresión en problemas de series de tiempo multivariadas.

VIABILIDAD DE LA INVESTIGACIÓN

Conjunto de datos históricos ofrecidos por la empresa CITMA a la Facultad de Mecánica para

el desarrollo de sus proyectos que constituye la base de casos sobre la cual se debe trabajar, así

como locales dotados con la técnica necesaria para la realización del trabajo.

ESTRUCTURA DE LA TESIS

La tesis cuenta con la siguiente estructura: luego de la Introducción, la tesis cuenta con tres

capítulos. En el primer capítulo se realiza un estudio del conjunto de datos inicial y sobre las

herramientas utilizadas en el trabajo posterior. En el segundo capítulo se realiza el

preprocesamiento de los datos y se analizan distintos modelos de regresión sobre las variables

para obtener el más óptimo. En el tercer y último capítulo se desarrolla una aplicación que

realice y muestre las predicciones de cada una de las variables. Finalmente se formulan las

conclusiones y recomendaciones y se relacionan las Referencias Bibliográficas.

5

CAPÍTULO 1. ESTUDIO DE DATOS Y HERRAMIENTAS

1.1 ENERGÍA EÓLICA

La energía eólica es la energía obtenida a partir del viento, es decir, la energía cinética

generada por efecto de las corrientes de aire, y que es convertida en otras formas útiles de

energía para las actividades humanas (El término eólico viene del latín Aeolicus, perteneciente

o relativo a Eolo, dios de los vientos en la mitología griega).(Antezana, 2004)

En la actualidad, la energía eólica es utilizada principalmente para producir electricidad

mediante aerogeneradores, conectados a las grandes redes de distribución de energía eléctrica.

Los parques eólicos construidos en tierra suponen una fuente de energía cada vez más barata,

competitiva o incluso más barata en muchas regiones que otras fuentes de energía

convencionales. Pequeñas instalaciones eólicas pueden, por ejemplo, proporcionar electricidad

en regiones remotas y aisladas que no tienen acceso a la red eléctrica, al igual que hace la

energía solar fotovoltaica. Las compañías eléctricas distribuidoras adquieren cada vez en

mayor medida el exceso de electricidad producido por pequeñas instalaciones eólicas

domésticas. El auge de la energía eólica ha provocado también la planificación y construcción

de parques eólicos marinos, situados cerca de las costas. La energía del viento es más estable y

fuerte en el mar que en tierra, y los parques eólicos marinos tienen un impacto visual menor,

pero los costes de construcción y mantenimiento de estos parques son considerablemente

mayores.(Moragues, 2003)

A finales de 2014, la capacidad mundial instalada de energía eólica ascendía a 370 gigavatios,

generando alrededor del 5% del consumo de electricidad mundial. Dinamarca genera más de

un 25 % de su electricidad mediante energía eólica, y más de 80 países en todo el mundo la

utilizan de forma creciente para proporcionar energía eléctrica en sus redes de distribución,

aumentando su capacidad anualmente con tasas por encima del 20 %. En España la energía

eólica produjo un 21,1 % del consumo eléctrico en 2013, convirtiéndose en la tecnología con

mayor contribución a la cobertura de la demanda, por encima incluso de la energía nuclear.

La energía eólica es un recurso abundante, renovable, limpio y ayuda a disminuir las

emisiones de gases de efecto invernadero al reemplazar fuentes de energía a base de

6

combustibles fósiles, lo que la convierte en un tipo de energía verde. El impacto ambiental de

este tipo de energía es además, generalmente, menos problemático que el de otras fuentes de

energía.

La energía del viento es bastante estable y predecible a escala anual, aunque presenta

significativas variaciones a escalas de tiempo menores. Al incrementarse la proporción de

energía eólica producida en una determinada región o país, se hace imprescindible establecer

una serie de mejoras en la red eléctrica local. Diversas técnicas de control energético, como

una mayor capacidad de almacenamiento de energía, una distribución geográfica amplia de los

aerogeneradores, la disponibilidad de fuentes de energía de respaldo, la posibilidad de exportar

o importar energía a regiones vecinas o la reducción de la demanda cuando la producción

eólica es menor, pueden ayudar a mitigar en gran medida estos problemas. Adicionalmente, la

predicción meteorológica permite a los gestores de la red eléctrica estar preparados frente a las

previsibles variaciones en la producción eólica que puedan tener lugar a corto

plazo.(Hernández, 2013, Zhou, 2012)

1.2 ESTADO DEL ARTE DE LA PREDICCIÓN EÓLICA

Existen dos aproximaciones básicas para la predicción de la energía eólica: los modelos físicos

y los modelos estadísticos.

Los modelos físicos tienen en cuenta consideraciones físicas para adaptar las predicciones de

viento en una zona a las condiciones concretas del emplazamiento del parque. Para hacer esta

adaptación se utilizan modelos de meso-escala o micro-escala que, partiendo de las

condiciones iniciales y de contorno obtenidas de un modelo atmosférico de mayor escala,

calculan la velocidad del viento incidente en las turbinas del parque para posteriormente

calcular la predicción de potencia por medio de la curva de potencia. (Dorronsoro, 2011)

Por otro lado, de entre los modelos estadísticos podemos encontrar la familia de las series

temporales, que solo utilizan valores pasados de las variables como datos de entrada del

modelo, y los que además de valores pasados utilizan como entradas los valores de predicción

meteorológica de modelos atmosféricos, relacionándolos con los valores de potencia histórica

u otros valores históricos medidos. (Blanco, 2012a, MARTÍN, 2010)

7

El modelo de predicción podría además ser una combinación de ambos, es decir, tener en

cuenta consideraciones físicas para estimar con detalle el viento en el emplazamiento de las

turbinas y usar modelos estadísticos avanzados que utilicen esta información localizada,

además de las medidas de potencia, para minimizar el error.(Blanco, 2012b)

Existen además un conjunto de modelos ya desarrollados con un enfoque moderno y

tecnológico que realizan predicciones sobre la energía eolica, aunque no constituyen líneas de

estudio fundamental en este trabajo.Ejemplos de estos tipos de modelos de predicción son los

siguientes:

-Modelo ARPS (Advanced Regional Prediction System).

-Modelo MASS (Mesoscale Atmospheric Simulation System).

-Modelo MM5 (Modelo de Mesoesscala de Quinta Generación).

-Modelo WRF (Weather Research and Forecasting Model).

-Fabricantes de software de previsión de viento. WindPRO y WASP: modelos de software de

predicción.

1.3 CONJUNTO DE DATOS INICIAL

Los datos brindados y necesarios se encontraban en una tabla en un documento Excel, llamado

Valores 2009-2013.xls, en la cual por fila se indicaba el tiempo (diario durante 5 años) y por

columna el nombre de la variable y en cada celda el valor de la variable para cada día,

constituyendo así el conjunto de datos una serie temporal, ya que constituyen una secuencia de

valores observados a lo largo del tiempo, y por tanto ordenados cronológicamente.(Blanco,

2012a, Ríos, 2008)

Las variables en cuestión son:

1. Dirección del viento máximo (DVM)

2. Viento Máximo (VMAX)

3. Temperatura Mínima (TMIN)

4. Temperatura Media (TMED)

5. Temperatura Máxima (TMAX)

8

6. Humedad Relativa Media (HRM)

7. Viento Medio (VMED)

1.3.1 DIRECCIÓN DEL VIENTO MÁXIMO

Se llama dirección del viento el punto del horizonte de donde viene o sopla. El instrumento

más antiguo para conocer la dirección de los vientos es la veleta que, con la ayuda de la rosa

de los vientos, define la procedencia de los vientos, es decir, la dirección desde donde soplan.

Para distinguir uno de otro se les aplica el nombre de los principales rumbos de la brújula. Los

cuatro puntos principales corresponden a los cardinales: Norte (N), Sur (S), Este (E) y Oeste

(W). Se consideran hasta 32 entre estos y los intermedios, aunque los primordiales y más

usados son los siguientes con su equivalencia en grados del azimuth(Gheorghe, 2009,

Moragues, 2003):

-NNE Norte Noreste 22,50º -NE Noreste 45,00º

-ENE Este Nordeste 67,50º -E Este 90,00º

-ESE Este Sudeste 112,50º -SE Sudeste 135,00º

-SSE Sur Sudeste 157,00º -S Sur 180,00º

-SSW Sur Sudoeste 202,50º -SW Sudoeste 225,00º

-WSW Oeste Sudeste 247,50º -W Oeste 270,00º

-WNW Oeste Noroeste 292,50º -NW Noroeste 315,00º

-NNW Norte Noroeste 337,50º -N Norte 360,00º

1.3.2 VIENTO MÁXIMO Y VIENTO MEDIO

El viento produce energía porque está siempre en movimiento. Se estima que la energía

contenida en los vientos es aproximadamente el 2% del total de la energía solar que alcanza la

tierra. El contenido energético del viento depende de su velocidad. Cerca del suelo, la

velocidad es baja, aumentando rápidamente con la altura. Cuanto más accidentada sea la

9

superficie del terreno, más frenará ésta al viento. Es por ello que sopla con menos velocidad en

las depresiones terrestres y más sobre las colinas. No obstante, el viento sopla con más fuerza

sobre el mar que en la tierra.(Antezana, 2004)

Otras fuerzas que mueven el viento o lo afectan son la fuerza de gradiente de presión, el efecto

Coriolis, las fuerzas de flotabilidad y de fricción y la configuración del relieve. Cuando entre

dos masas de aire adyacentes existe una diferencia de densidad, el aire tiende a fluir desde las

regiones de mayor presión a las de menor presión. En un planeta sometido a rotación, este

flujo de aire se verá influenciado, acelerado, elevado o transformado por el efecto de Coriolis

en cualquier parte de la superficie terrestre en la que nos encontremos. La creencia de que el

efecto de Coriolis no actúa en el ecuador es un error: lo que sucede es que los vientos van

disminuyendo de velocidad a medida que se acercan a la zona de convergencia intertropical y

esa disminución de velocidad queda automáticamente compensada por una ganancia en altura

del aire en toda la zona ecuatorial. A su vez, esa ganancia en altura da origen a la formación de

nubes de gran desarrollo vertical y a lluvias intensas y prolongadas, ampliamente repartidas en

la zona de convergencia intertropical, en especial en la zona ecuatorial. La fricción superficial

con el suelo genera irregularidades en estos principios afectando al régimen de vientos.(Roth,

2003)

1.3.3 TEMPERATURA MÁXIMA, MEDIA Y MÍNIMA

La temperatura es una magnitud referida a las nociones comunes de calor, frío, templado o

tibio, medible mediante un termómetro. En física, se define como una magnitud escalar

relacionada con la energía interna de un sistema termodinámico, definida por el principio cero

de la termodinámica. Más específicamente, está relacionada directamente con la parte de la

energía interna conocida como «energía cinética», que es la energía asociada a los

movimientos de las partículas del sistema, sea en un sentido traslacional, rotacional, o en

forma de vibraciones. A medida de que sea mayor la energía cinética de un sistema, se observa

que éste se encuentra más «caliente»; es decir, que su temperatura es mayor.(Yunus A, 2009)

Temperatura mínima: Se trata de la menor temperatura alcanzada en un lugar en un día, en

un mes o en un año y también la mínima absoluta alcanzada en los registros de temperaturas

de un lugar determinado. También en condiciones normales, las temperaturas mínimas diarias

10

se registran en horas del amanecer, las mínimas mensuales se obtienen en enero o febrero en el

hemisferio norte y en julio o agosto en el hemisferio sur. Y también las temperaturas mínimas

absolutas dependen de numerosos factores.(Hernández, 2013)

Temperatura media: Se trata de los promedios estadísticos obtenidos entre las temperaturas

máximas y mínimas. Con las temperaturas medias mensuales (promedio de las temperaturas

medias diarias a lo largo del mes) se obtiene un gráfico de las temperaturas medias de un lugar

para un año determinado. Y con estos mismos datos referidos a una sucesión de muchos años

(30 o más) se obtiene un promedio estadístico de la temperatura en dicho lugar. Estos últimos

datos, unidos al promedio de los montos pluviométricos (lluvias) mensuales de ese mismo

lugar ofrecen los datos necesarios para la elaboración de un gráfico climático (a veces

identificado como climograma) de dicho lugar. En el climograma empleado como ejemplo, la

temperatura mínima se produce en diciembre y la máxima en julio. El gráfico podría servir

como ejemplo de un clima templado mediterráneo.(Hernández, 2013)

Temperatura máxima: Es la mayor temperatura del aire alcanzada en un lugar en un día

(máxima diaria), en un mes (máxima mensual) o en un año (máxima anual). También puede

referirse a la temperatura máxima registrada en un lugar durante mucho tiempo (máxima

absoluta). En condiciones normales, y sin tener en cuenta otros elementos del clima, las

temperaturas máximas diarias se alcanzan en las primeras horas de la tarde; las máximas

mensuales suelen alcanzarse durante julio o agosto en la zona templada del hemisferio norte y

en enero o febrero en el hemisferio sur. Las máximas absolutas dependen de muchos factores,

sobre todo de la insolación, de la continentalidad, de la mayor o menor humedad, de los

vientos y de otros.(Hernández, 2013)

1.3.4 HUMEDAD RELATIVA MEDIA

La humedad relativa es el porcentaje de saturación de un volumen específico de aire a una

temperatura específica. La humedad relativa del aire depende de la temperatura y la presión

del volumen de aire analizado. Como la unidad de humedad relativa es por ciento, varía entre

0 (aire completamente seco) y 100% (aire saturado).

11

La cantidad de vapor de agua contenida en el aire, en cualquier momento determinado,

normalmente es menor que el necesario para saturar el aire. La humedad relativa es el

porcentaje de la humedad de saturación, que se calcula normalmente en relación con la

densidad de vapor de saturación.

O sea, la humedad relativa es la cantidad de humedad en el aire, comparado con la que el aire

puede "mantener" a esa temperatura. Cuando el aire no puede "mantener" toda la humedad,

entonces se condensa como rocío.(Cruz, 2008, Meruane, 2006)

1.4 SERIES DE TIEMPO

Se llama Series de Tiempo a un conjunto de observaciones sobre valores que toma una

variable (cuantitativa) en diferentes momentos del tiempo. Los datos se pueden comportar de

diferentes formas a través del tiempo, puede que se presente una tendencia, un ciclo; no tener

una forma definida o aleatoria, variaciones estacionales (anual, semestral, etc.). Las

observaciones de una serie de tiempo serán denotadas por Y1; Y2,..., YT, donde Yt es el valor

tomado por el proceso en el instante t.

Los modelos de series de tiempo tienen un enfoque netamente predictivo y en ellos los

pronósticos se elaborarán sólo con base al comportamiento pasado de la variable de

interés.(Ríos, 2008)

El conjunto de datos constituye una serie de tiempo, pues es una secuencia de observaciones,

medido en determinados momentos del tiempo, ordenado cronológicamente y, espaciado entre

sí de manera uniforme, así los datos usualmente son dependientes entre sí. Existen diferentes

formas de trabajar con series de tiempo, con el objetivo principal de realizar pronósticos,

normalmente para analizarlas se utilizan los modelos AR (Autoregresivos), MA (Medias

Móviles), ARMA (Autoregresivo de Medias Móviles) y ARIMA (Autoregresivo Integrado y

de Media Móvil). Otra forma de trabajar con series temporales es haciendo uso de Redes

Neuronales Recurrentes, también a través de los modelos KNN (K-Nearest Neighbor), entre

otras vías. (Villavicencio, 2011, Ríos, 2008, Mauricio, 2007, Molinero, 2004, Molinero, 2002)

12

1.4.1 APLICACIONES DE LAS SERIES DE TIEMPO

Hoy en día diversas organizaciones requieren conocer el comportamiento futuro de ciertos

fenómenos con el fin de planificar, prevenir, es decir, se utilizan para predecir lo que ocurrirá

con una variable en el futuro a partir del comportamiento de esa variable en el pasado. En las

organizaciones es de mucha utilidad en predicciones a corto y mediano plazo, por ejemplo ver

qué ocurriría con la demanda de un cierto producto, las ventas a futuro, decisiones sobre

inventario, insumos, etc.

Algunas de las áreas de aplicación de Series de Tiempo son :

_ Economía: Precios de un artículo, tasas de desempleo, tasa de inflación, índice de precios,

precio del dólar, precio del cobre, precios de acciones, ingreso nacional bruto, etc.

_ Meteorología: Cantidad de agua caída, temperatura máxima diaria, Velocidad del viento

(energía eólica), energía solar, etc.

_ Geofísica: Series sismológicas.

_ Química: Viscosidad de un proceso, temperatura de un proceso.

_ Demografía: Tasas de natalidad, tasas de mortalidad.

_ Medicina: Electrocardiograma, electroencefalograma.

_ Marketing: Series de demanda, gastos, utilidades, ventas, ofertas.

_ Telecomunicaciones: Análisis de señales.

_ Transporte: Series de tráfico.

1.5 MÉTODO DE TRABAJO

A pesar de que el conjunto de datos de partida constituye una serie temporal no se trabaja

sobre esta como tal, sino que se realizan transformaciones sobre los datos para poder aplicar

sobre estos distintos modelos de regresión, o sea, se forman varios conjuntos de datos

convencionales a partir de la serie de tiempo, específicamente uno para cada variable

existente. Para realizar esta operación se implementa un código sobre el lenguaje de

programación java utilizando la herramienta NetBeans IDE (versión 7.1.2). Una vez

13

conformados los nuevos datos se utiliza la herramienta WEKA para generar los distintos

modelos de regresión sobre cada conjunto formado y se realiza una evaluación de los modelos

para seleccionar el más óptimo para cada variable, atendiendo principalmente al resultado del

coeficiente de correlación obtenido para cada modelo generado. Una vez determinados los

mejores modelos para cada variable se desarrolla una aplicación como mecanismo de

obtención de las predicciones de cada variable diariamente según la cantidad de días deseada.

1.6 WEKA

Weka (Waikato Environment for Knowledge Analysis - Entorno para Análisis del

Conocimiento de la Universidad de Waikato) es una plataforma de software para aprendizaje

automático y minería de datos escrito en Java y desarrollado en la Universidad de Waikato. El

paquete Weka contiene una colección de herramientas de visualización y algoritmos para

análisis de datos y modelado predictivo, unidos a una interfaz gráfica de usuario para acceder

fácilmente a sus funcionalidades. Weka soporta varias tareas estándar de minería de datos,

especialmente, preprocesamiento de datos, clustering, clasificación, regresión, visualización, y

selección. Todas las técnicas de Weka se fundamentan en la asunción de que los datos están

disponibles en un fichero plano (flat file) o una relación, en la que cada registro de datos está

descrito por un número fijo de atributos (normalmente numéricos o nominales, aunque

también se soportan otros tipos). (Abernethy, 2010, Aler, 2009, Witten, 2000)

1.6.1 LA INTERFAZ DE USUARIO

La primera pantalla de Weka muestra una serie de opciones en su parte superior. La más

importante es Applications, donde se pueden ver las distintas subherramientas de Weka. Las

más importantes son Explorer (para explorar los datos) y Experimenter (para realizar

experimentos que comparen estadísticamente distintos algoritmos en distintos conjuntos de

datos, de manera automatizada).(Bouckaert, 2013, Aler, 2009)

14

Figura 1 ventana Inicial de WEKA

SIMPLE CLI

Simple CLI es la abreviatura de Simple Command-Line Interface (Interfaz Simple de Línea de

Comandos); se trata de una consola que permite acceder a todas las opciones de Weka desde

línea de comandos.(Bouckaert, 2013, Aler, 2009)

EXPERIMENTER

La interfaz Experimenter (Experimentador) permite la comparación sistemática de una

ejecución de los algoritmos predictivos de Weka sobre una colección de conjuntos de

datos.(Bouckaert, 2013, Aler, 2009)

KNOWLEDGE FLOW

Knowledge Flow (Flujo de Conocimiento) es una interfaz que soporta esencialmente las

mismas funciones que el Explorer pero con una interfaz que permite "arrastrar y soltar". Una

ventaja es que ofrece soporte para el aprendizaje incremental.(Bouckaert, 2013, Aler, 2009)

15

EXPLORER

De todas estas funcionalidades que contiene la herramienta WEKA en este trabajo se utiliza

principalmente el Explorer.

La interfaz Explorer (Explorador) dispone de varios paneles que dan acceso a los componentes

principales del banco de trabajo:

- El panel "Preprocess" dispone de opciones para importar datos de una base de datos, de un

fichero CSV, etc., y para preprocesar estos datos utilizando los denominados algoritmos de

filtrado. Estos filtros se pueden utilizar para transformar los datos (por ejemplo convirtiendo

datos numéricos en valores discretos) y para eliminar registros o atributos según ciertos

criterios previamente especificados.

- El panel "Classify" permite al usuario aplicar algoritmos de clasificación estadística y

análisis de regresión (denominados todos clasificadores en Weka) a los conjuntos de datos

resultantes, para estimar la exactitud del modelo predictivo resultante, y para visualizar

predicciones erróneas, curvas ROC, etc., o el propio modelo (si este es susceptible de ser

visualizado, como por ejemplo un árbol de decisión).

-El panel "Associate" proporciona acceso a las reglas de asociación aprendidas que intentan

identificar todas las interrelaciones importantes entre los atributos de los datos.

-El panel "Cluster" da acceso a las técnicas de clustering o agrupamiento de Weka como por

ejemplo el algoritmo K-means. Este es sólo una implementación del algoritmo expectación-

maximización para aprender una mezcla de distribuciones normales.

-El panel "Selected attributes" proporciona algoritmos para identificar los atributos más

predictivos en un conjunto de datos.

-El panel "Visualize" muestra una matriz de puntos dispersos (Scatterplot) donde cada punto

individual puede seleccionarse y agrandarse para ser analizados en detalle usando varios

operadores de selección.(Bouckaert, 2013, Aler, 2009)

16

Figura 2 WEKA Explorer

Weka garantiza varias ventajas:

Está disponible libremente bajo la licencia pública general de GNU.

Es muy portable porque está completamente implementado en Java y puede correr en

casi cualquier plataforma.

Contiene una extensa colección de técnicas para preprocesamiento de datos y

modelado.

Es fácil de utilizar por un principiante gracias a su interfaz gráfica de usuario.

La principal carencia es que hay un área importante que actualmente no cubren los

algoritmos incluidos en Weka y es el modelado de secuencias.(Bouckaert, 2013,

Abernethy, 2010)

17

1.7 VISUAL PARADIGM

Para la realización de la ingeniería de software de la aplicación a través de los diagramas UML

se utilizó la herramienta Visual Paradigm versión 9.0, mediante la cual se logran desarrollar

los siguientes diagramas:

-Diagrama de Clases

-Diagrama de Casos de Uso

-Diagrama de Actividad

Visual Paradigm for UML es una herramienta CASE que soporta el modelado mediante UML

y proporciona asistencia a los analistas, ingenieros de software y desarrolladores, durante

todos los pasos del Ciclo de Vida de desarrollo de un Software.(Norvell, 2010)

Las ventajas que proporciona Visual Paradigm for UML son:

- Dibujo. Facilita el modelado de UML, ya que proporciona herramientas específicas para ello.

Esto también permite la estandarización de la documentación, ya que la misma se ajusta al

estándar soportado por la herramienta.

-Corrección sintáctica. Controla que el modelado con UML sea correcto.

-Coherencia entre diagramas. Al disponer de un repositorio común, es posible visualizar el

mismo elemento en varios diagramas, evitando duplicidades.

-Integración con otras aplicaciones. Permite integrarse con otras aplicaciones, como

herramientas ofimáticas, lo cual aumenta la productividad.

-Trabajo multiusuario. Permite el trabajo en grupo, proporcionando herramientas de

compartición de trabajo.

-Reutilización. Facilita la reutilización, ya que disponemos de una herramienta centralizada

donde se encuentran los modelos utilizados para otros proyectos.

-Generación de código. Permite generar código de forma automática, reduciendo los tiempos

de desarrollo y evitando errores en la codificación del software.

18

-Generación de informes. Permite generar diversos informes a partir de la información

introducida en la herramienta.(Norvell, 2010)

Conclusiones

En este capítulo se realizó un estudio teórico referente a los conceptos relacionados con la

energía eolica y se explicaron un conjunto de parámetros o variables determinadas que la

conforman, se explicó además la novedosa metodología de trabajo tomada a partir de los

estudios realizados sobre las series temporales. Se desarrolló también una investigación

orientada a destacar y explicar las diferentes herramientas utilizadas para el desarrollo del

trabajo y sus funcionalidades.

19

CAPÍTULO 2. TRANSFORMACIÓN DE DATOS Y MODELOS DE

REGRESIÓN

2.1 CONFORMANDO LOS CASOS DE ESTUDIO

Con el objetivo de alcanzar mejores resultados de los modelos de regresión se conforman

distintos casos de estudio para determinar con cual subconjunto de datos se obtienen mejores

resultados de los modelos para cada una de las variables. Por lo que partir del conjunto de

datos inicial se obtienen nuevos subconjuntos:

a. Todo el conjunto de datos inicial.

b. Comenzando desde el año inicial (2009) se van agregando años hasta obtener

todo el conjunto de datos (2009-2013).

c. Para cada estación del año se obtiene un nuevo subconjunto de datos donde

influyen todos los años.

2.2 PREPROCESAMIENTO DE DATOS

Para la transformación de los datos es necesario conocer la dependencia entre las variables,

con el objetivo de determinar cuáles son las variables predictoras o independientes y las

variables dependientes. También es necesario conocer un tamaño de ventana (la cantidad de

días pasados necesarios para la predicción).

Como resultado de un análisis realizado por parte del especialista o experto en el tema se

determinó un tamaño de ventana de 5 días.

2.2.1 DEPENDENCIA ENTRE LAS VARIABLES

El análisis de la dependencia entre las variables fue realizado por parte del experto en este

tema y se obtuvieron los siguientes resultados:

20

Variables Dependientes Variable predictora #1 Variable predictora #2 Variable predictora #3

Dirección del Viento Máximo (DVM) TMED DVM -

Temperatura Media (TMED) TMAX TMIN TMED

Viento Máximo (VMAX) TMED HRM VMAX

Viento Medio (VMED) VMAX VMED -

Humedad Relativa (HRM) HRM - -

Temperatura Mínima (TMIN) TMIN - -

Temperatura Máxima (TMAX) TMAX - -

Tabla 1 Dependencia entre variables

2.2.2 TRANSFORMACIONES DE DATOS

Una vez conocido las dependencias entre las variables y el tamaño de ventana se procede a

transformar los datos iniciales de manera tal que puedan ser procesados por los modelos de

regresión contenidos en la herramienta WEKA.

La transformación consiste en tomar 5 días pasados (tamaño de ventana) de cada una de las

variables predictoras según el análisis de dependencia realizado anteriormente y colocar todos

esos datos en una fila, donde la variable objetivo estará localizada en la última columna de

cada fila y para predecirla se utilizan todos los datos de esa fila, por ejemplo, la variable

Dirección del Viento Máximo depende directamente de la variable Temperatura Media, por lo

que una fila del nuevo conjunto de datos tendría la estructura siguiente:

TMED_DIA1 TMED_DIA2 TMED_DIA3 TMED_DIA4 TMED_DIA5 DVM_DIA1 DVM_DIA2 DVM_DIA3 DVM_DIA4 DVM_DIA5 Var

OBJ

Tabla 2 Nueva estructura de datos

21

Así se continúa formando filas hasta que se disponga de todos los datos con el nuevo formato,

donde la variable VarOBJ (variable objetivo) constituye la Dirección del Viento Máximo del

día siguiente (día 6).

2.2.3 CÓDIGO PARA TRANSFORMAR LOS DATOS

Para realizar la transformación inicial de datos explicada anteriormente se implementa un

código utilizando el lenguaje de programación java y la herramienta NetBeans IDE versión

7.1.2.

Para la implementación del código se necesita realizar trabajos sobre un documento Excel,

principalmente las operaciones de lectura y escritura, por lo que es necesario de importar

bibliotecas que permitan y faciliten estas operaciones.

Se importa la siguiente biblioteca:

i. jxl.jar: Para realizar todo el trabajo realizado con los documentos Excel

de entrada y salida, así como las operaciones de lectura y escritura sobre

los mismos.(D, 2010)

2.2.4 ESTRUCTURA DEL CÓDIGO

Se crea la clase SplitData en la cual se implementa el método runprocess, el cual acepta como

parámetros de entrada los siguientes:

1. int [] columnas_independientes: Identificadores (números) de las

columnas donde se encuentran las variables predictoras o

independientes.

2. int columna: Identificador (número) de la columna donde se

encuentran la variable objetivo o dependiente.

3. int ventana: Tamaño de ventana (en este caso 5 días).

22

4. String urlEntrada: URL del fichero Excel de lectura.

5. String urlSalida: URL del fichero CSV de escritura.

Este método crea un nuevo fichero CSV para cada una de las variables objetivo con el formato

explicado anteriormente.

2.3 MODELOS DE REGRESIÓN EN WEKA

La herramienta WEKA proporciona y facilita la generación y el uso de varios modelos de

regresión. Para evaluar la calidad de los modelos de regresión generados se atiende

principalmente al coeficiente de correlación obtenido tras generar cada modelo, En

probabilidad y estadística, la correlación indica la fuerza y la dirección de una relación lineal y

proporcionalidad entre dos variables estadísticas. Se considera que dos variables cuantitativas

están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto

a los valores homónimos de la otra: si tenemos dos variables (A y B) existe correlación si al

aumentar los valores de A lo hacen también los de B y viceversa. La correlación entre dos

variables no implica, por sí misma, ninguna relación de causalidad.(Tusell, 2011, Novak,

2009, Gambhir, 2006, Molinero, 2002)

Para solucionar nuestra problemática se utilizaron los siguientes modelos de dicha

herramienta:

Paquete Functions:

1. GaussianProcesses

En teoría de la probabilidad y estadísticas, los procesos de Gauss son una familia de procesos

estocásticos. En un proceso Gaussiano, cada punto en un cierto espacio de entrada está

asociado con una distribución normal variable aleatoria. Además, cada conjunto finito de esas

variables aleatorias tiene una distribución normal multivariante. La distribución de un proceso

Gaussiano es la distribución conjunta de todos esos (infinitamente muchos) variables

aleatorias, y como tal, es una distribución de las funciones.

23

El concepto de procesos Gaussianos lleva el nombre de Carl Friedrich Gauss, ya que se basa

en la noción de la normal de la distribución que a menudo se llama la distribución de Gauss.

De hecho, los procesos de Gauss pueden ser vistos como una generalización de dimensión

infinita de distribuciones normales multivariantes.

Los procesos Gaussianos son importantes en la modelización estadística debido a las

propiedades heredadas de la normal. Por ejemplo, si un proceso aleatorio se modela como un

proceso Gaussiano, las distribuciones de diversas magnitudes derivadas se pueden obtener de

forma explícita. Tales cantidades incluyen el valor medio del proceso en un rango de tiempos

y el error en la estimación de la media usando valores de muestras en un conjunto pequeño de

veces.

Un proceso de Gauss es un proceso estocástico X t, t ∈ T, para la que cualquier finito

combinación lineal de las muestras tiene una distribución gaussiana conjunta. Más

exactamente, cualquier lineal funcional aplicada a la función de ejemplo X t dará resultado

una distribución normal. -Notación sabio, uno puede escribir X ~ GP (m, K), es decir, la

función aleatoria X se distribuye como un GP con la función de media m y la función de

covarianza K. Cuando el vector de entrada t es de dos o multidimensional, un proceso

Gaussiano podría también conocido como un campo aleatorio gaussiano.(Rasmussen, 2010,

Ebden, 2008, Rasmussen, 2006)

2. LinearRegression

En estadística la regresión lineal o ajuste lineal es un método matemático que modela la

relación entre una variable dependiente Y, las variables independientes Xi y un término

aleatorio ε. Este modelo puede ser expresado como:

: Variable dependiente, explicada o regresando.

: Variables explicativas, independientes o regresores.

24

: Parámetros, miden la influencia que las variables explicativas tienen

sobre el regresando.

Donde es la intersección o término "constante", las son los parámetros

respectivos a cada variable independiente, y es el número de parámetros independientes

a tener en cuenta en la regresión. La regresión lineal puede ser contrastada con la regresión

no lineal.(Hoffmann, 2010, Torres-Reyna, 2007, Rodríguez, 2007)

4. MultilayerPerceptron

El perceptrón multicapa es una red neuronal artificial (RNA) formada por múltiples capas,

esto le permite resolver problemas que no son linealmente separables, lo cual es la principal

limitación del perceptrón (también llamado perceptrón simple). El perceptrón multicapa puede

ser totalmente o localmente conectado. En el primer caso cada salida de una neurona de la

capa "i" es entrada de todas las neuronas de la capa "i+1", mientras que en el segundo cada

neurona de la capa "i" es entrada de una serie de neuronas (región) de la capa "i+1".

Las capas pueden clasificarse en tres tipos:

Capa de entrada: Constituida por aquellas neuronas que introducen los patrones de

entrada en la red. En estas neuronas no se produce procesamiento.

Capas ocultas: Formada por aquellas neuronas cuyas entradas provienen de capas

anteriores y cuyas salidas pasan a neuronas de capas posteriores.

Capa de salida: Neuronas cuyos valores de salida se corresponden con las salidas de

toda la red.

Limitaciones:

El Perceptrón Multicapa no extrapola bien, es decir, si la red se entrena mal o de

manera insuficiente, las salidas pueden ser imprecisas.

La existencia de mínimos locales en la función de error dificulta considerablemente el

entrenamiento, pues una vez alcanzado un mínimo el entrenamiento se detiene aunque

no se haya alcanzado la tasa de convergencia fijada.

25

Cuando caemos en un mínimo local sin satisfacer el porcentaje de error permitido se

puede considerar: cambiar la topología de la red (número de capas y número de

neuronas), comenzar el entrenamiento con unos pesos iniciales diferentes, modificar

los parámetros de aprendizaje, modificar el conjunto de entrenamiento o presentar los

patrones en otro orden. Aplicaciones:

El perceptrón multicapa se utiliza para resolver problemas de asociación de patrones,

segmentación de imágenes, compresión de datos, etc.(Novak, 2009, Witten, 2000)

5. SMOreg

SMOreg implementa las máquinas de soporte vectorial para la regresión (SVM). Las

máquinas de soporte vectorial o máquinas de vectores de soporte (Support Vector Machines,

SVMs) son un conjunto de algoritmos de aprendizaje supervisado desarrollados por Vladimir

Vapnik y su equipo en los laboratorios AT&T.

Estos métodos están propiamente relacionados con problemas de clasificación y regresión.

Dado un conjunto de ejemplos de entrenamiento (de muestras) podemos etiquetar las clases y

entrenar una SVM para construir un modelo que prediga la clase de una nueva muestra.

Intuitivamente, una SVM es un modelo que representa a los puntos de muestra en el espacio,

separando las clases por un espacio lo más amplio posible. Cuando las nuevas muestras se

ponen en correspondencia con dicho modelo, en función de su proximidad pueden ser

clasificadas a una u otra clase.

Más formalmente, una SVM construye un hiperplano o conjunto de hiperplanos en un espacio

de dimensionalidad muy alta (o incluso infinita) que puede ser utilizado en problemas de

clasificación o regresión. Una buena separación entre las clases permitirá una clasificación

correcta.

La idea básica es que dado un conjunto de puntos, subconjunto de un conjunto mayor

(espacio), en el que cada uno de ellos pertenece a una de dos posibles categorías, un algoritmo

basado en SVM construye un modelo capaz de predecir si un punto nuevo (cuya categoría

desconocemos) pertenece a una categoría o a la otra.(Witten, 2013, Aler, 2009, Witten, 2000,

Castro, 2013)

26

Paquete Lazy:

6. IBK (K=1 y K=3)

Este algoritmo está basado en instancias, por ello consiste únicamente en almacenar los datos

presentados. Cuando una nueva instancia es encontrada, un conjunto de instancias similares

relacionadas es devuelto desde la memoria y usado para clasificar la instancia consultada.

Se trata, por tanto, de un algoritmo del método lazy learning. Este método de aprendizaje se

basa en que los módulos de clasificación mantienen en memoria una selección de ejemplos sin

crear ningún tipo de abstracción en forma de reglas o de árboles de decisión (de ahí su

nombre, lazy, perezosos). Cada vez que una nueva instancia es encontrada, se calcula su

relación con los ejemplos previamente guardados con el propósito de asignar un valor de la

función objetivo para la nueva instancia.

La idea básica sobre la que se fundamenta este algoritmo es que un nuevo caso se va a

clasificar en la clase más frecuente a la que pertenecen sus K vecinos más cercanos. De ahí

que sea también conocido como método K-NN: K Nearest Neighbours. El algoritmo K-NN en

WEKA se conoce como IBK.

Este algoritmo es de la familia de algoritmos incluidos en “lazy learning”. Este algoritmo se

basa en instancias, por lo que únicamente almacena los datos presentados. Cuando al

ejecutarlo se encuentra una nueva instancia, se devuelve desde memoria el conjunto de

instancias similares relacionadas y usado para clasificar la instancia en concreto. Cada vez que

se encuentra una nueva instancia, el algoritmo calcula su relación con el resto de ejemplos

almacenados previamente con el fin de asignar un valor de la función objetivo para esta

instancia encontrada.

El concepto principal que fundamenta este algoritmo, es que cada instancia encontrada se va a

clasificar en la clase más frecuente a la que pertenezcan sus K vecinos más cercanos. Es por

esto que este algoritmo también es conocido como el método K-NN. K Nearest

Neighbours.(Witten, 2013, Novak, 2009, Aler, 2009)

27

7. Kstar

K * es un clasificador basado en instancia, que es la clase de una instancia de prueba, se basa

en la clase de esas instancias de capacitación similares a la misma, según lo determinado por

una función de similitud.

Se diferencia de otros aprendizajes basados en instancia en que utiliza una función de la

distancia basada en la entropía.(Novak, 2009, Witten, 2000)

8. LWL

LWL (Locally Weighted Learning) o aprendizaje localmente ponderado. Utiliza un algoritmo

basado en instancia para asignar pesos de instancia que luego son utilizados por un

WeightedInstancesHandler especificado. Puede hacer la clasificación (por ejemplo, el uso de

naive Bayes) o regresión (por ejemplo, mediante regresión lineal).(Witten, 2013, Witten,

2000)

28

2.4 RESULTADOS DE LOS MODELOS DE REGRESIÓN

2.4.1 PRIMER ESTUDIO

Todo el conjunto de datos original (2009-2013):

DVM HRM TMAX TMED TMIN VMAX VMED

GausseanProcess 0.273 0.3898 0.4156 0.625 0.4309 0.505 0.6903

LinearRegression 0.282 0.7354 0.8296 0.914 0.8995 0.542 0.7339

MultilayerPerceptron 0.14 0.6395 0.7818 0.884 0.8959 0.495 0.6466

SMOreg 0.29 0.7358 0.8296 0.914 0.8992 0.54 0.734

IBK_1Vecino 0.156 0.5482 0.6832 0.813 0.8014 0.237 0.5351

IBK_3Vecinos 0.206 0.657 0.7769 0.871 0.8663 0.375 0.6513

Kstar 0.171 0.7084 0.7817 0.85 0.8679 0.319 0.5595

LWL 0.308 0.6543 0.7303 0.796 0.7977 0.4519 0.5952

Tabla 3 Resultados del Primer Estudio

Análisis parcial de los resultados:

Se obtienen resultados satisfactorios para casi todas las variables excepto VMAX con

resultados regulares y DVM con malos resultados.

Se observa claramente que los mejores resultados para las variables objetivo HRM,

TMAX, TMED, TMIN, VMAX y VMED se obtienen con los modelos SMOreg y

LinearRegression.

Para la variable DVM el modelo óptimo es LWL.

29

2.4.2 SEGUNDO ESTUDIO

Añadiendo años (2009):





SMOreg 0.1777 0.6589 0.8339 0.9168 0.8925 0.5775 0.7482

IBK_1Vecino 0.2285 0.4311 0.6852 0.818 0.7906 0.4378 0.6576

IBK_3Vecinos 0.2942 0.5588 0.7646 0.8684 0.8589 0.5259 0.6789

Kstar 0.1676 0.5984 0.7555 0.812 0.8474 0.4864 0.662

LWL 0.3695 0.5776 0.7547 0.7978 0.7749 0.5381 0.6413

Tabla 4 Resultado del segundo estudio (2009)


Se obtienen muy buenos resultados para casi todas las variables excepto VMAX con

resultados regulares y DVM con malos resultados.

Se observa claramente que los mejores resultados para las variables objetivo HRM,

TMIN y VMED se obtienen para este conjunto de datos con el modelo

LinearRegression.

Para las variables TMAX y TMED el mejor resultado lo proporciona el modelo

SMOreg para este conjunto de datos.

Para la variable VMAX el mejor resultado lo proporciona el modelo

GaussianProcesses para este conjunto de datos.

Para la variable DVM el mejor resultado lo proporciona el modelo LWL para este

conjunto de datos.

Se evidencia que no existen mejoras significativas con respecto a los resultados obtenidos con

el primer estudio realizado (Conjunto de datos inicial 2009-2013).

30

Añadiendo años (2009-2010):





SMOreg 0.2707 0.6872 0.8368 0.9245 0.9144 0.5898 0.7056

IBK_1Vecino 0.2043 0.4938 0.7354 0.8393 0.8337 0.2871 0.522

IBK_3Vecinos 0.2261 0.5975 0.8081 0.8888 0.8889 0.4401 0.6126

Kstar 0.1614 0.6286 0.8075 0.8665 0.8805 0.4205 0.4995

LWL 0.3212 0.6168 0.7591 0.8226 0.8162 0.5173 0.581

Tabla 5 Resultado del segundo estudio (2009-2010)



resultados regulares y DVM con resultados insatisfactorios.

Se observa claramente que los mejores resultados para las variables objetivo TMAX y

TMED se obtienen para este conjunto de datos con el modelo LinearRegression.

Para las variables HRM, TMIN, VMAX y VMED el mejor resultado lo proporciona el

modelo SMOreg para este conjunto de datos.

El modelo LWL resulta el óptimo para la predicción de la variable DVM.



31






SMOreg 0.2826 0.7364 0.8404 0.9213 0.9078 0.5561 0.7342

IBK_1Vecino 0.2244 0.5628 0.7054 0.8294 0.8103 0.2245 0.5753

IBK_3Vecinos 0.2531 0.6705 0.7897 0.8887 0.873 0.3906 0.675

Kstar 0.1625 0.7032 0.7937 0.8543 0.8708 0.333 0.5827

LWL 0.3095 0.6455 0.7554 0.818 0.8093 0.4485 0.6189



Se obtienen satisfactorios resultados para casi todas las variables excepto VMAX con


Se observa claramente que los mejores resultados para las variables objetivo TMAX y

TMIN se obtienen para este conjunto de datos con el modelo LinearRegression.

Para las variables HRM, TMED, VMAX y VMED el mejor resultado lo proporciona

el modelo SMOreg para este conjunto de datos.

El modelo LWL resulta el óptimo para la predicción de la variable DVM.



32






SMOreg 0.2879 0.7288 0.8365 0.9177 0.9037 0.5487 0.7374

IBK_1Vecino 0.1689 0.5434 0.6892 0.8164 0.8135 0.2541 0.535

IBK_3Vecinos 0.1885 0.6573 0.7886 0.8773 0.8681 0.377 0.6481

Kstar 0.1565 0.6896 0.7891 0.8466 0.8687 0.3013 0.5693

LWL 0.294 0.6499 0.7385 0.8006 0.806 0.4593 0.6032





Se evidencia que los mejores resultados para las variables objetivo TMAX, TMED,

TMIN y VMED se obtienen para este conjunto de datos con el modelo

LinearRegression.

Se observa claramente que los mejores resultados para las variables objetivo HRM y

VMAX se obtienen para este conjunto de datos con el modelo SMOreg.

Para la variable objetivo DVM el resultado óptimo se obtiene con el modelo LWL.



33

2.4.3 TERCER ESTUDIO

Estaciones:

Invierno:





SMOreg 0.0874 0.5334 0.6464 0.8078 0.7764 0.5677 0.613

IBK_1Vecino 0.2465 0.3352 0.4045 0.5509 0.5832 0.3547 0.4477

IBK_3Vecinos 0.2298 0.3942 0.5014 0.7105 0.6852 0.4726 0.5182

Kstar 0.1283 0.3723 0.4988 0.6184 0.6297 0.2983 0.3986

LWL 0.3159 0.4245 0.5656 0.6868 0.6849 0.4602 0.5025

Tabla 8 Resultado del tercer estudio (Invierno)


Se obtienen satisfactorios resultados para casi todas las variables excepto para DVM con

resultados insatisfactorios y VMAX con resultados regulares.

Se evidencia que los mejores resultados para las variables objetivo TMIN y VMAX se

obtienen para este conjunto de datos con el modelo LinearRegression.

Para las variables HRM, TMAX, TMED y VMED se evidencia que el mejor resultado

se obtiene con el modelo SMOreg.

Para la variable DVM se muestra que el mejor resultado se obtiene para este conjunto

de datos con el modelo LWL.



34

Primavera:





SMOreg 0.2269 0.7068 0.7703 0.8593 0.8257 0.2602 0.6457

IBK_1Vecino 0.039 0.4467 0.6343 0.6765 0.622 0.0897 0.4409

IBK_3Vecinos 0.0975 0.6043 0.6815 0.7601 0.7436 0.1806 0.5207

Kstar 0.0665 0.604 0.6348 0.687 0.729 0.1976 0.3944

LWL 0.2697 0.6658 0.6574 0.7401 0.6886 0.2926 0.537

Tabla 9 Resultado del tercer estudio (Primavera)


Se obtienen satisfactorios resultados para casi todas las variables excepto para DVM y

VMAX, con las cuales se obtienen malos resultados.

Se evidencia que los mejores resultados para las variables objetivo TMIN y VMED se

obtienen para este conjunto de datos con el modelo LinearRegression.

Para las variables HRM, TMAX y TMED se evidencia que los mejores resultados se

obtiene con el modelo SMOreg.

Para la variable VMAX y DVM se muestra que el mejor resultado se obtiene para este

conjunto de datos con el modelo LWL.



35

Verano:




MultilayerPerceptron -0.0494 0.4486 0.5527 0.3992 0.3031 0.218 0.5779

SMOreg 0.251 0.5406 0.6374 0.6011 0.5068 0.4268 0.6803

IBK_1Vecino 0.0837 0.2889 0.3191 0.3245 0.277 -0.009 0.4045

IBK_3Vecinos 0.1543 0.4043 0.4735 0.3914 0.3014 0.1642 0.5537

Kstar 0.1469 0.4202 0.4343 0.2829 0.3568 0.1272 0.4575

LWL 0.1666 0.4977 0.5069 0.4974 0.4813 0.416 0.5819

Tabla 10 Resultado del tercer estudio (Verano)


Se obtienen satisfactorios resultados para casi todas las variables excepto para DVM con

malos resultados y VMAX con resultados regulares.

Se observa claramente que los mejores resultados para las variables objetivo DVM,

HRM, TMAX, VMAX y VMED se obtienen para este conjunto de datos con el modelo

SMOreg.

Se evidencia que para las variables objetivos TMED y TMIN en este conjunto de datos

se obtienen los mejores resultados con el modelo LinearRegression.



36

Otoño:


Resultados satisfactorios para casi todas las variables excepto para DVM con malos resultados

y VMAX con resultados regulares.

Se evidencia que para las variables objetivo DVM, HRM, TMED y VMAX en este

conjunto de datos se obtienen los mejores resultados con el modelo LinearRegression.

Se observa claramente que los mejores resultados para las variables objetivo TMAX,

TMIN y VMED se obtienen para este conjunto de datos con el modelo SMOreg.







SMOreg 0.4038 0.6006 0.7861 0.8649 0.8335 0.5335 0.7664

IBK_1Vecino 0.1725 0.3332 0.5985 0.716 0.6478 0.3604 0.5517

IBK_3Vecinos 0.2272 0.4609 0.7017 0.7851 0.7614 0.4633 0.6664

Kstar 0.1768 0.4973 0.6879 0.731 0.7335 0.2985 0.5081

LWL 0.3894 0.4933 0.6929 0.7649 0.7186 0.428 0.6494

Tabla 11 Resultado del tercer estudio (Otoño)

37

Luego de un profundo análisis de resultados se llega a la conclusión de que ningún estudio

realizado muestra mejores resultados ni mejoras significativas que el primer estudio (Conjunto

de datos inicial 2009-2013), por lo que el conjunto de datos inicial se convierte en el conjunto

de entrenamiento sobre el cual van a trabajar los modelos de regresión.

Conclusiones

En este capítulo se desarrolló un estudio orientado a explicar claramente las transformaciones

necesarias de los datos iniciales para su correcto procesamiento. Además, se realizaron tres

estudios principales sobre el conjunto de datos procesado para determinar los modelos de

regresión óptimos para cada variable.

38

CAPÍTULO 3. EEPP. HERRAMIENTA PARA LA PREDICCION DE

PARÁMETROS DE LA ENERGÍA EOLICA

En el capítulo se hará una breve descripción de las interioridades de la aplicación,

mostrándolas de manera gráfica a través de UML (Lenguaje Unificado de Modelado). Este

lenguaje fue desarrollado por James Rumbaugh e Ivar Jacobson según (Kim and Russell,

2006); consiste en un sistema de notaciones que se considera estándar en el mundo del

desarrollo de aplicaciones. Está constituido por un conjunto de diagramas que permiten

representar de una manera natural los procesos que se van a desarrollar.(Stevens, 2002)

3.1 INGENIERÍA DE SOFTWARE DE LA HERRAMIENTA

Ingeniería de software es la aplicación práctica del conocimiento científico al diseño y

construcción de programas de computadora y a la documentación asociada requerida para

desarrollarlos, operarlos y mantenerlos. (Pressman, 2003)

3.1.1 CASOS DE USO DE LA HERRAMIENTA

Los modelos de casos de uso del sistema de UML proporcionan una vía intuitiva de mostrar

los requisitos funcionales del sistema, dirigiendo así el proceso de desarrollo de la aplicación.

(Norvell, 2010, Stevens, 2002)En el siguiente diagrama se muestra los casos de uso del

sistema EEPP donde se define el actor del sistema con el nombre de “Especialista”.

39

Figura 3 Diagrama de Casos de Uso de la herramienta

Cada uno de los casos de uso representados en el diagrama anterior se describe en la siguiente

tabla:

Caso de uso Descripción

Visualizar datos El especialista visualiza el conjunto de datos original actualizado, incluso luego de ser

modificado podrá observar en tiempo de ejecución las modificaciones.

Agregar instancia Se muestra la posibilidad de insertar una nueva instancia al conjunto de datos original.

Realizar predicciones Es el caso de uso más importante del sistema. Se realizan las predicciones para cada

una de las variables según la cantidad de días especificada, además se muestra el

coeficiente de correlación correspondiente a cada una de las predicciones.

Exportar predicciones a

Excel

Ofrece la posibilidad de exportar los resultados de las predicciones a un documento

Excel para lograr una mejor visualización de los nuevos datos obtenidos.

Insertar predicciones en

conjunto de datos original

Agrega los resultados de las predicciones al conjunto de datos inicial para mantener

actualizada la base de casos.

Tabla 12 Casos de Uso de la herramienta

40

3.1.2 DIAGRAMAS DE ACTIVIDADES DE LA HERRAMIENTA

Los diagramas de actividad se realizan para mostrar el flujo de acciones dentro de un proceso

determinado, mostrando así el comportamiento dentro del sistema en esa actividad. En la

siguiente imagen se muestra el diagrama de actividad correspondiente al proceso de creación

de una nueva instancia, el cual se realiza a partir de la última instancia del conjunto de datos,

dependiendo del tipo de la variable objetivo en cuestión (multivariada o univariada) y que

contenga el formato correcto con los datos del nuevo día a predecir.(Norvell, 2010, Stevens,

2002)

Figura 4 Diagrama de Actividad de la operación Crear Nueva Instancia

Otra actividad importante del sistema es la realización de las predicciones, en la cual se realiza

la predicción de todas las variables para el día siguiente, creando primeramente una nueva

instancia y construyendo un modelo de regresión óptimo para cada una de las variables, con el

cual se determina las clases de las nuevas instancias creadas de cada variable y estas se

insertan a su conjunto de datos correspondiente según la variable en cuestión.

41

Figura 5 Diagrama de Actividad de la operación Realizar Predicciones

3.1.3 DIAGRAMA DE PAQUETES DEL SISTEMA

En el Lenguaje Unificado de Modelado, un diagrama de paquetes muestra cómo un sistema

está dividido en agrupaciones lógicas mostrando las dependencias entre esas agrupaciones.

Dado que normalmente un paquete está pensado como un directorio, los diagramas de

paquetes suministran una descomposición de la jerarquía lógica de un sistema. (Stevens, 2002,

Norvell, 2010)

El sistema EEPP tiene implementado cuatro paquetes:

1. Paquete uclv.eep.instances: Contiene las clases Instance_DVM,

Instance_HRM, Instance_TMAX, Instance_TMED, Instance_TMIN,

Instance_VMAX e Instance_VMED. En esencia este paquete se encarga de

administrar y manejar las clases relacionadas con las instancias de cada una de

las variables.

42

2. Paquete uclv.eep.modelos: Contiene las clases DVM_LWL, HRM_Smoreg,

TMAX_LinearRegression, TMED_LinearRegression, TMIN_Smoreg,

VMAX_SMOreg y VMED_LinearRegression. Esencialmente este paquete se

encarga de administrar las clases relacionadas con los modelos óptimos

determinados para cada variable.

3. Paquete uclv.eep.utils: Contiene las clases ExcelManager, Redondeo y

SplitData. Este paquete administra un conjunto de clases de gran utilidad en el

sistema, que contienen operaciones necesarias para la correcta función de la

aplicación.

4. Paquete uclv.eep.visual: Contiene la clase EEPMainFrame. Este paquete

administra la clase encargada de la interfaz visual del sistema.

En la siguiente imagen se muestra el diagrama de paquetes de la aplicación, con las relaciones

que estos poseen entre ellos.

Figura 6 Diagrama de Paquetes de la herramienta

43

3.1.4 DIAGRAMA DE CLASES DEL SISTEMA

El diagrama de clases es la representación lógica de la filosofía orientada a objetos,

describiendo los objetos que hay en el sistema, la relación entre ellos, así como sus atributos y

operaciones de estos. (Norvell, 2010, Stevens, 2002)

La herramienta EEPP contiene un conjunto de clases formado por las clases Instance_DVM,

Instance_HRM, Instance_TMAX, Instance_TMED, Instance_TMIN, Instance_VMAX e

Instance_VMED. Este conjunto de clases se encarga de manejar todos los datos y operaciones

relacionadas con las instancias correspondientes a cada una de las variables.

La herramienta contiene también otro conjunto de clases formado por las clases DVM_LWL,

HRM_Smoreg, TMAX_LinearRegression, TMED_LinearRegression, TMIN_Smoreg,

VMAX_SMOreg y VMED_LinearRegression, las cuales se encargan de la construcción de los

modelos de regresión óptimos correspondientes a cada una de las variables.

El sistema contiene además un conjunto de clases formado por las clases ExcelManager,

Redondeo y SplitData, las cuales tienen como función principal la implementación de un

conjunto de operaciones útiles y necesarias para el correcto funcionamiento de la herramienta.

Existe además una clase llamada EEPMainFrame que es la encargada de la implementación

de la interfaz visual de la aplicación.

En la siguiente figura se muestra el diagrama de clases del sistema, con las respectivas

relaciones entre ellas y sus paquetes de pertenencia.

44

Figura 7 Diagrama de Clases del sistema

3.2 EEPP. HERRAMIENTA PARA LA PREDICCIÓN DE PARÁMETROS DE

ENERGÍA EOLICA

3.2.1 DESCRIPCIÓN Y REQUISITOS MÍNIMOS

EEPP es una herramienta o mecanismo que ofrece una interfaz gráfica de usuario amigable y

sencilla para la obtención de predicciones sobre un conjunto de parámetros determinados

relacionados con la energía eolica. Este sistema esta implementado en el lenguaje de

programación Java, para lo cual se utilizó la herramienta NetBeans IDE versión 7.1.2. La

45

herramienta necesita de una máquina virtual para que pueda ejecutarse; en este caso requiere

de una versión igual o superior al JDK versión 1.7. Como mínimo requiere de 256mb de RAM

para una correcta ejecución.

3.2.2 IMPLEMENTACIÓN DE LOS CLASIFICADORES

La implementación de los clasificadores óptimos para cada variable resulta la estructura

fundamental del código generado. De manera general se implementaron tres clasificadores que

utilizan regresión:

1. SMOreg

2. Linear Regression

3. LWL

Para la utilización de estas funciones se agregó al proyecto la biblioteca weka.jar

Ejemplo de implementación del clasificador Linear Regression:

Primeramente se crea un objeto del clasificador:

static LinearRegression linearRegression=new LinearRegression();

Se definen las opciones de este:

static final String [] options = {"-S","0",

"-R","1.0E-8"};

static SelectedTag attrSelecttion=linearRegression.getAttributeSelectionMethod();

static boolean col=linearRegression.getEliminateColinearAttributes();

Posteriormente se procede a la definición del método de construcción del clasificador:

public static buildVMED_LinearRegression() throws Exception

Se agregan las opciones definidas anteriormente al clasificador:

linearRegression.setOptions(options);

linearRegression.setAttributeSelectionMethod(attrSelecttion);

linearRegression.setEliminateColinearAttributes(col);

Se construye el clasificador con la función buildClassifier(Instances) contenida en

weka.jar, que recibe como parámetro el conjunto de instancias de entrenamiento.

linearRegression.buildClassifier(Instance_VMED.getData());

46

Por último se realiza el proceso de evaluación y se utiliza la Validación Cruzada:

Evaluation eval=new Evaluation(Instance_VMED.getData());

eval.crossValidateModel(linearRegression, Instance_VMED.getData(), 10,rand);

3.2.3 DESPLIEGUE DE LA APLICACIÓN

EEPP (Eolic Energy Parameters Predictor) constituye una herramienta sencilla destinada

específicamente a realizar predicciones diarias sobre un conjunto bien determinado de

parámetros o variables relacionado con la energía eolica. Las predicciones están basadas en

modelos de regresión generados a partir de un conjunto de datos históricos.

Ventana Inicial:

Al iniciar la aplicación se muestra una interfaz que contiene una breve descripción de la

herramienta y una opción de ayuda para visualizar el manual de usuario del software, el cual

contiene una ayuda explicativa sobre todas las funcionalidades y formas de uso de la

herramienta.

Figura 8 Ventana Inicial de EEPP

47

En la interfaz gráfica de usuario de la aplicación se muestran los datos actualizados, incluso

luego de realizar cambios sobre ellos, y la opción de agregar una nueva instancia al conjunto

de datos original.

Figura 9 Ventana de Datos de EEPP

48

Agregar Valores:

Esta ventana se muestra cuando el usuario o especialista necesite agregar tantos nuevos

valores (instancias) como desee al conjunto de datos original. Se deberán llenar todos los

campos con sus formatos específicos correctamente.

Figura 10 Ventana de Operaciones de datos

Ventana de las predicciones:

Se muestra todo lo relacionado con la obtención de las predicciones para cuantos días se

desee, así como el coeficiente de correlación asociado a cada modelo de regresión construido.

Figura 11 Ventana de Predicciones de EEPP

49

En la siguiente ventana referente a las predicciones se muestra la opción de exportar las

predicciones obtenidas a un documento Excel para una óptima visualización y manejo de los

nuevos datos obtenidos.

Se brinda además la opción de agregar las predicciones obtenidas al conjunto de datos original

para mantener la base de casos actualizada de manera dinámica.

Figura 12 EEPP realizando predicciones

50

3.3 ANÁLISIS DE COSTO TEMPORAL

El costo de tiempo de la ejecución de la aplicación atendiendo a la obtención de las

predicciones no es favorable debido a la complejidad temporal asociada a la construcción de

los modelos de regresión. Se debe tener en cuenta además que cada vez que se desee predecir

una variable para un día determinado se construye nuevo modelo de regresión óptimo

correspondiente a dicha variable, de manera tal que se construyan los modelos con un

conjunto de entrenamiento actualizado.

La ejecución de la aplicación fue realizada en una computadora personal (laptop), con

potencia de procesamiento media-baja (común), que posee las siguientes características:

-Sistema Operativo Windows 8.1 64-bit.

-Procesador Intel Core i3 2da Generación, CPU 1.40GHz.

-Memoria RAM 4GB.

En el siguiente gráfico se muestra el costo de tiempo general (en minutos) de ejecución de los

modelos para la obtención de las predicciones de 60 días.

Figura 13 Gráfico de costo de tiempo general

1, 3

10, 32.5

20, 66

30, 99

40, 133

50, 163

60, 197

3

28

53

78

103

128

153

178

203

1 10 20 30 40 50 60

Min

uto

s

Días

Costo de tiempo general

Modelos

51

En el siguiente gráfico se muestra el costo temporal (en segundos) asociado a cada variable en

específico según su modelo óptimo para 60 días.

Figura 14 Gráfico de costo temporal por modelos

Conclusiones

En este capítulo se explica detalladamente la esencia de la herramienta EEPP, así como la

ingeniaría de software asociada a la misma, a través de varios diagramas UML. Además, se

muestra un despliegue de la aplicación a través de explicaciones ilustradas de la herramienta.

Por último se realiza un análisis del costo de tiempo de ejecución de la herramienta a través de

gráficos de líneas.

0

300

600

900

1200

1500

1800

2100

2400

2700

3000

3300

3600

1 10 20 30 40 50 60

Segu

nd

os

Días

Costo de Tiempo por Modelos

TMAX HRM TMIN TMED VMAX DVM VMED

52

CONCLUSIONES Y RECOMENDACIONES GENERALES

Conclusiones Generales:

1. Se obtuvieron a partir del conjunto de datos inicial tres subconjuntos de datos como casos

de estudio sobre los cuales se aplicaron modelos de regresión contenidos en la herramienta

WEKA a cada una de las variables contenidas en los tres subconjuntos formados.

2. Se realizó un análisis en colaboración con el experto o especialista en el tema sobre las

dependencias entre un conjunto de variables o parámetros relacionados con la energía eolica

donde se determinaron las dependencias entre dichas variables y la cantidad de días pasados

necesarios para lograr una satisfactoria predicción.

3. Se llevó a cabo un análisis exploratorio sobre los resultados de los modelos de regresión

contenidos en la herramienta WEKA, teniendo como conjunto de entrenamiento los tres

estudios realizados, donde se determinaron los modelos óptimos para cada variable en cada

estudio y luego a través de un proceso de comparación de resultados se obtuvo mejor conjunto

de entrenamiento para la generación de los modelos. Se determinó además a partir de este

conjunto de entrenamiento el modelo de aprendizaje óptimo para cada una de las variables en

cuestión.

4. Se ha implementado una herramienta llamada EEPP (Predictor de Parámetros de la Energía

Eolica, por sus siglas en inglés) que brinda apoyo al proyecto actual desarrollado en la facultad

de Ingeniería Mecánica de la UCLV sobre el uso óptimo de las energías renovables. Dicha

herramienta logra determinar las predicciones de los parámetros más importantes que posee la

energía eolica de manera diaria, basándose en instancias anteriores de estos parámetros y

utilizando los modelos de regresión óptimos para cada variable determinados anteriormente.

53

Recomendaciones Generales:

1. Se recomienda no generar predicciones para más de 5 días, debido a la inevitable pérdida de

datos reales, ya que cada nuevo día de predicción se realiza utilizando 5 instancias o días

anteriores.

2. Se recomienda ampliar la herramienta para lograr la obtención de las predicciones a partir

de cualquier base de casos inicial con parámetros o variables distintos a los trabajados en este

trabajo, de manera tal que el sistema sea de uso general para cualquier empresa o ambiente

que desee resolver problemas de este tipo con parámetros variables.

3. Es recomendable la realización de otros estudios que difieran de los realizados en este

trabajo con el objetivo de obtener mejoras en cuanto a la eficiencia de la predicción de la

variable Dirección del Viento Máximo, de manera que se logre un aumento de su coeficiente

de correlación utilizando los modelos de regresión estudiados.

4. Resolver el problema en cuestión utilizando además métodos clásicos aplicables a series de

tiempo en su forma original, como Redes Neuronales Recurrentes, algoritmo KNN, modelos

ARIMA, etc., con el objetivo de desarrollar una comparación de resultados.(Ríos, 2008,

Mauricio, 2007)

5. Incorporar además nuevas funcionalidades y metodologías de trabajos a la herramienta

EEPP con el fin de mejorar la calidad de la misma.

54

REFERENCIAS BIBLIOGRÁFICAS

ABERNETHY, M. 2010. Data mining with WEKA, Part 1: Introduction and regression [Online].

ALER, R. 2009. Tutorial Weka 3.6.0. 40.

ANTEZANA, J. 2004. Energía eólica. Conceptos y

actualidad., 40.

BLANCO, M. P. 2012a. NUEVOS MODELOS DE PREDICCIÓN EÓLICA BASADOS EN SERIES TEMPORALES. UNIVERSIDAD DE VALLADOLID.

BLANCO, M. P. 2012b. NUEVOS MODELOS DE PREDICCIÓN EÓLICA

BASADOS EN SERIES TEMPORALES

UNIVERSIDAD DE VALLADOLID.

BOUCKAERT, R. R. 2013. WEKA Manual

for Version 3-7-8. 327.

CASTRO, J. L. 2013. Máquinas de Vectores Soporte (SVM).

CRUZ, G. 2008. Ciclo Hidrológico y Humedad del aire. 40.

D, F. M. 2010. Leer un fichero Excel desde Java [Online].

DORRONSORO, J. R. 2011. Modelos predictivos de producción de energías renovables. Instituto de Ingeniería del Conocimiento, 21.

EBDEN, M. 2008. Gaussian Processes for Regression: A Quick Introduction. 11.

GAMBHIR, S. 2006. Regression model for Quality of Web Services dataset with WEKA.

International Journal of Electronics and Computer Science Engineering, 6.

GHEORGHE, C. 2009. Aeolian energy – the energy of the future? Manager Journal, 10, 7-14.

HERNÁNDEZ, L. 2013. A Survey on Electric Power Demand Forecasting: Future Trends in

Smart Grids, Microgrids and Smart Buildings. 65.

HOFFMANN, J. P. 2010. Linear Regression Analysis: Applications and Assumptions. 285.

MARTÍN, I. E. 2010. Integración de técnicas estadísticas, numéricas y de inteligencia artificial para la predicción eólica en configuraciones de parques eólicos geográficamente cercanos. Caso de la isla de Gran Canaria., Universidad de las

Palmas de Gran Canaria.

MAURICIO, J. A. 2007. Introducción al Análisis de Series Temporales. 295.

MERUANE, C. 2006. Determinación de Humedad en la Atmósfera. 10.

MOLINERO, L. M. 2002. Construcción de modelos de regresión multivariantes. 10.

55

MOLINERO, L. M. 2004. Análisis de series temporales. 8.

MORAGUES, J. 2003. ENERGIA EOLICA. 22.

NORVELL, T. 2010. Visual Paradigm for UML Tutorial. 4.

NOVAK, P. K. 2009. Numeric prediction in Weka.

PRESSMAN, R. S. 2003. Ingeniería del Software, un enfoque Práctico.

RASMUSSEN, C. E. 2006. Gaussian Processes for Machine Learning. 266.

RASMUSSEN, C. E. 2010. Gaussian Processes for Machine Learning (GPML) Toolbox. 5.

RÍOS, G. 2008. Series de Tiempo. Universidad de Chile.

RODRÍGUEZ, E. R. 2007. Ajuste de curvas. UNISANGIL, 20.

ROTH, G. D. 2003. Meteorología. Formaciones nubosas y otros fenómenos meteorológicos.

Situaciones meteorológicas generales. Pronósticos del tiempo.

STEVENS, P. 2002. Utilización de UML en Ingeniería del Software con Objetos y Componentes.

TORRES-REYNA, O. 2007. Linear Regression using Stata. 46.

TUSELL, F. 2011. Análisis de Regresión.Introducci´on Teórica y Práctica basada en R. 258.

VILLAVICENCIO, J. 2011. Introducción a Series de Tiempo.

WITTEN, I. H. 2000. WEKA. Machine Learning Algorithms in Java. 58.

WITTEN, I. H. 2013. Data Mining with Weka. 45.

YUNUS A, Ç. 2009. Temodinámica.

ZHOU, Z. 2012. A two-stage stochastic programming model for the optimal design

of distributed energy systems. ELSEVIER, 9.

Download - Predicción de parámetros de energía eólica utilizando

Top Related