I
UNIVERSIDAD CENTRAL “MARTA ABREU” DE LAS VILLAS
FACULTAD DE MATEMÁTICA, FÍSICA Y COMPUTACIÓN
CENTRO DE ESTUDIOS DE INFORMÁTICA
Predicción de parámetros de energía eólica utilizando
modelos de regresión
Tesis de Diploma
Licenciatura en Ciencia de la Computación
Autor: Omar González Amor
Tutor (es): Dr. Víctor Samuel Ocaña Guevara
Ing. Ricardo Wilfredo Pino
Santa Clara, Cuba, 2015
II
El que suscribe, Omar González Amor, hago constar que el presente trabajo de diploma fue
realizado en la Universidad Central “Marta Abreu” de Las Villas como parte de la
culminación de estudios de la especialidad de Ciencia de la Computación autorizando a que el
mismo sea utilizado por la Institución, para los fines que estime conveniente, tanto de forma
parcial como total y que además no podrá ser presentado en eventos, ni publicados sin
autorización de la Universidad.
Firma del Autor
Los abajo firmantes certificamos que el presente trabajo ha sido realizado según acuerdo de la
dirección de nuestro centro y el mismo cumple con los requisitos que debe tener un trabajo de
esta envergadura referido a la temática señalada.
Firma del Tutor
Firma del Jefe de Departamento
donde se defiende el trabajo
Firma del Responsable de
Información Científico-Técnica
III
PENSAMIENTO
“Cada fracaso enseña al hombre algo que necesita aprender”
Charles Dickens
IV
DEDICATORIA
A mi familia por su apoyo, esfuerzo y consistencia brindada durante tanto tiempo.
A mi novia por creer en mí y ofrecerme todo su amor.
A mis amigos por ayudarme a alcanzar mis metas.
V
AGRADECIMIENTOS
A mi familia por su apoyo incondicional en todo momento.
A mi novia Arachely por su necesaria presencia en mi vida.
A mis suegros Olga Lidia y Víctor por comportarse como padres.
A mis tutores Ricardo y Víctor Samuel por brindarme su tiempo y dedicación.
A mis amigos universitarios por ser mis hermanos, por su ayuda y por compartir tantas cosas
juntos.
A todos los docentes que influyeron en mi educación durante toda mi vida académica.
VI
RESUMEN
Actualmente la empresa CITMA en Santa Clara utiliza varios tipos de fuentes de energía, con
el objetivo de generar energía mecánica, eléctrica o térmica que resultan indispensables para el
desarrollo laboral del local. Se utiliza la energía hidráulica, solar, biomasa, energía química
(combustibles), pero solo será objeto de estudio en este trabajo la energía eólica. Este portador
energético forma parte de los recursos renovables y posee parámetros que se encuentran en
constante variación ya que su disponibilidad cambia constantemente según el tiempo y
espacio, pues es un recurso natural.
Por tal motivo se definen parámetros relacionados con estos portadores energéticos en aras de
lograr almacenar de alguna manera su comportamiento en datos históricos, los cuales
conformarían la base de casos sobre la cual se debe trabajar con el empleo de algún modelo de
regresión eficiente para lograr predecir con efectividad la línea de actividad que tendrán los
parámetros de dichos portadores en algún instante de tiempo, ya que este tipo de energía,
luego de aplicarse un proceso de energización determinado sobre ella va a producir o generar
electricidad( energía eléctrica), aumento o decremento de la temperatura (energía térmica),
movimiento de maquinaria (energía mecánica), por lo que resulta necesario predecir el estado
en el cual deben encontrarse los rasgos de este portador energético en algún momento
especificado para facilitar la toma de decisiones de la empresa.
Palabras claves: fuente de energía, portador energético, energía eólica, comportamiento de sus
parámetros, datos históricos, predecir, generar, consumo energético.
VII
ABSTRACT
At present the enterprise CITMA in Santa Clara utilizes several types of energy sources,
generating mechanical energy, electric or thermic which are indispensable for the labor
development of this Enterprise. The waterpower, biomass, solar energy, chemical energy
(fuels) are utilized, but only it is needed to examine the aeolian energy. This energetic bearer
is a part of the renewable resources and it has parameters that are in constant variation,
because his availability changes constantly according to the time and space, after all it is a
natural resource.
That’s why have been defined parameters relating to this type of source of energy with the
goal of store somehow his behavior in historic data, which would conform the base of cases
that must be worked up with the use of any efficient regression model in order to predict with
efficiency the line of activity that the parameters of this source in some instant of time will
has, because this kind of energy, next of being applicable a process of energizing determined
on ti, it is going to produce or to generate electricity ( electric power ), increase or decrement
of temperature ( thermic power ), movement of machinery ( mechanical energy ), so it proves
to be necessary to predict the status of the energetic bearer’characteristics in some specified
moment.
Keywords: source of energy, energetic bearer, aeolian energy, behavior of parameters, historic
data, predicting, generating, energetic consumption.
VIII
TABLA DE CONTENIDOS
PENSAMIENTO..................................................................................................................... III
DEDICATORIA ..................................................................................................................... IV
AGRADECIMIENTOS............................................................................................................ V
RESUMEN………………………………………………………………………………….. VI
ABSTRACT…………………………………………………………………………………VII
INTRODUCCIÓN .....................................................................................................................1
PLANTEAMIENTO DEL PROBLEMA ................................................................................2
OBJETIVO GENERAL ............................................................................................................2
OBJETIVOS ESPECÍFICOS ...................................................................................................3
JUSTIFICACIÓN ......................................................................................................................4
VIABILIDAD DE LA INVESTIGACIÓN ..............................................................................4
ESTRUCTURA DE LA TESIS ................................................................................................4
CAPÍTULO 1. ESTUDIO DE DATOS Y HERRAMIENTAS ..............................................5
1.1 ENERGÍA EÓLICA ........................................................................................................5
1.2 ESTADO DEL ARTE DE LA PREDICCIÓN EÓLICA .............................................6
1.3 CONJUNTO DE DATOS INICIAL ...............................................................................7
1.3.1 DIRECCIÓN DEL VIENTO MÁXIMO................................................................8
1.3.2 VIENTO MÁXIMO Y VIENTO MEDIO..............................................................8
1.3.3 TEMPERATURA MÁXIMA, MEDIA Y MÍNIMA .............................................9
1.3.4 HUMEDAD RELATIVA MEDIA .......................................................................10
1.4 SERIES DE TIEMPO...................................................................................................11
1.4.1 APLICACIONES DE LAS SERIES DE TIEMPO .............................................12
1.5 MÉTODO DE TRABAJO............................................................................................12
1.6 WEKA ............................................................................................................................13
1.6.1 LA INTERFAZ DE USUARIO .............................................................................13
1.7 VISUAL PARADIGM ..................................................................................................17
CAPÍTULO 2. TRANSFORMACIÓN DE DATOS Y MODELOS DE REGRESIÓN ....19
2.1 CONFORMANDO LOS CASOS DE ESTUDIO .......................................................19
2.2 PREPROCESAMIENTO DE DATOS .......................................................................19
IX
2.2.1 DEPENDENCIA ENTRE LAS VARIABLES .....................................................19
2.2.2 TRANSFORMACIONES DE DATOS.................................................................20
2.2.3 CÓDIGO PARA TRANSFORMAR LOS DATOS .............................................21
2.2.4 ESTRUCTURA DEL CÓDIGO............................................................................21
2.3 MODELOS DE REGRESIÓN EN WEKA .................................................................22
2.4 RESULTADOS DE LOS MODELOS DE REGRESIÓN .........................................28
2.4.1 PRIMER ESTUDIO ..............................................................................................28
2.4.2 SEGUNDO ESTUDIO ..........................................................................................29
2.4.3 TERCER ESTUDIO ............................................................................................33
CAPÍTULO 3. EEPP. HERRAMIENTA PARA LA PREDICCION DE PARÁMETROS
DE LA ENERGÍA EOLICA ...................................................................................................38
3.1 INGENIERÍA DE SOFTWARE DE LA HERRAMIENTA ....................................38
3.1.1 CASOS DE USO DE LA HERRAMIENTA ........................................................38
3.1.2 DIAGRAMAS DE ACTIVIDADES DE LA HERRAMIENTA ........................40
3.1.3 DIAGRAMA DE PAQUETES DEL SISTEMA ..................................................41
3.1.4 DIAGRAMA DE CLASES DEL SISTEMA ........................................................43
3.2 EEPP. HERRAMIENTA PARA LA PREDICCIÓN DE PARÁMETROS DE
ENERGÍA EOLICA ............................................................................................................44
3.2.1 DESCRIPCIÓN Y REQUISITOS MÍNIMOS .....................................................44
3.2.2 IMPLEMENTACIÓN DE LOS CLASIFICADORES .......................................45
3.2.3 DESPLIEGUE DE LA APLICACIÓN ................................................................46
3.3 ANÁLISIS DE COSTO TEMPORAL ........................................................................50
CONCLUSIONES Y RECOMENDACIONES GENERALES...........................................52
REFERENCIAS BIBLIOGRÁFICAS...................................................................................54
X
ÍNDICE DE TABLAS
Tabla 1 Dependencia entre variables .....................................................................................20
Tabla 2 Nueva estructura de datos.........................................................................................20
Tabla 3 Resultados del Primer Estudio .................................................................................28
Tabla 4 Resultado del segundo estudio (2009) ......................................................................29
Tabla 5 Resultado del segundo estudio (2009-2010) .............................................................30
Tabla 6 Resultado del segundo estudio (2009-2011) .............................................................31
Tabla 7 Resultado del segundo estudio (2009-2012) .............................................................32
Tabla 8 Resultado del tercer estudio (Invierno) ...................................................................33
Tabla 9 Resultado del tercer estudio (Primavera) ................................................................34
Tabla 10 Resultado del tercer estudio (Verano) ...................................................................35
Tabla 11 Resultado del tercer estudio (Otoño) .....................................................................36
Tabla 12 Casos de Uso de la herramienta .............................................................................39
ÍNDICE DE FIGURAS
Figura 1 ventana Inicial de WEKA........................................................................................14
Figura 2 WEKA Explorer .......................................................................................................16
Figura 3 Diagrama de Casos de Uso de la herramienta .......................................................39
Figura 4 Diagrama de Actividad de la operación Crear Nueva Instancia .........................40
Figura 5 Diagrama de Actividad de la operación Realizar Predicciones ...........................41
Figura 6 Diagrama de Paquetes de la herramienta ..............................................................42
Figura 7 Diagrama de Clases del sistema ..............................................................................44
Figura 8 Ventana Inicial de EEPP .........................................................................................46
Figura 9 Ventana de Datos de EEPP .....................................................................................47
Figura 10 Ventana de Operaciones de datos .........................................................................48
Figura 11 Ventana de Predicciones de EEPP........................................................................48
Figura 12 EEPP realizando predicciones ..............................................................................49
Figura 13 Gráfico de costo de tiempo general.......................................................................50
Figura 14 Gráfico de costo temporal por modelos ...............................................................51
1
INTRODUCCIÓN
El consumo de energía es uno de los grandes medidores del progreso y bienestar de una
sociedad. Puesto que las fuentes de energía fósil y nuclear son finitas, es inevitable que en un
determinado momento la demanda no pueda ser abastecida y todo el sistema colapse, salvo
que se descubran y desarrollen otros nuevos métodos para obtener energía: éstas serían las
energías alternativas, entre las que se encuentran la energía solar y la energía eólica. Por otra
parte, el empleo de las fuentes de energía actuales tales como el petróleo, gas natural o carbón
acarrea consigo problemas como la progresiva contaminación, o el aumento de los gases
invernadero, sin mencionar que son recursos finitos.(Gheorghe, 2009)
Apenas un 2% de la energía solar que llega a la Tierra se convierte en energía eléctrica y sólo
podemos aprovechar una pequeña parte de ella. Aun así, se ha calculado que el potencial
eólico es unas veinte veces el actual consumo mundial de energía, lo que hace de la energía
eólica una de las fuentes de energía renovable más importantes.(Moragues, 2003)
Diversas empresas y locales utilizan la energía eólica para la generación de energía eléctrica,
aunque además se puede generar energía térmica y energía mecánica, tal es el caso de la
empresa CITMA en Santa Clara, la cual no solo utiliza fuentes de energía tradicionales
(combustibles), sino que también hace uso de la energía proporcionada por el viento y el sol,
independientemente de las constantes variaciones en su comportamiento, debido a que son
procesos naturales y están sujetos a sufrir las consecuencias de los distintos fenómenos de la
naturaleza.
Por lo tanto resulta de gran interés y utilidad realizar algún tipo de predicción o pronóstico
sobre el comportamiento de la energía eólica para cualquier momento o instante deseado con
el propósito de suponer el estado de sus parámetros.
La realización de este proyecto será determinante para la toma de decisiones de la empresa en
cuestión, ya que va a proporcionar el estado de la energía eólica en cualquier momento
deseado y así se podrá determinar qué cantidad de energía es capaz de aportar esta fuente y, de
esta manera, conocer también cuándo y cómo hacer uso eficiente de la misma.
2
PLANTEAMIENTO DEL PROBLEMA
Para cubrir la demanda energética de un sistema existen diversas fuentes de energía, como los
combustibles fósiles, los alternativos, la energía solar, hidráulica, geotermal y la energía eólica
entre otras. A todas estas fuentes se les aplica un proceso de transformación para la obtención
de energía eléctrica, térmica o mecánica, entre otras. El comportamiento de la disponibilidad
de los combustibles, de manera general, es constante y precisa ya que siempre que exista
reserva de estos portadores o capacidad para adquirirlos se garantiza eficientemente el aporte
energético que estos pueden ofrecer al sistema, por otra parte el comportamiento de la energía
eólica tiene grandes variaciones debido a que depende de las condiciones climáticas, por lo
que sus parámetros sufren cambios constantemente con respecto al tiempo, por tanto varía
también su disponibilidad en distintos instantes de tiempo y debido a esto se necesita realizar
un modelo de predicción para determinar eficientemente el comportamiento de los rasgos
(parámetros) que esta energía posee para que el experto logre conocer de manera eficaz la
cantidad de energía de cualquier tipo que esta fuente le podría aportar a la empresa.
OBJETIVO GENERAL
Desarrollar un sistema capaz de predecir el comportamiento de los parámetros de la
energía eólica contenidos en series de tiempo utilizando modelos de regresión.
3
OBJETIVOS ESPECÍFICOS
1. Obtener a partir del conjunto de datos históricos inicial distintos subconjuntos como
casos de estudio.
2. Determinar el conjunto óptimo de variables predictoras a través del análisis del
experto.
3. Explorar los modelos de aprendizajes de WEKA aplicables al problema en cuestión.
4. Proponer un modelo de aprendizaje óptimo para cada variable existente.
5. Desarrollar un mecanismo para la obtención de las predicciones utilizando los modelos
más eficientes.
PREGUNTAS DE INVESTIGACIÓN
1. ¿Cuáles son las dependencias entre las variables más influyentes en el comportamiento
de la energía eolica?
2. ¿Cuál es la cantidad de instancias o días pasados necesarios para lograr una predicción
eficiente?
3. ¿Cómo definir un criterio de comparación entre los modelos de regresión de WEKA
según sus resultados?
4
JUSTIFICACIÓN
Es de vital importancia la utilización de las energías renovables y naturales para disminuir el
uso de los combustibles que son limitados y propagan la contaminación. Con pronósticos
sobre el comportamiento de los parámetros de la energía eólica se puede conocer el tiempo de
consumo disponible de las energías generadas a partir de estas fuentes, algo que es una
necesidad vigente de la empresa CITMA en Santa Clara para poder optimizar la toma de sus
decisiones. Además con la aplicación de este sistema se puede obtener una mejora
significativa de alguna manera cuanto al ahorro de energía eléctrica.
El sistema a desarrollar ofrece una metodología novedosa y bien definida para la utilización de
técnicas de regresión en problemas de series de tiempo multivariadas.
VIABILIDAD DE LA INVESTIGACIÓN
Conjunto de datos históricos ofrecidos por la empresa CITMA a la Facultad de Mecánica para
el desarrollo de sus proyectos que constituye la base de casos sobre la cual se debe trabajar, así
como locales dotados con la técnica necesaria para la realización del trabajo.
ESTRUCTURA DE LA TESIS
La tesis cuenta con la siguiente estructura: luego de la Introducción, la tesis cuenta con tres
capítulos. En el primer capítulo se realiza un estudio del conjunto de datos inicial y sobre las
herramientas utilizadas en el trabajo posterior. En el segundo capítulo se realiza el
preprocesamiento de los datos y se analizan distintos modelos de regresión sobre las variables
para obtener el más óptimo. En el tercer y último capítulo se desarrolla una aplicación que
realice y muestre las predicciones de cada una de las variables. Finalmente se formulan las
conclusiones y recomendaciones y se relacionan las Referencias Bibliográficas.
5
CAPÍTULO 1. ESTUDIO DE DATOS Y HERRAMIENTAS
1.1 ENERGÍA EÓLICA
La energía eólica es la energía obtenida a partir del viento, es decir, la energía cinética
generada por efecto de las corrientes de aire, y que es convertida en otras formas útiles de
energía para las actividades humanas (El término eólico viene del latín Aeolicus, perteneciente
o relativo a Eolo, dios de los vientos en la mitología griega).(Antezana, 2004)
En la actualidad, la energía eólica es utilizada principalmente para producir electricidad
mediante aerogeneradores, conectados a las grandes redes de distribución de energía eléctrica.
Los parques eólicos construidos en tierra suponen una fuente de energía cada vez más barata,
competitiva o incluso más barata en muchas regiones que otras fuentes de energía
convencionales. Pequeñas instalaciones eólicas pueden, por ejemplo, proporcionar electricidad
en regiones remotas y aisladas que no tienen acceso a la red eléctrica, al igual que hace la
energía solar fotovoltaica. Las compañías eléctricas distribuidoras adquieren cada vez en
mayor medida el exceso de electricidad producido por pequeñas instalaciones eólicas
domésticas. El auge de la energía eólica ha provocado también la planificación y construcción
de parques eólicos marinos, situados cerca de las costas. La energía del viento es más estable y
fuerte en el mar que en tierra, y los parques eólicos marinos tienen un impacto visual menor,
pero los costes de construcción y mantenimiento de estos parques son considerablemente
mayores.(Moragues, 2003)
A finales de 2014, la capacidad mundial instalada de energía eólica ascendía a 370 gigavatios,
generando alrededor del 5% del consumo de electricidad mundial. Dinamarca genera más de
un 25 % de su electricidad mediante energía eólica, y más de 80 países en todo el mundo la
utilizan de forma creciente para proporcionar energía eléctrica en sus redes de distribución,
aumentando su capacidad anualmente con tasas por encima del 20 %. En España la energía
eólica produjo un 21,1 % del consumo eléctrico en 2013, convirtiéndose en la tecnología con
mayor contribución a la cobertura de la demanda, por encima incluso de la energía nuclear.
La energía eólica es un recurso abundante, renovable, limpio y ayuda a disminuir las
emisiones de gases de efecto invernadero al reemplazar fuentes de energía a base de
6
combustibles fósiles, lo que la convierte en un tipo de energía verde. El impacto ambiental de
este tipo de energía es además, generalmente, menos problemático que el de otras fuentes de
energía.
La energía del viento es bastante estable y predecible a escala anual, aunque presenta
significativas variaciones a escalas de tiempo menores. Al incrementarse la proporción de
energía eólica producida en una determinada región o país, se hace imprescindible establecer
una serie de mejoras en la red eléctrica local. Diversas técnicas de control energético, como
una mayor capacidad de almacenamiento de energía, una distribución geográfica amplia de los
aerogeneradores, la disponibilidad de fuentes de energía de respaldo, la posibilidad de exportar
o importar energía a regiones vecinas o la reducción de la demanda cuando la producción
eólica es menor, pueden ayudar a mitigar en gran medida estos problemas. Adicionalmente, la
predicción meteorológica permite a los gestores de la red eléctrica estar preparados frente a las
previsibles variaciones en la producción eólica que puedan tener lugar a corto
plazo.(Hernández, 2013, Zhou, 2012)
1.2 ESTADO DEL ARTE DE LA PREDICCIÓN EÓLICA
Existen dos aproximaciones básicas para la predicción de la energía eólica: los modelos físicos
y los modelos estadísticos.
Los modelos físicos tienen en cuenta consideraciones físicas para adaptar las predicciones de
viento en una zona a las condiciones concretas del emplazamiento del parque. Para hacer esta
adaptación se utilizan modelos de meso-escala o micro-escala que, partiendo de las
condiciones iniciales y de contorno obtenidas de un modelo atmosférico de mayor escala,
calculan la velocidad del viento incidente en las turbinas del parque para posteriormente
calcular la predicción de potencia por medio de la curva de potencia. (Dorronsoro, 2011)
Por otro lado, de entre los modelos estadísticos podemos encontrar la familia de las series
temporales, que solo utilizan valores pasados de las variables como datos de entrada del
modelo, y los que además de valores pasados utilizan como entradas los valores de predicción
meteorológica de modelos atmosféricos, relacionándolos con los valores de potencia histórica
u otros valores históricos medidos. (Blanco, 2012a, MARTÍN, 2010)
7
El modelo de predicción podría además ser una combinación de ambos, es decir, tener en
cuenta consideraciones físicas para estimar con detalle el viento en el emplazamiento de las
turbinas y usar modelos estadísticos avanzados que utilicen esta información localizada,
además de las medidas de potencia, para minimizar el error.(Blanco, 2012b)
Existen además un conjunto de modelos ya desarrollados con un enfoque moderno y
tecnológico que realizan predicciones sobre la energía eolica, aunque no constituyen líneas de
estudio fundamental en este trabajo.Ejemplos de estos tipos de modelos de predicción son los
siguientes:
-Modelo ARPS (Advanced Regional Prediction System).
-Modelo MASS (Mesoscale Atmospheric Simulation System).
-Modelo MM5 (Modelo de Mesoesscala de Quinta Generación).
-Modelo WRF (Weather Research and Forecasting Model).
-Fabricantes de software de previsión de viento. WindPRO y WASP: modelos de software de
predicción.
1.3 CONJUNTO DE DATOS INICIAL
Los datos brindados y necesarios se encontraban en una tabla en un documento Excel, llamado
Valores 2009-2013.xls, en la cual por fila se indicaba el tiempo (diario durante 5 años) y por
columna el nombre de la variable y en cada celda el valor de la variable para cada día,
constituyendo así el conjunto de datos una serie temporal, ya que constituyen una secuencia de
valores observados a lo largo del tiempo, y por tanto ordenados cronológicamente.(Blanco,
2012a, Ríos, 2008)
Las variables en cuestión son:
1. Dirección del viento máximo (DVM)
2. Viento Máximo (VMAX)
3. Temperatura Mínima (TMIN)
4. Temperatura Media (TMED)
5. Temperatura Máxima (TMAX)
8
6. Humedad Relativa Media (HRM)
7. Viento Medio (VMED)
1.3.1 DIRECCIÓN DEL VIENTO MÁXIMO
Se llama dirección del viento el punto del horizonte de donde viene o sopla. El instrumento
más antiguo para conocer la dirección de los vientos es la veleta que, con la ayuda de la rosa
de los vientos, define la procedencia de los vientos, es decir, la dirección desde donde soplan.
Para distinguir uno de otro se les aplica el nombre de los principales rumbos de la brújula. Los
cuatro puntos principales corresponden a los cardinales: Norte (N), Sur (S), Este (E) y Oeste
(W). Se consideran hasta 32 entre estos y los intermedios, aunque los primordiales y más
usados son los siguientes con su equivalencia en grados del azimuth(Gheorghe, 2009,
Moragues, 2003):
-NNE Norte Noreste 22,50º -NE Noreste 45,00º
-ENE Este Nordeste 67,50º -E Este 90,00º
-ESE Este Sudeste 112,50º -SE Sudeste 135,00º
-SSE Sur Sudeste 157,00º -S Sur 180,00º
-SSW Sur Sudoeste 202,50º -SW Sudoeste 225,00º
-WSW Oeste Sudeste 247,50º -W Oeste 270,00º
-WNW Oeste Noroeste 292,50º -NW Noroeste 315,00º
-NNW Norte Noroeste 337,50º -N Norte 360,00º
1.3.2 VIENTO MÁXIMO Y VIENTO MEDIO
El viento produce energía porque está siempre en movimiento. Se estima que la energía
contenida en los vientos es aproximadamente el 2% del total de la energía solar que alcanza la
tierra. El contenido energético del viento depende de su velocidad. Cerca del suelo, la
velocidad es baja, aumentando rápidamente con la altura. Cuanto más accidentada sea la
9
superficie del terreno, más frenará ésta al viento. Es por ello que sopla con menos velocidad en
las depresiones terrestres y más sobre las colinas. No obstante, el viento sopla con más fuerza
sobre el mar que en la tierra.(Antezana, 2004)
Otras fuerzas que mueven el viento o lo afectan son la fuerza de gradiente de presión, el efecto
Coriolis, las fuerzas de flotabilidad y de fricción y la configuración del relieve. Cuando entre
dos masas de aire adyacentes existe una diferencia de densidad, el aire tiende a fluir desde las
regiones de mayor presión a las de menor presión. En un planeta sometido a rotación, este
flujo de aire se verá influenciado, acelerado, elevado o transformado por el efecto de Coriolis
en cualquier parte de la superficie terrestre en la que nos encontremos. La creencia de que el
efecto de Coriolis no actúa en el ecuador es un error: lo que sucede es que los vientos van
disminuyendo de velocidad a medida que se acercan a la zona de convergencia intertropical y
esa disminución de velocidad queda automáticamente compensada por una ganancia en altura
del aire en toda la zona ecuatorial. A su vez, esa ganancia en altura da origen a la formación de
nubes de gran desarrollo vertical y a lluvias intensas y prolongadas, ampliamente repartidas en
la zona de convergencia intertropical, en especial en la zona ecuatorial. La fricción superficial
con el suelo genera irregularidades en estos principios afectando al régimen de vientos.(Roth,
2003)
1.3.3 TEMPERATURA MÁXIMA, MEDIA Y MÍNIMA
La temperatura es una magnitud referida a las nociones comunes de calor, frío, templado o
tibio, medible mediante un termómetro. En física, se define como una magnitud escalar
relacionada con la energía interna de un sistema termodinámico, definida por el principio cero
de la termodinámica. Más específicamente, está relacionada directamente con la parte de la
energía interna conocida como «energía cinética», que es la energía asociada a los
movimientos de las partículas del sistema, sea en un sentido traslacional, rotacional, o en
forma de vibraciones. A medida de que sea mayor la energía cinética de un sistema, se observa
que éste se encuentra más «caliente»; es decir, que su temperatura es mayor.(Yunus A, 2009)
Temperatura mínima: Se trata de la menor temperatura alcanzada en un lugar en un día, en
un mes o en un año y también la mínima absoluta alcanzada en los registros de temperaturas
de un lugar determinado. También en condiciones normales, las temperaturas mínimas diarias
10
se registran en horas del amanecer, las mínimas mensuales se obtienen en enero o febrero en el
hemisferio norte y en julio o agosto en el hemisferio sur. Y también las temperaturas mínimas
absolutas dependen de numerosos factores.(Hernández, 2013)
Temperatura media: Se trata de los promedios estadísticos obtenidos entre las temperaturas
máximas y mínimas. Con las temperaturas medias mensuales (promedio de las temperaturas
medias diarias a lo largo del mes) se obtiene un gráfico de las temperaturas medias de un lugar
para un año determinado. Y con estos mismos datos referidos a una sucesión de muchos años
(30 o más) se obtiene un promedio estadístico de la temperatura en dicho lugar. Estos últimos
datos, unidos al promedio de los montos pluviométricos (lluvias) mensuales de ese mismo
lugar ofrecen los datos necesarios para la elaboración de un gráfico climático (a veces
identificado como climograma) de dicho lugar. En el climograma empleado como ejemplo, la
temperatura mínima se produce en diciembre y la máxima en julio. El gráfico podría servir
como ejemplo de un clima templado mediterráneo.(Hernández, 2013)
Temperatura máxima: Es la mayor temperatura del aire alcanzada en un lugar en un día
(máxima diaria), en un mes (máxima mensual) o en un año (máxima anual). También puede
referirse a la temperatura máxima registrada en un lugar durante mucho tiempo (máxima
absoluta). En condiciones normales, y sin tener en cuenta otros elementos del clima, las
temperaturas máximas diarias se alcanzan en las primeras horas de la tarde; las máximas
mensuales suelen alcanzarse durante julio o agosto en la zona templada del hemisferio norte y
en enero o febrero en el hemisferio sur. Las máximas absolutas dependen de muchos factores,
sobre todo de la insolación, de la continentalidad, de la mayor o menor humedad, de los
vientos y de otros.(Hernández, 2013)
1.3.4 HUMEDAD RELATIVA MEDIA
La humedad relativa es el porcentaje de saturación de un volumen específico de aire a una
temperatura específica. La humedad relativa del aire depende de la temperatura y la presión
del volumen de aire analizado. Como la unidad de humedad relativa es por ciento, varía entre
0 (aire completamente seco) y 100% (aire saturado).
11
La cantidad de vapor de agua contenida en el aire, en cualquier momento determinado,
normalmente es menor que el necesario para saturar el aire. La humedad relativa es el
porcentaje de la humedad de saturación, que se calcula normalmente en relación con la
densidad de vapor de saturación.
O sea, la humedad relativa es la cantidad de humedad en el aire, comparado con la que el aire
puede "mantener" a esa temperatura. Cuando el aire no puede "mantener" toda la humedad,
entonces se condensa como rocío.(Cruz, 2008, Meruane, 2006)
1.4 SERIES DE TIEMPO
Se llama Series de Tiempo a un conjunto de observaciones sobre valores que toma una
variable (cuantitativa) en diferentes momentos del tiempo. Los datos se pueden comportar de
diferentes formas a través del tiempo, puede que se presente una tendencia, un ciclo; no tener
una forma definida o aleatoria, variaciones estacionales (anual, semestral, etc.). Las
observaciones de una serie de tiempo serán denotadas por Y1; Y2,..., YT, donde Yt es el valor
tomado por el proceso en el instante t.
Los modelos de series de tiempo tienen un enfoque netamente predictivo y en ellos los
pronósticos se elaborarán sólo con base al comportamiento pasado de la variable de
interés.(Ríos, 2008)
El conjunto de datos constituye una serie de tiempo, pues es una secuencia de observaciones,
medido en determinados momentos del tiempo, ordenado cronológicamente y, espaciado entre
sí de manera uniforme, así los datos usualmente son dependientes entre sí. Existen diferentes
formas de trabajar con series de tiempo, con el objetivo principal de realizar pronósticos,
normalmente para analizarlas se utilizan los modelos AR (Autoregresivos), MA (Medias
Móviles), ARMA (Autoregresivo de Medias Móviles) y ARIMA (Autoregresivo Integrado y
de Media Móvil). Otra forma de trabajar con series temporales es haciendo uso de Redes
Neuronales Recurrentes, también a través de los modelos KNN (K-Nearest Neighbor), entre
otras vías. (Villavicencio, 2011, Ríos, 2008, Mauricio, 2007, Molinero, 2004, Molinero, 2002)
12
1.4.1 APLICACIONES DE LAS SERIES DE TIEMPO
Hoy en día diversas organizaciones requieren conocer el comportamiento futuro de ciertos
fenómenos con el fin de planificar, prevenir, es decir, se utilizan para predecir lo que ocurrirá
con una variable en el futuro a partir del comportamiento de esa variable en el pasado. En las
organizaciones es de mucha utilidad en predicciones a corto y mediano plazo, por ejemplo ver
qué ocurriría con la demanda de un cierto producto, las ventas a futuro, decisiones sobre
inventario, insumos, etc.
Algunas de las áreas de aplicación de Series de Tiempo son :
_ Economía: Precios de un artículo, tasas de desempleo, tasa de inflación, índice de precios,
precio del dólar, precio del cobre, precios de acciones, ingreso nacional bruto, etc.
_ Meteorología: Cantidad de agua caída, temperatura máxima diaria, Velocidad del viento
(energía eólica), energía solar, etc.
_ Geofísica: Series sismológicas.
_ Química: Viscosidad de un proceso, temperatura de un proceso.
_ Demografía: Tasas de natalidad, tasas de mortalidad.
_ Medicina: Electrocardiograma, electroencefalograma.
_ Marketing: Series de demanda, gastos, utilidades, ventas, ofertas.
_ Telecomunicaciones: Análisis de señales.
_ Transporte: Series de tráfico.
1.5 MÉTODO DE TRABAJO
A pesar de que el conjunto de datos de partida constituye una serie temporal no se trabaja
sobre esta como tal, sino que se realizan transformaciones sobre los datos para poder aplicar
sobre estos distintos modelos de regresión, o sea, se forman varios conjuntos de datos
convencionales a partir de la serie de tiempo, específicamente uno para cada variable
existente. Para realizar esta operación se implementa un código sobre el lenguaje de
programación java utilizando la herramienta NetBeans IDE (versión 7.1.2). Una vez
13
conformados los nuevos datos se utiliza la herramienta WEKA para generar los distintos
modelos de regresión sobre cada conjunto formado y se realiza una evaluación de los modelos
para seleccionar el más óptimo para cada variable, atendiendo principalmente al resultado del
coeficiente de correlación obtenido para cada modelo generado. Una vez determinados los
mejores modelos para cada variable se desarrolla una aplicación como mecanismo de
obtención de las predicciones de cada variable diariamente según la cantidad de días deseada.
1.6 WEKA
Weka (Waikato Environment for Knowledge Analysis - Entorno para Análisis del
Conocimiento de la Universidad de Waikato) es una plataforma de software para aprendizaje
automático y minería de datos escrito en Java y desarrollado en la Universidad de Waikato. El
paquete Weka contiene una colección de herramientas de visualización y algoritmos para
análisis de datos y modelado predictivo, unidos a una interfaz gráfica de usuario para acceder
fácilmente a sus funcionalidades. Weka soporta varias tareas estándar de minería de datos,
especialmente, preprocesamiento de datos, clustering, clasificación, regresión, visualización, y
selección. Todas las técnicas de Weka se fundamentan en la asunción de que los datos están
disponibles en un fichero plano (flat file) o una relación, en la que cada registro de datos está
descrito por un número fijo de atributos (normalmente numéricos o nominales, aunque
también se soportan otros tipos). (Abernethy, 2010, Aler, 2009, Witten, 2000)
1.6.1 LA INTERFAZ DE USUARIO
La primera pantalla de Weka muestra una serie de opciones en su parte superior. La más
importante es Applications, donde se pueden ver las distintas subherramientas de Weka. Las
más importantes son Explorer (para explorar los datos) y Experimenter (para realizar
experimentos que comparen estadísticamente distintos algoritmos en distintos conjuntos de
datos, de manera automatizada).(Bouckaert, 2013, Aler, 2009)
14
Figura 1 ventana Inicial de WEKA
SIMPLE CLI
Simple CLI es la abreviatura de Simple Command-Line Interface (Interfaz Simple de Línea de
Comandos); se trata de una consola que permite acceder a todas las opciones de Weka desde
línea de comandos.(Bouckaert, 2013, Aler, 2009)
EXPERIMENTER
La interfaz Experimenter (Experimentador) permite la comparación sistemática de una
ejecución de los algoritmos predictivos de Weka sobre una colección de conjuntos de
datos.(Bouckaert, 2013, Aler, 2009)
KNOWLEDGE FLOW
Knowledge Flow (Flujo de Conocimiento) es una interfaz que soporta esencialmente las
mismas funciones que el Explorer pero con una interfaz que permite "arrastrar y soltar". Una
ventaja es que ofrece soporte para el aprendizaje incremental.(Bouckaert, 2013, Aler, 2009)
15
EXPLORER
De todas estas funcionalidades que contiene la herramienta WEKA en este trabajo se utiliza
principalmente el Explorer.
La interfaz Explorer (Explorador) dispone de varios paneles que dan acceso a los componentes
principales del banco de trabajo:
- El panel "Preprocess" dispone de opciones para importar datos de una base de datos, de un
fichero CSV, etc., y para preprocesar estos datos utilizando los denominados algoritmos de
filtrado. Estos filtros se pueden utilizar para transformar los datos (por ejemplo convirtiendo
datos numéricos en valores discretos) y para eliminar registros o atributos según ciertos
criterios previamente especificados.
- El panel "Classify" permite al usuario aplicar algoritmos de clasificación estadística y
análisis de regresión (denominados todos clasificadores en Weka) a los conjuntos de datos
resultantes, para estimar la exactitud del modelo predictivo resultante, y para visualizar
predicciones erróneas, curvas ROC, etc., o el propio modelo (si este es susceptible de ser
visualizado, como por ejemplo un árbol de decisión).
-El panel "Associate" proporciona acceso a las reglas de asociación aprendidas que intentan
identificar todas las interrelaciones importantes entre los atributos de los datos.
-El panel "Cluster" da acceso a las técnicas de clustering o agrupamiento de Weka como por
ejemplo el algoritmo K-means. Este es sólo una implementación del algoritmo expectación-
maximización para aprender una mezcla de distribuciones normales.
-El panel "Selected attributes" proporciona algoritmos para identificar los atributos más
predictivos en un conjunto de datos.
-El panel "Visualize" muestra una matriz de puntos dispersos (Scatterplot) donde cada punto
individual puede seleccionarse y agrandarse para ser analizados en detalle usando varios
operadores de selección.(Bouckaert, 2013, Aler, 2009)
16
Figura 2 WEKA Explorer
Weka garantiza varias ventajas:
Está disponible libremente bajo la licencia pública general de GNU.
Es muy portable porque está completamente implementado en Java y puede correr en
casi cualquier plataforma.
Contiene una extensa colección de técnicas para preprocesamiento de datos y
modelado.
Es fácil de utilizar por un principiante gracias a su interfaz gráfica de usuario.
La principal carencia es que hay un área importante que actualmente no cubren los
algoritmos incluidos en Weka y es el modelado de secuencias.(Bouckaert, 2013,
Abernethy, 2010)
17
1.7 VISUAL PARADIGM
Para la realización de la ingeniería de software de la aplicación a través de los diagramas UML
se utilizó la herramienta Visual Paradigm versión 9.0, mediante la cual se logran desarrollar
los siguientes diagramas:
-Diagrama de Clases
-Diagrama de Casos de Uso
-Diagrama de Actividad
Visual Paradigm for UML es una herramienta CASE que soporta el modelado mediante UML
y proporciona asistencia a los analistas, ingenieros de software y desarrolladores, durante
todos los pasos del Ciclo de Vida de desarrollo de un Software.(Norvell, 2010)
Las ventajas que proporciona Visual Paradigm for UML son:
- Dibujo. Facilita el modelado de UML, ya que proporciona herramientas específicas para ello.
Esto también permite la estandarización de la documentación, ya que la misma se ajusta al
estándar soportado por la herramienta.
-Corrección sintáctica. Controla que el modelado con UML sea correcto.
-Coherencia entre diagramas. Al disponer de un repositorio común, es posible visualizar el
mismo elemento en varios diagramas, evitando duplicidades.
-Integración con otras aplicaciones. Permite integrarse con otras aplicaciones, como
herramientas ofimáticas, lo cual aumenta la productividad.
-Trabajo multiusuario. Permite el trabajo en grupo, proporcionando herramientas de
compartición de trabajo.
-Reutilización. Facilita la reutilización, ya que disponemos de una herramienta centralizada
donde se encuentran los modelos utilizados para otros proyectos.
-Generación de código. Permite generar código de forma automática, reduciendo los tiempos
de desarrollo y evitando errores en la codificación del software.
18
-Generación de informes. Permite generar diversos informes a partir de la información
introducida en la herramienta.(Norvell, 2010)
Conclusiones
En este capítulo se realizó un estudio teórico referente a los conceptos relacionados con la
energía eolica y se explicaron un conjunto de parámetros o variables determinadas que la
conforman, se explicó además la novedosa metodología de trabajo tomada a partir de los
estudios realizados sobre las series temporales. Se desarrolló también una investigación
orientada a destacar y explicar las diferentes herramientas utilizadas para el desarrollo del
trabajo y sus funcionalidades.
19
CAPÍTULO 2. TRANSFORMACIÓN DE DATOS Y MODELOS DE
REGRESIÓN
2.1 CONFORMANDO LOS CASOS DE ESTUDIO
Con el objetivo de alcanzar mejores resultados de los modelos de regresión se conforman
distintos casos de estudio para determinar con cual subconjunto de datos se obtienen mejores
resultados de los modelos para cada una de las variables. Por lo que partir del conjunto de
datos inicial se obtienen nuevos subconjuntos:
a. Todo el conjunto de datos inicial.
b. Comenzando desde el año inicial (2009) se van agregando años hasta obtener
todo el conjunto de datos (2009-2013).
c. Para cada estación del año se obtiene un nuevo subconjunto de datos donde
influyen todos los años.
2.2 PREPROCESAMIENTO DE DATOS
Para la transformación de los datos es necesario conocer la dependencia entre las variables,
con el objetivo de determinar cuáles son las variables predictoras o independientes y las
variables dependientes. También es necesario conocer un tamaño de ventana (la cantidad de
días pasados necesarios para la predicción).
Como resultado de un análisis realizado por parte del especialista o experto en el tema se
determinó un tamaño de ventana de 5 días.
2.2.1 DEPENDENCIA ENTRE LAS VARIABLES
El análisis de la dependencia entre las variables fue realizado por parte del experto en este
tema y se obtuvieron los siguientes resultados:
20
Variables Dependientes Variable predictora #1 Variable predictora #2 Variable predictora #3
Dirección del Viento Máximo (DVM) TMED DVM -
Temperatura Media (TMED) TMAX TMIN TMED
Viento Máximo (VMAX) TMED HRM VMAX
Viento Medio (VMED) VMAX VMED -
Humedad Relativa (HRM) HRM - -
Temperatura Mínima (TMIN) TMIN - -
Temperatura Máxima (TMAX) TMAX - -
Tabla 1 Dependencia entre variables
2.2.2 TRANSFORMACIONES DE DATOS
Una vez conocido las dependencias entre las variables y el tamaño de ventana se procede a
transformar los datos iniciales de manera tal que puedan ser procesados por los modelos de
regresión contenidos en la herramienta WEKA.
La transformación consiste en tomar 5 días pasados (tamaño de ventana) de cada una de las
variables predictoras según el análisis de dependencia realizado anteriormente y colocar todos
esos datos en una fila, donde la variable objetivo estará localizada en la última columna de
cada fila y para predecirla se utilizan todos los datos de esa fila, por ejemplo, la variable
Dirección del Viento Máximo depende directamente de la variable Temperatura Media, por lo
que una fila del nuevo conjunto de datos tendría la estructura siguiente:
TMED_DIA1 TMED_DIA2 TMED_DIA3 TMED_DIA4 TMED_DIA5 DVM_DIA1 DVM_DIA2 DVM_DIA3 DVM_DIA4 DVM_DIA5 Var
OBJ
Tabla 2 Nueva estructura de datos
21
Así se continúa formando filas hasta que se disponga de todos los datos con el nuevo formato,
donde la variable VarOBJ (variable objetivo) constituye la Dirección del Viento Máximo del
día siguiente (día 6).
2.2.3 CÓDIGO PARA TRANSFORMAR LOS DATOS
Para realizar la transformación inicial de datos explicada anteriormente se implementa un
código utilizando el lenguaje de programación java y la herramienta NetBeans IDE versión
7.1.2.
Para la implementación del código se necesita realizar trabajos sobre un documento Excel,
principalmente las operaciones de lectura y escritura, por lo que es necesario de importar
bibliotecas que permitan y faciliten estas operaciones.
Se importa la siguiente biblioteca:
i. jxl.jar: Para realizar todo el trabajo realizado con los documentos Excel
de entrada y salida, así como las operaciones de lectura y escritura sobre
los mismos.(D, 2010)
2.2.4 ESTRUCTURA DEL CÓDIGO
Se crea la clase SplitData en la cual se implementa el método runprocess, el cual acepta como
parámetros de entrada los siguientes:
1. int [] columnas_independientes: Identificadores (números) de las
columnas donde se encuentran las variables predictoras o
independientes.
2. int columna: Identificador (número) de la columna donde se
encuentran la variable objetivo o dependiente.
3. int ventana: Tamaño de ventana (en este caso 5 días).
22
4. String urlEntrada: URL del fichero Excel de lectura.
5. String urlSalida: URL del fichero CSV de escritura.
Este método crea un nuevo fichero CSV para cada una de las variables objetivo con el formato
explicado anteriormente.
2.3 MODELOS DE REGRESIÓN EN WEKA
La herramienta WEKA proporciona y facilita la generación y el uso de varios modelos de
regresión. Para evaluar la calidad de los modelos de regresión generados se atiende
principalmente al coeficiente de correlación obtenido tras generar cada modelo, En
probabilidad y estadística, la correlación indica la fuerza y la dirección de una relación lineal y
proporcionalidad entre dos variables estadísticas. Se considera que dos variables cuantitativas
están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto
a los valores homónimos de la otra: si tenemos dos variables (A y B) existe correlación si al
aumentar los valores de A lo hacen también los de B y viceversa. La correlación entre dos
variables no implica, por sí misma, ninguna relación de causalidad.(Tusell, 2011, Novak,
2009, Gambhir, 2006, Molinero, 2002)
Para solucionar nuestra problemática se utilizaron los siguientes modelos de dicha
herramienta:
Paquete Functions:
1. GaussianProcesses
En teoría de la probabilidad y estadísticas, los procesos de Gauss son una familia de procesos
estocásticos. En un proceso Gaussiano, cada punto en un cierto espacio de entrada está
asociado con una distribución normal variable aleatoria. Además, cada conjunto finito de esas
variables aleatorias tiene una distribución normal multivariante. La distribución de un proceso
Gaussiano es la distribución conjunta de todos esos (infinitamente muchos) variables
aleatorias, y como tal, es una distribución de las funciones.
23
El concepto de procesos Gaussianos lleva el nombre de Carl Friedrich Gauss, ya que se basa
en la noción de la normal de la distribución que a menudo se llama la distribución de Gauss.
De hecho, los procesos de Gauss pueden ser vistos como una generalización de dimensión
infinita de distribuciones normales multivariantes.
Los procesos Gaussianos son importantes en la modelización estadística debido a las
propiedades heredadas de la normal. Por ejemplo, si un proceso aleatorio se modela como un
proceso Gaussiano, las distribuciones de diversas magnitudes derivadas se pueden obtener de
forma explícita. Tales cantidades incluyen el valor medio del proceso en un rango de tiempos
y el error en la estimación de la media usando valores de muestras en un conjunto pequeño de
veces.
Un proceso de Gauss es un proceso estocástico X t, t ∈ T, para la que cualquier finito
combinación lineal de las muestras tiene una distribución gaussiana conjunta. Más
exactamente, cualquier lineal funcional aplicada a la función de ejemplo X t dará resultado
una distribución normal. -Notación sabio, uno puede escribir X ~ GP (m, K), es decir, la
función aleatoria X se distribuye como un GP con la función de media m y la función de
covarianza K. Cuando el vector de entrada t es de dos o multidimensional, un proceso
Gaussiano podría también conocido como un campo aleatorio gaussiano.(Rasmussen, 2010,
Ebden, 2008, Rasmussen, 2006)
2. LinearRegression
En estadística la regresión lineal o ajuste lineal es un método matemático que modela la
relación entre una variable dependiente Y, las variables independientes Xi y un término
aleatorio ε. Este modelo puede ser expresado como:
: Variable dependiente, explicada o regresando.
: Variables explicativas, independientes o regresores.
24
: Parámetros, miden la influencia que las variables explicativas tienen
sobre el regresando.
Donde es la intersección o término "constante", las son los parámetros
respectivos a cada variable independiente, y es el número de parámetros independientes
a tener en cuenta en la regresión. La regresión lineal puede ser contrastada con la regresión
no lineal.(Hoffmann, 2010, Torres-Reyna, 2007, Rodríguez, 2007)
4. MultilayerPerceptron
El perceptrón multicapa es una red neuronal artificial (RNA) formada por múltiples capas,
esto le permite resolver problemas que no son linealmente separables, lo cual es la principal
limitación del perceptrón (también llamado perceptrón simple). El perceptrón multicapa puede
ser totalmente o localmente conectado. En el primer caso cada salida de una neurona de la
capa "i" es entrada de todas las neuronas de la capa "i+1", mientras que en el segundo cada
neurona de la capa "i" es entrada de una serie de neuronas (región) de la capa "i+1".
Las capas pueden clasificarse en tres tipos:
Capa de entrada: Constituida por aquellas neuronas que introducen los patrones de
entrada en la red. En estas neuronas no se produce procesamiento.
Capas ocultas: Formada por aquellas neuronas cuyas entradas provienen de capas
anteriores y cuyas salidas pasan a neuronas de capas posteriores.
Capa de salida: Neuronas cuyos valores de salida se corresponden con las salidas de
toda la red.
Limitaciones:
El Perceptrón Multicapa no extrapola bien, es decir, si la red se entrena mal o de
manera insuficiente, las salidas pueden ser imprecisas.
La existencia de mínimos locales en la función de error dificulta considerablemente el
entrenamiento, pues una vez alcanzado un mínimo el entrenamiento se detiene aunque
no se haya alcanzado la tasa de convergencia fijada.
25
Cuando caemos en un mínimo local sin satisfacer el porcentaje de error permitido se
puede considerar: cambiar la topología de la red (número de capas y número de
neuronas), comenzar el entrenamiento con unos pesos iniciales diferentes, modificar
los parámetros de aprendizaje, modificar el conjunto de entrenamiento o presentar los
patrones en otro orden. Aplicaciones:
El perceptrón multicapa se utiliza para resolver problemas de asociación de patrones,
segmentación de imágenes, compresión de datos, etc.(Novak, 2009, Witten, 2000)
5. SMOreg
SMOreg implementa las máquinas de soporte vectorial para la regresión (SVM). Las
máquinas de soporte vectorial o máquinas de vectores de soporte (Support Vector Machines,
SVMs) son un conjunto de algoritmos de aprendizaje supervisado desarrollados por Vladimir
Vapnik y su equipo en los laboratorios AT&T.
Estos métodos están propiamente relacionados con problemas de clasificación y regresión.
Dado un conjunto de ejemplos de entrenamiento (de muestras) podemos etiquetar las clases y
entrenar una SVM para construir un modelo que prediga la clase de una nueva muestra.
Intuitivamente, una SVM es un modelo que representa a los puntos de muestra en el espacio,
separando las clases por un espacio lo más amplio posible. Cuando las nuevas muestras se
ponen en correspondencia con dicho modelo, en función de su proximidad pueden ser
clasificadas a una u otra clase.
Más formalmente, una SVM construye un hiperplano o conjunto de hiperplanos en un espacio
de dimensionalidad muy alta (o incluso infinita) que puede ser utilizado en problemas de
clasificación o regresión. Una buena separación entre las clases permitirá una clasificación
correcta.
La idea básica es que dado un conjunto de puntos, subconjunto de un conjunto mayor
(espacio), en el que cada uno de ellos pertenece a una de dos posibles categorías, un algoritmo
basado en SVM construye un modelo capaz de predecir si un punto nuevo (cuya categoría
desconocemos) pertenece a una categoría o a la otra.(Witten, 2013, Aler, 2009, Witten, 2000,
Castro, 2013)
26
Paquete Lazy:
6. IBK (K=1 y K=3)
Este algoritmo está basado en instancias, por ello consiste únicamente en almacenar los datos
presentados. Cuando una nueva instancia es encontrada, un conjunto de instancias similares
relacionadas es devuelto desde la memoria y usado para clasificar la instancia consultada.
Se trata, por tanto, de un algoritmo del método lazy learning. Este método de aprendizaje se
basa en que los módulos de clasificación mantienen en memoria una selección de ejemplos sin
crear ningún tipo de abstracción en forma de reglas o de árboles de decisión (de ahí su
nombre, lazy, perezosos). Cada vez que una nueva instancia es encontrada, se calcula su
relación con los ejemplos previamente guardados con el propósito de asignar un valor de la
función objetivo para la nueva instancia.
La idea básica sobre la que se fundamenta este algoritmo es que un nuevo caso se va a
clasificar en la clase más frecuente a la que pertenecen sus K vecinos más cercanos. De ahí
que sea también conocido como método K-NN: K Nearest Neighbours. El algoritmo K-NN en
WEKA se conoce como IBK.
Este algoritmo es de la familia de algoritmos incluidos en “lazy learning”. Este algoritmo se
basa en instancias, por lo que únicamente almacena los datos presentados. Cuando al
ejecutarlo se encuentra una nueva instancia, se devuelve desde memoria el conjunto de
instancias similares relacionadas y usado para clasificar la instancia en concreto. Cada vez que
se encuentra una nueva instancia, el algoritmo calcula su relación con el resto de ejemplos
almacenados previamente con el fin de asignar un valor de la función objetivo para esta
instancia encontrada.
El concepto principal que fundamenta este algoritmo, es que cada instancia encontrada se va a
clasificar en la clase más frecuente a la que pertenezcan sus K vecinos más cercanos. Es por
esto que este algoritmo también es conocido como el método K-NN. K Nearest
Neighbours.(Witten, 2013, Novak, 2009, Aler, 2009)
27
7. Kstar
K * es un clasificador basado en instancia, que es la clase de una instancia de prueba, se basa
en la clase de esas instancias de capacitación similares a la misma, según lo determinado por
una función de similitud.
Se diferencia de otros aprendizajes basados en instancia en que utiliza una función de la
distancia basada en la entropía.(Novak, 2009, Witten, 2000)
8. LWL
LWL (Locally Weighted Learning) o aprendizaje localmente ponderado. Utiliza un algoritmo
basado en instancia para asignar pesos de instancia que luego son utilizados por un
WeightedInstancesHandler especificado. Puede hacer la clasificación (por ejemplo, el uso de
naive Bayes) o regresión (por ejemplo, mediante regresión lineal).(Witten, 2013, Witten,
2000)
28
2.4 RESULTADOS DE LOS MODELOS DE REGRESIÓN
2.4.1 PRIMER ESTUDIO
Todo el conjunto de datos original (2009-2013):
DVM HRM TMAX TMED TMIN VMAX VMED
GausseanProcess 0.273 0.3898 0.4156 0.625 0.4309 0.505 0.6903
LinearRegression 0.282 0.7354 0.8296 0.914 0.8995 0.542 0.7339
MultilayerPerceptron 0.14 0.6395 0.7818 0.884 0.8959 0.495 0.6466
SMOreg 0.29 0.7358 0.8296 0.914 0.8992 0.54 0.734
IBK_1Vecino 0.156 0.5482 0.6832 0.813 0.8014 0.237 0.5351
IBK_3Vecinos 0.206 0.657 0.7769 0.871 0.8663 0.375 0.6513
Kstar 0.171 0.7084 0.7817 0.85 0.8679 0.319 0.5595
LWL 0.308 0.6543 0.7303 0.796 0.7977 0.4519 0.5952
Tabla 3 Resultados del Primer Estudio
Análisis parcial de los resultados:
Se obtienen resultados satisfactorios para casi todas las variables excepto VMAX con
resultados regulares y DVM con malos resultados.
Se observa claramente que los mejores resultados para las variables objetivo HRM,
TMAX, TMED, TMIN, VMAX y VMED se obtienen con los modelos SMOreg y
LinearRegression.
Para la variable DVM el modelo óptimo es LWL.
29
2.4.2 SEGUNDO ESTUDIO
Añadiendo años (2009):
DVM HRM TMAX TMED TMIN VMAX VMED
GausseanProcess 0.2352 0.3379 0.4502 0.4922 0.4547 0.5949 0.6829
LinearRegression 0.271 0.667 0.8322 0.9145 0.8932 0.5919 0.7567
MultilayerPerceptron 0.2422 0.4857 0.7889 0.8662 0.8716 0.3645 0.5953
SMOreg 0.1777 0.6589 0.8339 0.9168 0.8925 0.5775 0.7482
IBK_1Vecino 0.2285 0.4311 0.6852 0.818 0.7906 0.4378 0.6576
IBK_3Vecinos 0.2942 0.5588 0.7646 0.8684 0.8589 0.5259 0.6789
Kstar 0.1676 0.5984 0.7555 0.812 0.8474 0.4864 0.662
LWL 0.3695 0.5776 0.7547 0.7978 0.7749 0.5381 0.6413
Tabla 4 Resultado del segundo estudio (2009)
Análisis parcial de los resultados:
Se obtienen muy buenos resultados para casi todas las variables excepto VMAX con
resultados regulares y DVM con malos resultados.
Se observa claramente que los mejores resultados para las variables objetivo HRM,
TMIN y VMED se obtienen para este conjunto de datos con el modelo
LinearRegression.
Para las variables TMAX y TMED el mejor resultado lo proporciona el modelo
SMOreg para este conjunto de datos.
Para la variable VMAX el mejor resultado lo proporciona el modelo
GaussianProcesses para este conjunto de datos.
Para la variable DVM el mejor resultado lo proporciona el modelo LWL para este
conjunto de datos.
Se evidencia que no existen mejoras significativas con respecto a los resultados obtenidos con
el primer estudio realizado (Conjunto de datos inicial 2009-2013).
30
Añadiendo años (2009-2010):
DVM HRM TMAX TMED TMIN VMAX VMED
GausseanProcess 0.2765 0.3771 0.4308 0.6713 0.5013 0.5704 0.6468
LinearRegression 0.2923 0.6852 0.8378 0.9245 0.9139 0.5879 0.6961
MultilayerPerceptron 0.1072 0.6145 0.8148 0.8909 0.8747 0.3885 0.5819
SMOreg 0.2707 0.6872 0.8368 0.9245 0.9144 0.5898 0.7056
IBK_1Vecino 0.2043 0.4938 0.7354 0.8393 0.8337 0.2871 0.522
IBK_3Vecinos 0.2261 0.5975 0.8081 0.8888 0.8889 0.4401 0.6126
Kstar 0.1614 0.6286 0.8075 0.8665 0.8805 0.4205 0.4995
LWL 0.3212 0.6168 0.7591 0.8226 0.8162 0.5173 0.581
Tabla 5 Resultado del segundo estudio (2009-2010)
Análisis parcial de los resultados:
Se obtienen muy buenos resultados para casi todas las variables excepto VMAX con
resultados regulares y DVM con resultados insatisfactorios.
Se observa claramente que los mejores resultados para las variables objetivo TMAX y
TMED se obtienen para este conjunto de datos con el modelo LinearRegression.
Para las variables HRM, TMIN, VMAX y VMED el mejor resultado lo proporciona el
modelo SMOreg para este conjunto de datos.
El modelo LWL resulta el óptimo para la predicción de la variable DVM.
Se evidencia que no existen mejoras significativas con respecto a los resultados obtenidos con
el primer estudio realizado (Conjunto de datos inicial 2009-2013).
31
Añadiendo años (2009-2011):
DVM HRM TMAX TMED TMIN VMAX VMED
GausseanProcess 0.2618 0.3808 0.4282 0.6509 0.4401 0.5201 0.6807
LinearRegression 0.2788 0.7323 0.8406 0.921 0.9083 0.5558 0.7326
MultilayerPerceptron 0.089 0.6936 0.7663 0.895 0.8858 0.3973 0.6456
SMOreg 0.2826 0.7364 0.8404 0.9213 0.9078 0.5561 0.7342
IBK_1Vecino 0.2244 0.5628 0.7054 0.8294 0.8103 0.2245 0.5753
IBK_3Vecinos 0.2531 0.6705 0.7897 0.8887 0.873 0.3906 0.675
Kstar 0.1625 0.7032 0.7937 0.8543 0.8708 0.333 0.5827
LWL 0.3095 0.6455 0.7554 0.818 0.8093 0.4485 0.6189
Tabla 6 Resultado del segundo estudio (2009-2011)
Análisis parcial de los resultados:
Se obtienen satisfactorios resultados para casi todas las variables excepto VMAX con
resultados regulares y DVM con resultados insatisfactorios.
Se observa claramente que los mejores resultados para las variables objetivo TMAX y
TMIN se obtienen para este conjunto de datos con el modelo LinearRegression.
Para las variables HRM, TMED, VMAX y VMED el mejor resultado lo proporciona
el modelo SMOreg para este conjunto de datos.
El modelo LWL resulta el óptimo para la predicción de la variable DVM.
Se evidencia que no existen mejoras significativas con respecto a los resultados obtenidos con
el primer estudio realizado (Conjunto de datos inicial 2009-2013).
32
Añadiendo años (2009-2012):
DVM HRM TMAX TMED TMIN VMAX VMED
GausseanProcess 0.261 0.394 0.4142 0.6361 0.426 0.499 0.6934
LinearRegression 0.2784 0.7286 0.8366 0.9184 0.9041 0.5479 0.7374
MultilayerPerceptron 0.0714 0.6947 0.7822 0.8794 0.8805 0.446 0.6526
SMOreg 0.2879 0.7288 0.8365 0.9177 0.9037 0.5487 0.7374
IBK_1Vecino 0.1689 0.5434 0.6892 0.8164 0.8135 0.2541 0.535
IBK_3Vecinos 0.1885 0.6573 0.7886 0.8773 0.8681 0.377 0.6481
Kstar 0.1565 0.6896 0.7891 0.8466 0.8687 0.3013 0.5693
LWL 0.294 0.6499 0.7385 0.8006 0.806 0.4593 0.6032
Tabla 7 Resultado del segundo estudio (2009-2012)
Análisis parcial de los resultados:
Se obtienen muy buenos resultados para casi todas las variables excepto VMAX con
resultados regulares y DVM con resultados insatisfactorios.
Se evidencia que los mejores resultados para las variables objetivo TMAX, TMED,
TMIN y VMED se obtienen para este conjunto de datos con el modelo
LinearRegression.
Se observa claramente que los mejores resultados para las variables objetivo HRM y
VMAX se obtienen para este conjunto de datos con el modelo SMOreg.
Para la variable objetivo DVM el resultado óptimo se obtiene con el modelo LWL.
Se evidencia que no existen mejoras significativas con respecto a los resultados obtenidos con
el primer estudio realizado (Conjunto de datos inicial 2009-2013).
33
2.4.3 TERCER ESTUDIO
Estaciones:
Invierno:
DVM HRM TMAX TMED TMIN VMAX VMED
GausseanProcess 0.2534 0.3065 0.4631 0.6471 0.501 0.5048 0.5393
LinearRegression 0.2557 0.5334 0.6425 0.8046 0.7823 0.5687 0.6062
MultilayerPerceptron 0.1382 0.4341 0.5026 0.6728 0.7243 0.3294 0.4695
SMOreg 0.0874 0.5334 0.6464 0.8078 0.7764 0.5677 0.613
IBK_1Vecino 0.2465 0.3352 0.4045 0.5509 0.5832 0.3547 0.4477
IBK_3Vecinos 0.2298 0.3942 0.5014 0.7105 0.6852 0.4726 0.5182
Kstar 0.1283 0.3723 0.4988 0.6184 0.6297 0.2983 0.3986
LWL 0.3159 0.4245 0.5656 0.6868 0.6849 0.4602 0.5025
Tabla 8 Resultado del tercer estudio (Invierno)
Análisis parcial de los resultados:
Se obtienen satisfactorios resultados para casi todas las variables excepto para DVM con
resultados insatisfactorios y VMAX con resultados regulares.
Se evidencia que los mejores resultados para las variables objetivo TMIN y VMAX se
obtienen para este conjunto de datos con el modelo LinearRegression.
Para las variables HRM, TMAX, TMED y VMED se evidencia que el mejor resultado
se obtiene con el modelo SMOreg.
Para la variable DVM se muestra que el mejor resultado se obtiene para este conjunto
de datos con el modelo LWL.
Se evidencia que no existen mejoras significativas con respecto a los resultados obtenidos con
el primer estudio realizado (Conjunto de datos inicial 2009-2013).
34
Primavera:
DVM HRM TMAX TMED TMIN VMAX VMED
GausseanProcess 0.1818 0.4738 0.4841 0.5876 0.5114 0.2234 0.6415
LinearRegression 0.2027 0.7005 0.7671 0.853 0.8298 0.2281 0.6467
MultilayerPerceptron 0.0748 0.5772 0.6643 0.7922 0.7661 0.0787 0.4346
SMOreg 0.2269 0.7068 0.7703 0.8593 0.8257 0.2602 0.6457
IBK_1Vecino 0.039 0.4467 0.6343 0.6765 0.622 0.0897 0.4409
IBK_3Vecinos 0.0975 0.6043 0.6815 0.7601 0.7436 0.1806 0.5207
Kstar 0.0665 0.604 0.6348 0.687 0.729 0.1976 0.3944
LWL 0.2697 0.6658 0.6574 0.7401 0.6886 0.2926 0.537
Tabla 9 Resultado del tercer estudio (Primavera)
Análisis parcial de los resultados:
Se obtienen satisfactorios resultados para casi todas las variables excepto para DVM y
VMAX, con las cuales se obtienen malos resultados.
Se evidencia que los mejores resultados para las variables objetivo TMIN y VMED se
obtienen para este conjunto de datos con el modelo LinearRegression.
Para las variables HRM, TMAX y TMED se evidencia que los mejores resultados se
obtiene con el modelo SMOreg.
Para la variable VMAX y DVM se muestra que el mejor resultado se obtiene para este
conjunto de datos con el modelo LWL.
Se evidencia que no existen mejoras significativas con respecto a los resultados obtenidos con
el primer estudio realizado (Conjunto de datos inicial 2009-2013).
35
Verano:
DVM HRM TMAX TMED TMIN VMAX VMED
GausseanProcess 0.23 0.3678 0.2659 0.4603 0.3443 0.4132 0.6055
LinearRegression 0.2488 0.5357 0.6341 0.6081 0.5121 0.4146 0.6738
MultilayerPerceptron -0.0494 0.4486 0.5527 0.3992 0.3031 0.218 0.5779
SMOreg 0.251 0.5406 0.6374 0.6011 0.5068 0.4268 0.6803
IBK_1Vecino 0.0837 0.2889 0.3191 0.3245 0.277 -0.009 0.4045
IBK_3Vecinos 0.1543 0.4043 0.4735 0.3914 0.3014 0.1642 0.5537
Kstar 0.1469 0.4202 0.4343 0.2829 0.3568 0.1272 0.4575
LWL 0.1666 0.4977 0.5069 0.4974 0.4813 0.416 0.5819
Tabla 10 Resultado del tercer estudio (Verano)
Análisis parcial de los resultados:
Se obtienen satisfactorios resultados para casi todas las variables excepto para DVM con
malos resultados y VMAX con resultados regulares.
Se observa claramente que los mejores resultados para las variables objetivo DVM,
HRM, TMAX, VMAX y VMED se obtienen para este conjunto de datos con el modelo
SMOreg.
Se evidencia que para las variables objetivos TMED y TMIN en este conjunto de datos
se obtienen los mejores resultados con el modelo LinearRegression.
Se evidencia que no existen mejoras significativas con respecto a los resultados obtenidos con
el primer estudio realizado (Conjunto de datos inicial 2009-2013).
36
Otoño:
Análisis parcial de los resultados:
Resultados satisfactorios para casi todas las variables excepto para DVM con malos resultados
y VMAX con resultados regulares.
Se evidencia que para las variables objetivo DVM, HRM, TMED y VMAX en este
conjunto de datos se obtienen los mejores resultados con el modelo LinearRegression.
Se observa claramente que los mejores resultados para las variables objetivo TMAX,
TMIN y VMED se obtienen para este conjunto de datos con el modelo SMOreg.
Se evidencia que no existen mejoras significativas con respecto a los resultados obtenidos con
el primer estudio realizado (Conjunto de datos inicial 2009-2013).
DVM HRM TMAX TMED TMIN VMAX VMED
GausseanProcess 0.3533 0.3942 0.4307 0.5551 0.4415 0.4949 0.7178
LinearRegression 0.3915 0.6033 0.7825 0.8694 0.8332 0.5481 0.7642
MultilayerPerceptron 0.2455 0.51 0.7246 0.7932 0.7738 0.2954 0.6893
SMOreg 0.4038 0.6006 0.7861 0.8649 0.8335 0.5335 0.7664
IBK_1Vecino 0.1725 0.3332 0.5985 0.716 0.6478 0.3604 0.5517
IBK_3Vecinos 0.2272 0.4609 0.7017 0.7851 0.7614 0.4633 0.6664
Kstar 0.1768 0.4973 0.6879 0.731 0.7335 0.2985 0.5081
LWL 0.3894 0.4933 0.6929 0.7649 0.7186 0.428 0.6494
Tabla 11 Resultado del tercer estudio (Otoño)
37
Luego de un profundo análisis de resultados se llega a la conclusión de que ningún estudio
realizado muestra mejores resultados ni mejoras significativas que el primer estudio (Conjunto
de datos inicial 2009-2013), por lo que el conjunto de datos inicial se convierte en el conjunto
de entrenamiento sobre el cual van a trabajar los modelos de regresión.
Conclusiones
En este capítulo se desarrolló un estudio orientado a explicar claramente las transformaciones
necesarias de los datos iniciales para su correcto procesamiento. Además, se realizaron tres
estudios principales sobre el conjunto de datos procesado para determinar los modelos de
regresión óptimos para cada variable.
38
CAPÍTULO 3. EEPP. HERRAMIENTA PARA LA PREDICCION DE
PARÁMETROS DE LA ENERGÍA EOLICA
En el capítulo se hará una breve descripción de las interioridades de la aplicación,
mostrándolas de manera gráfica a través de UML (Lenguaje Unificado de Modelado). Este
lenguaje fue desarrollado por James Rumbaugh e Ivar Jacobson según (Kim and Russell,
2006); consiste en un sistema de notaciones que se considera estándar en el mundo del
desarrollo de aplicaciones. Está constituido por un conjunto de diagramas que permiten
representar de una manera natural los procesos que se van a desarrollar.(Stevens, 2002)
3.1 INGENIERÍA DE SOFTWARE DE LA HERRAMIENTA
Ingeniería de software es la aplicación práctica del conocimiento científico al diseño y
construcción de programas de computadora y a la documentación asociada requerida para
desarrollarlos, operarlos y mantenerlos. (Pressman, 2003)
3.1.1 CASOS DE USO DE LA HERRAMIENTA
Los modelos de casos de uso del sistema de UML proporcionan una vía intuitiva de mostrar
los requisitos funcionales del sistema, dirigiendo así el proceso de desarrollo de la aplicación.
(Norvell, 2010, Stevens, 2002)En el siguiente diagrama se muestra los casos de uso del
sistema EEPP donde se define el actor del sistema con el nombre de “Especialista”.
39
Figura 3 Diagrama de Casos de Uso de la herramienta
Cada uno de los casos de uso representados en el diagrama anterior se describe en la siguiente
tabla:
Caso de uso Descripción
Visualizar datos El especialista visualiza el conjunto de datos original actualizado, incluso luego de ser
modificado podrá observar en tiempo de ejecución las modificaciones.
Agregar instancia Se muestra la posibilidad de insertar una nueva instancia al conjunto de datos original.
Realizar predicciones Es el caso de uso más importante del sistema. Se realizan las predicciones para cada
una de las variables según la cantidad de días especificada, además se muestra el
coeficiente de correlación correspondiente a cada una de las predicciones.
Exportar predicciones a
Excel
Ofrece la posibilidad de exportar los resultados de las predicciones a un documento
Excel para lograr una mejor visualización de los nuevos datos obtenidos.
Insertar predicciones en
conjunto de datos original
Agrega los resultados de las predicciones al conjunto de datos inicial para mantener
actualizada la base de casos.
Tabla 12 Casos de Uso de la herramienta
40
3.1.2 DIAGRAMAS DE ACTIVIDADES DE LA HERRAMIENTA
Los diagramas de actividad se realizan para mostrar el flujo de acciones dentro de un proceso
determinado, mostrando así el comportamiento dentro del sistema en esa actividad. En la
siguiente imagen se muestra el diagrama de actividad correspondiente al proceso de creación
de una nueva instancia, el cual se realiza a partir de la última instancia del conjunto de datos,
dependiendo del tipo de la variable objetivo en cuestión (multivariada o univariada) y que
contenga el formato correcto con los datos del nuevo día a predecir.(Norvell, 2010, Stevens,
2002)
Figura 4 Diagrama de Actividad de la operación Crear Nueva Instancia
Otra actividad importante del sistema es la realización de las predicciones, en la cual se realiza
la predicción de todas las variables para el día siguiente, creando primeramente una nueva
instancia y construyendo un modelo de regresión óptimo para cada una de las variables, con el
cual se determina las clases de las nuevas instancias creadas de cada variable y estas se
insertan a su conjunto de datos correspondiente según la variable en cuestión.
41
Figura 5 Diagrama de Actividad de la operación Realizar Predicciones
3.1.3 DIAGRAMA DE PAQUETES DEL SISTEMA
En el Lenguaje Unificado de Modelado, un diagrama de paquetes muestra cómo un sistema
está dividido en agrupaciones lógicas mostrando las dependencias entre esas agrupaciones.
Dado que normalmente un paquete está pensado como un directorio, los diagramas de
paquetes suministran una descomposición de la jerarquía lógica de un sistema. (Stevens, 2002,
Norvell, 2010)
El sistema EEPP tiene implementado cuatro paquetes:
1. Paquete uclv.eep.instances: Contiene las clases Instance_DVM,
Instance_HRM, Instance_TMAX, Instance_TMED, Instance_TMIN,
Instance_VMAX e Instance_VMED. En esencia este paquete se encarga de
administrar y manejar las clases relacionadas con las instancias de cada una de
las variables.
42
2. Paquete uclv.eep.modelos: Contiene las clases DVM_LWL, HRM_Smoreg,
TMAX_LinearRegression, TMED_LinearRegression, TMIN_Smoreg,
VMAX_SMOreg y VMED_LinearRegression. Esencialmente este paquete se
encarga de administrar las clases relacionadas con los modelos óptimos
determinados para cada variable.
3. Paquete uclv.eep.utils: Contiene las clases ExcelManager, Redondeo y
SplitData. Este paquete administra un conjunto de clases de gran utilidad en el
sistema, que contienen operaciones necesarias para la correcta función de la
aplicación.
4. Paquete uclv.eep.visual: Contiene la clase EEPMainFrame. Este paquete
administra la clase encargada de la interfaz visual del sistema.
En la siguiente imagen se muestra el diagrama de paquetes de la aplicación, con las relaciones
que estos poseen entre ellos.
Figura 6 Diagrama de Paquetes de la herramienta
43
3.1.4 DIAGRAMA DE CLASES DEL SISTEMA
El diagrama de clases es la representación lógica de la filosofía orientada a objetos,
describiendo los objetos que hay en el sistema, la relación entre ellos, así como sus atributos y
operaciones de estos. (Norvell, 2010, Stevens, 2002)
La herramienta EEPP contiene un conjunto de clases formado por las clases Instance_DVM,
Instance_HRM, Instance_TMAX, Instance_TMED, Instance_TMIN, Instance_VMAX e
Instance_VMED. Este conjunto de clases se encarga de manejar todos los datos y operaciones
relacionadas con las instancias correspondientes a cada una de las variables.
La herramienta contiene también otro conjunto de clases formado por las clases DVM_LWL,
HRM_Smoreg, TMAX_LinearRegression, TMED_LinearRegression, TMIN_Smoreg,
VMAX_SMOreg y VMED_LinearRegression, las cuales se encargan de la construcción de los
modelos de regresión óptimos correspondientes a cada una de las variables.
El sistema contiene además un conjunto de clases formado por las clases ExcelManager,
Redondeo y SplitData, las cuales tienen como función principal la implementación de un
conjunto de operaciones útiles y necesarias para el correcto funcionamiento de la herramienta.
Existe además una clase llamada EEPMainFrame que es la encargada de la implementación
de la interfaz visual de la aplicación.
En la siguiente figura se muestra el diagrama de clases del sistema, con las respectivas
relaciones entre ellas y sus paquetes de pertenencia.
44
Figura 7 Diagrama de Clases del sistema
3.2 EEPP. HERRAMIENTA PARA LA PREDICCIÓN DE PARÁMETROS DE
ENERGÍA EOLICA
3.2.1 DESCRIPCIÓN Y REQUISITOS MÍNIMOS
EEPP es una herramienta o mecanismo que ofrece una interfaz gráfica de usuario amigable y
sencilla para la obtención de predicciones sobre un conjunto de parámetros determinados
relacionados con la energía eolica. Este sistema esta implementado en el lenguaje de
programación Java, para lo cual se utilizó la herramienta NetBeans IDE versión 7.1.2. La
45
herramienta necesita de una máquina virtual para que pueda ejecutarse; en este caso requiere
de una versión igual o superior al JDK versión 1.7. Como mínimo requiere de 256mb de RAM
para una correcta ejecución.
3.2.2 IMPLEMENTACIÓN DE LOS CLASIFICADORES
La implementación de los clasificadores óptimos para cada variable resulta la estructura
fundamental del código generado. De manera general se implementaron tres clasificadores que
utilizan regresión:
1. SMOreg
2. Linear Regression
3. LWL
Para la utilización de estas funciones se agregó al proyecto la biblioteca weka.jar
Ejemplo de implementación del clasificador Linear Regression:
Primeramente se crea un objeto del clasificador:
static LinearRegression linearRegression=new LinearRegression();
Se definen las opciones de este:
static final String [] options = {"-S","0",
"-R","1.0E-8"};
static SelectedTag attrSelecttion=linearRegression.getAttributeSelectionMethod();
static boolean col=linearRegression.getEliminateColinearAttributes();
Posteriormente se procede a la definición del método de construcción del clasificador:
public static buildVMED_LinearRegression() throws Exception
Se agregan las opciones definidas anteriormente al clasificador:
linearRegression.setOptions(options);
linearRegression.setAttributeSelectionMethod(attrSelecttion);
linearRegression.setEliminateColinearAttributes(col);
Se construye el clasificador con la función buildClassifier(Instances) contenida en
weka.jar, que recibe como parámetro el conjunto de instancias de entrenamiento.
linearRegression.buildClassifier(Instance_VMED.getData());
46
Por último se realiza el proceso de evaluación y se utiliza la Validación Cruzada:
Evaluation eval=new Evaluation(Instance_VMED.getData());
eval.crossValidateModel(linearRegression, Instance_VMED.getData(), 10,rand);
3.2.3 DESPLIEGUE DE LA APLICACIÓN
EEPP (Eolic Energy Parameters Predictor) constituye una herramienta sencilla destinada
específicamente a realizar predicciones diarias sobre un conjunto bien determinado de
parámetros o variables relacionado con la energía eolica. Las predicciones están basadas en
modelos de regresión generados a partir de un conjunto de datos históricos.
Ventana Inicial:
Al iniciar la aplicación se muestra una interfaz que contiene una breve descripción de la
herramienta y una opción de ayuda para visualizar el manual de usuario del software, el cual
contiene una ayuda explicativa sobre todas las funcionalidades y formas de uso de la
herramienta.
Figura 8 Ventana Inicial de EEPP
47
En la interfaz gráfica de usuario de la aplicación se muestran los datos actualizados, incluso
luego de realizar cambios sobre ellos, y la opción de agregar una nueva instancia al conjunto
de datos original.
Figura 9 Ventana de Datos de EEPP
48
Agregar Valores:
Esta ventana se muestra cuando el usuario o especialista necesite agregar tantos nuevos
valores (instancias) como desee al conjunto de datos original. Se deberán llenar todos los
campos con sus formatos específicos correctamente.
Figura 10 Ventana de Operaciones de datos
Ventana de las predicciones:
Se muestra todo lo relacionado con la obtención de las predicciones para cuantos días se
desee, así como el coeficiente de correlación asociado a cada modelo de regresión construido.
Figura 11 Ventana de Predicciones de EEPP
49
En la siguiente ventana referente a las predicciones se muestra la opción de exportar las
predicciones obtenidas a un documento Excel para una óptima visualización y manejo de los
nuevos datos obtenidos.
Se brinda además la opción de agregar las predicciones obtenidas al conjunto de datos original
para mantener la base de casos actualizada de manera dinámica.
Figura 12 EEPP realizando predicciones
50
3.3 ANÁLISIS DE COSTO TEMPORAL
El costo de tiempo de la ejecución de la aplicación atendiendo a la obtención de las
predicciones no es favorable debido a la complejidad temporal asociada a la construcción de
los modelos de regresión. Se debe tener en cuenta además que cada vez que se desee predecir
una variable para un día determinado se construye nuevo modelo de regresión óptimo
correspondiente a dicha variable, de manera tal que se construyan los modelos con un
conjunto de entrenamiento actualizado.
La ejecución de la aplicación fue realizada en una computadora personal (laptop), con
potencia de procesamiento media-baja (común), que posee las siguientes características:
-Sistema Operativo Windows 8.1 64-bit.
-Procesador Intel Core i3 2da Generación, CPU 1.40GHz.
-Memoria RAM 4GB.
En el siguiente gráfico se muestra el costo de tiempo general (en minutos) de ejecución de los
modelos para la obtención de las predicciones de 60 días.
Figura 13 Gráfico de costo de tiempo general
1, 3
10, 32.5
20, 66
30, 99
40, 133
50, 163
60, 197
3
28
53
78
103
128
153
178
203
1 10 20 30 40 50 60
Min
uto
s
Días
Costo de tiempo general
Modelos
51
En el siguiente gráfico se muestra el costo temporal (en segundos) asociado a cada variable en
específico según su modelo óptimo para 60 días.
Figura 14 Gráfico de costo temporal por modelos
Conclusiones
En este capítulo se explica detalladamente la esencia de la herramienta EEPP, así como la
ingeniaría de software asociada a la misma, a través de varios diagramas UML. Además, se
muestra un despliegue de la aplicación a través de explicaciones ilustradas de la herramienta.
Por último se realiza un análisis del costo de tiempo de ejecución de la herramienta a través de
gráficos de líneas.
0
300
600
900
1200
1500
1800
2100
2400
2700
3000
3300
3600
1 10 20 30 40 50 60
Segu
nd
os
Días
Costo de Tiempo por Modelos
TMAX HRM TMIN TMED VMAX DVM VMED
52
CONCLUSIONES Y RECOMENDACIONES GENERALES
Conclusiones Generales:
1. Se obtuvieron a partir del conjunto de datos inicial tres subconjuntos de datos como casos
de estudio sobre los cuales se aplicaron modelos de regresión contenidos en la herramienta
WEKA a cada una de las variables contenidas en los tres subconjuntos formados.
2. Se realizó un análisis en colaboración con el experto o especialista en el tema sobre las
dependencias entre un conjunto de variables o parámetros relacionados con la energía eolica
donde se determinaron las dependencias entre dichas variables y la cantidad de días pasados
necesarios para lograr una satisfactoria predicción.
3. Se llevó a cabo un análisis exploratorio sobre los resultados de los modelos de regresión
contenidos en la herramienta WEKA, teniendo como conjunto de entrenamiento los tres
estudios realizados, donde se determinaron los modelos óptimos para cada variable en cada
estudio y luego a través de un proceso de comparación de resultados se obtuvo mejor conjunto
de entrenamiento para la generación de los modelos. Se determinó además a partir de este
conjunto de entrenamiento el modelo de aprendizaje óptimo para cada una de las variables en
cuestión.
4. Se ha implementado una herramienta llamada EEPP (Predictor de Parámetros de la Energía
Eolica, por sus siglas en inglés) que brinda apoyo al proyecto actual desarrollado en la facultad
de Ingeniería Mecánica de la UCLV sobre el uso óptimo de las energías renovables. Dicha
herramienta logra determinar las predicciones de los parámetros más importantes que posee la
energía eolica de manera diaria, basándose en instancias anteriores de estos parámetros y
utilizando los modelos de regresión óptimos para cada variable determinados anteriormente.
53
Recomendaciones Generales:
1. Se recomienda no generar predicciones para más de 5 días, debido a la inevitable pérdida de
datos reales, ya que cada nuevo día de predicción se realiza utilizando 5 instancias o días
anteriores.
2. Se recomienda ampliar la herramienta para lograr la obtención de las predicciones a partir
de cualquier base de casos inicial con parámetros o variables distintos a los trabajados en este
trabajo, de manera tal que el sistema sea de uso general para cualquier empresa o ambiente
que desee resolver problemas de este tipo con parámetros variables.
3. Es recomendable la realización de otros estudios que difieran de los realizados en este
trabajo con el objetivo de obtener mejoras en cuanto a la eficiencia de la predicción de la
variable Dirección del Viento Máximo, de manera que se logre un aumento de su coeficiente
de correlación utilizando los modelos de regresión estudiados.
4. Resolver el problema en cuestión utilizando además métodos clásicos aplicables a series de
tiempo en su forma original, como Redes Neuronales Recurrentes, algoritmo KNN, modelos
ARIMA, etc., con el objetivo de desarrollar una comparación de resultados.(Ríos, 2008,
Mauricio, 2007)
5. Incorporar además nuevas funcionalidades y metodologías de trabajos a la herramienta
EEPP con el fin de mejorar la calidad de la misma.
54
REFERENCIAS BIBLIOGRÁFICAS
ABERNETHY, M. 2010. Data mining with WEKA, Part 1: Introduction and regression [Online].
ALER, R. 2009. Tutorial Weka 3.6.0. 40.
ANTEZANA, J. 2004. Energía eólica. Conceptos y
actualidad., 40.
BLANCO, M. P. 2012a. NUEVOS MODELOS DE PREDICCIÓN EÓLICA BASADOS EN SERIES TEMPORALES. UNIVERSIDAD DE VALLADOLID.
BLANCO, M. P. 2012b. NUEVOS MODELOS DE PREDICCIÓN EÓLICA
BASADOS EN SERIES TEMPORALES
UNIVERSIDAD DE VALLADOLID.
BOUCKAERT, R. R. 2013. WEKA Manual
for Version 3-7-8. 327.
CASTRO, J. L. 2013. Máquinas de Vectores Soporte (SVM).
CRUZ, G. 2008. Ciclo Hidrológico y Humedad del aire. 40.
D, F. M. 2010. Leer un fichero Excel desde Java [Online].
DORRONSORO, J. R. 2011. Modelos predictivos de producción de energías renovables. Instituto de Ingeniería del Conocimiento, 21.
EBDEN, M. 2008. Gaussian Processes for Regression: A Quick Introduction. 11.
GAMBHIR, S. 2006. Regression model for Quality of Web Services dataset with WEKA.
International Journal of Electronics and Computer Science Engineering, 6.
GHEORGHE, C. 2009. Aeolian energy – the energy of the future? Manager Journal, 10, 7-14.
HERNÁNDEZ, L. 2013. A Survey on Electric Power Demand Forecasting: Future Trends in
Smart Grids, Microgrids and Smart Buildings. 65.
HOFFMANN, J. P. 2010. Linear Regression Analysis: Applications and Assumptions. 285.
MARTÍN, I. E. 2010. Integración de técnicas estadísticas, numéricas y de inteligencia artificial para la predicción eólica en configuraciones de parques eólicos geográficamente cercanos. Caso de la isla de Gran Canaria., Universidad de las
Palmas de Gran Canaria.
MAURICIO, J. A. 2007. Introducción al Análisis de Series Temporales. 295.
MERUANE, C. 2006. Determinación de Humedad en la Atmósfera. 10.
MOLINERO, L. M. 2002. Construcción de modelos de regresión multivariantes. 10.
55
MOLINERO, L. M. 2004. Análisis de series temporales. 8.
MORAGUES, J. 2003. ENERGIA EOLICA. 22.
NORVELL, T. 2010. Visual Paradigm for UML Tutorial. 4.
NOVAK, P. K. 2009. Numeric prediction in Weka.
PRESSMAN, R. S. 2003. Ingeniería del Software, un enfoque Práctico.
RASMUSSEN, C. E. 2006. Gaussian Processes for Machine Learning. 266.
RASMUSSEN, C. E. 2010. Gaussian Processes for Machine Learning (GPML) Toolbox. 5.
RÍOS, G. 2008. Series de Tiempo. Universidad de Chile.
RODRÍGUEZ, E. R. 2007. Ajuste de curvas. UNISANGIL, 20.
ROTH, G. D. 2003. Meteorología. Formaciones nubosas y otros fenómenos meteorológicos.
Situaciones meteorológicas generales. Pronósticos del tiempo.
STEVENS, P. 2002. Utilización de UML en Ingeniería del Software con Objetos y Componentes.
TORRES-REYNA, O. 2007. Linear Regression using Stata. 46.
TUSELL, F. 2011. Análisis de Regresión.Introducci´on Teórica y Práctica basada en R. 258.
VILLAVICENCIO, J. 2011. Introducción a Series de Tiempo.
WITTEN, I. H. 2000. WEKA. Machine Learning Algorithms in Java. 58.
WITTEN, I. H. 2013. Data Mining with Weka. 45.
YUNUS A, Ç. 2009. Temodinámica.
ZHOU, Z. 2012. A two-stage stochastic programming model for the optimal design
of distributed energy systems. ELSEVIER, 9.