evaluación de modelos de clasificación para la predicción
Post on 18-May-2022
9 Views
Preview:
TRANSCRIPT
Universidad de La Salle Universidad de La Salle
Ciencia Unisalle Ciencia Unisalle
Ingeniería en Automatización Facultad de Ingeniería
6-6-2020
Evaluación de modelos de clasificación para la predicción de Evaluación de modelos de clasificación para la predicción de
heladas en el sector agricultor de Mosquera Cundinamarca, heladas en el sector agricultor de Mosquera Cundinamarca,
Colombia Colombia
Cristian Camilo Meza Gámez Universidad de La Salle, Bogotá
Sergio Alejandro Gutierréz Barón Universidad de La Salle, Bogotá
Follow this and additional works at: https://ciencia.lasalle.edu.co/ing_automatizacion
Part of the Agriculture Commons, and the Engineering Commons
Citación recomendada Citación recomendada Meza Gámez, C. C., & Gutierréz Barón, S. A. (2020). Evaluación de modelos de clasificación para la predicción de heladas en el sector agricultor de Mosquera Cundinamarca, Colombia. Retrieved from https://ciencia.lasalle.edu.co/ing_automatizacion/774
This Trabajo de grado - Pregrado is brought to you for free and open access by the Facultad de Ingeniería at Ciencia Unisalle. It has been accepted for inclusion in Ingeniería en Automatización by an authorized administrator of Ciencia Unisalle. For more information, please contact ciencia@lasalle.edu.co.
EVALUACION DE MODELOS DE
CLASIFICACION PARA LA
PREDICCION DE HELADAS EN EL
SECTOR AGRICULTOR DE
MOSQUERA (CUNDINAMARCA,
COLOMBIA).
AUTORES:
Cristian Camilo Meza Gamez
Sergio Alejandro Gutierrez Baron
DIRECTOR: Jose Fabian Salazar Caceres
UNIVERSIDAD DE LA SALLE
FACULTAD DE INGENIERIA
PROGRAMA DE INGENIERIA EN AUTOMATIZACION
BOGOTA D.C
2020
Nota de aceptacion:
Firma jurado 1.
Firma jurado 2.
Firma jurado 3.
Bogota 6 de junio de 2020
i
Agradecimientos
Este es el resultado de los esfuerzos de nuestras familias y companeros, agrade-
cemos infinitamente la paciencia, amor y comprension que han tenido con nosotros.
Gracias Universidad de la Salle por la formacion que recibimos y por la calidad
de los profesionales que participaron en nuestra formacion.
El ingeniero Jose Fabian Salazar, gracias por guiarnos en el desarrollo de este
proyecto investigativo y compartir su entusiasmo, conocimiento e interes por el es-
tudio de Machine Learning, adquirimos grandes conocimientos bajo su tutela.
ii
Indice general
1. Introduccion 1
2. Planteamiento del problema 5
2.1. Heladas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.1.1. Helada por adveccion . . . . . . . . . . . . . . . . . . . . . . . . 6
2.1.2. Helada por evaporacion . . . . . . . . . . . . . . . . . . . . . . . 6
2.1.3. Helada por radiacion . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2. Factores que favorecen las heladas . . . . . . . . . . . . . . . . . . . . . 7
3. Definiciones 9
3.1. Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.1.1. Aprendizaje supervisado . . . . . . . . . . . . . . . . . . . . . . 9
3.1.2. Aprendizaje no supervisado . . . . . . . . . . . . . . . . . . . . 10
3.2. Matriz de confusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.3. Receiver Operating Characteristic - ROC . . . . . . . . . . . . . . . . . 12
3.4. Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.5. SMOTE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.6. Validacion cruzada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.7. Log loss - funcion entropıa . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.8. Valor esperado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.9. Correlacion de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.10. Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.11. Python . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.11.1. PANDAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.11.2. Scikit-learn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.12. Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.12.1. Regresion Logıstica . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.12.2. Redes bayesianas . . . . . . . . . . . . . . . . . . . . . . . . . . 21
iii
4. Metodologıa y resultados 26
4.1. Procesamiento de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.2. Synthetic Minority Over-sampling TEchnique - SMOTE . . . . . . . . 31
4.3. Regresion logıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.4. Redes bayesianas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.4.1. Matriz de frecuencia . . . . . . . . . . . . . . . . . . . . . . . . 35
4.4.2. Tablas de probabilidad . . . . . . . . . . . . . . . . . . . . . . . 36
4.4.3. Calculos de probabilidad . . . . . . . . . . . . . . . . . . . . . . 38
4.4.4. Pseudocodigo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.4.5. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.5. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.5.1. Matriz de confusion . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.5.2. Log - loss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.5.3. Curva ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.5.4. Validacion cruzada . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.5.5. Valor esperado . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5. Conclusiones 48
Bibliografıa 51
iv
Indice de figuras
2.1. Temperatura mınima y maxima Versus dıa. . . . . . . . . . . . . . . . 6
3.1. Aprendizaje supervisado, SPAM correo. Geron (2017) . . . . . . . . . . 10
3.2. Aprendizaje no supervisado, visitantes blog. Geron (2017) . . . . . . . 11
3.3. Distribucion matriz de confusion. Zelada Carlos (s.f.) . . . . . . . . . . 12
3.4. Ejemplo curva ROC: capacidad discriminatoria de una prueba para cla-
sificar sanos de enfermos. Malaga (s.f.) . . . . . . . . . . . . . . . . . . 13
3.5. Log loss. Tomada de . Brownlee (2020) . . . . . . . . . . . . . . . . . . 14
3.6. Funcion Logıstica. Geron (2017) . . . . . . . . . . . . . . . . . . . . . . 18
3.7. Parametros asociados a una red bayesiana. Sucar (2004) . . . . . . . . 24
4.1. Diagrama de procesos modelos implementados. . . . . . . . . . . . . . . 27
4.2. Primeras cinco muestras de los datos. Obtenidos del IDEAM, digitados
en Python. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.3. Coeficientes de correlacion de Pearson . . . . . . . . . . . . . . . . . . . 29
4.4. Descriptores Versus Temperatura mınima. . . . . . . . . . . . . . . . . 30
4.5. Histrograma de observaciones por clase. . . . . . . . . . . . . . . . . . . 31
4.6. SMOTE: Conexion entre punto.Rikunert (s.f.). . . . . . . . . . . . . . . 32
4.7. SMOTE: Muestras sinteticas entre puntos existentes.Rikunert (s.f.). . . 32
4.8. Red bayesiana propuesta. . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.9. Red bayesiana propuesta con descriptor dıa. . . . . . . . . . . . . . . . 39
4.10. Log loss para una clase positiva (Helada). . . . . . . . . . . . . . . . . 44
4.11. Log loss para una clase negativa (No Helada). . . . . . . . . . . . . . . 44
4.12. Curva ROC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.13. Resultados obtenidos a partir de 10 muestras del conjunto de validacion 46
4.14. Valor esperado de Temperatura mınima . . . . . . . . . . . . . . . . . . 47
v
Indice de cuadros
4.1. Cantidad de eventos antes y despues de aplicar SMOTE. . . . . . . . . 32
4.2. Cantidad de eventos por subconjunto. . . . . . . . . . . . . . . . . . . . 33
4.3. Coeficientes del modelo logıstico. . . . . . . . . . . . . . . . . . . . . . 33
4.4. Tabla de ubicacion de descriptores. . . . . . . . . . . . . . . . . . . . . 34
4.5. Matriz de frecuencia del conjunto de entrenamiento. . . . . . . . . . . . 35
4.6. Matriz de frecuencia normalizada del conjunto de entrenamiento. . . . . 35
4.7. Matriz de frecuencia normalizada del conjunto de entrenamiento ajustada. 36
4.8. Probabilidad de que se de el nodo A dada la temperatura seca maxima
(TSM) y la temperatura mınima (Tm). . . . . . . . . . . . . . . . . . . 37
4.9. Probabilidad de que se de el nodo B dado el dıa pluviometrico (DP) y
la precipitacion (P). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.10. Probabilidad de que se de el nodo C dada la humedad relativa (HR) y
la temperatura maxima (TM). . . . . . . . . . . . . . . . . . . . . . . . 37
4.11. Probabilidad de que se de el nodo D dada la temperatura seca mınima
(TSm) y el nodo A. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.12. Probabilidad de que se de el nodo E dodo los nodos B y C. . . . . . . . 38
4.13. Probabilidad de que se de el nodo F dados los nodos E y D. . . . . . . 38
4.14. Descriptores de entrada discretizados vs descriptores deseados discreti-
zados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.15. Probabilidad generada por nodos. . . . . . . . . . . . . . . . . . . . . . 41
4.16. Probabilidad final mes enero, entradas ejemplo. . . . . . . . . . . . . . 42
4.17. Probabilidad final mes de Febrero entradas ejemplo. . . . . . . . . . . . 42
4.18. Matriz de confusion de regresion logıstica. . . . . . . . . . . . . . . . . 42
4.19. Matriz de confusion de redes bayesianas. . . . . . . . . . . . . . . . . . 43
4.20. Reporte de resultados. Modelo logıstico. . . . . . . . . . . . . . . . . . 43
4.21. Reporte de resultados. Redes bayesianas. . . . . . . . . . . . . . . . . . 43
vi
Capıtulo 1
Introduccion
En la actualidad los cultivos colombianos estan sometidos a grandes cambios climati-
cos como el fenomeno del Nino, de la Nina, heladas, etc, (Cifuentes, 2018). Los grandes
afectados son los agricultores, al presentarse estos fenomenos los cultivos que se en-
cuentran en cosecha quedan vulnerables y se corre el riesgo de perder el trabajo de los
agricultores y ası mismo la inversion que depositaron en dicho cultivo debido a la gran
variabilidad climatica que se presenta en la zona de estudio. Los agricultores toman di-
versas alternativas para prevenir la perdida de los cultivos, en los que se encuentran: la
proteccion a traves de cercas vivas, seleccion de especies resistentes, riego, manejo en la
fertilizacion, control de plagas y manejo de los suelos; las anteriores acciones hacen que
los recursos e insumos aumenten el presupuesto e inversion de la cosecha, teniendo en
cuenta que son mecanismos que se deben realizar diariamente en la mayorıa de cultivos
para evitar eventos de heladas no pronosticados, por ello surge la necesidad de realizar
la prediccion de heladas en el sector de Mosquera (Cundinamarca), con el fin de evitar
perdidas monetarias a los agricultores del sector.
Con el proposito de satisfacer dicha necesidad, se presenta el presente proyecto, en
el cual a partir de datos meteorologicos historicos otorgados por el Instituto de Hi-
drologıa, Meteorologıa y Estudios Ambientales (IDEAM) se plantean dos modelos de
clasificacion para la prediccion de heladas a traves de la tecnica de Machine Lear-
ning o aprendizaje automatico basados en la regresion logıstica y redes bayesianas, con
el objetivo de evaluar los modelos implementados sobre el caso de estudio, como lo
realizo Latorre (2014) en su trabajo titulado Caracterizacion, pronostico y alternati-
vas de manejo de las heladas en el sistema de produccion lechero del Valle de Ubate
y Chiquinquira (Colombia), donde este se orientaba a la prediccion de heladas en el
Valle de Ubate y Chiquinquira (Colombia), su area principal de trabajo fue en el sector
1
lechero, debido que dicha zona se encuentra en un area tropical y a una altura de mas
de 2500 m.s.n.m lo cual la hace propensa a las heladas. Segun el analisis realizado por
el autor esta region es la que mas leche genera al area Cundiboyacense y al presentarse
fuertes heladas se generan perdidas significativas en el sector lechero, donde las heladas
afectan principalmente al pasto que la vacas consumen, quitandole proteınas y factores
energeticos. El autor opto por el uso del metodo de Allen el cual genera una estima-
cion de prediccion de heladas, para que este metodo funcionara fue necesario el uso de
variables historicas de precipitacion, temperatura maxima, temperatura media, tempe-
ratura mınima, humedad relativa y brillo solar, como conclusion se determino que se
podıa predecir el dıa de la helada mas no la hora debido a que la tecnologıa con la que
se contaba no era suficiente para suministrar datos tan precisos, algo similar a lo que
paso con Bonilla Jose Ebert (2006) donde la falta de datos meteorologicos afecto los
resultados del proyecto que se realizaba en el municipio de Mosquera (Cundinamarca,
Colombia), los autores del proyecto recurrieron a la busqueda de variables e hicieron
una investigacion entre modelos estadısticos de temperatura mınima y de heladas con
el fin de hallar las variables mas empleadas y el efecto que cada modelo genero sobre la
investigacion realizada, dichos datos obtenidos fueron adjuntados a una serie de datos
otorgados por el IDEAM los cuales sirvieron para definir las variables que mas intervie-
nen en las heladas, dichas variables fueron: Brillo solar, temperatura mınima y maxima,
temperatura del bulbo seco y humedo, tension de vapor, humedad relativa, punto de
rocıo y viento (magnitud y direccion), estos datos fueron obtenidos de la estacion de
Tibaitata del municipio de Mosquera, los autores decidieron hacer uso de unicamente
de las variables de temperatura, el IDEAM les entrego los datos registrado de los meses
de diciembre, enero y febrero (por ser los meses con mayor ocurrencia del fenomeno)
entre los anos de 1990 – 2003 los cuales fueron filtrados para ası determinar errores
generados por la medicion y la antiguedad de los equipos, los errores obtenidos fueron
corregidos aplicando una serie de limitantes a los datos para ası tener mayor precision
en las medidas, por ejemplo, uno de los limitantes fue que la temperatura maxima la
cual no podıa superar los 24 ◦C; en ocasiones se observaba que en los datos usados hacıa
falta informacion para corregir errores de medicion, para ello se aplicaron los metodos
de pronostico de series temporales como el promedio movil y la regresion lineal, los
cuales se encargaban de llenar los datos faltantes, como lo fue en el caso de Diedrichs
Ana Laura (2013) en el cual al momento de predecir heladas a traves de Random Forest
(RF) y Redes Bayesianas (RB) se encontraron con la problematica de que en el ano
muy poco se registraban heladas, ademas, los datos no eran 100 % confiables, por ello
se vieron en la obligacion de incrementar los datos con la tecnica de sobre muestreo
2
de minorıas sintetica (SMOTE) para ası hacer el algoritmo mas preciso, teniendo en
cuenta que de los datos adquiridos se uso un 68 % para entrenamiento y el restante pa-
ra evaluacion del algoritmo, para el caso del proyecto de Moller Acuna Patricia (2016)
usaron la misma tecnica SMOTE para generar un sobre muestreo de datos, ya que en
cinco anos de recoleccion diaria de estos tenıan 143 heladas y para ellos esta diferencia
entre heladas y no heladas era demasiada grande, por tal motivo recurrieron al meto-
do anteriormente mencionado y lo aplicaron sobre las variables que ellos seleccionaron
para el algoritmo, las cuales fueron: temperatura, humedad relativa, radiacion solar,
punto de rocıo y viento (velocidad y direccion). Sin embargo, los datos obtenidos no
fueron suficientes para generar una buena estimacion, ya que en los cuatro modelos
de Machine learning que aplicaron para el proyecto tres de estos obtuvieron un error
mayor al 20 %. En el caso del proyecto de Ovando Gustavo (2004) recopilaron datos
meteorologicos de 24 anos, donde dividieron estos en dos partes, uno de entrenamiento
y otro de validacion, en el grupo de entrenamiento y validacion estaban los descrip-
tores de entrada de temperatura, humedad relativa, nubosidad y vientos (direccion y
velocidad), donde al ejercer la validacion se obtenıa como salida el hay o no helada,
los autores del documento optaron por hacer una red neuronal, al someter dicha red
al entrenamiento con la cantidad de datos mencionados anteriormente se dieron cuenta
que la red se demoraba mucho aprendiendo para ası generar un estimacion del clima,
donde los autores decidieron reducir la cantidad de descriptores de entrada pero al rea-
lizar esto se percataron que el error incrementaba, por tal motivo concluyeron que el
fenomeno meteorologico es no lineal en su comportamiento.
Como bien se ha mencionado con anterioridad, la prediccion del clima es algo que nos
compete a todos, ya que no solamente es importante para el campo de la agricultura
sino tambien para muchos mas, como el aeroespacial, la mecanica y hasta la medicina, es
un problematica que involucra a todo el mundo y por tal motivo muchas organizaciones
de diferentes paıses se han puesto en la tarea de realizar algoritmos para dar solucion
a esta, como es el caso del sistema Dynamic Integrated foreCasting (DICast R©), el cual
fue uno de los primeros motores automaticos de pronostico del tiempo. Ahora esta en
uso en bastantes companıas con muchas aplicaciones, algunas aplicaciones que se estan
llevando a cabo en el Centro Nacional para la Investigacion Atmosferica (NCAR) que
incluyen DICast y otras tecnologıas de inteligencia artificial incluyen energıa renovable,
transporte de superficie y pronostico de incendios forestales Haupt Sue Ellen (2018),
donde dichas aplicaciones incluyen el pronostico hidrometeorologico para el apoyo a la
decision agrıcola, el pronostico del tiempo en la carretera para mejorar la seguridad
3
del transporte de superficie, el pronostico del movimiento de incendios forestales y el
viento y la energıa solar para servicios publicos y operadores de red para facilitar la
integracion de la red; como se puede apreciar la variabilidad climatica es una gran
problematica que toma un gran papel en el momento de tomar una decision entorno
al medio ambiente y por tal motivo hay que generar diferentes alternativas para in-
dagar acerca de esta e ir mas alla para brindar un servicio de prediccion a todas la s
poblaciones del mundo y ası generar una mayor optimizacion de procesos de produccion.
Se toman en cuenta las anteriores referencias para abordar de una mejor manera la
problematica del presente proyecto y ası darle una solucion ideal, usando como base las
variables meteorologicas que dichas investigaciones tienen en comun y las que se pueden
obtener de la estacion meteorologica requerida, de igual manera, se indaga acerca de
los modelos usados para ası decidir cuales de estos son los ideales para aplicar al caso
de estudio.
A continuacion, en el presente documento se presenta un conjunto de definiciones y
ecuaciones fundamentales para el planteamiento del modelo de las variables meteo-
rologicas de estudio, del mismo modo que conceptos y formulaciones de los modelos
de prediccion a traves de Machine Learning. Una vez construida la base teorica del
estudio se procede con la presentacion del conjunto de datos adquiridos digitalizado,
ademas, los modelos predictivos para el desarrollo del proyecto. Tras la presentacion
de los modelos implementados, se presentan los resultados de las evaluaciones y como
parte final se presenta un analisis comparativo de los resultados y se formulan algunas
conclusiones.
4
Capıtulo 2
Planteamiento del problema
El municipio de Mosquera (Cundinamarca, Colombia) al encontrarse a una altura
superior a los 2500 m.s.n.m esta propenso a sufrir el fenomeno de las heladas, por lo
tanto cuando este ocurre se requiere que los agricultores sometan sus cultivos a cuida-
dos extremos para la proteccion de los mismos, lo que acarrea un incremento monetario
que el agricultor tendra que cubrir ya que al no realizar dichos cuidados corre el riesgo
de perder la produccion que este realizando en su momento. Ademas, se encuentra la
problematica de que a los agricultores no se les provee un medio informativo que los
notifique cuando ocurriran las heladas, por tal motivo, se ven obligados a estar imple-
mentando constantemente las tecnicas preventivas explicadas anteriormente o corren el
riesgo de perder sus cultivos. En la actualidad segun Cifuentes (2018) la temperatu-
ra ha empezado a disminuir principalmente en la zona Cundiboyacense, por lo que el
fenomeno se estarıa avecinando segun lo anterior y lo que se evidencia en la actualidad
“Ministerio de agricultura” (2019) recomienda que no se cultiven especies sensibles a
bajas temperaturas en zonas donde existen probabilidades altas de que ocurran heladas
Cifuentes (2018), por tal motivo se requiere de una alternativa para que el agricultor
sepa cuando ocurrira una helada y ası mismo implemente una metodologıa de protec-
cion a dichos cultivos.
Al obtener los datos meteorologicos de la zona de estudio por parte del Instituto
de Hidrologıa, Meteorologıa y Estudios Ambientales (IDEAM) se observa que unas de
la variables (Temperatura mınima y maxima del aire) no tienen unas tendencias claras
respecto al dıa en el conjunto de datos, como se observa en las figuras 2.1 (a, b), por tal
motivo, se determina que se hace necesario el uso de un modelo de clasificacion como
lo es el aprendizaje supervisado, teniendo en cuenta que este se enfoca en un problema
mas probabilıstico que determinıstico, que es lo que se desea obtener como resultado
5
del proyecto.
(a) T mınima Vs Dıa. (b) T maxima Vs Dıa.
Figura 2.1: Temperatura mınima y maxima Versus dıa.
Para el debido entendimiento del proyecto se hace necesario tener presentes las
siguientes definiciones y caracterısticas de las heladas.
2.1. Heladas
Fenomeno que ocurre cuando la temperatura ambiente esta igual o menor a 0 ◦ C
a un nivel de dos (2) metros sobre el suelo, Gonzales Olga (2012); cuando se alcanza
esta temperatura los tejidos de las plantas comienzan a sufrir dano, aunque puede que
este fenomeno ocurra sin necesidad de que la temperatura llegue a 0 ◦ C, ya que la
temperatura interna de la hoja puede ser menor que la del aire, es decir, menor que la
intensidad de la helada.
Las heladas se clasifican de la siguiente manera segun Artuduaga (1980):
2.1.1. Helada por adveccion
Heladas caracterısticas en las latitudes medias y altas, es ocasionada por la invasion
de grandes masas de aire frıo procedentes de las regiones polares, suelen caracterizarse
por ser continuas y con una duracion de por lo menos dos dıas, Gonzales Olga (2012).
2.1.2. Helada por evaporacion
Sucede cuando despues de una precipitacion, la humedad relativa del aire desciende,
la vegetacion intercepta parte de la precipitacion reteniendo el agua en el follaje y
6
troncos, el calor de evaporacion que el agua necesita para pasar del estado lıquido al
gaseoso lo toma de las plantas, generando ası que estas pierdan temperatura y llegue a
lımites que puedan ocasionar danos, Gonzales Olga (2012).
2.1.3. Helada por radiacion
Estas heladas ocurren al presentarse un balance de energıa negativo, es decir, cuando
se originan una perdida de calor por parte de las plantas y el suelo, esta perdida debe
superar la energıa ganada durante el dıa para poder llamarse helada. Son tıpicas de
las regiones tropicales y factibles a partir de los 2500 metros sobre el nivel del mar
(m.s.n.m), Gonzales Olga (2012).
2.2. Factores que favorecen las heladas
De acuerdo con Aguilar (1997) los factores que favorecen las bajas temperaturas en
la superficie son:
Vapor del agua: La cantidad de vapor de agua que se encuentra en la atmosfera
afecta la regulacion de la emision de calor de la tierra. Normalmente, entre mas
alta sea la cantidad de vapor de agua, menor sera la perdida neta de calor ra-
diactivo hacia el espacio y mas lenta sera la caıda de temperatura en una noche
clara y calmada. Esto sucede porque el vapor de agua absorbe parte de la radia-
cion de onda larga emitida por la superficie terrestre la cual regresa a la tierra
disminuyendo la perdida original de calor.
Suelo y vegetacion: El suelo influye en el comportamiento de las heladas, segun
algunas caracterısticas como el color, textura, grado de compactacion y contenido
de humedad. El enfriamiento nocturno disminuye debido a las capas intermedias
del suelo que emiten ondas de calor, las cuales, se mueven hacia arriba dentro de
la capa activa del suelo. Por otra parte, la humedad del suelo acelera este flujo
de calor. Ademas, entre mas compacto sea el suelo, el movimiento de calor se ve
favorecido. Suelos secos y recientemente arados dificultan el movimiento de calor
hacia la superficie. Por ultimo, un suelo cubierto de rastrojo tambien cambia el
patron de temperatura, favoreciendo el enfriamiento, al dificultar la llegada de
calor del suelo durante la noche e impedir la llegada de radiacion solar durante el
dıa.
7
Viento: La falta de viento, favorece el desarrollo de la inversion de temperatura
durante la noche y es casi seguro que ocurra una helada; por el contrario, cuando
hay viento, la turbulencia que este produce, hace que las distintas capas de aire se
mezclen, rompiendo la inversion, de tal forma que las capas calientes ocupen las
partes bajas, por este motivo la probabilidad de bajas acentuadas de temperatura
disminuye.
Topografıa: Las caracterısticas fisiograficas como el relieve tienen un papel im-
portante, debido a las diferencias de densidades (el aire frıo es mas denso que el
aire caliente), el aire frıo normalmente ocupa los niveles mas bajos del terreno,
relegando al aire mas caliente. Por esto, los terrenos en ladera y de pendiente
suave, sufren menos heladas por otro lado, los valles u hondonadas presentan un
mayor numero de ellas. La orientacion de la ladera tambien es factor importante;
en general, aquellos terrenos orientados hacia el sur presentaran menor probabi-
lidad de heladas ya que recibiran durante el dıa la mayor cantidad de radiacion
solar. De otra parte, las formas concavas de terreno son mas propensas al frıo y
las heladas que las convexas.
Nubosidad y temperatura vespertina: La falta de nubosidad favorece la radiacion
de calor del suelo hacia el espacio facilitando la helada. Ademas, un factor estre-
chamente relacionado con la temperatura mınima de un lugar es la temperatura
existente a la puesta del sol, como resultado de las condiciones atmosfericas pre-
cedentes. Si la temperatura a la puesta del sol es alta, un descenso grande durante
la noche no sera muy danino; por otro lado, si es relativamente baja al empezar
la noche, el dano causado por la disminucion gradual de la temperatura puede ser
severo en las primeras horas de la manana siguiente.
De acuerdo a las anteriores definiciones se deduce que en la zona de Mosquera (Cun-
dinamarca) se presentan heladas por radiacion por ser un municipio ubicado en una
region tropical, ademas porque se encuentra a una altitud media de 2516 m.s.n.m. De
igual manera, se deduce que las variables meteorologicas que mas influyen en este ti-
po de heladas son la temperatura y la humedad, es por ello que se determinan como
variables irreemplazables del presente proyecto.
8
Capıtulo 3
Definiciones
Para el planteamiento de metodologıas de prediccion, es fundamental conocer a
profundidad la definicion y funcionamiento de las metodologıas de Machine Learning.
A continuacion, se presentan algunas definiciones utiles para la construccion de los
modelos implementados en el presente proyecto.
3.1. Machine Learning
Campo de estudio que le da a los computadores la habilidad de aprender sobre lo que
no han sido explıcitamente programados, Samuel (1959). De una manera mas enfocada
a la ingenierıa se dice que un computador aprende de la experiencia E con respecto a
alguna tarea T y alguna medida de rendimiento R, si su rendimiento en T, medido por
P, mejora la experiencia E, Mitchell (1997). En la actualidad las grandes industrias de
la comunicacion web usan Machine Learning para conocer un poco mas de los usuarios
de la red, donde se genera un algoritmo de aprendizaje que esta previamente entrena-
do para generar una respuesta inmediata a las necesidades del usuario, ası mismo, el
Machine Learning se va adaptando a los cambios de datos, generando nuevos procesos
y ajuste a las acciones del programa en consecuencia; el Machine Learning se clasifica
en:
3.1.1. Aprendizaje supervisado
Tipo de aprendizaje en el que se le da al algoritmo un conjunto de datos en los cuales
estan las respuestas correctas, Ng (2011). Entre las tecnicas utilizadas en el aprendi-
zaje supervisado pueden destacarse las redes neuronales (incluyendo su extension al
aprendizaje profundo), regresion logıstica, los clasificadores bayesianos o los arboles de
9
regresion y clasificacion, Geron (2017).
Un ejemplo para explicarlo es el filtro de spam, esta entrenado con muchos correos
electronicos de ejemplo junto con su clase (spam o no spam), y debe aprender como
clasificar nuevos correos.
Figura 3.1: Aprendizaje supervisado, SPAM correo. Geron (2017)
3.1.2. Aprendizaje no supervisado
El computador aprende por sı mismo, se dividen los datos en grupos con un ındice de
similitud, Ng (2011). Dentro del aprendizaje no supervisado cabe destacar las tecnicas
de clustering o las tecnicas de Data Analysis, como la de reduccion de la dimensiona-
lidad. Los componentes principales del aprendizaje no supervisado se pueden clasificar
en cuatro grupos:
Las fuentes de informacion, que pueden aportar datos tanto estructurados como
no estructurados, que son la base del resto de componentes.
Las tecnicas y algoritmos para el tratamiento de informacion no estructurada
(texto, voz, vıdeo, etc.) para la obtencion de patrones a partir de los datos.
La capacidad de auto aprendizaje, que permite que el algoritmo se adapte a los
cambios en los datos.
El uso de sistemas y software como vehıculo para la visualizacion de la informacion
y la programacion.
Para dar a entender el aprendizaje no supervisado se toma un ejemplo encontrado en
el libro de Geron (2017), el cual es:
Suponga que tiene muchos datos sobre los visitantes de su blog. Es posible que desee
10
ejecutar un algoritmo de agrupamiento para intentar detectar grupos de visitantes si-
milares. En ningun momento le dice al algoritmo a que grupo pertenece un visitante:
Encuentra esas conexiones sin su ayuda. Por ejemplo, puede notar que el 40 % de sus
visitantes son hombres que aman los comics y generalmente leen su blog por la noche,
mientras que el 20 % son jovenes amantes de la ciencia ficcion que visitan los fines de
semana, y ası sucesivamente. Si utiliza un algoritmo de agrupamiento jerarquico, tam-
bien puede subdividir cada grupo en grupos mas pequenos. La siguiente figura muestra
como el aprendizaje no supervisado divide en grupo a los visitantes del blog de acuerdo
a gustos similares.
Figura 3.2: Aprendizaje no supervisado, visitantes blog. Geron (2017)
3.2. Matriz de confusion
Contiene el numero de casos bien clasificados y mal clasificados. Los casos bien
clasificados se ubican en la diagonal, porque los grupos pronosticados y los reales son los
mismos. Los elementos fuera de la diagonal representan casos mal clasificados, Malhotra
(2004).
En la siguiente figura se muestra como se ubican los datos en la matriz de confusion.
11
Figura 3.3: Distribucion matriz de confusion. Zelada Carlos (s.f.)
3.3. Receiver Operating Characteristic - ROC
La curva ROC traza la tasa positiva verdadera (TPR) contra la tasa de falsos
positivos (FPR). El FPR es la proporcion de instancias negativas que se clasifican
incorrectamente como positivas. Es igual a uno menos la tasa negativa verdadera, que
es la proporcion de instancias negativas que se clasifican correctamente como negativas.
El TNR tambien se llama especificidad. Por lo tanto, la curva ROC traza la sensibilidad
versus especificidad Geron (2017).
En la figura 3.4 se presenta un ejemplo de una curva ROC, que representa la ca-
pacidad discriminatoria de una prueba para clasificar sanos como sanos y enfermos
como enfermos.El area bajo la curva (AUC) puede interpretarse como la probabilidad
de que ante un par de individuos, uno enfermo y el otro sano, la prueba los clasifique
correctamente.
12
Figura 3.4: Ejemplo curva ROC: capacidad discriminatoria de una prueba para clasificar sanos deenfermos. Malaga (s.f.)
3.4. Probabilidad
Es la ciencia de la incertidumbre. Facilita algunas reglas matematicas precisas que
permiten comprender y analizar lo desconocido. Proporciona una estructura de razona-
miento que permite trabajar con nuestros conocimientos limitados y tomar decisiones
basadas en lo se sabe y en lo que se desconoce Evans Michael J (2004).
3.5. SMOTE
Es un algoritmo de sobre muestreo de ejemplos utilizado para la clase minoritaria.
13
3.6. Validacion cruzada
Tecnica utilizada para evaluar los resultados de un analisis estadıstico y garantizar
que son independientes de la particion entre datos de entrenamiento y prueba.
3.7. Log loss - funcion entropıa
Perdida logarıtmica que mide el rendimiento de un modelo de clasificacion donde la
entrada de prediccion es un valor de probabilidad entre cero (0) y uno (1).
La ecuacion que representa el log loss es:
Ll(X) = −(y ∗ log(p(x)) + (1− y) ∗ log(1− p(x)) (3.1)
Donde:
P(x): Probabilidad de que sea helada.
Y: Variable categorica esperada (1 o 0).
La grafica que representa la funcion log loss es la siguiente:
Figura 3.5: Log loss. Tomada de . Brownlee (2020)
14
3.8. Valor esperado
El valor esperado de una variable aleatoria es el valor medio que esta variable puede
tomar Evans Michael J (2004), el valor esperado no exige la repetibilidad de un evento,
sino que basta con tener una distribucion de probabilidad para una variable aleatoria
Juez Martel Pedro (1997), el valor esperado se calcula, por definicion, multiplicando
cada valor por su probabilidad, es decir:
E[X] = P (x) ∗X +
[(1− P (x)) ∗
(Y +X
2
)](3.2)
Donde:
X: Temperatura mınima.
P(x): Probabilidad de que sea helada.
Y: Temperatura maxima.
3.9. Correlacion de Pearson
El coeficiente de correlacion de Pearson (r) permite estudiar la relacion lineal entre
dos variables. Este coeficiente se calcula a partir de datos muestrales, Caceres (1995).
Expresa numericamente tanto la fuerza como la direccion de la relacion lineal de la
lınea recta, Borda Perez Mariela (2009), los coeficientes por lo general se encuentran
entre -1.00 y 1.00, donde:
-1.00: Correlacion negativa perfecta.
-0.95: Correlacion negativa fuerte.
-0.50: Correlacion negativa moderada.
-0.10: Correlacion negativa debil.
-0.00: Ninguna correlacion.
+0.10: Correlacion positiva debil.
+0.50: Correlacion positiva moderada
+0.95: Correlacion positiva fuerte.
15
+1.00: Correlacion positiva perfecta.
La formula para calcular el coeficiente de Pearson (r) es:
r =n∑n
i=1[Xi ∗ Yi]−∑n
i=1[Xi] ∗∑n
i=1[Yi]√[n∑n
i=1[Xi]2 − (∑n
i=1[Xi])2] ∗ [n∑n
i=1[Yi]2 − (
∑ni=1[Yi])
2](3.3)
Donde:
r: Coeficiente de correlacion de Pearson.
n: Numero total de pares de puntajes X y Y .
X: Puntaje crudo en la variable X.
Y : Puntaje crudo en la variable Y .
3.10. Matlab
Plataforma de programacion disenada especıficamente para ingenieros y cientıficos.
En la cual se permiten explorar rapidamente multiples enfoques para llegar a una
solucion compuesta por un lenguaje basado en matrices que permite la expresion mas
natural de las matematicas computacionales, MathWorksSupportTeam (s.f.).
3.11. Python
Lenguaje de programacion interpretado, orientado a objetos y de alto nivel con
semantica dinamica, preparado para realizar cualquier tipo de programa. Es un lenguaje
interpretado, lo que significa que no se necesita compilar el codigo fuente para poder
ejecutarlo, lo que ofrece ventajas como la rapidez de desarrollo e inconvenientes como
una menor velocidad, PythonSupportTeam (s.f.).
3.11.1. PANDAS
Paquete de Python que proporciona estructuras de datos similares a los dataframes
de R. Pandas depende de Numpy, la librerıa que anade un potente tipo matricial a
Python.
16
3.11.2. Scikit-learn
Librerıa de Machine learning para el lenguaje de programacion Python. Contiene
algoritmos de clasificacion, regresion y clustering.
3.12. Modelos
En general, cualquiera que sea el problema a resolver existen diversas metodologıas
de solucion, las cuales pueden variar de acuerdo a su uso, complejidad o precision, Aluja
(2001). Para el presente proyecto se revisaron los siguientes modelos estadısticos:
3.12.1. Regresion Logıstica
La Regresion logıstica por lo general es utilizada para estimar la probabilidad de
que una instancia corresponda a una categorıa especifica. Si la probabilidad estimada
es mayor al 50 %, entonces el modelo predice que la instancia pertenece a esa categorıa
(etiquetada como “1”), o bien predice que no (etiquetada como “0”). Esto lo convierte
en un clasificador binario Geron (2017).
Al igual que un modelo de regresion lineal, un modelo de regresion logıstica calcula
una suma ponderada de las caracterısticas de entrada (mas un termino de sesgo), pero
en lugar de generar el resultado directamente como lo hace el modelo de regresion lineal,
genera la logıstica de este resultado (ver Ecuacion 3.4).
p = hθ(x) = σ(θT · x) (3.4)
Donde:
p: Probabilidad de que una instancia corresponda a una categorıa especifica.
x: Variables explicativas.
θT : Vector de parametros, miden la influencia que las variables explicativas tienen
sobre la logıstica.
La logıstica(σ(·)), es una funcion sigmoidea que genera un numero entre 0 y 1. Se
define como se muestra en la ecuacion 3.5 y la Figura 3.6.
σ(t) =1
1 + e(−t)(3.5)
17
Figura 3.6: Funcion Logıstica. Geron (2017)
Una vez que el modelo de Regresion logıstica ha estimado la probabilidad p =
hθ(x) de que una instancia x pertenece a la categorıa “1”, puede hacer su prediccion y
facilmente (vea la Ecuacion 3.6).
y =
0 si p < 0,5
1 si p ≥ 0,5(3.6)
Entrenamiento y funcion de costo
El objetivo del entrenamiento es establecer el vector de parametros θ de modo
que el modelo calcule altas probabilidades para instancias positivas (y = 1) y bajas
probabilidades para instancias negativas (y = 0). Esta idea es capturada por la funcion
de costo que se muestra en la Ecuacion 3.7 para una sola instancia de entrenamiento x.
c(θ) =
−log (p) si y = 1
−log (1− p) si y = 0(3.7)
Esta funcion de costo tiene sentido porque −log(t) crece mucho cuando t se acerca a
0, por lo que el costo sera grande si el modelo estima una probabilidad cercana a 0 para
una instancia positiva, y tambien sera muy grande si el modelo estima una probabilidad
cercana a 1 para una instancia negativa. Por otro lado, −log(t) esta cerca de 0 cuando
t esta cerca de 1, por lo que el costo estara cerca de 0 si la probabilidad estimada esta
cerca de 0 para una instancia negativa o cerca de 1 para una instancia positiva, que es
precisamente lo que queremos.
La funcion de costo en todo el conjunto de entrenamiento es simplemente el cos-
to promedio en todas las instancias de entrenamiento. Se puede escribir en una sola
18
expresion, llamada Binary Cross-Entropy / Log Loss, que se muestra en la Ecuacion
3.8.
J(θ) = − 1
m
m∑i=1
[y(i)log
(p(i))
+(1− y(i)
)log(1− p(i)
)](3.8)
Donde:
m: Total de muestras del conjunto de entrenamiento
p: Probabilidad predicha
y: Dato real (1 o 0)
Cross-Entropy / Log Loss
La clasificacion binaria presenta un problema unico donde:
1. Cada instancia pertenece a una de dos clases complementarias,
2. Cada instancia es independiente el uno del otro (el resultado de una instancia no
afecta el resultado de otra instancia) y ,
3. Todas las instancias pertenecen a una misma distribucion( Todas las instancias
pertenecen al conjunto de datos heladas vs no heladas).
En estadıstica y teorıa de la probabilidad, los items 2 y 3 se denominan colectiva-
mente iid (independientes e identicamente distribuidos), a esta distribucion se le llamara
q(y).
La Entropıa es un medida de la incertidumbre asociado con una distribucion dada
q(y). La entropıa para una distribucion q(y) se muestra en la ecuacion 3.9,
H(q) = −C∑j=1
q(yj).log(q(yj)) (3.9)
Donde:
C: Numero de clases
q(yj): Distribucion de probabilidad asociada a la clase yj .
19
Como no se conoce la distribucion verdadera de la variable aleatoria, se trata de
aproximar una distribucion p(y) a la distribucion verdadera q(y), mediante la entropıa
cruzada entre ambas distribuciones:
Hp(q) = −C∑j=1
q(yj).log(p(yj)) (3.10)
Como la entropıa cruzada NO coincidira con la entropıa calculada de la distribucion
verdadera, se afirma que:
Hp(q)−H(q) >= 0 (3.11)
A esta diferencia entre la entropıa cruzada y la entropıa se conoce como Divergencia
Kullback-Leibler (KL Divergence).
KL Divergence es una medida de disimilitud entre dos distribuciones:
DKL(q ‖ p) = Hp(q)−H(q) =C∑j=1
q(yj).[log(q(yj))− log(p(yj))] (3.12)
Donde:
C: Numero de clases
q(yj): Distribucion de probabilidad verdadera de la clase yj.
p(yj): Distribucion de probabilidad experimental de la clase yj.
Cuanto mas cerca este p(y) de q(y), la divergencia sera menor, por ende, la entropıa
cruzada. Entonces, se necesita encontrar un valor p(y) lo mas cercano a q(y) , lo cual, es
el trabajo que hace el clasificador. Buscar la mejor p(y) posible, que es la que minimiza
la entropıa cruzada.
Durante el entrenamiento del clasificador se usan cada una de las N instancias del
conjunto de entrenamiento para calcular la perdida de entropıa cruzada, ajustando
efectivamente la distribucion p(y). Como la probabilidad de cada instancia es 1/N , la
entropıa cruzada viene dada por:
q(yi) =1
N⇒ Hp(q) = − 1
N
N∑i=1
log(p(yi)) (3.13)
Donde:
N : Total de muestras del conjunto de entrenamiento
20
Hp(q): Entropıa cruzada
p(yi): Distribucion de probabilidad experimental de la clase yi.
Ahora se calcula el promedio de todas las instancias en ambas clases, positivo y
negativo:
Hp(q) = − 1
Npos +Nneg
[Npos∑i=1
log(p(yi)) +
Nneg∑i=1
log(1− p(yi))
](3.14)
Donde:
Npos: Total de muestras de la clase positiva del conjunto de entrenamiento
Nneg: Total de muestras de la clase negativa del conjunto de entrenamiento
p(yi): Distribucion de probabilidad experimental de la clase yi.
Finalmente, se manipula la ecuacion 3.14, para poder tomar cualquier instancia, ya
sea de la clase positiva o negativa, bajo una misma ecuacion:
J(θ) = − 1
N
N∑i=1
[y(i)log
(p(i))
+(1− y(i)
)log(1− p(i)
)](3.15)
Donde:
N : Total de muestras del conjunto de entrenamiento
p: Probabilidad predicha
y: Dato real (1 o 0)
3.12.2. Redes bayesianas
Las redes bayesianas (RB) son una representacion grafica de dependencias para ra-
zonamiento probabilıstico donde se estima la probabilidad posterior de las variables no
conocidas, Sucar (2004). El clasificador aprende a partir de los datos de entrenamiento,
la probabilidad condicional de cada atributo dada una etiqueta de la clase C, Friedman
(1997). Estos modelos pueden tener diversas aplicaciones, para clasificacion, prediccion,
diagnostico, etc. Ademas, pueden dar informacion interesante en cuanto a como se rela-
cionan las variables del dominio, las cuales pueden ser interpretadas en ocasiones como
relaciones de causa–efecto, Sucar (2004).
21
Las RB se caracterizan por ser parte del aprendizaje supervisado y el no supervisado,
donde se requiere de una serie de datos adquiridos de un experto para ası generar el
modelo.
Las RB generan una simplificacion a los problemas algorıtmicos presentados, este
modelo se caracteriza por tener en cuenta las variables mas significativas del conjunto
de entrenamiento, dicho proceso de seleccion se hace a traves de la regla de la cadena,
generando ası una independencia.
P (a|b) = P (a) (3.16)
P (a|b) ∗ P (b) = P (a) ∗ P (b) (3.17)
P (X1, X2, ..., Xn) =n∏i=1
P (Xi|padre(Xi)) (3.18)
La ecuacion 3.16 significa la probabilidad de que se de a dado b.
La ecuacion 3.17 significa la probabilidad de que se de a dado b multiplicado por la
probabilidad de b.
La ecuacion 3.18 representa la regla de la cadena, donde xi son los nodos,∏n
i=1 es el
producto de las probabilidad del hijo dado su padre Xi.
D - separacion
Es un criterio que establece una serie de reglas para verificar la independencia con-
dicional, las cuales estableceran si un nodo es o no independiente, para este caso se
tratara con una tripleta de nodos.
Un nodo es dependiente si cada una de las tripletas de las que se componen son
dependientes.
Si algun nodo es independiente ese nodo bloqueara la independencia de la red.
Dos variables son independientes si todos los caminos entre ambos son indepen-
dientes.
Independencia condicional de tripletes:
Cadena Causal: Se da cuando la probabilidad del hijo depende de la probabilidad
22
de su padre y del padre de su padre.
X 7−→ Y 7−→ Z
P (X, Y, Z) = P (X) ∗ P (X|Y ) ∗ P (Y |Z) (3.19)
Cadena comun: Se da cuando la probabilidad del hijo y la del padre de su padre
dependen de la probabilidad del padre.
X ←− Y 7−→ Z
P (X, Y, Z) = P (Y ) ∗ P (X|Y ) ∗ P (Z|Y ) (3.20)
Efecto comun: Se da cuando la probabilidad del padre depende de la probabilidad
de su padre y la de su hijo.
X 7−→ Y ←− Z
P (X, Y, Z) = P (X) ∗ P (Z) ∗ P (ZY |X,Z) (3.21)
Donde Z es el hijo, Y es el padre del hijo y X es el padre del padre del hijo.
Manto de Markov
El manto de Markov de un nodo es condicionalmente independiente del resto de
nodos de una red bayesiana dado su padre, su hijo y otros padres de los hijos.
Distribucion canonica
En la figura 3.7 se aprecia un ejemplo de una tabla de probabilidad condicional,
donde la salida E tiene dos padres y uno de ellos tiene un padre; al aplicar la regla de la
cadena (ecuacion 3.18) y las independencias condicionales se obtendra la probabilidad
final que se busca P (E|B,C).
23
Figura 3.7: Parametros asociados a una red bayesiana. Sucar (2004)
El tamano de la tabla de probabilidad condicional crece exponencialmente con el
numero de padres de un nodo, por lo que puede crecer demasiado. Una forma de reducir
este problema es utilizando la distribucion canonica donde los principales son:
Modelo de interaccion disyuntiva (Noisy OR).
Modelo de interaccion conjuntiva (Noisy AND).
Compuerta Max (Noisy Max gate).
Compuerta Min (Noisy Min gate).
El modelo mas usado es el Noisy OR, el cual se usa cuando el valor verdadero no es
categorico, se le puede asignar una probabilidad donde:
Todas las causas deben estar presentes.
Las causas deben ser independientes.
24
P (Xi|padres(Xi)) = 1−∏
ρj (3.22)
ρj = P (Xi|Xj = V erdadero) (3.23)
Le ecuacion 3.22 y 3.23 representa la probabilidad del hijo Xi dado que la probabilidad
del padre Xj sea verdadera.
25
Capıtulo 4
Metodologıa y resultados
Para el presente proyecto se planteo la evaluacion de dos modelos de clasificacion
para la prediccion de heladas, dichos modelos fueron regresion logıstica (RL) y redes
bayesianas (RB); para realizar su respectiva evaluacion fue necesario el uso de los datos
meteorologicos de la zona de estudio otorgados por el IDEAM (estacion de Tibaitata),
dichos datos corresponden a un intervalo diario de mas de quince (15) anos, desde el
02 de febrero del 2005 hasta el 18 de Julio del 2019, para un total de 5277 dıas de
adquisicion de datos, las variables meteorologicas medidas y entregadas fueron:
Temperatura maxima del aire en Grados Celsius.
Temperatura mınima del aire en Grados Celsius.
Humedad media relativa en porcentaje.
Precipitacion en milımetros por hora.
Dıa pluviometrico en milımetros.
Temperatura seca maxima en Grados Celsius.
Temperaturas seca mınima en Grados Celsius.
A continuacion, se explicara el paso a paso que se realizo para el desarrollo del
presente proyecto.
1. Identificar y obtener los datos relacionados con el problema.
2. Preparar los datos obtenidos.
a) Exploracion de los datos.
26
b) Pre-procesamiento.
1) Limpieza.
a ′ valores perdidos.
b ′ datos inconsistentes.
c ′ datos duplicados.
d ′ Outliers.
2) Seleccion.
c) Analisis de datos.
1) Seleccion de la tecnica.
2) Construccion del modelo.
3) Evaluacion del modelo.
Con el fin de hacer mas claro el proceso realizado se implementan el siguiente dia-
grama donde se detalla el paso a paso realizado para la implementacion de los modelos
y la obtencion de los resultados.
Figura 4.1: Diagrama de procesos modelos implementados.
27
4.1. Procesamiento de datos
Los datos fueron entregados por el IDEAM en un archivo de valores separados por
comas (CSV), se hizo uso de Pandas para cargar los datos en Python, la cual devuelve
un objeto Pandas DataFrame que contiene todos los datos. Con la funcion .head() se
obtiene las primeras 5 muestras de los datos cargados en Python:
Figura 4.2: Primeras cinco muestras de los datos. Obtenidos del IDEAM, digitados en Python.
Como se observa en la figura 4.2, se aprecia que cada fila es una muestra de los datos
y las columnas son los descriptores de entrada, en este caso son: Dıa, temperatura
maxima del aire, temperatura mınima del aire, humedad Relativa, precipitacion, dıa
pluviometrico, temperatura seca maxima y temperatura seca mınima, respectivamente.
Despues de cargar los datos se realizo un pre-proceso a estos, con el fin de crear
datos utiles para su futuro analisis. Al inspeccionar cada una de las filas de los datos,
se aprecio que en algunas de estas los valores obtenidos eran erroneos, por ejemplo, en
algunos de ellas la Tmax era menor que la Tmin, algo que no es posible, por ello se
recurrio a realizar una etapa de limpieza en busca de valores perdidos, valores inconsis-
tentes, datos duplicados, ruido y outliers, se detectaron todos los casos y se realizo una
tecnica de sustitucion de datos, donde se tomaron los valores numericos de estos y se
genero un promedio de todos los dıas para reemplazar los datos inconsistentes.
Ejemplo.
Se detecto que en la fecha del dıa 27 de marzo del 2005 (dıa 86 del ano) no se
registraba toma alguna de los datos, para ello se tomaron los datos de todos los
dıas 86 de cada ano de la base de datos obtenida y se genero un promedio para
ası sustituir los datos inexistentes.
28
Despues de realizar la limpieza de datos se calcularon los coeficientes de correlacion
de Pearson, el cual arrojo la siguiente informacion, la cual se puede ver en la figura 4.3.
Figura 4.3: Coeficientes de correlacion de Pearson
Al observar los coeficientes de correlacion de Pearson, indican que las variables tienen
una baja relacion lineal entre sı, descartando por completo los modelos de tipo regre-
sion. Por otra parte, esta baja relacion lineal es favorable para modelos de clasificacion,
en este caso binaria. Para ello se define la clase de Helada a todas las temperaturas
mınimas menor a 2 grados centıgrados.
Con la intencion de observar la nula o baja relacion lineal entre los descriptores (lo
que indican los coeficientes de correlacion de Pearson), se grafica Temperatura mınima
versus cada uno del resto de los descriptores, como se observa en la figura 4.4.
29
(a) Humedad media relativa Vs T mınima (b) Dıa pluviometrico Vs T mınima
(c) Precipitacion Vs T mınima (d) T maxima Vs T mınima
(e) T maxima seca Vs T mınima (f) T mınima seca Vs T mınima
Figura 4.4: Descriptores Versus Temperatura mınima.
Seguido a esto se procede a realizar una investigacion a cerca de que modelos serıan
los ideales para aplicar al proyecto, para ellos se uso como base de investigacion el ma-
terial bibliografico hallado y citado en la introduccion del documento, donde se dedujo
que los mas indicados eran Regresion Logıstica y Redes Bayesianas.
Tabulando los datos en su respectivo conjunto de datos se encuentra que la clase
etiquetada como HELADA (1) es una clase minoritaria, ya que se tienen muy pocas
muestras de esta clase, mientras que la clase tomada como NO HELADA (0) es la
30
mayoritaria.
Figura 4.5: Histrograma de observaciones por clase.
Como se observa en la figura anterior no hay una cantidad suficientes de mediciones
de la clase heladas (1) en los datos, lo cual es un factor importante al momento de
entrenar los modelos, por tal motivo se decide crear muestras sinteticas utilizando el
algoritmo SMOTE.
4.2. Synthetic Minority Over-sampling TEchnique
- SMOTE
Este algoritmo sintetiza nuevas instancias minoritarias entre las instancias minori-
tarias existentes. El algoritmo genera lıneas imaginarias entre las minorıas existentes
como se ve en la siguiente figura:
31
Figura 4.6: SMOTE: Conexion entre punto.Rikunert (s.f.).
Despues genera nuevas instancias minoritarias en algun lugar de esas lıneas.
Figura 4.7: SMOTE: Muestras sinteticas entre puntos existentes.Rikunert (s.f.).
En el cuadro 4.1 se muestran las cantidades de cada clase sin y con SMOTE.
Cantidad de eventos
sin SMOTE con SMOTE
Clase Cantidad Clase Cantidad0 5233 0 52331 44 1 209
Cuadro 4.1: Cantidad de eventos antes y despues de aplicar SMOTE.
Como se observa se generaron 165 muestras de la clase minoritaria (Heladas). Ahora
se procede a dividir el conjunto de datos en un 80 % para entrenamiento y un 20 % para
validacion. La seleccion de cada instancia perteneciente a estos subconjuntos (entrena-
miento y validacion) se hizo de manera aleatoria. En el cuadro 4.2 muestra la cantidad
de eventos de cada subconjunto.
32
Cantidad de eventos
Entrenamiento (80 %) Validacion (20 %)
Clase Cantidad Clase Cantidad0 4189 0 10441 164 1 45
Cuadro 4.2: Cantidad de eventos por subconjunto.
4.3. Regresion logıstica
Usando la libreria Scikit-Learn de Python, se entrena el modelo de regresion logıstica
con el subconjunto de entrenamiento (cuadro 4.2), obteniendo los siguientes coeficientes:
Coeficientes del modelo logıstico
Variable Coeficienteintercepto β0 0.47783101
dia β1 0.0016943055454572776Tmax β2 0.5894723676517903Tmin β3 -3.0041914777443615
HumRel β4 -0.13998367717245364Preci β5 -1.27435006432352Pluvi β6 -1.8100049151074287
TsMax β7 0.11719469452498886Tsmin β8 -0.1980760144422531
Cuadro 4.3: Coeficientes del modelo logıstico.
Observando los coeficientes hallados, se puede afirmar que la temperatura mınima
tiene un gran peso en el modelo de regresion logıstica debido a que tiene el coeficiente
mas pequeno que se obtuvo despues del uso de la librerıa, ademas, hay que tener en
cuenta que a altos valores de temperatura mınima es menor la probabilidad de que se
presente una helada y es por ello que se vuelve la variable mas importante en el caso
de estudio, mientras que el coeficiente que menor peso tiene es la temperatura seca
maxima debido a que fue el coeficiente que mayor valor obtuvo.
El modelo hallado se encuentra reemplazando los coeficientes en la ecuacion 3.5:
σ(t) =1
1 + e−(β0+β1x1+β2x2+β3x3+β4x4+β5x5+β6x6+β7x7+β8x8)(4.1)
33
4.4. Redes bayesianas
Para el desarrollo del presente modelo se hizo uso del software Matlab, donde en
primer lugar se discretizaron los descriptores de entrada ya que todos eran reales y el
modelo a implementar requerıa que estos fueran discretos, es decir, unos (1) y ceros (0),
este proceso se hizo a partir de la funcion logıstica (ecuacion 3.5), donde se ingreso como
entrada uno a uno de los descriptores de entrada y como salida el descriptor de salida
(Helada), generando ası un valor binario para el descriptor de entrada, al momento de
discretizar se procede a hallar la probabilidad inicial de cada uno de los descriptores
de entrada respecto a los de salida, generando ası dos (2) probabilidades para cada
descriptor (cumple, no cumple), donde el indicador ”cumple” significa la probabilidad
de que el descriptor este dentro del rango que permite la presencia de heladas mientras
que la ”no cumple” representa todo lo contrario.
En el software de desarrollo se ubicaron los descriptores de entrada y salida estrategi-
camente del conjunto de entrenamiento para ası mismo asignarles un peso a cada uno
de los descriptores, donde al que mas peso se le asigno fue a la temperatura mınima
despues del dıa del ano, debido a que son las variables que mayor influencia tienen para
la presencia de heladas, dicha informacion de ubicacion se encuentra en el cuadro 4.4.
Descriptores de entrada y salida
TSm TM HR P DP Tm TSM Helada
Cuadro 4.4: Tabla de ubicacion de descriptores.
Donde:
TSm = Temperatura seca mınima.
TM = Temperatura Maxima.
HR = Humedad relativa.
P = Precipitacion.
DP = Dıa pluviometrico.
Tm = Temperatura mınima.
TSM = Temperatura seca maxima.
Helada = Descriptor de salida.
34
4.4.1. Matriz de frecuencia
A partir de los datos de entrenamiento se procede a generar la matriz de frecuencia
de los descriptores previamente discretizadas; se puede apreciar en el cuadro 4.6 que
existe mayor probabilidad de que se presente uno de esos eventos meteorologicos con
menos peso en la zona de estudio, en cambio, la probabilidad de que se presente una
baja temperatura es mınima, por lo que se opto por la reorganizacion de probabilidades,
hay que tener en cuenta que dichas probabilidades se toman como un nodo indepen-
diente, es decir, no depende de los otros descriptores de entrada.
Descriptores de entrada y salida
TSm TM HR P Dp Tm TSM1 220 3481 1397 3298 2645 66 35640 4002 741 2825 924 1577 4156 658
Cuadro 4.5: Matriz de frecuencia del conjunto de entrenamiento.
Despues de obtener la matriz de frecuencia se procede a discretizar dichos valores
numericos, esto se hace a partir de la siguiente ecuacion:
P (x) =x
XTotal
(4.2)
Donde x es el evento en uno (1) o cero (0) de la matriz de frecuencia del descriptor de
entrada y Xtotal es la sumatoria de eventos del descriptor de entrada.
Matriz de frecuencia normalizada
TSm TM HR P Dp Tm TSM1 0.052 0.824 0.330 0.781 0.626 0.016 0.8440 0.945 0.176 0.669 0.219 0.374 0.984 0.156
Cuadro 4.6: Matriz de frecuencia normalizada del conjunto de entrenamiento.
Despues de normalizar la matriz de frecuencia se procede a ajustar el cuadro 4.6
para que la probabilidad en uno (1) siempre sea mayor que la probabilidad en cero (0),
esto se puede ver en el siguiente cuadro.
35
Matriz de frecuencia normalizada ajustada
TSm TM HR P Dp Tm TSM1 0.945 0.824 0.669 0.781 0.626 0.984 0.8440 0.052 0.176 0.330 0.219 0.374 0.016 0.156
Cuadro 4.7: Matriz de frecuencia normalizada del conjunto de entrenamiento ajustada.
4.4.2. Tablas de probabilidad
Al tener las probabilidades independientes se procede a generar una matriz de pro-
babilidades conjuntas, donde se agruparon dos descriptores y se obtuvieron sus corres-
pondientes probabilidades y sucesivamente se fueron generando nodos como se puede
apreciar en el cuadro 4.8 con el fin de generar una probabilidad final con las diferentes
combinaciones posibles.
Figura 4.8: Red bayesiana propuesta.
Donde:
A = Nodo generado por la combinacion de TM y HR.
B = Nodo generado por la combinacion de P y DP.
C = Nodo generado por la combinacion de Tm y TSM.
D = Nodo generado por la combinacion de TSm y A.
36
E = Nodo generado por la combinacion de B y C.
F = Nodo generado por la combinacion de Tm y TSM.
De la combinacion de la red presentada anteriormente surgieron las siguientes matrices
de probabilidad, donde se hallan sus respectivas probabilidades cuando se presentan los
eventos y se genera un nuevo nodo, el cual se normalizara para seguir continuando el
algoritmo con variables discretas.
P (A|TSM, Tm) Normalizacion
1 1 0.9485 11 0 0.0515 00 1 0.9985 10 0 0.0015 0
Cuadro 4.8: Probabilidad de que se de el nodo A dada la temperatura seca maxima (TSM) y latemperatura mınima (Tm).
P (B|DP,P ) Normalizacion
1 1 0.8562 11 0 0.1438 00 1 0.7200 10 0 0.2800 0
Cuadro 4.9: Probabilidad de que se de el nodo B dado el dıa pluviometrico (DP) y la precipitacion(P).
P (C|HR, TM) Normalizacion
1 1 0.9118 11 0 0.0882 00 1 0.7800 10 0 0.2200 0
Cuadro 4.10: Probabilidad de que se de el nodo C dada la humedad relativa (HR) y la temperaturamaxima (TM).
37
P (D|TSm,A) Normalizacion
1 1 0.9756 11 0 0.0244 00 1 0.8180 10 0 0.1820 0
Cuadro 4.11: Probabilidad de que se de el nodo D dada la temperatura seca mınima (TSm) y elnodo A.
P (E|B,C) Normalizacion
1 1 0.9841 11 0 0.0159 00 1 0.8213 10 0 0.1787 0
Cuadro 4.12: Probabilidad de que se de el nodo E dodo los nodos B y C.
P (F |E,D) Normalizacion
1 1 0.9841 11 0 0.0159 00 1 0.8213 10 0 0.1787 0
Cuadro 4.13: Probabilidad de que se de el nodo F dados los nodos E y D.
4.4.3. Calculos de probabilidad
Al ingresar unos descriptores de prueba la red espera que estos cumplan con las
condiciones necesarias para dar una alta probabilidad de helada, si este no es el caso,
comienza a iterar con las probabilidades dadas en las anteriores tablas para sı arrojar
la probabilidad de que haya o no helada, teniendo en cuenta que la probabilidad final
arrojada por la iteracion de las tablas sera multiplicada por la probabilidad de que se
presente o no helada en el dıa del ano que se introduzca ya que como dice Gonzales Ol-
ga (2012) las heladas en alturas iguales o mayores a los 2500 m.s.n.m se presentan en
ciertos meses del ano, unos con mayor frecuencia que otros, por tal motivo es que no
se discretizo este descriptor y se le dio el mayor peso, como se muestra en el siguiente
cuadro.
38
Figura 4.9: Red bayesiana propuesta con descriptor dıa.
Donde:
DIA = Dıa del ano que se quiere predecir.
G = Probabilidad de que se presente helada con los descriptores de entrada.
Teniendo en cuenta la tablas anteriores la ecuacion probabilıstica que define el mo-
delo es:
P (Helada|TSm, TM,HR,P,DP, Tm, TSM) (4.3)
Para obtener la probabilidad de que se presente helada en un dıa determinado del
ano se hizo a partir de la frecuencia con la que se presentan heladas en cada mes del
ano, para ello se sumaron todos los dıas que se presento helada en un mes y se dividio
en el total de dıas de la muestras de heladas, es decir, en el caso de enero se sumaron
la cantidad de heladas que existieron en todos los enero del 2005 al 2019 y se dividio
entre toda las heladas existentes en el intervalo de anos mencionado anteriormente.
39
4.4.4. Pseudocodigo
Algorithm 1 Redes bayesianas
1: RB . Main del algoritmo2: Des . Cargar descriptores de entrenamiento y validacion3: Porcent . Definir porcentaje para conjunto de entrenamiento4: DesTrein . Descriptores de entrenamiento5: DesV al . Descriptores de Validacion6: n . Cantidad de iteraciones a realizar7: for i← 1 to n do8: function Dis( DesTrein ) . Discretiza los descriptores de entrenamiento
9: DDtrein . Descriptores de entrenamiento discretizados10: if DDtrein = True then11: function MFrec( DDtrein ) . Genera la matriz de frecuencia
12: MFrecT . Matriz de frecuencia conjunto entrenamiento13: if MFrecT = True then14: function ProbIni(MFrecT ) . Probibilidades iniciales de los
descriptores
15: function TProbIni(ProbIn) . Tabla de probabilidades
16: DesV al17: if TProbIni = True then18: function Prob(TProbIni,DesV al) . Probabilidad para el
conjunto de datos.
19: function Norm(Prob) . Normalizar probabilidad
20: Helada . Define si es o no helada21:
endend
endend
4.4.5. Ejemplo
En la presente seccion se realizara un ejemplo con valores aleatorios (no registrados
en la base de datos) para mostrar el funcionamiento del algoritmo desarrollado, para
ello se deben escoger un valor numerico de los descriptores de entrada, para los cuales
se usaran:
Temperatura seca mınima = 3 ◦ C.
Temperatura seca maxima = 18 ◦ C.
Temperatura mınima del aire = 1 ◦ C.
40
Temperatura maxima del aire = 20 ◦ C.
Humedad relativa = 50 %.
Precipitacion = 0.4 mm/h.
Dıa pluviometrico = 2 mm.
Dıa del ano = 14 (enero, mes con probabilidad de helada).
Al ingresar estos datos el algoritmo arroja una serie de matrices, las cuales corroboran
el funcionamiento del algoritmo.
Descriptores
Ingresados 1 1 0 1 0 1 1Deseados 1 1 1 1 1 1 1
Cuadro 4.14: Descriptores de entrada discretizados vs descriptores deseados discretizados.
Se introduce los descriptores discretizados al algoritmo y este hace los calculos necesa-
rios para arrojar la matriz de probabilidades, dichos calculos los hace con base en los
cuadros del 4.8 hasta el 4.13, para este caso arrojo el siguiente cuadro:
Probabilidades por nodos
A B C D E F
Salidas 1 1 1 1 1 1Probabilidad 0.9485 0.7200 0.7800 0.9756 0.9464 0.9841
Cuadro 4.15: Probabilidad generada por nodos.
Como se puede apreciar en el cuadro 4.15 se observa que los valores numericos genera-
dos corresponden a los mismos mostrados en las anteriores tablas.
La probabilidad final del nodo F se debe multiplicar por la probabilidad de que se de
helada en ese dıa del ano y normalizarla, para este caso la probabilidad de que se de
helada en ese dıa del ano es de 0,3049, hay que tener en cuenta, que esa probabilidad
se hizo por meses del ano.
41
Probabilidad final
F DIA Probabilidad sin discretizar Probabilidad discretizada
0.4840 0.3049 0.1475 0.6878
Cuadro 4.16: Probabilidad final mes enero, entradas ejemplo.
Para apreciar el peso que tiene el dıa del ano se ha optado por hacer la misma prue-
ba pero para un dıa del mes de febrero, dicha prueba arrojo la siguiente probabilidad:
Probabilidad
Sı 0.5035
No 0.4965
Cuadro 4.17: Probabilidad final mes de Febrero entradas ejemplo.
Al comparar la tabla 4.16 y 4.17 se evidencia una disminucion de cerca del 20 % por
el hecho de un cambio de mes.
4.5. Resultados
4.5.1. Matriz de confusion
El conjunto de datos de validacion esta compuesto por 1089 datos de los mismos
descriptores de entrada, de los cuales existe evidencia de 45 heladas; al someter el con-
junto de validacion en cada uno de lo modelos desarrollados se obtuvieron las siguientes
matrices de confusion:
- Heladas predecidas
- No helada Helada
Heladasreales
No helada 1040 4
Helada 3 42
Cuadro 4.18: Matriz de confusion de regresion logıstica.
42
- Heladas predecidas
- No helada Helada
Heladasreales
No helada 1039 5
Helada 2 43
Cuadro 4.19: Matriz de confusion de redes bayesianas.
La cuales representan la cantidad de heladas y no heladas predichas correctamente
y las que no fueron correctas, es decir, la columna de No helada que coincide con la fila
de No helada representa el acierto de no heladas predichas correctamente, mientras que
la que coincide con la fila de Helada, fueron no heladas predichas incorrectamente, es
decir, no heladas que realmente fueron heladas. Por otra parte, la columna Helada que
coincide con No helada fueron heladas mal predichas, es decir, heladas que en realidad
no fueron heladas, mientras la que coincide con helada fueron las heladas bien predichas.
De la matriz de confusion se pueden calcular las siguientes metricas:
Reporte de los resultados
Clase precision recall f1- score supporte0 1.00 1.00 1.00 10441 0.91 0.93 0.92 45
Cuadro 4.20: Reporte de resultados. Modelo logıstico.
Reporte de los resultados
Clase precision recall f1- score supporte0 1.00 1.00 1.00 10441 0.90 0.96 0.92 45
Cuadro 4.21: Reporte de resultados. Redes bayesianas.
Donde:
Precision: Indica que tan confiable es el modelo en responder si una instancia co-
rresponde a esa clase.
Recall: Indica que tan bien puede el modelo detectar a esa clase.
Analizando la matrices de confusion se aprecia que ambas tuvieron un comporta-
miento similar, ya que la matriz de la tabla 4.18 tiene siete (7) predicciones erroneas
(haladas y no heladas predichas incorrectamente), igual que la de la tabla 4.19.
43
4.5.2. Log - loss
A continuacion se presentan las graficas de Log Loss, las cuales indican que tan
buenas o malas son las probabilidades predichas por el modelo, para ello se hace uso
de la ecuacion 3.1, la cual se usa dependiendo si es para la clase negativa o positiva, en
ella se reemplazan toda las probabilidades P(x) obtenidas dependiendo el evento Y.
(a) Regresion logıstica (b) Redes bayesianas
Figura 4.10: Log loss para una clase positiva (Helada).
(a) Regresion logıstica (b) Redes bayesianas
Figura 4.11: Log loss para una clase negativa (No Helada).
En las graficas 4.10 (a) y (b) se observa como el costo aumenta a medida que la
probabilidad se acerca a cero para una clase positiva. Por otra parte en las graficas
4.11 (a) y (b) se observa que el costo aumenta a medida que la probabilidad se acerca
a uno para una clase negativa. Un alto costo significa que la probabilidad resultante
del modelo no es tan buena, caso contrario, un bajo costo indica una buena probabilidad.
44
La media de todos los costos del modelo logıstico es 0.01501 y del modelo de redes
bayesianas es 0.0196, siendo este el valor de Cross-Entropy / Log loss, el cual indica un
excelente rendimiento por parte de los modelos.
4.5.3. Curva ROC
Otra forma de validar el rendimiento del modelo es mediante el area bajo de curva
de la ROC (Receiver Operating Characteristic), lo que significa una curva desplazada
hacia arriba y a la izquierda.
(a) Regresion logıstica (b) Redes bayesianas
Figura 4.12: Curva ROC.
Como se puede apreciar se obtuvo un 0.96 en el area bajo la curva en el modelo
logıstico y un 0.98 en el modelo bayesiano, lo cual muestra un buen funcionamiento de
los modelos ya que la maxima area bajo la curva es 1.
4.5.4. Validacion cruzada
Finalizada la implementacion de ambos modelos se procede a realizar la validacion
cruzada para estas, donde se divide el total de datos (5442) en diez grupos y se organizan
aleatoriamente (9 grupos para entrenar y 1 grupo para validar) durante 10 iteraciones,
donde se obtuvo una precision de 0.993016 en el modelo de regresion logıstica y del
0.9948 en el modelo de redes bayesianas; se evidencia una precision similar al que se
obtuvo con el grupo de datos originales, sin embargo, hay que tener en cuenta que como
la validacion cruzada se genera de una manera aleatoria la precision puede variar.
45
4.5.5. Valor esperado
Para el presente proyecto se hace necesario hallar el valor esperado de la temperatu-
ra mınima el cual se hace a partir de la ecuacion 3.2, al introducir los datos necesarios
(del conjunto de validacion) en la ecuacion se obtiene la temperatura mınima que se
espera para el dıa predicho, a continuacion se realizo la tabulacion de los resultados
obtenidos para 10 muestras de prueba.
Figura 4.13: Resultados obtenidos a partir de 10 muestras del conjunto de validacion
Se aprecia que existe una diferencia entre la temperatura mınima real y la tempe-
ratura mınima predicha, esto se debe a que la probabilidad al alejarse del 1 exacto,
genere un mayor error al predecir la temperatura, teniendo en cuenta que es un modelo
probabilıstico.
De igual manera se grafican los valores esperados de la temperatura mınima del
conjunto de validacion vs dıa de prediccion.
46
Figura 4.14: Valor esperado de Temperatura mınima
En la anterior figura se aprecia que hay una concentracion de bajas temperaturas
(zonas delimitadas en rojo) en los primeros 60 dıas del ano, es decir, los primeros dos
meses de este, de igual manera, en los ultimos 120 dıas, los cuales corresponden a los
ultimos cuatro meses del ano.
A diferencia del resultado obtenido de un modelo determinista como una regresion
lineal, el valor esperado (ecuacion 3.2) tiene asociado una probabilidad dada por el
modelo probabilıstico en este caso regresion logıstica.
47
Capıtulo 5
Conclusiones
1. Al implementar el algoritmo de SMOTE a cualquier modelo se evidencia un au-
mento en el rendimiento de los modelos de clasificacion, como lo fue en el caso de
los modelos aquı implementados, donde se redujeron los errores de prediccion, de
igual manera, al someter el conjunto de validacion sobre los modelos realizados
se obtuvieron las matrices de confusion de las cuales se concluye que el modelo
de regresion logıstica tiene una tendencia a predecir no heladas, mientras que el
modelo de redes bayesianas tiene tendencia a predecir heladas.
2. El valor esperado obtenido con la ecuacion 3.2 genera un estimado de la tempera-
tura mınima que se predice para el conjunto de descriptores de entrada, apreciando
las concentraciones de bajas temperaturas que se evidencian en la figura 4.14 y
4.13 se percibe que coinciden con los meses mas secos del ano, es decir, los meses
donde mas heladas se presentan en la zona, por lo cual se concluye que la estima-
cion de la temperatura mınima funciona de una manera ideal para el conjunto de
datos de validacion.
3. Los modelos implementados funcionan de una manera adaptativa, es decir, se
adaptan a cualquier tipo de dato, sin importar su orden, esto se evidencia al
realizar la validacion cruzada, ya que se combinan de diferentes maneras los datos
de validacion y entrenamiento y aun ası se sigue obteniendo una alta precision,
de igual manera, esto se evidencia al realizar la curva ROC ya que cuando el area
bajo la curva se aproxima a 1 se dice que el modelo es adaptativo, en el presente
proyecto se concluye que en el caso del metodo de Redes Bayesianas funciona de
una manera mas adaptativa que el de regresion logıstica.
4. Comparando los valores obtenidos de Log loss de los modelos (0.0196 para redes
bayesiana y 0.01501 para la regresion logıstica), se observa que el valor del modelo
48
de regresion logıstica es menor al de redes bayesianas, indicando que las probabi-
lidades obtenidas del modelo logıstico son mas confiables que las obtenidas de la
Red Bayesiana.
5. Los valores de Recall de la clase positiva (Tabla 4.20 y Tabla 4.21) afirman que
el modelo de Redes Bayesianas es mas confiable a la hora de detectar eventos de
heladas.
49
Bibliografıa
Aguilar, J. A. C. (1997). Respuesta de 36 clones promisorios de melloco (ullucus
tuberosus loz.) al efecto de heladas en dos provincias de la sierra ecuatoriana . Escuela
Superior Politecnica de Chimborazo.
Aluja, T. (2001). La minerıa de datos, entre la estadıstica y la inteligencia artificial.
Artuduaga, R. (1980). Las heladas y su control. toa – temas de orientacion agropecua-
ria.
Bonilla Jose Ebert, R. , Ramırez Jairo. (2006). Metodologıa para el diseno de un
modelo univariado de red neuronal para el pronostico de la temperatura mınima en
la zona de mosquera (cundinamarca, colombia).
Borda Perez Mariela, N. L. E., Tuesca Molina Rafael. (2009). Metodos cuantitativos,
herramientas para la investigacion en salud.
Brownlee, J. (2020). Probability for machine learning.
Cifuentes, V. (2018). Cultivos del paıs podrıan afectarse por heladas traıdas por el
nino.
Caceres, R. A. (1995). Estadıstica multivariable y no parametrica con spss.
Diedrichs Ana Laura, T. W. (2013). Prediction of frost events using machine learning
and iot sensing devices.
Evans Michael J, R. J. (2004). Probabilidad y estadıstica. la ciencia de la incertidumbre.
Friedman, G. (1997). Bayesian network classifier. Kluwer academic publisher .
Gonzales Olga, T. F. (2012). Actualizacion nota tecnica heladas 2012.
Geron, A. (2017). Hands-on machine learning with scikit-learn and tensorflow.
50
Haupt Sue Ellen, L. S., Cowie Jim. (2018). Machine learning for applied weather
prediction. . Amsterdam, Netherlands.
Juez Martel Pedro, D. F. (1997). Probabilidad y estadıstica en medicina.
Latorre, D. A. G. (2014). Caracterizacion, pronostico y alternativas de manejo de las
heladas en el sistema de produccion lechero del valle de ubate y chiquinqura (colombia)
. Universidad Nacional de Colombia.
Malhotra, N. K. (2004). Investigacion de mercados.
MathWorksSupportTeam. (s.f.). What is matlab? Descargado de https://la
.mathworks.com/discovery/what-is-matlab.html ([Accessed: Mai. 2018])
Ministerio de agricultura. (2019).
Mitchell, T. M. (1997). Machine learning.
Moller Acuna Patricia, R. S. J., Ahumada Garcıa Roberto. (2016). Prediction of frost
episodes based in agrometeorological information and machine learning techniques. .
Universidad de Talca, Chile.
Malaga, U. (s.f.). Curvas roc: Eleccion de puntos de corte y area bajo la curva (auc).
Descargado de https://www.bioestadistica.uma.es/analisis/roc1/
Ng, A. (2011). Machine learning.
Ovando Gustavo, S. S., Bocco Monica. (2004). Redes neuronales para modelar prediccion
de heladas. . Universidad Nacional de Cordoba, Argentina.
PythonSupportTeam. (s.f.). What is python? Descargado de https://www.python
.org/doc/essays/blurb/
Rikunert. (s.f.). Smote explained. Descargado de http://rikunert.com/SMOTE
explained ([Accessed: 2019])
Samuel, A. (1959). Machine learning.
Sucar, L. E. (2004). Redes bayesianas. INAOE.
Zelada Carlos, R. (s.f.). Evaluacion de modelos de clasificacion. Descargado de
https://rpubs.com/chzelada/275494
51
top related