![Page 1: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/1.jpg)
Minería de Datos y Aprendizaje Estadístico en Ciencias Biológicas
Carlos Manuel Estévez-Bretón MSc., PhD(c) - 2015
![Page 2: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/2.jpg)
Algo a cerca de miPhD(c) en el Lab de Sistemas
Inteligentes - UNAL.• Analizo funcionalmente el
metabolismo. • Propongo una analogía lingüística. • Aplico Sistemas inteligentes para
obtener información
Otros Proyectos:
Proponer desde la Biología de Sistemas moléculas para un nanosensor de MTB
Proteínas de secreción en helmintos
Sistema de Recomendación de fuentes de financiamiento científico
![Page 3: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/3.jpg)
Modelamiento Estadístico Dos Culturas
Statistical Science 2001, Vol. 16, No. 3, 199–231
![Page 4: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/4.jpg)
• Una asume que los datos son generados por un modelo estocástico de datos.
• La otra usa modelos algorítmicos y trata los mecanismos de datos como desconocidos
Modelamiento Estadístico Dos Culturas
![Page 5: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/5.jpg)
La estadística y los datos
naturaleza xy
Los datos se generan en una «caja negra»
X es un vector de variables de entrada
(independientes)y son las variables de respuesta
Dentro de la caja negra la naturaleza funciona asociando las variables del «predictor» con las de «respuesta»
![Page 6: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/6.jpg)
La estadística y los datos
naturaleza xyDos objetivos en el análisis de datos:
Predicción: Ser capaz de predecir que respuestas van a ver de acuerdo a las variables de entrada futuras
Información: Extraer algo de cómo la naturaleza asocia variables de respuesta a las de entrada.
![Page 7: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/7.jpg)
Cultura del Modelamiento de Datosnaturaleza xy
Inicia asumiendo un modelo estocástico de datos para el interior de la caja negra
Ej. : Un modelo comúnmente usado es que los datos son generados por «sorteos» independientes
variables de respuesta = f ( variables del predictor, ruido aleatorio, parámetros)
![Page 8: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/8.jpg)
Cultura del Modelamiento de Datosregresión lineal
regresión logistica Cox
xy
El valor de los parámetros son estimados a partir de datos y entonces el modelo es usado para información y/o predicción.
Validación del modelo
Si o No, usando pruebas de bondad de ajuste y examen de residuales.
Estimación de la población. 98% de todos los estadísticos
![Page 9: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/9.jpg)
Cultura del Modelamiento Algorítmico
El análisis considera el interior de la caja complejo y desconocido.
La aproximación es la de encontrar una función f(x), que es un algoritmo que opera en x para predecir y.
desconocido xy• árboles de decisión • redes neurales • …
![Page 10: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/10.jpg)
Cultura del Modelamiento Algorítmico
desconocido xy• árboles de decisión • redes neurales • …
Validación del modelo.Medido por la precisión de predicción.
Estimación de la población. 2% de los estadísticos, muchos de otras áreas del conocimiento.
![Page 11: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/11.jpg)
Relación entre las Ciencias
![Page 12: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/12.jpg)
Relación entre las Ciencias
http://today.slac.stanford.edu/images/2009/colloquium-web-collide.jpg
La relación esta dada por la transversalidad de las Tecnologías de la Información y la Comunicación
![Page 13: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/13.jpg)
Interdisciplinariedad
Modificado de :http://www.slideshare.net/AdrianCuyugan/text-mining-association-rules-and-decision-tree-learning-48455111
Bibliotecología
Matemáticas
Procesamiento de Lenguaje
Natural Minería de Datos
Aprendizaje Automatizado
(Machine Learning)
Minería de Texto
EstadísticaIA
Administración de Bases de Datos
Ciencias de la Computación
![Page 14: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/14.jpg)
Aprendizaje Automático
MLMinería de
Datos
Conocimiento Curado
Sistemas Inteligentes(IA)
Ciencias de la Computación
Big
Dat
a
Modificado de: https://inovancetech.com/buzzwords.html
Sistemas Inteligentes (AI): son un subcampo de las Ciencias Computacionales (CC).
Aprendizaje Automatizado (ML): Método para desarrollar algoritmos para reconocer patrones dentro de los datos..
Minería de Datos (DM): Es una Comprende la totalidad del proceso de descubrimiento de información, preparación datos y limpieza de datos, análisis, postprocesamiento y visualización de resultados.
Usa técnicas desarrolladas en ML y estadística
![Page 15: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/15.jpg)
Subcategorías de DM
RegresiónAprendizaje
por reglas de asociación
Detecciónde
Anomalías
Clasificación
Agrupamiento«Summarization»
Existen diferentes métodos y algoritmos para cada Categoría. Ej:
Clasificación: SVM, ANN, CTrees, CN.2, RandomForest, KNN, NaiveBayes, Regresión Logística
Regresión: SVM, Lineal, KNN, PADE, PLS, Media.
Agrupamiento: Jerárquico, Grafos de Interacción, MDS, SOM, K-Means, Mapas de Distancias.
![Page 16: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/16.jpg)
Aprendizaje por reglas de Asociación
![Page 17: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/17.jpg)
Aprendizaje por reglas de Asociación
SOMReducción de
Dimencionalidad
AgrupamientoReglas de AsociaciónModelamiento
Estadístico
Recomendadores
Métodos de Kernel
Aprendizaje Supervisado
Aprendizaje NO Supervisado
![Page 18: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/18.jpg)
Supervisado
RefuerzoNo Supervisado
Aprendizaje
• Datos Etiquetados • Retroalimentación Directa • Predice la salida/futuro
• Sin Etiquetas • Sin Retroalimentación • Busca la «estructura
subyacente»
• Procesos de decisión • Sistemas de
bonificación • Aprende series de
actos
![Page 19: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/19.jpg)
No Supervisado
No se tienen etiquetas o marcas.
No se conocen a priori las relaciones entre los datos
Metagenómica
![Page 20: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/20.jpg)
No Supervisado
http://us.hudson.com/portals/US/images/blogs/legal/wp/2011/09/Unsupervised-Learning2.jpg
![Page 21: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/21.jpg)
SupervisadoSe sabe que experimentos se realizaron, su significado, condiciones.
Cientos o miles de datos plenamente identificados.
Transcriptómica: Microarreglos, RNA Seq
![Page 22: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/22.jpg)
Supervisado
http://kurniawan03.blog.binusian.org/files/2014/05/Supervised-Learning1.jpg
![Page 23: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/23.jpg)
Aprendizaje Supervisado
Colecta de Datos Crudos
Pre-ProcesamientoDatos Faltantes
Extracción de Características
Muestreo
Entrenamiento del Conjunto de Datos
Validación Cruzada
Pre-ProcesamientoEvaluar
Conjunto de Datos
Nuevos datos
Extracción de Características
Reducción de Dimensionalidad
Escalar Características
Refinamiento
Selección del Modelo
Métricas de Desempeño
Entrenamiento de Algoritmo de Aprendizaje
Optimización de Hiperparámetros
Post-Procesamiento
Clasificación Final/ Modelo de Regresión Adaptado: de Sebastian Raschka
![Page 24: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/24.jpg)
• Escalamiento de características• Ej. estandarización • Rápida convergencia • Distancias en la misma escala
(k-NN Dist. Euclidiana) • Centrado por media • Datos distribuidos
normalmente • Estabilidad numérica evitando
pequeños pesos.
• Valores faltantes• Remover características
(columnas) • Remover muestras (filas) • Imputar (media,
Vecindad, …)
• Muestreo• División aleatoria entre conjuntos
de datos de entrenamiento y validación.
• Típicamente 60/40, 70/30, 80/20 • No usar conjunto de validación
hasta el puro final (sobreentrenamiento)
![Page 25: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/25.jpg)
Nomenclatura
sepal length sepal width petal length petal width class5.1 3.5 1.4 0.2 Iris-setosa4.9 3.0 1.4 0.2 Iris-setosa4.7 3.2 1.3 0.2 Iris-setosa4.6 3.1 1.5 0.2 Iris-setosa5.0 3.6 1.4 0.2 Iris-setosa5.4 3.9 1.7 0.4 Iris-setosa4.6 3.4 1.4 0.3 Iris-setosa
Iris
Instancias (muestras, observaciones)
Características (atributos, dimensiones, experimentos)
Clases (objetivo)
![Page 26: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/26.jpg)
Variables CategóricasColor Tamaño Precio Clase
1 verde M 10.1 clase12 rojo L 13.5 clase23 azul XL 15.3 clase1
Color=azul
Color=verde
Color= Rojo Precio Clase Tamaño
1 0 1 0 10.1 0 12 0 0 1 13.5 1 23 1 0 0 15.3 0 3
nominalazul (1,0,0) verde (0,0,1) rojo (0,1,0) ordinal
M 1 L 2 XL 3
![Page 27: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/27.jpg)
Validación cruzada
Es una de las técnicas para evaluar diferentes selecciones de combinaciones de características.
Existen multiples sabores de validación cruzada, el más común podría ser «k-fold cross-validation».
Conjunto de Datos Completo
Conjunto de Datos de Entrenamiento
Conjunto de Datos de Validación
Conjunto de
Validación
Conjunto de
Validación
Conjunto de
Validación
Conjunto de
Validación
fold 1 fold 2 fold 3 fold 4
k-fold cross-validation (k=4)
1ª iteración
2ª iteración
3ª iteración
4 iteración
calc error
calc error
calc error
calc error
cálculo de error
promedio
![Page 28: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/28.jpg)
Evaluación del Modelo
1-Especificidad/Taza de falsas alarmas
Taza de Error = 1 - Exactitud
Variable de Respuesta Evaluada:Y es realmente:
Positiva Negativa
Positiva
Negativa
# Falsa Negativa
# Verdadera Negativa
# Falsa Positiva
# Verdadera Positiva
VP+VNP+NExactitud =
Precisión = VPVP+FP
Recall/Sensibilidad= VPVP+FN
Especificidad /Verdadera Taza de Error = VNVN+FP
Matriz de Confusión
![Page 29: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/29.jpg)
Evaluación del Modelo
http://www.intechopen.com/source/html/38584/media/image56.jpeg
Área bajo la Curva ROC - AUC
http://wwww.cbgstat.com/v2/method_ROC_curve_MedCalc/images/ROC_curve_MedCalc_Snap17.gifTaza de Falsos Positivos
True positive rate
Taza
de
Verd
ader
os P
ositi
vos
![Page 30: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/30.jpg)
Clasificación & Agrupamiento
![Page 31: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/31.jpg)
Clasifiquen…
![Page 32: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/32.jpg)
![Page 33: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/33.jpg)
¿Cuantas Cases hay? ¿Cuáles objetos en cada una? ¿Qué hace que estén en Cada Clase?
![Page 34: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/34.jpg)
Fácil, no?
![Page 35: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/35.jpg)
Ahora…
![Page 36: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/36.jpg)
![Page 37: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/37.jpg)
¿Cuantas Cases hay? ¿Cuáles objetos en cada una? ¿Qué hace que estén en Cada Clase?
![Page 38: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/38.jpg)
…. y ahora….
![Page 39: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/39.jpg)
15-7
15. Classification And Evolution
FOSSILS (continued)
15-7
15. Classification And Evolution
FOSSILS (continued)
15-6
15. Classification And Evolution
LIVING CAMINALCULES
FOSSIL CAMINALCULES(numbers in parentheses indicate age in millions of years)
15-6
15. Classification And Evolution
LIVING CAMINALCULES
FOSSIL CAMINALCULES(numbers in parentheses indicate age in millions of years)
![Page 40: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/40.jpg)
¿Un poco mas complicado?
¿Por qué?
![Page 41: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/41.jpg)
Etiquetas
Características
![Page 42: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/42.jpg)
Aprendizaje
![Page 43: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/43.jpg)
Clasificación
X2
X1 ?
1) Aprender de los datos de entrenamiento
2) Mapear nuevos datos (nunca vistos)
![Page 44: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/44.jpg)
Clasificadores Comunes
Perceptron Multicapa
Bayesiano Ingenuo
Regresión Logística
KNN- K Vecinos más Cercanos
Redes Neurales Artificiales - AAN / Aprendizaje Profundo
Máquinas de Soporte Vectorial - SVM
Árboles de Decisión
C4.5
![Page 45: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/45.jpg)
C4.5• Construye un clasificador en forma de un árbol de decisión.
• Usa ganancia de Información en el proceso de generación del árbol.
• A pesar de que otros sistemas también incorporan podado, C4.5 utiliza un proceso de podado de un solo paso para mitigar el sobreentrenamiento.
• Puede trabajar tanto con datos continuos como con discretos.
• Third, C4.5 can work with both continuous and discrete data. Hace esto especificando rangos o umbrales para los datos continuos convirtiendo así a los datos continuos en datos discretos.
![Page 46: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/46.jpg)
K Nearest Neighbor - KNN• Este es un método de clasificación no
paramétrico, que estima el valor de la función de densidad de probabilidad o directamente la probabilidad a posteriori de que un elemento x pertenezca a la clase Cj a partir de la información proporcionada por el conjunto de prototipos.
• En el proceso de aprendizaje no se hace ninguna suposición acerca de la distribución de las variables predictoras.
![Page 47: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/47.jpg)
Support Vector Machine (SVM)• Muestren hiperplanos que son capaces
de separar dos o múltiples clases. Eventualmente el hiperplano con el mayor margen se selecciona, el margen es definido como la distancia mínima de los puntos de muestra al hiperplano. Las muestra (puntos) que forman el margen son llamadas vectores de soporte y establecen el modelo SVM
![Page 48: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/48.jpg)
Support Vector Machine (SVM)
![Page 49: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/49.jpg)
Clasificador Bayesiano• El Teorema de Bayes: calcula el la
probabilidad posterior basado en la probabilidad del prior, en lo que se llama también verosimilitud.
• Un clasificador Bayesiano Ingenuo asume que todos los atributos son condicionalmente independientes, de este modo, computar la verosimilitud se simplifica al cálculo del producto de las probabilidades condicionales de los atributos de los individuos observados dada una clase.
![Page 50: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/50.jpg)
Clasificador BayesianoVerosimilitud
Probabilidad de la clase prior
Probabilidad del posterior
Predictor de Probabilidad del prior
Posterior = Anterior * ProbabilidadEvidencia
![Page 51: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/51.jpg)
Redes Neurales Artificiales (ANN)
• Clasificadores de tipo grafo bioinspirados en el cerebro animal donde los los nodos interconectados representan neuronas.
![Page 52: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/52.jpg)
Árboles de Decisión • Son grafos tipo árbol, en los que los
nodos del grafo evalúan ciertas condiciones en un grupo particular de características y las ramas van dividiendo la decisión hasta llegar a los nodos hoja.
• Las hojas representan los niveles mas bajos en el grafo y determina las etiquetas de las clases. El árbol óptimo se entrena minimizando con «Gini Impurity*» o maximizando la ganancia de información.
*Es una medida de que tan frecuentemente un elemento del conjunto escogido aleatoriamente puede ser etiquetado de forma incorrecta, si este fuera aleatoriamente marcado acorde a la distribución de etiquetas en el subconjunto.
![Page 53: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/53.jpg)
Hiperparámetros• Los hiperparámetros de un clasificador o estimador que no son directamente
aprendidos en el paso de aprendizaje estadístico de los datos de entrenamiento, son optimizados de forma separada.
• El objetivo de la optimización de hiperparámetros es el de mejorar el desempeño del un clasificador y lograr una buena generalización del algoritmo de aprendizaje.
• Un método popular de optimización es «grid Search», que típicamente es implementado como una búsqueda, en contraste con la optimización aleatoria.
• Después de todas las posibles combinaciones de parámetros para un modelo, se evalúan, se retiene la mejor combinación.
![Page 54: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/54.jpg)
Agrupamiento Jerárquico• Es un método de agrupamiento que busca construir una jerarquía de
grupos. Usa estrategias de dos tipos:
• Aglomerativa: Una aproximación «Bottom UP», cada observación inicia con un único grupo, y pares de grupos van emergiendo a medida que uno se mueve hacia la parte superior de la jerarquía.
• Divisiva: Es la aproximación «Top Down» todas las observaciones forman un único grupo en el que las divisiones ocurren recursivamente a medida que se mueve hacia abajo en la jerarquía.
• En general, las uniones y divisiones son determinadas de forma voraz.
• El resultado del agrupamiento usualmente ese presenta en forma de dendrograma
![Page 55: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/55.jpg)
k-meansk-means crea k grupos de un conjunto de objetos de forma tal que los miembros de los grupos sean los mas similares entre ellos.
Es una técnica de análisis de agrupamiento popular en la exploración de conjuntos de datos.
¿Cómo sabe cuál es el mejor k?
Silhouette
![Page 56: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/56.jpg)
Mapa Auto-Organizado - SOM• Es un tipo de red neuronal artificial,
entrenada usando aprendizaje no supervisado para producir una representación discreta del espacio de las muestras de entrada, llamado mapa.
• Usan una función de vecindad para preservar las propiedades topológicas del espacio de entrada.
• Son útiles para visualizar vistas de baja dimensión de datos de alta dimensión, semejante a un escalado multidimensional.
![Page 57: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/57.jpg)
Nada es gratis…Los modelos son una simplificación de la realidad
La simplificación es basada en presunciones (sesgo del modelo)
Las presunciones fallan en algunas ocaciones
No existe un único modelo que funcione igual de bien para todas las situaciones
![Page 58: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/58.jpg)
¿Cuál Algoritmo Escoger?• ¿Cuál es el tamaño y dimensionalidad del conjunto de entrenamiento?
• ¿Son los datos lineaments separables?
• ¿Que tanto hay que preocuparse por la eficiencia computacional
• Construcción del modelo vs tiempo real de predicción
• Aprendizaje:
• ansioso vs perezoso / en línea vs en lote / desempeño de predicción vs velocidad
• ¿Debe tenerse cuidado en la interpretabilidad de los resultados?
• ….
![Page 59: Datamining y Machine Learning para Ciencias Biológicas](https://reader031.vdocumento.com/reader031/viewer/2022021502/587caca41a28ab356c8b6c51/html5/thumbnails/59.jpg)