clasificacion y regresion mediante aprendizaje supervisado

67
Aprendizaje Supervisado Clasificación y regresión mediante aprendizaje supervisado Constantino Malagón Luque [email protected]

Upload: gerardo-demiguel

Post on 04-Jul-2015

3.661 views

Category:

Documents


2 download

DESCRIPTION

Procesos de extracción de conocimiento a partir de los datos en bruto. Modelos para la extracción del conocimiento mediante métodos de aprendizaje supervisado: clasificación y regresión. Presentación realizada por Prof. Constantino Malagón Luque. Departamento de Ingeniería Informática. Universidad Antonio de Nebrija. Presentación dada con motivo de los encuentros del Observatorio Virtual Español de astronomía y astrofídica

TRANSCRIPT

Page 1: Clasificacion y regresion mediante aprendizaje supervisado

Aprendizaje Supervisado

Clasificación y regresión mediante aprendizaje supervisado

Constantino Malagón Luque

[email protected]

Page 2: Clasificacion y regresion mediante aprendizaje supervisado

2

Agenda Introducción a lo que veremos (y lo

que no) durante esta hora y media. Uff, ¿hora y media?

Modelos para la extracción del conocimiento mediante métodos de aprendizaje supervisado Clasificación / Regresión

Ejemplo de aplicación

Page 3: Clasificacion y regresion mediante aprendizaje supervisado

3

Lo que deberíamos saber al final...

No mucho... Aunque habré oído hablar de algunos

algoritmos que me servirán algún día de estos...

Y me acordaré de esas charlas que me dieron durante dos días.

Page 4: Clasificacion y regresion mediante aprendizaje supervisado

Extracción del conocimiento

Page 5: Clasificacion y regresion mediante aprendizaje supervisado

5

Data mining como proceso

Obtener un conjunto de datos en formato tabular y con atributos bien definidos.

Preparación de datos

Aplicación de una o más técnicas.

Construcción del modelo

Garantizar que el modelo tendrá un buen rendimiento.

Validación

Generar resultados con el modelo.

Aplicación

Page 6: Clasificacion y regresion mediante aprendizaje supervisado

6

Fase 1:Preparación de los datos

Esto lo vimos en la charla anterior. Menos mal porque es lo más tedioso Y lo que más tiempo lleva casi siempre en los

experimentos

Page 7: Clasificacion y regresion mediante aprendizaje supervisado

7

Datos

Pero recordad que estamos con aprendizaje supervisado

Así que lo que yo pido son tablas con todos los datos, y deben estar etiquetados con su clase

Page 8: Clasificacion y regresion mediante aprendizaje supervisado

8

Fase 2:Construcción del modelo

En esta fase pasaremos la siguiente hora y veinte

Y, ¿qué es lo que veremos?

Page 9: Clasificacion y regresion mediante aprendizaje supervisado

9

Modelos

Nuestro objetivo es analizar los datos para extraer conocimiento.

Este conocimiento puede ser en forma de reglas, relaciones, asociaciones, patrones o, en general, modelos.

Pues esto es lo que veremos: diferentes técnicas para la construcción de modelos que me permitan clasificar / predecir.

Page 10: Clasificacion y regresion mediante aprendizaje supervisado

10

Construcción del modelo

Nosotros veremos estos: Arboles de decisión Redes neuronales Redes bayesianas K-NN

Page 11: Clasificacion y regresion mediante aprendizaje supervisado

11

Construcción del modelo

Pero hay muchos más: Suport vector machines Aprendizaje por refuerzo Aprendizaje basado en casos Diferentes tipos de regresión

Page 12: Clasificacion y regresion mediante aprendizaje supervisado

12

Construcción del modelo

Y no sólo eso, sino que se pueden combinar (ensemble of classifiers) Combinadores homógeneos

Bagging Boosting

Combinadores hetereogéneos Stacking grading

Veremos algunos de estos también. Al final resulta que esto no parece que sea tan

fácil

Page 13: Clasificacion y regresion mediante aprendizaje supervisado

13

Un ejemplo de clasificación

Page 14: Clasificacion y regresion mediante aprendizaje supervisado

14

Ejemplo de aplicación

Clasificación de rayos gamma en Astrofísica.

Descripción del problema: Cascadas electromagnéticas debido al

choque con moléculas de la atmósfera Se trata de clasificar aquellos fotones

producidos por rayos gamma muy energéticos de los hadrones que se producen (background).

Esta información permitirá inferir información del objeto que los ha producido

Page 15: Clasificacion y regresion mediante aprendizaje supervisado

15

Los datos del experimento proceden del telescopio Cherenkov MAGIC situado en el observatorio de Roque de los Muchachos en la isla canaria de La Palma y perteneciente al Instituto Astrofísico de Canarias.

Ejemplo de aplicación

Page 16: Clasificacion y regresion mediante aprendizaje supervisado

16

Ejemplo de aplicación

Page 17: Clasificacion y regresion mediante aprendizaje supervisado

17

Datos procedentes de simulación por métodos de Monte Carlo. A falta de expertos...

Los datos generados se transforman en una elipse, a partir de los cuales se obtienen los llamados parámetros de Hillas.

Por ejemplo, longitud de los ejes mayor y menor de la elipse generada en la cámara, ángulo cenital, distancia al origen, etc.)

Ejemplo de aplicación

Page 18: Clasificacion y regresion mediante aprendizaje supervisado

18

Cojamos por simplicidad dos de esos atributos: el eje mayor y el eje menor de la elipse.

Con estos datos intentaremos construir un sistema clasificador.

Ejemplo de aplicación

Page 19: Clasificacion y regresion mediante aprendizaje supervisado

19

Ejemplo de aplicación

Veamos cómo son nuestros datos:

Eje mayor elipse (X) Eje menor elipse (Y) Gamma19,119 11,978 Sí88,709 8,637 Sí63,100 21,900 Sí48,050 13,550 Sí69,989 18,122 No22,777 12,708 No

121,603 59,445 No

Page 20: Clasificacion y regresion mediante aprendizaje supervisado

20

Árboles de decisión

Esto es lo que buscamos.

Y (eje menor)

X (eje mayor)

Y (eje menor)SI

Si

x= < 5

5< x< 12

y= < 33y> 33

NoSi

y< 8.08y> = 8.08

x> = 12

No

Page 21: Clasificacion y regresion mediante aprendizaje supervisado

21

Algoritmo ID3

Propuesto por Ross Quinlan (Quinlan., 1986)

Se evalúa cada atributo para elegir el más representativo para nuestro conjunto de datos.Criterio de la entropía de Shannon (ya visto)

Tendremos descripciones conjuntivas según vamos bajando en cada rama.

Page 22: Clasificacion y regresion mediante aprendizaje supervisado

Lu is Talavera UNED, Marz o 200422

Regiones de decisión

1 2 3 4

1

2

3

4X>2

X>1

Y>2 Y>1

Y>3

Regiones de decisión paralelas a los ejes y en forma de “escalón”.

Page 23: Clasificacion y regresion mediante aprendizaje supervisado

23

Regresión con árboles

Árboles de regresión: predicen la media de los valores de una hoja.

CART, (Breiman et al.,1984).

Page 24: Clasificacion y regresion mediante aprendizaje supervisado

24

Redes neuronales artificiales

Page 25: Clasificacion y regresion mediante aprendizaje supervisado

Lu is Talavera UNED, Marz o 200425

La neurona biológica

Cargada electronegativamente: -70meV

Canales iónicos Si supera este umbral

se produce una diferencia de potencial

¡Y tenemos información!

Page 26: Clasificacion y regresion mediante aprendizaje supervisado

Lu is Talavera UNED, Marz o 200426

La neurona artificial

Linear Threshold Units (LTU) Similitud biológica

Σx1

x2

xn

w0

x0=1

Y

X1

X2

X3

Unidad de entrada

Capa j de entrada Capa i de salida

w11

w12

w13

Pesos wij

Perceptrón simple

Capa de entrada

Capa de salida

Page 27: Clasificacion y regresion mediante aprendizaje supervisado

27

Se presenta el primer patrón. ¿Qué le llega a la neurona de salida? Se calcula

el Netinputi como suma ponderada Netinputi = w0 + w11x1 + w12x2 + ... + w1nxn

Se calcula la activación en la neurona i mediante una función de activación lineal - umbral

1 Netinputi > 0

0 en caso contrario

No lineal – sigmoide ai=1/(1+exp(-Netinput

i))

El perceptrón simple: algoritmo

Page 28: Clasificacion y regresion mediante aprendizaje supervisado

28

Se computa el error cometido: δi = (ti - yi)

“lo que debe salir menos lo que sale”

Si el error es cero, ha clasificado bien Si no la red modifica sus pesos para

que en la siguiente iteración ese error disminuya.

El perceptrón simple: algoritmo

Page 29: Clasificacion y regresion mediante aprendizaje supervisado

29

El perceptrón simple: algoritmo

Siempre de acuerdo a una regla de aprendizaje

Δwij=wijf - wij

o=εxjδi

Esta es la famosa regla delta de aprendizaje

Page 30: Clasificacion y regresion mediante aprendizaje supervisado

30

El perceptrón simple: algoritmo

En nuestro caso: Netinputi = -1+(-0.2)*19.119+0.1*11.978= -3.633 ai = y i = 0

X= 19.119

Y= 11.978

X0

0.1

- 0.2

W0= - 1

Page 31: Clasificacion y regresion mediante aprendizaje supervisado

31

El perceptrón simple: algoritmo

En nuestro caso: Netinputi = -1+(-0.2)*19.119+0.1*11.978= -3.633 ai = y i = 0

X= 19.119

Y= 11.978

X0

0.1

- 0.2

W0= - 1

Y1s= 0

Hadrón

Page 32: Clasificacion y regresion mediante aprendizaje supervisado

32

El perceptrón simple: algoritmo

Pero no es un hadrón, así que cambio mis pesos:

Δw11=εx1δ1= 0.4*19,119*(1-0)=7.64

Δw12=εxjδi= 0.4*11,978*(1-0)=4,7912

La próxima vez mi red lo hará mejor

Page 33: Clasificacion y regresion mediante aprendizaje supervisado

Lu is Talavera UNED, Marz o 200433

Regiones de decisión

1 + (-1)X + 1Y

w0 = 1

w11 = -1

w12 = 1

Representa hiperplanos no necesariamente paralelos a los ejes.

Conceptos linealmente separables

1 2 3 4

1

2

3

4

Page 34: Clasificacion y regresion mediante aprendizaje supervisado

34

El percetrón multicapa

El perceptrón es el tipo más sencillo posible de red neuronal.

Pero, ¿y si no son linealmente separables? - (Papert & Minsky, 1966)

El problema famoso de la función XOR

Page 35: Clasificacion y regresion mediante aprendizaje supervisado

35

El percetrón multicapa

Podemos crear redes más complejas añadiendo más capas (multilayer perceptron, MLP).

En la capa intermedia la representación de los patrones es linealmente separable.

Y cambiar la regla de aprendizaje. backprogation (Rumelhart et al., 1986).

Page 36: Clasificacion y regresion mediante aprendizaje supervisado

36

El perceptrón multicapa

Introducir la capa oculta (hidden)

X2

X1s

X0

W2,2h

W1,1h

X1h

X2h

W1,2h

W2,2h

W1h,1s

W2h,1s

W0

Y1s

McClelland, 1986

Page 37: Clasificacion y regresion mediante aprendizaje supervisado

37

El perceptrón multicapa

En nuestro caso

X= 19.119

Y= 11.978

X1s

X0

- 0.1

- 0.2

X1h

X2h

0.6

0.55

0.4

0.11

W0= - 1

Y1s= 0.87

¡Valor supuesto!

Page 38: Clasificacion y regresion mediante aprendizaje supervisado

38

Regiones de decisión MLP

w1

w1

w1

w2

w2

w2

Page 39: Clasificacion y regresion mediante aprendizaje supervisado

39

Redes Bayesianas

Page 40: Clasificacion y regresion mediante aprendizaje supervisado

Lu is Talavera UNED, Marz o 200440

¿Qué es una red bayesiana? Es un grafo dirigido acíclico (GDA)

...

X

Y Z

NJ

Page 41: Clasificacion y regresion mediante aprendizaje supervisado

41

Redes Bayesianas

Cada nodo aleatorio viene descrito por:

probabilidad de observar el valor zi del atributo Z conocido que el padre toma el valor xi

P(Z=zk | X=xi)

Nodos sin padresP(X=xi)

Page 42: Clasificacion y regresion mediante aprendizaje supervisado

42

Redes Bayesianas

En principio relación causal Inferencia basada en:

Conocimiento de evidencias Propiedades de independencia

condicional (propiedades de Markov) Teorema de Bayes

Page 43: Clasificacion y regresion mediante aprendizaje supervisado

Lu is Talavera UNED, Marz o 200443

¿Qué es Naive Bayes?

¿Una red bayesiana ingenua?

Clase

Atributo1 Atributo2 AtributoN

...

Page 44: Clasificacion y regresion mediante aprendizaje supervisado

44

Redes Bayesianas

Un concepto se representa por:

probabilidad de observar el valor Vij del atributo Ai en la clase k

P(Ai=Vij | Ck)

probabilidad de observar la clase kP(Ck)

Page 45: Clasificacion y regresion mediante aprendizaje supervisado

45

Redes Bayesianas

No se construye un modeloAtributos nominales: la probabilidad se

obtiene a partir de frecuencias.Se calcula el número de veces que se da

cada valor para cada clase.

Page 46: Clasificacion y regresion mediante aprendizaje supervisado

46

Estimación de parámetros

Por las propiedades de Markov, es suficiente con estimar la probabilidad a priori de la clase junto con las probabilidades condicionadas de cada atributo dada la clase.

MAP (maximum a posteriori)

Page 47: Clasificacion y regresion mediante aprendizaje supervisado

47

Ejemplo de aplicación

En nuestro ejemplo (discretizando)

Eje mayor elipse (X) Eje menor elipse (Y) GammaCorto Corto SíLargo Corto SíLargo Medio SíMedio Medio SíMedio Corto NoCorto Medio NoLargo Largo No

Page 48: Clasificacion y regresion mediante aprendizaje supervisado

48

Estimación de parámetros

En nuestro ejemplo: Si viene un ejemplo (X= corto, Y=medio) P(Gamma)=4/7 P(X=corto|gamma)= 1/4 P(Y=medio|gamma)= 2/4 p(gamma|X=corto,

Y=medio)=4/7*1/4*2*4=1/14=0.07 ******************************* P(Hadrón)=3/7 P(X=corto|hadrón)= 1/3 P(Y=medio|hadrón)= 1/3 p(hadrón|X=corto,

Y=medio)=3/7*1/3*2*3=2/21=0.095

Page 49: Clasificacion y regresion mediante aprendizaje supervisado

49

Clasificación

Así que lo clasificamos como hadrón. Con probabilidad 0.095/0.07+0.095=0.5757

¿Podemos concluir que es un hadrón?

Page 50: Clasificacion y regresion mediante aprendizaje supervisado

50

Tampoco se construye un modelo, simplemente almacenamos las instancias (Lazy Learning).

Todo el trabajo se realiza en el momento de la predicción.

Basado en la noción de prototipo. Para realizar una predicción se busca la

instancia más similar.

Aprendizaje basado en ejemplos

Page 51: Clasificacion y regresion mediante aprendizaje supervisado

Lu is Talavera UNED, Marz o 200451

Regiones de decisión

Cada instancia genera una región de decisión convexa (diagramas de Voronoi)

Pero la combinación no tiene porqué serlo.

1 2 3 4

1

2

3

4

Page 52: Clasificacion y regresion mediante aprendizaje supervisado

52

K vecinos más cercanos

Algoritmo K-NN. Calcular la distancia utilizando las k instancias más cercanas

La clase se elige por votación.Modificación: Dar diferentes pesos en la

votación en función de la distancia al ejemplo que se quiere clasificar.

Page 53: Clasificacion y regresion mediante aprendizaje supervisado

53

Aprendizaje basado en instancias

Problemas: Es costoso (computación) No tolera muy bien el ruido (ampliar K) Atributos discretos Valores desconocidos para un atributo

Page 54: Clasificacion y regresion mediante aprendizaje supervisado

54

Ejemplo de aplicación

Nuestro ejemplo

Eje mayor elipse (X)Eje menor elipse (Y) Gamma Distancias19,119 11,978 Sí 36,4588,709 8,637 Sí 88,7463,100 21,900 Sí 64,0648,050 13,550 Sí 48,1369,989 18,122 No 70,3722,777 12,708 No 22,85

121,603 59,445 No 130,96

55,55 10,84

Page 55: Clasificacion y regresion mediante aprendizaje supervisado

55

Ejemplo de aplicación

Nuestro ejemplo

Eje mayor elipse (X)Eje menor elipse (Y) Gamma Distancias19,119 11,978 Sí 36,4588,709 8,637 Sí 88,7463,100 21,900 Sí 64,0648,050 13,550 Sí 48,1369,989 18,122 No 70,3722,777 12,708 No 22,85

121,603 59,445 No 130,96

K=155,55 10,84 HADRÓN

Page 56: Clasificacion y regresion mediante aprendizaje supervisado

56

Combinación de clasificadores

Page 57: Clasificacion y regresion mediante aprendizaje supervisado

57

Combinación de clasificadores

Hablaremos de metaclasificadores

Opitz, (1999)

Page 58: Clasificacion y regresion mediante aprendizaje supervisado

58

Combinación de clasificadores

Comité de expertos En la predicción la mayoría gana Se necesita diversidad en el error

cometido por los modelos

Page 59: Clasificacion y regresion mediante aprendizaje supervisado

59

Bagging

Bootstrap aggregating Dado un conjunto de entrenamiento D de

tamaño N, se generan K nuevos conjuntos de entrenamiento de tamaño N' (N' < N)

Se muestrean ejemplos de D, y pueden aparecer repetidos en los conjuntos obtenidos.

Page 60: Clasificacion y regresion mediante aprendizaje supervisado

60

Bagging

Generamos entonces un modelo para cada nuevo conjunto de entrenamiento

Combinación: Por votación (clasificación) Sacando la media de las predicción (regresión)

Reduce el error (reduciendo la varianza) Típico usarlo con árboles de decisión (pero no

tiene por qué ser así)

Page 61: Clasificacion y regresion mediante aprendizaje supervisado

61

Otras combinaciones

Boosting Adaboost (Freund, 1996) – la salida de un modelo

influye en el siguiente, poniendo énfasis en los errores del modelo anterior

Random Forest – variante de bagging Combinadores híbridos (o heterogéneos)

Se pueden combinar modelos de diferentes tipos Pueden haber grados (clasificadores base y árbitro)

Page 62: Clasificacion y regresion mediante aprendizaje supervisado

62

Fase 3:Evaluación de los modelos

Page 63: Clasificacion y regresion mediante aprendizaje supervisado

63

Evaluación de los modelos

Esto lo veremos después

Page 64: Clasificacion y regresion mediante aprendizaje supervisado

64

Referencias

Aha D. W., Kibler D. & Albert M. K. (1991). Instance based learning algorithms. Machine Learning 6, 37-66.

Bishop C. (1995). Neural Networks for Pattern Recognition, Clarendon Press, Oxford.

Breiman L., Friedman J., Olshen R. & Stone C.(1984). Classification and Regression Trees, Wadsworth International

Breiman L. (1996). Bagging Predictors, Machine Learning, Volume 24, Number 2 / August, pages 123-140

Domingos P.& Pazzani M. (1997). On the Optimality of the Simple Bayesian Classifier under Zero-One Loss, Machine Learning, 29(2-3), 103-130

Freund Y., Schapire R. E., (1996). Experiments with a new boosting algorithm, Machine Learning: Proceedings of the Thirteenth International Conference (ICML '96)

Kuncheva L.(2004) Combining pattern classifiers. Wiley.

Page 65: Clasificacion y regresion mediante aprendizaje supervisado

65

Referencias

Langley P., Iba W. & Thompson K. (1992). An analysis of Bayesian classifiers. Proceedings of the Tenth National Conference on Artificial Intelligence, 223-228.

Lippmann R. P. (1987). An introduction to computing with neural nets, IEEE ASSP Magazine, 4-22.

McClelland J.L. , Rumelhart D.E. and the PDP Research Group (1986). Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Volume 2: Psychological and Biological Models, Cambridge, MA: MIT Press

Minsky M. ,Papert S. (1969) Perceptrons (Cambridge, MA: MIT Press)

Mitchell T. M. (1997). Machine Learning,McGraw Hill.

Opitz,D., Maclin R., (1999). Popular ensemble methods: An empirical study, Journal of Artificial Intelligence Research, Volume 11, pages 169-198

Quinlan J. R. (1986). Induction of Decision trees, Machine Learning 1(1), 81-106.

Quinlan J. R. (1992). Learning with Continuous Classes.

Proceedings of AI92.

Page 66: Clasificacion y regresion mediante aprendizaje supervisado

66

Referencias

Rosenblatt F. (1958), The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain, Cornell Aeronautical Laboratory, Psychological Review, v65, No. 6, pp. 386-408.

Rumelhart D. E.,Hinton G.,Williams R. J. (1986). Learning internal representations by error propagation. Parallel Distributed Processing: Explorations in the microstructure of cognition (Vol. 1). MIT Press.

Ting, K. M., & Witten, I. H.. Issues in stacked generalization. Journal of Artificial Intelligence Research, 10 (1999) 271-289

Wolpert, D. Stacked generalization. Neural Networks 5(2). (1992) 241-260

Page 67: Clasificacion y regresion mediante aprendizaje supervisado

67

¡Muchas gracias!

Turno de agresiones y preguntas (mejor primero las preguntas)