aplicaciones difusas: algoritmo k medias

20
UNIDAD 3: APLICACIONES DE APRENDIZAJE NO SUPERVISADO 1. Agrupamiento de datos: algoritmo de k-media Autor(es ): Mtr. Luis Fernando Aguas

Upload: luis-fernando-aguas-bucheli

Post on 10-Jan-2017

77 views

Category:

Art & Photos


0 download

TRANSCRIPT

Page 1: Aplicaciones Difusas: Algoritmo k medias

UNIDAD 3: APLICACIONES DE APRENDIZAJE NO SUPERVISADO

1. Agrupamiento de datos: algoritmo de k-media

Autor(es): • Mtr. Luis Fernando Aguas

Page 2: Aplicaciones Difusas: Algoritmo k medias

Agrupamientos

Ing. Mtr. Luis Fernando Aguas Bucheli

Page 3: Aplicaciones Difusas: Algoritmo k medias

¿Cuál agrupamiento es mejor?

Page 4: Aplicaciones Difusas: Algoritmo k medias

Métodos de AgrupaciónMétodos jerárquicos:

• Los objetos se agrupan (dividen) por partes hasta clasificar todos los objetos.• No requiere fijar un número de clústeres o grupos (menos supervisado).

Métodos de capa única:• Se tiene un número de grupos predefinidos y cada objeto se ubica en un grupo hasta

alcanzar estabilidad en los valores de los centroides.• Requiere, generalmente, fijar a priori un número de clústeres.

Ing. Mtr. Luis Fernando Aguas Bucheli

Page 5: Aplicaciones Difusas: Algoritmo k medias

Métodos Jerárquicos

Ing. Mtr. Luis Fernando Aguas Bucheli

DendogramaVarios niveles de agrupamiento

Page 6: Aplicaciones Difusas: Algoritmo k medias

Métodos aglomerativos

Esquema general algoritmo:1. Cada objeto corresponde a un grupo.2. En cada iteración se juntan los dos grupos más cercanos bajo algún

criterio de cercanía entre grupos.3. Los dos grupos recién unidos forman un único grupo.4. Iterar hasta formar un único grupo.

El método jerárquico aglomerativo más utilizado es el de Ward, por el nombre de su autor.

Ing. Mtr. Luis Fernando Aguas Bucheli

Page 7: Aplicaciones Difusas: Algoritmo k medias

Método de Ward

• Este procedimiento trata de identificar grupos de casos, tratando de minimizar la varianza dentro de los grupos.

• Se minimiza la distancia euclideana cuadrada a las medias del conglomerado o grupo.

Ing. Mtr. Luis Fernando Aguas Bucheli

Page 8: Aplicaciones Difusas: Algoritmo k medias

Dendogramas

Un dendograma es un árbol en el que el largo de las ramas está asociado inversamente a la fortaleza de la relación.

Ing. Mtr. Luis Fernando Aguas Bucheli

Debajo de la línea roja

Page 9: Aplicaciones Difusas: Algoritmo k medias

Métodos divisivos• Esquema general algoritmo:

1. Todos los objetos corresponde a un grupo.2. Cada grupo se separa bajo algún criterio de maximización de

varianza entre grupos.3. Dividir cada uno de los grupos hasta que:

– Todos los grupos sean tan homogéneos que no vale la pena seguir dividiendo.

– Los grupos son tan pequeños que no vale la pena seguir dividiendo.

Ing. Mtr. Luis Fernando Aguas Bucheli

Page 11: Aplicaciones Difusas: Algoritmo k medias

• La función kmeans trata a cada observación como un objeto localizado en el espacio. Se pueden escoger cinco medidas de distancia.

• Cada clúster es definido por sus miembros y por su centroide. El centroide es aquel que minimiza la suma de las desviaciones desde cualquier punto del grupo a ese punto central. La función kmeans minimiza una función diferente dependiendo de la medida de distancia que se utilice.

• Se pueden controlar los detalles de la minimización como incluir los valores iniciales de los centroides o el máximo número de iteraciones.

La técnica k-medias en Matlab

Ing. Mtr. Luis Fernando Aguas Bucheli

[idx,ctrs] = kmeans(X,2,... 'Distance','city’);

Page 12: Aplicaciones Difusas: Algoritmo k medias

MEDIDAS DE DISTANCIA EN MATLAB ENTRE OBJETOS (PDIST(X))

Page 13: Aplicaciones Difusas: Algoritmo k medias

Tiempo_fac Gasto Horas ocio

36 min $20.500 22 horas

Clúster Tiempo Gasto Horas ocio

1 60 41.750 23.52 36.5 24.200 26.33 28 10.380 18.4

Clúster Tiempo Gasto Horas ocio

1 45 30000 242 30 18000 183 20 10000 17

Tamaños de clústeres:[1] "4 10 12“Suma de cuadrados en clúster:[1] 116752251 251603917 221327040

Ejemplos usando Rattle y Matlab

Medida de distancia: City blockMedida de distancia: Euclidiana

Page 14: Aplicaciones Difusas: Algoritmo k medias

Ejemplo usando Rattle

Page 15: Aplicaciones Difusas: Algoritmo k medias

Tiempo_fac Gasto Horas ocio

36 min $20.500 22 horas

Ejemplos creando dos grupos

Medida de distancia: Euclidiana

Clúster Tiempo_fac Gasto Horas.ocio

1 45 35875 23

2 32 13698 22

Tamaños de clústers:[1] "8 18“

Suma de cuadrados en clúster:[1] 392880110 644939334

Page 16: Aplicaciones Difusas: Algoritmo k medias

Ejemplo usando Weka

Page 17: Aplicaciones Difusas: Algoritmo k medias

Agrupamiento probabilista

Ing. Mtr. Luis Fernando Aguas Bucheli

Función gmdistribution en Matlab: funciones normales

Page 18: Aplicaciones Difusas: Algoritmo k medias

Comparación de agrupamientos con los lirios, usando una interfaz de Matlab

Clustering sustractivo Fuzzy C-means

findcluster('iris.dat')

Page 19: Aplicaciones Difusas: Algoritmo k medias

Interpretar y elaborar un perfil de cada grupo

• Debe buscarse una semántica que diferencie a los objetos de cada grupo.

• Enfoques complementarios:– Análisis y comparación de los centroides de

cada grupo.– Análisis gráfico para determinar la variables

que marcan diferencias significativas.

Page 20: Aplicaciones Difusas: Algoritmo k medias

EVALUACIÓN VISUAL DE AGRUPAMIENTOS

Datos originales K-medias Probabilístico EM

Ing. Mtr. Luis Fernando Aguas Bucheli