reconocimiento de pautas - fcn.unp.edu.ar · (cluster analysis) los análisis exploratorios de...
Post on 25-May-2019
216 Views
Preview:
TRANSCRIPT
los análisis exploratorios de datos (como PCA) determinan relaciones generales entre datos
en ocasiones no es eficiente
análisis de agrupamientos (cluster analysis): es un técnica de reconocimiento de pautas no supervisada que busca similitudes
resultado: se forman conglomerados jerárquicosno jerárquicos
empleada originalmente en biología para determinar relaciones entre organismos (género, familia, …)
Análisis de conglomerados
para determinar similitudes entre objetos se utilizan:
coeficientes de correlación
mediciones de distancias
Análisis de agrupamiento
primer etapa: mediciones de distancias
a menor distancia, mayor similitud entre los objetos
centroide u objeto individual que sirve de semilla para un conglomerado
mediciones de distancias
Minkowski (métrica Lp):
dij: distancia entre los objetos (muestras) i y j K= número de variables
dij = [∑k=1
K
∣xik − x jk∣p]
1 / p
Análisis de agrupamiento
Pearson: basada en la desviación estándar (sj) de la variable j
dij =√∑
k=1
K
(xik − x jk )2
s j2
Análisis de agrupamiento
Mahalanobis: permite trabajar sin escalar los datos evita distorsiones por correlaciones
C: matriz de covarianza (simétrica con respecto a la diagonal)
xi, xj: columna de vectores de objetos i y j, respectivamente
Dij2 = (xi−x j)
T C−1 (xi−x j)
Análisis de agrupamiento
Desventaja distancia Minkowski:
depende de las unidadeshay que escalar los datos
desventaja distancia Mahalanobis:
cuando el número de variables (mediciones) excede al número de objetos (muestras) no se puede aplicar porque C puede no tener inversa
segunda etapa: vincular objetos
métodos para buscar conglomerados:
de vinculación simple(vecino más próximo, nearest neighbour)
d ki =d Ai + d Bi
2−
∣d Ai − d Bi∣
2= min (d Ai , d Bi)
segunda etapa: vincular objetos
métodos para buscar conglomerados:
vecino más lejano(complete linkage)
d ki =d Ai + dBi
2+
∣d Ai − dBi∣
2= max (d Ai ,dBi)
Análisis de agrupamiento
métodos para buscar conglomerados:
vínculo promedio no ponderado (unweighted average linkage)
n = nA + nB
d ki =nA
nd Ai +
nB
ndBi
Análisis de agrupamiento
métodos para buscar conglomerados:
vínculo promedio (median linkage)
d ki =d Ai
2+
dBi
2−
d AB
4
Análisis de agrupamiento
métodos para buscar conglomerados:
centroide
d ki =nA
nd Ai +
nB
ndBi −
nA nB
n2 dAB
métodos para buscar conglomerados:
de Ward
distancia de Lance y Williams
...
generalmente conviene usar distintos métodos y comparar los resultados
d ki =nA+ni
n+ni
d Ai +nB+ni
n+n i
dBi −ni
n+ni
d AB
Análisis de agrupamiento
Ejemplo:
Datos: intensidades de emisión de fluorescencia
de 12 compuestos (A-L)
a 4 longitudes de onda (300, 350, 400, 450 nm)
Euclidean Distance, Single LinkageAmalgamation Steps
Step Nº Similarity Distance Clusters New Nº obs. clusters level level joined cluster new cluster 1 11 80,1970 1,41421 5 6 5 2 2 10 80,1970 1,41421 3 5 3 3 3 9 75,7464 1,73205 7 12 7 2 4 8 75,7464 1,73205 7 11 7 3 5 7 75,7464 1,73205 8 10 8 2 6 6 75,7464 1,73205 4 9 4 2 7 5 75,7464 1,73205 2 3 2 4 8 4 71,9944 2,00000 7 8 7 5 9 3 71,9944 2,00000 2 4 2 6 10 2 68,6888 2,23607 1 7 1 6 11 1 49,5122 3,60555 1 2 1 12
Análisis de agrupamiento
métodos no jerárquicos
método de k-medias: inicialmente divide los puntos en k conglomerados(o se pueden elegir k puntos semilla)cada individuo se asigna al conglomerado cuyo centroide esté más próximo
Análisis de agrupamiento
métodos no jerárquicos
método de k-medias: desventajas: el agrupamiento final refleja la elección de conglomerados (o puntos semilla)dificultades para elegir k (se debe elegir de antemano)
top related