cluster

14
SONIA SALVO GARRIDO [email protected]

Upload: matias-ignacio

Post on 24-Oct-2015

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Cluster

SONIA SALVO [email protected]

Page 2: Cluster

1. Introducción

Usted se plantea si es posible dividir a sus alumnos que tuvieran características sociodemográficas o motivos de consulta similares entre sí, pero que fueran lo más diferentes posible unos subgrupos de otros.

Si se lograse esto usted podría, por ejemplo, diseñar estrategias de terapia distintas orientadas a cada grupo de acuerdo a sus características, lo que le ayudaría a obtener mejores resultados.

Esto se logra, por ejemplo, con el ANÁLISIS DE CLUSTER

Page 3: Cluster

ANÁLISIS DE CONGLOMERADO O CLUSTER

Es una técnica diseñada para clasificar distintas observaciones

en grupos de tal forma que:

1.Cada grupo (conglomerado o cluster) sea homogéneo

respecto a las variables utilizadas para caracterizarlos, es

decir, que cada observación contenida en él sea parecida a

todas las que estén incluidas en ese grupo.

2.Que los grupos sean lo más distintos posibles unos de otros

respectos a las variables consideradas.

Page 4: Cluster

Importante:

el análisis de cluster se diferencia de otras técnicas (Análisis discriminante, regresión logística) porque la composición de los grupos es desconocida a priori y es necesario derivarlos a partir de las observaciones.

En el Análisis discriminante o la regresión logística las observaciones ya están previamente clasificadas en dos o más grupos, buscándose las razones que explican esa clasificación y no la clasificación en sí.

A continuación se muestra esquemáticamente el proceso de realización de un análisis de conglomerado:

Page 5: Cluster

1G

2G

3G

gG

1X 2X 3X nX

gkx

12x

ijx

4

Finalmente el investigador debe describir los grupos que ha obtenido y comprarlo unos con los otros. Bastará con ver que valores promedios toman las k variables en los g grupos obtenidos (g<=n).

…1X 2X 3X kX

1O

2O

3O

nO

1

Inicialmente, el investigador dispone de n observaciones (individuos) de los que tiene información sobre k variables.

1O

2O

3O

nO

1O 2O 3O nO

1nd

12d

ijd

2

Se establece un indicador que nos diga en qué medida cada par de observaciones se parece entre sí. Se denomina distancia o similaridad.

1G 2

Gg

G

3

Se crean los grupos tal que los individuos pertenecientes a un grupo son muy parecidos entre sí de acuerdo con la medida de similaridad calculada en (2).

Page 6: Cluster

Algunas características del análisis de conglomerados son:

1.Es una técnica descriptiva y no inferencial, es decir, no permite realizar inferencias de una muestra a una población. No es, por tanto, una técnica apropiada para formular teorías, sino que más bien se utiliza como análisis exploratorio.

2.No presenta una solución única, la solución ofertada depende de muchos elementos del procedimiento y se pueden obtener diversas soluciones variando sólo algunos casos.

3.La solución depende totalmente de la elección de la medida de similaridad, y ésta puede ser diversa.

Aunque el análisis de conglomerados se puede llevar a cabo sobre los individuos o sobre las variables, en general, la aplicación de esta técnica suele hacerse sobre los individuos más que sobre las variables, porque en este último supuesto suelen utilizarse otras técnicas alternativas de reducción de dimensionalidad, como el análisis factorial.

Page 7: Cluster

2. Medidas de distancia y proximidad

El análisis de conglomerados comienza a partir de una matriz de distancias o de proximidades entre los casos o las variables, de forma que se cuantifique el grado de similitud (matriz de proximidades) o disimilaridad (matriz de distancias). La medidas de distancia y de proximidad son diversas y dependen de la escala de medida en que están los datos. En efecto:

Medidas de distanciaa1) Para variables en escala de intervalos:1. Distancia euclídea, que es la más usada. Opción por defecto en SPSS.2. La distancia euclídea al cuadrado.3. La distancia de Mikowski.4. La distancia de Chebychev.5. La distancia de Manhatan o City-Block.

Page 8: Cluster

a2) Para frecuencias:1. 2 (ji-cuadrado) , calculada a partir de la hipótesis de

independencia entre los elementos. Es la suma de las diferencias cuadráticas entre la frecuencia observada y la esperada (bajo la hipótesis de independencia) divididas, respectivamente, entre la frecuencia esperada.

2. 2 , se define como la raíz cuadrada de 2 dividido entre el tamaño de la muestra, n.

b) Medidas de proximidad1. La correlación de Pearson para datos en escala de intervalos es la

mas usada.2. También hay otras medidas de asociación para datos binarios u

ordinales (Q de Yule, r de Spearman, etc.)

Page 9: Cluster

Estandarización de los datos.Las medidas de distancia están basadas en la sustracción para cada par de observaciones, de los valores de las variables utilizadas en su caracterización. Por ende las medidas de disimilaridad son muy sensibles a las unidades (escala de medida) que están medidas als variables.

Para evitar la influencia de la unidad de medida de las variables, éstas se estandarizan. El SPSS nos da esta opción.

Una vez que, mediante el cálculo de la matriz de distancias, se sabe qué observaciones están más próximas entre sí, y más distante entre otras, es necesario formar los grupos, lo que implica tomar dos decisiones: selección del algoritmo de agrupación que se elige y un número de grupos razonables.

Page 10: Cluster

Algoritmo de agrupación

Métodos jerárquicos

Inicialmente, cada individuo es un grupo en sí mismo. Sucesivamente se van formando grupos de mayor tamaño fusionando grupos cercanos entre sí. Finalmente, todos los individuos confluyen en un solo grupo.

Los grupos no se forman en un proceso secuencial de fusión de grupos de menor tamaño. En estos métodos se establece inicialmente un número de grupos a priori y los individuos se van clasificando en cada uno de esos grupos.

y no jerárquicos

Page 11: Cluster

3. Análisis de conglomerados jerárquico

Es el procedimiento más habitual, se llama así porque opera paso a paso, identificando en primer lugar los dos elementos con mayor similitud y combinándolas en un conglomerado. En los pasos sucesivos se van formando nuevos conglomerados, ya sea uniendo otros dos elementos en un cluster nuevo, ya sea añadiendo elementos a alguno de los conglomerados ya existentes, o ya sea uniendo dos conglomerados entre sí. Este proceso se conoce como proceso aglomerativo, comienza con tantos conglomerados como elementos hay y termina con todos los elementos unidos en un solo conglomerado. Se construye, así, una estructura de árbol invertido, se empieza con tantas ramas como individuos y se termina en un tronco único tras las sucesivas uniones que se producen en cada paso. Esta estructura se representa en forma gráfica mediante un dendograma o un gráfico de carámbanos.

Page 12: Cluster

C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 11 29 10 12 72 34 50 43 1 21 20 31 5 9 32 70 60 174 161 179 171 178 180 156 159 131 146 117 118 138 173 175 90 97 79 126 145 66 88 14

Dendograma

G1

G2

G1

G3

G2

G4

Page 13: Cluster

1. Fijar el número de conglomerados, k.2. Especificar los centros de los k conglomerados iniciales, si se

dispone de información para ello. En caso contrario elegir un procedimiento en el propio análisis de cluster que permita estimarlos.

3. Distribuir sucesivamente a los individuos en los conglomerados en función de su distancia a los mismos. Cada caso será incluido en el conglomerado más próximo.

4. Recalcular los centros de los conglomerados hasta llegar la los conglomerados finales.

Análisis de conglomerados de k-medias

Este procedimiento es no jerárquico y básicamente consiste en hacer una partición de los casos en un número prefijado, k, de grupos o conglomerados. De forma sintética el procedimiento es el siguiente:

Page 14: Cluster

RESUMIENDO

INPUT

Matriz desimilaridades

entre losindividuos

Algoritmo declasificación

OUTPUT

Jerarquíaindexada

(Dendograma)