cluster. ruta estadísticas análisis multivariado análisis de conglomerado matriz x

23
Cluster

Upload: alondra-andujar

Post on 14-Apr-2015

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Cluster. Ruta Estadísticas Análisis multivariado Análisis de Conglomerado Matriz X

Cluster

Page 2: Cluster. Ruta Estadísticas Análisis multivariado Análisis de Conglomerado Matriz X

Ruta

• Estadísticas

• Análisis multivariado

• Análisis de Conglomerado

Matriz X

Page 3: Cluster. Ruta Estadísticas Análisis multivariado Análisis de Conglomerado Matriz X
Page 4: Cluster. Ruta Estadísticas Análisis multivariado Análisis de Conglomerado Matriz X
Page 5: Cluster. Ruta Estadísticas Análisis multivariado Análisis de Conglomerado Matriz X

Métodos de agrupación

Distintas formas de medir la distancia

Page 6: Cluster. Ruta Estadísticas Análisis multivariado Análisis de Conglomerado Matriz X

Análisis de Cluster con SPSS

Page 7: Cluster. Ruta Estadísticas Análisis multivariado Análisis de Conglomerado Matriz X

Ingrese la Matriz

Ruta:

1) Analizar

2) Clasificar

3) Conglomerados Jerárquicos

Page 8: Cluster. Ruta Estadísticas Análisis multivariado Análisis de Conglomerado Matriz X

1) Vamos a “Estadisticos”

Page 9: Cluster. Ruta Estadísticas Análisis multivariado Análisis de Conglomerado Matriz X

Una vez que se realizo la selección Continuar

Page 10: Cluster. Ruta Estadísticas Análisis multivariado Análisis de Conglomerado Matriz X

2) Vamos a “Gráficos”

Page 11: Cluster. Ruta Estadísticas Análisis multivariado Análisis de Conglomerado Matriz X

Una vez que se realizo la selección Continuar

Page 12: Cluster. Ruta Estadísticas Análisis multivariado Análisis de Conglomerado Matriz X

3) Vamos a “Método”

Page 13: Cluster. Ruta Estadísticas Análisis multivariado Análisis de Conglomerado Matriz X
Page 14: Cluster. Ruta Estadísticas Análisis multivariado Análisis de Conglomerado Matriz X
Page 15: Cluster. Ruta Estadísticas Análisis multivariado Análisis de Conglomerado Matriz X

Permite transformar los valores generados por lamedida de distancia. Se aplican una vez calculada lamedida de distancia. Las opciones disponibles son:Valores absolutos, Cambiar el signo y Cambiar laescala al rango 0-1.

Page 16: Cluster. Ruta Estadísticas Análisis multivariado Análisis de Conglomerado Matriz X

• Permite estandarizar los datos, para los casos o las variables, antes de calcular las distancias.

• Puntuaciones Z: Estandarizados a puntuaciones Z, con media 0 y desviación típica 1.

• Rango -1 a 1: Cada valor del elemento que se tipifica se divide por el rango de los valores.

• Rango 0 a 1: Sustrae el valor mínimo de cada elemento que se tipifica y lo divide por el rango.

Magnitud máxima de 1: Divide cada valor del elemento que se tipifica por el máximo de losvalores.Media 1: Divide cada valor del elemento que se tipifica por la media de los valores.Desviación típica: Divide cada valor de la variable o caso por la desviación típica.

Page 17: Cluster. Ruta Estadísticas Análisis multivariado Análisis de Conglomerado Matriz X

Opciones para Datos Binarios:• Distancia euclídea. S e calcula a partir de una tabla 2*2 como SQRT(b+c),

donde b y c representan las casillas diagonales correspondientes a los casos presentes en un elemento pero

ausentes en el otro.• Distancia euclídea al cuadrado. Se calcula como el número de casos

discordantes. Su valor mínimo es 0 y no tiene límite superior.• Diferencia de tamaño. Se trata de un índice de asimetría. Oscila de 0 a 1.• Diferencia de configuración. Medida de disimilaridad para datos binarios

que oscila de 0 a 1. Se calcula a partir de una tabla 2*2 como bc/(n**2), donde b y c representan las casillas diagonales correspondientes a los casos presentes en un elemento pero ausentes en el otro y n es el número total de observaciones.

• Varianza. Se calcula a partir de una tabla 2x2 como (b+c)/4n, donde b y c representan las casillas diagonales correspondientes a los casos presentes en un elemento pero ausentes en el otro y n es el número total de observaciones. Oscila de 0 a 1.

• Dispersión. Este índice de similaridad tiene un rango de -1 a 1.• Forma. Esta medida de distancia tiene un rango entre 0 y 1 y penaliza la

asimetría de las discordancias.• Concordancia simple. Se trata de la razón de concordancias respecto al

número total de valores. Se ofrece una ponderación igual a las concordancias y a las discordancias.

Page 18: Cluster. Ruta Estadísticas Análisis multivariado Análisis de Conglomerado Matriz X

• Correlación Phi de 4 puntos. Este índice es un análogo binario del coeficiente de correlación de Pearson. Varía entre -1 y 1.

• Lambda. Este índice es l a lambda de Goodman y Kruskal. Corresponde a la reducción proporcional del error (RPE o PRE) utilizando un elemento para pronosticar el otro (pronosticando en ambas direcciones). Los valores oscilan entre 0 y 1.

• D de Anderberg. Similar a lambda, este índice corresponde a l a reducción de e rror real utilizando un elemento para predecir el otro (predice en ambas direcciones). Los valores oscilan entre 0 y 1.

• Dice. Éste es un índice en el que no se toman en cuenta las ausencias conjuntas y donde las concordancias se ponderan doblemente. También se conoce como medida de Czekanowski o Sorensen.

• Hamann. Este índice es el número de c oncordancias menos el número de discordancias, dividido por el número total de elementos. Oscila de -1 1.

• Jaccard. Se trata de un índice en el que no se toman en cuenta las ausencias conjuntas. Se ofrece una ponderación igual a l as concordancias y a las discordancias. Se conoce también como razón de similaridad.

Page 19: Cluster. Ruta Estadísticas Análisis multivariado Análisis de Conglomerado Matriz X

“Aceptar”

Page 20: Cluster. Ruta Estadísticas Análisis multivariado Análisis de Conglomerado Matriz X

• Método de K- Medias con e SPSS:

• Permite procesar un numero ilimitado de casos, pero solo permite utilizar un metodo de aglomeracion y requiere que se proponga previamente el numero de conglomerados que se desea obtener.

Tambien se puede especificar los centros iniciales de los conglomerados si conoce de antemano dicha información.

Page 21: Cluster. Ruta Estadísticas Análisis multivariado Análisis de Conglomerado Matriz X

Ruta:

AnalizarClasificar

Conglomerado de K medias

Page 22: Cluster. Ruta Estadísticas Análisis multivariado Análisis de Conglomerado Matriz X

Se Ubican las variables numéricas que se quieran utilizar para la clasificación

Opcionalmente, se puede elegir una variable para identificar los casos en la tabla de resultados y en los gráficos.

Permite elegir el numero de conglomerados. Por default esta seleccionado 2 pero se puede modificar a gusto..

En “Métodos” tenemos la opcion de indicar si los centros de los conglomerados deben o no ser estimardos iterativamente:

1)Iterar y Clasificar: El método se encarga de estimar los centros iterativamente y de clasificar a los sujetos/casos con arreglo a los centroides estimados.

2) Se clasifica a los sujeto/casos en función de los centroides iniciales.

Page 23: Cluster. Ruta Estadísticas Análisis multivariado Análisis de Conglomerado Matriz X

• Las siguientes opciones sólo están disponibles si se selecciona el método ITERAR Y CLASIFICAR en el cuadro de diálogo principal.

• ITERACIONES MÁXIMAS. Limita el número de iteraciones en el algoritmo k-medias. Se detiene, incluso si no se ha satisfecho el criterio de convergencia. Está entre el 1 y el 999.

• CRITERIO DE CONVERGENCIA. Determina cuándo cesa la iteración. Debe ser mayor que 0 pero no mayor que 1. La iteración cesará si no mueve ninguno de los centros de los conglomerados en una distancia superior al 2% de la distancia menor entre cualquiera de los centros iniciales.

• USAR MEDIAS ACTUALIZADAS. Permite solicitar la actualización de los centros de los conglomerados tras la asignación de cada caso. Si no selecciona esta opción, los nuevos centros de los conglomerados se calcularán después de la asignación de todos los casos.