cluster no jerarquico

13
Tecnología de Tecnología de Apoyo a la Apoyo a la Logística Logística Clusterización No Clusterización No Jerárquica Jerárquica Integrantes: Integrantes: Omar Rincón Hamilton Mendoza Cristofer Morán Franklin Vega

Upload: guest83cad74

Post on 03-Jul-2015

4.160 views

Category:

Education


4 download

TRANSCRIPT

Page 1: Cluster No Jerarquico

Tecnología de Tecnología de Apoyo a la Apoyo a la LogísticaLogísticaClusterización No Clusterización No

JerárquicaJerárquicaIntegrantes:Integrantes:

Omar RincónHamilton MendozaCristofer MoránFranklin Vega

Page 2: Cluster No Jerarquico

IntroducciónIntroducciónClustering Clustering

oSe basa en intentar responder como es que ciertos Objetos (casos) pertenecen o “caen” naturalmente en cierto número de clases o grupos, de tal manera que estos objetos comparten ciertas características.

oEsta definición asume que los objetos pueden dividirse , razonablemente, en grupos que contienen objetos similares. Si tal división existe, ésta puede estar oculta y debe ser descubierta.

Page 3: Cluster No Jerarquico

Objeto

Es un dato, el cual esta formado por un conjunto finito de variables.

Variables

Numéricas: son números reales en generalNominales : Son variables discretas pero que no tienen un orden especificado (color de ojos)Ordinales: Son variables discretas con una relación de orden (Temporal Alta, Media, Baja)Binarias: solo pueden tomar dos estados posibles (dicotómicas)

Page 4: Cluster No Jerarquico

Cluster No JerárquicoCluster No Jerárquico

En los cluster no jerárquicos los datos se dividen en k particiones o grupos donde cada partición representa un cluster. Opuestamente a los métodos jerárquicos el número de cluster debe conocerse a priori. Básicamente siguen los siguientes pasos:

1.- Seleccionar K centroides iniciales, siendo K el número de 1.- Seleccionar K centroides iniciales, siendo K el número de clusters deseados.clusters deseados.

2.- Asignar cada observación al cluster que le sea más cercano.2.- Asignar cada observación al cluster que le sea más cercano.

3.- Reasignar o relocalizar cada observación a uno de los K cluster 3.- Reasignar o relocalizar cada observación a uno de los K cluster de acuerdo con alguna regla de parada.de acuerdo con alguna regla de parada.

4.- Parar si no hay reasignación de los puntos o si la reasignación 4.- Parar si no hay reasignación de los puntos o si la reasignación satisface la regla de parada. En otro caso se vuelve al paso dos.satisface la regla de parada. En otro caso se vuelve al paso dos.

Page 5: Cluster No Jerarquico

La mayoría de los algoritmos no jerárquicos difieren con respecto a:La mayoría de los algoritmos no jerárquicos difieren con respecto a:

El procedimiento para obtener los centroides iniciales.El procedimiento para obtener los centroides iniciales.

La regla que se usa para reasignar las observacionesLa regla que se usa para reasignar las observaciones

Page 6: Cluster No Jerarquico

1.- Seleccionar las K primeras observaciones como centroides.1.- Seleccionar las K primeras observaciones como centroides.

2.- Seleccionar la primera observación como centroide del primer cluster, 2.- Seleccionar la primera observación como centroide del primer cluster, el centroide del segundo cluster selecciona de forma que la distancia el centroide del segundo cluster selecciona de forma que la distancia al centroide previo sea mayor que una cierta distancia. El tercero de al centroide previo sea mayor que una cierta distancia. El tercero de forma que su distancia al anterior sea superior a una distancia, etc.forma que su distancia al anterior sea superior a una distancia, etc.

3.- Seleccionar K observaciones al azar.3.- Seleccionar K observaciones al azar.

4.- El investigador da los centroides.4.- El investigador da los centroides.

5.- Refinar los núcleos seleccionados usando ciertas reglas, como por 5.- Refinar los núcleos seleccionados usando ciertas reglas, como por ejemplo, que estén lo más separados posible.ejemplo, que estén lo más separados posible.

Métodos para Obtener k Centroides Métodos para Obtener k Centroides InicialesIniciales

Page 7: Cluster No Jerarquico

Algunas reglas son:Algunas reglas son:

• • 1.- Calcular el centroide de cada cluster y asignar sujetos al cluster 1.- Calcular el centroide de cada cluster y asignar sujetos al cluster cuyo centroide esté más próximocuyo centroide esté más próximo. Los centroides no se . Los centroides no se recalculan hasta que se han asignado todas las observaciones recalculan hasta que se han asignado todas las observaciones a los K clusters. Cuando las a los K clusters. Cuando las asignaciones totales están hechas se asignaciones totales están hechas se recalcula el nuevo centroide.recalcula el nuevo centroide.

Si el cambio producido en los centroides de los cluster es mayor Si el cambio producido en los centroides de los cluster es mayor que algún criterio de convergencia seleccionado entonces se que algún criterio de convergencia seleccionado entonces se vuelve a repetir el proceso. Esto continua hasta que el cambio en el vuelve a repetir el proceso. Esto continua hasta que el cambio en el centroide es menor que una cierta cantidad prefijada (criterio de centroide es menor que una cierta cantidad prefijada (criterio de convergencia).convergencia).

• • 2.- Se calcula el centroide para cada cluster y se asignan sujetos a 2.- Se calcula el centroide para cada cluster y se asignan sujetos a los clusters cuyo centroide esté más próximo. los clusters cuyo centroide esté más próximo. Cuando una Cuando una observación es asignada a un cluster se recalcula el centroide observación es asignada a un cluster se recalcula el centroide del cluster al que llega el individuo y el centroide del cluster del del cluster al que llega el individuo y el centroide del cluster del que sale. La reasignación sigue que sale. La reasignación sigue hasta que el cambio en los hasta que el cambio en los centroides sea menor que algún valor prefijado (criterio de centroides sea menor que algún valor prefijado (criterio de convergencia).convergencia).

Reasignación de los Reasignación de los Sujetos a los K ClustersSujetos a los K Clusters

Page 8: Cluster No Jerarquico

¿Qué método de Cluster es ¿Qué método de Cluster es mejor?mejor?

Cluster jerárquicos:Cluster jerárquicos:

No requieren un conocimiento No requieren un conocimiento a priori del número de cluster o a priori del número de cluster o de la partición de partida.de la partición de partida.

Los jerárquicos se usan a Los jerárquicos se usan a menudo con fines exploratorios menudo con fines exploratorios y la solución resultante se y la solución resultante se utiliza en los no jerárquicos utiliza en los no jerárquicos para afinar la solución.para afinar la solución.

Ambas técnicas podrían Ambas técnicas podrían verse como métodos verse como métodos complementarios y no como complementarios y no como competitivos.competitivos.

Cluster no jerárquicos:Cluster no jerárquicos: Necesitan conocimiento Necesitan conocimiento

previo del número de cluster.previo del número de cluster.

Hemos de identificar los Hemos de identificar los centros de los cluster antes centros de los cluster antes de que la técnica pueda de que la técnica pueda proceder con las proceder con las observaciones.observaciones.

Los algoritmos son muy Los algoritmos son muy sensibles a las particiones sensibles a las particiones iniciales.iniciales.

Page 9: Cluster No Jerarquico

EjemploEjemploTenemos información correspondiente a los Tenemos información correspondiente a los posibles usuarios de una posibles usuarios de una

empresa.empresa.100 observaciones (clientes) a los que se les ha pasado una 100 observaciones (clientes) a los que se les ha pasado una

encuesta en la que se leencuesta en la que se lehacen hacen preguntas de percepción sobre preguntas de percepción sobre 7 atributos importantes en la 7 atributos importantes en la

elección de una elección de una empresa por parte empresa por parte de los usuarios.de los usuarios.

• • X1 = Velocidad de entregaX1 = Velocidad de entrega• • X2= Nivel de preciosX2= Nivel de precios• • X3= Flexibilidad de preciosX3= Flexibilidad de precios• • X4= Imagen del fabricanteX4= Imagen del fabricante• • X5= Servicio conjuntoX5= Servicio conjunto• • X6 =Imagen de fuerza de ventasX6 =Imagen de fuerza de ventas• • X7= calidad del productoX7= calidad del producto• • También se le hacen otro tipo de preguntas como nivel de fiabilidad, o También se le hacen otro tipo de preguntas como nivel de fiabilidad, o

nivel de satisfacción....pero no son tenidas en cuenta en el análisis.nivel de satisfacción....pero no son tenidas en cuenta en el análisis.

Nota: Ejemplo tomado de Hair et al (1999)Nota: Ejemplo tomado de Hair et al (1999)

Page 10: Cluster No Jerarquico

Primer Paso Primer Paso Objetivos del análisisObjetivos del análisis

Segmentar la población de clientes en grupos con Segmentar la población de clientes en grupos con percepciones similares de la empresa.percepciones similares de la empresa.

Cuando esto se consiga la empresa puede formular Cuando esto se consiga la empresa puede formular estrategias con diferentes atractivos para los distintos estrategias con diferentes atractivos para los distintos grupos.grupos.

Algo importante es que los 7 atributos utilizados son Algo importante es que los 7 atributos utilizados son importantes en alcance y detalle. Las variables utilizadas importantes en alcance y detalle. Las variables utilizadas tienen suficiente valor predictivo como para justificar su tienen suficiente valor predictivo como para justificar su uso.uso.

Page 11: Cluster No Jerarquico

Segundo PasoSegundo Paso Diseño del Análisis Diseño del Análisis

• • Lo primero será identificare cualquier atípico de la muestra. Lo primero será identificare cualquier atípico de la muestra. Al realizar el examen de los 100 individuos no se detecta Al realizar el examen de los 100 individuos no se detecta ninguna anomalía.ninguna anomalía.

• • El siguiente paso implica elegir una medida de similaridad. El siguiente paso implica elegir una medida de similaridad. Como todas las variables son métricas elegimos la distancia Como todas las variables son métricas elegimos la distancia euclídea.euclídea.

• • No se considera ninguna estandarización por que todas las No se considera ninguna estandarización por que todas las variables están medidas en la misma escalavariables están medidas en la misma escala..

( )∑=

−=p

kjkikkij xxWd

1

2

Page 12: Cluster No Jerarquico

Tercer Paso Tercer Paso Supuestos del análisis Supuestos del análisis

• La muestra se considera representativa y el análisis de multicolinealidad señala niveles mínimos que no deberían influir en el cluster.

Page 13: Cluster No Jerarquico

Cuarto Paso Cuarto Paso Obtención de Grupos y Valoración Obtención de Grupos y Valoración

del Ajustedel Ajuste

• Elegimos como procedimiento una combinación de jerárquicos y no jerárquicos

• En el jerárquico se obtienen unos cluster que se utilizarán luego como centroides de los métodos no jerárquicos para refinar la posible solución.