segmentacion machine learning

Upload: cristhian-camilo-lopez-vidal

Post on 08-Mar-2016

229 views

Category:

Documents


0 download

DESCRIPTION

Segmentacion Machine Learning, R, Algorithms

TRANSCRIPT

Analytics para los Negocios

SegmentacinMBAUniversidad ICESI, Febrero 5 de 2016Carlos Ignacio Patio F.Control de LecturaDefina, en sus propias palabras, el trmino segmentacinQu es una medida de similitud?Segmentacin EstratgicaEmpleada de manera usual para segmentar clientes, unidades de negocio, puntos de venta, proveedores, empleados Simple; basada en uno o pocos factores al tiempo (geografa, ventas, referencias, tecnologa, funciones, etc)til para la gestin de operacionesSegmentacin NaturalSurge a partir del anlisis de mltiples dimensiones de manera simultneaSeparacin natural entre grupos de unidades de anlisisClustering: Permite agrupar clientes (o cualquier otra unidad de inters) en grupos homogneos tales que sus miembros son similares en trminos de demografa y comportamiento, mientras que unidades en diferentes clusters son diferentes entre siProceso para ClusteringDefinicin de unidad analtica a segmentarVariablesSimilaridadMtodoNmero de kPerfilar y evaluarRefinar?Variables para la segmentacinVariablesBeneficios (qu buscan los clientes en los productos?) encuestas PsicogrficasDemogrficasGeogrficasComportamiento (transaccionales)Competitivas (SoW)Valor (Lifetime Value, etc) Medidas de SimilaridadSimilaridadAtributo 1Atributo 2B: (2,3)A: (1,1)C: (5,3)EuclideanaHammingManhattanSimilaridad CosenoDistancia EuclideanaSi los valores son reales, se emplea la Distancia Euclideana:

D(xi, xj) =

EjemploD(x1, x3) = (2500 3050)2 + (250 250)2 + (100 100)2 = 550Ejemplo 1 (MPG dataset, 3 real-valued input attributes)

Car 1: weight = 2500, displacement = 250, horsepower = 100Car 2: weight = 3000, displacement = 150, horsepower = 150Car 3: weight = 3050, displacement = 250, horsepower = 100D(x1, x2) = (2500 3000)2 + (250 150)2 + (100 150)2 512Cul carro es ms similar al carro 1?Ejemplo, normalizando valoresEjemplo 2 (MPG dataset, 3 scaled real-valued input attributes)

Car 1: weight = -0.20, displacement = 0.32, horsepower = -0.51Car 2: weight = 0.75, displacement = -0.90, horsepower = -0.19Car 3: weight = 0.84, displacement = 0.32, horsepower = -0.51El peso en el carro 3 est 0.84 desviaciones estndar por encima del peso medio para todo el dataset.El carro 3 es ahora el ms cercanoal carro 1:

D(x1, x2) = 1.58D(x1, x3) = 1.04Distancia HammingSi los valores son discretos, se emplea la Distancia Hamming:

D(xi, xj) = # de atributos para los cuales xi y xj son diferentesDistancia ManhattanCity Block: esta medida mide la distancia en el nmero de unidades horizontales y verticales que toma llegar de un punto (real) a otro (no permite movimientos diagonales)MtodosJerrquicoNo JerrquicoGeneran una estructura de tipo arbol a travs de la fusin serial de clusters (mtodo aglomerativo)Dependen de la seleccin del nmero de clusters por parte del usuarioMtodo Aglomerativo para Clustering JerrquicoInicia con n segmentos (donde n es el nmero de observaciones)Produce una solucin con n-1 segmentos, al combinar los segmentos ms cercanosItera sobre el paso anterior (n-2, ) hasta que todas las observaciones han sido asignadas a un solo segmentoEjemplo14 registros2 atributos realesDistancia: EuclideanEjemplo(1 fusin)Ejemplo(2 fusiones)Ejemplo(6 fusiones)Ejemplo(7 fusiones)Ejemplo(8 fusiones)Ejemplo(9 fusiones)Ejemplo(9 fusiones)Ejemplo(10 fusiones)Ejemplo(11 fusiones)Ejemplo(12 fusiones)EjemploFin!Mtodo K-MediasEspecificar nmero k de segmentos (usuario)Seleccin aleatoria de k centros (unidades analticas)El resto de las observaciones se asignan al centro ms cercanoClculo de nuevos centros (promedios para cada variable en cada cluster)Reasignar instancias de acuerdo a la distancia frente a los nuevos centrosITERAR y PARAR cuando no ocurran reasignacionesSeleccione k

Gracias a Andrew Moore y Daniel Neill por este ejemploK-means28

K-meansSeleccione kSeleccione centros de manera aleatoriaGracias a Andrew Moore y Daniel Neill por este ejemplo29

K-meansSeleccione kSeleccione centros de manera aleatoriaCada instancia busca su centro ms cercanoGracias a Andrew Moore y Daniel Neill por este ejemplo30

K-meansSeleccione kSeleccione centros de manera aleatoriaCada instancia busca su centro ms cercanoCada centro es recalculado teniendo en las instancias en el segmento Gracias a Andrew Moore y Daniel Neill por este ejemplo31Seleccione kSeleccione centros de manera aleatoriaCada instancia busca su centro ms cercanoCada centro es recalculado teniendo en las instancias en el segmento

Repetir 3 y 4 hasta que haya convergenciaK-meansGracias a Andrew Moore y Daniel Neill por este ejemplo32Nmero de Segmentos, kLa parte ms difcilSubjetividad es importanteTradeoff entre significado gerencial y costo de implementacinAlternativas formalesInterpretacin de Resultados Perfilamiento Fue correcto el nmero de clusters?Es necesario incluir variables adicionales?Es necesario probar un mtodo diferente?Ejemplo: Caso de estudio interpretacin de segmentacin