definición de grupos: clasificación capítulos 10 y 11 de mccune y grace 2002
TRANSCRIPT
Definición de grupos: clasificación
Capítulos 10 y 11 de
McCune y Grace 2002
Clasificar
• Proceso natural humano para interpretar el mundo
• Pero estamos acostumbrados a sólo observar pocas dimensiones
• Más complejo cuando intentamos clasificar objetos de muchas dimensiones como los datos de composición
Opciones generales
• Clasificación jerárquica o no-jerárquica
• Clasificación politética o monotética
• Clasificación aglomerativa o divisiva
Clasificación jerárquica aglomerativa
• Pasos:– Calcular la matriz de distancias (o similaridades)– Unir 2 elementos de acuerdo a algún criterio de
distancia mínima– Combinar los atributos de las entidades en ambos
grupos– Unir los próximos 2 grupos, etc.
• Los resultados se pueden presentar en un dendrograma
Ejemplo
Método de enlace sencillo (o de vecino más cercano)
Matriz de
similaridades
Subgráfica conectada
Dendrograma
Dendrogramas
Dendrogramas
• La escala en el dendrograma se puede expresar por:– Similaridad según la medida utilizada
– Función objetiva:
– % de información restante:
¿Dónde podar el dendrograma?
• Los criterios dependen de los objetivos– Homogeneidad dentro de grupos– Número de grupos vs número de elementos
• Pocos grupos pueden ser muy heterogéneos• Muchos grupos derrotan el propósito de clasificar
Tres métodos de enlace recomendados para datos de
comunidades
UPGMA, Ward y Beta flexible
UPGMA: “Unweighted Pair-Group Mathematical Average”
UPGMA
Enlace sencillo vs. UPGMA
Método de Ward
Método de Ward
Método de Beta flexible
¿UPGMA, Ward o Beta flexible?• UPGMA:
– Bastante conservador de espacio– Pero tiende al encadenamiento
• Ward:– Conservador de espacio– Pero incompatible con distancias por proporción
• Beta flexible:– Encadenamiento es alto cuando beta se acerca a +1– Contrae el espacio cuando beta se acerca a -1– Resultados más aceptables cuando beta ~ -0.25
Ventajas y desventajas de clasificación jerárquica aglomerativa• El resultado en multiniveles puede sugerir
relaciones entre grupos• Puede haber agrupaciones incorrectas
porque las fusiones subsiguientes dependerán de las anteriores.
• Para datos bien heterogéneos puede ser conveniente subdividir en grupos más manejables y luego analizar con ordenaciones.
Métodos no jerárquicos
• Este tipo de clasificación asigna las unidades en un número de grupos que uno decida inicialmente.
• Bien útil cuando el conjunto de datos es bien grande.
Evaluación de la calidad de la clasificación
• Grado de encadenamiento
• Interpretabilidad
• Comparación con algún atributo independiente
Grado de encadenamiento
Interpretabilidad
• ¿Hace sentido el dendrograma?
• ¿Son los grupos el resultado de algún proceso biológico interesante?
Comparar con atributo independiente
• ¿Son los miembros de un grupo similares según los valores de alguna variable (no incluida en los datos analizados) pero distintos en esa variable a los miembros de otros grupos?
¿Qué informar?
• Medida de distancia utilizada• Método de enlazar• Si se buscaron elementos clasificados
erróneamente, cómo se hizo y cómo se corrigieron.
• Dendrograma y cuál medida se utilizó en la escala
• Criterios para podar el dendrograma (mencionar la cantidad de información retenida a ese nivel).
Ejercicio
• Generar una clasificación manualmente por enlace sencillo con los datos de Oak_t_6x5r
• Comparar con UPGMA, Ward y Beta flexible