tema 8: análisis multivariante
DESCRIPTION
Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también cualitativas) a la vez. Esencialmente, vamos a ver tres problemas:. 1.- Reducir el número de variables (Análisis en componentes - PowerPoint PPT PresentationTRANSCRIPT
Tema 8: Análisis Multivariante
Conjunto de técnicas aplicables cuando se registran los valoresde muchas variables (esencialmente numéricas, pero también cualitativas) a la vez.
Esencialmente, vamos a ver tres problemas:
1.- Reducir el número de variables (Análisis en componentes principales).2.- Dada una variable clasificadora (cualitativa), predecir el valor de la variable, para un individuo dado, a partir de un conjunto de variables numéricas (Análisis Discriminante).3.- Distinguir grupos (clusters) entre los individuos de la población. (Análisis Cluster)
EJEMPLO:
Hemos recogido datos sobre la incidencia de incendios y conatos en distintas provincias españolas…
provinciasvege_pr
ed zona conatosincendio
sSafectad
aSarbolada_
afect
precipitacion media julio agosto
Alicante 1 centro 121 57 1341,78 690,2 3,6
Ávila 1 centro 109 118 1874,67 1311,95 7,05
Baleares 2 centro 112 38 1587,91 1237,01 6,6
Castellón 2 centro 130 32 869,53 613,69 9,2
Cuenca 1 centro 143 46 467,14 133,71 9,1
Guadalajara 1 centro 96 48 553,05 314,93 23,45
Madrid 1 centro 167 94 1102,05 660,49 11
Salamanca 1 centro 61 115 3595,32 2687,08 6,2
Segovia 2 centro 51 18 369,07 179,23 12,7
Teruel 1 centro 89 16 172,74 72,58 23,15
Valencia 1 centro 157 72 4145,19 653,47 8,3
Valladolid 1 centro 56 28 106,37 20,01 41,4
Zamora 1 centro 155 374 8787 7524,14 12,3
Soria 2 norte 66 37 155,81 107,71 34,4
Álava 2 norte 36 19 85,06 68,31 66,8
Asturias 1 norte 411 1101 11679 8725,38 26,55
Barcelona 1 norte 310 61 219,63 84,05 7,25
Burgos 1 norte 78 136 1478,91 655,17 42,25
Cantabria 1 norte 40 338 3961,68 3340,48 17,05
Gerona 1 norte 174 22 260,22 198,38 24,5
PREGUNTA1: ¿Se puede “resumir” la información proporcionada por los datos utilizando una cantidad menor de variables? ¿Podemosconformar “índices, a partir de ciertas variables”?(Análisis en componentes principales)
PREGUNTA2: ¿Qué grupos homogéneos podemos distinguir entre las provincias?(Análisis cluster)
PREGUNTA3: Suponiendo que hemos clasificado a las provincias en tres grupos (A, B y C), ¿cómo identificar las variables más in-fluyentes a la hora de asignar un grupo u otro a una cierta provincia?Dada una zona de otro país, ¿cómo decidir a cuál de los grupos A, B, C se parece más?(Análisis Discriminante)
1. Análisis en Componentes Principales.
X1, X2, …, XnY1, Y2, …, Yn
Variables iniciales(son cuantitativas)
Componentes principales
1.- Número elevado de variables.2.- Existen correlaciones entre ellas (info. redundante)3.- Tienen significación “clara”
1.- Mismo número de variables, pero ordenadas según % de “información” retenido.2.- Independientes.3.- En principio, son artificiales, pero con frecuencia algunas de ellas pueden ser interpretadas a partir de los pesos.4.- La relación entre las Y’s y las X’s es del tipo:
Yj=a1,jX1+ a2,jX2+ … + an,jXn
pesos
-En la práctica, uno se queda con el número de componentes principales Y1,…,Ym necesario para retener un porcentaje suficiente de información original. Se entiende de ese modo que se está perdiendo parte de información, pero a cambio de mayor claridad/concisión (menor número de variables). En suma, el proceso permite reducir el número de variables.
-Una aplicación útil es la elaboración de índices a partir de un conjunto de variables.
Statgraphics
2. Análisis Discriminante.
X1, X2,…,Xn, Y
Variables cuantitativas
Factor de clasificación (var. Cualitativa o cuant. Discreta)
(Y puede ser el grado de satisfacción de un usuario de una biblioteca, el hábito de lectura, el tema de un artículo o un libro, el periodo histórico, la gravedad de una enfermedad, etc.)
PREGUNTA1: ¿Cuáles son las variables Xi que permiten discriminar (predecir) mejor el valor de Y (es decir, las más “influyentes”: obsérveseque si Y es cuantitativa, esta pregunta se puede responder también utilizando regresión múltiple).
2. Análisis Discriminante.
X1, X2,…,Xn, Y
Variables cuantitativas
Factor de clasificación (var. Cualitativa o cuant. Discreta)
PREGUNTA1: ¿Cuáles son las variables Xi que permiten discriminar (predecir) mejor el valor de Y (es decir, las más “influyentes”: obsérveseque si Y es cuantitativa, esta pregunta se puede responder también utilizando regresión múltiple).
PREGUNTA2: Dado un nuevo individuo que presenta ciertos valores Para las variables X1,…,Xn, predecir el valor de Y para dicho individuo.
Clave_1 Clave_2 Clave_3 Clave_4 Clave_5 TEMA
15 16 5 7 1FILOSOFIA
13 5 13 2 6HISTORIA
4 23 2 10 14FILOLOGIA
10 13 8 3 3HISTORIA
9 2 16 1 8HISTORIA
5 1 13 6 12FILOLOGIA
20 14 6 9 3FILOSOFIA
6 17 6 7 21FILOLOGIA
18 12 2 0 4FILOSOFIA
15 15 5 5 0FILOSOFIA
16 8 20 5 4HISTORIA
23 41 12 12 5FILOLOGIA
25 21 0 3 28FILOSOFIA
11 3 19 0 3HISTORIA
9 1 14 3 5HISTORIA
4 19 4 8 23FILOLOGIA
3 17 5 5 17FILOLOGIA
14 4 15 1 5HISTORIA
0 20 3 0 18FILOLOGIA
16 19 4 6 0FILOSOFIA
16 2 18 2 6HISTORIA
14 6 12 1 5HISTORIA
3 15 3 4 31FILOLOGIA
17 1 20 4 7HISTORIA
1 17 2 2 21FILOLOGIA
19 24 3 4 1FILOSOFIA
3 15 4 0 22FILOLOGIA
11 12 10 8 24FILOLOGIA
EJEMPLO: Hemos seleccionadocinco términos clave que aparecentípicamente, con distintas frecuen-cias, en textos históricos, filosóficosy filológicos. Después, hemos regis-trado la frecuencia de aparición de dichos términos clave en 30 artículosde dichas materias, y hemos anotadoel tema (FILOSOFIA, HISTORIA, FILOLOGIA) de cada uno de esosartículos. Nos preguntamos:
1.- ¿Cuáles son los términos claveque permiten clasificar mejor un artículo dentro de cada área (Filosofía,Historia o Filología)? ¿Es realmenteefectivo?
2.- ¿Dónde encuadrar (de manera “automática”) un artículo, conocidas las frecuencias de dichos términos “clave” en dicho artículo?
PREGUNTA1: ¿Cuáles son las variables Xi que permiten discriminar (predecir) mejor el valor de Y (es decir, las más “influyentes”: obsérveseque si Y es cuantitativa, esta pregunta se puede responder también utilizando regresión múltiple).
Funciones discriminantes:
F1=a1,1X1+…+a1,nXn
F2=a2,1X1+…+a2,nXn
…
pesos
- La técnica puede funcionar o no.- Puede haber una o varias funciones discriminantes.- Están ordenadas por su “poder discriminante” (su “efectividad” para clasificar a un individuo en un grupo determinado). - Dentro de una función discriminante, las variables más influyentes son las que tienen mayor peso.
PREGUNTA2: Dado un nuevo individuo que presenta ciertos valores Para las variables X1,…,Xn, predecir el valor de Y para dicho individuo.
Funciones de clasificación:
Si la variable clasificadora Y tiene j valores distintos (niveles), tendremosj funciones de clasificación:
S1= c1,0+ c1,1X1+ … + c1,nXn
....Sj = cj,0+ cj,1X1+ … + cj,nXn
Dado un nuevo individuo que presenta unos ciertos valores para X1,…,Xn, sustituimos dichos valores en las fórmulas de arriba, y vemoscuál de esas expresiones es la mayor; el nivel de Y al que correspondadicha expresión, será el valor predicho para Y.
Statgraphics
3. Análisis Cluster.
A partir de los valores de X1,…, Xn registrados sobre una muestra de una población, queremos establecer grupos “homogéneos” dentro de la población. Dichos “grupos homogéneos” reciben el nombre de clusters.
Ejemplo: Determinación de perfiles de usuarios (en general, de “clientes”).
X1
X2
3. Análisis Cluster.
Ejemplo: Determinación de perfiles de usuarios (en general, de “clientes”).
X1
X2
A partir de los valores de X1,…, Xn registrados sobre una muestra de una población, queremos establecer grupos “homogéneos” dentro de la población. Dichos “grupos homogéneos” reciben el nombre de clusters.
Si buscamos tresclusters…
3. Análisis Cluster.
Ejemplo: Determinación de perfiles de usuarios (en general, de “clientes”).
X2
A partir de los valores de X1,…, Xn registrados sobre una muestra de una población, queremos establecer grupos “homogéneos” dentro de la población. Dichos “grupos homogéneos” reciben el nombre de clusters.
X1
Si buscamos cuatroclusters…
El análisis cluster se basa en la detección de “afinidades” entre individuos;para nosotros, cada individuo viene representado por (x1,…,xn), y la nociónintuitiva de “afinidad” se materializa en el concepto matemático de DISTANCIA. En este sentido, antes de realizar un análisis cluster, debemosfijar (elegir):
- Distancia entre individuos- Distancia entre grupos.- Número de clusters.
Diferentes elecciones conducen en general a distintosresultados, que han de interpretarse.
Buscamos los resultados “más significativos” posibles.
Fin del Temario
Statgraphics