anÁlisis de componentes principales. introducción partiendo de un conjunto de variables, y...
TRANSCRIPT
![Page 1: ANÁLISIS DE COMPONENTES PRINCIPALES. Introducción Partiendo de un conjunto de variables, y mediante transformaciones lineales, queremos llegar a otro](https://reader035.vdocumento.com/reader035/viewer/2022062519/5665b4831a28abb57c921f90/html5/thumbnails/1.jpg)
ANÁLISIS DE COMPONENTES PRINCIPALES
![Page 2: ANÁLISIS DE COMPONENTES PRINCIPALES. Introducción Partiendo de un conjunto de variables, y mediante transformaciones lineales, queremos llegar a otro](https://reader035.vdocumento.com/reader035/viewer/2022062519/5665b4831a28abb57c921f90/html5/thumbnails/2.jpg)
Introducción
Partiendo de un conjunto de variables, y mediante transformaciones lineales, queremos llegar a otro conjunto de variables, sustancialmente menor, de manera que éste conserve la máxima información del conjunto original. A este segundo y reducido grupo de variables se le denomina componentes principales.
![Page 3: ANÁLISIS DE COMPONENTES PRINCIPALES. Introducción Partiendo de un conjunto de variables, y mediante transformaciones lineales, queremos llegar a otro](https://reader035.vdocumento.com/reader035/viewer/2022062519/5665b4831a28abb57c921f90/html5/thumbnails/3.jpg)
provinciasvege_pr
ed zona conatosincendio
sSafectad
aSarbolada_
afect
precipitacion media julio agosto
humedad relativa media
tempmax
Alicante 1 centro 121 57 1341,78 690,2 3,6 63 33,6
Ávila 1 centro 109 118 1874,67 1311,95 7,05 62 33,8
Baleares 2 centro 112 38 1587,91 1237,01 6,6 66 34,8
Castellón 2 centro 130 32 869,53 613,69 9,2 66 34
Cuenca 1 centro 143 46 467,14 133,71 9,1 60 36,35
Guadalajara 1 centro 96 48 553,05 314,93 23,45 65 35,3
Madrid 1 centro 167 94 1102,05 660,49 11 61 37,25
Salamanca 1 centro 61 115 3595,32 2687,08 6,2 65 35,8
Segovia 2 centro 51 18 369,07 179,23 12,7 60 35,6
Teruel 1 centro 89 16 172,74 72,58 23,15 67 36,7
Valencia 1 centro 157 72 4145,19 653,47 8,3 66 33,65
Valladolid 1 centro 56 28 106,37 20,01 41,4 67
Zamora 1 centro 155 374 8787 7524,14 12,3 65 36,2
Soria 2 norte 66 37 155,81 107,71 34,4 63 35,1
Álava 2 norte 36 19 85,06 68,31 66,8 78 35,35
Asturias 1 norte 411 1101 11679 8725,38 26,55 79 26
Barcelona 1 norte 310 61 219,63 84,05 7,25
Burgos 1 norte 78 136 1478,91 655,17 42,25 71 35,4
Cantabria 1 norte 40 338 3961,68 3340,48 17,05 75 27,6
Gerona 1 norte 174 22 260,22 198,38 24,5 33,2
Siete variables cuantitativas….
![Page 4: ANÁLISIS DE COMPONENTES PRINCIPALES. Introducción Partiendo de un conjunto de variables, y mediante transformaciones lineales, queremos llegar a otro](https://reader035.vdocumento.com/reader035/viewer/2022062519/5665b4831a28abb57c921f90/html5/thumbnails/4.jpg)
Dificultades:
• Cuando se trabaja con muchas variables, “los árboles no dejan ver el bosque”.
• Muchas de las variables que registramos están relacio- nadas entre sí.
Queremos:
• Resumir lo que nos dicen los datos, en un número menor de variables.
• Que sean incorreladas.
• Sin perder demasiada información.
![Page 5: ANÁLISIS DE COMPONENTES PRINCIPALES. Introducción Partiendo de un conjunto de variables, y mediante transformaciones lineales, queremos llegar a otro](https://reader035.vdocumento.com/reader035/viewer/2022062519/5665b4831a28abb57c921f90/html5/thumbnails/5.jpg)
Cantidad de información proporcionada por los datos= Variabilidad
![Page 6: ANÁLISIS DE COMPONENTES PRINCIPALES. Introducción Partiendo de un conjunto de variables, y mediante transformaciones lineales, queremos llegar a otro](https://reader035.vdocumento.com/reader035/viewer/2022062519/5665b4831a28abb57c921f90/html5/thumbnails/6.jpg)
Cuando tenemos datos multivariantes, la variabilidad conjunta ó varianza conjunta puede definirse como la suma de las varianzas de cada una de las variables:
V(X1) + V(X2) + … + V(Xn)
La idea va a ser pasar de unas variables originales a otras (que vamos a crear artificialmente), manteniendo un porcentaje de varianza (= información) que sea significativo.
![Page 7: ANÁLISIS DE COMPONENTES PRINCIPALES. Introducción Partiendo de un conjunto de variables, y mediante transformaciones lineales, queremos llegar a otro](https://reader035.vdocumento.com/reader035/viewer/2022062519/5665b4831a28abb57c921f90/html5/thumbnails/7.jpg)
X1
X2
Estos datos vienen descritos por (X1,X2)…
![Page 8: ANÁLISIS DE COMPONENTES PRINCIPALES. Introducción Partiendo de un conjunto de variables, y mediante transformaciones lineales, queremos llegar a otro](https://reader035.vdocumento.com/reader035/viewer/2022062519/5665b4831a28abb57c921f90/html5/thumbnails/8.jpg)
X1
X2
Pero en realidad se pueden describir muy bien mediante UNA sóla variable Y
Y
![Page 9: ANÁLISIS DE COMPONENTES PRINCIPALES. Introducción Partiendo de un conjunto de variables, y mediante transformaciones lineales, queremos llegar a otro](https://reader035.vdocumento.com/reader035/viewer/2022062519/5665b4831a28abb57c921f90/html5/thumbnails/9.jpg)
Técnica de Componentes Principales (ACP):
X1, X2, …, XnY1, Y2, …, Yn
Variables iniciales(cuantitativas)
Componentes principales
1.- Número elevado de variables.2.- Existen correlaciones entre ellas (información redundante)3.- Tienen significación “clara”
Yj=a1,jX1+ a2,jX2+ … + an,jXn
pesos
1.- Mismo número de variables, pero ordenadas según % de varianza retenido.2.- Incorreladas.3.- En principio, son artificiales; se intenta interpretarlas (subjetivo).4.- La relación entre ellas y las variables iniciales es lineal:
![Page 10: ANÁLISIS DE COMPONENTES PRINCIPALES. Introducción Partiendo de un conjunto de variables, y mediante transformaciones lineales, queremos llegar a otro](https://reader035.vdocumento.com/reader035/viewer/2022062519/5665b4831a28abb57c921f90/html5/thumbnails/10.jpg)
Los pesos
Cuando los datos están estandarizados, cuanto más se acerque a 1 o -1 el peso, mayor influencia tendrá la variable original a la que corresponde, en el componente.
Matemáticamente los pesos de cada componente son el resultado de calcular el autovector del autovalor correspondiente de la matriz de correlaciones y de imponer que la suma de cuadrados de todos ellos sea 1.
![Page 11: ANÁLISIS DE COMPONENTES PRINCIPALES. Introducción Partiendo de un conjunto de variables, y mediante transformaciones lineales, queremos llegar a otro](https://reader035.vdocumento.com/reader035/viewer/2022062519/5665b4831a28abb57c921f90/html5/thumbnails/11.jpg)
![Page 12: ANÁLISIS DE COMPONENTES PRINCIPALES. Introducción Partiendo de un conjunto de variables, y mediante transformaciones lineales, queremos llegar a otro](https://reader035.vdocumento.com/reader035/viewer/2022062519/5665b4831a28abb57c921f90/html5/thumbnails/12.jpg)
• En la práctica, nos quedamos con unas cuántas componentes principales, no con todas; distintas reglas para seleccionar el número de componentes:
1.- Seleccionar componentes hasta cubrir un porcentaje determinado de varianza (70%, 80%, etc.)
2.- Excluir los componentes asociados a autovalores pequeños y aproximadamente del mismo tamaño.
![Page 13: ANÁLISIS DE COMPONENTES PRINCIPALES. Introducción Partiendo de un conjunto de variables, y mediante transformaciones lineales, queremos llegar a otro](https://reader035.vdocumento.com/reader035/viewer/2022062519/5665b4831a28abb57c921f90/html5/thumbnails/13.jpg)
Para interpretar las componentes principales, nos guiamos por los coeficientes más grandes (en valor absoluto), y por las variables cuyos coeficientes tienen el mismo signo.
![Page 14: ANÁLISIS DE COMPONENTES PRINCIPALES. Introducción Partiendo de un conjunto de variables, y mediante transformaciones lineales, queremos llegar a otro](https://reader035.vdocumento.com/reader035/viewer/2022062519/5665b4831a28abb57c921f90/html5/thumbnails/14.jpg)
Estandarización de los datos:
• Salvo que la variabilidad de alguna de las variables originales tenga una importancia especial, las componentes principales se calculan a partir de las variables originales estandarizadas.
• En particular, si en los datos tenemos diferentes unidades de medida, debemos estandarizar.
![Page 15: ANÁLISIS DE COMPONENTES PRINCIPALES. Introducción Partiendo de un conjunto de variables, y mediante transformaciones lineales, queremos llegar a otro](https://reader035.vdocumento.com/reader035/viewer/2022062519/5665b4831a28abb57c921f90/html5/thumbnails/15.jpg)
Las componentes principales son combinación lineal de las variables originales:
Cada coeficiente es el peso correspondiente yes el valor estandarizado
kmkmmm
kk
kk
XaXaXaY
XaXaXaY
XaXaXaY
2211
22221212
12121111
iX
![Page 16: ANÁLISIS DE COMPONENTES PRINCIPALES. Introducción Partiendo de un conjunto de variables, y mediante transformaciones lineales, queremos llegar a otro](https://reader035.vdocumento.com/reader035/viewer/2022062519/5665b4831a28abb57c921f90/html5/thumbnails/16.jpg)
Gráficos e interpretación:
1.- Gráfico de pesos:
Gráfica de Pesos del Componente
-0,39 -0,19 0,01 0,21 0,41 0,61
Componente 1
-0,47
-0,27
-0,07
0,13
0,33
0,53
Co
mp
on
en
te 2
conatos
incendios
SafectadaSarbolada_afect
precipitacion media julio agostohumedad relativa media
tempmax
2D
![Page 17: ANÁLISIS DE COMPONENTES PRINCIPALES. Introducción Partiendo de un conjunto de variables, y mediante transformaciones lineales, queremos llegar a otro](https://reader035.vdocumento.com/reader035/viewer/2022062519/5665b4831a28abb57c921f90/html5/thumbnails/17.jpg)
Gráfica de Pesos del Componente
-0,39 -0,19 0,01 0,21 0,41 0,61Componente 1
-0,47-0,27
-0,070,13
0,330,53
Componente 2
-0,8
-0,6
-0,4
-0,2
0
0,2
0,4
Com
pone
nte
3
conatos
incendios
SafectadaSarbolada_afect
precipitacion media julio agosto
humedad relativa media
tempmax
3D
![Page 18: ANÁLISIS DE COMPONENTES PRINCIPALES. Introducción Partiendo de un conjunto de variables, y mediante transformaciones lineales, queremos llegar a otro](https://reader035.vdocumento.com/reader035/viewer/2022062519/5665b4831a28abb57c921f90/html5/thumbnails/18.jpg)
• Variables vectores. El coseno del ángulo entre dos vectores es aproximadamente el coeficiente de correlación entre las variables.
• Por tanto, vectores con ángulos agudos o casi obtusos, sugieren correlaciones elevadas.
• Permite evaluar las relaciones entre las variables de forma global.
![Page 19: ANÁLISIS DE COMPONENTES PRINCIPALES. Introducción Partiendo de un conjunto de variables, y mediante transformaciones lineales, queremos llegar a otro](https://reader035.vdocumento.com/reader035/viewer/2022062519/5665b4831a28abb57c921f90/html5/thumbnails/19.jpg)
2.- Gráfico de dispersión:
Diagrama de Dispersión
-2,1 -0,1 1,9 3,9 5,9 7,9
Componente 1
-2,8
-0,8
1,2
3,2
5,2
Co
mp
on
en
te 2
Muestra cada observación según los valores de las componentes principales.
2D
![Page 20: ANÁLISIS DE COMPONENTES PRINCIPALES. Introducción Partiendo de un conjunto de variables, y mediante transformaciones lineales, queremos llegar a otro](https://reader035.vdocumento.com/reader035/viewer/2022062519/5665b4831a28abb57c921f90/html5/thumbnails/20.jpg)
2.- Gráfico de dispersión:
Diagrama de Dispersión
-2,1 -0,1 1,9 3,9 5,9 7,9
Componente 1
-2,8
-0,8
1,2
3,2
5,2
Co
mp
on
en
te 2
Permite detectar atípicos…
![Page 21: ANÁLISIS DE COMPONENTES PRINCIPALES. Introducción Partiendo de un conjunto de variables, y mediante transformaciones lineales, queremos llegar a otro](https://reader035.vdocumento.com/reader035/viewer/2022062519/5665b4831a28abb57c921f90/html5/thumbnails/21.jpg)
2.- Gráfico de dispersión:
Caracterizar grupos de comportamiento…
Zona=norte
Diagrama de Dispersión
-2,1 -0,1 1,9 3,9 5,9 7,9
Componente 1
-2,8
-0,8
1,2
3,2
5,2
Co
mp
on
en
te 2
![Page 22: ANÁLISIS DE COMPONENTES PRINCIPALES. Introducción Partiendo de un conjunto de variables, y mediante transformaciones lineales, queremos llegar a otro](https://reader035.vdocumento.com/reader035/viewer/2022062519/5665b4831a28abb57c921f90/html5/thumbnails/22.jpg)
Diagrama de Dispersión
-2,1 -0,1 1,9 3,9 5,9 7,9
Componente 1-2,8
-0,81,2
3,25,2
Componente 2
-3,6
-2,6
-1,6
-0,6
0,4
1,4
2,4
Co
mp
on
en
te 3
Y también en 3D…
![Page 23: ANÁLISIS DE COMPONENTES PRINCIPALES. Introducción Partiendo de un conjunto de variables, y mediante transformaciones lineales, queremos llegar a otro](https://reader035.vdocumento.com/reader035/viewer/2022062519/5665b4831a28abb57c921f90/html5/thumbnails/23.jpg)
3.- Biplot:
Bigráfica
-3,2 -1,2 0,8 2,8 4,8 6,8
Componente 1
-3
-1
1
3
5
Com
pone
nte
2
conatos
incendios
SafectadaSarbolada_afect
precipitacion media julio agostohumedad relativa media
tempmax
Incorpora los dos gráficos anteriores
2D
![Page 24: ANÁLISIS DE COMPONENTES PRINCIPALES. Introducción Partiendo de un conjunto de variables, y mediante transformaciones lineales, queremos llegar a otro](https://reader035.vdocumento.com/reader035/viewer/2022062519/5665b4831a28abb57c921f90/html5/thumbnails/24.jpg)
Bigráfica
-3,2 -1,2 0,8 2,8 4,8 6,8Componente 1
-3-1
13
5
Componente 2-4
-3
-2
-1
0
1
2
Com
pone
nte
3
conatos
incendios
Safectada
Sarbolada_afect
precipitacion media julio agosto
humedad relativa media
tempmax
3D
![Page 25: ANÁLISIS DE COMPONENTES PRINCIPALES. Introducción Partiendo de un conjunto de variables, y mediante transformaciones lineales, queremos llegar a otro](https://reader035.vdocumento.com/reader035/viewer/2022062519/5665b4831a28abb57c921f90/html5/thumbnails/25.jpg)
Obtención de las cargas. Interpretación
• ¿Qué porcentaje de cada variable es explicado por los componentes principales seleccionados?
• Para contestar hay que considerar el concepto de carga.
En datos estandarizados, los pesos son proporcionales a las correlaciones, de tal forma que se cumple
A estas correlaciones se les denomina cargas.
( , )ij i j ij iCorrelación Y X a
![Page 26: ANÁLISIS DE COMPONENTES PRINCIPALES. Introducción Partiendo de un conjunto de variables, y mediante transformaciones lineales, queremos llegar a otro](https://reader035.vdocumento.com/reader035/viewer/2022062519/5665b4831a28abb57c921f90/html5/thumbnails/26.jpg)
Se puede comprobar que la suma de los cuadrados de todas las cargas de cada componente es el autovalor, es decir
Si consideramos una reformulación de las ecuaciones de los componentes en función de las variables originales, de manera que queden despejadas cada una de estas variables, se tendrá las expresiones:
22
2
2
1 ikiii
![Page 27: ANÁLISIS DE COMPONENTES PRINCIPALES. Introducción Partiendo de un conjunto de variables, y mediante transformaciones lineales, queremos llegar a otro](https://reader035.vdocumento.com/reader035/viewer/2022062519/5665b4831a28abb57c921f90/html5/thumbnails/27.jpg)
kmkmmm
kk
kk
YaYaYaX
YaYaYaX
YaYaYaX
2211
22221212
12121111
Obteniendo la varianza de cada miembro, se tiene que:
k
mmii
XVarianza1
2)(
![Page 28: ANÁLISIS DE COMPONENTES PRINCIPALES. Introducción Partiendo de un conjunto de variables, y mediante transformaciones lineales, queremos llegar a otro](https://reader035.vdocumento.com/reader035/viewer/2022062519/5665b4831a28abb57c921f90/html5/thumbnails/28.jpg)
• Si nos quedamos con los m primeros componentes el porcentaje de varianza explicada será
y el resto será porcentaje de no explicada.
m
kki
1
2