análisis de componentes principalesmeteo.fisica.edu.uy/materias/analisis_estadistico...los eof(x,y)...

Analisis Estadístico de Datos Climáticos

Análisis de componentes principales

Analisis de componentes principales

Se usa para encontrar un numero relativamente pequeño de variables nuevas que contengan la mayor cantidad de info posible del conjunto de datos original sin redundancia.

Puede ser usado para explorar la estructura de la variabilidad de un conjunto de datos en forma objetiva y analizar relaciones entre variables diferentes.

¿Que hace el ACP? En forma suscinta, el ACP encuentra un conjunto de

funciones ortogonales empiricas para representar una serie de datos X(x,y,t) como

los EOF(x,y) son los autovectores de la matriz de covarianza y son estructuras espaciales. Los EOF son ortogonales en el espacio.

los PC(t) son los componentes principales que muestran como ha variado cada estructura espacial en el tiempo. Los PC son ortogonales en el tiempo.

X x , y ,t =∑m=1

MPCm t . EOFm x , y

¿Como se obtienen los componentes principales?

Los PC(t) se obtienen proyectando la matriz original de datos X sobre las funciones empiricas ortogonales

El autovalor asociado m es proporcional a

la varianza “explicada” por ese componente principal.

PCm=XEOFm m=1...M

Esquema del Analisis de Componentes principales aplicado a datos de TSM.

Ejemplo: ACP de precipitacion en Sudamerica Sea ANOM la matriz de anomalias de precip sobre

Sudamerica desde enero de 1979 hasta diciembre de 2006.

ANOM (336x28x24) ANOM=ANOM(:,:); (336x672) (matriz de

anomalias)

C=cov(ANOM); %Matriz de covarianza (672x672)

[E,L]=eig(C); %Calcula autovectores y autovalores

son 672.

varianza=diag(L)/trace(L); % dims: 672x1

PC=anom*E; % Componentes ppales

Dimensiones: PC (336 x 672), E (672 x 672)

plot(varianza,'*')

11%

8%

6%

(PC,EOF) más importantes

PC1=PC(:,end); EOF1=E(:,end); PC2=PC(:,end-1); EOF2=E(:,end-1); PC3=PC(:,end-2); EOF3=E(:,end-2);

Se verifica ortogonalidad en tiempo para las PC y espacio para EOF:

PC1'*PC2 =0 EOF1'*EOF2=0



Se verifica que autovectores tienen modulo =1:

EOF1'*EOF1=1

EOF2'*EOF2=1

EOF3'*EOF3=1 La varianza de los PC es el autovalor

asociado a cada EOF.

var(PC1)= L(end,end)

var(PC2)= L(end-1,end-1)

var(PC3)= L(end-2,end-2)

PC1

EOF1

11% de la varianza total

PC2 8% de la varianza total

EOF2

PC3 6% de la varianza total

EOF3

Interpretación

Guarda con las interpretaciones! Los (PC,EOF) son calculados para

maximizar varianza manteniendo ortogonalidad entre ellos y no para tener sentido físico.

Muchas veces se denomina a los EOFs como “modos de variabilidad” dándoles un significado físico.

Los (PC,EOFs) dependen de la región considerada.

ACP sobre la matriz de correlación

A veces se realiza el ACP sobre la matriz de correlacion.

Los (PC, EOF) obtenidos son diferentes que usando la matriz de covarianza.

La decision de usar la matriz de correlacion o de covarianza depende de cómo queremos pesar las diferentes variables

la matriz de covarianza da mas peso a aquellas variables que tienen mayor varianza

en la matriz de correlacion todas las variables tienen igual peso, y solo la estructura importa.

La matriz de correlación debe usarse en los siguientes casos: la matriz de datos contiene variables con

diferentes unidades. Por ejemplo: datos de temperatura, presion,

humedad medidos en una estación. la diferencia entre varianza para distintas

variables es muy grande y distorciona los EOFs encontrados.

Forma de presentar los (PC,EOF)

La forma mas simple es graficar los EOFs tal cual fueron calculados. Este método no dice nada sobre que representa la amplitud

Mapas de regresión: Normalizar el PC de tal forma que tenga desviacion estandard =1 y luego hacer la regresión lineal de los datos originales (anomalias) con respecto al PC.

El mapa resultante tendra la estructura del EOF asociado al PC y la amplitud tendrá unidades de los datos originales.

También podemos hacer la regresión de otras variables con respecto al PC, lo cual dará el patrón de anomalias asociado al (EOF,PC)

Ej. Usar PC1 de SST y hacer mapas de SST, PSM.

Mapas de correlacion

Hacer la correlacion entre la variable original y su PC en cada punto.

El mapa resultante muestra el EOF como mapa de correlacion, el cual se puede usar para calcular significancias estadisticas.

Este mapa no tiene unidades.

La mejor forma es combinar los mapas de regresion con correlacion.

Truncamiento Recordemos que usando los (PC,EOF) es

posible reconstruir la matrix de anomalias original.

Si consideramos sólo P<M (PC,EOFs) reconstruimos parcialmente la matrix original

En clima sólo unos (PC,EOF) dan mucha informacion. Pero cuantos tomamos?

X x , y ,t =∑m=1

MPCm t . EOFm x , y

X x , y ,t ≈∑m=1

PPCm t .EOFm x , y

¿Cómo truncamos?

No existe una forma única.

La forma mas sencilla es tomar un numero de (PC,EOF) de tal forma que juntos represente un % de varianza a elección (>70% ?)

Métodos gráficos

Separación cualitativa entre

partes del plot (P=3)

Regla de North et al

El error de muestreo de un autovalor es (2/N)1/2. Si este error es comparable o mayor que el espacio entre y su vecino, entonces el error de muestreo del EOF asociado a es comparable al EOF vecino. Por lo tanto los dos EOFs no se pueden separar y estos EOFs son combinacion lineal de los EOFs verdaderos.

N es el número de grados de libertad.

De acuerdo a North et al sólo el 1er EOF está bien definido.

Rotación de EOFs

Es deseable interpretar fisicamente los EOFs. No obstante la condicion de ortogonalidad de los EOFs lo hace problemático.

A su vez, la ortogonalidad tambien induce a que los EOFs tengan amplitud diferente de cero en casi todo el dominio.

La rotacion de EOFs “relaja” la condicion de ortogonalidad y permite tener estructuras mas localizadas en el espacio que son mas fáciles de interpretar.

Para hacer la rotación de EOFs es necesario primero calcular los EOFs. Luego: nos quedamos con algunos EOFs (P<M) rotamos estos EOFs para formar nuevos

REOFs basados en algún criterio. el criterio para hacer la rotación se basa

usualmente en medir la “simplicidad” de la estructura del nuevo REOF.

una estructura es “simple” cuando es localizada, es decir cuando el REOF esta fromado por +-1s y 0s.

La rotación se escribe matemáticamente como la multiplicacion de un subconjunto de EOFs originales por una matriz T:

La matriz [T] se elije de acuerdo al criterio de “simplicidad”.

La rotación mas común es la varimax, en la cual [T] está determinada eligiendo sus elementos para maximizar la suma de las varianzas de los elementos al cuadrado del vector rotado

[REOFs ]KxP=[EOFs ]KxP[T ]PxP

e

Ejemplo: Variabilidad de TSM en el Atlantico tropical

Análisis de componentes principales de varios campos

Es posible construir una matriz de datos X que incluya mas de 1 campo. Por ej: temperatura y presión en una grilla.

Si tenemos L variables, la matriz de datos será de (nxKL).

Dado que las variables tienen unidades diferentes se debe usar la matriz de correlación.

En este caso queda:

Usando descomposicion en valores singulares

Si X' es la matriz de anomalías nxK, entonces

1n−1

X'=LRt

Las columnas deL son propocionalesa los PC los elementos

cumplen

k2=k

Las columnas de R sonlos autovectores de lamatriz de covarianza=EOFs

En Matlab: [L,O,R]=svd(X/(n-1));

análisis de componentes principalesmeteo.fisica.edu.uy/materias/analisis_estadistico...los eof(x,y)...

Documents