covarianza

17
COVARIANZA Cuando analizábamos las variables unidimensionales considerábamos, entre otras medidas importantes, la media y la varianza. Ahora hemos visto que estas medidas también podemos considerarlas de forma individual para cada una de las componentes de la variable bidimensional. Si observamos con atención los términos 2 1 ( ) ( ) p Y j j j j S f Y Y Y Y 2 1 ( ) ( ) k X j i i i S f X X X X Vemos que las cantidades y están elevadas al cuadrado y por tanto no pueden ser negativas. ( ) j Y Y ( ) i X X

Upload: daniel-gomez-martinez

Post on 18-Feb-2016

10 views

Category:

Documents


1 download

DESCRIPTION

probabilidad

TRANSCRIPT

Page 1: covarianza

COVARIANZACuando analizábamos las variables unidimensionales considerábamos, entre otras medidas importantes, la media y la varianza. Ahora hemos visto que estas medidas también podemos considerarlas de forma individual para cada una de las componentes de la variable bidimensional.

Si observamos con atención los términos

2

1

( ) ( )p

Y j j jj

S f Y Y Y Y

2

1

( ) ( )k

X j i ii

S f X X X X

Vemos que las cantidades y están elevadas al cuadrado y por tanto no pueden ser negativas..

( )jY Y( )iX X

Page 2: covarianza

La covarianza , es una manera de generalizar la varianza y además se pude definir como una técnica estadística que, utilizando un modelo de regresión lineal múltiple que busca comparar los resultados obtenidos en diferentes grupos de una variable cuantitativa pero corrigiendo las posibles diferencias existentes entre los grupos en otras variables que pudieran afectar también al resultado (covariantes).

En el estudio conjunto de dos variables, lo que interesa principalmente es saber si existe algún tipo de relación entre ellas. Esto se ve gráficamente con el Diagrama de dispersión.

La covarianza de dos variables aleatorias X e Y se define como:

1 1

( ) ( )pk

XY ij i ii j

S f X X Y Y

XYS XYS

DEFINICIÓN

Page 3: covarianza

CARACTERISTICAS

Si Sxy > 0 hay dependencia directa (positiva), es decir, a grandes valores de x corresponden grandes valores de y.

Si Sxy = 0 Una covarianza 0 se interpreta como la no existencia de una relación lineal entre las dos variables estudiadas.

Si Sxy < 0 hay dependencia inversa o negativa, es decir, a grandes valores de x corresponden pequeños valores de y.

La matriz de covarianza SXY de dos variables aleatorias n-dimensionales expresadas como vectores columna e se define como:

Donde es el operador esperanza.

1,...., tnX X X 1,...., t

nY Y Y

tXYS E X E X E E Y

E

Page 4: covarianza

PROPIEDADES

Si a todos los valores de la variable x, les sumamos una constante k y a todos los valores de la variable y, les sumamos una constante k’, la covarianza no varía.

Si a todos los valores de una variable x los multiplicamos por una constante k y a todos los valores de la variable y, los multiplicamos por una constante k’, su covarianza queda multiplicada por el producto de las constantes.

A partir de las anteriores: si tenemos dos variables x, y con la covarianza Sxy , y transformaciones lineales de las variables de la forma z = ax+b, y t = cy +d, la nueva covarianza se relaciona con la anterior de la forma: Szt = acSxy.

Page 5: covarianza

GRAFICA DE LA COVARIANZA Consideremos la nube de puntos formadas por las n -parejas de datos

El centro de gravedad de esta nube de puntos es , o bien podemos escribir simplemente si los datos no están ordenados en una tabla de doble entrada.

Trasladamos los ejes XY al nuevo centro de coordenadas .Queda así dividida la nube de puntos en cuatro cuadrantes como se observa en la figura.

Los puntos que se encuentran en el primer y tercer cuadrante contribuyen positivamente al valor de , y los que se encuentran en el segundo y el cuarto lo hacen negativamente.

,X Y

i iX ,Y

(X, Y) ,X Y

Page 6: covarianza

INTERPRETACION GEOMETRICA DE SXY

Page 7: covarianza

DE ESTE MODO:

Si hay mayoría de puntos en el tercer y primer cuadrante, ocurrirá que , lo que se puede interpretar como que la variable Y tiende a aumentar cuando lo hace X;

Si la mayoría de puntos están repartidos entre el segundo y cuarto cuadrante entonces , es decir, las observaciones Y tienen tendencia a disminuir cuando las de X aumentan;

Si los puntos se reparten con igual intensidad alrededor de , entonces se tendrá que . Véase la siguiente figura como ilustración.

Page 8: covarianza

GRAFICAMENTEGRAFICAMENTE

Page 9: covarianza

EJEMPLOEJEMPLO

Se han clasificado 100 familias según el número de hijos varones (V) o Se han clasificado 100 familias según el número de hijos varones (V) o hembras (H), en la tabla siguiente: hembras (H), en la tabla siguiente:

HH 0 1 2 3 4VV  0 4 6 9 4 1

1 5 10 7 4 2

2 7 8 5 3 13 5 5 3 2 14 2 3 2 1 0

Page 10: covarianza

1. Hallar las medias, varianzas y desviaciones típicas marginales. 1. Hallar las medias, varianzas y desviaciones típicas marginales.

2. ¿Qué número medio de hijas hay en aquellas familias que 2. ¿Qué número medio de hijas hay en aquellas familias que tienen 2 hijos?tienen 2 hijos?

3. ¿Qué número medio de hijos varones hay en aquellas familias 3. ¿Qué número medio de hijos varones hay en aquellas familias que no que no

tienen hijas?tienen hijas? 4. ¿Qué número medio de hijos varones tienen aquellas familias 4. ¿Qué número medio de hijos varones tienen aquellas familias

que a lo sumo tienen 2 hijas? que a lo sumo tienen 2 hijas?

5. Hallar la covarianza 5. Hallar la covarianza

Page 11: covarianza

SOLUCION

En primer lugar, definimos las variables X = número de hijos varones, e Y = número de hijas y construimos la tabla con las frecuencias marginales, y con otras cantidades que nos son útiles en el cálculo de medias y varianzas:

Page 12: covarianza

y1 y2 y3 y4 y5        

0 1 2 3 4

4 6 9 4 1 24 0 0 0

5 10 7 4 2 28 28 28 44

7 8 5 3 1 24 48 96 62

5 5 3 2 1 16 48 144 63

2 3 2 1 0 8 32 128 40

23 32 26 14 5 100 156 396 209

0 32 52 42 20 146  

0 32 104 126 80 342  

ΗY

VX

1 0X

2 1X

3 2X

4 3X

5 4X

jn

j jn y

2j jn y

in i in X 2i in X

4

0i ij jj

X n Y

Page 13: covarianza

De este modo, las medias marginales sonDe este modo, las medias marginales son

Calculamos después las varianzas marginales

5

1

1 156 1.56100i ii

X n xn

5

1

1 146 1.46100j jj

y n yn

52 2 2 2

1

1 396 1.56 1.5264100X i ii

S n x Xn

52 2 2

1

1 342 1.46 1.2884100Y j jJ

S n y Yn

Page 14: covarianza

Que nos dan directamente las desviaciones

típicas marginales, ;

El número medio de hijas en las familias con 2 hijos varones se obtiene calculando la distribución condicionada de

n3j n3j yj

7 0

8 8

5 10

3 9

1 4

  24 31

32X XY Y

2XY

1 0Y

2 1Y

3 2Y

4 3Y

5 4Y

2 1.2354X XS S 2 1.1351Y YS S

3

5

3 3213

1 31 1.291724j jX Xj

Y Y Y n yn

Page 15: covarianza

Del mismo modo, el número medio de hijos varones de las familias sin hijas, Del mismo modo, el número medio de hijos varones de las familias sin hijas, se calcula con la distribución condicionadase calcula con la distribución condicionada

ni1ni1 xi

4 0

5 5

7 14

5 15

2 8

  23 42

10Y YX X

1

5

1 10 1 1

1 42 1.82623i iY Yi

X X X n Xn

0YX

1 0X

2 1X

3 2X

4 3X

5 4X

Page 16: covarianza

El número medio de hijos varones en las familias que a lo sumo tienen dos hijas, se calcula usando las marginales de la tabla obtenida a partir de las columnas y1, y2 e y3

ni1 ni2 ni3ni1+ni2+

ni3(ni1+ni2+ni3) xi

4 6 9 19 19

5 107 22 22

7 8 5 20 40

5 5 3 13 39

2 3 2 7 28

  81 129

1 0X

2 1X

3 2X

4 3X

5 4X

2129 1.592681Y

X

2YX

Page 17: covarianza

La covarianza es:

5 5

1 1

1 209 1.56 x 1.46 0.1876100XY i ij ji j

S X n y x yn