diseñode experimentosy regresión - etsii.upm.es n y y 2 2 22 21 y n y y modelo m o d e l o d a t o...

Laboratorio

de

Estadística

Diseño de

Experimentos y

Regresión

ESCUELA TÉCNICA SUPERIOR DE

INGENIEROS INDUSTRIALESUNIVERSIDAD POLITÉCNICA DE MADRID

Edición Curso 17/18

DISEÑO DE EXPERIMENTOS Y MODELOS DE REGRESIÓNDepartamento de ingeniería de organización,

administración de empresas y estadística.

PROGRAMA

1. Análisis de la varianza. Comparación de dos tratamientos. La hipóte-sis de normalidad, independencia y homocedasticidad. Estimación. Contrastede igualdad de medias. Contraste de igualdad de varianzas. La distribuciónF: Comparación de varios tratamientos. Modelo básico. Descomposición de lavariabilidad. Tabla del análisis de la varianza (ADEVA). Contraste de igualdadde medias. Comparaciones múltiples. Diagnosis de las hipótesis del modelo deanálisis de la varianza. Grá�co probabilista normal. Contrastes de homocedas-ticidad. Aleatorización.

2. Diseño de experimentos. Modelo con dos factores. Concepto de in-teracción. Descomposición de la variabilidad. Tabla de análisis de la varianza.Contraste de igual de medias. Diagnosis de las hipótesis del modelo. El modeloen bloques aleatorizados. Modelo y estimación. Descomposición de la variabi-lidad. Tabla de análisis de la varianza.

3. Regresión lineal. Hipótesis del modelo. Estimación de los parámetros pormáxima verosimilitud (mínimos cuadrados). Distribución de los estimadores.Contrastes individuales de los parámetros del modelo. Contraste general deregresión. El coe�ciente de determinación. Multicolinealidad: identi�cación ysus consecuencias. Predicción en regresión simple. Variables cualitativas comoregresores. Diagnosis del modelo.

1

Diseño de Experimentos y Modelos de Regresión

Curso 2016/17

1. Análisis de la Varianza

1.1 Dos tratamientos

3Análisis de la Varianza

Comparación de dos tratamientos

A B51,3 29,639,4 47,026,3 25,939,0 13,048,1 33,134,2 22,169,8 34,131,3 19,545,2 43,846,4 24,9

Se desea comparar dostratamientos parareducir el nivel decolesterol en la sangre.Se seleccionan 20individuos y se asignanal azar a dos tipos dedietas A y B. La tablamuestra la reducciónconseguida después dedos meses.


Método: 4 pasos

- Definición del modelo de distribución de probabilidad:

·Hipótesis·Parámetros

- Estimación de los parámetros- Diagnosis de las hipótesis- Aplicación


1 2

11

12

11

ny

yy

22

22

21

ny

yy

ModeloMODELO

DATOS


Modelo: Hipótesis y Parámetros

Hipótesis básicas: Normalidad

yij N( i, 2)

Homocedasticidad

Var [yij] = 2

Independencia

Cov [yij, ykl] = 0

Parámetros

22

1


Modelo

),0(, 2Nuuy ijijiij

Las observaciones se descomponen en:-Parte predecible-Parte aleatoria

i

0

iju


Estimación medias:

2

12

22

1

11

11

2

1

:

:

n

y

y

n

y

y

n

jj

n

jj

A B51,3 29,639,4 47,026,3 25,939,0 13,048,1 33,134,2 22,169,8 34,131,3 19,545,2 43,846,4 24,943,1 29,3


Estimación varianza (residuos)

A B8,2 0,3-3,7 17,7

-16,8 -3,4-4,1 -16,35,0 3,8-8,9 -7,226,7 4,8-11,8 -9,82,1 14,53,3 -4,40,0 0,0

Residuos

2ˆ:

:

),0(,

2

1 1

2

22

2

n

e

s

e

yye

yu

Nuuy

i

n

jij

R

ij

iijij

iijij

ijijiij

i

RESIDUO

95.130ˆ;0 21

Rn

jij sei


Varianza residual:

1)(

ˆ1

2112

1

1

12

11

1

nyy

s

y

yy

j

n

1)(

ˆ2

2222

2

2

22

21

2

nyy

s

y

yy

j

n

1 2

22

1 12 2 21 21 2

1 1ˆ ˆ ˆ2 2 2

in

iji j

R

en ns s s

n n n

2ˆRs


Diferencia de medias:

),(1

2

11

1

12

11

1

nNy

y

yy

n

),(2

2

22

2

22

21

2

nNy

y

yy

n

1 2

2

21

2121

21

21212

2

1

2

2121

11ˆ

)()()1,0(

11)()(

),(

n

R

t

nns

yyN

nn

yynn

Nyy

21 yy


Contraste de igualdad de medias

211

210

::

HH

/2

02/0

02/0

rechaza e

rechaza se No

HStt

Htt

t /2-t /2

/2

tn-2

R.R. R.R

R. Acept.

1-2

21

210 11ˆ

n

R

t

nns

yyt


211

210

::

HH

0 rechaza e10.269.2 HS

2.10-2.10

0.025

t18R.R. R.R

69.2

101

10144.11

3.291.430t

0.025

Ejemplo: = 0.05


Ejemplo: = 0.01

211

210

::

HH

/2

0 rechaza se No88.269.2 H

2.88-2.88

0.005

t18

R.R. R.R

0.9969.2

101

10144.11

3.291.430t

0.005


211

210

::

HH

69.2

101

10144.11

3.291.430t

Nivel crítico (bilateral)

2.69-2.69

0.00740.0074

t18

0147.0)69.2Pr( 18tvalorp

• = 0.05 > p-valor Se rechaza H0

• = 0.01 < p-valor No se rechaza H0


Conclusiones (fijado )

Si |to| > t /2 se dice quela diferencia demedias essignificativa. Osimplemente que lostratamientos sondistintos (tienenmedias distintas).

Si |to| t /2 se dice quela diferencia demedias no essignificativa. No hayevidencia suficientepara afirmar que lasmedias de lostratamientos seandiferentes.


No rechazar Ho, no implica que Ho sea cierta

El resultado |to| t /2, (no se rechaza Ho)no debe interpretarse como que “se hademostrado que las dos medias soniguales”.

No rechazar la hipótesis nula implica quela diferencia entre las medias 1 - 2 no eslo suficientemente grande como para serdetectada con el tamaño muestral dado.

Comparación de dos tratamientos con R

18

19


Comparación de medidas del cuerpo humano por género

20

Means Conf. Int.


Intervalo de confianza para la diferencia de medias:

2

21

212111ˆ

)()(n

R

t

nns

yy

21

212/2121

2/

21

21212/

11ˆ)(

1}11ˆ

)()({Pr

nnstyy

t

nns

yyt

R

R

t /2-t /2

/2

tn-2

1- /2


Ejemplo: intervalo de confianza

2.10-2.10

0.025

t18

0.025

74.108.13101

10144.1110.2)3.291.43(

11ˆ)(

21

21

212/2121 nnstyy R

21


Hipótesis de homocedasticidad

1)(

ˆ1

2112

1

1

12

11

1

nyy

s

y

yy

j

n

1)(

ˆ2

2222

2

2

22

21

2

nyy

s

y

yy

j

n

1

1 2

2

22

211

22

210

:

:

H

H

24Análisis de la varianza

Distribución F

212

1

211

1

2112

1

1

12

11

1

1

ˆ)1(

1)(

ˆ

n

j

n

sn

nyy

s

y

yy

212

2

222

2

2222

2

2

22

21

2

2

ˆ)1(

1)(

ˆ

n

j

n

sn

nyy

s

y

yy

1,1

22

22

21

21

2

21

1

21

21

2

1

ˆ

ˆ

)1(

)1(nn

n

n

Fs

s

n

nF


Distribución F

F5,40

F10,40

F20,40

F40,40


Algunas distribuciones F

F10,10

F10,20

F10,40

F10,80


Contraste de igualdad de varianzas

F /2F1- /2

/2/2

RRRR1-

R.A. Ho

02/2/10

02/2/10

rechaza Se , Si rechaza se No , Si

HFFFHFFF

22

211

22

210

:

:

H

H

1,121

21

0

22

210

21ˆˆ

, cierto es Si

nnFssF

H


Ejemplo: Contraste de igualdad de varianzas

4.030.248

0.0250.025

RRRR

0 rechaza se No 03.4,248.0.371 H

22

211

22

210

:

:

H

H

37.17.11102.154

7.111ˆ02.154ˆ

0

22

21

F

ss1.37

Gra

dos d

e lib

erta

d de

l den

omin

ador

: 2

=0.05Tabla F )( ,,,,, 212121

FFPF

05.0)50.3(: 8,7FPEjemplo

1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.1 161,4 199,5 215,7 224,6 230,2 234,0 236,8 238,9 240,5 241,9 243,9 245,9 248,0 249,1 250,1 251,1 252,2 253,0 253,3 254,3 12 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,41 19,43 19,45 19,45 19,46 19,47 19,48 19,49 19,49 19,50 23 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,74 8,70 8,66 8,64 8,62 8,59 8,57 8,55 8,55 8,53 34 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,91 5,86 5,80 5,77 5,75 5,72 5,69 5,66 5,66 5,63 45 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,68 4,62 4,56 4,53 4,50 4,46 4,43 4,41 4,40 4,37 56 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 4,00 3,94 3,87 3,84 3,81 3,77 3,74 3,71 3,70 3,67 67 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,57 3,51 3,44 3,41 3,38 3,34 3,30 3,27 3,27 3,23 78 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,28 3,22 3,15 3,12 3,08 3,04 3,01 2,97 2,97 2,93 89 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,07 3,01 2,94 2,90 2,86 2,83 2,79 2,76 2,75 2,71 9

10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,91 2,85 2,77 2,74 2,70 2,66 2,62 2,59 2,58 2,54 1011 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 2,79 2,72 2,65 2,61 2,57 2,53 2,49 2,46 2,45 2,40 1112 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 2,69 2,62 2,54 2,51 2,47 2,43 2,38 2,35 2,34 2,30 1213 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 2,60 2,53 2,46 2,42 2,38 2,34 2,30 2,26 2,25 2,21 1314 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 2,53 2,46 2,39 2,35 2,31 2,27 2,22 2,19 2,18 2,13 1415 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,48 2,40 2,33 2,29 2,25 2,20 2,16 2,12 2,11 2,07 1516 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,42 2,35 2,28 2,24 2,19 2,15 2,11 2,07 2,06 2,01 1617 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 2,38 2,31 2,23 2,19 2,15 2,10 2,06 2,02 2,01 1,96 1718 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 2,34 2,27 2,19 2,15 2,11 2,06 2,02 1,98 1,97 1,92 1819 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 2,31 2,23 2,16 2,11 2,07 2,03 1,98 1,94 1,93 1,88 1920 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,28 2,20 2,12 2,08 2,04 1,99 1,95 1,91 1,90 1,84 2021 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32 2,25 2,18 2,10 2,05 2,01 1,96 1,92 1,88 1,87 1,81 2122 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34 2,30 2,23 2,15 2,07 2,03 1,98 1,94 1,89 1,85 1,84 1,78 2223 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,32 2,27 2,20 2,13 2,05 2,01 1,96 1,91 1,86 1,82 1,81 1,76 2324 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30 2,25 2,18 2,11 2,03 1,98 1,94 1,89 1,84 1,80 1,79 1,73 2425 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,28 2,24 2,16 2,09 2,01 1,96 1,92 1,87 1,82 1,78 1,77 1,71 2526 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2,22 2,15 2,07 1,99 1,95 1,90 1,85 1,80 1,76 1,75 1,69 2627 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,25 2,20 2,13 2,06 1,97 1,93 1,88 1,84 1,79 1,74 1,73 1,67 2728 4,20 3,34 2,95 2,71 2,56 2,45 2,36 2,29 2,24 2,19 2,12 2,04 1,96 1,91 1,87 1,82 1,77 1,73 1,71 1,65 2829 4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,22 2,18 2,10 2,03 1,94 1,90 1,85 1,81 1,75 1,71 1,70 1,64 2930 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 2,09 2,01 1,93 1,89 1,84 1,79 1,74 1,70 1,68 1,62 3040 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08 2,00 1,92 1,84 1,79 1,74 1,69 1,64 1,59 1,58 1,51 4050 4,03 3,18 2,79 2,56 2,40 2,29 2,20 2,13 2,07 2,03 1,95 1,87 1,78 1,74 1,69 1,63 1,58 1,52 1,51 1,44 5060 4,00 3,15 2,76 2,53 2,37 2,25 2,17 2,10 2,04 1,99 1,92 1,84 1,75 1,70 1,65 1,59 1,53 1,48 1,47 1,39 6070 3,98 3,13 2,74 2,50 2,35 2,23 2,14 2,07 2,02 1,97 1,89 1,81 1,72 1,67 1,62 1,57 1,50 1,45 1,44 1,35 7080 3,96 3,11 2,72 2,49 2,33 2,21 2,13 2,06 2,00 1,95 1,88 1,79 1,70 1,65 1,60 1,54 1,48 1,43 1,41 1,32 8090 3,95 3,10 2,71 2,47 2,32 2,20 2,11 2,04 1,99 1,94 1,86 1,78 1,69 1,64 1,59 1,53 1,46 1,41 1,39 1,30 90100 3,94 3,09 2,70 2,46 2,31 2,19 2,10 2,03 1,97 1,93 1,85 1,77 1,68 1,63 1,57 1,52 1,45 1,39 1,38 1,28 100120 3,92 3,07 2,68 2,45 2,29 2,18 2,09 2,02 1,96 1,91 1,83 1,75 1,66 1,61 1,55 1,50 1,43 1,37 1,35 1,25 120Inf 3,84 3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,88 1,83 1,75 1,67 1,57 1,52 1,46 1,39 1,32 1,24 1,22 1,00 Inf

1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.

Gra

dos d

e lib

erta

d de

l den

omin

ador

: 2

=0.025Tabla F )( ,,,,, 212121

FFPF

025.0)53.4(: 8,7FPEjemplo

1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.1 647,8 799,5 864,2 899,6 921,8 937,1 948,2 956,6 963,3 968,6 976,7 984,9 993,1 997,3 1001,4 1005,6 1009,8 1013,2 1014,0 1018,3 12 38,51 39,00 39,17 39,25 39,30 39,33 39,36 39,37 39,39 39,40 39,41 39,43 39,45 39,46 39,46 39,47 39,48 39,49 39,49 39,50 23 17,44 16,04 15,44 15,10 14,88 14,73 14,62 14,54 14,47 14,42 14,34 14,25 14,17 14,12 14,08 14,04 13,99 13,96 13,95 13,90 34 12,22 10,65 9,98 9,60 9,36 9,20 9,07 8,98 8,90 8,84 8,75 8,66 8,56 8,51 8,46 8,41 8,36 8,32 8,31 8,26 45 10,01 8,43 7,76 7,39 7,15 6,98 6,85 6,76 6,68 6,62 6,52 6,43 6,33 6,28 6,23 6,18 6,12 6,08 6,07 6,02 56 8,81 7,26 6,60 6,23 5,99 5,82 5,70 5,60 5,52 5,46 5,37 5,27 5,17 5,12 5,07 5,01 4,96 4,92 4,90 4,85 67 8,07 6,54 5,89 5,52 5,29 5,12 4,99 4,90 4,82 4,76 4,67 4,57 4,47 4,41 4,36 4,31 4,25 4,21 4,20 4,14 78 7,57 6,06 5,42 5,05 4,82 4,65 4,53 4,43 4,36 4,30 4,20 4,10 4,00 3,95 3,89 3,84 3,78 3,74 3,73 3,67 89 7,21 5,71 5,08 4,72 4,48 4,32 4,20 4,10 4,03 3,96 3,87 3,77 3,67 3,61 3,56 3,51 3,45 3,40 3,39 3,33 9

10 6,94 5,46 4,83 4,47 4,24 4,07 3,95 3,85 3,78 3,72 3,62 3,52 3,42 3,37 3,31 3,26 3,20 3,15 3,14 3,08 1011 6,72 5,26 4,63 4,28 4,04 3,88 3,76 3,66 3,59 3,53 3,43 3,33 3,23 3,17 3,12 3,06 3,00 2,96 2,94 2,88 1112 6,55 5,10 4,47 4,12 3,89 3,73 3,61 3,51 3,44 3,37 3,28 3,18 3,07 3,02 2,96 2,91 2,85 2,80 2,79 2,72 1213 6,41 4,97 4,35 4,00 3,77 3,60 3,48 3,39 3,31 3,25 3,15 3,05 2,95 2,89 2,84 2,78 2,72 2,67 2,66 2,60 1314 6,30 4,86 4,24 3,89 3,66 3,50 3,38 3,29 3,21 3,15 3,05 2,95 2,84 2,79 2,73 2,67 2,61 2,56 2,55 2,49 1415 6,20 4,77 4,15 3,80 3,58 3,41 3,29 3,20 3,12 3,06 2,96 2,86 2,76 2,70 2,64 2,59 2,52 2,47 2,46 2,40 1516 6,12 4,69 4,08 3,73 3,50 3,34 3,22 3,12 3,05 2,99 2,89 2,79 2,68 2,63 2,57 2,51 2,45 2,40 2,38 2,32 1617 6,04 4,62 4,01 3,66 3,44 3,28 3,16 3,06 2,98 2,92 2,82 2,72 2,62 2,56 2,50 2,44 2,38 2,33 2,32 2,25 1718 5,98 4,56 3,95 3,61 3,38 3,22 3,10 3,01 2,93 2,87 2,77 2,67 2,56 2,50 2,44 2,38 2,32 2,27 2,26 2,19 1819 5,92 4,51 3,90 3,56 3,33 3,17 3,05 2,96 2,88 2,82 2,72 2,62 2,51 2,45 2,39 2,33 2,27 2,22 2,20 2,13 1920 5,87 4,46 3,86 3,51 3,29 3,13 3,01 2,91 2,84 2,77 2,68 2,57 2,46 2,41 2,35 2,29 2,22 2,17 2,16 2,09 2021 5,83 4,42 3,82 3,48 3,25 3,09 2,97 2,87 2,80 2,73 2,64 2,53 2,42 2,37 2,31 2,25 2,18 2,13 2,11 2,04 2122 5,79 4,38 3,78 3,44 3,22 3,05 2,93 2,84 2,76 2,70 2,60 2,50 2,39 2,33 2,27 2,21 2,14 2,09 2,08 2,00 2223 5,75 4,35 3,75 3,41 3,18 3,02 2,90 2,81 2,73 2,67 2,57 2,47 2,36 2,30 2,24 2,18 2,11 2,06 2,04 1,97 2324 5,72 4,32 3,72 3,38 3,15 2,99 2,87 2,78 2,70 2,64 2,54 2,44 2,33 2,27 2,21 2,15 2,08 2,02 2,01 1,94 2425 5,69 4,29 3,69 3,35 3,13 2,97 2,85 2,75 2,68 2,61 2,51 2,41 2,30 2,24 2,18 2,12 2,05 2,00 1,98 1,91 2526 5,66 4,27 3,67 3,33 3,10 2,94 2,82 2,73 2,65 2,59 2,49 2,39 2,28 2,22 2,16 2,09 2,03 1,97 1,95 1,88 2627 5,63 4,24 3,65 3,31 3,08 2,92 2,80 2,71 2,63 2,57 2,47 2,36 2,25 2,19 2,13 2,07 2,00 1,94 1,93 1,85 2728 5,61 4,22 3,63 3,29 3,06 2,90 2,78 2,69 2,61 2,55 2,45 2,34 2,23 2,17 2,11 2,05 1,98 1,92 1,91 1,83 2829 5,59 4,20 3,61 3,27 3,04 2,88 2,76 2,67 2,59 2,53 2,43 2,32 2,21 2,15 2,09 2,03 1,96 1,90 1,89 1,81 2930 5,57 4,18 3,59 3,25 3,03 2,87 2,75 2,65 2,57 2,51 2,41 2,31 2,20 2,14 2,07 2,01 1,94 1,88 1,87 1,79 3040 5,42 4,05 3,46 3,13 2,90 2,74 2,62 2,53 2,45 2,39 2,29 2,18 2,07 2,01 1,94 1,88 1,80 1,74 1,72 1,64 4050 5,34 3,97 3,39 3,05 2,83 2,67 2,55 2,46 2,38 2,32 2,22 2,11 1,99 1,93 1,87 1,80 1,72 1,66 1,64 1,55 5060 5,29 3,93 3,34 3,01 2,79 2,63 2,51 2,41 2,33 2,27 2,17 2,06 1,94 1,88 1,82 1,74 1,67 1,60 1,58 1,48 6070 5,25 3,89 3,31 2,97 2,75 2,59 2,47 2,38 2,30 2,24 2,14 2,03 1,91 1,85 1,78 1,71 1,63 1,56 1,54 1,44 7080 5,22 3,86 3,28 2,95 2,73 2,57 2,45 2,35 2,28 2,21 2,11 2,00 1,88 1,82 1,75 1,68 1,60 1,53 1,51 1,40 8090 5,20 3,84 3,26 2,93 2,71 2,55 2,43 2,34 2,26 2,19 2,09 1,98 1,86 1,80 1,73 1,66 1,58 1,50 1,48 1,37 90100 5,18 3,83 3,25 2,92 2,70 2,54 2,42 2,32 2,24 2,18 2,08 1,97 1,85 1,78 1,71 1,64 1,56 1,48 1,46 1,35 100120 5,15 3,80 3,23 2,89 2,67 2,52 2,39 2,30 2,22 2,16 2,05 1,94 1,82 1,76 1,69 1,61 1,53 1,45 1,43 1,31 120Inf 5,02 3,69 3,12 2,79 2,57 2,41 2,29 2,19 2,11 2,05 1,94 1,83 1,71 1,64 1,57 1,48 1,39 1,30 1,27 1,00 Inf

1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.

Gra

dos d

e lib

erta

d de

l den

omin

ador

: 2

=0.01Tabla F )( ,,,,, 212121

FFPF

01.0)18.6(: 8,7FPEjemplo

1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.1 4052,2 4999,3 5403,5 5624,3 5764,0 5859,0 5928,3 5981,0 6022,4 6055,9 6106,7 6157,0 6208,7 6234,3 6260,4 6286,4 6313,0 6333,9 6339,5 6365,6 12 98,50 99,00 99,16 99,25 99,30 99,33 99,36 99,38 99,39 99,40 99,42 99,43 99,45 99,46 99,47 99,48 99,48 99,49 99,49 99,50 23 34,12 30,82 29,46 28,71 28,24 27,91 27,67 27,49 27,34 27,23 27,05 26,87 26,69 26,60 26,50 26,41 26,32 26,24 26,22 26,13 34 21,20 18,00 16,69 15,98 15,52 15,21 14,98 14,80 14,66 14,55 14,37 14,20 14,02 13,93 13,84 13,75 13,65 13,58 13,56 13,46 45 16,26 13,27 12,06 11,39 10,97 10,67 10,46 10,29 10,16 10,05 9,89 9,72 9,55 9,47 9,38 9,29 9,20 9,13 9,11 9,02 56 13,75 10,92 9,78 9,15 8,75 8,47 8,26 8,10 7,98 7,87 7,72 7,56 7,40 7,31 7,23 7,14 7,06 6,99 6,97 6,88 67 12,25 9,55 8,45 7,85 7,46 7,19 6,99 6,84 6,72 6,62 6,47 6,31 6,16 6,07 5,99 5,91 5,82 5,75 5,74 5,65 78 11,26 8,65 7,59 7,01 6,63 6,37 6,18 6,03 5,91 5,81 5,67 5,52 5,36 5,28 5,20 5,12 5,03 4,96 4,95 4,86 89 10,56 8,02 6,99 6,42 6,06 5,80 5,61 5,47 5,35 5,26 5,11 4,96 4,81 4,73 4,65 4,57 4,48 4,41 4,40 4,31 9

10 10,04 7,56 6,55 5,99 5,64 5,39 5,20 5,06 4,94 4,85 4,71 4,56 4,41 4,33 4,25 4,17 4,08 4,01 4,00 3,91 1011 9,65 7,21 6,22 5,67 5,32 5,07 4,89 4,74 4,63 4,54 4,40 4,25 4,10 4,02 3,94 3,86 3,78 3,71 3,69 3,60 1112 9,33 6,93 5,95 5,41 5,06 4,82 4,64 4,50 4,39 4,30 4,16 4,01 3,86 3,78 3,70 3,62 3,54 3,47 3,45 3,36 1213 9,07 6,70 5,74 5,21 4,86 4,62 4,44 4,30 4,19 4,10 3,96 3,82 3,66 3,59 3,51 3,43 3,34 3,27 3,25 3,17 1314 8,86 6,51 5,56 5,04 4,69 4,46 4,28 4,14 4,03 3,94 3,80 3,66 3,51 3,43 3,35 3,27 3,18 3,11 3,09 3,00 1415 8,68 6,36 5,42 4,89 4,56 4,32 4,14 4,00 3,89 3,80 3,67 3,52 3,37 3,29 3,21 3,13 3,05 2,98 2,96 2,87 1516 8,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,78 3,69 3,55 3,41 3,26 3,18 3,10 3,02 2,93 2,86 2,84 2,75 1617 8,40 6,11 5,19 4,67 4,34 4,10 3,93 3,79 3,68 3,59 3,46 3,31 3,16 3,08 3,00 2,92 2,83 2,76 2,75 2,65 1718 8,29 6,01 5,09 4,58 4,25 4,01 3,84 3,71 3,60 3,51 3,37 3,23 3,08 3,00 2,92 2,84 2,75 2,68 2,66 2,57 1819 8,18 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,52 3,43 3,30 3,15 3,00 2,92 2,84 2,76 2,67 2,60 2,58 2,49 1920 8,10 5,85 4,94 4,43 4,10 3,87 3,70 3,56 3,46 3,37 3,23 3,09 2,94 2,86 2,78 2,69 2,61 2,54 2,52 2,42 2021 8,02 5,78 4,87 4,37 4,04 3,81 3,64 3,51 3,40 3,31 3,17 3,03 2,88 2,80 2,72 2,64 2,55 2,48 2,46 2,36 2122 7,95 5,72 4,82 4,31 3,99 3,76 3,59 3,45 3,35 3,26 3,12 2,98 2,83 2,75 2,67 2,58 2,50 2,42 2,40 2,31 2223 7,88 5,66 4,76 4,26 3,94 3,71 3,54 3,41 3,30 3,21 3,07 2,93 2,78 2,70 2,62 2,54 2,45 2,37 2,35 2,26 2324 7,82 5,61 4,72 4,22 3,90 3,67 3,50 3,36 3,26 3,17 3,03 2,89 2,74 2,66 2,58 2,49 2,40 2,33 2,31 2,21 2425 7,77 5,57 4,68 4,18 3,85 3,63 3,46 3,32 3,22 3,13 2,99 2,85 2,70 2,62 2,54 2,45 2,36 2,29 2,27 2,17 2526 7,72 5,53 4,64 4,14 3,82 3,59 3,42 3,29 3,18 3,09 2,96 2,81 2,66 2,58 2,50 2,42 2,33 2,25 2,23 2,13 2627 7,68 5,49 4,60 4,11 3,78 3,56 3,39 3,26 3,15 3,06 2,93 2,78 2,63 2,55 2,47 2,38 2,29 2,22 2,20 2,10 2728 7,64 5,45 4,57 4,07 3,75 3,53 3,36 3,23 3,12 3,03 2,90 2,75 2,60 2,52 2,44 2,35 2,26 2,19 2,17 2,06 2829 7,60 5,42 4,54 4,04 3,73 3,50 3,33 3,20 3,09 3,00 2,87 2,73 2,57 2,49 2,41 2,33 2,23 2,16 2,14 2,03 2930 7,56 5,39 4,51 4,02 3,70 3,47 3,30 3,17 3,07 2,98 2,84 2,70 2,55 2,47 2,39 2,30 2,21 2,13 2,11 2,01 3040 7,31 5,18 4,31 3,83 3,51 3,29 3,12 2,99 2,89 2,80 2,66 2,52 2,37 2,29 2,20 2,11 2,02 1,94 1,92 1,80 4050 7,17 5,06 4,20 3,72 3,41 3,19 3,02 2,89 2,78 2,70 2,56 2,42 2,27 2,18 2,10 2,01 1,91 1,82 1,80 1,68 5060 7,08 4,98 4,13 3,65 3,34 3,12 2,95 2,82 2,72 2,63 2,50 2,35 2,20 2,12 2,03 1,94 1,84 1,75 1,73 1,60 6070 7,01 4,92 4,07 3,60 3,29 3,07 2,91 2,78 2,67 2,59 2,45 2,31 2,15 2,07 1,98 1,89 1,78 1,70 1,67 1,54 7080 6,96 4,88 4,04 3,56 3,26 3,04 2,87 2,74 2,64 2,55 2,42 2,27 2,12 2,03 1,94 1,85 1,75 1,65 1,63 1,49 8090 6,93 4,85 4,01 3,53 3,23 3,01 2,84 2,72 2,61 2,52 2,39 2,24 2,09 2,00 1,92 1,82 1,72 1,62 1,60 1,46 90100 6,90 4,82 3,98 3,51 3,21 2,99 2,82 2,69 2,59 2,50 2,37 2,22 2,07 1,98 1,89 1,80 1,69 1,60 1,57 1,43 100120 6,85 4,79 3,95 3,48 3,17 2,96 2,79 2,66 2,56 2,47 2,34 2,19 2,03 1,95 1,86 1,76 1,66 1,56 1,53 1,38 120Inf 6,63 4,61 3,78 3,32 3,02 2,80 2,64 2,51 2,41 2,32 2,18 2,04 1,88 1,79 1,70 1,59 1,47 1,36 1,32 1,00 Inf

1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.

32


33



1.2 K tratamientos


¿Existen diferencias entre las cuatro semillas?

Se desea comparar el rendimiento de cuatrosemillas A,B,C y D. Un terreno se divide en 24parcelas similares y se asigna al azar cada semillaa 6 parcelas.

A B C D229.1 233.4 211.1 270.4253.7 233.0 223.1 248.6241.3 219.2 217.5 230.0254.7 200.0 211.8 250.7237.2 224.3 207.6 230.0241.3 202.0 213.7 245.8242.9 218.7 214.1 245.9


Método: 4 pasos

- Definición del modelo de distribución de probabilidad:

·Hipótesis·Parámetros

- Estimación de los parámetros- Diagnosis de las hipótesis- Aplicación


Modelo

1 2 K

...

11

12

11

ny

yy

22

22

21

ny

yy

KKn

K

K

y

yy

2

1

...


Hipótesis del modelo

Normalidadyij N( i, 2)

HomocedasticidadVar [yij] = 2

IndependenciaCov [yij, ykl] = 0


Modelo: Hipótesis y Parámetros

Hipótesis básicas:Normalidad

yij N( i, 2)

Homocedasticidad

Var [yij] = 2

Independencia

Cov [yij, ykl] = 0

Parámetros

2

2

1

K


Modelo: Forma alternativa

),0(, 2Nuuy ijijiij

Las observaciones se descomponen en:Parte predecibleParte aleatoria

i

0

iju


Estimación medias: Máxima Verosimilitud

K

n

jKj

KK

n

jj

n

jj

n

yy

n

yy

n

yy

K

1

2

12

22

1

11

11

:

:

:

2

1

A B C D229.1 233.4 211.1 270.4253.7 233.0 223.1 248.6241.3 219.2 217.5 230.0254.7 200.0 211.8 250.7237.2 224.3 207.6 230.0241.3 202.0 213.7 245.8242.9 218.7 214.1 245.9


Estimación varianza (residuos)

Kn

es

e

yye

yu

Nuuy

K

i

n

jij

R

ij

iijij

iijij

ijijiij

i

1 1

2

22

2

ˆ:

:

),0(,

RESIDUO

4.142ˆ2Rs

A B C D-13.8 14.8 -3.0 24.510.8 14.4 9.0 2.7-1.6 0.6 3.4 -15.911.8 -18.7 -2.3 4.8-5.7 5.7 -6.5 -15.9-1.6 -16.7 -0.4 -0.10.0 0.0 0.0 0.0

Residuos


Comparación de medias

La comparación de tratamientos con este modelose reduce a comparar las medias 1, 2, ..., K ,en primer lugar con el contraste:

diferente es una menos Al::

1

210

HH K


Descomposición de la variabilidad

K

i

n

jiij

K

iii

K

i

n

jij

K

i

n

jiij

K

i

n

ji

K

i

n

jij

K

i

n

jiiji

iijiij

ijiijiijijiij

ii

iii

i

yyyynyy

yyyyyy

yyyy

i,j

yyyyyyn

yyyyyyuy

1 1

2

1

2

1 1

2

1 1

2

1 1

2

1 1

2

1 1

)()()(

)()()(

)0))(( donde(

todopara sumandoy cuadrado al elevando

)()(

, restando:)(


Variabilidades

n-KeyyVNE

K-yynVE

n-yyVT

K

i

n

jij

K

i

n

jiij

K

iii

K

i

n

jij

ii

i

1 1

2

1 1

2

1

2

1 1

2

)(

1)(

1)(

libertad de GradosadesVariabilid

)()1(1 KnKnVNEVEVT


Descomposición: ejemplo

229.1 233.4 211.1 270.4 242.9 218.7 214.1 245.9 -13.8 14.8 -3.0 24.5253.7 233.0 223.1 248.6 242.9 218.7 214.1 245.9 10.8 14.4 9.0 2.7241.3 219.2 217.5 230.0 242.9 218.7 214.1 245.9 -1.6 0.6 3.4 -15.9254.7 200.0 211.8 250.7 242.9 218.7 214.1 245.9 11.8 -18.7 -2.3 4.8237.2 224.3 207.6 230.0 242.9 218.7 214.1 245.9 -5.7 5.7 -6.5 -15.9241.3 202.0 213.7 245.8 242.9 218.7 214.1 245.9 -1.6 -16.7 -0.4 -0.1

-1.3 3.0 -19.3 40.0 12.5 -11.7 -16.3 15.5 -13.8 14.8 -3.0 24.523.3 2.6 -7.3 18.2 12.5 -11.7 -16.3 15.5 10.8 14.4 9.0 2.710.9 -11.2 -12.9 -0.4 12.5 -11.7 -16.3 15.5 -1.6 0.6 3.4 -15.924.3 -30.4 -18.6 20.3 12.5 -11.7 -16.3 15.5 11.8 -18.7 -2.3 4.86.8 -6.1 -22.8 -0.4 12.5 -11.7 -16.3 15.5 -5.7 5.7 -6.5 -15.910.9 -28.4 -16.7 15.4 12.5 -11.7 -16.3 15.5 -1.6 -16.7 -0.4 -0.1

= +

Datos Medias Residuos

= +

yyij yyi iij yy

4.230y


Variabilidades: ejemplo

204.2847

311.4798)(

2315.7645)(

libertad de GradosadesVariabilid

1 1

2

1

2

1 1

2

n-KeVNE

K-yynVE

n-yyVT

K

i

n

jij

K

iii

K

i

n

jij

i

i

203234.28471.47985.7645


Interpretación gráfica de la descomposición

iij yyyyi

1y

2y

3y

4y

y yyij


Distribución de VE

21

22

2

22

1

1

222

2

22

1

1

221

22

///

///

),(

llamaremos que Si

),(),(

KK

K

KK

K

ii

K

iiiiij

nyy

nyy

nyy

ny

ny

ny

nNy

nNyNy

i


Distribución de VNE

221

21

21

2

2

2

222

2

211

2

2

2222

211

1

2

1

222

1

211

1 1

2

2

212

21

2

22

21

ˆ)1(ˆ)1(ˆ)1(ˆ)(

ˆ)1(ˆ)1(ˆ)1(

)()()()(ˆ

ˆ)1(1

)(ˆ),(

21

Knnnn

KKR

KK

n

jKKj

n

jj

n

jj

K

i

n

jiij

R

nii

i

n

jiij

iiij

K

i

i

i

snsnsnsKn

Knsnsnsn

Kn

yyyyyy

Kn

yys

snn

yysNy

K


Contraste (Análisis de la Varianza)

00

00

,10

212

1

2

22

2

rechaza Se rechaza se No

2ˆ)1(1

2)(

)( :cierto es Ho Siˆ)(

HFFHFF

FRsK

K

iyiyin

F

yynsKn

KnK

K

K

iii

KnR

diferente es una menos Al::

1

210

HH K


Tabla de Análisis de la Varianza

1)(

)(

ˆ)1()(

)1/()(1)(

2

2

2

222

TotalResidual

osTratamient

FVarianzasLibertadCuadradosFuentesde Gradosde Suma

2ˆnyy

Knyy

sKyyn

KyynKyyn

ij

iij

R

iiiiii

Rs



235.7645Total4.142204.2847Residual

2.113.159931.4798osTratamient

FVarianzasLibertadCuadradosFuentesde Gradosde Suma


t /2-t /2

/2

tn-K

R.R. R.R

R. Acept. H0

1-/2

Intervalos de confianza para las medias

inRs

tiyi

Kn

i

R

ii

i

ii

iiiiij

t

ns

y

N

n

yn

NyNy

ˆ2/

ˆ

)1,0(

),(),(2

2


Intervalos de confianza

Semilla Media L. Inferior L. SuperiorA 242.9 235.7 250.1B 218.7 211.4 225.8C 214.1 206.9 221.3D 245.9 238.7 253.1


Intervalos de confianza (95%)

Semilla

Ren

dim

ient

o

A B C D200

210

220

230

240

250

260


Diferencia de medias:

),(1

2

11

1

12

11

1

nNy

y

yy

n

),(2

2

22

2

22

21

2

nNy

y

yy

n

1 2

Kn

R

t

nns

yyN

nn

yynn

Nyy

21

2121

21

21212

2

1

2

2121

11ˆ

)()()1,0(

11)()(

),(

21 yy


t /2-t /2

/2

tn-K

R.R. R.R

R. Acept. H0

1-/2

Contraste multiples

ji

ji

H

H

:

:

1

0

02/0

02/0

rechaza e

rechaza se No

HStt

Htt

Kn

jiR

jiij t

nns

yyt

11ˆ

Diagnosis del modelo


1 2 K

...

Modelo

11

12

11

ny

yy

22

22

21

ny

yy

KKn

K

K

y

yy

2

1

...



Normalidadyij N( i, 2)

HomocedasticidadVar [yij] = 2

IndependenciaCov [yij, ykl] = 0


Residuos: Normales y homocedásticos

),0( 2Nu

yu

uy

ij

iijij

ijiij

A B C D-13,8 14,8 -3,0 24,510,8 14,4 9,0 2,7-1,6 0,6 3,4 -15,911,8 -18,7 -2,3 4,8-5,7 5,7 -6,5 -15,9-1,6 -16,7 -0,4 -0,10,0 0,0 0,0 0,0

Residuos

0

iijij yye


Comprobación de la normalidad

Los residuos deben de tener distribución normal. Las observaciones originales también, pero cada grupo con media diferente, por ello es preciso estimar el modelo para descontar a cada observación su media y obtener valores con la misma distribución.

Herramientas de comprobación:Histograma de residuosGráfico de probabilidad normal (Q-Q plot)Contrastes formales (Kolmogorov-Smirnov)


Gráfico probabilista normal

Es un gráfico X-Y de losresiduos frente a lospercentiles de ladistribución normal.

La idea básica es quecuando los residuostienen distribuciónnormal, los puntosdeben formaraproximadamenteuna línea recta.

Pasos:Ordenar los residuos de

menor a mayor.

Calcular los percentiles de la distribución normal

Representar nis

niY Ri ,...,2,1,ˆ)5.0(1

)()2()1( neee

ii Ye ,)(


Gráfico prob. Normal (ejemplo)

Q-Q plot

-30,0

-20,0

-10,0

0,0

10,0

20,0

30,0

-30,0 -20,0 -10,0 0,0 10,0 20,0 30,0

Residuos ordenados

Perc

entil

es

Orden Resid. Probab. Percen. Percen.i eij (i-0.5)/n N(0,1) N(0, )1 -18,7 0,021 -2,04 -24,302 -16,7 0,063 -1,53 -18,303 -15,9 0,104 -1,26 -15,014 -15,9 0,146 -1,05 -12,585 -13,8 0,188 -0,89 -10,586 -6,5 0,229 -0,74 -8,857 -5,7 0,271 -0,61 -7,288 -3,0 0,313 -0,49 -5,839 -2,3 0,354 -0,37 -4,4610 -1,6 0,396 -0,26 -3,1511 -1,6 0,438 -0,16 -1,8812 -0,4 0,479 -0,05 -0,6213 -0,1 0,521 0,05 0,6214 0,6 0,563 0,16 1,8815 2,7 0,604 0,26 3,1516 3,4 0,646 0,37 4,4617 4,8 0,688 0,49 5,8318 5,7 0,729 0,61 7,2819 9,0 0,771 0,74 8,8520 10,8 0,813 0,89 10,5821 11,8 0,854 1,05 12,5822 14,4 0,896 1,26 15,0123 14,8 0,938 1,53 18,3024 24,5 0,979 2,04 24,30



Residuos

Prob

abili

dad

-30 -20 -10 0 10 20 300.1

15

2050809599

99.9


Ejemplos

-3 -1 1 3 50,1

15

2050809599

99,9

-2,6 -1,6 -0,6 0,4 1,4 2,4 3,40,1

15

2050809599

99,9

0 3 6 9 12 150,1

15

2050809599

99,9

0 0,4 0,8 1,2 1,6 20,1

15

2050809599

99,9

Normal No normal

No normal No normal


Comprobación de la homocedasticidad

En el proceso de estimación se ha supuesto que los distintos tratamientos tienen la misma varianza.

Herramientas:- Gráficos de residuos:

·Frente a valores previstos·Frente a tratamientos (o factor,etc.)

- Contrastes formales:Bartlett, Cochran, Hartley, Levene


Residuos - Valores previstos

En este modelo los valoresprevistos corresponden ala media del tratamiento.

Los puntos deben aparecerdispuestos al azar en unabanda horizontal alrededordel eje horizontal.

Heterocedasticidad: a vecesla dispersión aumentaconforme la media crece.re

siduo

s

Valores previstos

-30

-20

-10

0

10

20

30

0 5 10 15

resid

uos

valores previstos

-30

-20

-10

0

10

20

30

210 220 230 240 250


Residuos por tratamientos

A B C D-25

-15

-5

5

15

25

Resid

uos

Semilla

En cada grupo los residuos aparecen esparcidos con dispersión similar y media cero.

máx

.

mín

.


Residuos por tratamientos

A B C D-25

-15

-5

5

15

25Re

siduo

s

Semilla

En cada grupo los residuos aparecen esparcidos con dispersión similar y media cero.

máx

.

mín

.

3mínmáx


Contrastes formales

1

1

2

2

K

K...

distinta es Alguna ::

1

222

210

HH K


Contrastes formales

Un ejemplo de este tipo de contrastes formales es el contraste de Bartlett.

Para el ejemplo de los tipos de semilla se tiene un p-valor = 0.177>α No se rechaza la hipótesis nula de homocedasticidad.

resid

uos

Valores previstos

-0,43

-0,23

-0,03

0,17

0,37

0,57

0 0,3 0,6 0,9 1,2 1 2 3-0,43

-0,23

-0,03

0,17

0,37

0,57

resi

duos

Tratamientos

-0,33 -0,13 0,07 0,27 0,47

residuos

0,115

2050809599

99,9

prob

abili

dad

Diagnosis: Tres gráficos básicos

Normalidad

Homocedasticidad



-0,33 -0,13 0,07 0,27 0,47

residuos

0,115

2050809599

99,9

prob

abili

dad


Transformaciones z=h(y) para estabilizar la varianza

En la práctica, en la mayoría de los casos, alguna de las transformaciones siguientes corrige la heterocedasticidad:

· 1/x· log(x)· x2 (u otras transformaciones xp)· x


Transformaciones Box-Cox

-1,5

-1

-0,5

0

0,5

1

1,5

0log

1

psiyzp

yz

ijij

pij

ij

1ijy

ijzp = 1

p < 1

p > 1


Búsqueda de la transformación adecuada

La dispersión aumenta al aumentar la media

p < 1

La dispersión disminuye al aumentar la media

p > 1

resi

duos

Valores previstos

-0,43

-0,23

-0,03

0,17

0,37

0,57

0 0,3 0,6 0,9 1,2

resi

duos

valores previstos

-1,4

-0,9

-0,4

0,1

0,6

1,1

1,6

0 4 8 12 16


Elección de la transformación

Empezar con p=1 (datos sin transformar) y decidir a partir de los gráficos si p>1 o p<1.

Parar cuando los gráficos estén ok.

pijij yz

211

12/1

log02/1

1

ijij

ijij

ijij

ijij

yzp

yzp

yzpyzp

p


Independencia

Es la hipótesis fundamental y con diferencia la másimportante de las tres, además es la más difícil decomprobar.

La falta de independencia suele ir ligada a factores nocontrolados por el experimentador y que influyen enlos resultados introduciendo errores sistemáticos.

La forma más recomendable de evitar erroressistemáticos consiste en aleatorizar.


Aleatorización

La aleatorización evita que se produzcanerrores que sistemáticamente aumenten odisminuyan un conjunto de medidas porcausas no reconocibles: al aleatorizar sereparten estos errores por igual entre losdiferentes tratamientos y se convierten enerrores aleatorios, previstos en el modelo.


¿Cómo aleatorizar?

Asignar las unidades experimentales al azar alos distintos tratamientos.

Aleatorizar el orden de ejecución de losexperimentos.

Aleatorizar respecto a cualquier otra variableque implique diferenciar a los tratamientos.

“La aleatorización es una precaución contra distorsionesque pueden ocurrir o no ocurrir, y que pudieran serserias o no si llegaran a ocurrir”

¿Cómo aleatorizar?


Asignar las unidades experimentales al azar alos distintos tratamientos.

Aleatorizar el orden de ejecución de losexperimentos.

Aleatorizar respecto a cualquier otra variableque implique diferenciar a los tratamientos.

“La aleatorización es una precaución contra distorsionesque pueden ocurrir o no ocurrir, y que pudieran serserias o no si llegaran a ocurrir”

Comparación de k tratamientos con R


Ejemplos:

- Comparación de k=4 tipos de semilla en laproducción de centeno (centeno.txt).

- Datos obtenidos por Heyl para medir el valor de laconstante de gravitación universal, G, comparaciónpara k=3 materiales (heyl.txt).

- Influencia del tipo de fibra en el tiempo decombustión (fibras.txt).

Ejemplo 1: Centeno


ARCHIVO TEXTO: centeno.txt

Tabla ANOVA: Centeno


Intervalos de confianza: Centeno


> source('ICplot.R') > ICplot(mod, ‘Sem')

210

230

250

Sem

med

ias

A B C D

Comparaciones Múltiples: Centeno


Diagnosis: Centeno


215 220 225 230 235 240 245

-20

010

Fitted values

Res

idua

ls

Residuals vs Fitted19

1012

-2 -1 0 1 2

-10

12

Theoretical Quantiles

Sta

ndar

dize

d re

sidu

als

Normal Q-Q19

10 12

215 220 225 230 235 240 245

0.0

0.5

1.0

1.5

Fitted values

Sta

ndar

dize

d re

sidu

als Scale-Location

19

1012

-2-1

01

2

Factor Level Combinations

Sta

ndar

dize

d re

sidu

als

C B A Dcenteno$Sem :

Constant Leverage: Residuals vs Factor Levels

19

1012

Ejemplo 2: Datos de Heyl


Datos de las mediciones realizadas para G (x 1011 N m2/kg2)

ANOVA Ejemplo 2: Datos de Heyl


Comparaciones múltiples: Datos de Heyl


El objetivo es saber qué tipo de semilla es mejor.



Comparaciones 2 a 2



Comparaciones 2 a 2

Diagnosis: Datos de Heyl



Ejemplo 3: Combustión de distintos tipos de fibra


Se ha realizado un experimento para medir el tiempo decombustión de unos retales de cuatro fibras diferentes. Enla tabla siguiente se proporcionan los resultados obtenidos(en segundos) del modelo.



Se ha realizado un experimento para medir el tiempo decombustión de unos retales de cuatro fibras diferentes. Enla tabla siguiente se proporcionan los resultados obtenidos(en segundos) del modelo.

- ¿Tienen las cuatro fibras igual comportamiento respecto altiempo de combustión? Indique el nivel crítico delcontraste.

- ¿Cuál es la fibra que presenta menor tiempo medio decombustión?.

- Analizar los residuos comprobar las hipótesis del modelo.



Se rechaza la hipótesis nula de que todas las fibras seaniguales frente a la alternativa de que alguna es distinta,con un p-valor de 0.0001016 < α.



Comparaciones múltiples. El mayor tiempo de combustión,significativamente distinto a los anteriores: fibra A. En mediala C es la que tiene menor tiempo de combustión, pero nosignificativamente distinta a la B y D.





Análisis de la varianza con R:comparación de dos tratamientos

Ejemplos:

- Velocidad de la luz: Michelson vs. Newcomb- Sensores- Pilas


Análisis de la varianza con R: Ejemplo 1: Michelson

En 1879, el físico norteamericano Albert A. Michelson tomó 100 medidas de lavelocidad de la luz en el aire empleando una modificación del método propuestopor el físico francés Foucault. Las medidas que tomó se proporcionan acontinuación (en miles de km/s).

En 1882 Simon Newcomb midió el tiempo que una señal luminosa tardaba en recorreruna distancia de 7.442 metros.

En el fichero Michelson.txt se incorporan los datos obtenidos de ambos experimentos,en miles de km/s.

Los datos de Michelson y Newcomb fueron tomados con una diferencia de tres años ycon experimentos diferentes. Basándose en los resultados anteriores sobre elmodelo distribucional del que proceden estos datos, responde las siguientescuestiones:

- Compare gráficamente los datos de la velocidad de la luz de Newcomb y deMichelson (diagramas de cajas e histogramas).

- Analice si existen diferencias significativas entre las estimaciones de la velocidad dela luz obtenidas en ambos experimentos.





Comparación de los métodos de Michelson (M) y Newcomb (N):



Diagnosis: Contraste de Bartlett



Diagnosis: Contraste de Bartlett

Se rechaza la hipótesis nula de igualdad de varianzas

El rechazo de la hipótesis nula se debe a la presencia de valoresatípicos en el experimento de Newcomb.

2 20

2 21

:

:MICHELSON NEWCOMB

MICHELSON NEWCOMB

H

H


Análisis de la varianza con R: Ejemplo 2: Sensores

Una empresa suministra tubos de escape a la industria del automóvil. En el tubo deescape se coloca un sensor que comunica al ordenador del coche el contenido deCO en los gases de escape. La empresa dispone de dos tipos de sensores A y Bbasados en principios de medición diferentes. Tanto uno como otro se colocan en elsilencioso del tubo de escape. El departamento de I+D de la empresa sospecha quepueden existir diferencias entre las mediciones efectuadas por los dos tipos desensor y decide realizar un experimento. La primera idea consiste en seleccionar 10sensores del tipo A y otros 10 del tipo B y colocarlos en los tubos de escape de 20coches distintos.

No obstante un ingeniero de la empresa sugiere que para evitar que la variabilidad entre coches distintos enmascare los resultados del experimento, se utilicen 10 coches y que en cada uno de ellos se monte un sensor A y otro B ambos colocados en el silencioso y en dos posiciones cercanas entre sí.

¿Qué procedimiento experimental le parece más adecuado? ¿Por qué?.Finalmente se opta por el plan experimental propuesto por el ingeniero. El contenido en

partes por millón de CO observado en el experimento fue el que se indica en la tabla (Sensor.txt):





No existen diferencias significativas entre los tipos de sensores A y B



Diagnosis del modelo: Comprobación de la homocedasticidad e independencia.



Diagnosis del modelo: Comprobación de la homocedasticidad mediante el contraste de Bartlett. Alternativa sólo válida para k=2 tratamientos.


Análisis de la varianza con R: Ejemplo 3: Tiempo de descarga de pilas

Se ha medido el tiempo hasta la descarga de dos marcas de pilas y se desea contrastar si en base a esta variable las dos marcas son distintas.

Tabla de datos: Energizer Ultracell

1,40 1,56

1,39 1,54

1,35 1,53

1,38 1,54

1,35 1,54

1,36 1,47

1,31 1,49

1,26 1,54

1,37 1,50



Se ha medido el tiempo hasta la descarga de dos marcas de pilas y se desea contrastar si en base a esta variable las dos marcas son distintas.



Comparaciones dos a dos del ejemplo PILAS2:



Diagnosis del ejemplo PILAS2:



Contraste de Bartlett para el ejemplo PILAS2:

No se rechaza la hipótesis nula de homocedasticidad (igualdad de varianzas).

Analisis de la Varianza, comparacion de 2 tratamientos

1. Se estudian dos tipos de neumaticos con los resultados siguientes:

Tipo ni xi(Km) si(Km)A 121 27465 2500B 121 27572 3000

Calcular, con α = 0.01:

a) Un intervalo de confianza paraσ21

σ22.

b) Un intervalo de confianza para µ1 − µ2.

2. Se dispone de rendimientos de dos maquinas. Los resultados de la maquina A son 137.5;14.07; 106.9; 175.1; 177.3; 120.4; 77.9 y 104.2, mientras que los reultados para la B son: 103.3;121.7; 98.4; 161.5; 167.8 y 67.3. ¿Son las maquinas iguales? (Suponer que los rendimientosde ambas maquinas siguen distribuciones normales).

3. Un fabricante de automoviles debe elegir entre un determinado tipo de piezas de acerosuministradas por un proveedor A y otras suministradas por otro proveedor B. Para procedera la eleccion se ha analizado la resistencia a la traccion de las piezas suministradas por ambosproveedores, tomando una muestra de tamano 10 de las piezas del primero, y otra de tamano12 del segundo. La resistencia media de la muestra de A es de 54000 unidades y la de lamuestra de B es de 49000 unidades, siendo las desviaciones tıpicas muestrales corregidassA = 2100 y sB = 1900. Las resistencias de las piezas de ambos proveedores se distribuyennormalmente. Las piezas del proveedor B son mas baratas que las del proveedor A, por loque estas ultimas solo son rentables si tienen una resistencia media al menos 2000 unidadesmayor que las de B, y la misma variabilidad.

a) ¿A que proveedor habrıa que comprar las piezas a la vista de los resultados muestrales?

b) Obtener un intervalo de confianza al 90% para la diferencia de medias de la resistenciade las piezas de los proveedores A y B.

Analisis de la Varianza, comparacion de k tratamientos

1. En una fabrica de automoviles se utiliza una misma planta para el ensamblaje de tres modelosdistintos (A,B y C). Para determinar si los modelos reciben el mismo tratamiento, se harealizado un control de calidad a una muestra tomada para cada modelo. El numero dedefectos encontrados para cinco vehıculos del modelo A son 5, 4, 6, 6 y 7; para seis vehıculosdel modelo B son 7, 8, 6, 7, 6 y 5; y para ocho vehıculos del modelo C: 9, 7, 8, 9, 10, 11, 10 y10. Contrastar si existen diferencias en el tratamiento que se da a los distintos modelos.

1

2. Una empresa debe elegir entre cinco procedimientos para fabricar un cierto producto quımico.Se sospecha que existen diferencias entre ellos aunque pequenas. Para detectar estas diferen-cias se pretende realizar un experimento a gran escala con el mismo numero de observacionesen cada grupo. Para determinar este tamano muestral se ha realizado un experimento pilotocon 6 observaciones de cada metodo y los resultados (medias de cada grupo) han sido lossiguientes:

METODO 1 2 3 4 5Media 425.6 423.2 418.8 430.2 422.2

y la varianza residual s2R = 198.5.

(a) ¿ Cual debe ser el tamano muestral del experimento a gran escala para que el contrastede analisis de la varianza sea significativo con α = 0.01 si el coeficiente de determinaciones igual al del experimento piloto?.

(b) El metodo A es el procedimiento habitual y el metodo D es el que se sospecha propor-ciona mejor rendimiento. Una hipotesis que se pretende contrastar es H0 : µD = µA,frente a la hipotesis alternativa H1 : µD > µA. ¿ Que condicion debe cumplir la difer-encia entre las medias muestrales de los dos metodos para rechazar H0 con α = 0.01?

3. Se ha realizado un experimento para estudiar el efecto de un unico factor con I nivelesen la variable respuesta y con un numero diferente de observaciones en cada tratamiento:n1, n2, ..., nI siendo el total n = n1 + n2 + · · · + nI . Llamando yij a la observacion j deltratamiento i, i = 1, ..., I, j = 1, 2, ..., ni e yi• la media del tratamiento i. Se desea estimarla media general ¿cual de los dos estimadores siguientes

y•• =

I∑i=1

ni∑j=1

yij

n, y•• =

I∑i=1

yi•

I

tiene mınima varianza? Realiza la comprobacion para el caso I = 5, con ni = 3, 2, 3, 5, 6 elnumero de observaciones en cada tratamiento. Asumir que las observaciones son independi-entes y que se cumple la hipotesis de homocedasticidad.

4. Considere la comparacion de dos tratamientos en poblaciones normales. Demuestre que elcontraste t para comparar dos medias es analogo al contraste de la F en Analisis de laVarianza (suponga n1 = n2).

5. Cinco tipos (A, B, C, D y E) de material sintetico se han sometido a un ensayo de desgaste.Para cada tipo de material la prueba se repitio 6 veces. El desgaste medio y la desviaciontıpica corregida en cada caso es la siguiente:

A B C D Emedia xi 14.1 16.3 13.5 14.8 15.3d. tıpica si 1.3 1.2 1.4 1.2 1.5

2

(a) Contrastar (α = 0.05) la hipotesis

H0 : µA = µB = µC = µD = µE

frente a la hipotesis alternativa,

H1 : alguna media es distinta de las demas.

(b) Indicar con nivel de confianza 0.95 el material con desgaste menor y que materialestienen desgaste medio, distinto.

(c) Obtener un intervalo de confianza con α = 0.01 para la varianza del error experimental.

6. Se desea comprobar el efecto de un tratamiento termico sobre la resistencia de un nuevomaterial. Se han tomado 15 probetas y se han asignado al azar a los tres tratamientos T1,T2 y T3 obteniendo como medida de resistencia superficial los valores siguientes:

T1 T2 T3

2.65 4.31 4.812.67 3.96 5.322.46 4.64 4.931.90 4.74 5.492.62 4.00 4.45

(a) Contrastar mediante el test de analisis de la varianza si existen diferencias significativasentre los tratamientos termicos (α = 0.01).

(b) La temperatura del tratamiento 2 es la media de las temperaturas de los otros dostratamientos. Si la relacion entre la resistencia y la temperatura es lineal, es de esperarque la media del tratamiento 2 verifique : H0 : µ2 = 1

2(µ1 + µ3). Hacer el contraste

bilateral de esta hipotesis con α = 0.05. (Nota.- Usar la distribucion de y2−(y1+y3)/2,donde yi es la media de los datos correspondientes al tratamiento Ti).

7. Un fabricante sospecha que los lotes de materia prima recibidos de un proveedor difierensignificativamente de su contenido en calcio. Elige al azar 5 lotes diferentes y un quımicohace cinco determinaciones del contenido en calcio de cada lote. Los resultados obtenidoshan sido

Lote 1 Lote 2 Lote 3 Lote 4 Lote 523.46 23.59 23.51 23.28 23.2923.48 23.46 23.64 23.40 23.4623.56 23.42 23.46 23.37 23.3723.39 23.49 23.52 23.46 23.3223.40 23.50 23.49 23.29 23.38

La tabla de analisis de la varianza se proporciona a continuacion. Comparar las medias delos cinco tratamientos con nivel de significacion total αT = 0.10.

3

Analisis de la varianzaFuente Variabilidad g.l. Var. Media F Nivel crıticoLote 0.096976 4 0.024244 5.54 0.0036Residuos 0.08760 20 0.00438Total 0.184576 24

4

2. Diseño de Experimentos

Diseño de experimentos:

Diseños FactorialesBloques Aleatorizados

3Diseño Experimentos

Formas de realizar un experimento

2.1 Diseños factoriales(dos factores)


Ejemplo

A B C D0.31 0.82 0.43 0.450.45 1.10 0.45 0.71

V 0.46 0.88 0.63 0.66E 0.43 0.72 0.72 0.62N 0.36 0.92 0.44 0.56E 0.29 0.61 0.35 1.02N 0.40 0.49 0.31 0.71O 0.23 1.24 0.40 0.38S 0.22 0.30 0.23 0.30

0.21 0.37 0.25 0.360.18 0.38 0.24 0.310.23 0.29 0.22 0.33

ANTÍDOTO

I

II

III

Se analiza el efecto de tres venenos y cuatro antídotos en el tiempo de supervivencia de unas ratas.

Comandos en R


ARCHIVO TEXTO: venenos.txt


Modelo

ijkijjiijk uy

IJm

IJ

IJ

Jm

J

J

Jm

J

J

mI

I

I

mm

mI

I

I

mm

y

yy

y

yy

y

yy

J

y

yy

y

yy

y

yy

y

yy

y

yy

y

yy

I

2

1

2

22

12

1

21

11

2

22

21

22

222

221

12

122

121

1

12

11

21

212

211

11

112

111

2

1

21Factor 1

Fact

or 2

•Normalidad•Independencia•Homocedasticidad

I J tratamientos

m replicaciones

n = m I J

...1111 2112 11 II

...1221 2222 22 II

...JJ 11 JJ 22 IJJI

Factor 11 2 I

1

2

J

...

Fact

or 2


Modelo

: Media globali : Efecto del Factor 1 i, i=1,...,Ij : Efecto del Factor 2 j, j=1,...,J

ij: Interacción de niveles ijuijk : Componente aleatoria N(0, 2), k=1,…m

Ii i1 0 J

j j1 0

ijkijjiijk uyjI

i ij ,01

iJj ij ,01


Estimación del modelo

1:)1)(1(:

1:1:

1:

2

j

i

JIJI

ij

n

yy

mI

yy

mJ

yy

m

yy

I

i

J

j

m

kijk

I

i

m

kijk

j

J

j

m

kijk

i

m

kijk

ij1 1 11 11 11

)1(ˆˆ

ˆˆˆ

222

mIJe

s

yyyy

yyyy

y

ijkR

jiijij

jj

ii



ijkijjiijk uy

ijkijjiijk ey ˆˆˆ

ijijkijjiijkijk yyye )ˆˆˆ(

g.l.=IJm-IJ=IJ(m-1)


Estimación

A B C D0.31 0.82 0.43 0.45

V 0.45 1.10 0.45 0.71 0.46 0.88 0.63 0.66E 0.43 0.72 0.72 0.62 0.41 0.88 0.56 0.61N 0.36 0.92 0.44 0.56 0.29 0.61 0.35 1.02E 0.40 0.49 0.31 0.71 0.23 1.24 0.40 0.38N 0.32 0.82 0.38 0.67

0.22 0.30 0.23 0.30O 0.21 0.37 0.25 0.36

0.18 0.38 0.24 0.31S 0.23 0.29 0.22 0.33

0.21 0.34 0.24 0.33

ANTÍDOTO

I

II

III


EstimaciónA B C D Medias

0,31 0,82 0,43 0,45 0,45 1,10 0,45 0,71V 0,46 0,88 0,63 0,66 0,43 0,72 0,72 0,62

E Medias 0,41 0,88 0,56 0,61 -0,038 0,067 0,032 -0,061N 0,36 0,92 0,44 0,56 0,29 0,61 0,35 1,02E 0,40 0,49 0,31 0,71 0,23 1,24 0,40 0,38

N Medias 0,32 0,82 0,38 0,67 -0,060 0,073 -0,080 0,068O 0,22 0,30 0,23 0,30 0,21 0,37 0,25 0,36S 0,18 0,38 0,24 0,31

0,23 0,29 0,22 0,33Medias 0,21 0,34 0,24 0,33

0,098 -0,139 0,048 -0,007

0,314 0,677 0,389 0,534

-0,164 0,198 -0,089 0,056

II 0,544 0,066

III 0,276 -0,202

ANTÍDOTO

I 0,615 0,136

0,479Medias

iˆ

jˆ

ij

ij

ij

Dos factores con interacción



Residuos

A B C D-0.103 -0.060 -0.128 -0.160

V 0.038 0.220 -0.108 0.100 0.048 0.000 0.073 0.050E 0.018 -0.160 0.163 0.010 0.00 0.00 0.00 0.00N 0.040 0.105 0.065 -0.108 -0.030 -0.205 -0.025 0.353E 0.080 -0.325 -0.065 0.043 -0.090 0.425 0.025 -0.288N 0.00 0.00 0.00 0.00

0.010 -0.035 -0.005 -0.025O 0.000 0.035 0.015 0.035

-0.030 0.045 0.005 -0.015S 0.020 -0.045 -0.015 0.005

0.00 0.00 0.00 0.00

III

RESIDUOS

ANTÍDOTO

I

II

022,0)1(

ˆˆ2

22

mIJe

s ijkR

kijk

ijijkijk

e

yye

0




)1()1)(1()1()1()1()()()(

mIJJIJInVNEBAVEBVEAVEVT

DATOS MODELO


Variabilidades

I

i

J

j

m

k

I

i

J

j

m

kijkijijk

I

i

J

jij

J

j

I

iij

I

i

I

iii

I

i

J

j

m

kijk

eyyVNE

mBAVE

mIyymIBVE

mJyymJAVE

yyVT

1 1 1 1 1 1

22

1 1

2

1 1

22

1 1

22

1 1 1

2

)()(

)()(

)ˆ()()(

)ˆ()()(

)(




Análisis de la varianza

I

i

J

j

m

kijk

I

i

J

j

m

kjiij

I

i

J

j

m

kj

I

i

J

j

I

i

J

j

m

ki

m

kijk

ijkjiijjiijk

ijijkjiijjiijk

ijkijjiijkijkijjiijk

eyyyy

yyyyyy

eyyyyyyyyyy

yyyyyyyyyyyy

eyuy

1 1 1

2

1 1 1

2

1 1 1

2

1 1 1 1 1

2

1

2

)(

)()()(

)()()(

)()()()(

ˆˆˆ

I

i

J

j

m

kijk

I

i

J

jjiij

J

jj

I

i

J

j

I

ii

m

kijk

eyyyym

yymIyymJyy

1 1 1

2

1 1

2

1

2

1 1 1

2

1

2

)(

)()()(


Contraste de Hipótesis

Si el Veneno no influye, los I niveles son iguales a efectos de tiempo de supervivencia, entonces

0 de distinto es Algún :0:

i1

210

HH I

I21Ii i1 0


Contraste efecto principal de factor A


i1

210

HH I

222 ]ˆ[)1(

ˆ RR sEmIJ

VNEs

222 ]ˆ[1

)(ˆ AA sE

IAVEs cierto, es Ho Si

)1(;121

2

2

2

ˆ

1)(

ˆˆ

mIJIR

I

ii

R

AA F

s

IyymJ

ssF

Ho rechaza Se Si FFA


Contraste efecto principal de factor B


j1

210

HH J

222 ]ˆ[1)(

ˆ BB sEJ

BVEs cierto, es Ho Si

)1(;121

2

2

2

ˆ

1)(

ˆˆ

mIJJR

J

jj

R

BB F

s

JyymI

ssF

Ho rechaza Se Si FFB


Contraste interacción AxB

0 de distinto es Algún ij:0:

1

12110

HH IJ

222 ]ˆ[)1)(1(

)(ˆ ABAB sE

JIBAVEs cierto, es Ho Si

)1();1)(1(2

2

ˆˆ

mIJJIR

ABAB F

ssF

naninteraccio BA y Ho rechaza Se Si FFAB


Tabla de análisis de la varianza

1)(Total

ˆ)1(Residual

ˆˆ

ˆ)1)(1()(BA

ˆˆ

ˆ1)(B

ˆˆ

ˆ1)(A

valorpFVarianzaLibertad.CuadradosadVariabilidde Gradosde SumaFuentes

2

22

2

2

22

2

2

22

2

2

22

nyy

smIJe

pss

sJIyyyym

pss

sJyymI

pss

sIyymJ

ijk

Rijk

ABR

AB

ABjiij

BR

B

Bj

AR

A

Ai

Tabla ANOVA


Interpretación

La interacción no es significativa

Se interpreta cada factor por separado



Contrastes múltiples: Factor A

ji

ji

H

H

:

:

1

0

)1(2ˆ

mIJ

R

ji t

mJs

yy

t /2-t /2

/2

tIJ(m-1)

R.R. R.R

R. Acept. H0

1-/2

),(ˆˆ

ˆˆˆˆ

22

mJmJN

yyyyyy

jiji

jijijj

ii

Ho

mJstyy

LSD

Rji

rechaza Se

2ˆ2/


Contrastes múltiples: Factor B

ji

ji

H

H

:

:

1

0

)1(2ˆ

mIJ

R

ji t

mIs

yy

t /2-t /2

/2

tIJ(m-1)

R.R. R.R

R. Acept. H0

1-/2

),(ˆˆ

ˆˆˆˆ

22

mImIN

yyyyyy

jiji

jijijj

ii

Ho

mIstyy

LSD

Rji

rechaza Se

2ˆ2/


Intervalos de confianza (interacción nula)

mJsty R

iiˆ

2/

mIsty R

jiˆ

2/

Intervalos de Confianza


0.2

0.3

0.4

0.5

0.6

0.7

VEN

med

ias

I II III

0.3

0.4

0.5

0.6

0.7

ANT

med

ias

A B C D

> source('ICplot.R') > par(mfrow = c(1,2))> ICplot(mod_box, 'VEN') > ICplot(mod_box, 'ANT')

Comparaciones Múltiples


Comparaciones Múltiples


En este ejemplo NO se debe interpretar porque no es significativa. ¿Cómo se haría?


Interacción

Diagnosis: Sobre residuos

NormalidadHomocedasticidadIndependencia


Diagnosis




Diagnosis: homocedasticidad


Homocedasticidad


Normalidad

Conclusión:Transformar


log y1/ySqrt(y)

Transformación 1/y



Diagnosis: homocedasticidad datos transformados z=1/y


Homocedasticidad datos transformados z=1/y


Normalidad datos transformados z=1/y


Comparaciones múltiples intervalos de confianza



EjercicioUn investigador quiere estudiar el efecto del sexo (H, M) y tipo de formación (ciencias, letras) en el dominio del inglés escrito en profesores universitarios. Para ello se analiza el nº de incorrecciones gramaticales en artículos científicos enviados a publicación. Para combinación de niveles de los factores se han elegido al azar tres profesores. En la tabla se proporciona el nº de fallos detectados en artículos de 15 páginas. ¿Qué conclusiones pueden extraerse?.

Letras Ciencias

Hombre 8, 6, 13 22, 28,33

Mujer 5,10,6 12,14,9

Comandos en R


ARCHIVO TEXTO: ciencias.txt

> view(error)> attach(error) > names(error)> error

Estimación


Descomposición variabilidad


Análisis de la Varianza


• Considerando nivel de significación 0,05, los efectos principales y la interacción son SIGNIFICATIVOS

• La interpretación se hace a partir del gráfico de interacción

En este ejemplo es significativa.


Interacción:

Diagnosis: Sobre residuos

NormalidadHomocedasticidadIndependencia


Diagnosis


Diagnosis: más graficos


Bloques Aleatorizados


Ejemplo de introducción

Se desea estudiar el efecto de la Fluorita en la reducción del coste energético en la fabricación de cemento. Se emplean 6 mezclas distintas de materias primas.

0% 1% 2% 3% 4%M 1 15.02 11.86 9.94 12.45 13.23e 2 8.42 10.15 8.54 6.98 8.93z 3 18.31 16.84 15.86 14.64 15.96c 4 10.49 10.52 8.04 10.50 10.34l 5 9.78 9.59 6.96 8.15 9.24a 6 9.28 8.84 7.04 6.66 9.46

Fluorita


> fluorita = read.table('fluorita.txt', header = T)> attach(fluorita)> FLUO = factor(fluo)> MEZ = factor(mez)> fluorita


Modelo

ijjiij uy

: Media globali : Efecto del tratamiento i, i=1,...,Ij : Efecto del bloque j, j=1,2,...,J

uij : Componente aleatoria N(0, 2)

IJJJ

I

I

yyyJ

yyyyyyI

21

22212

12111

21

21Tratamientos

Bloq

ues •Normalidad

•Independencia•Homocedasticidad

Ii i1 0Jj j1 0

...11 12 1I

...21 22 2I

...J1 J2 JI

Tratamientos1 2 I

1

2

J

...Bl

oque

s



1:1:1:

1:

:Parámetros

2j

i

JI

n

yy

I

yy

J

yy

I

i

J

jij

I

iij

j

J

jij

i1 111

)1)(1(ˆˆ

ˆˆ

ˆ

:sEstimadore2

22JIe

s

yyyy

y

ijR

jj

ii

ijjiij

ijjiij

ey

uyˆˆˆ yyyy

ye

jiij

jiijij ˆˆˆ


Estimación

yyyyyyyyyy

yyyyyyJ

yyyyyyyyyyyy

I

Ii

I

JJIJJJ

I

I

j

21

21

21

2222212

1112111

ˆ

21

ˆ21


Estimación (ejemplo)

0% 1% 2% 3% 4%M 1 15.02 11.86 9.94 12.45 13.23 12.50 1.77e 2 8.42 10.15 8.54 6.98 8.93 8.60 -2.13z 3 18.31 16.84 15.86 14.64 15.96 16.32 5.59c 4 10.49 10.52 8.04 10.50 10.34 9.98 -0.76l 5 9.78 9.59 6.96 8.15 9.24 8.74 -1.99a 6 9.28 8.84 7.04 6.66 9.46 8.26 -2.48

11.88 11.30 9.40 9.90 11.19 10.731.15 0.57 -1.34 -0.84 0.46

Fluorita

i

j


Residuos: Varianza residual

0% 1% 2% 3% 4%M 1 1.37 -1.21 -1.22 0.79 0.27

e 2 -1.33 0.98 1.27 -0.79 -0.13

z 3 0.84 -0.05 0.88 -0.84 -0.82

c 4 -0.64 -0.02 -0.60 1.36 -0.10

l 5 -0.11 0.28 -0.45 0.24 0.04

a 6 -0.13 0.02 0.12 -0.76 0.74

Fluorita

yyyyye jiijjiijij ˆˆˆ

88.020

51.17)1)(1(

ˆ2

2JIe

s ijR

Estimación



Variabilidades

VNEVEVEVT

eVNE

yyIBVE

yyJTVE

yyVT

I

i

J

jij

J

jj

I

ii

I

i

J

jij

B)(T)()()(

)()(

)(

1 1

2

1

2

1

2

1 1

2

)1)(1()1()1()1( JIJIn





I

i

J

j

I

i

J

jijj

I

i

J

j

I

i

J

jiij

jiijjiij

jiijjiij

ijjiijijjiij

eyyyyyy

yyyyyyyyyy

yyyyyyyyyy

eyuy

1 1 1 1

22

1 1 1 1

22 )()()(

)()()(

)()()(

ˆˆˆ

J

j

I

i

J

jijj

I

i

J

j

I

iiij eyyIyyJyy

1 1 1

22

1 1 1

22 )()()(


Contraste de Hipótesis

Si la Fluorita no influye, los I tratamientos son iguales a efectos de coste, entonces


i1

210

HH I

I21Ii i1 0


Contraste sobre tratamientos


i1

210

HH I

222 ]ˆ[)1)(1(

ˆ RR sEJI

VNEs

222 ]ˆ[1

)osTratamient(ˆ cierto, es Ho Si TT sE

IVEs

)1)(1(;121

2

2

2

ˆ

1)(

ˆˆ

JIIR

I

ii

R

TT F

s

IyyJ

ssF

Ho rechaza Se Si FFT


Explicación del contraste

),(,...,,

][,

),(0 cierto es Ho Si

2

21

121

2

JNyyy

JJ

yEJ

yyyy

Ny

I

Jj j

iiJii

i

jiji

21

2

1

2

22111

ˆ

I

)y -y(JE

I

)y -y(Js

Iyyy

y

I

ii

I

ii

TI

.ˆ quemayor será ˆ falso, es Ho Cuando

parecidas.serán ˆy ˆ cierto, es Ho Cuando22

22

RT

RT

ss

ss


Contraste de bloques


j1

210

HH J

222 ]ˆ[1

)Bloques(ˆ cierto, es Ho Si BB sE

JVEs

)1)(1(;121

2

2

2

ˆ

1)(

ˆˆ

JIJR

J

jj

R

BB F

s

JyyI

ssF

Ho rechaza Se Si FFB


Tabla de análisis de la varianza

1-nTotal

Residual

Bloque

oTratamient

valorpFVarianzaLibertad.CuadradosadVariabilidde Gradosde SumaFuentes

2

22

2

2

22

2

2

22

)(

ˆ)1)(1(

ˆˆ

ˆ1)(

ˆˆ

ˆ1)(

yy

sJIe

pss

sJyyI

pss

sIyyJ

ij

Rij

BR

B

Bj

TR

T

Ti

Tabla ANOVA


El tratamiento ( % fluorita) y el bloque ( mezcla) son SIGNIFICATIVOS.


Intervalos de confianza (ejemplo)

Fluorita Medias L.inf. L.Sup.0% 11.88 11.09 12.681% 11.30 10.50 12.102% 9.40 8.60 10.193% 9.90 9.10 10.694% 11.19 10.40 11.99

Jsty R

iiˆ

2/


Intervalos de Confianza (% Fluorita)

> source('ICplot.R')> ICplot(mod_flu, "FLUO")

910

1112

FLUO

med

ias

0 1 2 3 4


Intervalos de Confianza (Mezcla)

> source('ICplot.R')> ICplot(mod_flu, "MEZ")

810

1214

16

MEZ

med

ias

1 2 3 4 5 6


Contraste multiples: tratamientos

ji

ji

H

H

:

:

1

0

)1)(1(2ˆ

JI

R

ji t

Js

yy

t /2-t /2

/2

t(I-1)(J-1)

R.R. R.R

R. Acept. H0

1-/2

),(ˆˆ

ˆˆˆˆ

22

JJN

yyyyyy

jiji

jijijj

ii

02/2

ˆ HS

LSDJ

styy Rji rechaza e


Contraste multiples: bloques

ji

ji

H

H

:

:

1

0

02/ rechaza e2ˆ HS

LSDI

styy Rji)1)(1(2ˆ

JI

R

ji t

Is

yy

t /2-t /2

/2

t(I-1)(J-1)

R.R. R.R

R. Acept. H0

1-/2

),(ˆˆ

ˆˆˆˆ

22

IIN

yyyyyy

jiji

jijijj

ii


Comparación de mediasFluorita

Mezcla

13.16293.0085.2

2ˆ2/ JstLSD R

24.15293.0085.2

2ˆ2/ IstLSD R

1 2 3 4 5 61 0,00 3,90 -3,82 2,52 3,76 4,242 0 6,60 -1,37 -0,14 -0,353 0 6,34 7,58 8,074 0 1,23 1,725 0 0,496 0

LSD=1.24

0% 1% 2% 3% 4%0% 0 0,58 2,49 1,99 0,691% 0 1,90 1,40 0,112% 0 -0,50 -1,803% 0 -1,304% 0

LSD = 1.13


Comparación de medias (Tukey)

-4 -2 0 2

4-3

4-2

3-2

4-1

3-1

2-1

4-0

3-0

2-0

1-0

95% family-wise confidence level

Differences in mean levels of FLUO


Comparación de medias (Tukey)

-10 -5 0 5 10

6-5

5-4

5-3

6-2

4-2

6-1

4-1

2-1

95% family-wise confidence level

Differences in mean levels of MEZ


Sin bloques

El % de FLUORITA no es SIGNIFICTIVO. No se detectan diferenciasLa Varianza residual es muy grande (10.6113)

Diagnosis:Homocedasticidad

Fluorita0 1 2 3 4

-2-1.5

-1-0.5

00.5

11.5

2

Mezcla0 1 2 3 4 5 6

-2-1.5

-1-0.5

00.5

11.5

2

resi

duos

Valores previstos

-1.6-1.2-0.8-0.4

00.40.81.21.6

5 10 15 20

Gráfico de residuos


Diagnosis: normalidad

residuos

prob

abili

dad

-1.4 -0.9 -0.4 0.1 0.6 1.1 1.60.1

15

2050809599

99.9

Diagnosis


Normalidad

Homocedasticidad

Apéndice


Diseños factoriales(tres factores)


Diseño con tres factores

Factores A, B y C con NA, NB, Nc niveles.Nº de Tratamientos T=NAxNBxNc

Efectos principales 3 A, B , CInteracciones de orden dos 3 AxB, AxC, BxCInteracción de orden tres 1. AxBxC

Factor AA1 A2 A3 A4 A5 A6

B1

C1

B2

B3

B4

B5

C2C3

Fact

or B

Tratamiento: Cada combinación de niveles de los factores6 x 5 x 3 = 90


K factores con N1, N2, ..., NKniveles

libertad de grados

con k, orden de ninteracció 1KK

...libertad de grados

con 3, orden de nesinteraccio 3K

libertad de

grados con 2, orden de nesinteraccio 2K

uno cada libertad de grados con sprincipale efectosK

)(N))(N(N

))(N)(N(N

))(N(N

N

K

kji

ji

i

111

111

11

1

21


Datos Factor 1

Fact

or 2

Factor 31 2 K...

IJKMMIJMIJ

IJKIJIJ

IJKIJIJ

JKMMJMJ

JKJJ

JKJJ

JKMMJMJ

JKJJ

JKJJ

KMIMIMI

KIII

KIII

KMMM

K

K

KMMM

K

K

KMIMIMI

KIII

KIII

KMMM

K

K

KMMM

K

K

yyy

yyyyyy

K

yyy

yyyyyy

K

yyy

yyyyyy

K

yyy

yyyyyy

K

yyy

yyyyyy

K

yyy

yyyyyy

Kyyy

yyyyyy

K

yyy

yyyyyy

yyy

yyyyyy

21

22212

12111

22212

22222122

12212112

12111

21221121

11211111

22221

22222212

12221211

22222221

22222222212

12222212211

12122121

21212221212

11212211211

11211

21122112

11121111

11212211

21121222112

11121212111

11112111

21111221112

11111211111

...21...21...21

J

...21...21...21

2

...21K...21K...21

1

I211 2 ... I

1

2

...

J

1 2 K... 1 2 K... 1 2 K...

1 2 K...1 2 K...1 2 K...

1 2 K...1 2 K...1 2 K...


Ejemplo: Proceso químico

T-1 T-2 T-1 T-2 T-1 T-2 T-1 T-272.2 65.0 74.4 69.2 75.0 70.7 80.0 73.074.4 71.6 66.3 71.8 78.9 80.6 65.0 74.464.3 61.9 66.5 64.6 64.3 73.4 82.1 78.8T-1 T-2 T-1 T-2 T-1 T-2 T-1 T-262.5 75.9 70.8 79.2 76.3 83.3 72.3 80.365.8 72.9 63.9 80.1 79.1 88.0 72.4 86.971.2 77.8 76.6 75.3 89.0 84.7 75.6 86.3T-1 T-2 T-1 T-2 T-1 T-2 T-1 T-269.0 73.8 69.0 84.5 72.8 94.1 78.4 87.570.3 59.2 68.2 93.7 73.7 87.3 79.9 79.768.8 80.8 78.7 80.1 80.7 89.0 80.3 79.5

CONCENTRACIÓN1 2 3 4

CAT

ALIZ

ADO

R

C-1

C-2

C-3

Tres factores: 1 4%2 6%3 8%4 10%

ConcentraciónT-1 300º CT-2 320º C

Temperatuta

Variable respuesta: Rendimiento del proceso químico.

Tres replicaciones

C-1 AgC-2 Ag+ZnC-3 Zn

Catalizador


Modelo

ijkmijkjkikijkjiijkm uy

•Normalidad•Independencia•Homocedasticidad

I J K tratamientos

M replicaciones

n = I J K M

Ii i1 0Jj j1 0

Kk k1 0

iKk ik ,01

iJj ij ,01

kJj jk ,01

jIi ij ,01

kIi ik ,01

jKk jk ,01

Kk ijk

Jj ijk

Ii ijk jikikj .,,0;,,0;,,,0

ijkmu


Medias


M

yy

IM

yy

JM

yy

KM

yy

IJM

yy

IKM

yy

JKM

yy

IJKM

yy

M

mijkm

ijk

I

i

K

kijkm

jk

J

j

M

mijkm

ki

K

k

M

mijkm

ij

I

i

J

j

M

mijkm

k

I

i

K

k

M

mijkm

j

J

j

K

k

M

mijkm

i

I

i

J

j

K

k

M

mijk

1

1 11 11 1

1 1 11 1 11 1 1

1 1 1 1


Medias: Proceso químico

T-1 T-2 T-1 T-2 T-1 T-2 T-1 T-2C-1 70.30 66.17 69.07 68.53 72.73 74.90 75.70 75.40C-2 66.50 75.53 70.43 78.20 81.47 85.33 73.43 84.50C-3 69.37 71.27 71.97 86.10 75.73 90.13 79.53 82.23

1 2 3 4

1 2 3 4C-1 68.2 68.8 73.8 75.6 71.6C-2 71.0 74.3 83.4 79.0 76.9C-3 70.3 79.0 82.9 80.9 78.3

69.9 74.1 80.1 78.5 75.6

Concentración

1 2 3 4T-1 68.72 70.49 76.64 76.22 73.02T-2 70.99 77.61 83.46 80.71 78.19

69.9 74.1 80.1 78.5 75.6

T-1 T-2C-1 71.95 71.25 71.6C-2 72.96 80.89 76.9C-3 74.15 82.43 78.3

73.02 78.19 75.6

Catalizador

Temperatura



ijkijkmijkmijkm

R

kjijkkiijijkijk

kjjkjk

kikiik

jiijij

kk

jj

ii

yyeMIJK

es

KJIyyyyyyyy

KJyyyy

KIyyyy

JIyyyy

Kyy

JyyIyy

y

;)1(

ˆˆ

)1)(1)(1(

)1)(1(

)1)(1(

)1)(1(

1ˆ

1ˆ1ˆ

ˆ

222


Modelo estimado

ijkijkm

kjijkkiijijk

kjjk

kiki

jiij

kjiijkm

yy

yyyyyyyy

yyyyyyyy

yyyy

yyyyyyyy



Variabilidades

i j k mijkijkm

i j kkjijkkiijijk

j kkjjk

i kkiki

i jjiij

kk

jj

ii

I

i

J

j

K

k

M

mijkm

yyVNE

yyyyyyyyMCBAVE

yyyyIMCBVE

yyyyJMCAVE

yyyyKMBAVE

yyIJMCVEyyIKMBVE

yyJKMAVEyyVT

2

2

2

2

2

22

2

1 1 1 1

2

)(

)(

)(

)(

)()(

)(


Grados de libertad

)1()1)(1)(1()1)(1()1)(1()1)(1(

)1()1()1()1(LIBERTAD DE GRADOS

)()()()(

)()()(ADVARIABILIDLA DE CIÓNDESCOMPOSI

MIJKKJIKJKIJI

KJIn

VNECBAVECBVECAVEBAVE

CVEBVEAVEVT


1Total

ˆ)1(Residual

ˆˆˆ)1)(1)(1(

)...

...(ˆ

ˆˆ)1)(1(

ˆˆˆ)1)(1(

ˆˆˆ)1)(1(

ˆˆˆ1

ˆˆˆ1

ˆˆˆ1

..

1 1 1 1

2

22

2

22

2

2

222

2

222

2

222

2

222

2

222

2

222

IJKMyy

sMIJKyy

sssKJI

yyyy

yyyyMCBA

sssKJyyyyIMCB

sssKIyyyyJMCA

sssJIyyyyKMBA

sssKyyIJMC

sssJyyIKMB

sssIyyJKMA

FVarianzasLibdeGrADVARIABILIDFUENTE

I

i

J

j

K

k

M

mijkm

Ri j k m

ijkijkm

R

ABCABC

kji

i j kjkkiijijk

R

BCBC

j kkjjk

R

ACAC

i kkiki

R

ABAB

i jjiij

R

CC

kk

R

BB

jj

R

AA

ii

Tabla ANOVA


Instrucciones de R utilizadas

> quimico = read.table('quimico.txt', header = T)> attach(quimico)> CON = factor(con)

> class(con)> TEMP = factor(temp)

> class(temp)> CAT = factor(cat)

> class(cat)> mod_qui = aov(rendim ~ CON*TEMP*CAT )

ARCHIVO TEXTO: quimico.txt

Estimación







Contraste efecto principal de factor A


i1

210

HH I

F

RRHo rechaza Se Si FFA

)1(;121

2

2

2

ˆ

1)(

ˆˆ

MIJKIR

I

ii

R

AA F

s

IyyJKM

ssF

Ho rechaza se No Si FFA)1(;1 MIJKIF


Contraste interacción AxB


ij1

12110

HH IJ

)1)(1()(

ˆ cierto, es Ho Si 2JI

BAVEsAB

)1();1)(1(2

2

ˆˆ

MIJKJIR

ABAB F

ssF

naninteraccio BA y Ho rechaza Se Si FFAB


Contraste interacción AxBxC


ijk1

1121110

HH IJK

cierto es Ho Si

)1();1)(1)(1(2

2

ˆˆ

MIJKKJIR

ABCABC F

ssF

Ho rechaza Se Si FFABC


Interpretación

El efecto principal del factor concentracióninfluye significativamente (p-valor =0.0000) en el rendimiento. Más adelante se compararán las medias de los cuatro niveles de este factor. Este factor no interacciona con ningún otro.Los efectos principales de catalizador y de la temperatura son significativos, además es muy significativa la interacción de los dos factores (p-valor 0.0064). La comparación de medias de estos factores debe ser conjunta.


Contrastes múltiples: Factor A

ji

ji

H

H

:

:

1

0

)1(2ˆ

MIJK

R

ji t

JKMs

yy

t /2-t /2

/2

tIJK(M-1)

R.R. R.R

R. Acept. H0

1-/2

),(ˆˆ

ˆˆˆˆ

22

JKMJKMN

yyyyyy

jiji

jijijj

ii

HoJKM

styy Rji

rechaza se

,2ˆSi 2/

Interpretación I


> source('ICplot.R')> ICplot(mod_qui, "CON")> TukeyHSD(mod_qui,'CON')> plot(TukeyHSD(mod_qui,'CON'))

EFECTOS PRINCIPALES: Solo se interpreta la Concentración


Interacción: Cat. x Temp.

T-1 T-2C-1 71.95 71.25 71.6C-2 72.96 80.89 76.9C-3 74.15 82.43 78.3

73.02 78.19 75.6

Interacción Cat x Temp

70.0072.0074.0076.0078.0080.0082.0084.00

0 1 2 3 4

Catalizador

Med

ias Temp - 1

Temp - 2

Se interpreta la interacción Temperatura - Catalizador


Interpretación II

> source('interIC.R')> interIC(mod_quimicos,'temp','cat')> interIC(mod_quimicos,'cat','temp')


Selección de temperatura y catalizador.

Las mejores combinaciones corresponden

a la T2 con K2 o K3.



1.0 2.0 3.0 4.0

-10

-50

510

con

resid

uals(

mod

_qui)

1.0 1.4 1.8

-10

-50

510

temp

resid

uals(

mod

_qui)

1.0 1.5 2.0 2.5 3.0

-10

-50

510

cat

resid

uals(

mod

_qui)

Capítulo 2. Diseño de experimentos

2.1. Se pretende estudiar el efecto que produce los factores (1) Porcentaje de algodón (10%, 20% y 30%)(2) Tipo de confección (A y B) en la resistencia al desgaste de ciertos tejidos de �bra sintética. Seha realizado el siguiente diseño con tres replicaciones (archivo desgaste:txt)

10% 20% 30%115 120 126

A 112 135 118133 139 142107 110 132

B 114 102 114108 117 125

1. Construir la tabla de Análisis de la Varianza y contrastar la in�uencia de los dos factores y lapresencia de la interacción.

2. Hacer un contraste de diferencia de medias y decidir el tratamiento más adecuado para conseguirla mayor resistencia al desgaste.

2.2 En una planta piloto se obtiene un nuevo producto mediante un proceso químico. Con el �n demejorar el rendimiento se emplean dos catalizadores distintos y se trabaja con tres temperaturasdiferentes. Los resultados del experimento son (archivo rendimiento:txt)

TemperaturaCatalizador 200 300 400

A 115 125 130 140 110 120B 115 105 135 145 100 110

1. Contrastar si los factores Temperatura y Catalizador tienen efectos signi�cativos. (� = 0:05)

2. ¿Qué tratamiento se debe utilizar para obtener el mayor rendimiento, si se desea garantizar unaprobabilidad de error tipo I total, �T = 0:03?

2.3 Un investigador quiere estudiar el efecto de sexo (hombre, mujer) y tipo de formación (ciencias,letras) en el dominio del inglés escrito en profesores universitarios. Para ello analiza el número deincorrecciones gramaticales en artículos cientí�cos enviados a publicación. Para cada combinaciónde niveles de los factores se han elegido al azar tres profesores. En la tabla se proporciona el númerode fallos detectados en artículos de 15 páginas (archivo error:txt)

Letras CienciasHombre 8, 6, 13 22, 28, 33Mujer 5, 10, 6 12, 14, 9

1

Contrastar con nivel de signi�cación 0.05 si los efectos principales y la interacción son signi�cativos.Tener en cuenta que P (F1;8 � 5:32) = 0:95, siendo F1;8 la distribución F con grados de libertad1 y 8: Interpretar los resultados.

2.4 Un alumno, como trabajo de la asignatura de estadística, ha comparado tres marcas distintas (A,B,C)de palomitas de maíz precocinadas. Cada marca puede prepararse friendolas en una sartén (método1) o en el horno microondas (método 2). El alumno ha realizado un diseño factorial completo 3�2con cinco replicaciones en cada uno de los seis tratamientos. La variable respuesta medida es elporcentaje de granos de maíz que no se han in�ado adecuadamente. Los resultados del experimentose muestran en la tabla, en cada tratamiento se proporciona la media y entre paréntesis la desviacióntípica corregida para las cinco replicaciones. Contrastar si la interacción entre los dos factores essigni�cativa.

A B C

Sartén5.5(1,4)

3.6(1,8)

7.5(2,5)

Horno3.8(1,3)

3.4(0,9)

4.3(1,3)

2.5. La tabla muestra el tiempo de supervivencia de grupos de cuatro animales a los que se ha asignadoal azar tres venenos y posteriormente cuatro tratamientos. (archivo venenos:txt)

TratamientoA B C D

VenenoI 0.31 0.82 0.43 0.45

0.45 1.10 0.45 0.710.46 0.88 0.63 0.660.43 0.72 0.76 0.62

II 0.36 0.92 0.44 0.560.29 0.61 0.35 1.020.40 0.49 0.31 0.710.23 1.24 0.40 0.38

III 0.22 0.30 0.23 0.300.21 0.37 0.25 0.360.18 0.38 0.24 0.310.23 0.29 0.22 0.33

1. ¿Son los venenos y tratamientos signi�cativos? ¿Existe interacción entre el veneno y el tratamiento?

2. Analice los residuos del modelo anterior. ¿Se veri�can las hipótesis básicas del modelo? ¿Quétransformación de los datos hace que se veri�quen las hipótesis?

3. Calcule la tabla de análisis de la varianza con los datos transformados. ¿Tiene la transformaciónrealizada algún efecto sobre los efectos principales y la interacción?

2

2.6 Se ha realizado un experimento para estudiar el efecto de la temperatura (T) y tiempo de exposición(E) sobre la cantidad absorbida de un compuesto químico por un material sumergido en él. En elestudio se han empleado tres temperaturas (T1, T2, T3) y tres tiempos de exposición (E1, E2, E3):cada tratamiento se ha replicado tres veces. La cantidad absorbida (mg) del compuesto químico encada uno de los 27 experimentos se muestra en la tabla 1 (archivo absorbida:txt) y las medias enla tabla 2:

Tabla 1: Cantidad Absorbida (mg)

Tiempo de TemperaturaExposición T1 T2 T3

35.5 91.2 70.1E1 29.7 100.7 64.1

31.5 82.4 70.1

52.5 71.0 79.4E2 53.3 77.0 77.7

55.0 75.6 75.1

85.9 87.0 83.0E3 85.2 86.1 87.0

80.2 88.1 78.5

Tabla 2: Medias de Cantidad Absorbida (mg)

Tiempo de TemperaturaExposición T1 T2 T3 Medias

E1 32.23 91.43 68.10 63.92E2 53.60 74.53 77.40 68.51E3 83.76 87.06 82.83 84.56

Medias 56.53 84.34 76.11 72.33

La tabla 3 corresponde al análisis de la varianza del experimento.

Tabla 3: Tabla de análisis de la varianzaFuente Suma de Grados deVariabilidad Cuadrados Libertad Varianzas F p-valorTemperatura 3673.61 2 1836.80 110.58 0.0000T. Exposición 2112.65 2 1056.32 63.59 0.0000Interacción 2704.44 4 676.11 40.70 0.0000Residual 299.00 18 16.61Total 8789.7 26

1. (a) Interpreta los resultados del análisis de la varianza.

2. Realiza las comparaciones dos a dos de los nueve tratamientos y elige aquél o aquellos que propor-cionan una absorción mayor (95%).

3. Comprueba grá�camente la hipótesis de homocedasticidad e interpreta los resultados.

2.7. Se ha realizado un diseño experimental para determinar la in�uencia de dos factores combinaciónde hidrocarburos y cantidad de hidrógeno en el rendimiento de un proceso químico complejo. Seestudiaron cuatro combinaciones de hidrocarburos (A,B, C y D) y tres niveles en el contenido dehidrógeno (1,2 y 3). En cada tratamiento se realizaron cuatro réplicas. En la tabla 1 se presentan losresultados: mejora en tanto por mil respecto a procedimiento estándar (archivo hidrocarburos:txt).Los números entre paréntesis de la tabla se corresponden con las medias de cada tratamiento, de loscuatro niveles del factor hidrocarburos y de los tres niveles de hidrógeno. En la tabla 2 se muestrala tabla de análisis de la varianza del experimento.

3

Tabla 1. Datos y medias entre paréntesisA B C D Medias Etapa

10.3 10.5 7.2 13.0 111.1 8.2 5.3 12.9 1

1 15.3 9.7 12.5 5.3 22.1 8.9 19.1 12.0 2

Medias (9.7) (9.325) (11.025) (10.8) (10.213)

25.8 20.6 29.7 17.6 125.7 17.1 26.3 12.0 1

2 28.9 21.4 22.4 24.6 227.8 17.3 25.9 23.1 2

Medias (27.05) (19.1) (26.075) (19.325) (22.888)

28.5 21.0 30.4 20.5 131.2 26.8 26.6 26.2 1

3 24.8 19.4 34.4 27.8 226.5 22.2 27.5 21.9 2

Medias (27.75) (22.35) (29.975) (24.1) (25.981)

Medias (21.5) (16.925) (22.275) (18.075)

Tabla 2. ANOVA -Suma Grados

Fuentes Cuadrados Libertad Var. F p-valorHidrocarburos 242.5 3 80.85 5.55 .0031Hidrógeno 2234 2 1117 76.7 .0000Interacción 119.3 6 19.88 1.36 .2546Residual 523.7 36 14.55Total 3120 47

1. Comparar las medias de los cuatro niveles del factor Hidrocarburo y las de los tres niveles del factorHidrógeno. Indica si existen diferencias signi�cativas con nivel de signi�cación 0.05.

2. Elige el tratamiento que proporciona el rendimiento óptimo, justi�cando la respuesta. Da un inter-valo de con�anza para el valor medio en dichas condiciones con nivel de con�anza del 95%.

3. El experimento se realizó en dos etapas, en una primera etapa se recogieron las 24 observacionesque se indican en la tabla 1 como etapa 1 y las otras 24 como etapa 2. Los resultados del análisisde la varianza correspondientes a cada etapa se muestran en las tablas 3 y 4.

Tabla 3. ANOVA - Etapa 1Suma Grados

Fuentes Cuadrados Libert. Var. F p-valorHidrocarburos 115.9 3 38.63 6.07 .0093Hidrógeno 1175.0 2 587.7 92.4 .0000Interacción 218.4 6 36.39 5.72 .0051Residual 76.3 12 6.358Total 1586.0 23

4

Tabla 4. ANOVA - Etapa 2Suma Grados

Fuentes Cuadrados Libert. Var. F p-valorHidrocarburos 162.9 3 54.31 3.35 .0555Hidrógeno 1076 2 537.9 33.19 .0000Interacción 94.94 6 15.82 0.976 .9762Residual 194.5 12 16.21Total 1528 23

¿Se puede concluir que en las dos etapas la varianza del error experimental es la misma? (Realizael contraste con � = 0:05)

2.8 Se ha estudiado el efecto de tres hornos diferentes y dos temperaturas (290 oC y 320 oC) en laduración de cierto componente. Para cada combinación de horno y temperatura se ha replicadoel experimento 3 veces. En la tabla siguiente se proporcionan las medias y desviaciones típicas(corregidas) de los datos de cada tratamiento.

Temperatura oC290 oC 320 oC

Media Desv. T. Media Desv. T.Horno 1 24.56 0.850 18.00 0.265Horno 2 19.10 1.539 14.40 0.265Horno 3 18.70 0.458 17.43 0.862

Contrasta si existe interacción entre los factores horno y temperatura (� = 0:05):

2.9. Cierto Organismo Público (O.P.) encargado de certi�car la composición de aleaciones de metalespreciosos, debe seleccionar entre dos Laboratorios al más capacitado para la realización de futurosanálisis de gran precisión. Para tomar la decisión les somete a la siguiente prueba: Prepara tresaleaciones A, B y C que contienen proporciones distintas de oro. De cada una de ellas envía cu-atro muestras a cada uno de los dos laboratorios. Así pues, cada laboratorio recibe un lote de 12muestras (codi�cadas) ordenadas aleatoriamente sin conocer como han sido obtenidas. Los resul-tados recibidos por el O.P. son (entre paréntesis las medias de las casillas) (archivo laboratorios:txt):

Aleac. A Aleac. B Aleac. C10.96 11.03 10.95 11.00 11.07 11.01

Lab. I 11.08 11.01 11.04 10.97 10.97 11.03(11.02) (10.99) (11.02)

10.97 10.96 10.97 10.96 11.02 11.00Lab. II 10.94 10.95 10.97 10.98 11.01 11.01

(10.955) (10.97) (11.01)

1. Determinar si existen diferencias entre los resultados de los laboratorios y si éstos han encontradodiferencias entre las aleaciones.

2. Aceptando que los datos cumplen la hipótesis de normalidad, indicar si podemos aceptar queveri�can el resto de las hipótesis del modelo y en caso negativo que medidas se deben adoptar paraanalizar los datos.

5

3. Realizar un test de razón de varianzas para contrastar que las varianzas de los dos laboratorios soniguales, sabiendo que las tres aleaciones tienen composición distinta. Interpretar el resultado.

4. El O.P. conoce exáctamente el porcentaje en oro de la aleación A (11 %), de la B (11.02 %) y dela C (11.04 %). Con esta información comparar los resultados de los laboratorios.

2.10 Un laboratorio de Análisis Clínicos ha adquirido un nuevo equipo (B) para medir el colesterol en lasangre de los enfermos. Para evaluar si el nuevo equipo está ajustado se decide analizar muestrasde 5 enfermos que previamente han sido analizadas con otro equipo (A), dando como resultado

Enfermo 1 2 3 4 5 MediaEquipo A 215 305 247 221 286 254.8Equipo B 224 312 251 232 295 262.8

Contrastar con � = 0:05 existen diferencias entre los dos equipos. (archivo colesterol :txt)

2.11. El análisis de la varianza de un diseño en bloques aleatorizados proporciona los siguientes resulta-dos: V T = 232, V E(factor) = 156, V E(bloque) = 15 y V NE = 61. El número de niveles del factores 5 y el número de bloques 8. Construir la tabla ADEVA. ¿Cuál sería el resultado del análisis sino se tiene en cuenta el efecto de los bloques ? Indicar en qué circunstancias es preferible cada unode los modelos.

2.12. Se realiza un experimento para estudiar si la presencia de �uorita reduce el coste de fabricaciónde clinker de cemento en tres tipos diferentes de mezcla. Los resultados del mismo (en miles depesetas por Tm) se muestran en la siguiente tabla (archivo fluorita2:txt):

FLUORITA MI MII MIII yi�0% 15.4 10.6 17.8 14.61% 10.3 5.5 10.9 8.92% 7.4 1.2 8.1 5.53% 10.7 6.5 9.6 8.94% 13.5 11.6 15.5 13.5y 11.4 7.1 12.4

5Xi=1

3Xj=1

e2ij = 10:2 �y�� = 10:3

1. (a) Determinar si el tipo de mezcla y el nivel de �uorita añadido in�uyen signi�cativamente en elcoste de fabricación. Se supone que no existe interacción entre los dos factores.

(b) Contrastar que porcentaje de �uorita produce el menor coste del clinker.

2.13 Se ha realizado un experimento con dos factores cada uno de ellos con 3 niveles. El 20% de lavariabilidad total está explicada por la interacción de los dos factores y el 40% de la variabilidadtotal es debida a la variabilidad residual. Determinar el número de replicaciones necesarias en cadatratamiento para que la interacción sea signi�cativa con � = 0:01: (Explicar el procedimiento decálculo, dejando el resultado indicado en función de las tablas).

6

2.14 Sea un diseño factorial con 4 factores a 3, 4, 2 y 5 niveles. Calcular el número de parámetros totalescorrespondientes a efectos principales e interacciones de orden 2, 3 y 4.

2.15 Un centro ha realizado un experimento para mejorar la resistencia a la tensión de ciertos muelles deacero. En una etapa del proceso el muelle caliente se sumerge en aceite templado. Se han estudiadotres factores, A (temperatura del acero antes de la inmersión, con tres niveles), B (temperatura delbaño de aceite, dos niveles) y C (concentración de carbono en el acero, dos niveles). El experimentose ha replicado tres veces. En la tabla se muestra la media y la varianza (corregida) para los tresdatos de cada tratamiento.

A B C yi s2i1 1 1 40.2 0.251 1 2 61.1 2.681 2 1 35.9 2.431 2 2 57.1 4.442 1 1 49.0 3.492 1 2 70.3 7.772 2 1 46.7 5.082 2 2 67.6 1.033 1 1 41.9 4.273 1 2 62.7 11.413 2 1 37.1 1.333 2 2 60.3 6.13

1. (a) Dar un intervalo del 95 % de con�anza para la varianza del error experimental, �2.

2. Indicar si los efectos principales de A, B y C son signi�cativamente distintos de cero.

3. Dado �2, construir un intervalo que cumpla que la probabilidad de que s2i (la varianza muestralcorregida de un tratamiento) esté contenido en él sea igual a 0.95. Sustituir �2 por su estimador ycon ayuda de este intervalo, discutir si se puede rechazar la hipótesis de homocedasticidad de lasobservaciones.

2.16 Un estudio bioquímico ha valorado la cantidad de tres ácidos (a, b, c) en muestras extraídas acuatro terneras (1, 2 ,3 y 4) de la misma raza. El análisis es bastante complejo y la determinaciónincluye un error de medida. ¿Se puede aceptar la hipótesis de que los tres ácidos se encuentranen la misma proporción en cada animal? Realiza el contraste con nivel de signi�cación 0.05. (Lavariabilidad total es 41.90). (archivo ultrasonidos:txt)

1.a b c Medias

1 11.0 11.4 12.7 11:72 9.8 10.8 13.7 11:433 7.5 10.6 11.5 9:874 7.9 7.6 10.1 8:53

Medias 9.05 10.1 12.0 10.38

7

OTROS EJEMPLOS

2.17. Treinta y seis adultos (18 hombres y 18 mujeres) son utilizados en un estudio para comparar lostensiómetros de tres fabricantes. Los sujetos de cada sexo son asignados de forma aleatoria en seis gruposde tres cada uno. A tres grupos de cada sexo se les mide la presión de la sangre nada más comenzar elexperimento; a los otros tres grupos se les mide la presión después de diez minutos de descanso.

Los resultados son los siguientes:

I II IIIH M H M H M147 122 156 131 127 110

1 124 142 127 133 122 115113 136 155 146 153 105140 108 100 141 114 103

2 130 151 140 125 139 135112 138 105 139 126 114

Conteste a las siguientes preguntas:

� ¿Existen diferencias entre los fabricantes en la medida de presión de la sangre?

� ¿Hay diferencia entre el descanso y el no descanso en la presión en la sangre?

� ¿Hay diferencia entre hombres y mujeres?

� Comprobar si hay interacción entre descanso y sexo.

� Comprobar las hipótesis de normalidad, homocedasticidad y homogeneidad.

En el archivo tension.sf3 están la variable respuesta presión y las variables factores descanso, fabri-cante y sexo.

2.18 Se desea investigar el comportamiento de dos tipos de semilla y de tres tipos diferentes de fertil-izante. Los resultados serán los diferentes rendimientos para las combinaciones de semillas y fertilizantes.

Se pide contestar a las siguientes preguntas:

� ¿Existen diferencias entre los fertilizantes?

� ¿Existen diferentes entre las semillas?

� Estudiar si la interacción entre las semillas y fertilizantes es signi�cativa.

� Comprobar las hipótesis de normalidad, homocedasticidad e independencia e homocedasticidad.

En el archivo rend.sf3 están la variable respuesta rendimiento y los factores semilla y fertilizante.

8

A B C1 14.3 18.1 17.6

14.5 17.6 18.211.5 17.1 18.913.6 17.6 18.2

2 12.6 10.5 15.711.2 12.8 17.511.0 8.3 16.712.1 9.1 16.6

2.19. Se ha realizado un experimento para estudiar la in�uencia de dos factores en el rendimientode un proceso. Estos factores son la temperatura, que puede estar a tres niveles (alta, media y baja), yel catalizador, que puede ser el catalizador 1 o el catalizador 2. En el archivo rend2.sf3 se presentan losresultados que se muestran en la siguiente tabla.

Temperatura

Alta Media Baja

Catalizador 1 279 174 397172 277 348176 130 434

Catalizador 2 253 252 417238 367 427387 323 423

� ¿De qué modelo se trata?

� ¿Qué efectos son signi�cativos?

� ¿Cuál es el tratamiento adecuado para obtener el mayor rendimiento?

2.20. Se ha realizado un experimento para estudiar las fuentes de variabilidad de la resistencia a lacompresión de cemento tipo Portland. El cemento ha sido mezclado con agua por tres obreros diferentes(mezcladores) durante un tiempo �jo. Después, la resistencia de las probetas generadas ha sido medidapor otros tres obreros diferentes (medidores). Cada mezclador ha generado doce probetas, que se handividido en tres grupos de cuatro; cada uno de esos grupos de cuatro ha sido asignado a un medidor.Los datos obtenidos para la resistencia a la compresión de cada probeta, dados en libras por pulgadacuadrada, se proporcionan en la tabla siguiente y se encuentran en el archivo portland.sf3.

9

Medidor 1 Medidor 2 Medidor 3

Mezclador 1 5280 4340 41605520 4400 51804760 5020 53205800 6200 4600

Mezclador 2 4420 5340 41805280 4880 48005580 4960 46004900 6200 4480

Mezclador 3 5360 5720 44606160 4760 49305680 5620 46805500 5560 5600

� ¿Existen diferencias entre las resistencias dadas por los diferentes medidores? ¿y entre las probetasgeneradas por cada mezclador?

� ¿Es signi�cativa, con nivel de signi�cación del 5%, la interacción entre medidores y mezcladores?

� ¿Se cumplen las hipótesis del modelo?

2.21. Se está estudiando el rendimiento de un proceso químico. Se piensa que las dos variablesmás importantes pueden ser la presión y la temperatura. Se seleccionan tres niveles de cada factor. Losresultados del experimento son los siguientes:

PresiónTemperatura 200 215 230

Baja 90.4 90.7 90.2Baja 90.2 90.6 90.4Media 90.1 90.5 89.9Media 90.3 90.6 90.1Alta 90.5 90.8 90.4Alta 90.7 90.9 90.1

Utilizando el archivo proceso. sf3 conteste a las siguientes preguntas:

� ¿Qué conclusiones se pueden sacar de los datos?

� ¿Bajo qué condiciones podría operar este proceso?

� ¿Existe interacción entre temperatura y presión?

� Compruebe las hipótesis del modelo.

10

2.22. Se realiza un experimento para estudiar la in�uencia de la temperatura de operación y de trestipos de cristal en la salida de luz de un osciloscopio medidas en lux. En el archivo lux.sf3 se encuentranlos resultados obtenidos que se presentan a continuación:

TemperaturaCristal 100 125 150

580 1090 13921 568 1087 1380

570 1085 1386550 1070 1328

2 530 1035 1312579 1000 1299546 1045 867

3 575 1053 904599 1066 889

� ¿Hay diferencia entre las temperaturas?

� ¿Hay diferencia en el cristal? ¿Cúal es el mejor?

� Estudie si existe interacción entre la temperatura y el cristal.

2.22 Para comprobar la diferencia de rendimientos entre las distintas variedades de avena se diseñoun experimento con ocho variedades distintas. Como el terreno donde fueron plantadas las distintasvariedades estaba en pendiente se pensó que podría afectar la situación de la planta en su rendimiento.Los resultados obtenidos en gramos fueron los siguientes:

I II III IV V1 296 357 340 331 3482 402 390 431 340 3203 437 334 426 320 2964 303 319 310 260 2425 469 405 442 487 3946 345 342 358 300 3087 324 339 357 352 2208 488 374 401 338 320

Si no se tiene en cuenta el efecto de las diferentes condiciones del terreno, conteste a las siguientespreguntas:

� ¿Existen diferencias entre las variedades?

� ¿Cúal es la mejor y la peor?

� La variedad ocho es autóctona y la más empleada. La cinco es la más cara. Si tuvierá que elegir¿cuál elegiría?

� Haga un contraste de las hipótesis del modelo: normalidad, homocedasticidad, homogeneidad eindependencia.

11

Conteste todas las preguntas anteriores si se introduce la variable que tiene en cuenta el efecto delterreno.

2.23. Se desea comparar cuatro procedimientos de obtención de la penicilina (A, B, C y D); siendola variable respuesta producción en kg.

Una materia prima, licor de maíz, se tiene en cuenta en el experimento. Se dispone de cinco muestrasde licor de maíz. A continuación se presenta la tabla de los datos.

A B C D1 89 88 97 942 84 77 92 793 81 87 87 854 87 92 89 845 79 81 80 88

� ¿Cómo afectan los procedimientos y la materia prima?

� ¿Cuál es el mejor procedimiento y materia prima?

� Realice la diagnosis del modelo

En el archivo penicili.sf3 se encuentra la variable respuesta cantidad, el factor tratamiento y el bloquemezcla.

2.24. En 1986 IBM realizó una serie de experimentos en varios de sus sistemas para investigar elcomportamiento de nuevos algoritmos para incorporar en la librería de funciones matemáticas de sucompilador FORTRAN. En el archivo fortran.sf3 se encuentran el tiempo empleado por llamada parala ejecución (dado en �s) de cinco funciones escalares, que se proporcionan en la siguiente tabla. Eltiempo se ha promediado en 10000 argumentos seleccionados aleatoriamente en los intervalos de interés([-�,�],...). Las ejecuciones se llevaron a cabo en tres sistemas IBM diferentes (4331, 4361 y 4341). Seproporcionan también los nombres de las funciones escalares consideradas.

Función Sistema IBM4331 4361 4341

EDUM 9,90 3,07 4,88ACOS CIRC [��; �] 179,62 33,28 33,23SEN LINEAL [��; �] 105,72 24,13 27,08EXP LINEAL [�16; 16] 254,82 39,14 37,46D2DUM 13,47 4,63 5,72

� El interés principal del experimento era el estudio de la e�cacia de los tres sistemas ¿ha resultadoadecuada la estrategia?

� Realice la diagnosis del modelo y proponga posibles soluciones si detecta algún problema.

2.25 Unos alumnos de la universidad de Tu¤s (Massachussets, E.U.A.), preocupados por el estadode corrosión de las tuberías de su universidad, decidieron realizar el siguiente experimento. Tomaronmuestras de agua corriente haciendo variar los factores Campus, Tipo de edi�cio y antigüedad del edi�cio.

12

Se midió la concentración de hierro en el agua corriente (mg=dm3) y para cada posible combinación defactores se tomaron dos observaciones. En el archivo corrosio.sf3 se muestran los resultados que sepresentan en la siguiente tabla.

Factor Concentración de FeAntigüedad Tipo CampusViejo Académico Medford 0,23 0,28Nuevo Académico Medford 0,36 0,29Viejo Residencial Medford 0,03 0,06Nuevo Residencial Medford 0,05 0,02Viejo Académico Somerville 0,08 0,05Nuevo Académico Somerville 0,03 0,08Viejo Residencial Somerville 0,04 0,07Nuevo Residencial Somerville 0,02 0,06

� Identi�que el modelo de que se trata, estime sus parámetros y realice la diagnosis.

� Si no se cumplieren las hipótesis del modelo indique qué podría hacerse para remediarlo.

� Estudie las interacciones e interprete las que resulten signi�cativas.

13

Regresión1: Regresión simple I

2Regresión Lineal

Regresión simpleconsumo y peso de automóviles

Núm. Obs. Peso Consumo(i) kg litros/100 km1 981 112 878 123 708 84 1138 115 1064 136 655 67 1273 148 1485 179 1366 1810 1351 1811 1635 2012 900 1013 888 714 766 915 981 1316 729 717 1034 1218 1384 1719 776 1220 835 1021 650 922 956 1223 688 824 716 725 608 726 802 1127 1578 1828 688 729 1461 1730 1556 15

0

5

10

15

20

25

500 700 900 1100 1300 1500 1700

Peso (Kg)

Cons

umo

(litro

s/10

0 Km

)

),0(, 210 Nuuxy iiii

3Regresión Lineal

Regresión simple consumo y peso de automóviles


0

5

10

15

20

25

500 700 900 1100 1300 1500 1700

Peso (Kg)

Cons

umo

(litro

s/10

0 Km

)


4Regresión Lineal

ix

iy

Ecuación de una recta

1

ii xy 10

0

1

5Regresión Lineal

ix

iyx10

Modelo

osdesconocid parámetros:,, 210


6Regresión Lineal

ix

iyx10

Modelo


ix10

7Regresión Lineal


LinealidadE[yi ]= 0+ 1xi

Normalidadyi|xi N ( 0+ 1xi, 2)

HomocedasticidadVar [yi|xi] = 2

IndependenciaCov [yi, yk] = 0

21

0

Parámetros

8Regresión Lineal

Modelo


yi : Variable dependiente

xi : Variable independiente

ui : Parte aleatoria

0

9Regresión Lineal

Estimación

xyx

yx

n

xx

n

xxyy

nxxnyx

xy

xxyxxxyddM

xnyxyddM

xyM

i

ii

n

ii

n

iii

i

n

iii

iiii

n

iiii

ii

n

iii

n

iii

101

1

2

11

210

1

10

210

110

0

101

100

1

21010

ˆˆ;)var(

),cov(ˆ

)(ˆ

))((

ˆˆ

ˆˆ

ˆˆ0)ˆˆ(

ˆˆ0)ˆˆ(

)(),(

10Regresión Lineal

Estimación: máxima verosimilitud

xyx

yx

n

xx

n

xxyy

nxxnyx

xy

xxyxxxyddL

xnyxyddL

xynnlL

xyl

i

ii

n

ii

n

iii

in

iii

iiiin

iiii

iin

iii

n

iii

n

iiinn

101

12

11

210

1

10

210

11020

101

1020

12

1022

210

210

12

1022/2

10

ˆˆ;)var(

),cov(ˆ

)(ˆ

))((

ˆˆ

ˆˆ

ˆˆ0)ˆˆ(1

ˆˆ0)ˆˆ(1

)(2

1log2

)2log(2

),,(log),,(

)(2

12

1),,( exp

11Regresión Lineal

Estimación 2 : máxima verosimilitud

n

xy

xynddL

xynnL

n

iii

n

iii

n

iii

12

102

12

10422

12

10222

10

)ˆˆ(ˆ

0)ˆˆ(ˆ21

ˆ1

2

)(2

1log2

)2log(2

),,(

2ˆ

0

0

ˆˆ

1

2

2

1

1

10

n

es

xe

e

xyen

ii

Rn

iii

n

ii

iii

12Regresión Lineal

Estimación

ni i

ni ii

i

ii

xxyyxx

xyx

xy

12

11

10

)())((

)var(),cov(ˆ

ˆˆ

n

iii xy

1

210 )(Mín

Mínimos cuadrados

n

iiinn xyMax

1

21022/ )(

21

21

exp

Máxima verosimilitud

13Regresión Lineal

xy 10ˆˆˆ

Recta de regresión

x

y

xy 10ˆˆ

Pendiente

1ˆ

)var(),cov(

1i

ii

xyx

14Regresión Lineal

Estimaciónconsumo y peso de automóviles


0

5

10

15

20

25

500 700 900 1100 1300 1500 1700

Peso (Kg)

Cons

umo

(litro

s/10

0 Km

)

071.07.10170117.087.11ˆˆ

0117.06.104446

2.1225)var(

),cov(ˆ

10

1

xy

xyx

i

ii

15Regresión Lineal

ResiduoPrevistoValor

ˆˆ

observadoValor 10 iii exy

ix

iy

ii xy 10ˆˆˆ

ie

Residuos

16Regresión Lineal

ResiduoPrevistoValor

ˆˆ

observadoValor 10 iii exy

ix

iy

ii xy 10ˆˆˆ

ie

Residuos iii

n

ii

R yyen

es ˆ;

2ˆ 1

2

2

17Regresión Lineal

Ejemplo: estimaciónNúm. Obs. Peso Consumo Predicción Residuos

(i) kg litros/100 km1 981 11 11,44 -0,442 878 12 10,23 1,773 708 8 8,23 -0,234 1138 11 13,28 -2,285 1064 13 12,41 0,596 655 6 7,61 -1,617 1273 14 14,86 -0,868 1485 17 17,35 -0,359 1366 18 15,95 2,0510 1351 18 15,78 2,2211 1635 20 19,11 0,8912 900 10 10,49 -0,4913 888 7 10,35 -3,3514 766 9 8,91 0,0915 981 13 11,44 1,5616 729 7 8,48 -1,4817 1034 12 12,06 -0,0618 1384 17 16,16 0,8419 776 12 9,03 2,9720 835 10 9,72 0,2821 650 9 7,55 1,4522 956 12 11,14 0,8623 688 8 8,00 0,0024 716 7 8,33 -1,3325 608 7 7,06 -0,0626 802 11 9,34 1,6627 1578 18 18,44 -0,4428 688 7 8,00 -1,0029 1461 17 17,07 -0,0730 1556 15 18,18 -3,18

0

5

10

15

20

25

500 700 900 1100 1300 1500 1700

Peso (Kg)

Cons

umo

(litro

s/10

0 Km

)

;0117.0071.0ˆ ii xy 38.2ˆ2Rs

210 ,iii uxy

18Regresión Lineal

Propiedades de 1ˆ

nn

n

ii

x

i

n

ii

x

n

iii

x

n

iii

xx

ii

ywywywyns

xx

yxxns

yxxns

yyxxnss

yx

22111

2

12

12

1221

11

1),cov(ˆ

0

212

2

212

12

21212121

121

11

11111

01

x

ni i

x

ni i

ni i

x

ni i

x

ni ii

x

ni ii

xi

ni i

ni i

x

ni i

nsxx

nsw

xxns

xxxns

xxxns

xxxns

xw

xxns

w

2x

ii ns

xxw

19Regresión Lineal

son v.a. independientes1ˆ,y

0)var()ˆ,cov(

ˆ

111111

1

2

1

2

1

2122111

2

1

21

n

ii

T

T

n

nnn

T

n

n

wn

y

y

yy

wwwywywyw

y

yy

nnny

ny

ny

ny

wYa

Yw

Ya

20Regresión Lineal

Distribución de 1ˆ

2

22

1

2

222

221

21

22111

110

102211

22111

22111

210

)(

)][(][][][][]ˆ[

)()()][(][][][

][]ˆ[

normales de lineal Comb.ˆ),(

x

n

ii

inn

nn

iii

iinn

nn

nn

ii

nsw

yVarywyVarwyVarwywywywVarVar

xwwxyEyEwyEwyEw

ywywywEE

ywywyw

xNy

2

2

11 ,ˆxns

N

Parámetro y estimador

21Simple Linear Regression

1ˆ

087.02.330

54.1ˆ)ˆ( 1X

R

snsSE

kg 100km/100 cada litros 1.17100km/kg cada litros 0117.01

33.101.116.017.1

08.005.217.1

ˆˆ

1

1

1

2/11x

R

snst

1

t /2-t /2

/2

tn-2

.

1-

t28

2.05-2.05

Desviación típica de


1ˆ

X

R

snsSE ˆ)ˆ( 1

La precisión en la estimación de la pendientemejora si:1. La Desv. Típica residual es pequeña2. La muestra n es grande3. Los valores de x tienen mucha dispersión

23Regresión Lineal

Distribución de 0ˆ

2

22

00

2

22

0

010

10

1

2

2

11

2

10

1,ˆ

1]ˆvar[

]ˆ[][]ˆ[

ˆˆ

ntesindependieson ˆ,

),(ˆ

),(

x

x

x

sx

n

sx

n

ExyEENormalxy

yns

N

nxNy

N

24Regresión Lineal

Distribución de ŝR2

222

2

21

2ˆ)2(

nR

n

ii sn

e

00

),0(

ˆˆ

222

12

221

2

21010

iii

n

ni i

nni i

i

iiiiii

xeeeu

Nuexyuxy

25Regresión Lineal

Contraste principal de regresión: ¿depende y de x?

0:0:

11

10

HH

ix

iy

ix

iy

iii uxy 10 ii uy 0

H0 es falso

x e y están relacionadosH0 es cierto

x e y no están relacionados

26Regresión Lineal

ii xy 10ˆˆˆ

0:0:

11

10

HH

Contraste sobre la pendiente

t /2-t /2

/2

tn-2

R.R. R.R

R. Acept.

1-

),(ˆ11

xsnN

21111

ˆˆ

)1,0(ˆ

n

x

R

x

t

snsN

sn

Ho rechaza Se

;ˆˆ

2/;21

11

n

x

R

tt

snst

27

0 rechaza e05.24.13 HS

2.05-2.05

0.025

t28R.R. R.R

4.13)2.32330/(54.1

017.00t

0.025

Ejemplo: = 0.05

0:0:

11

10

HH 54.1ˆ;0117.0071.0ˆ Rii sxy

…

El peso influye significativamente en el consumo

Con α=0.05 “x” influyesignificativamente en “y”

Area Azul = p-valor

0 05 “ ”P-valor ≤ α P-valor > α

α = 0.05

0:0:

11

10

HH

Con α=0.05 “x” NO influyesignificativamente en “y”

0: 11H 0: 10H

P-valor

29Regresión Lineal

ii xy 10ˆˆˆ

0:0:

01

00

HH

Ho rechaza Se

;1ˆ

ˆ

))1(,(ˆ

2/;20

2

20

0

2

22

00

n

x

R

x

tt

sx

ns

t

sx

nN

Contraste: ordenada en el origen

30Regresión Lineal

Estimate Stand Error t value Pr(>|t|)Intercept SE( ) = SE( )Regressor SE( ) = SE( )

Estimate Stand Error t value Pr(>|t|)Intercept -0.07126 0.945148 -0.075 0.943246

Peso 0.01173 0.000887 13.23 0.000000

Dependiente (y) ~ Independiente (x)

Dependiente (Consumo) ~ Independiente (Peso)

Modelo estimado y contrastes

31Regresión Lineal

Descomposición de la variabilidad en regresión

VNEVEVTiyiyyiyyy

iyiyyiyyy

yiyiyiyyiyiy

e

iyxy

uxy

n

i

n

i

n

ii

i

i

iii

iii

1

2

1

2

1

2

10

10

)ˆ()ˆ()(

sumando)y cuadrado al elevando()ˆ()ˆ()(

) restando()ˆ(ˆ

ˆˆ

ˆˆ

32Regresión Lineal

Coeficiente de determinación R2

221

1

2211 ˆ)(ˆ:)(ˆˆ x

n

iiii nsxxVExxyy

VNEVEVT

VTVER2

regresor elpor explicado estáque VT de porcentaje el Mide

10 2Rn

ii

n

iii

n

ii

yyVT

yyVNE

yyVE

1

2

1

2

1

2

)(

)ˆ(

)ˆ(

33Regresión Lineal

Coef. determinación

12R 80.02R

50.02R 02R

34Regresión Lineal

ii xy 10ˆˆˆ0:

0:

11

10

HH

Contraste F

1ˆ

ntesindependieson ,

ˆ)2(

cierto) es H (Si

22

222

2

21

2

2

o212

VNEVE

sneVNE

VE

nR

ni i

212ˆ2 n,R

Fs

VE)VNE/(n-

VEF

0H rechaza Se FF

35Regresión Lineal

ii xy 10ˆˆˆ

0:0:

11

10

HH

Contraste F

2,12

22o

2

ˆ

]ˆ[

cierto) es H (Si][

nR

R

FsVEF

sE

VEE

0H rechaza Se FF

α = 0.05Fα

Rechazo H0Acep. H0F1,n-2

α = 0.05

4.2

36Regresión Lineal

ii xy 10ˆˆˆ

0:0:

11

10

HH

Contraste F

1.17538.2

8.416ˆ

38.2ˆ

8.416)ˆ(

2

21

R

R

n

iii

sVEF

s

yyVE

0H rechaza Se 2.41.175

F1,28



1)((VT) Total

2ˆ2)ˆ((VNE)Residual

ˆ)ˆ(

)ˆ(1)ˆ((VE)Explicada

FVarianzasLibertadCuadradosFUENTES de Gradosde Suma

2

2

2

222

nyyRsnyy

syy

yyyy

i

ii

R

iii

2

22

)()ˆ(

yyyy

VTVER

i

i



294.483(VT) Total38.22864.66(VNE)Residual

1.1758.41618.416(VE)Explicada


862.02R

0

5

10

15

20

25

500 700 900 1100 1300 1500 1700

Peso (Kg)

Cons

umo

(litro

s/10

0 Km

)

39Regresión Lineal

Ejemplo: R2Núm. Obs. Peso Consumo Predicción Residuos

(i) kg litros/100 km1 981 11 11,44 -0,442 878 12 10,23 1,773 708 8 8,23 -0,234 1138 11 13,28 -2,285 1064 13 12,41 0,596 655 6 7,61 -1,617 1273 14 14,86 -0,868 1485 17 17,35 -0,359 1366 18 15,95 2,0510 1351 18 15,78 2,2211 1635 20 19,11 0,8912 900 10 10,49 -0,4913 888 7 10,35 -3,3514 766 9 8,91 0,0915 981 13 11,44 1,5616 729 7 8,48 -1,4817 1034 12 12,06 -0,0618 1384 17 16,16 0,8419 776 12 9,03 2,9720 835 10 9,72 0,2821 650 9 7,55 1,4522 956 12 11,14 0,8623 688 8 8,00 0,0024 716 7 8,33 -1,3325 608 7 7,06 -0,0626 802 11 9,34 1,6627 1578 18 18,44 -0,4428 688 7 8,00 -1,0029 1461 17 17,07 -0,0730 1556 15 18,18 -3,18

;0117.0071.0ˆ ii xy

38.2ˆ2Rs

%2.864.4838.416

4.483

64.66)ˆ(

8.416)ˆ(

2

1

1

R

VNEVEVT

yyVNE

yyVE

n

iii

n

ii

Regresión con R

40Regresión Lineal

ARCHIVO TEXTO: coches.txt

Regresión con R: Estimación

41Regresión Lineal

Gráfico en R

42Regresión Lineal

Ejemplo 2: Pearson-Lee Data


Estimation with R




Conclusiones Principales1. Hay una relación muy significativa entre la altura de las

hijas y la altura de la madre (p-valor es prácticamente 0)

2. La relación es positiva: “A madre alta hija alta.”

3. La desviación típica de la pendiente (standard error) es

4. La estatura de la madre solo explica el 24% de la estaturade la hija (R-squared = 0.24)

5. Dada la estatura de la madre se puede predecir la estaturade la hija con un error medio de 5.75 cm (sR).

54.01

590.049.00254.096.154.00259.0)ˆ(

1

11SE

“Regresión” a la media


La recta de regresión (línea roja) tiene pendiente menor que 1 (línea azul) , lo que significa que lasmadres altas tienden a tener hijas que son más altas que la media (pues la pendiente es positiva) peromás bajas que ellas (porque la pendiente es menor que uno). De forma similar, las madres bajas tienenhijas más bajas , pero más altas que sus madres. Este resultado resultó sorprendente y es el origen del término “regresión”, que indica que los valores extremos de una generación tienden a regresa o revertir hacia la media en la siguiente.

Regresión2: Regresión simple II (Diagnosis y

Transformaciones)

Diagnosis del Modelo

La estimación está basada en las siguientes hipótesis:

LinealidadNormalidadHomocedasticidadIndependencia

Observaciones Atípicas (muy perjudiciales)

2Regresión Lineal

ix

iyx10

ix

iyx10

Las hipótesis se comprueban con los RESIDUOS

3Regresión Lineal

Análisis de los ResiduosNúm. Obs. Peso Consumo Predicción Residuos

(i) kg litros/100 km1 981 11 11,44 -0,442 878 12 10,23 1,773 708 8 8,23 -0,234 1138 11 13,28 -2,285 1064 13 12,41 0,596 655 6 7,61 -1,617 1273 14 14,86 -0,868 1485 17 17,35 -0,359 1366 18 15,95 2,0510 1351 18 15,78 2,2211 1635 20 19,11 0,8912 900 10 10,49 -0,4913 888 7 10,35 -3,3514 766 9 8,91 0,0915 981 13 11,44 1,5616 729 7 8,48 -1,4817 1034 12 12,06 -0,0618 1384 17 16,16 0,8419 776 12 9,03 2,9720 835 10 9,72 0,2821 650 9 7,55 1,4522 956 12 11,14 0,8623 688 8 8,00 0,0024 716 7 8,33 -1,3325 608 7 7,06 -0,0626 802 11 9,34 1,6627 1578 18 18,44 -0,4428 688 7 8,00 -1,0029 1461 17 17,07 -0,0730 1556 15 18,18 -3,18

0

5

10

15

20

25

500 700 900 1100 1300 1500 1700

Peso (Kg)

Cons

umo

(litro

s/10

0 Km

)

;0117.0071.0ˆ ii xy 38.2ˆ2Rs

-0,441,77-0,23-2,280,59-1,61-0,86-0,352,052,220,89-0,49-3,350,091,56-1,48-0,060,842,970,281,450,860,00-1,33-0,061,66-0,44-1,00-0,07-3,18

iii yye ˆ

4Regresión Lineal

Diagnosis del ModeloNúm. Obs. Peso Consumo Predicción Residuos

(i) kg litros/100 km1 981 11 11,44 -0,442 878 12 10,23 1,773 708 8 8,23 -0,234 1138 11 13,28 -2,285 1064 13 12,41 0,596 655 6 7,61 -1,617 1273 14 14,86 -0,868 1485 17 17,35 -0,359 1366 18 15,95 2,0510 1351 18 15,78 2,2211 1635 20 19,11 0,8912 900 10 10,49 -0,4913 888 7 10,35 -3,3514 766 9 8,91 0,0915 981 13 11,44 1,5616 729 7 8,48 -1,4817 1034 12 12,06 -0,0618 1384 17 16,16 0,8419 776 12 9,03 2,9720 835 10 9,72 0,2821 650 9 7,55 1,4522 956 12 11,14 0,8623 688 8 8,00 0,0024 716 7 8,33 -1,3325 608 7 7,06 -0,0626 802 11 9,34 1,6627 1578 18 18,44 -0,4428 688 7 8,00 -1,0029 1461 17 17,07 -0,0730 1556 15 18,18 -3,18

0

5

10

15

20

25

500 700 900 1100 1300 1500 1700

Peso (Kg)

Cons

umo

(litro

s/10

0 Km

)

;0117.0071.0ˆ ii xy 38.2ˆ2Rs

5Regresión Lineal

Diagnosis del ModeloNúm. Obs. Peso Consumo Predicción Residuos

(i) kg litros/100 km1 981 11 11,44 -0,442 878 12 10,23 1,773 708 8 8,23 -0,234 1138 11 13,28 -2,285 1064 13 12,41 0,596 655 6 7,61 -1,617 1273 14 14,86 -0,868 1485 17 17,35 -0,359 1366 18 15,95 2,0510 1351 18 15,78 2,2211 1635 20 19,11 0,8912 900 10 10,49 -0,4913 888 7 10,35 -3,3514 766 9 8,91 0,0915 981 13 11,44 1,5616 729 7 8,48 -1,4817 1034 12 12,06 -0,0618 1384 17 16,16 0,8419 776 12 9,03 2,9720 835 10 9,72 0,2821 650 9 7,55 1,4522 956 12 11,14 0,8623 688 8 8,00 0,0024 716 7 8,33 -1,3325 608 7 7,06 -0,0626 802 11 9,34 1,6627 1578 18 18,44 -0,4428 688 7 8,00 -1,0029 1461 17 17,07 -0,0730 1556 15 18,18 -3,18

;0117.0071.0ˆ ii xy 38.2ˆ2Rs

No linealidad

6Regresión Lineal

No homocedasticidad

7Regresión Lineal

No homocedasticidad, ni linealidad

8Regresión Lineal

Observaciones atípicas

9Regresión Lineal

Residuos Aceptables

10Regresión Lineal

11Regresión Lineal

Normalidad de los Residuos

Herramientas de comprobación:Histograma de residuosGráfico de probabilidad normal (Q-Q plot)Contrastes formales (Kolmogorov-Smirnov)

Ejemplo de coches

Residuos-9 -6 -3 0 3 6 9

0

20

40

60

80

100

120

-6 -4 -2 0 2 4 6

Residuos

0,115

2050809599

99,9

prob

abili

dad

12Regresión Lineal

Comprobación de la linealidad y homocedasticidad

Ambas hipótesis se comprueban conjuntamente mediante gráficos de los residuos

Frente a valores previstosFrente al regresor.

En muchas ocasiones se corrige la falta de linealidad y la heterocedasticidadmediante transformación de las variables.

iii

iii

uxyuxy

110

110

logloglog

13Regresión Lineal

Residuos – Regresor o Val.Previstos

0

ix

ie

0

ix

ie

0

ix

ieLineal y homocedástico No lineal y homocedástico

Lineal y no homocedástico

0

ix

ie

No lineal y no homocedástico

Coches (ejemplo 1): Consumo ~ Peso

14Regresión Lineal

Normalidad ok Linealidad ok y Homocedasticidad ok

Cars (Ejemplo 2): mpg ~ weight

15Regresión Lineal

DESCRIPCIÓN: Datos de 391 coches (archivo:cars.txt) con información del siete variables: consumo (mpg), cc (engine), potencia (horse), peso (weight), tiempo de aceleración (accel), origen del coche (origin, 1=USA, 2=UE, 3=Japón) y número de cilindros (cylinders)

OBJETIVO: Estimar el modelo de regresión simple entre el consumo (mpg) y el peso (weight)

Cars: mpg ~ weight

16Regresión Lineal

mpg = 49.20 − 0.0076 weight(0.802) (0.00025)

= 0.69 = 4.34

Cars: Figuras

17Regresión Lineal

Figura 2.1 Figura 2.2

No hay linealidad ni homocedasticidad

Cars: cons ~ weight

18Regresión Lineal

TRANSFORMACIÓN: En lugar de medir el consumo en millas por galón (mpg), vamos a cambiar a “litros cada 100 km (cons)”

cons = 235.1/mpg

Y X

…

Cars: cons ~ weight

19Regresión Lineal

cons = −0.7689 + 0.0040 weight(0.3298) (0.00011)

= 0.79 = 1.78

TRANSFORMACIÓN: En lugar de medir el consumo en millas por galón (mpg), vamos a cambiar a “litros cada 100 km (cons)”

cons = 235.1/mpg

Cars: Cambio Variable

20Regresión Lineal


Mejora la linealidad y homocedasticidad

Cars: Normalidad

21Regresión Lineal


Normalidad no es problemática

Cars: Instrucciones con R

22Regresión Lineal

> cars<-read.table("cars.txt",header=TRUE) % LEE EL ARCHIVO CARS.TXT> attach(cars) % AÑADE LAS VARIABLES DEL CONJUNTO DE DATOS cars A LA MEMORIA

> mod_cars<-lm(mpg ~ weight) % ESTIMA EL MODELO DE REGRESIÓN SIMPLE (MOD_CARS)

> par(mfrow=c(1,2)) % DIVIDE LA PANTALLA GRÁFICA EN 1 FILA Y 2 COLUMNAS (ver FIGURAs 2.1 2.2)

> plot(weight,mpg,pch=19,col="blue") % DIBUJA Figura 2.1> abline(mod_cars,col="red",lwd=2) % AÑADE Linea roja A la figura 2.1

> plot(weight,residuals(mod_cars),pch=19,col="blue",ylab="residuos") % DIBUJA Figura 2.2> abline(c(0,0),col="red",lty=2,lwd=2) > summary(mod_cars) % Línea roja de la figura 2.2

> summary(mod_cars) % MUESTRA Resumen del modelo de regresión

23Regresión Lineal

Tabla 2.1


24Regresión Lineal

> cons <- 235.1/mpg % cambio variable> m2 <- lm(cons ~ weight) % nuevo modelo

> plot(weight,cons,pch=19,col="blue") % Figuras 2.3 y 2.4 > abline(m2,col="red",lwd=2)> plot(weight,residuals(m2),pch=19,col="blue",ylim=c(-10,10))> abline(c(0,0),col="red",lwd=2,lty=2)> abline(c(5,0),col="red",lwd=2,lty=2)> abline(c(-5,0),col="red",lwd=2,lty=2)

> hist(residuals(m2),xlab="residuos",col="red",nclas=20) % figuras 2.5 y 2.6> qqnorm(residuals(m2),col="blue",pch=19) > qqline(residuals(m2),col="red",lwd=2,lty=2)

> summary(m2) % resumen del modelo m2 (tabla 2.2)


25Regresión Lineal

Tabla 2.2


Forbes (Ejemplo 3)


Ejemplo “Forbes”En un artículo de 1857 un físico escocés llamadoJames D. Forbes presentó una serie de experimentosrealizados para estudiar la relación entre presiónatmosférica y punto de ebullición del agua. Forbessabía que la altitud podía ser determinada a partir dela presión atmosférica medida con un barómetro, conmenores presiones a medida que aumenta la altitud. Amediados del siglo XIX los barómetros eraninstrumentos muy frágiles y Forbes pensó que sepodía sustituir la medidas de la presión con medidasde la temperatura de ebullición del agua. Recogiódatos de 17 emplazamientos en los Alpes y losmontes de Escocia. En cada lugar se midió con unbarómetro la presión en pulgadas de mercurio (Pres)y la temperatura de ebullición del agua en gradosFahrenheit (Temp) empleando un termómetro. Losdatos se encuentran en el archivo “forbes.txt”

“forbes.txt”

Temp Pres1 194.5 20.792 194.3 20.79 3 197.9 22.404 198.4 22.675 199.4 23.156 199.9 23.357 200.9 23.898 201.1 23.99 9 201.4 24.02 10 201.3 24.0111 203.6 25.1412 204.6 26.5713 209.5 28.4914 208.6 27.76 15 210.7 29.0416 211.9 29.8817 212.2 30.06

Weisberg, S. (2005). Applied Linear Regression, 3rdedition. New York: Wiley.

Forbes: Modelo Inicial

27Regresión Lineal

Temp Pres Pred Resid1 194.5 20.79 20.639 0.15115522 194.3 20.79 20.534 0.25573373 197.9 22.40 22.417 -0.01667904 198.4 22.67 22.678 -0.00812525 199.4 23.15 23.201 -0.05101766 199.9 23.35 23.462 -0.11246387 200.9 23.89 23.985 -0.09535628 201.1 23.99 24.090 -0.09993479 201.4 24.02 24.247 -0.226802410 201.3 24.01 24.195 -0.184513111 203.6 25.14 25.397 -0.257165712 204.6 26.57 25.920 0.649941913 209.5 28.49 28.482 0.007769214 208.6 27.76 28.012 -0.251627715 210.7 29.04 29.110 -0.069701716 211.9 29.88 29.737 0.142827417 212.2 30.06 29.894 0.1659597

Pres = −81.06 + 0.523 Temp(2.05) (0.010)

= 0.994 = 0.233 Tabla 3.1

Forbes: Conclusiones Modelo Inicial

28Regresión Lineal

• Según la figura y el valor R-cuadrado (0.994) el ajuste es muy bueno.

• Comparando los valores Previstos con los Observados (Pred) observamos que las diferencias (residuos) son pequeñas ( = 0.233)

• Los dos parámetros del modelo son muy significativos (entre paréntesis se proporcionan las desv. típicas. estimadas de los parámetros estimados)


Forbes: Diagnosis

29Regresión Lineal

En el gráfico de residuos frente al regresor se observa:

• La mayoría de las observaciones muestran no-linealidad• Existe una observación atípica

Forbes: Instrucciones R

30Regresión Lineal

> forbes <- read.table(“forbes.txt”,header=TRUE)> attach(forbes)> m <- lm(Pres ~ Temp)> summary(m)

31Regresión Lineal

> forbes$Pred <- predict(m)> forbes$Resid <- residuals(m)> print(forbes,digits=4,print.gap=3) % proporciona tabla 3.1

Figuras 3.1 y 3.2 > par(mfrow=c(1,2)) > plot(Temp,Pres,pch=19,col="blue",xlab="Temperatura",

ylab="Presión")> abline(m,col="red",lwd=2) > plot(Temp,residuals(m),pch=19,col="blue",ylab="Residuos",

xlab="Temperatura") > abline(c(0,0),lty=2,lwd=2,col="red")

Forbes: Instrucciones R (cont)

Forbes: Modelo 1

32Regresión Lineal

Temp Pres Lpres Pred Resid1 194.5 20.79 131.79 132.03 -0.24802252 194.3 20.79 131.79 131.85 -0.06889903 197.9 22.40 135.02 135.08 -0.05377004 198.4 22.67 135.55 135.53 0.01877135 199.4 23.15 136.46 136.42 0.03310106 199.9 23.35 136.83 136.87 -0.04111897 200.9 23.89 137.82 137.77 0.05618988 201.1 23.99 138.00 137.94 0.05847619 201.4 24.02 138.06 138.21 -0.155933710 201.3 24.01 138.04 138.12 -0.084456311 203.6 25.14 140.04 140.18 -0.147065812 204.6 26.57 142.44 141.08 11.359944513 209.5 28.49 145.47 145.47 0.001507014 208.6 27.76 144.34 144.66 -0.319735815 210.7 29.04 146.30 146.54 -0.242818116 211.9 29.88 147.54 147.62 -0.079161317 212.2 30.06 147.80 147.89 -0.0870083

Lpres = −42.16 + 0.8956 Temp(3.34) (0.016)

= 0.995 = 0.379

Tabla 4.1

= 100 × log

Forbes : modelo 1

33Regresión Lineal

En el gráfico de residuos frente al regresor se observa:• Existe una observación claramente atípica • Se ha corregido la falta de linealidad en el resto de las

observaciones.


Forbes: Modelo 1

34Regresión Lineal

• Se ha realizado la transformación logarítmica de la presiónpara corregir la falta de linealidad (da igual utilizarlogaritmos neperianos o decimales, se ha multiplicado por100 para evitar números muy pequeños en lasestimaciones, no tiene efecto en el análisis)

• La observación atípica tiene mucha influencia en laestimación del modelo, se aprecia como los residuos delresto de las observaciones no tienen media cero.

• Por lo demás el ajuste es muy bueno como se ve en lagráfica y en la tabla 4.1, los valores previstos se parecenmucho a los observados (los residuos son pequeños)

• Conviene eliminar la observación atípica y recalcular.


35Regresión Lineal

> forbes1 <- read.table(“forbes.txt”,header=TRUE)> attach(forbes1)> m1 <- lm(100*log10(Pres) ~ Temp)> summary(m1)

36Regresión Lineal

> forbes1$Lpres <- 100*log10(Pres)> forbes1$Pred <- predict(m1)> forbes1$Resid <- residuals(m1)> print(forbes1,digits=4,print.gap=3) % proporciona tabla 4.1

Figuras 4.1 y 4.2 > par(mfrow=c(1,2)) > plot(Temp,100*log10(Pres),pch=19,col="blue",xlab="Temperatura“)> abline(m1,col="red",lwd=2) > plot(Temp,residuals(m1),pch=19,col="blue",ylab="Residuos",

xlab="Temperatura") > abline(c(0,0),lty=2,lwd=2,col="red")

Forbes: Instrucciones R (cont)

Forbes: Modelo 2

37Regresión Lineal

Temp Pres Lpres Pred Resid1 194.5 20.79 131.79 131.99 -0.20066992 194.3 20.79 131.79 131.81 -0.02244803 197.9 22.40 135.02 135.02 0.00891074 198.4 22.67 135.55 135.46 0.08370615 199.4 23.15 136.46 136.35 0.10254416 199.9 23.35 136.83 136.80 0.03057837 200.9 23.89 137.82 137.69 0.13239538 201.1 23.99 138.00 137.87 0.13558329 201.4 24.02 138.06 138.13 -0.077474210 201.3 24.01 138.04 138.05 -0.006447511 203.6 25.14 140.04 140.10 -0.058688112* 204.6 26.57 142.44 140.99 1.452732413 209.5 28.49 145.47 145.35 0.116483314 208.6 27.76 144.34 144.55 -0.208816815 210.7 29.04 146.30 146.42 -0.122431816 211.9 29.88 147.54 147.49 0.046634917 212.2 30.06 147.80 147.76 0.0401403

Lpres = −41.33 + 0.8911 Temp(1.003) (0.0049)

= 0.9996 = 0.1136

Tabla 5.1

= 100 × log

(ELIMINANDO OBSERVACIÓN Nº 12)

La obs. 12 no se ha utilizado en la estimación del modelo

Forbes : modelo 2

38Regresión Lineal

En el gráfico de residuos frente al regresor se observa:• No existen observaciones atípicas (las líneas rojas se

encuentran a ±2 )• No se observa ninguna anomalía grave en el qqplot..


Forbes: Modelo 2

39Regresión Lineal

• Se ha realizado la transformación logarítmica de la presiónpara corregir la falta de linealidad y se ha eliminado laobservación 12 (el propio Forbes indica en su artículo quese trataba de un error de medida)

• Comparando el modelo 1 y 2, no se aprecian grandescambios en los parámetros estimados , .

• La desviación típica residual se ha reducidoconsiderablemente de uno a otro, pasando de 0.379 a0.113, y como consecuencia las desviaciones típicas de losparámetros.

• El análisis de los residuos no indican ninguna desviaciónimportante de las hipótesis del modelo


40Regresión Lineal

> # Modelo m2 de Forbes> out <- abs(residuals(m1)) > 3*0.3792> m2 <- lm(100*log10(Pres[!out]) ~ Temp[!out])> summary(m2)

41Regresión Lineal

> # Tabla 5.1> P_Lpres =c(predict(m2)[1:11],NA,predict(m2)[12:16])> P_Lpres[12] = -41.334683 + 0.891110*Temp[12]> forbes2 <- forbes1> forbes2$Pred <- P_Lpres> forbes2$Resid <- 100*log10(Pres)-P_Lpres> print(forbes2,digits=5,print.gap=3)

> # Figuras 5.1 y 5.2> par(mfrow=c(1,2)) > plot(Temp[!out],residuals(m2),pch=19,col="blue",ylab="Residuos", + xlab="Temperatura",ylim=c(-.5,.5)) > abline(c(0,0),lty=2,lwd=2,col="red") > abline(c(-.22,0),lty=2,lwd=2,col="red") > abline(c(+.22,0),lty=2,lwd=2,col="red")> > qqnorm(residuals(m2),ylim=c(-.2,.2),pch=19,col="blue") > qqline(residuals(m2),col="red",lty=2,lwd=2)

Forbes 2: Instrucciones R (cont)

FEV (Ejemplo 4)

42Regresión Lineal

Ejemplo “Fev” Forced Expiratory Volume (FEV)654 observaciones, 5 variables

Descripción: Es una muestra de 654 jóvenes entre 3 y 19 años recogidos en Boston(USA) a finales de los 70. Se desea ver la relación entre la capacidad pulmonar (FEV) yfumar. En este primer análisis estudiaremos la relación entre FEV y la estatura. En lalección de regresión múltiple estudiaremos el efecto del tabaco.

Fuente:Rosner, B. (1999), Fundamentals of Biostatistics, 5th Ed., Pacific Grove, CA: Duxbury

Variablesage años del individuofev variable continua en litrosht variable continua, estatura en pulgadassex cualitativa (mujer=0, hombre=1)smoke cualitativa (No-fumador=0, fumador=1)

age fev ht sex smoke1 9 1.708 57.0 0 02 8 1.724 67.5 0 03 7 1.720 54.5 0 04 9 1.558 53.0 1 05 9 1.895 57.0 1 06 8 2.336 61.0 0 0...

Tabla 6.1

FEV: Modelo Inicial

43Regresión Lineal

• Tanto en el gráfico de dispersión de FEV y altura (ht) como en el de los residuos del modelo de regresión simple se observa la relación no-lineal entre las dos variables y la heterocedasticidad.


FEV: modelo 1

44Regresión Lineal


log(fev) = −2.27 + 0.052 ht(0.063) (0.0010)

= 0.7956 = 0.1508

FEV: modelo 1

45Regresión Lineal


FEV: Modelo 1

46Regresión Lineal

• Se ha realizado la transformación logarítmica de la variablerespuesta (fev) y se ha corregido la falta de linealidad y laheterocedasticidad como se ve en las figuras 6.3 y 6.4

• El histograma y el qqplot (figura 6.5 y 6.6) no muestrangrandes desviaciones de la normalidad.

• Existen algunas observaciones atípicas pero se puedecomprobar que al eliminarlas los resultados no cambiansustancialmente.

• Existe una relación muy significativa entre log(fev) y ht(altura). Un incremento de un pulgada en la estatura suponeun aumento de la capacidad pulmonar del 5% (esteresultado cambiará al considerar otras variables)

• La altura explica un 79% (R2) de la variabilidad del log(fev).

log(fev) = −2.27 + 0.052 ht(0.063) (0.0010)

= 0.7956 = 0.1508

log(fev)g( ) = −2.27 + 0.0525 ht((0.063)))) (((0.0010))

= 00..79567956 = 00..15081

FEV: Modelo m1 con R

47Regresión Lineal

Tabla 6.2

FEV : Instrucciones de R

48Regresión Lineal

> # FEV (ejemplo 4)> dat <- read.table("fev.dat",header=TRUE)> head(fev) #tabla 6.1> attach(dat)> m<-lm(fev~ht) # modelo m inicial> par(mfrow=c(1,2))> plot(ht,fev,col="blue") # figura 6.1> abline(m,col="red",lwd=2)> plot(ht,residuals(m),col="blue") # figura 6.2> abline(c(0,0),col="red",lwd=2,lty=2)> m1 <- lm(log(fev) ~ ht)> summary(m1) # modelo estimado tabla 6.2> plot(ht,log(fev),col="blue") # figura 6.3> abline(m1,col="red",lwd=2) # figura 6.3> plot(ht,residuals(m1),col="blue") # figura 6.4> abline(c(0,0),col="red",lty=2,lwd=2)> par(mfrow=c(1,2)) # figura 6.5 y 6.6> hist(residuals(m1),col="red",nclass=20,xlab="Residuos")> qqnorm(residuals(m1),col="blue")> qqline(residuals(m1),col="red",lty=2,lwd=2)

Brains (ejemplo 5)

49Regresión Lineal

Ejemplo “Brains” Peso del cuerpo y cerebro de mamiferos62 observaciones, 2 variables

Descripción:Para 62 especies de mamíferos se proporciona el peso medio del cuerpo en kilogramos ydel cerebro en gramos

Variables:BrainWt Peso del cerebro (gramos)BodyWt Peso del Cuerpo (kilogramos)

FuentesAllison, T. and Cicchetti, D. (1976). Sleep in mammals: Ecology and constitutionalcorrelates. Science, 194, 732-734.Weisberg, S. (2005). Applied Linear Regression, 3rd edition. New York: Wiley

Tabla 7.1

BrainWt BodyWtArctic_fox 44.500 3.385Owl_monkey 15.499 0.480Beaver 8.100 1.350Cow 423.012 464.983Gray_wolf 119.498 36.328Goat 114.996 27.660

OBJETIVO: Estudiar la relación entre peso del cerebro y peso del cuerpo.

Brains: Transformación

50Regresión Lineal

• En la escala original (figura 7.1) no tiene sentido el modelo de regresión lineal.

• Haciendo las transformación logarítmica de las dos variables (figura 7.2) se aprecia una clara relación lineal


Brains: modelo 1

51Regresión Lineal


log(BrainWt) = 2.13 + 0.752 log(BodyWt)(0.096) (0.028)

= 0.9208 = 0.6943

Brains

52Regresión Lineal

• La relación entre el logaritmo de peso del cuerpo y ellogaritmo del peso del cerebro es lineal como se ve en lasfiguras 7.3 y 7.4

• Existen algunas observaciones atípicas pero se puedecomprobar que al eliminarlas los resultados no cambiansustancialmente.

• El log del peso del cuerpo explica el 92% (R2) de lavariabilidad del log del peso del cerebro.

log(BrainWt) = 2.13 + 0.752 log(BodyWt)(0.096) (0.028)

= 0.9208 = 0.6943

Brains: Modelo m1 con R

53Regresión Lineal

Tabla 7.2

Brains : Instrucciones de R

54Regresión Lineal

> brains <- read.table("brains.txt",header=TRUE)> head(brains) # tabla 7.1> par(mfrow=c(1,2))> plot(BodyWt,BrainWt,col="blue",xlim=c(-1000,9000)) # figura 7.1> sel = BrainWt>1000 # selecciona observaciones con peso del cerebro >1000> text(BodyWt[out],BrainWt[out]-300,labels=brains[out,1]) # etiquetas 7.1> m <- lm(BrainWt ~ BodyWt)> abline(m,col="red",lwd=2) # figura 7.1> plot(log(BodyWt),log(BrainWt),col="blue") # Figura 7.2 y 7.3> m1 <- lm(log(BrainWt) ~ log(BodyWt))> abline(m1,col="red",lwd=2) # linea en figura 7.2 y 7.3> summary(m1) # tabla 7.2> plot(log(BodyWt),residuals(m1),col="blue",ylim=c(-4,4)) # figura 7.4> abline(c(0,0),col="red",lty=2,lwd=2)> abline(c(-2*.6943,0),col="red",lty=2,lwd=2)> abline(c(+2*.6943,0),col="red",lty=2,lwd=2)

Funciones R para Regresión Simple

55Regresión Lineal

• m <- lm(y~x) Estima el modelo y (variable dependiente) y x (regresor). El modelo lo guarda en m

• summary(m) Modelo estimado• plot(m) Diagnosis• coef(m) Da los coeficientes• residuals(m) Residuos del modelo• fitted(m) Da los valores predichos• deviance(m) Suma de residuos al cuadrado• predict(m) Hace predicciones• anova(m) Tabla ANOVA

Regresión3: Regresión Múltiple I

2Regresión Lineal

Ejemplo regresión múltiple

Consumo = 0 + 1 CC + 2 Pot + 3 Peso + 4 Acel + Error

Y X1 X2 X3 X4Consumo Cilindrada Potencia Peso Aceleraciónl/100Km cc CV kg segundos

15 4982 150 1144 1216 6391 190 1283 924 5031 200 1458 159 1491 70 651 2111 2294 72 802 1917 5752 153 1384 14... ... ... ... ...

Var. Independienteso regresores

Var. dependienteso respuesta

3Regresión Lineal

Modelo regresión múltiple

osdesconocid parámetros:,,,,, 2210 k

),0(

,2

22110

Nu

uxxxy

i

ikikiii

LinealidadE[yi] = 0+ 1x1i+ + kxki

Normalidadyi| x1 ,...,xk Normal

HomocedasticidadVar [yi|x1 ,...,xk] = 2

IndependenciaCov [yi, yk] = 0

Estimación

4Regresión Lineal

),0(, 222110 Nuuxxxy iikikiii

1ˆˆ

ˆˆˆˆ

ˆˆˆ

1

2

2

110

110

kn

esyye

xxy

exxy

n

ii

Riii

kikii

ikikii

== ⋮ = − − − ⋯−

g.l. = n-k-1

kikii xxy ˆˆˆˆ 110

5Regresión Lineal

Notación matricial

nkknnn

k

k

n u

uu

xxx

xxxxxx

y

yy

2

1

1

0

21

22212

12111

2

1

1

11

),( 2I0U

UXβY

N

6Regresión Lineal

Estimación mínimo-cuadrática

eβXY ˆdonde el vector e cumple

mínimo esn

iie

1

22e

nkknnn

k

k

n e

ee

xxx

xxxxxx

y

yy

2

1

1

0

21

22212

12111

2

1

ˆ

ˆˆ

1

11

7Regresión Lineal

Para que ||e||2 sea mínimo, e tiene que serperpendicular al espacio vectorial generado lascolumnas de X

nkii

nii

ni

nknnn

k

k

xe

xee

e

ee

xxx

xxxxxx

1

1 1

1

2

1

21

22212

12111

0

00

,1

11

0eX

eX

T

8Regresión Lineal

Mínimos cuadrados

YXXXββXXYXeXβXXYX

0eX

TTTT

TTT

T

1)(ˆˆˆ

x1

Y

βXY ˆˆ

YYe ˆ

x2

x2

x1

Y Solución MC

9Regresión Lineal

Matriz de proyección V

1

x1

VYY

V)Y(IeY

VYYYXX)X(XYβXY

T1T

ˆˆ

ˆˆPrevistos Val.

V)Y(IVYYβXYe ˆ

Residuos TT XXX(XV 1)

Simétrica V=VT

Idempotente VV=V

10Regresión Lineal

Distribución de probabilidad de β

1T

1TT1T

T1TT1T

T

T1T

T1TT1T

X)(X

X)X(XXX)(X

XX)(XIXX)(X

CYCCYβ

βXβXX)(XCXβYCβ

βXX)(XCCYYXX)(Xβ

IXβY

2

2

2

2

))()((

][][]ˆ[

][]ˆ[

ˆ) siendo(ˆ

),(

T

VarVarVar

EE

Normal

N

11Regresión Lineal

Distribución de probabilidad de β

kkkk

k

k

T

kkqqq

qqqqqq

10

11110

00100

11

0

1

0

)(

ˆ

ˆˆ

ˆ XXQββ

),(ˆ),(ˆ

2

2

iiii qN

N 1TX)(Xββ

)1()1()dim( kkQ

12Regresión Lineal

Residuos

)ˆˆˆ( 110 kikiii xxye

nkknnn

k

k

n e

ee

xxx

xxxxxx

y

yy

2

1

1

0

21

22212

12111

2

1

ˆ

ˆˆ

1

11

ResiduosPrevistosObservados

ˆ eβXY

13Regresión Lineal

Varianza Residual

212

21

2

212

12

2

]1

[

1][

kne

E

kne

E

e

ni i

ni i

kn

ni ieeT

212

2

12

2

ˆ)1(

1ˆ

knR

ni i

R

skn

kne

s

14Regresión Lineal

0:0:

1

0

i

iHH

Ho rechaza Se2/;1

111

2

;ˆ

ˆˆ

ˆ)1,0(

ˆ),(ˆ

kniiiR

ii

kniiRii

ii

iiii

ttqs

t

tqs

Nq

qN

Contraste individual i

ikikii uxxy 110

15Regresión Lineal

0:0:

1

0

i

i

HH

Contrastes individuales

t /2-t /2

/2

tn-k-1

R.R. R.R

R. Acept.

1-

1)ˆ(

ˆkn

i

iii t

SEt

Ho rechaza Se

;)ˆ(

ˆ

2/;11

1

11

knttSE

t

/2

kikii xxy ˆˆˆˆ 110→ , ( )

Con α=0.05 “x” influyesignificativamente en “y”

Area Azul = p-valor

0 05 “ ”P-valor ≤ α P-valor > α

α = 0.05

0:0:

1

0

i

i

HH

Con α=0.05 “x” NO influyesignificativamente en “y”

0:1 iH 0:0 iH

P-valor

n-k-1

17Regresión Lineal

Estimate Stand Error t value Pr(>|t|)Intercept SE( ) = SE( )

SE( ) = SE( )SE( ) = SE( )

… … … … …

SE( ) = SE( )

Dependiente (y) ~ Independientes (x1, x2,..,xk)Modelo estimado y contrastes

18Regresión Lineal

Estimate Stand Error t value Pr(>|t|)Intercept −1.9711 0.07833 −25.16 0.00000ℎ 0.04399 0.001647 26.71 0.000000.01981 0.003181 6.23 0.00000

Dependiente (log(fev)) ~ Independientes (ht (estatura) , age (edad) )

Modelo estimado y contrastes

log(fev) = −1.97 + 0.0439 ht + 0.0198 age(0.078) (0.0016) = 0.1476 (0.0031)

19Regresión Lineal

Modelo en diferencias a la media

kkknnn

kk

kk

n

kkikii

kikii

kk

ikikii

xxxxxx

xxxxxxxxxxxx

yy

yyyy

xxxxyy

xxy

xxy

exxy

ˆ

ˆˆ

ˆ

ˆˆ

)(ˆ)(ˆˆ

ˆˆˆˆ

ˆˆˆ

ˆˆˆ

2

1

2211

2222112

1221111

2

1

111

110

110

110

0111

1101

ˆˆˆ n

ii

n

ikik

n

ii

n

ii exxny

bXYY ˆ~ˆ ebXYY ˆ~

20Regresión Lineal

Modelo en diferencias a la media

UbXY ~~

))~~(,(ˆ 12 XXbb TσN

kknnn

kk

kk

kkn

xxxxxx

xxxxxxxxxxxx

y

yy

yy

yyyy

2211

2222112

1221111

2

1

2

1

2

1

~

ˆ

ˆˆ

ˆ,,,~

X

bbYY

YX)XX(b ~~~~ˆ 1 TT

21Regresión Lineal

Descomposición de la variabilidad en regresión

VNEVEVT

eyyyy

eyyyyyeyy

exxy

ni i

ni i

ni i

iii

iii

ikikii

12

12

12

110

)ˆ()(

)ˆ()()(ˆ

ˆˆˆ

Restando

22Regresión Lineal

Coeficiente de determinación R2

regresores los por explicado estáque VTde porcentaje el Mide

10 2R

8071.0526.72536.582

VTVER

526.72990.13536.58

990.13)ˆ(

536.58)ˆ(

1

2

1

2

VT

yyVNE

yyVE

n

iii

n

ii

log(fev) = −1.97 + 0.0439 ht + 0.0198 age(0.078) (0.0016) (0.0031)

23Regresión Lineal

Coef. determinación corregido

2

22

ˆ)1(ˆ)1(11

y

R

snskn

VTVNE

VTVNEVT

VTVER

1

)(ˆ 1

2

2n

yys

n

ii

y

11)1(1

111

ˆˆ

1

2

2

22

knnR

knn

VTVNE

ssR

y

R

2R

= 1 − (1 − 0.8071) × =0.8065

24Regresión Lineal

0:0:

1210

de distinto es algunoHH k

Contraste general de regresión.

0H rechaza Se FF

ikikii uxxy 110

1,2

2

22

o22

ˆˆ

ˆ

cierto) es H (Siˆ

knkR

E

R

E

FssF

sk

VEs

α = 0.05

Fα

Rechazo H0Acep. H0

F1,n-2

α = 0.05

3.01

25Regresión Lineal

Contraste F

0H rechaza Se 01.31362

F2,651

0algún :0:

1

210

iHH

1362021.0268.29

ˆˆ

021.0ˆ

268.292436.58ˆ

2

2

2

2

R

E

R

E

ssF

sk

VEs

P-valor = 0.00000…

log(fev) = −1.97 + 0.0439 ht + 0.0198 age,(0.078) (0.0016) = 0.1476(0.0031)



1)((VT) Total

2ˆ1)ˆ((VNE)Residual

ˆˆ

ˆ)ˆ((VE)Explicada


2

2

2

222

nyysknyy

ss

skyy

i

Rii

R

EEi

2

22

)()ˆ(

yyyy

VTVER

i

i



653526.72(VT) Total0215.0651990.13(VNE)Residual

1362268.292536.58(VE)Explicada


8071.0526.72536.582R

log(fev) = −1.97 + 0.0439 ht + 0.0198 age,(0.078) (0.0016) = 0.1476(0.0031)

Resumen de estimación con R

28Regresión Lineal

Ejemplo 1: Cars

29Regresión Lineal

…

Y X1 X2 X3 X4

RegresoresDepend

= −1.05 + 0.0058 engine + 0.0369 horse ++ 0.0020 weight + 0.0813 accel

Valores Previstos y Residuos

30Regresión Lineal

= −1.05 + 0.0058 engine + 0.0369 horse + 0.0020 weight + 0.0813 accelY X1 X2 X3 X4

Datos Resultados

9.5762)(

9.1037)ˆ(

0.4725)ˆ(

1

2

1

2

1

2

n

ii

n

iii

n

ii

yyVT

yyVNE

yyVE

= − − 1 = 1037.9386= 2.7= = 47255762.9 = 81.992

31Regresión Lineal

DIAGNOSIS: residuos ~ regresores

32Regresión Lineal

Linealidad Homocedasticidad

ok

Normalidad ok

Diagnosis

33Regresión Lineal

Resumen del modelo

34Regresión Lineal

Resumen del modelo (sin aceleración)

Conclusiones modelo final

35Regresión Lineal

1. No se aprecian desviaciones importantes de las hipótesis básicas delmodelo: linealidad, homocedasticidad y normalidad.

2. Se observa relación lineal significativa entre el consumo de los coches y supeso (weight), potencia (horse) y centímetros cúbicos (engine). (Los p-valores son menores que 0.05 en elmodelos). Los coeficientes estimadosson positivos, lo que significa que el aumento de cualquiera de las variablesindependientes incrementa el consumo del vehículo. Con las cuatrovariables se explica el 81.99 % de la variabilidad del consumo.

= −1.05 + 0.0058 engine + 0.0369 horse + 0.0020 weight + 0.0813 accel = 1.64 = 81.99

Conclusiones modelo final (cont)

36Regresión Lineal

3. En el modelo de cuatro regresores el parámetro asociado a aceleración no essignificativo. La inclusión de la variable “aceleración” no mejorasignificativamente el modelo. Eso no implica que no exista relación lineal entreaceleración y consumo (la regresión simple entre estas variables indican relaciónsignificativa con coeficiente negativo).

4. El coeficiente asociado al peso es 0.0020, es muy significativo. Parainterpretarlo es necesario tener en cuenta las unidades: un aumento de una libraen el peso del coche manteniendo constante el resto de las variables produce unaumento del consumo de 0.002 litros/100 km. (Esto implica que un regresor sepuede cambiar manteniendo el resto constante, lo que sólo es posible en losestudios experimentales.) El resto de los coeficientes se interpreta similarmente.

37Regresión Lineal

1 2 3 4Modelo engine horse weight accel

0,0320,0009

0,0850,0026

0,0040,0001

-0,6630,062

0,0202 0,0360,0019 0,00530,01313 0,002510,0023 0,00028720,03215 0,00480,00108 0,041

0,0351 0,00260,00432 0,000190,1027 0,3360,0035 0,048

0,00379 -0,16890,0001147 0,0351

0,0052 0,0299 0,002250,0025 0,005 0,00020,01765 0,0539 0,22820,0019 0,0063 0,04590,01006 0,0027 -0,09860,0026 0,000298 0,039

0,04113 0,0025 0,06390,0063 0,00022 0,0489

0,00587 0,03695 0,002018 0,08130,0026 0,0065 0,00031 0,049

1,648 81,75 81,61

1,640 81,99 81,80

1,723 80,05 79,89

1,704 80,50 80,35

1,734 79,75 79,65

1,643 81,86 81,72

1,650 81,67 81,58

1,892 75,90 75,78

1,715 80,18 80,08

1,877 76,28 76,16

78,55 78,49

3,380 22,70 22,50

1,775 78,78 78,67

1,874 76,28 76,22

2,002 72,94 72,87

1,780

134

234

1234

14

23

24

34

123

124

1

2

3

4

12

13

CARS: Todos los modelos

Conclusiones Generales

38Regresión Lineal

1. El que la relación lineal entre dos variables sea significativa no implica que existarelación de CAUSALIDAD entre las variables. Se debe interpretar como asociaciónentre las variables: los coches con más pesos presentan mayor consumo que loscoches con menos peso.

2. Cuando se añaden o eliminan variables de un modelo los coeficientes del restocambian. Eso es debido a la correlación entre los regresores. Cuando estascorrelaciones son altas los coeficientes pueden cambiar mucho, incluso de signo.Esto se puede apreciar en el coeficiente de la variable accel, cuyo efecto sobre elcosnumo depende del resto de las variables en el modelo. La alta correlaciónentre los regresores hace muy difícil interpretar el significado de loscoeficientes, a este problema se le denomina MULTICOLINEALIDAD.

Conclusiones (cont.)

39Regresión Lineal

7. La selección del modelo depende del objetivo. Siempre el modelo con másregresores tiene el mayor R2. Utilizando el “R2 corregido” hay tres modelosmuy parecidos 23, 123 y 1234. El mejor modelo con un regresor es el 3, con R2igual al 78.55%, al incluir la pontencia (horse) como nuevo regresor tenemos elmodelo 23 cuyo R2 sólo aumenta un 3%, hasta 81.67%. El modelo 123, incluyeademás los cc del motor (engine) como regresor con un aumento en R2despreciable (ahora 81.86%). En este modelo los tres coeficientes sonsignificativos. Si añadimos la variable accel, llegamos al modelo completo conR2 igual a 81.99%. El coeficiente de la última variable no es significativo.

8. Al ir incluyendo regresores en un modelo los residuos van disminuyendo y conello la variabilidad no explicada. La desviación típica residual también sueledisminuir (hay que tener en cuenta que el denominador de la varianza residualtambién disminuye). Los modelos 23, 123 y 1234 tienen una desviación típicaresidual muy parecida y próxima a 1.64 litros/100km. La interpretación(aproximada) es la siguiente (con el modelo 1234): si nos proporcionan los datosdel peso (weight), potencia (horse), cc (engine) y aceleración (accel) del cochela distribución de su consumo tiene media la proporcionada por el modelo ydesviación típica 1.64 litros/100km.

40Regresión Lineal

Ejemplo 2: Cerezos Negros

Se desea construir un modelo de regresión para obtener el volumen de madera de una “cerezo negro” en función de la altura del tronco y del diámetro del mismo a un metro sobre el suelo. Se ha tomado una muestra de 31 árboles. Las unidades de longitudes son pies y de volumen pies cúbicos.

41Regresión Lineal

Cerezos negros: Datos

Árbol Diametro Altura Volumen Árbol Diametro Altura Volumen1 8,3 70 10,30 17 12,9 85 33,802 8,6 65 10,30 18 13,3 86 27,403 8,8 63 10,20 19 13,7 71 25,704 10,5 72 16,40 20 13,8 64 24,905 10,7 81 18,80 21 14,0 78 34,506 10,8 83 19,70 22 14,2 80 31,707 11,0 66 15,60 23 14,5 74 36,308 11,0 75 18,20 24 16,0 72 38,309 11,1 80 22,60 25 16,3 77 42,6010 11,2 75 19,90 26 17,3 81 55,4011 11,3 79 24,20 27 17,5 82 55,7012 11,4 76 21,00 28 17,9 80 58,3013 11,4 76 21,40 29 18,0 80 51,5014 11,7 69 21,30 30 18,0 80 51,0015 12,0 75 19,10 31 20,6 87 77,0016 12,9 74 22,20

42Regresión Lineal

Gráficos x-y

1. Se aprecia relación entre las dos variables y el volumen2. El gráfico del volumen versus diámetro presenta ligera curvatura3. El gráfico del volumen versus altura presenta clara heterocedasticidad

43Regresión Lineal

Primer modelo:cerezos negros

ErrorAlturaDiametroVolumen 210 βββ

44Regresión Lineal

Diagnosis

Indicios de falta de linealidad

45Regresión Lineal

Transformación

errordiámetro)altura)vol)diámetroalturakvol

20

2

log(log(log( 1

46Regresión Lineal

Diagnosis (modelo transformado)

Antes

Ahora

47Regresión Lineal

Interpretación

Se comprueba gráficamente que la distribución de los residuos es compatible con las hipótesis de linealidad y homocedasticidad.El volumen está muy relacionada con la altura y el diámetro del árbol (R2= 97.77%)El modelo estimado

log(Vol) = -6.6 + 1.12 log(Alt) + 1.98 log(Diam.) + Error

es compatible con la ecuación vol=k Alt Diam2

La desviación típica residual es sR=0.081 que indica que el error relativo del modelo en la predicción del volumen es del 8.1%.

Ejemplo 3: Tabaco

48Regresión Lineal

Ejemplo “Tabaco” Monóxido de Carbono (CO)25 observaciones, 3 variables

Descripción: Se proporciona la producción de monóxido decarbono (co) y el contenido de nicotina (nico) y alquitrán(alq) en 25 marcas diferentes de cigarrillos americanos.

Fuente: Mendenhall, William, and Sincich, Terry (1992),Statistics for Engineering and the Sciences (3rd ed.), NewYork: (Original source: Federal Trade Commission, USA)

Variablesalq contenido en alquitrán mgnico contenido en nicotina mgco monóxido de carbono CO mg

Objetivo: Estudiar la relación entre CO con alquitrán y nicotina

CO ~ nico CO ~ alq

49Regresión Lineal

= 1.828= 85.74 = 1.397= 91.68

= 1.413= 91.86

El coeficiente de la variable “nico” cambia de 12.39 a -2.36.En el modelo con dos regresores, el coeficiente de la variable “nico” no es significativo.Los standard errors de los coeficientes en el modelo de dos regresores han aumentado considerablemente respecto a los de regresión simple. El de “nico” pasa de 1.05 a 3.78. El cambio para “alq” es mayor.Los estadísticos t se han reducido (debido al aumento de los standards errors)La desviación típica residual del modelo con dos regresores es mayor que en el modelo de regresión simple “CO ~ alq”

50Regresión Lineal

= 0.9537

Efecto de la multicolinealidad(alta correlación entre nico y alq)

Regresión con R

52Regresión Lineal

Interpretación (inicial)Contraste F=438 (p-valor=0.0000) Alguno de los regresores influye significativamente en el consumo.Contrastes individuales:

La potencia y el peso influyen significativamente (p-valor=0.0000)Para =0.05, la cilindrada y la aceleración también tienen efecto significativo (p-valor < 0.05)

El efecto de cualquier regresor es “positivo”, al aumentar cualquiera de ellos aumenta la variable respuesta: consumo.Los regresores explican el 82 % de la variabilidad del consumo (R2 = 0.8197)

53Regresión Lineal

Multicolinealidad

Cuando la correlación entre los regresores es alta. Presenta graves inconvenientes:

Empeora las estimaciones de los efectos de cada variable i: aumenta la varianza de las estimaciones y la dependencia de los estimadores) Dificulta la interpretación de los parámetros del modelo estimado (ver el caso de la aceleración en el ejemplo).

54Regresión Lineal

Identificación de la multicolinealidad: Matriz de correlación de los regresores.

55Regresión Lineal

Gráficos consumo - xi

peso

consum

o

500 1000 1500 20000

4

8

12

16

20

24

potencia

consum

o

0 40 80 120 160 200 2400

4

8

12

16

20

24

cilindrada

consu

mo

0 2 4 6 8(X 1000)

0

4

8

12

16

20

24

aceleracion

consum

o

8 11 14 17 20 23 260

4

8

12

16

20

24

56Regresión Lineal

Consumo y aceleración

57Regresión Lineal

Multicolinealidad: efecto en la varianza de los estimadores

)1(1

)1(

)1()1(1

)1(||

~~~~ˆˆ

var

22110

212

22

21221

12

21221

122

122112

1222

21

222112

211221

2212

122121

2

1

rsrssr

rssr

rsrss

sssrssrs

ssssn

iuixixy

XXXX

XXXXTT

i

SS

SSXXXX

)1()1(

)1()1(ˆˆ

var

212

22

2

21221

212

21221

212

212

21

2

2

1

rnsrsnsr

rsnsr

rns

58Regresión Lineal

Consecuencias de la multicolinealidadGran varianza de los estimadores Cambio importante en las estimaciones al eliminar o incluir regresores en el modeloCambio de los contrastes al eliminar o incluir regresores en el modelo.Contradicciones entre el contraste F y los contrastes individuales.

Regresión4. Regresión Múltiple: Variables

Cualitativas y Predicción

2Regresión Lineal

Consumo Cilindrada Potencia Peso Aceleración Origenl/100Km cc CV kg segundos

15 4982 150 1144 12 Europa16 6391 190 1283 9 Japón24 5031 200 1458 15 USA9 1491 70 651 21 Europa11 2294 72 802 19 Japón17 5752 153 1384 14 USA12 2294 90 802 20 Europa17 6555 175 1461 12 USA18 6555 190 1474 13 USA12 1147 97 776 14 Japón16 5735 145 1360 13 USA12 1868 91 860 14 Europa9 2294 75 847 17 USA... ... ... ... ... ...

Variables cualitativas como regresores

3Regresión Lineal

Variables cualitativas como regresores

Consumo = 0 + 1 CC + 2 Pot + 3 Peso +

+ 4 Acel + JAP ZJAP + USA ZUSA + Error

USAJapónEuropa

Origen

EUROPA siEUROPA si

USA siUSA si

JAPON siJAPON si

ii

iZ

ii

iZ

ii

iZ

EUR

USA

JAP

10

10

10

4Regresión Lineal

Consumo Cilindrada Potencia Peso Aceleración ZJAP ZUSA ZEURl/100Km cc CV kg segundos

15 4982 150 1144 12 0 0 116 6391 190 1283 9 1 0 024 5031 200 1458 15 0 1 09 1491 70 651 21 0 0 111 2294 72 802 19 1 0 017 5752 153 1384 14 0 1 012 2294 90 802 20 0 0 117 6555 175 1461 12 0 1 018 6555 190 1474 13 0 1 012 1147 97 776 14 1 0 016 5735 145 1360 13 0 1 012 1868 91 860 14 0 0 19 2294 75 847 17 0 1 0... ... ... ... ... ... ... ...

Variables cualitativas

Consumo = 0 + 1 CC + 2 Pot + 3 Peso +


5Regresión Lineal

Interpretación var. cualitativaConsumo = 0 + 1 CC + 2 Pot + 3 Peso +


• Coches europeos: ZJAP = 0 y ZUSA = 0 REFERENCIA

Consumo = 0 + 1 CC + 2 Pot + 3 Peso + 4 Acel + Error

• Coches japoneses: ZJAP =1 y ZUSA = 0

• Coches americanos: ZJAP =0 y ZUSA = 1

Consumo = 0 + JAP + 1 CC + 2 Pot + 3 Peso + 4 Acel + Error

Consumo = 0 + USA + 1 CC + 2 Pot + 3 Peso + 4 Acel + Error

6Regresión Lineal

Interpretación del modelo

0 + JAP

0

0 + USA

Europeos

Japoneses

Americanos

xi

yRef.

7Regresión Lineal

Modelo estimado (con R)

8Regresión Lineal

InterpretaciónSe introduce en el modelo la variable cualitativa ORIGEN del vehículo (USA=1, EUR=2,JAP=3). En el modelo se utiliza USA como referencia.El p-valor del coeficiente asociado a OrigenJAP es 0.1467 >.05, se concluye que no existe diferencia significativa entre el consumo de los coches Japoneses y Americanos (manteniendo constante el peso, cc, pot y acel.)La misma interpretación para OrigenEUR, no existe diferencia en el consumo de coches EUR y USA.Comparando R2 =0.8212 de este modelo con el anterior R2=0.8199, se confirma que el modelo con las variables de Origen no suponen una mejora sensible.

Body: Instrucciones con R

9Regresión Lineal

# ejemplo1 cars : modelo de regresión

> cars <- read.table("cars.txt",header=TRUE)> attach(cars)

> cons <- 235.1/mpg # transformamos la variable > Origen <- factor(origin,labels=c("USA","EUR","JAP")) # la instrucción “factor()” es necesaria# para introducir en el modelo de # regresión una variable cualitativa> m <- lm(cons ~ engine + horse + weight+ accel + Origen)> summary(m)

10Regresión Lineal

Modelo de regresión con variables cualitativas

En general, para considerar una variable cualitativa con r niveles, se introducen en la ecuación r-1 variables ficticias

Y el nivel r no utilizado es el que actúa de referencia

1110,,21

20,1110

121 ririzi

iziiz irii nivel

nivelnivelnivel

nivelnivel

iirrii

kikiiuzzz

xxy

acualitativ variable,112211

110

Ejemplo: BodyNombre: Body (Cuerpo Humano) Exploring Relationships in Body

Dimensions507 Observaciones, 25 Variables

Descripción: Este ejemplo contiene 21 medidas del cuerpo humano, ademásde la edad, peso, altura y género (mujeres = 0, hombres =1) de 507 individuos de los que 247 son hombres y 260 mujeres. Los datos fueronrecogidos entre personas que acudía frecuentemente al gimnasio en USA, la mayoría de ellos entre 20 y 40 años.

Fuente: Exploring Relationships in Body Dimensions, Grete Heinz,Louis J. Peterson,Roger W. Johnson , Carter J. Kerk, Journal of Statistics Education Volume 11, Number 2 (2003), www.amstat.org/publications/jse/v11n2/datasets.heinz.html

OBJETIVO: Relación entre el peso y altura diferenciando entre hombres y mujeres.

11Regresión Lineal

Body

12Regresión Lineal

Estatura Peso

Hombres 177.7cm 78.1 kg

Mujeres 164.9cm 60.6 kg

Diferencia 12.8 cm 17.5 kg

Weight = 0 + 1 Height + HOM ZHOM + Error

Weight = -56.9 + 0.713 Height + 8.366 ZHOM + Error

Interpretación

13Regresión Lineal

8.36 kg

A igualdad de ESTATURA, la diferencia de

PESO entre un hombre y una

mujer es8.36 kgFigura 2.1.

Body: Instrucciones con R

14Regresión Lineal

# body : modelo de regresión

> body <- read.table("body.txt",header=TRUE)> attach(body)> m.body<-lm(Weight~Height+Gender)> summary(m.body)

# figura 2.1

> plot(Height,Weight,col=Gender+2) # Gender +2 asigna el color rojo (2)# a mujeres y el verde (3) a los hombres

> abline(c(-56.949,0.7129),col = "red",lwd=2) # linea de regresión de mujeres> abline(c(-56.949+8.3659,0.7129),col = "green",lwd=2) # regresión hombres

FEV (Ejemplo 3)

15Regresión Lineal

Ejemplo “Fev” Forced Expiratory Volume (FEV)654 observaciones, 5 variables

Descripción: Es una muestra de 654 jóvenes entre 3 y 19 años recogidos en Boston(USA) a finales de los 70. Se desea ver la relación entre la capacidad pulmonar (FEV) yfumar. En este primer análisis estudiaremos la relación entre FEV y la estatura. En lalección de regresión múltiple estudiaremos el efecto del tabaco.

Fuente:Rosner, B. (1999), Fundamentals of Biostatistics, 5th Ed., Pacific Grove, CA: Duxbury

Variablesage años del individuofev variable continua en litrosht variable continua, estatura en pulgadassex cualitativa (mujer=0, hombre=1)smoke cualitativa (No-fumador=0, fumador=1)

age fev ht sex smoke1 9 1.708 57.0 0 02 8 1.724 67.5 0 03 7 1.720 54.5 0 04 9 1.558 53.0 1 05 9 1.895 57.0 1 06 8 2.336 61.0 0 0...

Tabla 6.1

Modelo de regresión

16Regresión Lineal

Log(fev) = 0 + 1 ht + 2 age + HOM ZHOM + HOM ZHOM + Error

Log(fev) = -1.9 + 0.042ht + 0.023age + 0.029 ZHOM – 0.046 ZFUM + Error

Interpretación

17Regresión Lineal

1. Todos los coeficientes son significativamente distintos de cero.2. A igualdad del resto de las variables, un aumento de 1cm en la

Estatura produce un incremento en fev del 4.2%3. A igualdad del resto de las variables, un aumento de 1 año en la

Edad produce un incremento en fev del 2.3%4. A igualdad del resto de las variables, los hombres tienen un 2.9%

más de fev que las mujeres.5. A igualdad del resto de las variables, los fumadores tienen un

4.6% menos de fev que los no-fumadores.

IMPORTANTE: El objetivo del estudio era cuantificar el efecto de fumar en la capacidad pulmonar de los jóvenes, el restos de lasvariables del modelo son necesarias (imprescindibles) paradetectar el efecto, aunque juegan un papel secundario.

fev: Instrucciones con R

18Regresión Lineal

# ejemplo 3: fev> pulmon <- read.table("fev.dat",header=TRUE)> attach(pulmon)> m.pulmon <- lm(log(fev) ~ ht + age + sex + smoke)> summary(m.pulmon)

# sex es una variable que toma valores 0,1# 0 mujeres# 1 hombres# # smoke es una variable 0,1, también 0 no fumador,# y 1 fumador## Cuando son variables 0,1 no es necesario convertirlas# en variables CUALITATIVAS o FACTOR utilizando la # instrucción # genero=factor(sex,labels=c(“Mujer”,”Hombre”))

19Regresión Lineal

Predicción

hx

hy

Media mh|xh Nueva Observ. yh|xh

hx

hm

hm

hy

hx

20Regresión Lineal

Predicción de la media mh(Regresión simple)

hx

hm

hx

hy

hhR vsthyhm ˆˆ 2/

))(1(12

2

x

hhh s

xxn

v

hx

hy

21Regresión Lineal

Predicción de la media mh(Regresión multiple)

hx

hm

hx

hy

hhR vsthyhm ˆˆ 2/

hx

hy

))()(1(1 1 xxSxx hxT

hhh nv

22Regresión Lineal

Intervalos de predicción para una nueva observación yh

hhR vsthyhy 1ˆˆ 2/

hx

hy

23Regresión Lineal

kk xxy ˆˆˆˆ 110

Límites de predicción

x

y hhR vsthyhy 1ˆˆ 2/

hhR vsthyhm ˆˆ 2/

Predicción

24Regresión Lineal

Weight = -56.9 + 0.713 Height + 8.366 ZHOM + Error

Peso predicho para el PESO MEDIO de hombre de 175cm

Pred_Weight = -56.9 + 0.713 x 175 + 8.366x 1 = 76.18 kg

Peso predicho para la media de la distribución del peso de las mujeres de 170cm de estatura

Pred_Weight = -56.9 + 0.713 x 170 + 8.366x 0 = 64.25 kg

Intervalos

25Regresión Lineal

Int. Confianza Previsto Lim. Inf Lim. SupHeight=175,Sexo = 1 76.19 75.04 77.33Height=170,Sexo = 0 64.25 63.03 65.47

Int. Predicción Previsto Lim. Inf Lim. SupHeight=175,Sexo = 1 76.19 58.85 93.51Height=170,Sexo = 0 64.25 49.92 81.59

95% confianza

Predicción: Instrucciones R

26Regresión Lineal

# ejemplo 3: fev> newbody <- data.frame(Height=170,Gender=0)> predict(m.body,newbody,interval="confidence")

fit lwr upr1 64.2563 63.03951 65.4731

> newbody <- data.frame(Height=170,Gender=0)> predict(m.body,newbody,interval="prediction")

fit lwr upr1 64.2563 46.92133 81.59128

> newbody <- data.frame(Height=175,Gender=1)> predict(m.body,newbody,interval="confidence")

fit lwr upr1 76.18717 75.04465 77.32969

> newbody <- data.frame(Height=175,Gender=1)> predict(m.body,newbody,interval="prediction")

fit lwr upr1 76.18717 58.85725 93.5171

Otros ejemplos con R

27Regresión Lineal

> newcar <- data.frame(horse=130,engine=180,accel=12,Origen="USA", weight=3000)> predict(m,newcar,interval="confidence")

fit lwr upr1 11.84055 11.47096 12.21014

> newboy <- data.frame(ht=160,age=17,sex=1,smoke=0)> predict(m.pulmon,newboy,interval="confidence")

fit lwr upr1 5.33023 5.041005 5.619455> newcars <- data.frame(horse=c(130,140,150)+ ,engine=c(180, 185, 190)+ ,accel=c(10,11,12)+ ,Origen=c("USA","JAP","EUR")+ ,weight=c(3000,2000,2500))> pred.w.clim <- predict(m,newcars,interval="confidence")> pred.w.clim

fit lwr upr1 11.67788 11.197035 12.158722 10.13996 9.440399 10.839523 11.62928 11.027327 12.23123

APÉNDICE: PREDICCIÓN

28Regresión Lineal

29Regresión Lineal

Predicción de la media mh(Regresión simple)

hh

hhxm

xNy

10

210 ),(

hx

hm

hx

hy

2

22

21

21

1010

110

)

]var[)])]ˆ

ˆ[)ˆ

(

ˆ(var[

(ˆvar[]var[

]ˆˆ[]

(ˆˆˆ

xh

h

hh

hhhh

hhh

nsxx

n

xxyxxyy

xxyExxyxy

mE

2

2)(1

2,ˆ

xs

xhxnhmNyh

30Regresión Lineal

Predicción de la media mh(Regresión múltiple)

hT

khkhh

hh

xxmmNy

'

),(

110

2

xβ

hx

hm

h'x

hy

hTT

hhh

hhhTT

h

hTT

hhT

h

hT

hT

hT

h

khhhT

hT

h

v

y

yE

y

v

EE

xxxh

'

'

']ˆ'ˆvar[]var[

'']ˆ[]'ˆ[]

),,,,1(','ˆ

1

221

21

)('

)('

var[']ˆ

ˆ[

ˆ

x

x

xβxβ

xβxβxβ

xxβ

XXx

XXx

x

hhhh vmNy 2,ˆ

31Regresión Lineal

Expresión alternativa para vhh

))()(1(

)~~

(,)()~~()(

)](ˆvar[)(]var[)](ˆvar[]ˆvar[

)(ˆˆ

12

212

xxSxx

XXSxxXXxx

xxbxxxxbxxb

hxT

h

T

xhTT

h

hT

hhT

h

hT

h

n

nn

yyy

yy

))()(1(1 1 xxSxx hxT

hhh nv nv

nv

hhh

hhh

/1/1

xxxx

32Regresión Lineal

Intervalos de confianza para la media mh

1

2

ˆ

)1,0(

ˆ

ˆ,ˆ

knhhR

hh

hh

hh

hhh

tvsm

Nvm

y

yvhmNy

hx

hy

))(1(12

2

x

hhh s

xxn

v

hhR vsthyhm ˆˆ 2/

))()(1(1 1 xxSxx hh xT

hh nv

Regresión simple

33Regresión Lineal

Predicción de una nueva observación yh (Reg.Simple)

hh

hh

xmmNy

10

2 ),(hx hx

hy

hh

hhh

hhh

hhh

hhhh

hh

v

yyeyEyEeE

yyevmNy

xy

22

210

]ˆvar[]var[]~var[0]ˆ[][]~[

ˆ~),(ˆ

ˆˆˆ

))1(,0(~ 2hhh vNe

hm

hy

34Regresión Lineal

Predicción de una nueva observación yh (Reg. Múltiple)

hx

hm

hx

hy

)1(]ˆvar[]var[]~var[0]ˆ[][]~[

ˆ~

),(ˆˆˆ

2

2

hhhhh

hhhhhh

hhhhhT

h

vyyeyEyEeE

yye

vmNyyy xb

))1(,0(~ 2hhh vNe

hy

35Regresión Lineal

Intervalos de predicción para una nueva observación yh

1

2

1ˆˆ

)1,0(1

ˆˆ~ )1(,0~

knhhR

hh

hh

hh

hhh

hhh

tvsy

Nvy

y

y

yye

vNe

hhR vsthyhy 1ˆˆ 2/

hx

hy

36Regresión Lineal

kk xxy ˆˆˆˆ 110

Límites de predicción

x

y hhR vsthyhy 1ˆˆ 2/

hhR vsthyhm ˆˆ 2/

37Regresión Lineal

Diagnosis: Residuos

)ˆˆˆ( 110 kikiii xxye

nkknnn

k

k

n e

ee

xxx

xxxxxx

y

yy

2

1

1

0

21

22212

12111

2

1

ˆ

ˆˆ

1

11

ResiduosPrevistosObservados

ˆ eβXY

38Regresión Lineal

Distribución de los residuos

V)(IV)(Y)(IV)(Ie0V)Xβ(IYV)(Ie

e

XX)X(XV

V)Y(IeIXβYT1T

2

2

var]var[][][

),(

EE

N

Normal

))1(,0(

),(

2iii vNe

N V)(I0e 2

39Regresión Lineal

Distancia de Mahalanobis

00

.()()(

2

2

12

i

i

ixT

ii

DD

D

xxxxxx

xxSxx

i

ii

a de distancia la Mide

s)Mahalanobi de Dist

TT

ii v

XX)X(XV 1

Vmatriz la de diagonales elementos los son

110)1(,1

22

,1

2

1ii

n

ijjijiiiiii

n

ijjijji

n

jijii v

nvvvvvvvv

))()(1(1')(' 11 xxSxxxXXx ixT

iiTT

iii nv

40Regresión Lineal

Residuos estandarizados

iivRsie

ir

eev

env

ve

iiiii

iiii

iii

1ˆ

adosestandariz Residuos

00)var(1 de lejos está Cuando

)var(/1 a próximo está Cuando

)1()var(

2

2

xx

xx

))1(,0( 2iii vNe

Modelos de regresion lineal

REGRESION SIMPLE

1. La tabla muestra los mejores tiempos mundiales en Juegos Olımpicos hasta 1976 en carreramasculina para distintas distancias.

y: tiempo (sg) 9.9 19.8 44.26 103.5 214.9 806.4 1658.4 7795x: distancia (m) 100 200 400 800 1500 5000 10000 42196

(a) Estimar la regresion lineal de y sobre x y calcular la varianza residual y el coeficientede correlacion.

(b) Obtener intervalos de confianza para la pendiente y varianza residual (α = 0.01).

(c) Analizar si la relacion lineal es adecuada, transformando las variables si es necesario.

(d) Supongase que en aquellas Olimpiadas hubiera existido una carrera de 500 metros.Estimar el tiempo previsto para el record olımpico en dicha carrera, dando un intervalode confianza con α = 0.05.

2. Segun la ecuacion de los gases ideales, la presion ejercida por un gas a volumen y temperaturaconstante es proporcional a la masa. Se puede utilizar el siguiente procedimiento para estimarel peso molecular de un gas. Se almacena el gas en un recipiente de volumen constante, y se vasoltando poco a poco gas, variando la presion, pero manteniendo la temperatura constante.En la tabla adjunta se proporcionan mediciones de la presion (con respecto a la atmosferica,1 atm = 14.7 psi) y de la masa del gas para el argon.

Presion (psi) Masa (g)52 1.02849 0.95644 0.88039 0.79334 0.72529 0.64525 0.59321 0.52619 0.50019 0.44211 0.3730 0.210

(a) Para estimar el peso molecular del argon a partir de los datos, se propone el siguientemodelo de regresion

Pi = β0 + β1mi + ui con ui ∼ N(0, σ2).

Estimar los parametros del modelo y contrastar si el termino independiente es signi-ficativo.

1

(b) Se considera el modelo alternativo

Pi = αmi + ui, con ui ∼ N(0, σ2).

Obtener el estimador de maxima verosimilitud del parametro α, ası como su varianza.

(c) Realizar el contraste H0 : α = 50 frente a H1 : α 6= 50 con nivel de significacion 0.05.

(d) Para el segundo modelo, obtener un intervalo de prediccion para la presion cuando lamasa es igual a 1 gramo.

(e) Obtener la varianza del estimador de E[Ph|mh], es decir del valor medio de la presionPh para una masa dada mh con ambos modelos. Si el modelo verdadero fuese el delprimer apartado, ¿que efecto tendrıa sobre la prediccion adoptar el modelo alternativo?

3. Sir Francis Galton (1877) estudio la relacion entre la estatura de una persona (y) y la estaturade sus padres (x) obteniendo las siguientes conclusiones:

(a) Existıa una correlacion positiva entre las dos variables.

(b) Las estaturas de los hijos cuyos padres medıan mas que la media era, en promedio,inferior a la de sus progenitores, mientras que los padres con estatura inferior a lamedia en promedio tenıan hijos mas altos que ellos, calificando este hecho como de”regresion” a la media.

Contrastar (α = 0.05) estas dos conclusiones con la ecuacion y = 17.8 + 0.91x resultante deestimar un modelo de regresion lineal entre las variables (en cm.) descritas anteriormentepara una muestra de tamano 100 si la desviacion tıpica (estimada) de β1 es 0.04.

4. La ley de Hubble sobre la expansion del universo establece que dadas dos galaxias la ve-locidad de desplazamiento de una respecto a la otra es v = Hd, siendo d su distancia y Hla constante de Hubble. La tabla proporciona la velocidad y la distancia de varias galaxiasrespecto a la Via Lactea. Se pide:

Galaxia Distancia Velocidad(millones anos luz) (103Km/s)

Virgo 22 1.21Pegaso 68 3.86Perseo 108 5.15Coma Berenices 137 7.56Osa Mayor 1 255 14.96Leo 315 19.31Corona Boreal 390 21.56Geminis 405 23.17Osa Mayor 2 700 41.83Hidra 1100 61.14

Tabla: Distancia y velocidad de desplazamiento de las distintas galaxias a la Via Lactea.

2

Nota: Observese que segun el modelo de Hubble la regresion debe pasar por el origen.Tomese 1 ano luz = 300 000 Km/seg x 31 536 000 seg = 9.46 1012 Km.

(a) Estimar por regresion la constante de Hubble.

(b) Como T = d/v = d/Hd = 1/H , la inversa de la constante de Hubble representa laedad estimada del Universo. Construir un intervalo de confianza del 95% para dichaedad .

5. Para establecer la relacion entre el alargamiento en mm (Y ) producido en un cierto materialplastico sometido a traccion y la tension aplicada en toneladas por cm2 (X) se realizaron 10experimentos cuyos resultados se muestran en la tabla

xi 0.20 0.50 0.60 0.70 0.90 1.00 1.20 1.50 1.60 1.70yi 23 20 33 45 67 52 86 74 98 102

Tabla: Alargamiento yi (mm) producidos por la tension xi (Tm/cm2).

(a) Ajustar el modelo de regresion lineal E(Y |x) = β0 + β1x y contrastar (α = 0.01) lahipotesis de que, en promedio, por cada Tm/cm2 de fuerza aplicada es de esperar unalargamiento de 50 milımetros, sabiendo que la desviacion tıpica residual vale 10.55.

(b) Si el lımite de elasticidad se alcanza cuando x = 2.2 Tm/cm2, construir un intervalode confianza al 95% para el alargamiento medio esperado en ese punto.

(c) Teniendo en cuenta que el alargamiento esperado cuando la fuerza aplicada es nuladebe ser nulo tambien, estimar el nuevo modelo E [Y |x] = βx con los datos anteriores¿Cual es el sesgo del estimador del parametro de la pendiente si se estima segun elmodelo del apartado 1?

6. Estimar por mınimos cuadrados los parametros a y b de la ecuacion y = a + bx2 con lamuestra de tres puntos siguientes (y, x) : (3, -1); (4, 0); (6,1).

7. La ecuacion de regresion entre las ventas de un producto y y su precio x es y = 320− 1.2x,sR = 2 y sy = 4. Si el numero de datos ha sido n = 50, contrastar H0 : β1

= −1 frente a laalternativa H1 : β1 < −1.

8. Se estudia la relacion entre el tiempo de reparacion (minutos) de ordenadores personales yel numero de unidades reparadas en ese tiempo por un equipo de mantenimiento con losresultados mostrados en la siguiente tabla

unidades reparadas 1 3 4 6 7 9 10tiempo de reparacion 23 49 74 96 109 149 154

Se pide:

3

(a) Construir la recta de regresion para prever el tiempo de reparacion y utilizarla paraconstruir un intervalo de confianza (α = 0.01) para el tiempo medio de reparacion de8 unidades.

(b) Construir un intervalo de confianza (α = 0.01) del tiempo de reparacion para un lotede 14 unidades.

(c) Si los tiempos de reparacion fuesen medias de 10 datos. ¿Cual serıa la recta de regresion?

REGRESION MULTIPLE

9. En la tabla se muestran los costes financieros mensuales en miles de euros (y) de 16 delega-ciones de una gestora de inversiones, ademas se proporciona el numero de nuevos prestamosdel mes (x1) y el numero de prestamos pendientes (x2).

n x1 x2 y1 80 8 22562 93 9 23403 100 10 24264 82 12 22935 90 11 23306 99 8 23687 81 8 22508 96 10 24099 94 12 236410 93 11 237911 97 13 244012 95 11 236413 100 8 240414 85 12 231715 86 9 230916 87 12 2328

(a) Estima la ecuacion de regresion

yi = β0+ β

1x1i + β

2x2i + ui con ui ∼ N(0, σ2)

incluyendo la varianza del modelo.

(b) Realizar los contrastes individuales e interpretar los coeficientes.

(c) Realiza el contraste general de regresion o contraste de la F. Proporciona el p-valor.

(d) Proporciona la tabla con valores previstos y residuos.

(e) Comprueba las hipotesis del modelo.

4

10. Los fabricantes que utilizan rodamientos en sus productos tienen interes en la fiabilidad deestos componentes. La medida basica de fiabilidad se denomina rating life, y consiste en elnumero de revoluciones que soporta el 90% de los rodamientos antes de la fractura, a estose denota por L10. Los modelos teoricos indica que este valor esta relacionado con la carga(P) a la que se somete el rodamiento, el diametro (D) del rodamiento y el numero de bolas(Z) del mismo, mediante la ecuacion:

L10 =

(

kZaDb

P

)3

.

Se desea comprobar experimentalmente esta ecuacion, para lo cual se realizo un experimentocon rodamientos de distintos fabricantes y tipos. Los datos se encuentran en el archivo(ballbearing.txt), en la tabla 1 se muestra los 10 primeros datos. La informacion que contienees la siguiente:

Com: Codigo de empresa 1, 2, and 3

N: Numero de ensayo (en cada empresa)

Year: Ano del ensayo NA = No disponible

NB : Numero de Rodamiento

P: Carga

Z: Numero de bolas

D: Diametro

L10: Percentil 10

L50: Percentil 50

Slope: Parametro de la distribucion Weibull

Btype: Tipo de rodamiento 1, 2, y 3 in la empresa 2; 0 en los demas casos.

Com N Year NB P Z D L10 L50 Slope Btype1 1 1936 24 4240 8 .68750 19.200 84.50 1.27 01 2 1937 20 4240 8 .68750 26.200 74.20 1.81 01 3 1937 14 4240 8 .68750 11.100 68.10 1.04 01 4 1937 19 4240 8 .68750 11.800 66.80 1.09 01 5 1937 18 4240 8 .68750 13.500 79.40 1.06 01 6 1938 21 2530 9 .50000 5.800 25.70 1.27 01 7 1938 28 4240 8 .68750 18.300 44.70 2.10 01 8 1938 27 4240 8 .68750 5.620 73.20 0.73 01 9 1940 20 4240 8 .68750 15.800 82.70 1.14 01 10 1940 22 4240 8 .68750 8.700 41.60 1.20 0· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·

5

(a) Estima el modelo

log(L10i) = β0 + β1 log(Zi) + β2 log(Di) + β3 log(Pi) + ui con ui ∼ N(0, σ2),

y realiza los contrastes individuales y el contraste general.

(b) Segun el modelo, β3= −3. Realiza el contraste

H0 : β3= −3

H1 : β3 6= −3

Proporciona el p-valor del contraste.

(c) Da un intervalo de confianza para los parametros a y b del modelo teorico.

(d) Se definen las variables ficticias T2 y T3 para identificar los rodamientos tipo 2 y 3 delsegundo fabricante (informacion en la variable Btype). Estima e interpreta el siguientemodelo de regresion:

log(L10i) = β0+ β

1log(Zi) + β

2log(Di) + β

3log(Pi) +

α2T2i + γ2T2i × log(Zi) + δ2T2i × log(Di) +

α3T3i + γ3T3i × log(Zi) + δ3T3i × log(Di) + ui

(e) Compara el modelo del apartado 1 con el modelo del apartado 4.

11. La matriz de varianzas de tres variables estandarizadas es la siguiente

1 0.8 0.60.8 1 0.20.6 0.2 1

Calcular la ecuacion de regresion de la primera variable respecto a las otras dos.

12. Dos variables x1 y x2 tienen la siguiente matriz de varianzas(

1 0.50.5 1

)

y las regresiones simples con y son y = 0.75x1 ; y = 0.6x2. Calcular la regresion multipleentre y y las dos variables x1, x2 sabiendo que la variable y tiene media cero y varianzaunidad.

13. Para establecer la relacion entre el voltaje de unas baterıas y la temperatura de fun-cionamiento se han hecho unos experimentos cuyos resultados se muestran en la siguientetabla

Baterıa 1 2 3 4 5 6 7 8Temperatura 10 10 20 20 30 30 40 40

Voltaje 7.2 7.7 7.3 7.4 7.7 9.4 9.3 10.8

6

Se pide:

(a) Contrastar la hipotesis (α = 0.05) de que no existe relacion lineal entre el voltaje y latemperatura.

(b) Las lecturas 1,3,5 y 7 fueron realizadas con unas baterıas de Cadmio y las 2,4, 6 y 8 conbaterıas de Zinc. Introducir en el analisis anterior una variable cualitativa que tengaen cuenta los dos tipos de baterıas y contrastar si es significativa al 95%.

(c) Dar un intervalo de confianza para el voltaje de una baterıa de Cadmio que va a trabajara 35◦ centıgrados. (Utilizar el modelo estimado en el apartado 2).

(d) Comprobar que se cumplen las hipotesis del modelo construido en los apartados ante-riores.

14. La variable y se relaciona con las variables x1 y x2 segun el modelo E(y) = β0+β1x1+β2x2;no obstante se estima el siguiente modelo de regresion que no incluye la variable x2

yi = β0+ β

1x1i.

Justificar en que condiciones el estimador β1 es centrado.

15. Se efectua una regresion con dos variables explicativas E[y] = β0+ β

1x1 + β

2x2. La matriz

de varianzas de x1 y x2 es

[

2 11 3

]

¿Cual de los dos estimadores β1 y β2 tendra menor varianza?

16. Con los datos de la tabla, se pide:

x -2 -2 -1 -1 0 0 1 1 2 2 3 3y 1.1 1.3 2.0 2.1 2.7 2.8 3.4 3.6 4.0 3.9 3.8 3.6

(a) Estimar un modelo de regresion simple con y como variable dependiente y x comoregresor. Indicar si el modelo es apropiado, justificando la respuesta.

(b) Estimar el modeloyi = β0 + β1xi + β2x

2

i + ui

y realizar el contraste H0 : β2 = 0.

(c) Estimar el modeloyi = β

0+ β

1xi + β

2x2

i + β3x3

i + ui

Realizar el contraste general de regresion con α = 0.01. Seleccionar entre los tres elmodelo mas adecuado, justificando la respuesta.

7

17. Una de las etapas de fabricacion de circuitos impresos requiere perforar las placas y recubrirlos orificios con una lamina de cobre mediante electrolisis. Una caracterıstica esencial delproceso es el grosor de la capa de cobre. Se han realizado 12 experimentos para evaluarel efecto de 7 variables, X1: Concentracion de Cobre, X2: Concentracion de Cloruro, X3:Concentracion de Acido, X4: Temperatura, X5: Intensidad, X6: Posicion y X7: Superficiede la placa. Cada variable se ha estudiado a dos niveles. Las condiciones experimentales ylos resultados de cada experimento se muestran en la tabla.

X1 X2 X3 X4 X5 X6 X7 Y1 1 -1 1 1 1 -1 2.131 -1 1 1 1 -1 -1 2.15-1 1 1 1 -1 -1 -1 1.671 1 1 -1 -1 -1 1 1.531 1 -1 -1 -1 1 -1 1.491 -1 -1 -1 1 -1 1 1.78-1 -1 -1 1 -1 1 1 1.80-1 -1 1 -1 1 1 -1 1.93-1 1 -1 1 1 -1 1 2.191 -1 1 1 -1 1 1 1.61-1 1 1 -1 1 1 1 1.70-1 -1 -1 -1 -1 -1 -1 1.43

Responder a las siguientes preguntas aplicando el modelo de regresion multiple: matrizidentidad de 8× 8.

(a) Estimar el modelo de regresion multiple

yi = β0 + β1x1i + β2x2i + β3x3i + β4x4i + β5x5i + β6x6i + β7x7i + ui.

Obtener la descomposicion de la variabilidad del modelo y realizar el contraste

H0 : β1 = β2 = β3 = β4 = β5 = β6 = β7 = 0

frente a la hipotesis alternativa H1: algun βj es distinto de cero.

(b) Realizar cada uno de los contrastes individuales e indicar que variables tienen efectosignificativo.

(c) Eliminar del modelo del apartado 1 todas las variables no significativas. Estimar elmodelo y contrastar sus coeficientes. Interpretar los resultados del experimento.

18. El molibdeno se anade a los aceros para evitar su oxidacion, pero en instalaciones nuclearespresenta el inconveniente de ser el causante de gran parte de los productos radioactivos. Seha realizado un experimento para determinar el grado de oxidacion del acero en funcion delporcentaje de molibdeno. Ademas se ha tenido en cuenta el efecto del tipo de refrigeranteutilizado (R1, R2). Los resultados se muestran en la tabla.

8

Molibdeno (%)Refrig. 0.5% 1% 1.5% 2% MediasR1 26.2 23.4 20.3 23.3 23.3R2 34.8 31.7 29.4 26.9 30.7R1 33.2 31.3 28.6 29.3 30.6R2 43.0 40.0 31.7 33.3 37.0

Media 34.3 31.6 27.5 28.2 30.4

(a) Escribir un modelo de regresion que incluya el porcentaje de molibdeno y el tipo de re-frigerante como regresores; estimar el modelo e indicar que parametros son significativos(α = 0.05)).

(b) Los experimentos relativos a las dos primeras filas se realizaron en un tipo de instalaciony los correspondientes a las dos ultimas en otra distinta. Escribir un nuevo modelo queincluya este aspecto. Comprobar que este nuevo regresor esta incorrelado con los dosanteriores. Estimar el nuevo modelo.

(c) Demostrar que en un modelo con los regresores incorrelados, la eliminacion de unode ellos no influye en el valor de los estimadores βi, (i 6= 0) restantes. ¿ Influye enla varianza residual y en los contrastes ? Explicar este efecto en funcion de que elparametro β del regresor eliminado sea o no nulo.

19. Sea x1 la altura del tronco de un arbol y x2 el diametro del mismo en su parte inferior. Elvolumen y del tronco de arbol puede ser calculado aproximadamente con el modelo

yi = αx1ix2

2i + ui,

segun el cual, el volumen del tronco es proporcional al volumen de un cono con las medidasx1i, x2i, siendo α el parametro (desconocido) de proporcionalidad, mas una componentede error aleatorio ui. La tabla siguiente contiene los datos (en metros y metros cubicos)correspondientes a una muestra aleatoria de 15 troncos de una variedad de pino.

Obs. x1i x2i yi1 10,1 0,117 0,0622 11,3 0,130 0,0853 20,4 0,142 0,2044 14,9 0,193 0,2275 23,8 0,218 0,4706 19,5 0,236 0,4847 21,6 0,257 0,6238 22,9 0,269 0,7229 19,8 0,297 0,82110 26,8 0,328 1,28011 21,0 0,351 1,03412 27,4 0,376 1,67913 29,0 0,389 2,07314 27,4 0,427 2,02215 31,7 0,594 4,630

9

(a) Estimar α por maxima verosimilitud suponiendo que las variables ui tienen distribucionnormal de media cero, con la misma varianza e independientes.

(b) Un tronco tiene una altura de 20 metros y un diametro de 0.25 metros, dar un intervalode prediccion de su volumen (95% de confianza).

(c) En el analisis de los residuos se observa que la varianza de los errores crece con elvolumen del tronco. Para obtener homocedasticidad se propone el siguiente modelotransformado utilizando logaritmos neperianos,

log yi = β0+ β

1log x1i + β

2log x2i + ui

Contrastar (nivel de significacion 0.05) si estos dos valores son aceptables.

(d) Con este modelo, dar un intervalo de prediccion (95% de confianza) para el volumendel tronco del apartado 2.

20. Ciertas propiedades del acero se mejoran sumergiendolo a alta temperatura (T0 = 1525oF ) en un bano templado de aceite (t0 = 95 oF ). Para determinar la influencia de lastemperaturas del acero y del bano de aceite en las propiedades finales del material se hanelegido tres valores de la temperatura del acero y tres del bano de aceite,

Temperatura acero (T )

1450 oF1525 oF1600 oF

Temperatura aceite (t)

70 oF95 oF120 oF

y se han realizado los siguientes experimentos:

x1i 0 0 0 0 -1 1 -1 1 0 0 -1 1x2i 0 0 0 0 -1 -1 1 1 -1 1 0 0yi 49.2 49.4 47.0 49.5 28.2 88.6 54.9 31.3 59.2 43.6 41.9 58.0

donde se ha utilizado la siguiente transformacion (para simplificar calculos)

x1i =Ti − 1525

75y x2i =

ti − 95

25.

Estimar el modelo de regresion

yi = β0+ β

1x1i + β

2x2i + β

3x1ix2i + ui

e indicar que parametros son significativos para nivel de significacion 0.05. Estimar y con-trastar el modelo anterior empleando las variables originales Ti y ti.

10

00,01

0,02

0,03

0,04

0,05

0,06

0,07

0,08

0,09

0,0

.5000

.5040

.5080

.5120

.5160

.5199

.5239

.5279

.5319

.5359

0,1

.5398

.5438

.5478

.5517

.5557

.5596

.5636

.5675

.5714

.5753

0,2

.5793

.5832

.5871

.5910

.5948

.5987

.6026

.6064

.6103

.6141

0,3

.6179

.6217

.6255

.6293

.6331

.6368

.6406

.6443

.6480

.6517

0,4

.6554

.6591

.6628

.6664

.6700

.6736

.6772

.6808

.6844

.6879

0,5

.6915

.6950

.6985

.7019

.7054

.7088

.7123

.7157

.7190

.7224

0,6

.7257

.7291

.7324

.7357

.7389

.7422

.7454

.7486

.7517

.7549

0,7

.7580

.7611

.7642

.7673

.7704

.7734

.7764

.7794

.7823

.7852

0,8

.7881

.7910

.7939

.7967

.7995

.8023

.8051

.8078

.8106

.8133

0,9

.8159

.8186

.8212

.8238

.8264

.8289

.8315

.8340

.8365

.8389

1,0

.8413

.8438

.8461

.8485

.8508

.8531

.8554

.8577

.8599

.8621

1,1

.8643

.8665

.8686

.8708

.8729

.8749

.8770

.8790

.8810

.8830

1,2

.8849

.8869

.8888

.8907

.8925

.8944

.8962

.8980

.8997

.9015

1,3

.9032

.9049

.9066

.9082

.9099

.9115

.9131

.9147

.9162

.9177

1,4

.9192

.9207

.9222

.9236

.9251

.9265

.9279

.9292

.9306

.9319

1,5

.9332

.9345

.9357

.9370

.9382

.9394

.9406

.9418

.9429

.9441

1,6

.9452

.9463

.9474

.9484

.9495

.9505

.9515

.9525

.9535

.9545

1,7

.9554

.9564

.9573

.9582

.9591

.9599

.9608

.9616

.9625

.9633

1,8

.9641

.9649

.9656

.9664

.9671

.9678

.9686

.9693

.9699

.9706

1,9

.9713

.9719

.9726

.9732

.9738

.9744

.9750

.9756

.9761

.9767

2,0

.9772

.9778

.9783

.9788

.9793

.9798

.9803

.9808

.9812

.9817

2,1

.9821

.9826

.9830

.9834

.9838

.9842

.9846

.9850

.9854

.9857

2,2

.9861

.9864

.9868

.9871

.9875

.9878

.9881

.9884

.9887

.9890

2,3

.9893

.9896

.9898

.9901

.9904

.9906

.9909

.9911

.9913

.9916

2,4

.9918

.9920

.9922

.9925

.9927

.9929

.9931

.9932

.9934

.9936

2,5

.9938

.9940

.9941

.9943

.9945

.9946

.9948

.9949

.9951

.9952

2,6

.9953

.9955

.9956

.9957

.9959

.9960

.9961

.9962

.9963

.9964

2,7

.9965

.9966

.9967

.9968

.9969

.9970

.9971

.9972

.9973

.9974

2,8

.9974

.9975

.9976

.9977

.9977

.9978

.9979

.9979

.9980

.9981

2,9

.9981

.9982

.9982

.9983

.9984

.9984

.9985

.9985

.9986

.9986

3,0

.9987

.9987

.9987

.9988

.9988

.9989

.9989

.9989

.9990

.9990

z

N(0,1)

)(

zZ

P≤

z

9750

.0)

96.1(Ejem

plo.

=≤

ZP

TABLA

Nor

mal

Es

tand

ar

z0,00

0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,08

0,09

3,1

.9990323

.9990645

.9990957

.9991259

.9991552

.9991836

.9992111

.9992377

.9992636

.9992886

3,2

.9993128

.9993363

.9993590

.9993810

.9994023

.9994229

.9994429

.9994622

.9994809

.9994990

3,3

.9995165

.9995335

.9995499

.9995657

.9995811

.9995959

.9996102

.9996241

.9996375

.9996505

3,4

.9996630

.9996751

.9996868

.9996982

.9997091

.9997197

.9997299

.9997397

.9997492

.9997584

3,5

.9997673

.9997759

.9997842

.9997922

.9997999

.9998073

.9998145

.9998215

.9998282

.9998346

3,6

.9998409

.9998469

.9998527

.9998583

.9998636

.9998688

.9998739

.9998787

.9998834

.9998878

3,7

.9998922

.9998963

.9999004

.9999042

.9999080

.9999116

.9999150

.9999184

.9999216

.9999247

3,8

.9999276

.9999305

.9999333

.9999359

.9999385

.9999409

.9999433

.9999456

.9999478

.9999499

3,9

.9999519

.9999538

.9999557

.9999575

.9999592

.9999609

.9999625

.9999640

.9999655

.9999669

4,0

.9999683

.9999696

.9999709

.9999721

.9999733

.9999744

.9999755

.9999765

.9999775

.9999784

Bin

omia

ln,p

Poiss

onλ

Nor

mal

µ,σ

0,

→∞

→p

nnp

=λ

λσ

λµλ

==∞

→

)1(2/1

pnp

nppn

−==→∞

→

σµ

Dis

tribu

ción

nor

mal

est

ánda

r(co

ntin

uaci

ón)

Rel

ació

n en

tre B

inom

ial,

Pois

son

y N

orm

al

N(0,1)

)(

zZ

P≤

z

Tabl

a χ

2

α

ν: g

rado

s de

liber

tad

(g.l.

)

χ ν,α

EJEM

PLO

P(χ 9≥

19,0

2) =

0,0

25

g.l.

0,995

0,990

0,975

0,950

0,500

0,050

0,025

0,010

0,005

1,00004

,00016

,00098

,00393

0,455

3,841

5,024

6,635

7,879

2,01002

,0201

0,051

0,103

1,386

5,991

7,378

9,210

10,60

3,0717

0,115

0,216

0,352

2,366

7,815

9,348

11,34

12,84

40,207

0,297

0,484

0,711

3,357

9,488

11,14

13,28

14,86

50,412

0,554

0,831

1,145

4,351

11,07

12,83

15,09

16,75

60,676

0,872

1,237

1,635

5,348

12,59

14,45

16,81

18,55

70,989

1,239

1,690

2,167

6,346

14,07

16,01

18,48

20,28

81,344

1,647

2,180

2,733

7,344

15,51

17,53

20,09

21,95

91,735

2,088

2,700

3,325

8,343

16,92

19,02

21,67

23,59

102,156

2,558

3,247

3,940

9,342

18,31

20,48

23,21

25,19

112,603

3,053

3,816

4,575

10,341

19,68

21,92

24,73

26,76

123,074

3,571

4,404

5,226

11,340

21,03

23,34

26,22

28,30

133,565

4,107

5,009

5,892

12,340

22,36

24,74

27,69

29,82

144,075

4,660

5,629

6,571

13,339

23,68

26,12

29,14

31,32

154,601

5,229

6,262

7,261

14,339

25,00

27,49

30,58

32,80

165,142

5,812

6,908

7,962

15,338

26,30

28,85

32,00

34,27

175,697

6,408

7,564

8,672

16,338

27,59

30,19

33,41

35,72

186,265

7,015

8,231

9,390

17,338

28,87

31,53

34,81

37,16

196,844

7,633

8,907

10,117

18,338

30,14

32,85

36,19

38,58

207,434

8,260

9,591

10,851

19,337

31,41

34,17

37,57

40,00

218,034

8,897

10,283

11,591

20,337

32,67

35,48

38,93

41,40

228,643

9,542

10,982

12,338

21,337

33,92

36,78

40,29

42,80

239,260

10,196

11,689

13,091

22,337

35,17

38,08

41,64

44,18

249,886

10,856

12,401

13,848

23,337

36,42

39,36

42,98

45,56

2510,520

11,524

13,120

14,611

24,337

37,65

40,65

44,31

46,93

2611,160

12,198

13,844

15,379

25,336

38,89

41,92

45,64

48,29

2711,808

12,878

14,573

16,151

26,336

40,11

43,19

46,96

49,65

2812,461

13,565

15,308

16,928

27,336

41,34

44,46

48,28

50,99

2913,121

14,256

16,047

17,708

28,336

42,56

45,72

49,59

52,34

3013,787

14,953

16,791

18,493

29,336

43,77

46,98

50,89

53,67

4020,707

22,164

24,433

26,509

39,335

55,76

59,34

63,69

66,77

5027,991

29,707

32,357

34,764

49,335

67,50

71,42

76,15

79,49

6035,534

37,485

40,482

43,188

59,335

79,08

83,30

88,38

91,95

7043,275

45,442

48,758

51,739

69,334

90,53

95,02

100,43

104,21

8051,172

53,540

57,153

60,391

79,334

101,88

106,63

112,33

116,32

9059,196

61,754

65,647

69,126

89,334

113,15

118,14

124,12

128,30

100

67,328

70,065

74,222

77,929

99,334

124,34

129,56

135,81

140,17

120

83,852

86,923

91,573

95,705

119,334

146,57

152,21

158,95

163,65

α

g.l

0,20

0,15

0,10

0,05

0,025

0,01

0,005

0,0025

0,001

0,0005

11,376

1,963

3,078

6,314

12,706

31,821

63,656

127,321

318,289

636,578

21,061

1,386

1,886

2,920

4,303

6,965

9,925

14,089

22,328

31,600

30,978

1,250

1,638

2,353

3,182

4,541

5,841

7,453

10,214

12,924

40,941

1,190

1,533

2,132

2,776

3,747

4,604

5,598

7,173

8,610

50,920

1,156

1,476

2,015

2,571

3,365

4,032

4,773

5,894

6,869

60,906

1,134

1,440

1,943

2,447

3,143

3,707

4,317

5,208

5,959

70,896

1,119

1,415

1,895

2,365

2,998

3,499

4,029

4,785

5,408

80,889

1,108

1,397

1,860

2,306

2,896

3,355

3,833

4,501

5,041

90,883

1,100

1,383

1,833

2,262

2,821

3,250

3,690

4,297

4,781

100,879

1,093

1,372

1,812

2,228

2,764

3,169

3,581

4,144

4,587

110,876

1,088

1,363

1,796

2,201

2,718

3,106

3,497

4,025

4,437

120,873

1,083

1,356

1,782

2,179

2,681

3,055

3,428

3,930

4,318

130,870

1,079

1,350

1,771

2,160

2,650

3,012

3,372

3,852

4,221

140,868

1,076

1,345

1,761

2,145

2,624

2,977

3,326

3,787

4,140

150,866

1,074

1,341

1,753

2,131

2,602

2,947

3,286

3,733

4,073

160,865

1,071

1,337

1,746

2,120

2,583

2,921

3,252

3,686

4,015

170,863

1,069

1,333

1,740

2,110

2,567

2,898

3,222

3,646

3,965

180,862

1,067

1,330

1,734

2,101

2,552

2,878

3,197

3,610

3,922

190,861

1,066

1,328

1,729

2,093

2,539

2,861

3,174

3,579

3,883

200,860

1,064

1,325

1,725

2,086

2,528

2,845

3,153

3,552

3,850

210,859

1,063

1,323

1,721

2,080

2,518

2,831

3,135

3,527

3,819

220,858

1,061

1,321

1,717

2,074

2,508

2,819

3,119

3,505

3,792

230,858

1,060

1,319

1,714

2,069

2,500

2,807

3,104

3,485

3,768

240,857

1,059

1,318

1,711

2,064

2,492

2,797

3,091

3,467

3,745

250,856

1,058

1,316

1,708

2,060

2,485

2,787

3,078

3,450

3,725

260,856

1,058

1,315

1,706

2,056

2,479

2,779

3,067

3,435

3,707

270,855

1,057

1,314

1,703

2,052

2,473

2,771

3,057

3,421

3,689

280,855

1,056

1,313

1,701

2,048

2,467

2,763

3,047

3,408

3,674

290,854

1,055

1,311

1,699

2,045

2,462

2,756

3,038

3,396

3,660

300,854

1,055

1,310

1,697

2,042

2,457

2,750

3,030

3,385

3,646

400,851

1,050

1,303

1,684

2,021

2,423

2,704

2,971

3,307

3,551

500,849

1,047

1,299

1,676

2,009

2,403

2,678

2,937

3,261

3,496

600,848

1,045

1,296

1,671

2,000

2,390

2,660

2,915

3,232

3,460

700,847

1,044

1,294

1,667

1,994

2,381

2,648

2,899

3,211

3,435

800,846

1,043

1,292

1,664

1,990

2,374

2,639

2,887

3,195

3,416

900,846

1,042

1,291

1,662

1,987

2,368

2,632

2,878

3,183

3,402

100

0,845

1,042

1,290

1,660

1,984

2,364

2,626

2,871

3,174

3,390

infinito

0,842

1,036

1,282

1,645

1,960

2,327

2,576

2,808

3,091

3,291

0,20

0,15

0,10

0,05

0,025

0,01

0,005

0,0025

0,001

0,0005

Tabl

a

t-Stu

dent

α

α

ν: g

rado

s de

liber

tad

(g.l.

)

t ν,α

EJEM

PLO

P(t 9≥

2,26

2) =

0,0

25

Grados de libertad del denominador: ν2

Gra

dos d

e l ib

erta

d de

l nu m

erad

o r: ν

1α

=0.0

5Ta

bla

Fα

αν

νν

να

νν

=≥

⇒)

(,

,,

,,

21

21

21

FF

PF

05.0)

50.3(

:8,7

=≥

FP

Ejem

plo

12

34

56

78

910

1215

2024

3040

60100

120

Inf.

1161,4

199,5

215,7

224,6

230,2

234,0

236,8

238,9

240,5

241,9

243,9

245,9

248,0

249,1

250,1

251,1

252,2

253,0

253,3

254,3

12

18,51

19,00

19,16

19,25

19,30

19,33

19,35

19,37

19,38

19,40

19,41

19,43

19,45

19,45

19,46

19,47

19,48

19,49

19,49

19,50

23

10,13

9,55

9,28

9,12

9,01

8,94

8,89

8,85

8,81

8,79

8,74

8,70

8,66

8,64

8,62

8,59

8,57

8,55

8,55

8,53

34

7,71

6,94

6,59

6,39

6,26

6,16

6,09

6,04

6,00

5,96

5,91

5,86

5,80

5,77

5,75

5,72

5,69

5,66

5,66

5,63

45

6,61

5,79

5,41

5,19

5,05

4,95

4,88

4,82

4,77

4,74

4,68

4,62

4,56

4,53

4,50

4,46

4,43

4,41

4,40

4,37

56

5,99

5,14

4,76

4,53

4,39

4,28

4,21

4,15

4,10

4,06

4,00

3,94

3,87

3,84

3,81

3,77

3,74

3,71

3,70

3,67

67

5,59

4,74

4,35

4,12

3,97

3,87

3,79

3,73

3,68

3,64

3,57

3,51

3,44

3,41

3,38

3,34

3,30

3,27

3,27

3,23

78

5,32

4,46

4,07

3,84

3,69

3,58

3,50

3,44

3,39

3,35

3,28

3,22

3,15

3,12

3,08

3,04

3,01

2,97

2,97

2,93

89

5,12

4,26

3,86

3,63

3,48

3,37

3,29

3,23

3,18

3,14

3,07

3,01

2,94

2,90

2,86

2,83

2,79

2,76

2,75

2,71

910

4,96

4,10

3,71

3,48

3,33

3,22

3,14

3,07

3,02

2,98

2,91

2,85

2,77

2,74

2,70

2,66

2,62

2,59

2,58

2,54

1011

4,84

3,98

3,59

3,36

3,20

3,09

3,01

2,95

2,90

2,85

2,79

2,72

2,65

2,61

2,57

2,53

2,49

2,46

2,45

2,40

1112

4,75

3,89

3,49

3,26

3,11

3,00

2,91

2,85

2,80

2,75

2,69

2,62

2,54

2,51

2,47

2,43

2,38

2,35

2,34

2,30

1213

4,67

3,81

3,41

3,18

3,03

2,92

2,83

2,77

2,71

2,67

2,60

2,53

2,46

2,42

2,38

2,34

2,30

2,26

2,25

2,21

1314

4,60

3,74

3,34

3,11

2,96

2,85

2,76

2,70

2,65

2,60

2,53

2,46

2,39

2,35

2,31

2,27

2,22

2,19

2,18

2,13

1415

4,54

3,68

3,29

3,06

2,90

2,79

2,71

2,64

2,59

2,54

2,48

2,40

2,33

2,29

2,25

2,20

2,16

2,12

2,11

2,07

1516

4,49

3,63

3,24

3,01

2,85

2,74

2,66

2,59

2,54

2,49

2,42

2,35

2,28

2,24

2,19

2,15

2,11

2,07

2,06

2,01

1617

4,45

3,59

3,20

2,96

2,81

2,70

2,61

2,55

2,49

2,45

2,38

2,31

2,23

2,19

2,15

2,10

2,06

2,02

2,01

1,96

1718

4,41

3,55

3,16

2,93

2,77

2,66

2,58

2,51

2,46

2,41

2,34

2,27

2,19

2,15

2,11

2,06

2,02

1,98

1,97

1,92

1819

4,38

3,52

3,13

2,90

2,74

2,63

2,54

2,48

2,42

2,38

2,31

2,23

2,16

2,11

2,07

2,03

1,98

1,94

1,93

1,88

1920

4,35

3,49

3,10

2,87

2,71

2,60

2,51

2,45

2,39

2,35

2,28

2,20

2,12

2,08

2,04

1,99

1,95

1,91

1,90

1,84

2021

4,32

3,47

3,07

2,84

2,68

2,57

2,49

2,42

2,37

2,32

2,25

2,18

2,10

2,05

2,01

1,96

1,92

1,88

1,87

1,81

2122

4,30

3,44

3,05

2,82

2,66

2,55

2,46

2,40

2,34

2,30

2,23

2,15

2,07

2,03

1,98

1,94

1,89

1,85

1,84

1,78

2223

4,28

3,42

3,03

2,80

2,64

2,53

2,44

2,37

2,32

2,27

2,20

2,13

2,05

2,01

1,96

1,91

1,86

1,82

1,81

1,76

2324

4,26

3,40

3,01

2,78

2,62

2,51

2,42

2,36

2,30

2,25

2,18

2,11

2,03

1,98

1,94

1,89

1,84

1,80

1,79

1,73

2425

4,24

3,39

2,99

2,76

2,60

2,49

2,40

2,34

2,28

2,24

2,16

2,09

2,01

1,96

1,92

1,87

1,82

1,78

1,77

1,71

2526

4,23

3,37

2,98

2,74

2,59

2,47

2,39

2,32

2,27

2,22

2,15

2,07

1,99

1,95

1,90

1,85

1,80

1,76

1,75

1,69

2627

4,21

3,35

2,96

2,73

2,57

2,46

2,37

2,31

2,25

2,20

2,13

2,06

1,97

1,93

1,88

1,84

1,79

1,74

1,73

1,67

2728

4,20

3,34

2,95

2,71

2,56

2,45

2,36

2,29

2,24

2,19

2,12

2,04

1,96

1,91

1,87

1,82

1,77

1,73

1,71

1,65

2829

4,18

3,33

2,93

2,70

2,55

2,43

2,35

2,28

2,22

2,18

2,10

2,03

1,94

1,90

1,85

1,81

1,75

1,71

1,70

1,64

2930

4,17

3,32

2,92

2,69

2,53

2,42

2,33

2,27

2,21

2,16

2,09

2,01

1,93

1,89

1,84

1,79

1,74

1,70

1,68

1,62

3040

4,08

3,23

2,84

2,61

2,45

2,34

2,25

2,18

2,12

2,08

2,00

1,92

1,84

1,79

1,74

1,69

1,64

1,59

1,58

1,51

4050

4,03

3,18

2,79

2,56

2,40

2,29

2,20

2,13

2,07

2,03

1,95

1,87

1,78

1,74

1,69

1,63

1,58

1,52

1,51

1,44

5060

4,00

3,15

2,76

2,53

2,37

2,25

2,17

2,10

2,04

1,99

1,92

1,84

1,75

1,70

1,65

1,59

1,53

1,48

1,47

1,39

6070

3,98

3,13

2,74

2,50

2,35

2,23

2,14

2,07

2,02

1,97

1,89

1,81

1,72

1,67

1,62

1,57

1,50

1,45

1,44

1,35

7080

3,96

3,11

2,72

2,49

2,33

2,21

2,13

2,06

2,00

1,95

1,88

1,79

1,70

1,65

1,60

1,54

1,48

1,43

1,41

1,32

8090

3,95

3,10

2,71

2,47

2,32

2,20

2,11

2,04

1,99

1,94

1,86

1,78

1,69

1,64

1,59

1,53

1,46

1,41

1,39

1,30

90100

3,94

3,09

2,70

2,46

2,31

2,19

2,10

2,03

1,97

1,93

1,85

1,77

1,68

1,63

1,57

1,52

1,45

1,39

1,38

1,28

100

120

3,92

3,07

2,68

2,45

2,29

2,18

2,09

2,02

1,96

1,91

1,83

1,75

1,66

1,61

1,55

1,50

1,43

1,37

1,35

1,25

120

Inf

3,84

3,00

2,60

2,37

2,21

2,10

2,01

1,94

1,88

1,83

1,75

1,67

1,57

1,52

1,46

1,39

1,32

1,24

1,22

1,00

Inf

12

34

56

78

910

1215

2024

3040

60100

120

Inf.


Gra

dos d

e l ib

erta

d de

l nu m

erad

o r: ν

1α

=0.0

25Ta

bla

Fα

αν

νν

να

νν

=≥

⇒)

(,

,,

,,

21

21

21

FF

PF

025

.0)

53.4(

:8,7

=≥

FP

Ejem

plo

12

34

56

78

910

1215

2024

3040

60100

120

Inf.

1647,8

799,5

864,2

899,6

921,8

937,1

948,2

956,6

963,3

968,6

976,7

984,9

993,1

997,31001,41005,61009,81013,21014,01018,3

12

38,51

39,00

39,17

39,25

39,30

39,33

39,36

39,37

39,39

39,40

39,41

39,43

39,45

39,46

39,46

39,47

39,48

39,49

39,49

39,50

23

17,44

16,04

15,44

15,10

14,88

14,73

14,62

14,54

14,47

14,42

14,34

14,25

14,17

14,12

14,08

14,04

13,99

13,96

13,95

13,90

34

12,22

10,65

9,98

9,60

9,36

9,20

9,07

8,98

8,90

8,84

8,75

8,66

8,56

8,51

8,46

8,41

8,36

8,32

8,31

8,26

45

10,01

8,43

7,76

7,39

7,15

6,98

6,85

6,76

6,68

6,62

6,52

6,43

6,33

6,28

6,23

6,18

6,12

6,08

6,07

6,02

56

8,81

7,26

6,60

6,23

5,99

5,82

5,70

5,60

5,52

5,46

5,37

5,27

5,17

5,12

5,07

5,01

4,96

4,92

4,90

4,85

67

8,07

6,54

5,89

5,52

5,29

5,12

4,99

4,90

4,82

4,76

4,67

4,57

4,47

4,41

4,36

4,31

4,25

4,21

4,20

4,14

78

7,57

6,06

5,42

5,05

4,82

4,65

4,53

4,43

4,36

4,30

4,20

4,10

4,00

3,95

3,89

3,84

3,78

3,74

3,73

3,67

89

7,21

5,71

5,08

4,72

4,48

4,32

4,20

4,10

4,03

3,96

3,87

3,77

3,67

3,61

3,56

3,51

3,45

3,40

3,39

3,33

910

6,94

5,46

4,83

4,47

4,24

4,07

3,95

3,85

3,78

3,72

3,62

3,52

3,42

3,37

3,31

3,26

3,20

3,15

3,14

3,08

1011

6,72

5,26

4,63

4,28

4,04

3,88

3,76

3,66

3,59

3,53

3,43

3,33

3,23

3,17

3,12

3,06

3,00

2,96

2,94

2,88

1112

6,55

5,10

4,47

4,12

3,89

3,73

3,61

3,51

3,44

3,37

3,28

3,18

3,07

3,02

2,96

2,91

2,85

2,80

2,79

2,72

1213

6,41

4,97

4,35

4,00

3,77

3,60

3,48

3,39

3,31

3,25

3,15

3,05

2,95

2,89

2,84

2,78

2,72

2,67

2,66

2,60

1314

6,30

4,86

4,24

3,89

3,66

3,50

3,38

3,29

3,21

3,15

3,05

2,95

2,84

2,79

2,73

2,67

2,61

2,56

2,55

2,49

1415

6,20

4,77

4,15

3,80

3,58

3,41

3,29

3,20

3,12

3,06

2,96

2,86

2,76

2,70

2,64

2,59

2,52

2,47

2,46

2,40

1516

6,12

4,69

4,08

3,73

3,50

3,34

3,22

3,12

3,05

2,99

2,89

2,79

2,68

2,63

2,57

2,51

2,45

2,40

2,38

2,32

1617

6,04

4,62

4,01

3,66

3,44

3,28

3,16

3,06

2,98

2,92

2,82

2,72

2,62

2,56

2,50

2,44

2,38

2,33

2,32

2,25

1718

5,98

4,56

3,95

3,61

3,38

3,22

3,10

3,01

2,93

2,87

2,77

2,67

2,56

2,50

2,44

2,38

2,32

2,27

2,26

2,19

1819

5,92

4,51

3,90

3,56

3,33

3,17

3,05

2,96

2,88

2,82

2,72

2,62

2,51

2,45

2,39

2,33

2,27

2,22

2,20

2,13

1920

5,87

4,46

3,86

3,51

3,29

3,13

3,01

2,91

2,84

2,77

2,68

2,57

2,46

2,41

2,35

2,29

2,22

2,17

2,16

2,09

2021

5,83

4,42

3,82

3,48

3,25

3,09

2,97

2,87

2,80

2,73

2,64

2,53

2,42

2,37

2,31

2,25

2,18

2,13

2,11

2,04

2122

5,79

4,38

3,78

3,44

3,22

3,05

2,93

2,84

2,76

2,70

2,60

2,50

2,39

2,33

2,27

2,21

2,14

2,09

2,08

2,00

2223

5,75

4,35

3,75

3,41

3,18

3,02

2,90

2,81

2,73

2,67

2,57

2,47

2,36

2,30

2,24

2,18

2,11

2,06

2,04

1,97

2324

5,72

4,32

3,72

3,38

3,15

2,99

2,87

2,78

2,70

2,64

2,54

2,44

2,33

2,27

2,21

2,15

2,08

2,02

2,01

1,94

2425

5,69

4,29

3,69

3,35

3,13

2,97

2,85

2,75

2,68

2,61

2,51

2,41

2,30

2,24

2,18

2,12

2,05

2,00

1,98

1,91

2526

5,66

4,27

3,67

3,33

3,10

2,94

2,82

2,73

2,65

2,59

2,49

2,39

2,28

2,22

2,16

2,09

2,03

1,97

1,95

1,88

2627

5,63

4,24

3,65

3,31

3,08

2,92

2,80

2,71

2,63

2,57

2,47

2,36

2,25

2,19

2,13

2,07

2,00

1,94

1,93

1,85

2728

5,61

4,22

3,63

3,29

3,06

2,90

2,78

2,69

2,61

2,55

2,45

2,34

2,23

2,17

2,11

2,05

1,98

1,92

1,91

1,83

2829

5,59

4,20

3,61

3,27

3,04

2,88

2,76

2,67

2,59

2,53

2,43

2,32

2,21

2,15

2,09

2,03

1,96

1,90

1,89

1,81

2930

5,57

4,18

3,59

3,25

3,03

2,87

2,75

2,65

2,57

2,51

2,41

2,31

2,20

2,14

2,07

2,01

1,94

1,88

1,87

1,79

3040

5,42

4,05

3,46

3,13

2,90

2,74

2,62

2,53

2,45

2,39

2,29

2,18

2,07

2,01

1,94

1,88

1,80

1,74

1,72

1,64

4050

5,34

3,97

3,39

3,05

2,83

2,67

2,55

2,46

2,38

2,32

2,22

2,11

1,99

1,93

1,87

1,80

1,72

1,66

1,64

1,55

5060

5,29

3,93

3,34

3,01

2,79

2,63

2,51

2,41

2,33

2,27

2,17

2,06

1,94

1,88

1,82

1,74

1,67

1,60

1,58

1,48

6070

5,25

3,89

3,31

2,97

2,75

2,59

2,47

2,38

2,30

2,24

2,14

2,03

1,91

1,85

1,78

1,71

1,63

1,56

1,54

1,44

7080

5,22

3,86

3,28

2,95

2,73

2,57

2,45

2,35

2,28

2,21

2,11

2,00

1,88

1,82

1,75

1,68

1,60

1,53

1,51

1,40

8090

5,20

3,84

3,26

2,93

2,71

2,55

2,43

2,34

2,26

2,19

2,09

1,98

1,86

1,80

1,73

1,66

1,58

1,50

1,48

1,37

90100

5,18

3,83

3,25

2,92

2,70

2,54

2,42

2,32

2,24

2,18

2,08

1,97

1,85

1,78

1,71

1,64

1,56

1,48

1,46

1,35

100

120

5,15

3,80

3,23

2,89

2,67

2,52

2,39

2,30

2,22

2,16

2,05

1,94

1,82

1,76

1,69

1,61

1,53

1,45

1,43

1,31

120

Inf

5,02

3,69

3,12

2,79

2,57

2,41

2,29

2,19

2,11

2,05

1,94

1,83

1,71

1,64

1,57

1,48

1,39

1,30

1,27

1,00

Inf

12

34

56

78

910

1215

2024

3040

60100

120

Inf.


Gra

dos d

e l ib

erta

d de

l nu m

erad

o r: ν

1α

=0.0

1Ta

bla

Fα

αν

νν

να

νν

=≥

⇒)

(,

,,

,,

21

21

21

FF

PF

01.0)

18.6(

:8,7

=≥

FP

Ejem

plo

12

34

56

78

910

1215

2024

3040

60100

120

Inf.

14052,24999,35403,55624,35764,05859,05928,35981,06022,46055,96106,76157,06208,76234,36260,46286,46313,06333,96339,56365,6

12

98,50

99,00

99,16

99,25

99,30

99,33

99,36

99,38

99,39

99,40

99,42

99,43

99,45

99,46

99,47

99,48

99,48

99,49

99,49

99,50

23

34,12

30,82

29,46

28,71

28,24

27,91

27,67

27,49

27,34

27,23

27,05

26,87

26,69

26,60

26,50

26,41

26,32

26,24

26,22

26,13

34

21,20

18,00

16,69

15,98

15,52

15,21

14,98

14,80

14,66

14,55

14,37

14,20

14,02

13,93

13,84

13,75

13,65

13,58

13,56

13,46

45

16,26

13,27

12,06

11,39

10,97

10,67

10,46

10,29

10,16

10,05

9,89

9,72

9,55

9,47

9,38

9,29

9,20

9,13

9,11

9,02

56

13,75

10,92

9,78

9,15

8,75

8,47

8,26

8,10

7,98

7,87

7,72

7,56

7,40

7,31

7,23

7,14

7,06

6,99

6,97

6,88

67

12,25

9,55

8,45

7,85

7,46

7,19

6,99

6,84

6,72

6,62

6,47

6,31

6,16

6,07

5,99

5,91

5,82

5,75

5,74

5,65

78

11,26

8,65

7,59

7,01

6,63

6,37

6,18

6,03

5,91

5,81

5,67

5,52

5,36

5,28

5,20

5,12

5,03

4,96

4,95

4,86

89

10,56

8,02

6,99

6,42

6,06

5,80

5,61

5,47

5,35

5,26

5,11

4,96

4,81

4,73

4,65

4,57

4,48

4,41

4,40

4,31

910

10,04

7,56

6,55

5,99

5,64

5,39

5,20

5,06

4,94

4,85

4,71

4,56

4,41

4,33

4,25

4,17

4,08

4,01

4,00

3,91

1011

9,65

7,21

6,22

5,67

5,32

5,07

4,89

4,74

4,63

4,54

4,40

4,25

4,10

4,02

3,94

3,86

3,78

3,71

3,69

3,60

1112

9,33

6,93

5,95

5,41

5,06

4,82

4,64

4,50

4,39

4,30

4,16

4,01

3,86

3,78

3,70

3,62

3,54

3,47

3,45

3,36

1213

9,07

6,70

5,74

5,21

4,86

4,62

4,44

4,30

4,19

4,10

3,96

3,82

3,66

3,59

3,51

3,43

3,34

3,27

3,25

3,17

1314

8,86

6,51

5,56

5,04

4,69

4,46

4,28

4,14

4,03

3,94

3,80

3,66

3,51

3,43

3,35

3,27

3,18

3,11

3,09

3,00

1415

8,68

6,36

5,42

4,89

4,56

4,32

4,14

4,00

3,89

3,80

3,67

3,52

3,37

3,29

3,21

3,13

3,05

2,98

2,96

2,87

1516

8,53

6,23

5,29

4,77

4,44

4,20

4,03

3,89

3,78

3,69

3,55

3,41

3,26

3,18

3,10

3,02

2,93

2,86

2,84

2,75

1617

8,40

6,11

5,19

4,67

4,34

4,10

3,93

3,79

3,68

3,59

3,46

3,31

3,16

3,08

3,00

2,92

2,83

2,76

2,75

2,65

1718

8,29

6,01

5,09

4,58

4,25

4,01

3,84

3,71

3,60

3,51

3,37

3,23

3,08

3,00

2,92

2,84

2,75

2,68

2,66

2,57

1819

8,18

5,93

5,01

4,50

4,17

3,94

3,77

3,63

3,52

3,43

3,30

3,15

3,00

2,92

2,84

2,76

2,67

2,60

2,58

2,49

1920

8,10

5,85

4,94

4,43

4,10

3,87

3,70

3,56

3,46

3,37

3,23

3,09

2,94

2,86

2,78

2,69

2,61

2,54

2,52

2,42

2021

8,02

5,78

4,87

4,37

4,04

3,81

3,64

3,51

3,40

3,31

3,17

3,03

2,88

2,80

2,72

2,64

2,55

2,48

2,46

2,36

2122

7,95

5,72

4,82

4,31

3,99

3,76

3,59

3,45

3,35

3,26

3,12

2,98

2,83

2,75

2,67

2,58

2,50

2,42

2,40

2,31

2223

7,88

5,66

4,76

4,26

3,94

3,71

3,54

3,41

3,30

3,21

3,07

2,93

2,78

2,70

2,62

2,54

2,45

2,37

2,35

2,26

2324

7,82

5,61

4,72

4,22

3,90

3,67

3,50

3,36

3,26

3,17

3,03

2,89

2,74

2,66

2,58

2,49

2,40

2,33

2,31

2,21

2425

7,77

5,57

4,68

4,18

3,85

3,63

3,46

3,32

3,22

3,13

2,99

2,85

2,70

2,62

2,54

2,45

2,36

2,29

2,27

2,17

2526

7,72

5,53

4,64

4,14

3,82

3,59

3,42

3,29

3,18

3,09

2,96

2,81

2,66

2,58

2,50

2,42

2,33

2,25

2,23

2,13

2627

7,68

5,49

4,60

4,11

3,78

3,56

3,39

3,26

3,15

3,06

2,93

2,78

2,63

2,55

2,47

2,38

2,29

2,22

2,20

2,10

2728

7,64

5,45

4,57

4,07

3,75

3,53

3,36

3,23

3,12

3,03

2,90

2,75

2,60

2,52

2,44

2,35

2,26

2,19

2,17

2,06

2829

7,60

5,42

4,54

4,04

3,73

3,50

3,33

3,20

3,09

3,00

2,87

2,73

2,57

2,49

2,41

2,33

2,23

2,16

2,14

2,03

2930

7,56

5,39

4,51

4,02

3,70

3,47

3,30

3,17

3,07

2,98

2,84

2,70

2,55

2,47

2,39

2,30

2,21

2,13

2,11

2,01

3040

7,31

5,18

4,31

3,83

3,51

3,29

3,12

2,99

2,89

2,80

2,66

2,52

2,37

2,29

2,20

2,11

2,02

1,94

1,92

1,80

4050

7,17

5,06

4,20

3,72

3,41

3,19

3,02

2,89

2,78

2,70

2,56

2,42

2,27

2,18

2,10

2,01

1,91

1,82

1,80

1,68

5060

7,08

4,98

4,13

3,65

3,34

3,12

2,95

2,82

2,72

2,63

2,50

2,35

2,20

2,12

2,03

1,94

1,84

1,75

1,73

1,60

6070

7,01

4,92

4,07

3,60

3,29

3,07

2,91

2,78

2,67

2,59

2,45

2,31

2,15

2,07

1,98

1,89

1,78

1,70

1,67

1,54

7080

6,96

4,88

4,04

3,56

3,26

3,04

2,87

2,74

2,64

2,55

2,42

2,27

2,12

2,03

1,94

1,85

1,75

1,65

1,63

1,49

8090

6,93

4,85

4,01

3,53

3,23

3,01

2,84

2,72

2,61

2,52

2,39

2,24

2,09

2,00

1,92

1,82

1,72

1,62

1,60

1,46

90100

6,90

4,82

3,98

3,51

3,21

2,99

2,82

2,69

2,59

2,50

2,37

2,22

2,07

1,98

1,89

1,80

1,69

1,60

1,57

1,43

100

120

6,85

4,79

3,95

3,48

3,17

2,96

2,79

2,66

2,56

2,47

2,34

2,19

2,03

1,95

1,86

1,76

1,66

1,56

1,53

1,38

120

Inf

6,63

4,61

3,78

3,32

3,02

2,80

2,64

2,51

2,41

2,32

2,18

2,04

1,88

1,79

1,70

1,59

1,47

1,36

1,32

1,00

Inf

12

34

56

78

910

1215

2024

3040

60100

120

Inf.

diseñode experimentosy regresión - etsii.upm.es n y y 2 2 22 21 y n y y modelo m o d e l o d a t o...

Documents