diseñode experimentosy regresión - etsii.upm.es n y y 2 2 22 21 y n y y modelo m o d e l o d a t o...
TRANSCRIPT
Laboratorio
de
Estadística
Diseño de
Experimentos y
Regresión
ESCUELA TÉCNICA SUPERIOR DE
INGENIEROS INDUSTRIALESUNIVERSIDAD POLITÉCNICA DE MADRID
Edición Curso 17/18
DISEÑO DE EXPERIMENTOS Y MODELOS DE REGRESIÓNDepartamento de ingeniería de organización,
administración de empresas y estadística.
PROGRAMA
1. Análisis de la varianza. Comparación de dos tratamientos. La hipóte-sis de normalidad, independencia y homocedasticidad. Estimación. Contrastede igualdad de medias. Contraste de igualdad de varianzas. La distribuciónF: Comparación de varios tratamientos. Modelo básico. Descomposición de lavariabilidad. Tabla del análisis de la varianza (ADEVA). Contraste de igualdadde medias. Comparaciones múltiples. Diagnosis de las hipótesis del modelo deanálisis de la varianza. Grá�co probabilista normal. Contrastes de homocedas-ticidad. Aleatorización.
2. Diseño de experimentos. Modelo con dos factores. Concepto de in-teracción. Descomposición de la variabilidad. Tabla de análisis de la varianza.Contraste de igual de medias. Diagnosis de las hipótesis del modelo. El modeloen bloques aleatorizados. Modelo y estimación. Descomposición de la variabi-lidad. Tabla de análisis de la varianza.
3. Regresión lineal. Hipótesis del modelo. Estimación de los parámetros pormáxima verosimilitud (mínimos cuadrados). Distribución de los estimadores.Contrastes individuales de los parámetros del modelo. Contraste general deregresión. El coe�ciente de determinación. Multicolinealidad: identi�cación ysus consecuencias. Predicción en regresión simple. Variables cualitativas comoregresores. Diagnosis del modelo.
1
Diseño de Experimentos y Modelos de Regresión
Curso 2016/17
1. Análisis de la Varianza
1.1 Dos tratamientos
3Análisis de la Varianza
Comparación de dos tratamientos
A B51,3 29,639,4 47,026,3 25,939,0 13,048,1 33,134,2 22,169,8 34,131,3 19,545,2 43,846,4 24,9
Se desea comparar dostratamientos parareducir el nivel decolesterol en la sangre.Se seleccionan 20individuos y se asignanal azar a dos tipos dedietas A y B. La tablamuestra la reducciónconseguida después dedos meses.
4Análisis de la Varianza
Método: 4 pasos
- Definición del modelo de distribución de probabilidad:
·Hipótesis·Parámetros
- Estimación de los parámetros- Diagnosis de las hipótesis- Aplicación
5Análisis de la Varianza
1 2
11
12
11
ny
yy
22
22
21
ny
yy
ModeloMODELO
DATOS
6Análisis de la Varianza
Modelo: Hipótesis y Parámetros
Hipótesis básicas: Normalidad
yij N( i, 2)
Homocedasticidad
Var [yij] = 2
Independencia
Cov [yij, ykl] = 0
Parámetros
22
1
7Análisis de la Varianza
Modelo
),0(, 2Nuuy ijijiij
Las observaciones se descomponen en:-Parte predecible-Parte aleatoria
i
0
iju
8Análisis de la Varianza
Estimación medias:
2
12
22
1
11
11
2
1
:
:
n
y
y
n
y
y
n
jj
n
jj
A B51,3 29,639,4 47,026,3 25,939,0 13,048,1 33,134,2 22,169,8 34,131,3 19,545,2 43,846,4 24,943,1 29,3
9Análisis de la Varianza
Estimación varianza (residuos)
A B8,2 0,3-3,7 17,7
-16,8 -3,4-4,1 -16,35,0 3,8-8,9 -7,226,7 4,8-11,8 -9,82,1 14,53,3 -4,40,0 0,0
Residuos
2ˆ:
:
),0(,
2
1 1
2
22
2
n
e
s
e
yye
yu
Nuuy
i
n
jij
R
ij
iijij
iijij
ijijiij
i
RESIDUO
95.130ˆ;0 21
Rn
jij sei
10Análisis de la Varianza
Varianza residual:
1)(
ˆ1
2112
1
1
12
11
1
nyy
s
y
yy
j
n
1)(
ˆ2
2222
2
2
22
21
2
nyy
s
y
yy
j
n
1 2
22
1 12 2 21 21 2
1 1ˆ ˆ ˆ2 2 2
in
iji j
R
en ns s s
n n n
2ˆRs
11Análisis de la Varianza
Diferencia de medias:
),(1
2
11
1
12
11
1
nNy
y
yy
n
),(2
2
22
2
22
21
2
nNy
y
yy
n
1 2
2
21
2121
21
21212
2
1
2
2121
11ˆ
)()()1,0(
11)()(
),(
n
R
t
nns
yyN
nn
yynn
Nyy
21 yy
12Análisis de la Varianza
Contraste de igualdad de medias
211
210
::
HH
/2
02/0
02/0
rechaza e
rechaza se No
HStt
Htt
t /2-t /2
/2
tn-2
R.R. R.R
R. Acept.
1-2
21
210 11ˆ
n
R
t
nns
yyt
13Análisis de la Varianza
211
210
::
HH
0 rechaza e10.269.2 HS
2.10-2.10
0.025
t18R.R. R.R
69.2
101
10144.11
3.291.430t
0.025
Ejemplo: = 0.05
14Análisis de la Varianza
Ejemplo: = 0.01
211
210
::
HH
/2
0 rechaza se No88.269.2 H
2.88-2.88
0.005
t18
R.R. R.R
0.9969.2
101
10144.11
3.291.430t
0.005
15Análisis de la Varianza
211
210
::
HH
69.2
101
10144.11
3.291.430t
Nivel crítico (bilateral)
2.69-2.69
0.00740.0074
t18
0147.0)69.2Pr( 18tvalorp
• = 0.05 > p-valor Se rechaza H0
• = 0.01 < p-valor No se rechaza H0
16Análisis de la Varianza
Conclusiones (fijado )
Si |to| > t /2 se dice quela diferencia demedias essignificativa. Osimplemente que lostratamientos sondistintos (tienenmedias distintas).
Si |to| t /2 se dice quela diferencia demedias no essignificativa. No hayevidencia suficientepara afirmar que lasmedias de lostratamientos seandiferentes.
17Análisis de la Varianza
No rechazar Ho, no implica que Ho sea cierta
El resultado |to| t /2, (no se rechaza Ho)no debe interpretarse como que “se hademostrado que las dos medias soniguales”.
No rechazar la hipótesis nula implica quela diferencia entre las medias 1 - 2 no eslo suficientemente grande como para serdetectada con el tamaño muestral dado.
Comparación de dos tratamientos con R
18
19
Comparación de dos tratamientos con R
Comparación de medidas del cuerpo humano por género
20
Means Conf. Int.
21Análisis de la Varianza
Intervalo de confianza para la diferencia de medias:
2
21
212111ˆ
)()(n
R
t
nns
yy
21
212/2121
2/
21
21212/
11ˆ)(
1}11ˆ
)()({Pr
nnstyy
t
nns
yyt
R
R
t /2-t /2
/2
tn-2
1- /2
22Análisis de la Varianza
Ejemplo: intervalo de confianza
2.10-2.10
0.025
t18
0.025
74.108.13101
10144.1110.2)3.291.43(
11ˆ)(
21
21
212/2121 nnstyy R
21
23Análisis de la Varianza
Hipótesis de homocedasticidad
1)(
ˆ1
2112
1
1
12
11
1
nyy
s
y
yy
j
n
1)(
ˆ2
2222
2
2
22
21
2
nyy
s
y
yy
j
n
1
1 2
2
22
211
22
210
:
:
H
H
24Análisis de la varianza
Distribución F
212
1
211
1
2112
1
1
12
11
1
1
ˆ)1(
1)(
ˆ
n
j
n
sn
nyy
s
y
yy
212
2
222
2
2222
2
2
22
21
2
2
ˆ)1(
1)(
ˆ
n
j
n
sn
nyy
s
y
yy
1,1
22
22
21
21
2
21
1
21
21
2
1
ˆ
ˆ
)1(
)1(nn
n
n
Fs
s
n
nF
25Análisis de la varianza
Distribución F
F5,40
F10,40
F20,40
F40,40
26Análisis de la varianza
Algunas distribuciones F
F10,10
F10,20
F10,40
F10,80
27Análisis de la varianza
Contraste de igualdad de varianzas
F /2F1- /2
/2/2
RRRR1-
R.A. Ho
02/2/10
02/2/10
rechaza Se , Si rechaza se No , Si
HFFFHFFF
22
211
22
210
:
:
H
H
1,121
21
0
22
210
21ˆˆ
, cierto es Si
nnFssF
H
28Análisis de la varianza
Ejemplo: Contraste de igualdad de varianzas
4.030.248
0.0250.025
RRRR
0 rechaza se No 03.4,248.0.371 H
22
211
22
210
:
:
H
H
37.17.11102.154
7.111ˆ02.154ˆ
0
22
21
F
ss1.37
Gra
dos d
e lib
erta
d de
l den
omin
ador
: 2
=0.05Tabla F )( ,,,,, 212121
FFPF
05.0)50.3(: 8,7FPEjemplo
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.1 161,4 199,5 215,7 224,6 230,2 234,0 236,8 238,9 240,5 241,9 243,9 245,9 248,0 249,1 250,1 251,1 252,2 253,0 253,3 254,3 12 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,41 19,43 19,45 19,45 19,46 19,47 19,48 19,49 19,49 19,50 23 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,74 8,70 8,66 8,64 8,62 8,59 8,57 8,55 8,55 8,53 34 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,91 5,86 5,80 5,77 5,75 5,72 5,69 5,66 5,66 5,63 45 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,68 4,62 4,56 4,53 4,50 4,46 4,43 4,41 4,40 4,37 56 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 4,00 3,94 3,87 3,84 3,81 3,77 3,74 3,71 3,70 3,67 67 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,57 3,51 3,44 3,41 3,38 3,34 3,30 3,27 3,27 3,23 78 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,28 3,22 3,15 3,12 3,08 3,04 3,01 2,97 2,97 2,93 89 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,07 3,01 2,94 2,90 2,86 2,83 2,79 2,76 2,75 2,71 9
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,91 2,85 2,77 2,74 2,70 2,66 2,62 2,59 2,58 2,54 1011 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 2,79 2,72 2,65 2,61 2,57 2,53 2,49 2,46 2,45 2,40 1112 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 2,69 2,62 2,54 2,51 2,47 2,43 2,38 2,35 2,34 2,30 1213 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 2,60 2,53 2,46 2,42 2,38 2,34 2,30 2,26 2,25 2,21 1314 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 2,53 2,46 2,39 2,35 2,31 2,27 2,22 2,19 2,18 2,13 1415 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,48 2,40 2,33 2,29 2,25 2,20 2,16 2,12 2,11 2,07 1516 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,42 2,35 2,28 2,24 2,19 2,15 2,11 2,07 2,06 2,01 1617 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 2,38 2,31 2,23 2,19 2,15 2,10 2,06 2,02 2,01 1,96 1718 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 2,34 2,27 2,19 2,15 2,11 2,06 2,02 1,98 1,97 1,92 1819 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 2,31 2,23 2,16 2,11 2,07 2,03 1,98 1,94 1,93 1,88 1920 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,28 2,20 2,12 2,08 2,04 1,99 1,95 1,91 1,90 1,84 2021 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32 2,25 2,18 2,10 2,05 2,01 1,96 1,92 1,88 1,87 1,81 2122 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34 2,30 2,23 2,15 2,07 2,03 1,98 1,94 1,89 1,85 1,84 1,78 2223 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,32 2,27 2,20 2,13 2,05 2,01 1,96 1,91 1,86 1,82 1,81 1,76 2324 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30 2,25 2,18 2,11 2,03 1,98 1,94 1,89 1,84 1,80 1,79 1,73 2425 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,28 2,24 2,16 2,09 2,01 1,96 1,92 1,87 1,82 1,78 1,77 1,71 2526 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2,22 2,15 2,07 1,99 1,95 1,90 1,85 1,80 1,76 1,75 1,69 2627 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,25 2,20 2,13 2,06 1,97 1,93 1,88 1,84 1,79 1,74 1,73 1,67 2728 4,20 3,34 2,95 2,71 2,56 2,45 2,36 2,29 2,24 2,19 2,12 2,04 1,96 1,91 1,87 1,82 1,77 1,73 1,71 1,65 2829 4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,22 2,18 2,10 2,03 1,94 1,90 1,85 1,81 1,75 1,71 1,70 1,64 2930 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 2,09 2,01 1,93 1,89 1,84 1,79 1,74 1,70 1,68 1,62 3040 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08 2,00 1,92 1,84 1,79 1,74 1,69 1,64 1,59 1,58 1,51 4050 4,03 3,18 2,79 2,56 2,40 2,29 2,20 2,13 2,07 2,03 1,95 1,87 1,78 1,74 1,69 1,63 1,58 1,52 1,51 1,44 5060 4,00 3,15 2,76 2,53 2,37 2,25 2,17 2,10 2,04 1,99 1,92 1,84 1,75 1,70 1,65 1,59 1,53 1,48 1,47 1,39 6070 3,98 3,13 2,74 2,50 2,35 2,23 2,14 2,07 2,02 1,97 1,89 1,81 1,72 1,67 1,62 1,57 1,50 1,45 1,44 1,35 7080 3,96 3,11 2,72 2,49 2,33 2,21 2,13 2,06 2,00 1,95 1,88 1,79 1,70 1,65 1,60 1,54 1,48 1,43 1,41 1,32 8090 3,95 3,10 2,71 2,47 2,32 2,20 2,11 2,04 1,99 1,94 1,86 1,78 1,69 1,64 1,59 1,53 1,46 1,41 1,39 1,30 90100 3,94 3,09 2,70 2,46 2,31 2,19 2,10 2,03 1,97 1,93 1,85 1,77 1,68 1,63 1,57 1,52 1,45 1,39 1,38 1,28 100120 3,92 3,07 2,68 2,45 2,29 2,18 2,09 2,02 1,96 1,91 1,83 1,75 1,66 1,61 1,55 1,50 1,43 1,37 1,35 1,25 120Inf 3,84 3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,88 1,83 1,75 1,67 1,57 1,52 1,46 1,39 1,32 1,24 1,22 1,00 Inf
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.
Gra
dos d
e lib
erta
d de
l den
omin
ador
: 2
=0.025Tabla F )( ,,,,, 212121
FFPF
025.0)53.4(: 8,7FPEjemplo
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.1 647,8 799,5 864,2 899,6 921,8 937,1 948,2 956,6 963,3 968,6 976,7 984,9 993,1 997,3 1001,4 1005,6 1009,8 1013,2 1014,0 1018,3 12 38,51 39,00 39,17 39,25 39,30 39,33 39,36 39,37 39,39 39,40 39,41 39,43 39,45 39,46 39,46 39,47 39,48 39,49 39,49 39,50 23 17,44 16,04 15,44 15,10 14,88 14,73 14,62 14,54 14,47 14,42 14,34 14,25 14,17 14,12 14,08 14,04 13,99 13,96 13,95 13,90 34 12,22 10,65 9,98 9,60 9,36 9,20 9,07 8,98 8,90 8,84 8,75 8,66 8,56 8,51 8,46 8,41 8,36 8,32 8,31 8,26 45 10,01 8,43 7,76 7,39 7,15 6,98 6,85 6,76 6,68 6,62 6,52 6,43 6,33 6,28 6,23 6,18 6,12 6,08 6,07 6,02 56 8,81 7,26 6,60 6,23 5,99 5,82 5,70 5,60 5,52 5,46 5,37 5,27 5,17 5,12 5,07 5,01 4,96 4,92 4,90 4,85 67 8,07 6,54 5,89 5,52 5,29 5,12 4,99 4,90 4,82 4,76 4,67 4,57 4,47 4,41 4,36 4,31 4,25 4,21 4,20 4,14 78 7,57 6,06 5,42 5,05 4,82 4,65 4,53 4,43 4,36 4,30 4,20 4,10 4,00 3,95 3,89 3,84 3,78 3,74 3,73 3,67 89 7,21 5,71 5,08 4,72 4,48 4,32 4,20 4,10 4,03 3,96 3,87 3,77 3,67 3,61 3,56 3,51 3,45 3,40 3,39 3,33 9
10 6,94 5,46 4,83 4,47 4,24 4,07 3,95 3,85 3,78 3,72 3,62 3,52 3,42 3,37 3,31 3,26 3,20 3,15 3,14 3,08 1011 6,72 5,26 4,63 4,28 4,04 3,88 3,76 3,66 3,59 3,53 3,43 3,33 3,23 3,17 3,12 3,06 3,00 2,96 2,94 2,88 1112 6,55 5,10 4,47 4,12 3,89 3,73 3,61 3,51 3,44 3,37 3,28 3,18 3,07 3,02 2,96 2,91 2,85 2,80 2,79 2,72 1213 6,41 4,97 4,35 4,00 3,77 3,60 3,48 3,39 3,31 3,25 3,15 3,05 2,95 2,89 2,84 2,78 2,72 2,67 2,66 2,60 1314 6,30 4,86 4,24 3,89 3,66 3,50 3,38 3,29 3,21 3,15 3,05 2,95 2,84 2,79 2,73 2,67 2,61 2,56 2,55 2,49 1415 6,20 4,77 4,15 3,80 3,58 3,41 3,29 3,20 3,12 3,06 2,96 2,86 2,76 2,70 2,64 2,59 2,52 2,47 2,46 2,40 1516 6,12 4,69 4,08 3,73 3,50 3,34 3,22 3,12 3,05 2,99 2,89 2,79 2,68 2,63 2,57 2,51 2,45 2,40 2,38 2,32 1617 6,04 4,62 4,01 3,66 3,44 3,28 3,16 3,06 2,98 2,92 2,82 2,72 2,62 2,56 2,50 2,44 2,38 2,33 2,32 2,25 1718 5,98 4,56 3,95 3,61 3,38 3,22 3,10 3,01 2,93 2,87 2,77 2,67 2,56 2,50 2,44 2,38 2,32 2,27 2,26 2,19 1819 5,92 4,51 3,90 3,56 3,33 3,17 3,05 2,96 2,88 2,82 2,72 2,62 2,51 2,45 2,39 2,33 2,27 2,22 2,20 2,13 1920 5,87 4,46 3,86 3,51 3,29 3,13 3,01 2,91 2,84 2,77 2,68 2,57 2,46 2,41 2,35 2,29 2,22 2,17 2,16 2,09 2021 5,83 4,42 3,82 3,48 3,25 3,09 2,97 2,87 2,80 2,73 2,64 2,53 2,42 2,37 2,31 2,25 2,18 2,13 2,11 2,04 2122 5,79 4,38 3,78 3,44 3,22 3,05 2,93 2,84 2,76 2,70 2,60 2,50 2,39 2,33 2,27 2,21 2,14 2,09 2,08 2,00 2223 5,75 4,35 3,75 3,41 3,18 3,02 2,90 2,81 2,73 2,67 2,57 2,47 2,36 2,30 2,24 2,18 2,11 2,06 2,04 1,97 2324 5,72 4,32 3,72 3,38 3,15 2,99 2,87 2,78 2,70 2,64 2,54 2,44 2,33 2,27 2,21 2,15 2,08 2,02 2,01 1,94 2425 5,69 4,29 3,69 3,35 3,13 2,97 2,85 2,75 2,68 2,61 2,51 2,41 2,30 2,24 2,18 2,12 2,05 2,00 1,98 1,91 2526 5,66 4,27 3,67 3,33 3,10 2,94 2,82 2,73 2,65 2,59 2,49 2,39 2,28 2,22 2,16 2,09 2,03 1,97 1,95 1,88 2627 5,63 4,24 3,65 3,31 3,08 2,92 2,80 2,71 2,63 2,57 2,47 2,36 2,25 2,19 2,13 2,07 2,00 1,94 1,93 1,85 2728 5,61 4,22 3,63 3,29 3,06 2,90 2,78 2,69 2,61 2,55 2,45 2,34 2,23 2,17 2,11 2,05 1,98 1,92 1,91 1,83 2829 5,59 4,20 3,61 3,27 3,04 2,88 2,76 2,67 2,59 2,53 2,43 2,32 2,21 2,15 2,09 2,03 1,96 1,90 1,89 1,81 2930 5,57 4,18 3,59 3,25 3,03 2,87 2,75 2,65 2,57 2,51 2,41 2,31 2,20 2,14 2,07 2,01 1,94 1,88 1,87 1,79 3040 5,42 4,05 3,46 3,13 2,90 2,74 2,62 2,53 2,45 2,39 2,29 2,18 2,07 2,01 1,94 1,88 1,80 1,74 1,72 1,64 4050 5,34 3,97 3,39 3,05 2,83 2,67 2,55 2,46 2,38 2,32 2,22 2,11 1,99 1,93 1,87 1,80 1,72 1,66 1,64 1,55 5060 5,29 3,93 3,34 3,01 2,79 2,63 2,51 2,41 2,33 2,27 2,17 2,06 1,94 1,88 1,82 1,74 1,67 1,60 1,58 1,48 6070 5,25 3,89 3,31 2,97 2,75 2,59 2,47 2,38 2,30 2,24 2,14 2,03 1,91 1,85 1,78 1,71 1,63 1,56 1,54 1,44 7080 5,22 3,86 3,28 2,95 2,73 2,57 2,45 2,35 2,28 2,21 2,11 2,00 1,88 1,82 1,75 1,68 1,60 1,53 1,51 1,40 8090 5,20 3,84 3,26 2,93 2,71 2,55 2,43 2,34 2,26 2,19 2,09 1,98 1,86 1,80 1,73 1,66 1,58 1,50 1,48 1,37 90100 5,18 3,83 3,25 2,92 2,70 2,54 2,42 2,32 2,24 2,18 2,08 1,97 1,85 1,78 1,71 1,64 1,56 1,48 1,46 1,35 100120 5,15 3,80 3,23 2,89 2,67 2,52 2,39 2,30 2,22 2,16 2,05 1,94 1,82 1,76 1,69 1,61 1,53 1,45 1,43 1,31 120Inf 5,02 3,69 3,12 2,79 2,57 2,41 2,29 2,19 2,11 2,05 1,94 1,83 1,71 1,64 1,57 1,48 1,39 1,30 1,27 1,00 Inf
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.
Gra
dos d
e lib
erta
d de
l den
omin
ador
: 2
=0.01Tabla F )( ,,,,, 212121
FFPF
01.0)18.6(: 8,7FPEjemplo
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.1 4052,2 4999,3 5403,5 5624,3 5764,0 5859,0 5928,3 5981,0 6022,4 6055,9 6106,7 6157,0 6208,7 6234,3 6260,4 6286,4 6313,0 6333,9 6339,5 6365,6 12 98,50 99,00 99,16 99,25 99,30 99,33 99,36 99,38 99,39 99,40 99,42 99,43 99,45 99,46 99,47 99,48 99,48 99,49 99,49 99,50 23 34,12 30,82 29,46 28,71 28,24 27,91 27,67 27,49 27,34 27,23 27,05 26,87 26,69 26,60 26,50 26,41 26,32 26,24 26,22 26,13 34 21,20 18,00 16,69 15,98 15,52 15,21 14,98 14,80 14,66 14,55 14,37 14,20 14,02 13,93 13,84 13,75 13,65 13,58 13,56 13,46 45 16,26 13,27 12,06 11,39 10,97 10,67 10,46 10,29 10,16 10,05 9,89 9,72 9,55 9,47 9,38 9,29 9,20 9,13 9,11 9,02 56 13,75 10,92 9,78 9,15 8,75 8,47 8,26 8,10 7,98 7,87 7,72 7,56 7,40 7,31 7,23 7,14 7,06 6,99 6,97 6,88 67 12,25 9,55 8,45 7,85 7,46 7,19 6,99 6,84 6,72 6,62 6,47 6,31 6,16 6,07 5,99 5,91 5,82 5,75 5,74 5,65 78 11,26 8,65 7,59 7,01 6,63 6,37 6,18 6,03 5,91 5,81 5,67 5,52 5,36 5,28 5,20 5,12 5,03 4,96 4,95 4,86 89 10,56 8,02 6,99 6,42 6,06 5,80 5,61 5,47 5,35 5,26 5,11 4,96 4,81 4,73 4,65 4,57 4,48 4,41 4,40 4,31 9
10 10,04 7,56 6,55 5,99 5,64 5,39 5,20 5,06 4,94 4,85 4,71 4,56 4,41 4,33 4,25 4,17 4,08 4,01 4,00 3,91 1011 9,65 7,21 6,22 5,67 5,32 5,07 4,89 4,74 4,63 4,54 4,40 4,25 4,10 4,02 3,94 3,86 3,78 3,71 3,69 3,60 1112 9,33 6,93 5,95 5,41 5,06 4,82 4,64 4,50 4,39 4,30 4,16 4,01 3,86 3,78 3,70 3,62 3,54 3,47 3,45 3,36 1213 9,07 6,70 5,74 5,21 4,86 4,62 4,44 4,30 4,19 4,10 3,96 3,82 3,66 3,59 3,51 3,43 3,34 3,27 3,25 3,17 1314 8,86 6,51 5,56 5,04 4,69 4,46 4,28 4,14 4,03 3,94 3,80 3,66 3,51 3,43 3,35 3,27 3,18 3,11 3,09 3,00 1415 8,68 6,36 5,42 4,89 4,56 4,32 4,14 4,00 3,89 3,80 3,67 3,52 3,37 3,29 3,21 3,13 3,05 2,98 2,96 2,87 1516 8,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,78 3,69 3,55 3,41 3,26 3,18 3,10 3,02 2,93 2,86 2,84 2,75 1617 8,40 6,11 5,19 4,67 4,34 4,10 3,93 3,79 3,68 3,59 3,46 3,31 3,16 3,08 3,00 2,92 2,83 2,76 2,75 2,65 1718 8,29 6,01 5,09 4,58 4,25 4,01 3,84 3,71 3,60 3,51 3,37 3,23 3,08 3,00 2,92 2,84 2,75 2,68 2,66 2,57 1819 8,18 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,52 3,43 3,30 3,15 3,00 2,92 2,84 2,76 2,67 2,60 2,58 2,49 1920 8,10 5,85 4,94 4,43 4,10 3,87 3,70 3,56 3,46 3,37 3,23 3,09 2,94 2,86 2,78 2,69 2,61 2,54 2,52 2,42 2021 8,02 5,78 4,87 4,37 4,04 3,81 3,64 3,51 3,40 3,31 3,17 3,03 2,88 2,80 2,72 2,64 2,55 2,48 2,46 2,36 2122 7,95 5,72 4,82 4,31 3,99 3,76 3,59 3,45 3,35 3,26 3,12 2,98 2,83 2,75 2,67 2,58 2,50 2,42 2,40 2,31 2223 7,88 5,66 4,76 4,26 3,94 3,71 3,54 3,41 3,30 3,21 3,07 2,93 2,78 2,70 2,62 2,54 2,45 2,37 2,35 2,26 2324 7,82 5,61 4,72 4,22 3,90 3,67 3,50 3,36 3,26 3,17 3,03 2,89 2,74 2,66 2,58 2,49 2,40 2,33 2,31 2,21 2425 7,77 5,57 4,68 4,18 3,85 3,63 3,46 3,32 3,22 3,13 2,99 2,85 2,70 2,62 2,54 2,45 2,36 2,29 2,27 2,17 2526 7,72 5,53 4,64 4,14 3,82 3,59 3,42 3,29 3,18 3,09 2,96 2,81 2,66 2,58 2,50 2,42 2,33 2,25 2,23 2,13 2627 7,68 5,49 4,60 4,11 3,78 3,56 3,39 3,26 3,15 3,06 2,93 2,78 2,63 2,55 2,47 2,38 2,29 2,22 2,20 2,10 2728 7,64 5,45 4,57 4,07 3,75 3,53 3,36 3,23 3,12 3,03 2,90 2,75 2,60 2,52 2,44 2,35 2,26 2,19 2,17 2,06 2829 7,60 5,42 4,54 4,04 3,73 3,50 3,33 3,20 3,09 3,00 2,87 2,73 2,57 2,49 2,41 2,33 2,23 2,16 2,14 2,03 2930 7,56 5,39 4,51 4,02 3,70 3,47 3,30 3,17 3,07 2,98 2,84 2,70 2,55 2,47 2,39 2,30 2,21 2,13 2,11 2,01 3040 7,31 5,18 4,31 3,83 3,51 3,29 3,12 2,99 2,89 2,80 2,66 2,52 2,37 2,29 2,20 2,11 2,02 1,94 1,92 1,80 4050 7,17 5,06 4,20 3,72 3,41 3,19 3,02 2,89 2,78 2,70 2,56 2,42 2,27 2,18 2,10 2,01 1,91 1,82 1,80 1,68 5060 7,08 4,98 4,13 3,65 3,34 3,12 2,95 2,82 2,72 2,63 2,50 2,35 2,20 2,12 2,03 1,94 1,84 1,75 1,73 1,60 6070 7,01 4,92 4,07 3,60 3,29 3,07 2,91 2,78 2,67 2,59 2,45 2,31 2,15 2,07 1,98 1,89 1,78 1,70 1,67 1,54 7080 6,96 4,88 4,04 3,56 3,26 3,04 2,87 2,74 2,64 2,55 2,42 2,27 2,12 2,03 1,94 1,85 1,75 1,65 1,63 1,49 8090 6,93 4,85 4,01 3,53 3,23 3,01 2,84 2,72 2,61 2,52 2,39 2,24 2,09 2,00 1,92 1,82 1,72 1,62 1,60 1,46 90100 6,90 4,82 3,98 3,51 3,21 2,99 2,82 2,69 2,59 2,50 2,37 2,22 2,07 1,98 1,89 1,80 1,69 1,60 1,57 1,43 100120 6,85 4,79 3,95 3,48 3,17 2,96 2,79 2,66 2,56 2,47 2,34 2,19 2,03 1,95 1,86 1,76 1,66 1,56 1,53 1,38 120Inf 6,63 4,61 3,78 3,32 3,02 2,80 2,64 2,51 2,41 2,32 2,18 2,04 1,88 1,79 1,70 1,59 1,47 1,36 1,32 1,00 Inf
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.
32
Comparación de dos tratamientos con R
33
Comparación de dos tratamientos con R
34Análisis de la varianza
1.2 K tratamientos
35Análisis de la varianza
¿Existen diferencias entre las cuatro semillas?
Se desea comparar el rendimiento de cuatrosemillas A,B,C y D. Un terreno se divide en 24parcelas similares y se asigna al azar cada semillaa 6 parcelas.
A B C D229.1 233.4 211.1 270.4253.7 233.0 223.1 248.6241.3 219.2 217.5 230.0254.7 200.0 211.8 250.7237.2 224.3 207.6 230.0241.3 202.0 213.7 245.8242.9 218.7 214.1 245.9
36Análisis de la varianza
Método: 4 pasos
- Definición del modelo de distribución de probabilidad:
·Hipótesis·Parámetros
- Estimación de los parámetros- Diagnosis de las hipótesis- Aplicación
37Análisis de la varianza
Modelo
1 2 K
...
11
12
11
ny
yy
22
22
21
ny
yy
KKn
K
K
y
yy
2
1
...
38Análisis de la varianza
Hipótesis del modelo
Normalidadyij N( i, 2)
HomocedasticidadVar [yij] = 2
IndependenciaCov [yij, ykl] = 0
39Análisis de la varianza
Modelo: Hipótesis y Parámetros
Hipótesis básicas:Normalidad
yij N( i, 2)
Homocedasticidad
Var [yij] = 2
Independencia
Cov [yij, ykl] = 0
Parámetros
2
2
1
K
40Análisis de la varianza
Modelo: Forma alternativa
),0(, 2Nuuy ijijiij
Las observaciones se descomponen en:Parte predecibleParte aleatoria
i
0
iju
41Análisis de la varianza
Estimación medias: Máxima Verosimilitud
K
n
jKj
KK
n
jj
n
jj
n
yy
n
yy
n
yy
K
1
2
12
22
1
11
11
:
:
:
2
1
A B C D229.1 233.4 211.1 270.4253.7 233.0 223.1 248.6241.3 219.2 217.5 230.0254.7 200.0 211.8 250.7237.2 224.3 207.6 230.0241.3 202.0 213.7 245.8242.9 218.7 214.1 245.9
42Análisis de la varianza
Estimación varianza (residuos)
Kn
es
e
yye
yu
Nuuy
K
i
n
jij
R
ij
iijij
iijij
ijijiij
i
1 1
2
22
2
ˆ:
:
),0(,
RESIDUO
4.142ˆ2Rs
A B C D-13.8 14.8 -3.0 24.510.8 14.4 9.0 2.7-1.6 0.6 3.4 -15.911.8 -18.7 -2.3 4.8-5.7 5.7 -6.5 -15.9-1.6 -16.7 -0.4 -0.10.0 0.0 0.0 0.0
Residuos
43Análisis de la varianza
Comparación de medias
La comparación de tratamientos con este modelose reduce a comparar las medias 1, 2, ..., K ,en primer lugar con el contraste:
diferente es una menos Al::
1
210
HH K
44Análisis de la varianza
Descomposición de la variabilidad
K
i
n
jiij
K
iii
K
i
n
jij
K
i
n
jiij
K
i
n
ji
K
i
n
jij
K
i
n
jiiji
iijiij
ijiijiijijiij
ii
iii
i
yyyynyy
yyyyyy
yyyy
i,j
yyyyyyn
yyyyyyuy
1 1
2
1
2
1 1
2
1 1
2
1 1
2
1 1
2
1 1
)()()(
)()()(
)0))(( donde(
todopara sumandoy cuadrado al elevando
)()(
, restando:)(
45Análisis de la varianza
Variabilidades
n-KeyyVNE
K-yynVE
n-yyVT
K
i
n
jij
K
i
n
jiij
K
iii
K
i
n
jij
ii
i
1 1
2
1 1
2
1
2
1 1
2
)(
1)(
1)(
libertad de GradosadesVariabilid
)()1(1 KnKnVNEVEVT
46Análisis de la varianza
Descomposición: ejemplo
229.1 233.4 211.1 270.4 242.9 218.7 214.1 245.9 -13.8 14.8 -3.0 24.5253.7 233.0 223.1 248.6 242.9 218.7 214.1 245.9 10.8 14.4 9.0 2.7241.3 219.2 217.5 230.0 242.9 218.7 214.1 245.9 -1.6 0.6 3.4 -15.9254.7 200.0 211.8 250.7 242.9 218.7 214.1 245.9 11.8 -18.7 -2.3 4.8237.2 224.3 207.6 230.0 242.9 218.7 214.1 245.9 -5.7 5.7 -6.5 -15.9241.3 202.0 213.7 245.8 242.9 218.7 214.1 245.9 -1.6 -16.7 -0.4 -0.1
-1.3 3.0 -19.3 40.0 12.5 -11.7 -16.3 15.5 -13.8 14.8 -3.0 24.523.3 2.6 -7.3 18.2 12.5 -11.7 -16.3 15.5 10.8 14.4 9.0 2.710.9 -11.2 -12.9 -0.4 12.5 -11.7 -16.3 15.5 -1.6 0.6 3.4 -15.924.3 -30.4 -18.6 20.3 12.5 -11.7 -16.3 15.5 11.8 -18.7 -2.3 4.86.8 -6.1 -22.8 -0.4 12.5 -11.7 -16.3 15.5 -5.7 5.7 -6.5 -15.910.9 -28.4 -16.7 15.4 12.5 -11.7 -16.3 15.5 -1.6 -16.7 -0.4 -0.1
= +
Datos Medias Residuos
= +
yyij yyi iij yy
4.230y
47Análisis de la varianza
Variabilidades: ejemplo
204.2847
311.4798)(
2315.7645)(
libertad de GradosadesVariabilid
1 1
2
1
2
1 1
2
n-KeVNE
K-yynVE
n-yyVT
K
i
n
jij
K
iii
K
i
n
jij
i
i
203234.28471.47985.7645
48Análisis de la varianza
Interpretación gráfica de la descomposición
iij yyyyi
1y
2y
3y
4y
y yyij
49Análisis de la varianza
Distribución de VE
21
22
2
22
1
1
222
2
22
1
1
221
22
///
///
),(
llamaremos que Si
),(),(
KK
K
KK
K
ii
K
iiiiij
nyy
nyy
nyy
ny
ny
ny
nNy
nNyNy
i
50Análisis de la varianza
Distribución de VNE
221
21
21
2
2
2
222
2
211
2
2
2222
211
1
2
1
222
1
211
1 1
2
2
212
21
2
22
21
ˆ)1(ˆ)1(ˆ)1(ˆ)(
ˆ)1(ˆ)1(ˆ)1(
)()()()(ˆ
ˆ)1(1
)(ˆ),(
21
Knnnn
KKR
KK
n
jKKj
n
jj
n
jj
K
i
n
jiij
R
nii
i
n
jiij
iiij
K
i
i
i
snsnsnsKn
Knsnsnsn
Kn
yyyyyy
Kn
yys
snn
yysNy
K
51Análisis de la varianza
Contraste (Análisis de la Varianza)
00
00
,10
212
1
2
22
2
rechaza Se rechaza se No
2ˆ)1(1
2)(
)( :cierto es Ho Siˆ)(
HFFHFF
FRsK
K
iyiyin
F
yynsKn
KnK
K
K
iii
KnR
diferente es una menos Al::
1
210
HH K
52Análisis de la varianza
Tabla de Análisis de la Varianza
1)(
)(
ˆ)1()(
)1/()(1)(
2
2
2
222
TotalResidual
osTratamient
FVarianzasLibertadCuadradosFuentesde Gradosde Suma
2ˆnyy
Knyy
sKyyn
KyynKyyn
ij
iij
R
iiiiii
Rs
53Análisis de la varianza
Tabla de Análisis de la Varianza
235.7645Total4.142204.2847Residual
2.113.159931.4798osTratamient
FVarianzasLibertadCuadradosFuentesde Gradosde Suma
54Análisis de la varianza
t /2-t /2
/2
tn-K
R.R. R.R
R. Acept. H0
1-/2
Intervalos de confianza para las medias
inRs
tiyi
Kn
i
R
ii
i
ii
iiiiij
t
ns
y
N
n
yn
NyNy
ˆ2/
ˆ
)1,0(
),(),(2
2
55Análisis de la varianza
Intervalos de confianza
Semilla Media L. Inferior L. SuperiorA 242.9 235.7 250.1B 218.7 211.4 225.8C 214.1 206.9 221.3D 245.9 238.7 253.1
56Análisis de la varianza
Intervalos de confianza (95%)
Semilla
Ren
dim
ient
o
A B C D200
210
220
230
240
250
260
57Análisis de la varianza
Diferencia de medias:
),(1
2
11
1
12
11
1
nNy
y
yy
n
),(2
2
22
2
22
21
2
nNy
y
yy
n
1 2
Kn
R
t
nns
yyN
nn
yynn
Nyy
21
2121
21
21212
2
1
2
2121
11ˆ
)()()1,0(
11)()(
),(
21 yy
58Análisis de la varianza
t /2-t /2
/2
tn-K
R.R. R.R
R. Acept. H0
1-/2
Contraste multiples
ji
ji
H
H
:
:
1
0
02/0
02/0
rechaza e
rechaza se No
HStt
Htt
Kn
jiR
jiij t
nns
yyt
11ˆ
Diagnosis del modelo
60Análisis de la varianza
1 2 K
...
Modelo
11
12
11
ny
yy
22
22
21
ny
yy
KKn
K
K
y
yy
2
1
...
61Análisis de la varianza
Hipótesis del modelo
Normalidadyij N( i, 2)
HomocedasticidadVar [yij] = 2
IndependenciaCov [yij, ykl] = 0
62Análisis de la varianza
Residuos: Normales y homocedásticos
),0( 2Nu
yu
uy
ij
iijij
ijiij
A B C D-13,8 14,8 -3,0 24,510,8 14,4 9,0 2,7-1,6 0,6 3,4 -15,911,8 -18,7 -2,3 4,8-5,7 5,7 -6,5 -15,9-1,6 -16,7 -0,4 -0,10,0 0,0 0,0 0,0
Residuos
0
iijij yye
63Análisis de la varianza
Comprobación de la normalidad
Los residuos deben de tener distribución normal. Las observaciones originales también, pero cada grupo con media diferente, por ello es preciso estimar el modelo para descontar a cada observación su media y obtener valores con la misma distribución.
Herramientas de comprobación:Histograma de residuosGráfico de probabilidad normal (Q-Q plot)Contrastes formales (Kolmogorov-Smirnov)
64Análisis de la varianza
Gráfico probabilista normal
Es un gráfico X-Y de losresiduos frente a lospercentiles de ladistribución normal.
La idea básica es quecuando los residuostienen distribuciónnormal, los puntosdeben formaraproximadamenteuna línea recta.
Pasos:Ordenar los residuos de
menor a mayor.
Calcular los percentiles de la distribución normal
Representar nis
niY Ri ,...,2,1,ˆ)5.0(1
)()2()1( neee
ii Ye ,)(
65Análisis de la varianza
Gráfico prob. Normal (ejemplo)
Q-Q plot
-30,0
-20,0
-10,0
0,0
10,0
20,0
30,0
-30,0 -20,0 -10,0 0,0 10,0 20,0 30,0
Residuos ordenados
Perc
entil
es
Orden Resid. Probab. Percen. Percen.i eij (i-0.5)/n N(0,1) N(0, )1 -18,7 0,021 -2,04 -24,302 -16,7 0,063 -1,53 -18,303 -15,9 0,104 -1,26 -15,014 -15,9 0,146 -1,05 -12,585 -13,8 0,188 -0,89 -10,586 -6,5 0,229 -0,74 -8,857 -5,7 0,271 -0,61 -7,288 -3,0 0,313 -0,49 -5,839 -2,3 0,354 -0,37 -4,4610 -1,6 0,396 -0,26 -3,1511 -1,6 0,438 -0,16 -1,8812 -0,4 0,479 -0,05 -0,6213 -0,1 0,521 0,05 0,6214 0,6 0,563 0,16 1,8815 2,7 0,604 0,26 3,1516 3,4 0,646 0,37 4,4617 4,8 0,688 0,49 5,8318 5,7 0,729 0,61 7,2819 9,0 0,771 0,74 8,8520 10,8 0,813 0,89 10,5821 11,8 0,854 1,05 12,5822 14,4 0,896 1,26 15,0123 14,8 0,938 1,53 18,3024 24,5 0,979 2,04 24,30
66Análisis de la varianza
Gráfico probabilista normal
Residuos
Prob
abili
dad
-30 -20 -10 0 10 20 300.1
15
2050809599
99.9
67Análisis de la varianza
Ejemplos
-3 -1 1 3 50,1
15
2050809599
99,9
-2,6 -1,6 -0,6 0,4 1,4 2,4 3,40,1
15
2050809599
99,9
0 3 6 9 12 150,1
15
2050809599
99,9
0 0,4 0,8 1,2 1,6 20,1
15
2050809599
99,9
Normal No normal
No normal No normal
68Análisis de la varianza
Comprobación de la homocedasticidad
En el proceso de estimación se ha supuesto que los distintos tratamientos tienen la misma varianza.
Herramientas:- Gráficos de residuos:
·Frente a valores previstos·Frente a tratamientos (o factor,etc.)
- Contrastes formales:Bartlett, Cochran, Hartley, Levene
69Análisis de la varianza
Residuos - Valores previstos
En este modelo los valoresprevistos corresponden ala media del tratamiento.
Los puntos deben aparecerdispuestos al azar en unabanda horizontal alrededordel eje horizontal.
Heterocedasticidad: a vecesla dispersión aumentaconforme la media crece.re
siduo
s
Valores previstos
-30
-20
-10
0
10
20
30
0 5 10 15
resid
uos
valores previstos
-30
-20
-10
0
10
20
30
210 220 230 240 250
70Análisis de la varianza
Residuos por tratamientos
A B C D-25
-15
-5
5
15
25
Resid
uos
Semilla
En cada grupo los residuos aparecen esparcidos con dispersión similar y media cero.
máx
.
mín
.
71Análisis de la varianza
Residuos por tratamientos
A B C D-25
-15
-5
5
15
25Re
siduo
s
Semilla
En cada grupo los residuos aparecen esparcidos con dispersión similar y media cero.
máx
.
mín
.
3mínmáx
72Análisis de la varianza
Contrastes formales
1
1
2
2
K
K...
distinta es Alguna ::
1
222
210
HH K
73Análisis de la varianza
Contrastes formales
Un ejemplo de este tipo de contrastes formales es el contraste de Bartlett.
Para el ejemplo de los tipos de semilla se tiene un p-valor = 0.177>α No se rechaza la hipótesis nula de homocedasticidad.
resid
uos
Valores previstos
-0,43
-0,23
-0,03
0,17
0,37
0,57
0 0,3 0,6 0,9 1,2 1 2 3-0,43
-0,23
-0,03
0,17
0,37
0,57
resi
duos
Tratamientos
-0,33 -0,13 0,07 0,27 0,47
residuos
0,115
2050809599
99,9
prob
abili
dad
Diagnosis: Tres gráficos básicos
Normalidad
Homocedasticidad
75Análisis de la varianza
Gráfico probabilista normal
-0,33 -0,13 0,07 0,27 0,47
residuos
0,115
2050809599
99,9
prob
abili
dad
76Análisis de la varianza
Transformaciones z=h(y) para estabilizar la varianza
En la práctica, en la mayoría de los casos, alguna de las transformaciones siguientes corrige la heterocedasticidad:
· 1/x· log(x)· x2 (u otras transformaciones xp)· x
77Análisis de la varianza
Transformaciones Box-Cox
-1,5
-1
-0,5
0
0,5
1
1,5
0log
1
psiyzp
yz
ijij
pij
ij
1ijy
ijzp = 1
p < 1
p > 1
78Análisis de la varianza
Búsqueda de la transformación adecuada
La dispersión aumenta al aumentar la media
p < 1
La dispersión disminuye al aumentar la media
p > 1
resi
duos
Valores previstos
-0,43
-0,23
-0,03
0,17
0,37
0,57
0 0,3 0,6 0,9 1,2
resi
duos
valores previstos
-1,4
-0,9
-0,4
0,1
0,6
1,1
1,6
0 4 8 12 16
79Análisis de la varianza
Elección de la transformación
Empezar con p=1 (datos sin transformar) y decidir a partir de los gráficos si p>1 o p<1.
Parar cuando los gráficos estén ok.
pijij yz
211
12/1
log02/1
1
ijij
ijij
ijij
ijij
yzp
yzp
yzpyzp
p
80Análisis de la varianza
Independencia
Es la hipótesis fundamental y con diferencia la másimportante de las tres, además es la más difícil decomprobar.
La falta de independencia suele ir ligada a factores nocontrolados por el experimentador y que influyen enlos resultados introduciendo errores sistemáticos.
La forma más recomendable de evitar erroressistemáticos consiste en aleatorizar.
81Análisis de la varianza
Aleatorización
La aleatorización evita que se produzcanerrores que sistemáticamente aumenten odisminuyan un conjunto de medidas porcausas no reconocibles: al aleatorizar sereparten estos errores por igual entre losdiferentes tratamientos y se convierten enerrores aleatorios, previstos en el modelo.
82Análisis de la varianza
¿Cómo aleatorizar?
Asignar las unidades experimentales al azar alos distintos tratamientos.
Aleatorizar el orden de ejecución de losexperimentos.
Aleatorizar respecto a cualquier otra variableque implique diferenciar a los tratamientos.
“La aleatorización es una precaución contra distorsionesque pueden ocurrir o no ocurrir, y que pudieran serserias o no si llegaran a ocurrir”
¿Cómo aleatorizar?
83Análisis de la Varianza
Asignar las unidades experimentales al azar alos distintos tratamientos.
Aleatorizar el orden de ejecución de losexperimentos.
Aleatorizar respecto a cualquier otra variableque implique diferenciar a los tratamientos.
“La aleatorización es una precaución contra distorsionesque pueden ocurrir o no ocurrir, y que pudieran serserias o no si llegaran a ocurrir”
Comparación de k tratamientos con R
84Análisis de la Varianza
Ejemplos:
- Comparación de k=4 tipos de semilla en laproducción de centeno (centeno.txt).
- Datos obtenidos por Heyl para medir el valor de laconstante de gravitación universal, G, comparaciónpara k=3 materiales (heyl.txt).
- Influencia del tipo de fibra en el tiempo decombustión (fibras.txt).
Ejemplo 1: Centeno
85Análisis de la Varianza
ARCHIVO TEXTO: centeno.txt
Tabla ANOVA: Centeno
86Análisis de la Varianza
Intervalos de confianza: Centeno
87Análisis de la Varianza
> source('ICplot.R') > ICplot(mod, ‘Sem')
210
230
250
Sem
med
ias
A B C D
Comparaciones Múltiples: Centeno
88Análisis de la Varianza
Diagnosis: Centeno
89Análisis de la Varianza
215 220 225 230 235 240 245
-20
010
Fitted values
Res
idua
ls
Residuals vs Fitted19
1012
-2 -1 0 1 2
-10
12
Theoretical Quantiles
Sta
ndar
dize
d re
sidu
als
Normal Q-Q19
10 12
215 220 225 230 235 240 245
0.0
0.5
1.0
1.5
Fitted values
Sta
ndar
dize
d re
sidu
als Scale-Location
19
1012
-2-1
01
2
Factor Level Combinations
Sta
ndar
dize
d re
sidu
als
C B A Dcenteno$Sem :
Constant Leverage: Residuals vs Factor Levels
19
1012
Ejemplo 2: Datos de Heyl
90Análisis de la Varianza
Datos de las mediciones realizadas para G (x 1011 N m2/kg2)
ANOVA Ejemplo 2: Datos de Heyl
91Análisis de la Varianza
Comparaciones múltiples: Datos de Heyl
92Análisis de la Varianza
El objetivo es saber qué tipo de semilla es mejor.
Comparaciones múltiples: Datos de Heyl
93Análisis de la Varianza
Comparaciones 2 a 2
Comparaciones múltiples: Datos de Heyl
94Análisis de la Varianza
Comparaciones 2 a 2
Diagnosis: Datos de Heyl
95Análisis de la Varianza
Diagnosis del modelo
Ejemplo 3: Combustión de distintos tipos de fibra
96Análisis de la Varianza
Se ha realizado un experimento para medir el tiempo decombustión de unos retales de cuatro fibras diferentes. Enla tabla siguiente se proporcionan los resultados obtenidos(en segundos) del modelo.
Ejemplo 3: Combustión de distintos tipos de fibra
97Análisis de la Varianza
Se ha realizado un experimento para medir el tiempo decombustión de unos retales de cuatro fibras diferentes. Enla tabla siguiente se proporcionan los resultados obtenidos(en segundos) del modelo.
- ¿Tienen las cuatro fibras igual comportamiento respecto altiempo de combustión? Indique el nivel crítico delcontraste.
- ¿Cuál es la fibra que presenta menor tiempo medio decombustión?.
- Analizar los residuos comprobar las hipótesis del modelo.
Ejemplo 3: Combustión de distintos tipos de fibra
98Análisis de la Varianza
Se rechaza la hipótesis nula de que todas las fibras seaniguales frente a la alternativa de que alguna es distinta,con un p-valor de 0.0001016 < α.
Ejemplo 3: Combustión de distintos tipos de fibra
99Análisis de la Varianza
Comparaciones múltiples. El mayor tiempo de combustión,significativamente distinto a los anteriores: fibra A. En mediala C es la que tiene menor tiempo de combustión, pero nosignificativamente distinta a la B y D.
Ejemplo 3: Combustión de distintos tipos de fibra
100Análisis de la Varianza
Diagnosis del modelo
101Análisis de la Varianza
Análisis de la varianza con R:comparación de dos tratamientos
Ejemplos:
- Velocidad de la luz: Michelson vs. Newcomb- Sensores- Pilas
102Análisis de la Varianza
Análisis de la varianza con R: Ejemplo 1: Michelson
En 1879, el físico norteamericano Albert A. Michelson tomó 100 medidas de lavelocidad de la luz en el aire empleando una modificación del método propuestopor el físico francés Foucault. Las medidas que tomó se proporcionan acontinuación (en miles de km/s).
En 1882 Simon Newcomb midió el tiempo que una señal luminosa tardaba en recorreruna distancia de 7.442 metros.
En el fichero Michelson.txt se incorporan los datos obtenidos de ambos experimentos,en miles de km/s.
Los datos de Michelson y Newcomb fueron tomados con una diferencia de tres años ycon experimentos diferentes. Basándose en los resultados anteriores sobre elmodelo distribucional del que proceden estos datos, responde las siguientescuestiones:
- Compare gráficamente los datos de la velocidad de la luz de Newcomb y deMichelson (diagramas de cajas e histogramas).
- Analice si existen diferencias significativas entre las estimaciones de la velocidad dela luz obtenidas en ambos experimentos.
103Análisis de la Varianza
Análisis de la varianza con R: Ejemplo 1: Michelson
104Análisis de la Varianza
Análisis de la varianza con R: Ejemplo 1: Michelson
Comparación de los métodos de Michelson (M) y Newcomb (N):
105Análisis de la Varianza
Análisis de la varianza con R: Ejemplo 1: Michelson
Diagnosis: Contraste de Bartlett
106Análisis de la Varianza
Análisis de la varianza con R: Ejemplo 1: Michelson
Diagnosis: Contraste de Bartlett
Se rechaza la hipótesis nula de igualdad de varianzas
El rechazo de la hipótesis nula se debe a la presencia de valoresatípicos en el experimento de Newcomb.
2 20
2 21
:
:MICHELSON NEWCOMB
MICHELSON NEWCOMB
H
H
107Análisis de la Varianza
Análisis de la varianza con R: Ejemplo 2: Sensores
Una empresa suministra tubos de escape a la industria del automóvil. En el tubo deescape se coloca un sensor que comunica al ordenador del coche el contenido deCO en los gases de escape. La empresa dispone de dos tipos de sensores A y Bbasados en principios de medición diferentes. Tanto uno como otro se colocan en elsilencioso del tubo de escape. El departamento de I+D de la empresa sospecha quepueden existir diferencias entre las mediciones efectuadas por los dos tipos desensor y decide realizar un experimento. La primera idea consiste en seleccionar 10sensores del tipo A y otros 10 del tipo B y colocarlos en los tubos de escape de 20coches distintos.
No obstante un ingeniero de la empresa sugiere que para evitar que la variabilidad entre coches distintos enmascare los resultados del experimento, se utilicen 10 coches y que en cada uno de ellos se monte un sensor A y otro B ambos colocados en el silencioso y en dos posiciones cercanas entre sí.
¿Qué procedimiento experimental le parece más adecuado? ¿Por qué?.Finalmente se opta por el plan experimental propuesto por el ingeniero. El contenido en
partes por millón de CO observado en el experimento fue el que se indica en la tabla (Sensor.txt):
108Análisis de la Varianza
Análisis de la varianza con R: Ejemplo 2: Sensores
109Análisis de la Varianza
Análisis de la varianza con R: Ejemplo 2: Sensores
No existen diferencias significativas entre los tipos de sensores A y B
110Análisis de la Varianza
Análisis de la varianza con R: Ejemplo 2: Sensores
Diagnosis del modelo: Comprobación de la homocedasticidad e independencia.
111Análisis de la Varianza
Análisis de la varianza con R: Ejemplo 2: Sensores
Diagnosis del modelo: Comprobación de la homocedasticidad mediante el contraste de Bartlett. Alternativa sólo válida para k=2 tratamientos.
112Análisis de la Varianza
Análisis de la varianza con R: Ejemplo 3: Tiempo de descarga de pilas
Se ha medido el tiempo hasta la descarga de dos marcas de pilas y se desea contrastar si en base a esta variable las dos marcas son distintas.
Tabla de datos: Energizer Ultracell
1,40 1,56
1,39 1,54
1,35 1,53
1,38 1,54
1,35 1,54
1,36 1,47
1,31 1,49
1,26 1,54
1,37 1,50
113Análisis de la Varianza
Análisis de la varianza con R: Ejemplo 3: Tiempo de descarga de pilas
Se ha medido el tiempo hasta la descarga de dos marcas de pilas y se desea contrastar si en base a esta variable las dos marcas son distintas.
114Análisis de la Varianza
Análisis de la varianza con R: Ejemplo 3: Tiempo de descarga de pilas
Comparaciones dos a dos del ejemplo PILAS2:
115Análisis de la Varianza
Análisis de la varianza con R: Ejemplo 3: Tiempo de descarga de pilas
Diagnosis del ejemplo PILAS2:
116Análisis de la Varianza
Análisis de la varianza con R: Ejemplo 3: Tiempo de descarga de pilas
Contraste de Bartlett para el ejemplo PILAS2:
No se rechaza la hipótesis nula de homocedasticidad (igualdad de varianzas).
Analisis de la Varianza, comparacion de 2 tratamientos
1. Se estudian dos tipos de neumaticos con los resultados siguientes:
Tipo ni xi(Km) si(Km)A 121 27465 2500B 121 27572 3000
Calcular, con α = 0.01:
a) Un intervalo de confianza paraσ21
σ22.
b) Un intervalo de confianza para µ1 − µ2.
2. Se dispone de rendimientos de dos maquinas. Los resultados de la maquina A son 137.5;14.07; 106.9; 175.1; 177.3; 120.4; 77.9 y 104.2, mientras que los reultados para la B son: 103.3;121.7; 98.4; 161.5; 167.8 y 67.3. ¿Son las maquinas iguales? (Suponer que los rendimientosde ambas maquinas siguen distribuciones normales).
3. Un fabricante de automoviles debe elegir entre un determinado tipo de piezas de acerosuministradas por un proveedor A y otras suministradas por otro proveedor B. Para procedera la eleccion se ha analizado la resistencia a la traccion de las piezas suministradas por ambosproveedores, tomando una muestra de tamano 10 de las piezas del primero, y otra de tamano12 del segundo. La resistencia media de la muestra de A es de 54000 unidades y la de lamuestra de B es de 49000 unidades, siendo las desviaciones tıpicas muestrales corregidassA = 2100 y sB = 1900. Las resistencias de las piezas de ambos proveedores se distribuyennormalmente. Las piezas del proveedor B son mas baratas que las del proveedor A, por loque estas ultimas solo son rentables si tienen una resistencia media al menos 2000 unidadesmayor que las de B, y la misma variabilidad.
a) ¿A que proveedor habrıa que comprar las piezas a la vista de los resultados muestrales?
b) Obtener un intervalo de confianza al 90% para la diferencia de medias de la resistenciade las piezas de los proveedores A y B.
Analisis de la Varianza, comparacion de k tratamientos
1. En una fabrica de automoviles se utiliza una misma planta para el ensamblaje de tres modelosdistintos (A,B y C). Para determinar si los modelos reciben el mismo tratamiento, se harealizado un control de calidad a una muestra tomada para cada modelo. El numero dedefectos encontrados para cinco vehıculos del modelo A son 5, 4, 6, 6 y 7; para seis vehıculosdel modelo B son 7, 8, 6, 7, 6 y 5; y para ocho vehıculos del modelo C: 9, 7, 8, 9, 10, 11, 10 y10. Contrastar si existen diferencias en el tratamiento que se da a los distintos modelos.
1
2. Una empresa debe elegir entre cinco procedimientos para fabricar un cierto producto quımico.Se sospecha que existen diferencias entre ellos aunque pequenas. Para detectar estas diferen-cias se pretende realizar un experimento a gran escala con el mismo numero de observacionesen cada grupo. Para determinar este tamano muestral se ha realizado un experimento pilotocon 6 observaciones de cada metodo y los resultados (medias de cada grupo) han sido lossiguientes:
METODO 1 2 3 4 5Media 425.6 423.2 418.8 430.2 422.2
y la varianza residual s2R = 198.5.
(a) ¿ Cual debe ser el tamano muestral del experimento a gran escala para que el contrastede analisis de la varianza sea significativo con α = 0.01 si el coeficiente de determinaciones igual al del experimento piloto?.
(b) El metodo A es el procedimiento habitual y el metodo D es el que se sospecha propor-ciona mejor rendimiento. Una hipotesis que se pretende contrastar es H0 : µD = µA,frente a la hipotesis alternativa H1 : µD > µA. ¿ Que condicion debe cumplir la difer-encia entre las medias muestrales de los dos metodos para rechazar H0 con α = 0.01?
3. Se ha realizado un experimento para estudiar el efecto de un unico factor con I nivelesen la variable respuesta y con un numero diferente de observaciones en cada tratamiento:n1, n2, ..., nI siendo el total n = n1 + n2 + · · · + nI . Llamando yij a la observacion j deltratamiento i, i = 1, ..., I, j = 1, 2, ..., ni e yi• la media del tratamiento i. Se desea estimarla media general ¿cual de los dos estimadores siguientes
y•• =
I∑i=1
ni∑j=1
yij
n, y•• =
I∑i=1
yi•
I
tiene mınima varianza? Realiza la comprobacion para el caso I = 5, con ni = 3, 2, 3, 5, 6 elnumero de observaciones en cada tratamiento. Asumir que las observaciones son independi-entes y que se cumple la hipotesis de homocedasticidad.
4. Considere la comparacion de dos tratamientos en poblaciones normales. Demuestre que elcontraste t para comparar dos medias es analogo al contraste de la F en Analisis de laVarianza (suponga n1 = n2).
5. Cinco tipos (A, B, C, D y E) de material sintetico se han sometido a un ensayo de desgaste.Para cada tipo de material la prueba se repitio 6 veces. El desgaste medio y la desviaciontıpica corregida en cada caso es la siguiente:
A B C D Emedia xi 14.1 16.3 13.5 14.8 15.3d. tıpica si 1.3 1.2 1.4 1.2 1.5
2
(a) Contrastar (α = 0.05) la hipotesis
H0 : µA = µB = µC = µD = µE
frente a la hipotesis alternativa,
H1 : alguna media es distinta de las demas.
(b) Indicar con nivel de confianza 0.95 el material con desgaste menor y que materialestienen desgaste medio, distinto.
(c) Obtener un intervalo de confianza con α = 0.01 para la varianza del error experimental.
6. Se desea comprobar el efecto de un tratamiento termico sobre la resistencia de un nuevomaterial. Se han tomado 15 probetas y se han asignado al azar a los tres tratamientos T1,T2 y T3 obteniendo como medida de resistencia superficial los valores siguientes:
T1 T2 T3
2.65 4.31 4.812.67 3.96 5.322.46 4.64 4.931.90 4.74 5.492.62 4.00 4.45
(a) Contrastar mediante el test de analisis de la varianza si existen diferencias significativasentre los tratamientos termicos (α = 0.01).
(b) La temperatura del tratamiento 2 es la media de las temperaturas de los otros dostratamientos. Si la relacion entre la resistencia y la temperatura es lineal, es de esperarque la media del tratamiento 2 verifique : H0 : µ2 = 1
2(µ1 + µ3). Hacer el contraste
bilateral de esta hipotesis con α = 0.05. (Nota.- Usar la distribucion de y2−(y1+y3)/2,donde yi es la media de los datos correspondientes al tratamiento Ti).
7. Un fabricante sospecha que los lotes de materia prima recibidos de un proveedor difierensignificativamente de su contenido en calcio. Elige al azar 5 lotes diferentes y un quımicohace cinco determinaciones del contenido en calcio de cada lote. Los resultados obtenidoshan sido
Lote 1 Lote 2 Lote 3 Lote 4 Lote 523.46 23.59 23.51 23.28 23.2923.48 23.46 23.64 23.40 23.4623.56 23.42 23.46 23.37 23.3723.39 23.49 23.52 23.46 23.3223.40 23.50 23.49 23.29 23.38
La tabla de analisis de la varianza se proporciona a continuacion. Comparar las medias delos cinco tratamientos con nivel de significacion total αT = 0.10.
3
Analisis de la varianzaFuente Variabilidad g.l. Var. Media F Nivel crıticoLote 0.096976 4 0.024244 5.54 0.0036Residuos 0.08760 20 0.00438Total 0.184576 24
4
2. Diseño de Experimentos
Diseño de experimentos:
Diseños FactorialesBloques Aleatorizados
3Diseño Experimentos
Formas de realizar un experimento
2.1 Diseños factoriales(dos factores)
5Diseño Experimentos
Ejemplo
A B C D0.31 0.82 0.43 0.450.45 1.10 0.45 0.71
V 0.46 0.88 0.63 0.66E 0.43 0.72 0.72 0.62N 0.36 0.92 0.44 0.56E 0.29 0.61 0.35 1.02N 0.40 0.49 0.31 0.71O 0.23 1.24 0.40 0.38S 0.22 0.30 0.23 0.30
0.21 0.37 0.25 0.360.18 0.38 0.24 0.310.23 0.29 0.22 0.33
ANTÍDOTO
I
II
III
Se analiza el efecto de tres venenos y cuatro antídotos en el tiempo de supervivencia de unas ratas.
Comandos en R
6Diseño Experimentos
ARCHIVO TEXTO: venenos.txt
7Diseño Experimentos
Modelo
ijkijjiijk uy
IJm
IJ
IJ
Jm
J
J
Jm
J
J
mI
I
I
mm
mI
I
I
mm
y
yy
y
yy
y
yy
J
y
yy
y
yy
y
yy
y
yy
y
yy
y
yy
I
2
1
2
22
12
1
21
11
2
22
21
22
222
221
12
122
121
1
12
11
21
212
211
11
112
111
2
1
21Factor 1
Fact
or 2
•Normalidad•Independencia•Homocedasticidad
I J tratamientos
m replicaciones
n = m I J
...1111 2112 11 II
...1221 2222 22 II
...JJ 11 JJ 22 IJJI
Factor 11 2 I
1
2
J
...
Fact
or 2
9Diseño Experimentos
Modelo
: Media globali : Efecto del Factor 1 i, i=1,...,Ij : Efecto del Factor 2 j, j=1,...,J
ij: Interacción de niveles ijuijk : Componente aleatoria N(0, 2), k=1,…m
Ii i1 0 J
j j1 0
ijkijjiijk uyjI
i ij ,01
iJj ij ,01
10Diseño Experimentos
Estimación del modelo
1:)1)(1(:
1:1:
1:
2
j
i
JIJI
ij
n
yy
mI
yy
mJ
yy
m
yy
I
i
J
j
m
kijk
I
i
m
kijk
j
J
j
m
kijk
i
m
kijk
ij1 1 11 11 11
)1(ˆˆ
ˆˆˆ
222
mIJe
s
yyyy
yyyy
y
ijkR
jiijij
jj
ii
Estimación del modelo
11Diseño Experimentos
ijkijjiijk uy
ijkijjiijk ey ˆˆˆ
ijijkijjiijkijk yyye )ˆˆˆ(
g.l.=IJm-IJ=IJ(m-1)
12Diseño Experimentos
Estimación
A B C D0.31 0.82 0.43 0.45
V 0.45 1.10 0.45 0.71 0.46 0.88 0.63 0.66E 0.43 0.72 0.72 0.62 0.41 0.88 0.56 0.61N 0.36 0.92 0.44 0.56 0.29 0.61 0.35 1.02E 0.40 0.49 0.31 0.71 0.23 1.24 0.40 0.38N 0.32 0.82 0.38 0.67
0.22 0.30 0.23 0.30O 0.21 0.37 0.25 0.36
0.18 0.38 0.24 0.31S 0.23 0.29 0.22 0.33
0.21 0.34 0.24 0.33
ANTÍDOTO
I
II
III
13Diseño Experimentos
EstimaciónA B C D Medias
0,31 0,82 0,43 0,45 0,45 1,10 0,45 0,71V 0,46 0,88 0,63 0,66 0,43 0,72 0,72 0,62
E Medias 0,41 0,88 0,56 0,61 -0,038 0,067 0,032 -0,061N 0,36 0,92 0,44 0,56 0,29 0,61 0,35 1,02E 0,40 0,49 0,31 0,71 0,23 1,24 0,40 0,38
N Medias 0,32 0,82 0,38 0,67 -0,060 0,073 -0,080 0,068O 0,22 0,30 0,23 0,30 0,21 0,37 0,25 0,36S 0,18 0,38 0,24 0,31
0,23 0,29 0,22 0,33Medias 0,21 0,34 0,24 0,33
0,098 -0,139 0,048 -0,007
0,314 0,677 0,389 0,534
-0,164 0,198 -0,089 0,056
II 0,544 0,066
III 0,276 -0,202
ANTÍDOTO
I 0,615 0,136
0,479Medias
iˆ
jˆ
ij
ij
ij
Dos factores con interacción
14Diseño Experimentos
15Diseño Experimentos
Residuos
A B C D-0.103 -0.060 -0.128 -0.160
V 0.038 0.220 -0.108 0.100 0.048 0.000 0.073 0.050E 0.018 -0.160 0.163 0.010 0.00 0.00 0.00 0.00N 0.040 0.105 0.065 -0.108 -0.030 -0.205 -0.025 0.353E 0.080 -0.325 -0.065 0.043 -0.090 0.425 0.025 -0.288N 0.00 0.00 0.00 0.00
0.010 -0.035 -0.005 -0.025O 0.000 0.035 0.015 0.035
-0.030 0.045 0.005 -0.015S 0.020 -0.045 -0.015 0.005
0.00 0.00 0.00 0.00
III
RESIDUOS
ANTÍDOTO
I
II
022,0)1(
ˆˆ2
22
mIJe
s ijkR
kijk
ijijkijk
e
yye
0
16Diseño Experimentos
17Diseño Experimentos
Descomposición de la variabilidad
)1()1)(1()1()1()1()()()(
mIJJIJInVNEBAVEBVEAVEVT
DATOS MODELO
18Diseño Experimentos
Variabilidades
I
i
J
j
m
k
I
i
J
j
m
kijkijijk
I
i
J
jij
J
j
I
iij
I
i
I
iii
I
i
J
j
m
kijk
eyyVNE
mBAVE
mIyymIBVE
mJyymJAVE
yyVT
1 1 1 1 1 1
22
1 1
2
1 1
22
1 1
22
1 1 1
2
)()(
)()(
)ˆ()()(
)ˆ()()(
)(
Descomposición de la variabilidad
19Diseño Experimentos
20Diseño Experimentos
Análisis de la varianza
I
i
J
j
m
kijk
I
i
J
j
m
kjiij
I
i
J
j
m
kj
I
i
J
j
I
i
J
j
m
ki
m
kijk
ijkjiijjiijk
ijijkjiijjiijk
ijkijjiijkijkijjiijk
eyyyy
yyyyyy
eyyyyyyyyyy
yyyyyyyyyyyy
eyuy
1 1 1
2
1 1 1
2
1 1 1
2
1 1 1 1 1
2
1
2
)(
)()()(
)()()(
)()()()(
ˆˆˆ
I
i
J
j
m
kijk
I
i
J
jjiij
J
jj
I
i
J
j
I
ii
m
kijk
eyyyym
yymIyymJyy
1 1 1
2
1 1
2
1
2
1 1 1
2
1
2
)(
)()()(
21Diseño Experimentos
Contraste de Hipótesis
Si el Veneno no influye, los I niveles son iguales a efectos de tiempo de supervivencia, entonces
0 de distinto es Algún :0:
i1
210
HH I
I21Ii i1 0
22Diseño Experimentos
Contraste efecto principal de factor A
0 de distinto es Algún :0:
i1
210
HH I
222 ]ˆ[)1(
ˆ RR sEmIJ
VNEs
222 ]ˆ[1
)(ˆ AA sE
IAVEs cierto, es Ho Si
)1(;121
2
2
2
ˆ
1)(
ˆˆ
mIJIR
I
ii
R
AA F
s
IyymJ
ssF
Ho rechaza Se Si FFA
23Diseño Experimentos
Contraste efecto principal de factor B
0 de distinto es Algún :0:
j1
210
HH J
222 ]ˆ[1)(
ˆ BB sEJ
BVEs cierto, es Ho Si
)1(;121
2
2
2
ˆ
1)(
ˆˆ
mIJJR
J
jj
R
BB F
s
JyymI
ssF
Ho rechaza Se Si FFB
24Diseño Experimentos
Contraste interacción AxB
0 de distinto es Algún ij:0:
1
12110
HH IJ
222 ]ˆ[)1)(1(
)(ˆ ABAB sE
JIBAVEs cierto, es Ho Si
)1();1)(1(2
2
ˆˆ
mIJJIR
ABAB F
ssF
naninteraccio BA y Ho rechaza Se Si FFAB
25Diseño Experimentos
Tabla de análisis de la varianza
1)(Total
ˆ)1(Residual
ˆˆ
ˆ)1)(1()(BA
ˆˆ
ˆ1)(B
ˆˆ
ˆ1)(A
valorpFVarianzaLibertad.CuadradosadVariabilidde Gradosde SumaFuentes
2
22
2
2
22
2
2
22
2
2
22
nyy
smIJe
pss
sJIyyyym
pss
sJyymI
pss
sIyymJ
ijk
Rijk
ABR
AB
ABjiij
BR
B
Bj
AR
A
Ai
Tabla ANOVA
26Diseño Experimentos
Interpretación
La interacción no es significativa
Se interpreta cada factor por separado
27Diseño Experimentos
28Diseño Experimentos
Contrastes múltiples: Factor A
ji
ji
H
H
:
:
1
0
)1(2ˆ
mIJ
R
ji t
mJs
yy
t /2-t /2
/2
tIJ(m-1)
R.R. R.R
R. Acept. H0
1-/2
),(ˆˆ
ˆˆˆˆ
22
mJmJN
yyyyyy
jiji
jijijj
ii
Ho
mJstyy
LSD
Rji
rechaza Se
2ˆ2/
29Diseño Experimentos
Contrastes múltiples: Factor B
ji
ji
H
H
:
:
1
0
)1(2ˆ
mIJ
R
ji t
mIs
yy
t /2-t /2
/2
tIJ(m-1)
R.R. R.R
R. Acept. H0
1-/2
),(ˆˆ
ˆˆˆˆ
22
mImIN
yyyyyy
jiji
jijijj
ii
Ho
mIstyy
LSD
Rji
rechaza Se
2ˆ2/
30Diseño Experimentos
Intervalos de confianza (interacción nula)
mJsty R
iiˆ
2/
mIsty R
jiˆ
2/
Intervalos de Confianza
31Diseño Experimentos
0.2
0.3
0.4
0.5
0.6
0.7
VEN
med
ias
I II III
0.3
0.4
0.5
0.6
0.7
ANT
med
ias
A B C D
> source('ICplot.R') > par(mfrow = c(1,2))> ICplot(mod_box, 'VEN') > ICplot(mod_box, 'ANT')
Comparaciones Múltiples
32Diseño Experimentos
Comparaciones Múltiples
33Diseño Experimentos
En este ejemplo NO se debe interpretar porque no es significativa. ¿Cómo se haría?
34Diseño Experimentos
Interacción
Diagnosis: Sobre residuos
NormalidadHomocedasticidadIndependencia
35Diseño Experimentos
Diagnosis
36Diseño Experimentos
37Diseño Experimentos
38Diseño Experimentos
Diagnosis: homocedasticidad
39Diseño Experimentos
Homocedasticidad
40Diseño Experimentos
Normalidad
Conclusión:Transformar
41Diseño Experimentos
log y1/ySqrt(y)
Transformación 1/y
42Diseño Experimentos
43Diseño Experimentos
Diagnosis: homocedasticidad datos transformados z=1/y
44Diseño Experimentos
Homocedasticidad datos transformados z=1/y
45Diseño Experimentos
Normalidad datos transformados z=1/y
46Diseño Experimentos
Comparaciones múltiples intervalos de confianza
47Diseño Experimentos
48Diseño Experimentos
EjercicioUn investigador quiere estudiar el efecto del sexo (H, M) y tipo de formación (ciencias, letras) en el dominio del inglés escrito en profesores universitarios. Para ello se analiza el nº de incorrecciones gramaticales en artículos científicos enviados a publicación. Para combinación de niveles de los factores se han elegido al azar tres profesores. En la tabla se proporciona el nº de fallos detectados en artículos de 15 páginas. ¿Qué conclusiones pueden extraerse?.
Letras Ciencias
Hombre 8, 6, 13 22, 28,33
Mujer 5,10,6 12,14,9
Comandos en R
49Diseño Experimentos
ARCHIVO TEXTO: ciencias.txt
> view(error)> attach(error) > names(error)> error
Estimación
50Diseño Experimentos
Descomposición variabilidad
51Diseño Experimentos
Análisis de la Varianza
52Diseño Experimentos
• Considerando nivel de significación 0,05, los efectos principales y la interacción son SIGNIFICATIVOS
• La interpretación se hace a partir del gráfico de interacción
En este ejemplo es significativa.
53Diseño Experimentos
Interacción:
Diagnosis: Sobre residuos
NormalidadHomocedasticidadIndependencia
54Diseño Experimentos
Diagnosis
55Diseño Experimentos
Diagnosis: más graficos
56Diseño Experimentos
Bloques Aleatorizados
58Diseño Experimentos
Ejemplo de introducción
Se desea estudiar el efecto de la Fluorita en la reducción del coste energético en la fabricación de cemento. Se emplean 6 mezclas distintas de materias primas.
0% 1% 2% 3% 4%M 1 15.02 11.86 9.94 12.45 13.23e 2 8.42 10.15 8.54 6.98 8.93z 3 18.31 16.84 15.86 14.64 15.96c 4 10.49 10.52 8.04 10.50 10.34l 5 9.78 9.59 6.96 8.15 9.24a 6 9.28 8.84 7.04 6.66 9.46
Fluorita
59Diseño Experimentos
> fluorita = read.table('fluorita.txt', header = T)> attach(fluorita)> FLUO = factor(fluo)> MEZ = factor(mez)> fluorita
60Diseño Experimentos
Modelo
ijjiij uy
: Media globali : Efecto del tratamiento i, i=1,...,Ij : Efecto del bloque j, j=1,2,...,J
uij : Componente aleatoria N(0, 2)
IJJJ
I
I
yyyJ
yyyyyyI
21
22212
12111
21
21Tratamientos
Bloq
ues •Normalidad
•Independencia•Homocedasticidad
Ii i1 0Jj j1 0
...11 12 1I
...21 22 2I
...J1 J2 JI
Tratamientos1 2 I
1
2
J
...Bl
oque
s
62Diseño Experimentos
Estimación del modelo
1:1:1:
1:
:Parámetros
2j
i
JI
n
yy
I
yy
J
yy
I
i
J
jij
I
iij
j
J
jij
i1 111
)1)(1(ˆˆ
ˆˆ
ˆ
:sEstimadore2
22JIe
s
yyyy
y
ijR
jj
ii
ijjiij
ijjiij
ey
uyˆˆˆ yyyy
ye
jiij
jiijij ˆˆˆ
63Diseño Experimentos
Estimación
yyyyyyyyyy
yyyyyyJ
yyyyyyyyyyyy
I
Ii
I
JJIJJJ
I
I
j
21
21
21
2222212
1112111
ˆ
21
ˆ21
64Diseño Experimentos
Estimación (ejemplo)
0% 1% 2% 3% 4%M 1 15.02 11.86 9.94 12.45 13.23 12.50 1.77e 2 8.42 10.15 8.54 6.98 8.93 8.60 -2.13z 3 18.31 16.84 15.86 14.64 15.96 16.32 5.59c 4 10.49 10.52 8.04 10.50 10.34 9.98 -0.76l 5 9.78 9.59 6.96 8.15 9.24 8.74 -1.99a 6 9.28 8.84 7.04 6.66 9.46 8.26 -2.48
11.88 11.30 9.40 9.90 11.19 10.731.15 0.57 -1.34 -0.84 0.46
Fluorita
i
j
65Diseño Experimentos
Residuos: Varianza residual
0% 1% 2% 3% 4%M 1 1.37 -1.21 -1.22 0.79 0.27
e 2 -1.33 0.98 1.27 -0.79 -0.13
z 3 0.84 -0.05 0.88 -0.84 -0.82
c 4 -0.64 -0.02 -0.60 1.36 -0.10
l 5 -0.11 0.28 -0.45 0.24 0.04
a 6 -0.13 0.02 0.12 -0.76 0.74
Fluorita
yyyyye jiijjiijij ˆˆˆ
88.020
51.17)1)(1(
ˆ2
2JIe
s ijR
Estimación
66Diseño Experimentos
67Diseño Experimentos
Variabilidades
VNEVEVEVT
eVNE
yyIBVE
yyJTVE
yyVT
I
i
J
jij
J
jj
I
ii
I
i
J
jij
B)(T)()()(
)()(
)(
1 1
2
1
2
1
2
1 1
2
)1)(1()1()1()1( JIJIn
Descomposición de la variabilidad
68Diseño Experimentos
69Diseño Experimentos
Análisis de la varianza
I
i
J
j
I
i
J
jijj
I
i
J
j
I
i
J
jiij
jiijjiij
jiijjiij
ijjiijijjiij
eyyyyyy
yyyyyyyyyy
yyyyyyyyyy
eyuy
1 1 1 1
22
1 1 1 1
22 )()()(
)()()(
)()()(
ˆˆˆ
J
j
I
i
J
jijj
I
i
J
j
I
iiij eyyIyyJyy
1 1 1
22
1 1 1
22 )()()(
70Diseño Experimentos
Contraste de Hipótesis
Si la Fluorita no influye, los I tratamientos son iguales a efectos de coste, entonces
0 de distinto es Algún :0:
i1
210
HH I
I21Ii i1 0
71Diseño Experimentos
Contraste sobre tratamientos
0 de distinto es Algún :0:
i1
210
HH I
222 ]ˆ[)1)(1(
ˆ RR sEJI
VNEs
222 ]ˆ[1
)osTratamient(ˆ cierto, es Ho Si TT sE
IVEs
)1)(1(;121
2
2
2
ˆ
1)(
ˆˆ
JIIR
I
ii
R
TT F
s
IyyJ
ssF
Ho rechaza Se Si FFT
72Diseño Experimentos
Explicación del contraste
),(,...,,
][,
),(0 cierto es Ho Si
2
21
121
2
JNyyy
JJ
yEJ
yyyy
Ny
I
Jj j
iiJii
i
jiji
21
2
1
2
22111
ˆ
I
)y -y(JE
I
)y -y(Js
Iyyy
y
I
ii
I
ii
TI
.ˆ quemayor será ˆ falso, es Ho Cuando
parecidas.serán ˆy ˆ cierto, es Ho Cuando22
22
RT
RT
ss
ss
73Diseño Experimentos
Contraste de bloques
0 de distinto es Algún :0:
j1
210
HH J
222 ]ˆ[1
)Bloques(ˆ cierto, es Ho Si BB sE
JVEs
)1)(1(;121
2
2
2
ˆ
1)(
ˆˆ
JIJR
J
jj
R
BB F
s
JyyI
ssF
Ho rechaza Se Si FFB
74Diseño Experimentos
Tabla de análisis de la varianza
1-nTotal
Residual
Bloque
oTratamient
valorpFVarianzaLibertad.CuadradosadVariabilidde Gradosde SumaFuentes
2
22
2
2
22
2
2
22
)(
ˆ)1)(1(
ˆˆ
ˆ1)(
ˆˆ
ˆ1)(
yy
sJIe
pss
sJyyI
pss
sIyyJ
ij
Rij
BR
B
Bj
TR
T
Ti
Tabla ANOVA
75Diseño Experimentos
El tratamiento ( % fluorita) y el bloque ( mezcla) son SIGNIFICATIVOS.
76Diseño Experimentos
Intervalos de confianza (ejemplo)
Fluorita Medias L.inf. L.Sup.0% 11.88 11.09 12.681% 11.30 10.50 12.102% 9.40 8.60 10.193% 9.90 9.10 10.694% 11.19 10.40 11.99
Jsty R
iiˆ
2/
77Diseño Experimentos
Intervalos de Confianza (% Fluorita)
> source('ICplot.R')> ICplot(mod_flu, "FLUO")
910
1112
FLUO
med
ias
0 1 2 3 4
78Diseño Experimentos
Intervalos de Confianza (Mezcla)
> source('ICplot.R')> ICplot(mod_flu, "MEZ")
810
1214
16
MEZ
med
ias
1 2 3 4 5 6
79Diseño Experimentos
Contraste multiples: tratamientos
ji
ji
H
H
:
:
1
0
)1)(1(2ˆ
JI
R
ji t
Js
yy
t /2-t /2
/2
t(I-1)(J-1)
R.R. R.R
R. Acept. H0
1-/2
),(ˆˆ
ˆˆˆˆ
22
JJN
yyyyyy
jiji
jijijj
ii
02/2
ˆ HS
LSDJ
styy Rji rechaza e
80Diseño Experimentos
Contraste multiples: bloques
ji
ji
H
H
:
:
1
0
02/ rechaza e2ˆ HS
LSDI
styy Rji)1)(1(2ˆ
JI
R
ji t
Is
yy
t /2-t /2
/2
t(I-1)(J-1)
R.R. R.R
R. Acept. H0
1-/2
),(ˆˆ
ˆˆˆˆ
22
IIN
yyyyyy
jiji
jijijj
ii
81Diseño Experimentos
Comparación de mediasFluorita
Mezcla
13.16293.0085.2
2ˆ2/ JstLSD R
24.15293.0085.2
2ˆ2/ IstLSD R
1 2 3 4 5 61 0,00 3,90 -3,82 2,52 3,76 4,242 0 6,60 -1,37 -0,14 -0,353 0 6,34 7,58 8,074 0 1,23 1,725 0 0,496 0
LSD=1.24
0% 1% 2% 3% 4%0% 0 0,58 2,49 1,99 0,691% 0 1,90 1,40 0,112% 0 -0,50 -1,803% 0 -1,304% 0
LSD = 1.13
82Diseño Experimentos
Comparación de medias (Tukey)
-4 -2 0 2
4-3
4-2
3-2
4-1
3-1
2-1
4-0
3-0
2-0
1-0
95% family-wise confidence level
Differences in mean levels of FLUO
83Diseño Experimentos
Comparación de medias (Tukey)
-10 -5 0 5 10
6-5
5-4
5-3
6-2
4-2
6-1
4-1
2-1
95% family-wise confidence level
Differences in mean levels of MEZ
84Diseño Experimentos
Sin bloques
El % de FLUORITA no es SIGNIFICTIVO. No se detectan diferenciasLa Varianza residual es muy grande (10.6113)
Diagnosis:Homocedasticidad
Fluorita0 1 2 3 4
-2-1.5
-1-0.5
00.5
11.5
2
Mezcla0 1 2 3 4 5 6
-2-1.5
-1-0.5
00.5
11.5
2
resi
duos
Valores previstos
-1.6-1.2-0.8-0.4
00.40.81.21.6
5 10 15 20
Gráfico de residuos
86Diseño Experimentos
Diagnosis: normalidad
residuos
prob
abili
dad
-1.4 -0.9 -0.4 0.1 0.6 1.1 1.60.1
15
2050809599
99.9
Diagnosis
87Diseño Experimentos
Normalidad
Homocedasticidad
Apéndice
88Diseño Experimentos
Diseños factoriales(tres factores)
90Diseño Experimentos
Diseño con tres factores
Factores A, B y C con NA, NB, Nc niveles.Nº de Tratamientos T=NAxNBxNc
Efectos principales 3 A, B , CInteracciones de orden dos 3 AxB, AxC, BxCInteracción de orden tres 1. AxBxC
Factor AA1 A2 A3 A4 A5 A6
B1
C1
B2
B3
B4
B5
C2C3
Fact
or B
Tratamiento: Cada combinación de niveles de los factores6 x 5 x 3 = 90
91Diseño Experimentos
K factores con N1, N2, ..., NKniveles
libertad de grados
con k, orden de ninteracció 1KK
...libertad de grados
con 3, orden de nesinteraccio 3K
libertad de
grados con 2, orden de nesinteraccio 2K
uno cada libertad de grados con sprincipale efectosK
)(N))(N(N
))(N)(N(N
))(N(N
N
K
kji
ji
i
111
111
11
1
21
92Diseño Experimentos
Datos Factor 1
Fact
or 2
Factor 31 2 K...
IJKMMIJMIJ
IJKIJIJ
IJKIJIJ
JKMMJMJ
JKJJ
JKJJ
JKMMJMJ
JKJJ
JKJJ
KMIMIMI
KIII
KIII
KMMM
K
K
KMMM
K
K
KMIMIMI
KIII
KIII
KMMM
K
K
KMMM
K
K
yyy
yyyyyy
K
yyy
yyyyyy
K
yyy
yyyyyy
K
yyy
yyyyyy
K
yyy
yyyyyy
K
yyy
yyyyyy
Kyyy
yyyyyy
K
yyy
yyyyyy
yyy
yyyyyy
21
22212
12111
22212
22222122
12212112
12111
21221121
11211111
22221
22222212
12221211
22222221
22222222212
12222212211
12122121
21212221212
11212211211
11211
21122112
11121111
11212211
21121222112
11121212111
11112111
21111221112
11111211111
...21...21...21
J
...21...21...21
2
...21K...21K...21
1
I211 2 ... I
1
2
...
J
1 2 K... 1 2 K... 1 2 K...
1 2 K...1 2 K...1 2 K...
1 2 K...1 2 K...1 2 K...
93Diseño Experimentos
Ejemplo: Proceso químico
T-1 T-2 T-1 T-2 T-1 T-2 T-1 T-272.2 65.0 74.4 69.2 75.0 70.7 80.0 73.074.4 71.6 66.3 71.8 78.9 80.6 65.0 74.464.3 61.9 66.5 64.6 64.3 73.4 82.1 78.8T-1 T-2 T-1 T-2 T-1 T-2 T-1 T-262.5 75.9 70.8 79.2 76.3 83.3 72.3 80.365.8 72.9 63.9 80.1 79.1 88.0 72.4 86.971.2 77.8 76.6 75.3 89.0 84.7 75.6 86.3T-1 T-2 T-1 T-2 T-1 T-2 T-1 T-269.0 73.8 69.0 84.5 72.8 94.1 78.4 87.570.3 59.2 68.2 93.7 73.7 87.3 79.9 79.768.8 80.8 78.7 80.1 80.7 89.0 80.3 79.5
CONCENTRACIÓN1 2 3 4
CAT
ALIZ
ADO
R
C-1
C-2
C-3
Tres factores: 1 4%2 6%3 8%4 10%
ConcentraciónT-1 300º CT-2 320º C
Temperatuta
Variable respuesta: Rendimiento del proceso químico.
Tres replicaciones
C-1 AgC-2 Ag+ZnC-3 Zn
Catalizador
94Diseño Experimentos
Modelo
ijkmijkjkikijkjiijkm uy
•Normalidad•Independencia•Homocedasticidad
I J K tratamientos
M replicaciones
n = I J K M
Ii i1 0Jj j1 0
Kk k1 0
iKk ik ,01
iJj ij ,01
kJj jk ,01
jIi ij ,01
kIi ik ,01
jKk jk ,01
Kk ijk
Jj ijk
Ii ijk jikikj .,,0;,,0;,,,0
ijkmu
95Diseño Experimentos
Medias
ijkmijkjkikijkjiijkm uy
M
yy
IM
yy
JM
yy
KM
yy
IJM
yy
IKM
yy
JKM
yy
IJKM
yy
M
mijkm
ijk
I
i
K
kijkm
jk
J
j
M
mijkm
ki
K
k
M
mijkm
ij
I
i
J
j
M
mijkm
k
I
i
K
k
M
mijkm
j
J
j
K
k
M
mijkm
i
I
i
J
j
K
k
M
mijk
1
1 11 11 1
1 1 11 1 11 1 1
1 1 1 1
96Diseño Experimentos
Medias: Proceso químico
T-1 T-2 T-1 T-2 T-1 T-2 T-1 T-2C-1 70.30 66.17 69.07 68.53 72.73 74.90 75.70 75.40C-2 66.50 75.53 70.43 78.20 81.47 85.33 73.43 84.50C-3 69.37 71.27 71.97 86.10 75.73 90.13 79.53 82.23
1 2 3 4
1 2 3 4C-1 68.2 68.8 73.8 75.6 71.6C-2 71.0 74.3 83.4 79.0 76.9C-3 70.3 79.0 82.9 80.9 78.3
69.9 74.1 80.1 78.5 75.6
Concentración
1 2 3 4T-1 68.72 70.49 76.64 76.22 73.02T-2 70.99 77.61 83.46 80.71 78.19
69.9 74.1 80.1 78.5 75.6
T-1 T-2C-1 71.95 71.25 71.6C-2 72.96 80.89 76.9C-3 74.15 82.43 78.3
73.02 78.19 75.6
Catalizador
Temperatura
97Diseño Experimentos
Estimación del modelo
ijkijkmijkmijkm
R
kjijkkiijijkijk
kjjkjk
kikiik
jiijij
kk
jj
ii
yyeMIJK
es
KJIyyyyyyyy
KJyyyy
KIyyyy
JIyyyy
Kyy
JyyIyy
y
;)1(
ˆˆ
)1)(1)(1(
)1)(1(
)1)(1(
)1)(1(
1ˆ
1ˆ1ˆ
ˆ
222
98Diseño Experimentos
Modelo estimado
ijkijkm
kjijkkiijijk
kjjk
kiki
jiij
kjiijkm
yy
yyyyyyyy
yyyyyyyy
yyyy
yyyyyyyy
ijkmijkjkikijkjiijkm uy
99Diseño Experimentos
Variabilidades
i j k mijkijkm
i j kkjijkkiijijk
j kkjjk
i kkiki
i jjiij
kk
jj
ii
I
i
J
j
K
k
M
mijkm
yyVNE
yyyyyyyyMCBAVE
yyyyIMCBVE
yyyyJMCAVE
yyyyKMBAVE
yyIJMCVEyyIKMBVE
yyJKMAVEyyVT
2
2
2
2
2
22
2
1 1 1 1
2
)(
)(
)(
)(
)()(
)(
100Diseño Experimentos
Grados de libertad
)1()1)(1)(1()1)(1()1)(1()1)(1(
)1()1()1()1(LIBERTAD DE GRADOS
)()()()(
)()()(ADVARIABILIDLA DE CIÓNDESCOMPOSI
MIJKKJIKJKIJI
KJIn
VNECBAVECBVECAVEBAVE
CVEBVEAVEVT
101Diseño Experimentos
1Total
ˆ)1(Residual
ˆˆˆ)1)(1)(1(
)...
...(ˆ
ˆˆ)1)(1(
ˆˆˆ)1)(1(
ˆˆˆ)1)(1(
ˆˆˆ1
ˆˆˆ1
ˆˆˆ1
..
1 1 1 1
2
22
2
22
2
2
222
2
222
2
222
2
222
2
222
2
222
IJKMyy
sMIJKyy
sssKJI
yyyy
yyyyMCBA
sssKJyyyyIMCB
sssKIyyyyJMCA
sssJIyyyyKMBA
sssKyyIJMC
sssJyyIKMB
sssIyyJKMA
FVarianzasLibdeGrADVARIABILIDFUENTE
I
i
J
j
K
k
M
mijkm
Ri j k m
ijkijkm
R
ABCABC
kji
i j kjkkiijijk
R
BCBC
j kkjjk
R
ACAC
i kkiki
R
ABAB
i jjiij
R
CC
kk
R
BB
jj
R
AA
ii
Tabla ANOVA
102Diseño Experimentos
Instrucciones de R utilizadas
> quimico = read.table('quimico.txt', header = T)> attach(quimico)> CON = factor(con)
> class(con)> TEMP = factor(temp)
> class(temp)> CAT = factor(cat)
> class(cat)> mod_qui = aov(rendim ~ CON*TEMP*CAT )
ARCHIVO TEXTO: quimico.txt
Estimación
103Diseño Experimentos
Descomposición de la variabilidad
104Diseño Experimentos
105Diseño Experimentos
Análisis de la varianza
106Diseño Experimentos
Contraste efecto principal de factor A
0 de distinto es Algún :0:
i1
210
HH I
F
RRHo rechaza Se Si FFA
)1(;121
2
2
2
ˆ
1)(
ˆˆ
MIJKIR
I
ii
R
AA F
s
IyyJKM
ssF
Ho rechaza se No Si FFA)1(;1 MIJKIF
107Diseño Experimentos
Contraste interacción AxB
0 de distinto es Algún :0:
ij1
12110
HH IJ
)1)(1()(
ˆ cierto, es Ho Si 2JI
BAVEsAB
)1();1)(1(2
2
ˆˆ
MIJKJIR
ABAB F
ssF
naninteraccio BA y Ho rechaza Se Si FFAB
108Diseño Experimentos
Contraste interacción AxBxC
0 de distinto es Algún :0:
ijk1
1121110
HH IJK
cierto es Ho Si
)1();1)(1)(1(2
2
ˆˆ
MIJKKJIR
ABCABC F
ssF
Ho rechaza Se Si FFABC
109Diseño Experimentos
Interpretación
El efecto principal del factor concentracióninfluye significativamente (p-valor =0.0000) en el rendimiento. Más adelante se compararán las medias de los cuatro niveles de este factor. Este factor no interacciona con ningún otro.Los efectos principales de catalizador y de la temperatura son significativos, además es muy significativa la interacción de los dos factores (p-valor 0.0064). La comparación de medias de estos factores debe ser conjunta.
110Diseño Experimentos
Contrastes múltiples: Factor A
ji
ji
H
H
:
:
1
0
)1(2ˆ
MIJK
R
ji t
JKMs
yy
t /2-t /2
/2
tIJK(M-1)
R.R. R.R
R. Acept. H0
1-/2
),(ˆˆ
ˆˆˆˆ
22
JKMJKMN
yyyyyy
jiji
jijijj
ii
HoJKM
styy Rji
rechaza se
,2ˆSi 2/
Interpretación I
111Diseño Experimentos
> source('ICplot.R')> ICplot(mod_qui, "CON")> TukeyHSD(mod_qui,'CON')> plot(TukeyHSD(mod_qui,'CON'))
EFECTOS PRINCIPALES: Solo se interpreta la Concentración
112Diseño Experimentos
Interacción: Cat. x Temp.
T-1 T-2C-1 71.95 71.25 71.6C-2 72.96 80.89 76.9C-3 74.15 82.43 78.3
73.02 78.19 75.6
Interacción Cat x Temp
70.0072.0074.0076.0078.0080.0082.0084.00
0 1 2 3 4
Catalizador
Med
ias Temp - 1
Temp - 2
Se interpreta la interacción Temperatura - Catalizador
113Diseño Experimentos
Interpretación II
> source('interIC.R')> interIC(mod_quimicos,'temp','cat')> interIC(mod_quimicos,'cat','temp')
114Diseño Experimentos
Selección de temperatura y catalizador.
Las mejores combinaciones corresponden
a la T2 con K2 o K3.
115Diseño Experimentos
Diagnosis del modelo
1.0 2.0 3.0 4.0
-10
-50
510
con
resid
uals(
mod
_qui)
1.0 1.4 1.8
-10
-50
510
temp
resid
uals(
mod
_qui)
1.0 1.5 2.0 2.5 3.0
-10
-50
510
cat
resid
uals(
mod
_qui)
Capítulo 2. Diseño de experimentos
2.1. Se pretende estudiar el efecto que produce los factores (1) Porcentaje de algodón (10%, 20% y 30%)(2) Tipo de confección (A y B) en la resistencia al desgaste de ciertos tejidos de �bra sintética. Seha realizado el siguiente diseño con tres replicaciones (archivo desgaste:txt)
10% 20% 30%115 120 126
A 112 135 118133 139 142107 110 132
B 114 102 114108 117 125
1. Construir la tabla de Análisis de la Varianza y contrastar la in�uencia de los dos factores y lapresencia de la interacción.
2. Hacer un contraste de diferencia de medias y decidir el tratamiento más adecuado para conseguirla mayor resistencia al desgaste.
2.2 En una planta piloto se obtiene un nuevo producto mediante un proceso químico. Con el �n demejorar el rendimiento se emplean dos catalizadores distintos y se trabaja con tres temperaturasdiferentes. Los resultados del experimento son (archivo rendimiento:txt)
TemperaturaCatalizador 200 300 400
A 115 125 130 140 110 120B 115 105 135 145 100 110
1. Contrastar si los factores Temperatura y Catalizador tienen efectos signi�cativos. (� = 0:05)
2. ¿Qué tratamiento se debe utilizar para obtener el mayor rendimiento, si se desea garantizar unaprobabilidad de error tipo I total, �T = 0:03?
2.3 Un investigador quiere estudiar el efecto de sexo (hombre, mujer) y tipo de formación (ciencias,letras) en el dominio del inglés escrito en profesores universitarios. Para ello analiza el número deincorrecciones gramaticales en artículos cientí�cos enviados a publicación. Para cada combinaciónde niveles de los factores se han elegido al azar tres profesores. En la tabla se proporciona el númerode fallos detectados en artículos de 15 páginas (archivo error:txt)
Letras CienciasHombre 8, 6, 13 22, 28, 33Mujer 5, 10, 6 12, 14, 9
1
Contrastar con nivel de signi�cación 0.05 si los efectos principales y la interacción son signi�cativos.Tener en cuenta que P (F1;8 � 5:32) = 0:95, siendo F1;8 la distribución F con grados de libertad1 y 8: Interpretar los resultados.
2.4 Un alumno, como trabajo de la asignatura de estadística, ha comparado tres marcas distintas (A,B,C)de palomitas de maíz precocinadas. Cada marca puede prepararse friendolas en una sartén (método1) o en el horno microondas (método 2). El alumno ha realizado un diseño factorial completo 3�2con cinco replicaciones en cada uno de los seis tratamientos. La variable respuesta medida es elporcentaje de granos de maíz que no se han in�ado adecuadamente. Los resultados del experimentose muestran en la tabla, en cada tratamiento se proporciona la media y entre paréntesis la desviacióntípica corregida para las cinco replicaciones. Contrastar si la interacción entre los dos factores essigni�cativa.
A B C
Sartén5.5(1,4)
3.6(1,8)
7.5(2,5)
Horno3.8(1,3)
3.4(0,9)
4.3(1,3)
2.5. La tabla muestra el tiempo de supervivencia de grupos de cuatro animales a los que se ha asignadoal azar tres venenos y posteriormente cuatro tratamientos. (archivo venenos:txt)
TratamientoA B C D
VenenoI 0.31 0.82 0.43 0.45
0.45 1.10 0.45 0.710.46 0.88 0.63 0.660.43 0.72 0.76 0.62
II 0.36 0.92 0.44 0.560.29 0.61 0.35 1.020.40 0.49 0.31 0.710.23 1.24 0.40 0.38
III 0.22 0.30 0.23 0.300.21 0.37 0.25 0.360.18 0.38 0.24 0.310.23 0.29 0.22 0.33
1. ¿Son los venenos y tratamientos signi�cativos? ¿Existe interacción entre el veneno y el tratamiento?
2. Analice los residuos del modelo anterior. ¿Se veri�can las hipótesis básicas del modelo? ¿Quétransformación de los datos hace que se veri�quen las hipótesis?
3. Calcule la tabla de análisis de la varianza con los datos transformados. ¿Tiene la transformaciónrealizada algún efecto sobre los efectos principales y la interacción?
2
2.6 Se ha realizado un experimento para estudiar el efecto de la temperatura (T) y tiempo de exposición(E) sobre la cantidad absorbida de un compuesto químico por un material sumergido en él. En elestudio se han empleado tres temperaturas (T1, T2, T3) y tres tiempos de exposición (E1, E2, E3):cada tratamiento se ha replicado tres veces. La cantidad absorbida (mg) del compuesto químico encada uno de los 27 experimentos se muestra en la tabla 1 (archivo absorbida:txt) y las medias enla tabla 2:
Tabla 1: Cantidad Absorbida (mg)
Tiempo de TemperaturaExposición T1 T2 T3
35.5 91.2 70.1E1 29.7 100.7 64.1
31.5 82.4 70.1
52.5 71.0 79.4E2 53.3 77.0 77.7
55.0 75.6 75.1
85.9 87.0 83.0E3 85.2 86.1 87.0
80.2 88.1 78.5
Tabla 2: Medias de Cantidad Absorbida (mg)
Tiempo de TemperaturaExposición T1 T2 T3 Medias
E1 32.23 91.43 68.10 63.92E2 53.60 74.53 77.40 68.51E3 83.76 87.06 82.83 84.56
Medias 56.53 84.34 76.11 72.33
La tabla 3 corresponde al análisis de la varianza del experimento.
Tabla 3: Tabla de análisis de la varianzaFuente Suma de Grados deVariabilidad Cuadrados Libertad Varianzas F p-valorTemperatura 3673.61 2 1836.80 110.58 0.0000T. Exposición 2112.65 2 1056.32 63.59 0.0000Interacción 2704.44 4 676.11 40.70 0.0000Residual 299.00 18 16.61Total 8789.7 26
1. (a) Interpreta los resultados del análisis de la varianza.
2. Realiza las comparaciones dos a dos de los nueve tratamientos y elige aquél o aquellos que propor-cionan una absorción mayor (95%).
3. Comprueba grá�camente la hipótesis de homocedasticidad e interpreta los resultados.
2.7. Se ha realizado un diseño experimental para determinar la in�uencia de dos factores combinaciónde hidrocarburos y cantidad de hidrógeno en el rendimiento de un proceso químico complejo. Seestudiaron cuatro combinaciones de hidrocarburos (A,B, C y D) y tres niveles en el contenido dehidrógeno (1,2 y 3). En cada tratamiento se realizaron cuatro réplicas. En la tabla 1 se presentan losresultados: mejora en tanto por mil respecto a procedimiento estándar (archivo hidrocarburos:txt).Los números entre paréntesis de la tabla se corresponden con las medias de cada tratamiento, de loscuatro niveles del factor hidrocarburos y de los tres niveles de hidrógeno. En la tabla 2 se muestrala tabla de análisis de la varianza del experimento.
3
Tabla 1. Datos y medias entre paréntesisA B C D Medias Etapa
10.3 10.5 7.2 13.0 111.1 8.2 5.3 12.9 1
1 15.3 9.7 12.5 5.3 22.1 8.9 19.1 12.0 2
Medias (9.7) (9.325) (11.025) (10.8) (10.213)
25.8 20.6 29.7 17.6 125.7 17.1 26.3 12.0 1
2 28.9 21.4 22.4 24.6 227.8 17.3 25.9 23.1 2
Medias (27.05) (19.1) (26.075) (19.325) (22.888)
28.5 21.0 30.4 20.5 131.2 26.8 26.6 26.2 1
3 24.8 19.4 34.4 27.8 226.5 22.2 27.5 21.9 2
Medias (27.75) (22.35) (29.975) (24.1) (25.981)
Medias (21.5) (16.925) (22.275) (18.075)
Tabla 2. ANOVA -Suma Grados
Fuentes Cuadrados Libertad Var. F p-valorHidrocarburos 242.5 3 80.85 5.55 .0031Hidrógeno 2234 2 1117 76.7 .0000Interacción 119.3 6 19.88 1.36 .2546Residual 523.7 36 14.55Total 3120 47
1. Comparar las medias de los cuatro niveles del factor Hidrocarburo y las de los tres niveles del factorHidrógeno. Indica si existen diferencias signi�cativas con nivel de signi�cación 0.05.
2. Elige el tratamiento que proporciona el rendimiento óptimo, justi�cando la respuesta. Da un inter-valo de con�anza para el valor medio en dichas condiciones con nivel de con�anza del 95%.
3. El experimento se realizó en dos etapas, en una primera etapa se recogieron las 24 observacionesque se indican en la tabla 1 como etapa 1 y las otras 24 como etapa 2. Los resultados del análisisde la varianza correspondientes a cada etapa se muestran en las tablas 3 y 4.
Tabla 3. ANOVA - Etapa 1Suma Grados
Fuentes Cuadrados Libert. Var. F p-valorHidrocarburos 115.9 3 38.63 6.07 .0093Hidrógeno 1175.0 2 587.7 92.4 .0000Interacción 218.4 6 36.39 5.72 .0051Residual 76.3 12 6.358Total 1586.0 23
4
Tabla 4. ANOVA - Etapa 2Suma Grados
Fuentes Cuadrados Libert. Var. F p-valorHidrocarburos 162.9 3 54.31 3.35 .0555Hidrógeno 1076 2 537.9 33.19 .0000Interacción 94.94 6 15.82 0.976 .9762Residual 194.5 12 16.21Total 1528 23
¿Se puede concluir que en las dos etapas la varianza del error experimental es la misma? (Realizael contraste con � = 0:05)
2.8 Se ha estudiado el efecto de tres hornos diferentes y dos temperaturas (290 oC y 320 oC) en laduración de cierto componente. Para cada combinación de horno y temperatura se ha replicadoel experimento 3 veces. En la tabla siguiente se proporcionan las medias y desviaciones típicas(corregidas) de los datos de cada tratamiento.
Temperatura oC290 oC 320 oC
Media Desv. T. Media Desv. T.Horno 1 24.56 0.850 18.00 0.265Horno 2 19.10 1.539 14.40 0.265Horno 3 18.70 0.458 17.43 0.862
Contrasta si existe interacción entre los factores horno y temperatura (� = 0:05):
2.9. Cierto Organismo Público (O.P.) encargado de certi�car la composición de aleaciones de metalespreciosos, debe seleccionar entre dos Laboratorios al más capacitado para la realización de futurosanálisis de gran precisión. Para tomar la decisión les somete a la siguiente prueba: Prepara tresaleaciones A, B y C que contienen proporciones distintas de oro. De cada una de ellas envía cu-atro muestras a cada uno de los dos laboratorios. Así pues, cada laboratorio recibe un lote de 12muestras (codi�cadas) ordenadas aleatoriamente sin conocer como han sido obtenidas. Los resul-tados recibidos por el O.P. son (entre paréntesis las medias de las casillas) (archivo laboratorios:txt):
Aleac. A Aleac. B Aleac. C10.96 11.03 10.95 11.00 11.07 11.01
Lab. I 11.08 11.01 11.04 10.97 10.97 11.03(11.02) (10.99) (11.02)
10.97 10.96 10.97 10.96 11.02 11.00Lab. II 10.94 10.95 10.97 10.98 11.01 11.01
(10.955) (10.97) (11.01)
1. Determinar si existen diferencias entre los resultados de los laboratorios y si éstos han encontradodiferencias entre las aleaciones.
2. Aceptando que los datos cumplen la hipótesis de normalidad, indicar si podemos aceptar queveri�can el resto de las hipótesis del modelo y en caso negativo que medidas se deben adoptar paraanalizar los datos.
5
3. Realizar un test de razón de varianzas para contrastar que las varianzas de los dos laboratorios soniguales, sabiendo que las tres aleaciones tienen composición distinta. Interpretar el resultado.
4. El O.P. conoce exáctamente el porcentaje en oro de la aleación A (11 %), de la B (11.02 %) y dela C (11.04 %). Con esta información comparar los resultados de los laboratorios.
2.10 Un laboratorio de Análisis Clínicos ha adquirido un nuevo equipo (B) para medir el colesterol en lasangre de los enfermos. Para evaluar si el nuevo equipo está ajustado se decide analizar muestrasde 5 enfermos que previamente han sido analizadas con otro equipo (A), dando como resultado
Enfermo 1 2 3 4 5 MediaEquipo A 215 305 247 221 286 254.8Equipo B 224 312 251 232 295 262.8
Contrastar con � = 0:05 existen diferencias entre los dos equipos. (archivo colesterol :txt)
2.11. El análisis de la varianza de un diseño en bloques aleatorizados proporciona los siguientes resulta-dos: V T = 232, V E(factor) = 156, V E(bloque) = 15 y V NE = 61. El número de niveles del factores 5 y el número de bloques 8. Construir la tabla ADEVA. ¿Cuál sería el resultado del análisis sino se tiene en cuenta el efecto de los bloques ? Indicar en qué circunstancias es preferible cada unode los modelos.
2.12. Se realiza un experimento para estudiar si la presencia de �uorita reduce el coste de fabricaciónde clinker de cemento en tres tipos diferentes de mezcla. Los resultados del mismo (en miles depesetas por Tm) se muestran en la siguiente tabla (archivo fluorita2:txt):
FLUORITA MI MII MIII yi�0% 15.4 10.6 17.8 14.61% 10.3 5.5 10.9 8.92% 7.4 1.2 8.1 5.53% 10.7 6.5 9.6 8.94% 13.5 11.6 15.5 13.5y 11.4 7.1 12.4
5Xi=1
3Xj=1
e2ij = 10:2 �y�� = 10:3
1. (a) Determinar si el tipo de mezcla y el nivel de �uorita añadido in�uyen signi�cativamente en elcoste de fabricación. Se supone que no existe interacción entre los dos factores.
(b) Contrastar que porcentaje de �uorita produce el menor coste del clinker.
2.13 Se ha realizado un experimento con dos factores cada uno de ellos con 3 niveles. El 20% de lavariabilidad total está explicada por la interacción de los dos factores y el 40% de la variabilidadtotal es debida a la variabilidad residual. Determinar el número de replicaciones necesarias en cadatratamiento para que la interacción sea signi�cativa con � = 0:01: (Explicar el procedimiento decálculo, dejando el resultado indicado en función de las tablas).
6
2.14 Sea un diseño factorial con 4 factores a 3, 4, 2 y 5 niveles. Calcular el número de parámetros totalescorrespondientes a efectos principales e interacciones de orden 2, 3 y 4.
2.15 Un centro ha realizado un experimento para mejorar la resistencia a la tensión de ciertos muelles deacero. En una etapa del proceso el muelle caliente se sumerge en aceite templado. Se han estudiadotres factores, A (temperatura del acero antes de la inmersión, con tres niveles), B (temperatura delbaño de aceite, dos niveles) y C (concentración de carbono en el acero, dos niveles). El experimentose ha replicado tres veces. En la tabla se muestra la media y la varianza (corregida) para los tresdatos de cada tratamiento.
A B C yi s2i1 1 1 40.2 0.251 1 2 61.1 2.681 2 1 35.9 2.431 2 2 57.1 4.442 1 1 49.0 3.492 1 2 70.3 7.772 2 1 46.7 5.082 2 2 67.6 1.033 1 1 41.9 4.273 1 2 62.7 11.413 2 1 37.1 1.333 2 2 60.3 6.13
1. (a) Dar un intervalo del 95 % de con�anza para la varianza del error experimental, �2.
2. Indicar si los efectos principales de A, B y C son signi�cativamente distintos de cero.
3. Dado �2, construir un intervalo que cumpla que la probabilidad de que s2i (la varianza muestralcorregida de un tratamiento) esté contenido en él sea igual a 0.95. Sustituir �2 por su estimador ycon ayuda de este intervalo, discutir si se puede rechazar la hipótesis de homocedasticidad de lasobservaciones.
2.16 Un estudio bioquímico ha valorado la cantidad de tres ácidos (a, b, c) en muestras extraídas acuatro terneras (1, 2 ,3 y 4) de la misma raza. El análisis es bastante complejo y la determinaciónincluye un error de medida. ¿Se puede aceptar la hipótesis de que los tres ácidos se encuentranen la misma proporción en cada animal? Realiza el contraste con nivel de signi�cación 0.05. (Lavariabilidad total es 41.90). (archivo ultrasonidos:txt)
1.a b c Medias
1 11.0 11.4 12.7 11:72 9.8 10.8 13.7 11:433 7.5 10.6 11.5 9:874 7.9 7.6 10.1 8:53
Medias 9.05 10.1 12.0 10.38
7
OTROS EJEMPLOS
2.17. Treinta y seis adultos (18 hombres y 18 mujeres) son utilizados en un estudio para comparar lostensiómetros de tres fabricantes. Los sujetos de cada sexo son asignados de forma aleatoria en seis gruposde tres cada uno. A tres grupos de cada sexo se les mide la presión de la sangre nada más comenzar elexperimento; a los otros tres grupos se les mide la presión después de diez minutos de descanso.
Los resultados son los siguientes:
I II IIIH M H M H M147 122 156 131 127 110
1 124 142 127 133 122 115113 136 155 146 153 105140 108 100 141 114 103
2 130 151 140 125 139 135112 138 105 139 126 114
Conteste a las siguientes preguntas:
� ¿Existen diferencias entre los fabricantes en la medida de presión de la sangre?
� ¿Hay diferencia entre el descanso y el no descanso en la presión en la sangre?
� ¿Hay diferencia entre hombres y mujeres?
� Comprobar si hay interacción entre descanso y sexo.
� Comprobar las hipótesis de normalidad, homocedasticidad y homogeneidad.
En el archivo tension.sf3 están la variable respuesta presión y las variables factores descanso, fabri-cante y sexo.
2.18 Se desea investigar el comportamiento de dos tipos de semilla y de tres tipos diferentes de fertil-izante. Los resultados serán los diferentes rendimientos para las combinaciones de semillas y fertilizantes.
Se pide contestar a las siguientes preguntas:
� ¿Existen diferencias entre los fertilizantes?
� ¿Existen diferentes entre las semillas?
� Estudiar si la interacción entre las semillas y fertilizantes es signi�cativa.
� Comprobar las hipótesis de normalidad, homocedasticidad e independencia e homocedasticidad.
En el archivo rend.sf3 están la variable respuesta rendimiento y los factores semilla y fertilizante.
8
A B C1 14.3 18.1 17.6
14.5 17.6 18.211.5 17.1 18.913.6 17.6 18.2
2 12.6 10.5 15.711.2 12.8 17.511.0 8.3 16.712.1 9.1 16.6
2.19. Se ha realizado un experimento para estudiar la in�uencia de dos factores en el rendimientode un proceso. Estos factores son la temperatura, que puede estar a tres niveles (alta, media y baja), yel catalizador, que puede ser el catalizador 1 o el catalizador 2. En el archivo rend2.sf3 se presentan losresultados que se muestran en la siguiente tabla.
Temperatura
Alta Media Baja
Catalizador 1 279 174 397172 277 348176 130 434
Catalizador 2 253 252 417238 367 427387 323 423
� ¿De qué modelo se trata?
� ¿Qué efectos son signi�cativos?
� ¿Cuál es el tratamiento adecuado para obtener el mayor rendimiento?
2.20. Se ha realizado un experimento para estudiar las fuentes de variabilidad de la resistencia a lacompresión de cemento tipo Portland. El cemento ha sido mezclado con agua por tres obreros diferentes(mezcladores) durante un tiempo �jo. Después, la resistencia de las probetas generadas ha sido medidapor otros tres obreros diferentes (medidores). Cada mezclador ha generado doce probetas, que se handividido en tres grupos de cuatro; cada uno de esos grupos de cuatro ha sido asignado a un medidor.Los datos obtenidos para la resistencia a la compresión de cada probeta, dados en libras por pulgadacuadrada, se proporcionan en la tabla siguiente y se encuentran en el archivo portland.sf3.
9
Medidor 1 Medidor 2 Medidor 3
Mezclador 1 5280 4340 41605520 4400 51804760 5020 53205800 6200 4600
Mezclador 2 4420 5340 41805280 4880 48005580 4960 46004900 6200 4480
Mezclador 3 5360 5720 44606160 4760 49305680 5620 46805500 5560 5600
� ¿Existen diferencias entre las resistencias dadas por los diferentes medidores? ¿y entre las probetasgeneradas por cada mezclador?
� ¿Es signi�cativa, con nivel de signi�cación del 5%, la interacción entre medidores y mezcladores?
� ¿Se cumplen las hipótesis del modelo?
2.21. Se está estudiando el rendimiento de un proceso químico. Se piensa que las dos variablesmás importantes pueden ser la presión y la temperatura. Se seleccionan tres niveles de cada factor. Losresultados del experimento son los siguientes:
PresiónTemperatura 200 215 230
Baja 90.4 90.7 90.2Baja 90.2 90.6 90.4Media 90.1 90.5 89.9Media 90.3 90.6 90.1Alta 90.5 90.8 90.4Alta 90.7 90.9 90.1
Utilizando el archivo proceso. sf3 conteste a las siguientes preguntas:
� ¿Qué conclusiones se pueden sacar de los datos?
� ¿Bajo qué condiciones podría operar este proceso?
� ¿Existe interacción entre temperatura y presión?
� Compruebe las hipótesis del modelo.
10
2.22. Se realiza un experimento para estudiar la in�uencia de la temperatura de operación y de trestipos de cristal en la salida de luz de un osciloscopio medidas en lux. En el archivo lux.sf3 se encuentranlos resultados obtenidos que se presentan a continuación:
TemperaturaCristal 100 125 150
580 1090 13921 568 1087 1380
570 1085 1386550 1070 1328
2 530 1035 1312579 1000 1299546 1045 867
3 575 1053 904599 1066 889
� ¿Hay diferencia entre las temperaturas?
� ¿Hay diferencia en el cristal? ¿Cúal es el mejor?
� Estudie si existe interacción entre la temperatura y el cristal.
2.22 Para comprobar la diferencia de rendimientos entre las distintas variedades de avena se diseñoun experimento con ocho variedades distintas. Como el terreno donde fueron plantadas las distintasvariedades estaba en pendiente se pensó que podría afectar la situación de la planta en su rendimiento.Los resultados obtenidos en gramos fueron los siguientes:
I II III IV V1 296 357 340 331 3482 402 390 431 340 3203 437 334 426 320 2964 303 319 310 260 2425 469 405 442 487 3946 345 342 358 300 3087 324 339 357 352 2208 488 374 401 338 320
Si no se tiene en cuenta el efecto de las diferentes condiciones del terreno, conteste a las siguientespreguntas:
� ¿Existen diferencias entre las variedades?
� ¿Cúal es la mejor y la peor?
� La variedad ocho es autóctona y la más empleada. La cinco es la más cara. Si tuvierá que elegir¿cuál elegiría?
� Haga un contraste de las hipótesis del modelo: normalidad, homocedasticidad, homogeneidad eindependencia.
11
Conteste todas las preguntas anteriores si se introduce la variable que tiene en cuenta el efecto delterreno.
2.23. Se desea comparar cuatro procedimientos de obtención de la penicilina (A, B, C y D); siendola variable respuesta producción en kg.
Una materia prima, licor de maíz, se tiene en cuenta en el experimento. Se dispone de cinco muestrasde licor de maíz. A continuación se presenta la tabla de los datos.
A B C D1 89 88 97 942 84 77 92 793 81 87 87 854 87 92 89 845 79 81 80 88
� ¿Cómo afectan los procedimientos y la materia prima?
� ¿Cuál es el mejor procedimiento y materia prima?
� Realice la diagnosis del modelo
En el archivo penicili.sf3 se encuentra la variable respuesta cantidad, el factor tratamiento y el bloquemezcla.
2.24. En 1986 IBM realizó una serie de experimentos en varios de sus sistemas para investigar elcomportamiento de nuevos algoritmos para incorporar en la librería de funciones matemáticas de sucompilador FORTRAN. En el archivo fortran.sf3 se encuentran el tiempo empleado por llamada parala ejecución (dado en �s) de cinco funciones escalares, que se proporcionan en la siguiente tabla. Eltiempo se ha promediado en 10000 argumentos seleccionados aleatoriamente en los intervalos de interés([-�,�],...). Las ejecuciones se llevaron a cabo en tres sistemas IBM diferentes (4331, 4361 y 4341). Seproporcionan también los nombres de las funciones escalares consideradas.
Función Sistema IBM4331 4361 4341
EDUM 9,90 3,07 4,88ACOS CIRC [��; �] 179,62 33,28 33,23SEN LINEAL [��; �] 105,72 24,13 27,08EXP LINEAL [�16; 16] 254,82 39,14 37,46D2DUM 13,47 4,63 5,72
� El interés principal del experimento era el estudio de la e�cacia de los tres sistemas ¿ha resultadoadecuada la estrategia?
� Realice la diagnosis del modelo y proponga posibles soluciones si detecta algún problema.
2.25 Unos alumnos de la universidad de Tu¤s (Massachussets, E.U.A.), preocupados por el estadode corrosión de las tuberías de su universidad, decidieron realizar el siguiente experimento. Tomaronmuestras de agua corriente haciendo variar los factores Campus, Tipo de edi�cio y antigüedad del edi�cio.
12
Se midió la concentración de hierro en el agua corriente (mg=dm3) y para cada posible combinación defactores se tomaron dos observaciones. En el archivo corrosio.sf3 se muestran los resultados que sepresentan en la siguiente tabla.
Factor Concentración de FeAntigüedad Tipo CampusViejo Académico Medford 0,23 0,28Nuevo Académico Medford 0,36 0,29Viejo Residencial Medford 0,03 0,06Nuevo Residencial Medford 0,05 0,02Viejo Académico Somerville 0,08 0,05Nuevo Académico Somerville 0,03 0,08Viejo Residencial Somerville 0,04 0,07Nuevo Residencial Somerville 0,02 0,06
� Identi�que el modelo de que se trata, estime sus parámetros y realice la diagnosis.
� Si no se cumplieren las hipótesis del modelo indique qué podría hacerse para remediarlo.
� Estudie las interacciones e interprete las que resulten signi�cativas.
13
Regresión1: Regresión simple I
2Regresión Lineal
Regresión simpleconsumo y peso de automóviles
Núm. Obs. Peso Consumo(i) kg litros/100 km1 981 112 878 123 708 84 1138 115 1064 136 655 67 1273 148 1485 179 1366 1810 1351 1811 1635 2012 900 1013 888 714 766 915 981 1316 729 717 1034 1218 1384 1719 776 1220 835 1021 650 922 956 1223 688 824 716 725 608 726 802 1127 1578 1828 688 729 1461 1730 1556 15
0
5
10
15
20
25
500 700 900 1100 1300 1500 1700
Peso (Kg)
Cons
umo
(litro
s/10
0 Km
)
),0(, 210 Nuuxy iiii
3Regresión Lineal
Regresión simple consumo y peso de automóviles
Núm. Obs. Peso Consumo(i) kg litros/100 km1 981 112 878 123 708 84 1138 115 1064 136 655 67 1273 148 1485 179 1366 1810 1351 1811 1635 2012 900 1013 888 714 766 915 981 1316 729 717 1034 1218 1384 1719 776 1220 835 1021 650 922 956 1223 688 824 716 725 608 726 802 1127 1578 1828 688 729 1461 1730 1556 15
0
5
10
15
20
25
500 700 900 1100 1300 1500 1700
Peso (Kg)
Cons
umo
(litro
s/10
0 Km
)
),0(, 210 Nuuxy iiii
4Regresión Lineal
ix
iy
Ecuación de una recta
1
ii xy 10
0
1
5Regresión Lineal
ix
iyx10
Modelo
osdesconocid parámetros:,, 210
),0(, 210 Nuuxy iiii
6Regresión Lineal
ix
iyx10
Modelo
),0(, 210 Nuuxy iiii
ix10
7Regresión Lineal
Hipótesis del modelo
LinealidadE[yi ]= 0+ 1xi
Normalidadyi|xi N ( 0+ 1xi, 2)
HomocedasticidadVar [yi|xi] = 2
IndependenciaCov [yi, yk] = 0
21
0
Parámetros
8Regresión Lineal
Modelo
),0(, 210 Nuuxy iiii
yi : Variable dependiente
xi : Variable independiente
ui : Parte aleatoria
0
9Regresión Lineal
Estimación
xyx
yx
n
xx
n
xxyy
nxxnyx
xy
xxyxxxyddM
xnyxyddM
xyM
i
ii
n
ii
n
iii
i
n
iii
iiii
n
iiii
ii
n
iii
n
iii
101
1
2
11
210
1
10
210
110
0
101
100
1
21010
ˆˆ;)var(
),cov(ˆ
)(ˆ
))((
ˆˆ
ˆˆ
ˆˆ0)ˆˆ(
ˆˆ0)ˆˆ(
)(),(
10Regresión Lineal
Estimación: máxima verosimilitud
xyx
yx
n
xx
n
xxyy
nxxnyx
xy
xxyxxxyddL
xnyxyddL
xynnlL
xyl
i
ii
n
ii
n
iii
in
iii
iiiin
iiii
iin
iii
n
iii
n
iiinn
101
12
11
210
1
10
210
11020
101
1020
12
1022
210
210
12
1022/2
10
ˆˆ;)var(
),cov(ˆ
)(ˆ
))((
ˆˆ
ˆˆ
ˆˆ0)ˆˆ(1
ˆˆ0)ˆˆ(1
)(2
1log2
)2log(2
),,(log),,(
)(2
12
1),,( exp
11Regresión Lineal
Estimación 2 : máxima verosimilitud
n
xy
xynddL
xynnL
n
iii
n
iii
n
iii
12
102
12
10422
12
10222
10
)ˆˆ(ˆ
0)ˆˆ(ˆ21
ˆ1
2
)(2
1log2
)2log(2
),,(
2ˆ
0
0
ˆˆ
1
2
2
1
1
10
n
es
xe
e
xyen
ii
Rn
iii
n
ii
iii
12Regresión Lineal
Estimación
ni i
ni ii
i
ii
xxyyxx
xyx
xy
12
11
10
)())((
)var(),cov(ˆ
ˆˆ
n
iii xy
1
210 )(Mín
Mínimos cuadrados
n
iiinn xyMax
1
21022/ )(
21
21
exp
Máxima verosimilitud
13Regresión Lineal
xy 10ˆˆˆ
Recta de regresión
x
y
xy 10ˆˆ
Pendiente
1ˆ
)var(),cov(
1i
ii
xyx
14Regresión Lineal
Estimaciónconsumo y peso de automóviles
Núm. Obs. Peso Consumo(i) kg litros/100 km1 981 112 878 123 708 84 1138 115 1064 136 655 67 1273 148 1485 179 1366 1810 1351 1811 1635 2012 900 1013 888 714 766 915 981 1316 729 717 1034 1218 1384 1719 776 1220 835 1021 650 922 956 1223 688 824 716 725 608 726 802 1127 1578 1828 688 729 1461 1730 1556 15
0
5
10
15
20
25
500 700 900 1100 1300 1500 1700
Peso (Kg)
Cons
umo
(litro
s/10
0 Km
)
071.07.10170117.087.11ˆˆ
0117.06.104446
2.1225)var(
),cov(ˆ
10
1
xy
xyx
i
ii
15Regresión Lineal
ResiduoPrevistoValor
ˆˆ
observadoValor 10 iii exy
ix
iy
ii xy 10ˆˆˆ
ie
Residuos
16Regresión Lineal
ResiduoPrevistoValor
ˆˆ
observadoValor 10 iii exy
ix
iy
ii xy 10ˆˆˆ
ie
Residuos iii
n
ii
R yyen
es ˆ;
2ˆ 1
2
2
17Regresión Lineal
Ejemplo: estimaciónNúm. Obs. Peso Consumo Predicción Residuos
(i) kg litros/100 km1 981 11 11,44 -0,442 878 12 10,23 1,773 708 8 8,23 -0,234 1138 11 13,28 -2,285 1064 13 12,41 0,596 655 6 7,61 -1,617 1273 14 14,86 -0,868 1485 17 17,35 -0,359 1366 18 15,95 2,0510 1351 18 15,78 2,2211 1635 20 19,11 0,8912 900 10 10,49 -0,4913 888 7 10,35 -3,3514 766 9 8,91 0,0915 981 13 11,44 1,5616 729 7 8,48 -1,4817 1034 12 12,06 -0,0618 1384 17 16,16 0,8419 776 12 9,03 2,9720 835 10 9,72 0,2821 650 9 7,55 1,4522 956 12 11,14 0,8623 688 8 8,00 0,0024 716 7 8,33 -1,3325 608 7 7,06 -0,0626 802 11 9,34 1,6627 1578 18 18,44 -0,4428 688 7 8,00 -1,0029 1461 17 17,07 -0,0730 1556 15 18,18 -3,18
0
5
10
15
20
25
500 700 900 1100 1300 1500 1700
Peso (Kg)
Cons
umo
(litro
s/10
0 Km
)
;0117.0071.0ˆ ii xy 38.2ˆ2Rs
210 ,iii uxy
18Regresión Lineal
Propiedades de 1ˆ
nn
n
ii
x
i
n
ii
x
n
iii
x
n
iii
xx
ii
ywywywyns
xx
yxxns
yxxns
yyxxnss
yx
22111
2
12
12
1221
11
1),cov(ˆ
0
212
2
212
12
21212121
121
11
11111
01
x
ni i
x
ni i
ni i
x
ni i
x
ni ii
x
ni ii
xi
ni i
ni i
x
ni i
nsxx
nsw
xxns
xxxns
xxxns
xxxns
xw
xxns
w
2x
ii ns
xxw
19Regresión Lineal
son v.a. independientes1ˆ,y
0)var()ˆ,cov(
ˆ
111111
1
2
1
2
1
2122111
2
1
21
n
ii
T
T
n
nnn
T
n
n
wn
y
y
yy
wwwywywyw
y
yy
nnny
ny
ny
ny
wYa
Yw
Ya
20Regresión Lineal
Distribución de 1ˆ
2
22
1
2
222
221
21
22111
110
102211
22111
22111
210
)(
)][(][][][][]ˆ[
)()()][(][][][
][]ˆ[
normales de lineal Comb.ˆ),(
x
n
ii
inn
nn
iii
iinn
nn
nn
ii
nsw
yVarywyVarwyVarwywywywVarVar
xwwxyEyEwyEwyEw
ywywywEE
ywywyw
xNy
2
2
11 ,ˆxns
N
Parámetro y estimador
21Simple Linear Regression
1ˆ
087.02.330
54.1ˆ)ˆ( 1X
R
snsSE
kg 100km/100 cada litros 1.17100km/kg cada litros 0117.01
33.101.116.017.1
08.005.217.1
ˆˆ
1
1
1
2/11x
R
snst
1
t /2-t /2
/2
tn-2
.
1-
t28
2.05-2.05
Desviación típica de
22Simple Linear Regression
1ˆ
X
R
snsSE ˆ)ˆ( 1
La precisión en la estimación de la pendientemejora si:1. La Desv. Típica residual es pequeña2. La muestra n es grande3. Los valores de x tienen mucha dispersión
23Regresión Lineal
Distribución de 0ˆ
2
22
00
2
22
0
010
10
1
2
2
11
2
10
1,ˆ
1]ˆvar[
]ˆ[][]ˆ[
ˆˆ
ntesindependieson ˆ,
),(ˆ
),(
x
x
x
sx
n
sx
n
ExyEENormalxy
yns
N
nxNy
N
24Regresión Lineal
Distribución de ŝR2
222
2
21
2ˆ)2(
nR
n
ii sn
e
00
),0(
ˆˆ
222
12
221
2
21010
iii
n
ni i
nni i
i
iiiiii
xeeeu
Nuexyuxy
25Regresión Lineal
Contraste principal de regresión: ¿depende y de x?
0:0:
11
10
HH
ix
iy
ix
iy
iii uxy 10 ii uy 0
H0 es falso
x e y están relacionadosH0 es cierto
x e y no están relacionados
26Regresión Lineal
ii xy 10ˆˆˆ
0:0:
11
10
HH
Contraste sobre la pendiente
t /2-t /2
/2
tn-2
R.R. R.R
R. Acept.
1-
),(ˆ11
xsnN
21111
ˆˆ
)1,0(ˆ
n
x
R
x
t
snsN
sn
Ho rechaza Se
;ˆˆ
2/;21
11
n
x
R
tt
snst
27
0 rechaza e05.24.13 HS
2.05-2.05
0.025
t28R.R. R.R
4.13)2.32330/(54.1
017.00t
0.025
Ejemplo: = 0.05
0:0:
11
10
HH 54.1ˆ;0117.0071.0ˆ Rii sxy
…
El peso influye significativamente en el consumo
Con α=0.05 “x” influyesignificativamente en “y”
Area Azul = p-valor
0 05 “ ”P-valor ≤ α P-valor > α
α = 0.05
0:0:
11
10
HH
Con α=0.05 “x” NO influyesignificativamente en “y”
0: 11H 0: 10H
P-valor
29Regresión Lineal
ii xy 10ˆˆˆ
0:0:
01
00
HH
Ho rechaza Se
;1ˆ
ˆ
))1(,(ˆ
2/;20
2
20
0
2
22
00
n
x
R
x
tt
sx
ns
t
sx
nN
Contraste: ordenada en el origen
30Regresión Lineal
Estimate Stand Error t value Pr(>|t|)Intercept SE( ) = SE( )Regressor SE( ) = SE( )
Estimate Stand Error t value Pr(>|t|)Intercept -0.07126 0.945148 -0.075 0.943246
Peso 0.01173 0.000887 13.23 0.000000
Dependiente (y) ~ Independiente (x)
Dependiente (Consumo) ~ Independiente (Peso)
Modelo estimado y contrastes
31Regresión Lineal
Descomposición de la variabilidad en regresión
VNEVEVTiyiyyiyyy
iyiyyiyyy
yiyiyiyyiyiy
e
iyxy
uxy
n
i
n
i
n
ii
i
i
iii
iii
1
2
1
2
1
2
10
10
)ˆ()ˆ()(
sumando)y cuadrado al elevando()ˆ()ˆ()(
) restando()ˆ(ˆ
ˆˆ
ˆˆ
32Regresión Lineal
Coeficiente de determinación R2
221
1
2211 ˆ)(ˆ:)(ˆˆ x
n
iiii nsxxVExxyy
VNEVEVT
VTVER2
regresor elpor explicado estáque VT de porcentaje el Mide
10 2Rn
ii
n
iii
n
ii
yyVT
yyVNE
yyVE
1
2
1
2
1
2
)(
)ˆ(
)ˆ(
33Regresión Lineal
Coef. determinación
12R 80.02R
50.02R 02R
34Regresión Lineal
ii xy 10ˆˆˆ0:
0:
11
10
HH
Contraste F
1ˆ
ntesindependieson ,
ˆ)2(
cierto) es H (Si
22
222
2
21
2
2
o212
VNEVE
sneVNE
VE
nR
ni i
212ˆ2 n,R
Fs
VE)VNE/(n-
VEF
0H rechaza Se FF
35Regresión Lineal
ii xy 10ˆˆˆ
0:0:
11
10
HH
Contraste F
2,12
22o
2
ˆ
]ˆ[
cierto) es H (Si][
nR
R
FsVEF
sE
VEE
0H rechaza Se FF
α = 0.05Fα
Rechazo H0Acep. H0F1,n-2
α = 0.05
4.2
36Regresión Lineal
ii xy 10ˆˆˆ
0:0:
11
10
HH
Contraste F
1.17538.2
8.416ˆ
38.2ˆ
8.416)ˆ(
2
21
R
R
n
iii
sVEF
s
yyVE
0H rechaza Se 2.41.175
F1,28
37Análisis de la varianza
Tabla de Análisis de la Varianza
1)((VT) Total
2ˆ2)ˆ((VNE)Residual
ˆ)ˆ(
)ˆ(1)ˆ((VE)Explicada
FVarianzasLibertadCuadradosFUENTES de Gradosde Suma
2
2
2
222
nyyRsnyy
syy
yyyy
i
ii
R
iii
2
22
)()ˆ(
yyyy
VTVER
i
i
38Análisis de la varianza
Tabla de Análisis de la Varianza
294.483(VT) Total38.22864.66(VNE)Residual
1.1758.41618.416(VE)Explicada
FVarianzasLibertadCuadradosFUENTES de Gradosde Suma
862.02R
0
5
10
15
20
25
500 700 900 1100 1300 1500 1700
Peso (Kg)
Cons
umo
(litro
s/10
0 Km
)
39Regresión Lineal
Ejemplo: R2Núm. Obs. Peso Consumo Predicción Residuos
(i) kg litros/100 km1 981 11 11,44 -0,442 878 12 10,23 1,773 708 8 8,23 -0,234 1138 11 13,28 -2,285 1064 13 12,41 0,596 655 6 7,61 -1,617 1273 14 14,86 -0,868 1485 17 17,35 -0,359 1366 18 15,95 2,0510 1351 18 15,78 2,2211 1635 20 19,11 0,8912 900 10 10,49 -0,4913 888 7 10,35 -3,3514 766 9 8,91 0,0915 981 13 11,44 1,5616 729 7 8,48 -1,4817 1034 12 12,06 -0,0618 1384 17 16,16 0,8419 776 12 9,03 2,9720 835 10 9,72 0,2821 650 9 7,55 1,4522 956 12 11,14 0,8623 688 8 8,00 0,0024 716 7 8,33 -1,3325 608 7 7,06 -0,0626 802 11 9,34 1,6627 1578 18 18,44 -0,4428 688 7 8,00 -1,0029 1461 17 17,07 -0,0730 1556 15 18,18 -3,18
;0117.0071.0ˆ ii xy
38.2ˆ2Rs
%2.864.4838.416
4.483
64.66)ˆ(
8.416)ˆ(
2
1
1
R
VNEVEVT
yyVNE
yyVE
n
iii
n
ii
Regresión con R
40Regresión Lineal
ARCHIVO TEXTO: coches.txt
Regresión con R: Estimación
41Regresión Lineal
Gráfico en R
42Regresión Lineal
Ejemplo 2: Pearson-Lee Data
43Simple Linear Regression
Estimation with R
44Simple Linear Regression
45Simple Linear Regression
46Simple Linear Regression
Conclusiones Principales1. Hay una relación muy significativa entre la altura de las
hijas y la altura de la madre (p-valor es prácticamente 0)
2. La relación es positiva: “A madre alta hija alta.”
3. La desviación típica de la pendiente (standard error) es
4. La estatura de la madre solo explica el 24% de la estaturade la hija (R-squared = 0.24)
5. Dada la estatura de la madre se puede predecir la estaturade la hija con un error medio de 5.75 cm (sR).
54.01
590.049.00254.096.154.00259.0)ˆ(
1
11SE
“Regresión” a la media
47Simple Linear Regression
La recta de regresión (línea roja) tiene pendiente menor que 1 (línea azul) , lo que significa que lasmadres altas tienden a tener hijas que son más altas que la media (pues la pendiente es positiva) peromás bajas que ellas (porque la pendiente es menor que uno). De forma similar, las madres bajas tienenhijas más bajas , pero más altas que sus madres. Este resultado resultó sorprendente y es el origen del término “regresión”, que indica que los valores extremos de una generación tienden a regresa o revertir hacia la media en la siguiente.
Regresión2: Regresión simple II (Diagnosis y
Transformaciones)
Diagnosis del Modelo
La estimación está basada en las siguientes hipótesis:
LinealidadNormalidadHomocedasticidadIndependencia
Observaciones Atípicas (muy perjudiciales)
2Regresión Lineal
ix
iyx10
ix
iyx10
Las hipótesis se comprueban con los RESIDUOS
3Regresión Lineal
Análisis de los ResiduosNúm. Obs. Peso Consumo Predicción Residuos
(i) kg litros/100 km1 981 11 11,44 -0,442 878 12 10,23 1,773 708 8 8,23 -0,234 1138 11 13,28 -2,285 1064 13 12,41 0,596 655 6 7,61 -1,617 1273 14 14,86 -0,868 1485 17 17,35 -0,359 1366 18 15,95 2,0510 1351 18 15,78 2,2211 1635 20 19,11 0,8912 900 10 10,49 -0,4913 888 7 10,35 -3,3514 766 9 8,91 0,0915 981 13 11,44 1,5616 729 7 8,48 -1,4817 1034 12 12,06 -0,0618 1384 17 16,16 0,8419 776 12 9,03 2,9720 835 10 9,72 0,2821 650 9 7,55 1,4522 956 12 11,14 0,8623 688 8 8,00 0,0024 716 7 8,33 -1,3325 608 7 7,06 -0,0626 802 11 9,34 1,6627 1578 18 18,44 -0,4428 688 7 8,00 -1,0029 1461 17 17,07 -0,0730 1556 15 18,18 -3,18
0
5
10
15
20
25
500 700 900 1100 1300 1500 1700
Peso (Kg)
Cons
umo
(litro
s/10
0 Km
)
;0117.0071.0ˆ ii xy 38.2ˆ2Rs
-0,441,77-0,23-2,280,59-1,61-0,86-0,352,052,220,89-0,49-3,350,091,56-1,48-0,060,842,970,281,450,860,00-1,33-0,061,66-0,44-1,00-0,07-3,18
iii yye ˆ
4Regresión Lineal
Diagnosis del ModeloNúm. Obs. Peso Consumo Predicción Residuos
(i) kg litros/100 km1 981 11 11,44 -0,442 878 12 10,23 1,773 708 8 8,23 -0,234 1138 11 13,28 -2,285 1064 13 12,41 0,596 655 6 7,61 -1,617 1273 14 14,86 -0,868 1485 17 17,35 -0,359 1366 18 15,95 2,0510 1351 18 15,78 2,2211 1635 20 19,11 0,8912 900 10 10,49 -0,4913 888 7 10,35 -3,3514 766 9 8,91 0,0915 981 13 11,44 1,5616 729 7 8,48 -1,4817 1034 12 12,06 -0,0618 1384 17 16,16 0,8419 776 12 9,03 2,9720 835 10 9,72 0,2821 650 9 7,55 1,4522 956 12 11,14 0,8623 688 8 8,00 0,0024 716 7 8,33 -1,3325 608 7 7,06 -0,0626 802 11 9,34 1,6627 1578 18 18,44 -0,4428 688 7 8,00 -1,0029 1461 17 17,07 -0,0730 1556 15 18,18 -3,18
0
5
10
15
20
25
500 700 900 1100 1300 1500 1700
Peso (Kg)
Cons
umo
(litro
s/10
0 Km
)
;0117.0071.0ˆ ii xy 38.2ˆ2Rs
5Regresión Lineal
Diagnosis del ModeloNúm. Obs. Peso Consumo Predicción Residuos
(i) kg litros/100 km1 981 11 11,44 -0,442 878 12 10,23 1,773 708 8 8,23 -0,234 1138 11 13,28 -2,285 1064 13 12,41 0,596 655 6 7,61 -1,617 1273 14 14,86 -0,868 1485 17 17,35 -0,359 1366 18 15,95 2,0510 1351 18 15,78 2,2211 1635 20 19,11 0,8912 900 10 10,49 -0,4913 888 7 10,35 -3,3514 766 9 8,91 0,0915 981 13 11,44 1,5616 729 7 8,48 -1,4817 1034 12 12,06 -0,0618 1384 17 16,16 0,8419 776 12 9,03 2,9720 835 10 9,72 0,2821 650 9 7,55 1,4522 956 12 11,14 0,8623 688 8 8,00 0,0024 716 7 8,33 -1,3325 608 7 7,06 -0,0626 802 11 9,34 1,6627 1578 18 18,44 -0,4428 688 7 8,00 -1,0029 1461 17 17,07 -0,0730 1556 15 18,18 -3,18
;0117.0071.0ˆ ii xy 38.2ˆ2Rs
No linealidad
6Regresión Lineal
No homocedasticidad
7Regresión Lineal
No homocedasticidad, ni linealidad
8Regresión Lineal
Observaciones atípicas
9Regresión Lineal
Residuos Aceptables
10Regresión Lineal
11Regresión Lineal
Normalidad de los Residuos
Herramientas de comprobación:Histograma de residuosGráfico de probabilidad normal (Q-Q plot)Contrastes formales (Kolmogorov-Smirnov)
Ejemplo de coches
Residuos-9 -6 -3 0 3 6 9
0
20
40
60
80
100
120
-6 -4 -2 0 2 4 6
Residuos
0,115
2050809599
99,9
prob
abili
dad
12Regresión Lineal
Comprobación de la linealidad y homocedasticidad
Ambas hipótesis se comprueban conjuntamente mediante gráficos de los residuos
Frente a valores previstosFrente al regresor.
En muchas ocasiones se corrige la falta de linealidad y la heterocedasticidadmediante transformación de las variables.
iii
iii
uxyuxy
110
110
logloglog
13Regresión Lineal
Residuos – Regresor o Val.Previstos
0
ix
ie
0
ix
ie
0
ix
ieLineal y homocedástico No lineal y homocedástico
Lineal y no homocedástico
0
ix
ie
No lineal y no homocedástico
Coches (ejemplo 1): Consumo ~ Peso
14Regresión Lineal
Normalidad ok Linealidad ok y Homocedasticidad ok
Cars (Ejemplo 2): mpg ~ weight
15Regresión Lineal
DESCRIPCIÓN: Datos de 391 coches (archivo:cars.txt) con información del siete variables: consumo (mpg), cc (engine), potencia (horse), peso (weight), tiempo de aceleración (accel), origen del coche (origin, 1=USA, 2=UE, 3=Japón) y número de cilindros (cylinders)
OBJETIVO: Estimar el modelo de regresión simple entre el consumo (mpg) y el peso (weight)
Cars: mpg ~ weight
16Regresión Lineal
mpg = 49.20 − 0.0076 weight(0.802) (0.00025)
= 0.69 = 4.34
Cars: Figuras
17Regresión Lineal
Figura 2.1 Figura 2.2
No hay linealidad ni homocedasticidad
Cars: cons ~ weight
18Regresión Lineal
TRANSFORMACIÓN: En lugar de medir el consumo en millas por galón (mpg), vamos a cambiar a “litros cada 100 km (cons)”
cons = 235.1/mpg
Y X
…
Cars: cons ~ weight
19Regresión Lineal
cons = −0.7689 + 0.0040 weight(0.3298) (0.00011)
= 0.79 = 1.78
TRANSFORMACIÓN: En lugar de medir el consumo en millas por galón (mpg), vamos a cambiar a “litros cada 100 km (cons)”
cons = 235.1/mpg
Cars: Cambio Variable
20Regresión Lineal
Figura 2.3 Figura 2.4
Mejora la linealidad y homocedasticidad
Cars: Normalidad
21Regresión Lineal
Figura 2.5 Figura 2.6
Normalidad no es problemática
Cars: Instrucciones con R
22Regresión Lineal
> cars<-read.table("cars.txt",header=TRUE) % LEE EL ARCHIVO CARS.TXT> attach(cars) % AÑADE LAS VARIABLES DEL CONJUNTO DE DATOS cars A LA MEMORIA
> mod_cars<-lm(mpg ~ weight) % ESTIMA EL MODELO DE REGRESIÓN SIMPLE (MOD_CARS)
> par(mfrow=c(1,2)) % DIVIDE LA PANTALLA GRÁFICA EN 1 FILA Y 2 COLUMNAS (ver FIGURAs 2.1 2.2)
> plot(weight,mpg,pch=19,col="blue") % DIBUJA Figura 2.1> abline(mod_cars,col="red",lwd=2) % AÑADE Linea roja A la figura 2.1
> plot(weight,residuals(mod_cars),pch=19,col="blue",ylab="residuos") % DIBUJA Figura 2.2> abline(c(0,0),col="red",lty=2,lwd=2) > summary(mod_cars) % Línea roja de la figura 2.2
> summary(mod_cars) % MUESTRA Resumen del modelo de regresión
23Regresión Lineal
Tabla 2.1
Cars: Instrucciones con R
24Regresión Lineal
> cons <- 235.1/mpg % cambio variable> m2 <- lm(cons ~ weight) % nuevo modelo
> plot(weight,cons,pch=19,col="blue") % Figuras 2.3 y 2.4 > abline(m2,col="red",lwd=2)> plot(weight,residuals(m2),pch=19,col="blue",ylim=c(-10,10))> abline(c(0,0),col="red",lwd=2,lty=2)> abline(c(5,0),col="red",lwd=2,lty=2)> abline(c(-5,0),col="red",lwd=2,lty=2)
> hist(residuals(m2),xlab="residuos",col="red",nclas=20) % figuras 2.5 y 2.6> qqnorm(residuals(m2),col="blue",pch=19) > qqline(residuals(m2),col="red",lwd=2,lty=2)
> summary(m2) % resumen del modelo m2 (tabla 2.2)
Cars: Instrucciones con R
25Regresión Lineal
Tabla 2.2
Cars: Instrucciones con R
Forbes (Ejemplo 3)
26Simple Linear Regression
Ejemplo “Forbes”En un artículo de 1857 un físico escocés llamadoJames D. Forbes presentó una serie de experimentosrealizados para estudiar la relación entre presiónatmosférica y punto de ebullición del agua. Forbessabía que la altitud podía ser determinada a partir dela presión atmosférica medida con un barómetro, conmenores presiones a medida que aumenta la altitud. Amediados del siglo XIX los barómetros eraninstrumentos muy frágiles y Forbes pensó que sepodía sustituir la medidas de la presión con medidasde la temperatura de ebullición del agua. Recogiódatos de 17 emplazamientos en los Alpes y losmontes de Escocia. En cada lugar se midió con unbarómetro la presión en pulgadas de mercurio (Pres)y la temperatura de ebullición del agua en gradosFahrenheit (Temp) empleando un termómetro. Losdatos se encuentran en el archivo “forbes.txt”
“forbes.txt”
Temp Pres1 194.5 20.792 194.3 20.79 3 197.9 22.404 198.4 22.675 199.4 23.156 199.9 23.357 200.9 23.898 201.1 23.99 9 201.4 24.02 10 201.3 24.0111 203.6 25.1412 204.6 26.5713 209.5 28.4914 208.6 27.76 15 210.7 29.0416 211.9 29.8817 212.2 30.06
Weisberg, S. (2005). Applied Linear Regression, 3rdedition. New York: Wiley.
Forbes: Modelo Inicial
27Regresión Lineal
Temp Pres Pred Resid1 194.5 20.79 20.639 0.15115522 194.3 20.79 20.534 0.25573373 197.9 22.40 22.417 -0.01667904 198.4 22.67 22.678 -0.00812525 199.4 23.15 23.201 -0.05101766 199.9 23.35 23.462 -0.11246387 200.9 23.89 23.985 -0.09535628 201.1 23.99 24.090 -0.09993479 201.4 24.02 24.247 -0.226802410 201.3 24.01 24.195 -0.184513111 203.6 25.14 25.397 -0.257165712 204.6 26.57 25.920 0.649941913 209.5 28.49 28.482 0.007769214 208.6 27.76 28.012 -0.251627715 210.7 29.04 29.110 -0.069701716 211.9 29.88 29.737 0.142827417 212.2 30.06 29.894 0.1659597
Pres = −81.06 + 0.523 Temp(2.05) (0.010)
= 0.994 = 0.233 Tabla 3.1
Forbes: Conclusiones Modelo Inicial
28Regresión Lineal
• Según la figura y el valor R-cuadrado (0.994) el ajuste es muy bueno.
• Comparando los valores Previstos con los Observados (Pred) observamos que las diferencias (residuos) son pequeñas ( = 0.233)
• Los dos parámetros del modelo son muy significativos (entre paréntesis se proporcionan las desv. típicas. estimadas de los parámetros estimados)
Figura 3.1 Figura 3.2
Forbes: Diagnosis
29Regresión Lineal
En el gráfico de residuos frente al regresor se observa:
• La mayoría de las observaciones muestran no-linealidad• Existe una observación atípica
Forbes: Instrucciones R
30Regresión Lineal
> forbes <- read.table(“forbes.txt”,header=TRUE)> attach(forbes)> m <- lm(Pres ~ Temp)> summary(m)
31Regresión Lineal
> forbes$Pred <- predict(m)> forbes$Resid <- residuals(m)> print(forbes,digits=4,print.gap=3) % proporciona tabla 3.1
Figuras 3.1 y 3.2 > par(mfrow=c(1,2)) > plot(Temp,Pres,pch=19,col="blue",xlab="Temperatura",
ylab="Presión")> abline(m,col="red",lwd=2) > plot(Temp,residuals(m),pch=19,col="blue",ylab="Residuos",
xlab="Temperatura") > abline(c(0,0),lty=2,lwd=2,col="red")
Forbes: Instrucciones R (cont)
Forbes: Modelo 1
32Regresión Lineal
Temp Pres Lpres Pred Resid1 194.5 20.79 131.79 132.03 -0.24802252 194.3 20.79 131.79 131.85 -0.06889903 197.9 22.40 135.02 135.08 -0.05377004 198.4 22.67 135.55 135.53 0.01877135 199.4 23.15 136.46 136.42 0.03310106 199.9 23.35 136.83 136.87 -0.04111897 200.9 23.89 137.82 137.77 0.05618988 201.1 23.99 138.00 137.94 0.05847619 201.4 24.02 138.06 138.21 -0.155933710 201.3 24.01 138.04 138.12 -0.084456311 203.6 25.14 140.04 140.18 -0.147065812 204.6 26.57 142.44 141.08 11.359944513 209.5 28.49 145.47 145.47 0.001507014 208.6 27.76 144.34 144.66 -0.319735815 210.7 29.04 146.30 146.54 -0.242818116 211.9 29.88 147.54 147.62 -0.079161317 212.2 30.06 147.80 147.89 -0.0870083
Lpres = −42.16 + 0.8956 Temp(3.34) (0.016)
= 0.995 = 0.379
Tabla 4.1
= 100 × log
Forbes : modelo 1
33Regresión Lineal
En el gráfico de residuos frente al regresor se observa:• Existe una observación claramente atípica • Se ha corregido la falta de linealidad en el resto de las
observaciones.
Figura 4.1 Figura 4.2
Forbes: Modelo 1
34Regresión Lineal
• Se ha realizado la transformación logarítmica de la presiónpara corregir la falta de linealidad (da igual utilizarlogaritmos neperianos o decimales, se ha multiplicado por100 para evitar números muy pequeños en lasestimaciones, no tiene efecto en el análisis)
• La observación atípica tiene mucha influencia en laestimación del modelo, se aprecia como los residuos delresto de las observaciones no tienen media cero.
• Por lo demás el ajuste es muy bueno como se ve en lagráfica y en la tabla 4.1, los valores previstos se parecenmucho a los observados (los residuos son pequeños)
• Conviene eliminar la observación atípica y recalcular.
Forbes: Instrucciones R
35Regresión Lineal
> forbes1 <- read.table(“forbes.txt”,header=TRUE)> attach(forbes1)> m1 <- lm(100*log10(Pres) ~ Temp)> summary(m1)
36Regresión Lineal
> forbes1$Lpres <- 100*log10(Pres)> forbes1$Pred <- predict(m1)> forbes1$Resid <- residuals(m1)> print(forbes1,digits=4,print.gap=3) % proporciona tabla 4.1
Figuras 4.1 y 4.2 > par(mfrow=c(1,2)) > plot(Temp,100*log10(Pres),pch=19,col="blue",xlab="Temperatura“)> abline(m1,col="red",lwd=2) > plot(Temp,residuals(m1),pch=19,col="blue",ylab="Residuos",
xlab="Temperatura") > abline(c(0,0),lty=2,lwd=2,col="red")
Forbes: Instrucciones R (cont)
Forbes: Modelo 2
37Regresión Lineal
Temp Pres Lpres Pred Resid1 194.5 20.79 131.79 131.99 -0.20066992 194.3 20.79 131.79 131.81 -0.02244803 197.9 22.40 135.02 135.02 0.00891074 198.4 22.67 135.55 135.46 0.08370615 199.4 23.15 136.46 136.35 0.10254416 199.9 23.35 136.83 136.80 0.03057837 200.9 23.89 137.82 137.69 0.13239538 201.1 23.99 138.00 137.87 0.13558329 201.4 24.02 138.06 138.13 -0.077474210 201.3 24.01 138.04 138.05 -0.006447511 203.6 25.14 140.04 140.10 -0.058688112* 204.6 26.57 142.44 140.99 1.452732413 209.5 28.49 145.47 145.35 0.116483314 208.6 27.76 144.34 144.55 -0.208816815 210.7 29.04 146.30 146.42 -0.122431816 211.9 29.88 147.54 147.49 0.046634917 212.2 30.06 147.80 147.76 0.0401403
Lpres = −41.33 + 0.8911 Temp(1.003) (0.0049)
= 0.9996 = 0.1136
Tabla 5.1
= 100 × log
(ELIMINANDO OBSERVACIÓN Nº 12)
La obs. 12 no se ha utilizado en la estimación del modelo
Forbes : modelo 2
38Regresión Lineal
En el gráfico de residuos frente al regresor se observa:• No existen observaciones atípicas (las líneas rojas se
encuentran a ±2 )• No se observa ninguna anomalía grave en el qqplot..
Figura 5.1 Figura 5.2
Forbes: Modelo 2
39Regresión Lineal
• Se ha realizado la transformación logarítmica de la presiónpara corregir la falta de linealidad y se ha eliminado laobservación 12 (el propio Forbes indica en su artículo quese trataba de un error de medida)
• Comparando el modelo 1 y 2, no se aprecian grandescambios en los parámetros estimados , .
• La desviación típica residual se ha reducidoconsiderablemente de uno a otro, pasando de 0.379 a0.113, y como consecuencia las desviaciones típicas de losparámetros.
• El análisis de los residuos no indican ninguna desviaciónimportante de las hipótesis del modelo
Forbes: Instrucciones R
40Regresión Lineal
> # Modelo m2 de Forbes> out <- abs(residuals(m1)) > 3*0.3792> m2 <- lm(100*log10(Pres[!out]) ~ Temp[!out])> summary(m2)
41Regresión Lineal
> # Tabla 5.1> P_Lpres =c(predict(m2)[1:11],NA,predict(m2)[12:16])> P_Lpres[12] = -41.334683 + 0.891110*Temp[12]> forbes2 <- forbes1> forbes2$Pred <- P_Lpres> forbes2$Resid <- 100*log10(Pres)-P_Lpres> print(forbes2,digits=5,print.gap=3)
> # Figuras 5.1 y 5.2> par(mfrow=c(1,2)) > plot(Temp[!out],residuals(m2),pch=19,col="blue",ylab="Residuos", + xlab="Temperatura",ylim=c(-.5,.5)) > abline(c(0,0),lty=2,lwd=2,col="red") > abline(c(-.22,0),lty=2,lwd=2,col="red") > abline(c(+.22,0),lty=2,lwd=2,col="red")> > qqnorm(residuals(m2),ylim=c(-.2,.2),pch=19,col="blue") > qqline(residuals(m2),col="red",lty=2,lwd=2)
Forbes 2: Instrucciones R (cont)
FEV (Ejemplo 4)
42Regresión Lineal
Ejemplo “Fev” Forced Expiratory Volume (FEV)654 observaciones, 5 variables
Descripción: Es una muestra de 654 jóvenes entre 3 y 19 años recogidos en Boston(USA) a finales de los 70. Se desea ver la relación entre la capacidad pulmonar (FEV) yfumar. En este primer análisis estudiaremos la relación entre FEV y la estatura. En lalección de regresión múltiple estudiaremos el efecto del tabaco.
Fuente:Rosner, B. (1999), Fundamentals of Biostatistics, 5th Ed., Pacific Grove, CA: Duxbury
Variablesage años del individuofev variable continua en litrosht variable continua, estatura en pulgadassex cualitativa (mujer=0, hombre=1)smoke cualitativa (No-fumador=0, fumador=1)
age fev ht sex smoke1 9 1.708 57.0 0 02 8 1.724 67.5 0 03 7 1.720 54.5 0 04 9 1.558 53.0 1 05 9 1.895 57.0 1 06 8 2.336 61.0 0 0...
Tabla 6.1
FEV: Modelo Inicial
43Regresión Lineal
• Tanto en el gráfico de dispersión de FEV y altura (ht) como en el de los residuos del modelo de regresión simple se observa la relación no-lineal entre las dos variables y la heterocedasticidad.
Figura 6.1 Figura 6.2
FEV: modelo 1
44Regresión Lineal
Figura 6.3 Figura 6.4
log(fev) = −2.27 + 0.052 ht(0.063) (0.0010)
= 0.7956 = 0.1508
FEV: modelo 1
45Regresión Lineal
Figura 6.5 Figura 6.6
FEV: Modelo 1
46Regresión Lineal
• Se ha realizado la transformación logarítmica de la variablerespuesta (fev) y se ha corregido la falta de linealidad y laheterocedasticidad como se ve en las figuras 6.3 y 6.4
• El histograma y el qqplot (figura 6.5 y 6.6) no muestrangrandes desviaciones de la normalidad.
• Existen algunas observaciones atípicas pero se puedecomprobar que al eliminarlas los resultados no cambiansustancialmente.
• Existe una relación muy significativa entre log(fev) y ht(altura). Un incremento de un pulgada en la estatura suponeun aumento de la capacidad pulmonar del 5% (esteresultado cambiará al considerar otras variables)
• La altura explica un 79% (R2) de la variabilidad del log(fev).
log(fev) = −2.27 + 0.052 ht(0.063) (0.0010)
= 0.7956 = 0.1508
log(fev)g( ) = −2.27 + 0.0525 ht((0.063)))) (((0.0010))
= 00..79567956 = 00..15081
FEV: Modelo m1 con R
47Regresión Lineal
Tabla 6.2
FEV : Instrucciones de R
48Regresión Lineal
> # FEV (ejemplo 4)> dat <- read.table("fev.dat",header=TRUE)> head(fev) #tabla 6.1> attach(dat)> m<-lm(fev~ht) # modelo m inicial> par(mfrow=c(1,2))> plot(ht,fev,col="blue") # figura 6.1> abline(m,col="red",lwd=2)> plot(ht,residuals(m),col="blue") # figura 6.2> abline(c(0,0),col="red",lwd=2,lty=2)> m1 <- lm(log(fev) ~ ht)> summary(m1) # modelo estimado tabla 6.2> plot(ht,log(fev),col="blue") # figura 6.3> abline(m1,col="red",lwd=2) # figura 6.3> plot(ht,residuals(m1),col="blue") # figura 6.4> abline(c(0,0),col="red",lty=2,lwd=2)> par(mfrow=c(1,2)) # figura 6.5 y 6.6> hist(residuals(m1),col="red",nclass=20,xlab="Residuos")> qqnorm(residuals(m1),col="blue")> qqline(residuals(m1),col="red",lty=2,lwd=2)
Brains (ejemplo 5)
49Regresión Lineal
Ejemplo “Brains” Peso del cuerpo y cerebro de mamiferos62 observaciones, 2 variables
Descripción:Para 62 especies de mamíferos se proporciona el peso medio del cuerpo en kilogramos ydel cerebro en gramos
Variables:BrainWt Peso del cerebro (gramos)BodyWt Peso del Cuerpo (kilogramos)
FuentesAllison, T. and Cicchetti, D. (1976). Sleep in mammals: Ecology and constitutionalcorrelates. Science, 194, 732-734.Weisberg, S. (2005). Applied Linear Regression, 3rd edition. New York: Wiley
Tabla 7.1
BrainWt BodyWtArctic_fox 44.500 3.385Owl_monkey 15.499 0.480Beaver 8.100 1.350Cow 423.012 464.983Gray_wolf 119.498 36.328Goat 114.996 27.660
OBJETIVO: Estudiar la relación entre peso del cerebro y peso del cuerpo.
Brains: Transformación
50Regresión Lineal
• En la escala original (figura 7.1) no tiene sentido el modelo de regresión lineal.
• Haciendo las transformación logarítmica de las dos variables (figura 7.2) se aprecia una clara relación lineal
Figura 6.1 Figura 6.2
Brains: modelo 1
51Regresión Lineal
Figura 7.3 Figura 7.4
log(BrainWt) = 2.13 + 0.752 log(BodyWt)(0.096) (0.028)
= 0.9208 = 0.6943
Brains
52Regresión Lineal
• La relación entre el logaritmo de peso del cuerpo y ellogaritmo del peso del cerebro es lineal como se ve en lasfiguras 7.3 y 7.4
• Existen algunas observaciones atípicas pero se puedecomprobar que al eliminarlas los resultados no cambiansustancialmente.
• El log del peso del cuerpo explica el 92% (R2) de lavariabilidad del log del peso del cerebro.
log(BrainWt) = 2.13 + 0.752 log(BodyWt)(0.096) (0.028)
= 0.9208 = 0.6943
Brains: Modelo m1 con R
53Regresión Lineal
Tabla 7.2
Brains : Instrucciones de R
54Regresión Lineal
> brains <- read.table("brains.txt",header=TRUE)> head(brains) # tabla 7.1> par(mfrow=c(1,2))> plot(BodyWt,BrainWt,col="blue",xlim=c(-1000,9000)) # figura 7.1> sel = BrainWt>1000 # selecciona observaciones con peso del cerebro >1000> text(BodyWt[out],BrainWt[out]-300,labels=brains[out,1]) # etiquetas 7.1> m <- lm(BrainWt ~ BodyWt)> abline(m,col="red",lwd=2) # figura 7.1> plot(log(BodyWt),log(BrainWt),col="blue") # Figura 7.2 y 7.3> m1 <- lm(log(BrainWt) ~ log(BodyWt))> abline(m1,col="red",lwd=2) # linea en figura 7.2 y 7.3> summary(m1) # tabla 7.2> plot(log(BodyWt),residuals(m1),col="blue",ylim=c(-4,4)) # figura 7.4> abline(c(0,0),col="red",lty=2,lwd=2)> abline(c(-2*.6943,0),col="red",lty=2,lwd=2)> abline(c(+2*.6943,0),col="red",lty=2,lwd=2)
Funciones R para Regresión Simple
55Regresión Lineal
• m <- lm(y~x) Estima el modelo y (variable dependiente) y x (regresor). El modelo lo guarda en m
• summary(m) Modelo estimado• plot(m) Diagnosis• coef(m) Da los coeficientes• residuals(m) Residuos del modelo• fitted(m) Da los valores predichos• deviance(m) Suma de residuos al cuadrado• predict(m) Hace predicciones• anova(m) Tabla ANOVA
Regresión3: Regresión Múltiple I
2Regresión Lineal
Ejemplo regresión múltiple
Consumo = 0 + 1 CC + 2 Pot + 3 Peso + 4 Acel + Error
Y X1 X2 X3 X4Consumo Cilindrada Potencia Peso Aceleraciónl/100Km cc CV kg segundos
15 4982 150 1144 1216 6391 190 1283 924 5031 200 1458 159 1491 70 651 2111 2294 72 802 1917 5752 153 1384 14... ... ... ... ...
Var. Independienteso regresores
Var. dependienteso respuesta
3Regresión Lineal
Modelo regresión múltiple
osdesconocid parámetros:,,,,, 2210 k
),0(
,2
22110
Nu
uxxxy
i
ikikiii
LinealidadE[yi] = 0+ 1x1i+ + kxki
Normalidadyi| x1 ,...,xk Normal
HomocedasticidadVar [yi|x1 ,...,xk] = 2
IndependenciaCov [yi, yk] = 0
Estimación
4Regresión Lineal
),0(, 222110 Nuuxxxy iikikiii
1ˆˆ
ˆˆˆˆ
ˆˆˆ
1
2
2
110
110
kn
esyye
xxy
exxy
n
ii
Riii
kikii
ikikii
== ⋮ = − − − ⋯−
g.l. = n-k-1
kikii xxy ˆˆˆˆ 110
5Regresión Lineal
Notación matricial
nkknnn
k
k
n u
uu
xxx
xxxxxx
y
yy
2
1
1
0
21
22212
12111
2
1
1
11
),( 2I0U
UXβY
N
6Regresión Lineal
Estimación mínimo-cuadrática
eβXY ˆdonde el vector e cumple
mínimo esn
iie
1
22e
nkknnn
k
k
n e
ee
xxx
xxxxxx
y
yy
2
1
1
0
21
22212
12111
2
1
ˆ
ˆˆ
1
11
7Regresión Lineal
Para que ||e||2 sea mínimo, e tiene que serperpendicular al espacio vectorial generado lascolumnas de X
nkii
nii
ni
nknnn
k
k
xe
xee
e
ee
xxx
xxxxxx
1
1 1
1
2
1
21
22212
12111
0
00
,1
11
0eX
eX
T
8Regresión Lineal
Mínimos cuadrados
YXXXββXXYXeXβXXYX
0eX
TTTT
TTT
T
1)(ˆˆˆ
x1
Y
βXY ˆˆ
YYe ˆ
x2
x2
x1
Y Solución MC
9Regresión Lineal
Matriz de proyección V
1
x1
VYY
V)Y(IeY
VYYYXX)X(XYβXY
T1T
ˆˆ
ˆˆPrevistos Val.
V)Y(IVYYβXYe ˆ
Residuos TT XXX(XV 1)
Simétrica V=VT
Idempotente VV=V
10Regresión Lineal
Distribución de probabilidad de β
1T
1TT1T
T1TT1T
T
T1T
T1TT1T
X)(X
X)X(XXX)(X
XX)(XIXX)(X
CYCCYβ
βXβXX)(XCXβYCβ
βXX)(XCCYYXX)(Xβ
IXβY
2
2
2
2
))()((
][][]ˆ[
][]ˆ[
ˆ) siendo(ˆ
),(
T
VarVarVar
EE
Normal
N
11Regresión Lineal
Distribución de probabilidad de β
kkkk
k
k
T
kkqqq
qqqqqq
10
11110
00100
11
0
1
0
)(
ˆ
ˆˆ
ˆ XXQββ
),(ˆ),(ˆ
2
2
iiii qN
N 1TX)(Xββ
)1()1()dim( kkQ
12Regresión Lineal
Residuos
)ˆˆˆ( 110 kikiii xxye
nkknnn
k
k
n e
ee
xxx
xxxxxx
y
yy
2
1
1
0
21
22212
12111
2
1
ˆ
ˆˆ
1
11
ResiduosPrevistosObservados
ˆ eβXY
13Regresión Lineal
Varianza Residual
212
21
2
212
12
2
]1
[
1][
kne
E
kne
E
e
ni i
ni i
kn
ni ieeT
212
2
12
2
ˆ)1(
1ˆ
knR
ni i
R
skn
kne
s
14Regresión Lineal
0:0:
1
0
i
iHH
Ho rechaza Se2/;1
111
2
;ˆ
ˆˆ
ˆ)1,0(
ˆ),(ˆ
kniiiR
ii
kniiRii
ii
iiii
ttqs
t
tqs
Nq
qN
Contraste individual i
ikikii uxxy 110
15Regresión Lineal
0:0:
1
0
i
i
HH
Contrastes individuales
t /2-t /2
/2
tn-k-1
R.R. R.R
R. Acept.
1-
1)ˆ(
ˆkn
i
iii t
SEt
Ho rechaza Se
;)ˆ(
ˆ
2/;11
1
11
knttSE
t
/2
kikii xxy ˆˆˆˆ 110→ , ( )
Con α=0.05 “x” influyesignificativamente en “y”
Area Azul = p-valor
0 05 “ ”P-valor ≤ α P-valor > α
α = 0.05
0:0:
1
0
i
i
HH
Con α=0.05 “x” NO influyesignificativamente en “y”
0:1 iH 0:0 iH
P-valor
n-k-1
17Regresión Lineal
Estimate Stand Error t value Pr(>|t|)Intercept SE( ) = SE( )
SE( ) = SE( )SE( ) = SE( )
… … … … …
SE( ) = SE( )
Dependiente (y) ~ Independientes (x1, x2,..,xk)Modelo estimado y contrastes
18Regresión Lineal
Estimate Stand Error t value Pr(>|t|)Intercept −1.9711 0.07833 −25.16 0.00000ℎ 0.04399 0.001647 26.71 0.000000.01981 0.003181 6.23 0.00000
Dependiente (log(fev)) ~ Independientes (ht (estatura) , age (edad) )
Modelo estimado y contrastes
log(fev) = −1.97 + 0.0439 ht + 0.0198 age(0.078) (0.0016) = 0.1476 (0.0031)
19Regresión Lineal
Modelo en diferencias a la media
kkknnn
kk
kk
n
kkikii
kikii
kk
ikikii
xxxxxx
xxxxxxxxxxxx
yy
yyyy
xxxxyy
xxy
xxy
exxy
ˆ
ˆˆ
ˆ
ˆˆ
)(ˆ)(ˆˆ
ˆˆˆˆ
ˆˆˆ
ˆˆˆ
2
1
2211
2222112
1221111
2
1
111
110
110
110
0111
1101
ˆˆˆ n
ii
n
ikik
n
ii
n
ii exxny
bXYY ˆ~ˆ ebXYY ˆ~
20Regresión Lineal
Modelo en diferencias a la media
UbXY ~~
))~~(,(ˆ 12 XXbb TσN
kknnn
kk
kk
kkn
xxxxxx
xxxxxxxxxxxx
y
yy
yy
yyyy
2211
2222112
1221111
2
1
2
1
2
1
~
ˆ
ˆˆ
ˆ,,,~
X
bbYY
YX)XX(b ~~~~ˆ 1 TT
21Regresión Lineal
Descomposición de la variabilidad en regresión
VNEVEVT
eyyyy
eyyyyyeyy
exxy
ni i
ni i
ni i
iii
iii
ikikii
12
12
12
110
)ˆ()(
)ˆ()()(ˆ
ˆˆˆ
Restando
22Regresión Lineal
Coeficiente de determinación R2
regresores los por explicado estáque VTde porcentaje el Mide
10 2R
8071.0526.72536.582
VTVER
526.72990.13536.58
990.13)ˆ(
536.58)ˆ(
1
2
1
2
VT
yyVNE
yyVE
n
iii
n
ii
log(fev) = −1.97 + 0.0439 ht + 0.0198 age(0.078) (0.0016) (0.0031)
23Regresión Lineal
Coef. determinación corregido
2
22
ˆ)1(ˆ)1(11
y
R
snskn
VTVNE
VTVNEVT
VTVER
1
)(ˆ 1
2
2n
yys
n
ii
y
11)1(1
111
ˆˆ
1
2
2
22
knnR
knn
VTVNE
ssR
y
R
2R
= 1 − (1 − 0.8071) × =0.8065
24Regresión Lineal
0:0:
1210
de distinto es algunoHH k
Contraste general de regresión.
0H rechaza Se FF
ikikii uxxy 110
1,2
2
22
o22
ˆˆ
ˆ
cierto) es H (Siˆ
knkR
E
R
E
FssF
sk
VEs
α = 0.05
Fα
Rechazo H0Acep. H0
F1,n-2
α = 0.05
3.01
25Regresión Lineal
Contraste F
0H rechaza Se 01.31362
F2,651
0algún :0:
1
210
iHH
1362021.0268.29
ˆˆ
021.0ˆ
268.292436.58ˆ
2
2
2
2
R
E
R
E
ssF
sk
VEs
P-valor = 0.00000…
log(fev) = −1.97 + 0.0439 ht + 0.0198 age,(0.078) (0.0016) = 0.1476(0.0031)
26Análisis de la varianza
Tabla de Análisis de la Varianza
1)((VT) Total
2ˆ1)ˆ((VNE)Residual
ˆˆ
ˆ)ˆ((VE)Explicada
FVarianzasLibertadCuadradosFUENTES de Gradosde Suma
2
2
2
222
nyysknyy
ss
skyy
i
Rii
R
EEi
2
22
)()ˆ(
yyyy
VTVER
i
i
27Análisis de la varianza
Tabla de Análisis de la Varianza
653526.72(VT) Total0215.0651990.13(VNE)Residual
1362268.292536.58(VE)Explicada
FVarianzasLibertadCuadradosFUENTES de Gradosde Suma
8071.0526.72536.582R
log(fev) = −1.97 + 0.0439 ht + 0.0198 age,(0.078) (0.0016) = 0.1476(0.0031)
Resumen de estimación con R
28Regresión Lineal
Ejemplo 1: Cars
29Regresión Lineal
…
Y X1 X2 X3 X4
RegresoresDepend
= −1.05 + 0.0058 engine + 0.0369 horse ++ 0.0020 weight + 0.0813 accel
Valores Previstos y Residuos
30Regresión Lineal
= −1.05 + 0.0058 engine + 0.0369 horse + 0.0020 weight + 0.0813 accelY X1 X2 X3 X4
Datos Resultados
9.5762)(
9.1037)ˆ(
0.4725)ˆ(
1
2
1
2
1
2
n
ii
n
iii
n
ii
yyVT
yyVNE
yyVE
= − − 1 = 1037.9386= 2.7= = 47255762.9 = 81.992
31Regresión Lineal
DIAGNOSIS: residuos ~ regresores
32Regresión Lineal
Linealidad Homocedasticidad
ok
Normalidad ok
Diagnosis
33Regresión Lineal
Resumen del modelo
34Regresión Lineal
Resumen del modelo (sin aceleración)
Conclusiones modelo final
35Regresión Lineal
1. No se aprecian desviaciones importantes de las hipótesis básicas delmodelo: linealidad, homocedasticidad y normalidad.
2. Se observa relación lineal significativa entre el consumo de los coches y supeso (weight), potencia (horse) y centímetros cúbicos (engine). (Los p-valores son menores que 0.05 en elmodelos). Los coeficientes estimadosson positivos, lo que significa que el aumento de cualquiera de las variablesindependientes incrementa el consumo del vehículo. Con las cuatrovariables se explica el 81.99 % de la variabilidad del consumo.
= −1.05 + 0.0058 engine + 0.0369 horse + 0.0020 weight + 0.0813 accel = 1.64 = 81.99
Conclusiones modelo final (cont)
36Regresión Lineal
3. En el modelo de cuatro regresores el parámetro asociado a aceleración no essignificativo. La inclusión de la variable “aceleración” no mejorasignificativamente el modelo. Eso no implica que no exista relación lineal entreaceleración y consumo (la regresión simple entre estas variables indican relaciónsignificativa con coeficiente negativo).
4. El coeficiente asociado al peso es 0.0020, es muy significativo. Parainterpretarlo es necesario tener en cuenta las unidades: un aumento de una libraen el peso del coche manteniendo constante el resto de las variables produce unaumento del consumo de 0.002 litros/100 km. (Esto implica que un regresor sepuede cambiar manteniendo el resto constante, lo que sólo es posible en losestudios experimentales.) El resto de los coeficientes se interpreta similarmente.
37Regresión Lineal
1 2 3 4Modelo engine horse weight accel
0,0320,0009
0,0850,0026
0,0040,0001
-0,6630,062
0,0202 0,0360,0019 0,00530,01313 0,002510,0023 0,00028720,03215 0,00480,00108 0,041
0,0351 0,00260,00432 0,000190,1027 0,3360,0035 0,048
0,00379 -0,16890,0001147 0,0351
0,0052 0,0299 0,002250,0025 0,005 0,00020,01765 0,0539 0,22820,0019 0,0063 0,04590,01006 0,0027 -0,09860,0026 0,000298 0,039
0,04113 0,0025 0,06390,0063 0,00022 0,0489
0,00587 0,03695 0,002018 0,08130,0026 0,0065 0,00031 0,049
1,648 81,75 81,61
1,640 81,99 81,80
1,723 80,05 79,89
1,704 80,50 80,35
1,734 79,75 79,65
1,643 81,86 81,72
1,650 81,67 81,58
1,892 75,90 75,78
1,715 80,18 80,08
1,877 76,28 76,16
78,55 78,49
3,380 22,70 22,50
1,775 78,78 78,67
1,874 76,28 76,22
2,002 72,94 72,87
1,780
134
234
1234
14
23
24
34
123
124
1
2
3
4
12
13
CARS: Todos los modelos
Conclusiones Generales
38Regresión Lineal
1. El que la relación lineal entre dos variables sea significativa no implica que existarelación de CAUSALIDAD entre las variables. Se debe interpretar como asociaciónentre las variables: los coches con más pesos presentan mayor consumo que loscoches con menos peso.
2. Cuando se añaden o eliminan variables de un modelo los coeficientes del restocambian. Eso es debido a la correlación entre los regresores. Cuando estascorrelaciones son altas los coeficientes pueden cambiar mucho, incluso de signo.Esto se puede apreciar en el coeficiente de la variable accel, cuyo efecto sobre elcosnumo depende del resto de las variables en el modelo. La alta correlaciónentre los regresores hace muy difícil interpretar el significado de loscoeficientes, a este problema se le denomina MULTICOLINEALIDAD.
Conclusiones (cont.)
39Regresión Lineal
7. La selección del modelo depende del objetivo. Siempre el modelo con másregresores tiene el mayor R2. Utilizando el “R2 corregido” hay tres modelosmuy parecidos 23, 123 y 1234. El mejor modelo con un regresor es el 3, con R2igual al 78.55%, al incluir la pontencia (horse) como nuevo regresor tenemos elmodelo 23 cuyo R2 sólo aumenta un 3%, hasta 81.67%. El modelo 123, incluyeademás los cc del motor (engine) como regresor con un aumento en R2despreciable (ahora 81.86%). En este modelo los tres coeficientes sonsignificativos. Si añadimos la variable accel, llegamos al modelo completo conR2 igual a 81.99%. El coeficiente de la última variable no es significativo.
8. Al ir incluyendo regresores en un modelo los residuos van disminuyendo y conello la variabilidad no explicada. La desviación típica residual también sueledisminuir (hay que tener en cuenta que el denominador de la varianza residualtambién disminuye). Los modelos 23, 123 y 1234 tienen una desviación típicaresidual muy parecida y próxima a 1.64 litros/100km. La interpretación(aproximada) es la siguiente (con el modelo 1234): si nos proporcionan los datosdel peso (weight), potencia (horse), cc (engine) y aceleración (accel) del cochela distribución de su consumo tiene media la proporcionada por el modelo ydesviación típica 1.64 litros/100km.
40Regresión Lineal
Ejemplo 2: Cerezos Negros
Se desea construir un modelo de regresión para obtener el volumen de madera de una “cerezo negro” en función de la altura del tronco y del diámetro del mismo a un metro sobre el suelo. Se ha tomado una muestra de 31 árboles. Las unidades de longitudes son pies y de volumen pies cúbicos.
41Regresión Lineal
Cerezos negros: Datos
Árbol Diametro Altura Volumen Árbol Diametro Altura Volumen1 8,3 70 10,30 17 12,9 85 33,802 8,6 65 10,30 18 13,3 86 27,403 8,8 63 10,20 19 13,7 71 25,704 10,5 72 16,40 20 13,8 64 24,905 10,7 81 18,80 21 14,0 78 34,506 10,8 83 19,70 22 14,2 80 31,707 11,0 66 15,60 23 14,5 74 36,308 11,0 75 18,20 24 16,0 72 38,309 11,1 80 22,60 25 16,3 77 42,6010 11,2 75 19,90 26 17,3 81 55,4011 11,3 79 24,20 27 17,5 82 55,7012 11,4 76 21,00 28 17,9 80 58,3013 11,4 76 21,40 29 18,0 80 51,5014 11,7 69 21,30 30 18,0 80 51,0015 12,0 75 19,10 31 20,6 87 77,0016 12,9 74 22,20
42Regresión Lineal
Gráficos x-y
1. Se aprecia relación entre las dos variables y el volumen2. El gráfico del volumen versus diámetro presenta ligera curvatura3. El gráfico del volumen versus altura presenta clara heterocedasticidad
43Regresión Lineal
Primer modelo:cerezos negros
ErrorAlturaDiametroVolumen 210 βββ
44Regresión Lineal
Diagnosis
Indicios de falta de linealidad
45Regresión Lineal
Transformación
errordiámetro)altura)vol)diámetroalturakvol
20
2
log(log(log( 1
46Regresión Lineal
Diagnosis (modelo transformado)
Antes
Ahora
47Regresión Lineal
Interpretación
Se comprueba gráficamente que la distribución de los residuos es compatible con las hipótesis de linealidad y homocedasticidad.El volumen está muy relacionada con la altura y el diámetro del árbol (R2= 97.77%)El modelo estimado
log(Vol) = -6.6 + 1.12 log(Alt) + 1.98 log(Diam.) + Error
es compatible con la ecuación vol=k Alt Diam2
La desviación típica residual es sR=0.081 que indica que el error relativo del modelo en la predicción del volumen es del 8.1%.
Ejemplo 3: Tabaco
48Regresión Lineal
Ejemplo “Tabaco” Monóxido de Carbono (CO)25 observaciones, 3 variables
Descripción: Se proporciona la producción de monóxido decarbono (co) y el contenido de nicotina (nico) y alquitrán(alq) en 25 marcas diferentes de cigarrillos americanos.
Fuente: Mendenhall, William, and Sincich, Terry (1992),Statistics for Engineering and the Sciences (3rd ed.), NewYork: (Original source: Federal Trade Commission, USA)
Variablesalq contenido en alquitrán mgnico contenido en nicotina mgco monóxido de carbono CO mg
Objetivo: Estudiar la relación entre CO con alquitrán y nicotina
CO ~ nico CO ~ alq
49Regresión Lineal
= 1.828= 85.74 = 1.397= 91.68
= 1.413= 91.86
El coeficiente de la variable “nico” cambia de 12.39 a -2.36.En el modelo con dos regresores, el coeficiente de la variable “nico” no es significativo.Los standard errors de los coeficientes en el modelo de dos regresores han aumentado considerablemente respecto a los de regresión simple. El de “nico” pasa de 1.05 a 3.78. El cambio para “alq” es mayor.Los estadísticos t se han reducido (debido al aumento de los standards errors)La desviación típica residual del modelo con dos regresores es mayor que en el modelo de regresión simple “CO ~ alq”
50Regresión Lineal
= 0.9537
Efecto de la multicolinealidad(alta correlación entre nico y alq)
Regresión con R
52Regresión Lineal
Interpretación (inicial)Contraste F=438 (p-valor=0.0000) Alguno de los regresores influye significativamente en el consumo.Contrastes individuales:
La potencia y el peso influyen significativamente (p-valor=0.0000)Para =0.05, la cilindrada y la aceleración también tienen efecto significativo (p-valor < 0.05)
El efecto de cualquier regresor es “positivo”, al aumentar cualquiera de ellos aumenta la variable respuesta: consumo.Los regresores explican el 82 % de la variabilidad del consumo (R2 = 0.8197)
53Regresión Lineal
Multicolinealidad
Cuando la correlación entre los regresores es alta. Presenta graves inconvenientes:
Empeora las estimaciones de los efectos de cada variable i: aumenta la varianza de las estimaciones y la dependencia de los estimadores) Dificulta la interpretación de los parámetros del modelo estimado (ver el caso de la aceleración en el ejemplo).
54Regresión Lineal
Identificación de la multicolinealidad: Matriz de correlación de los regresores.
55Regresión Lineal
Gráficos consumo - xi
peso
consum
o
500 1000 1500 20000
4
8
12
16
20
24
potencia
consum
o
0 40 80 120 160 200 2400
4
8
12
16
20
24
cilindrada
consu
mo
0 2 4 6 8(X 1000)
0
4
8
12
16
20
24
aceleracion
consum
o
8 11 14 17 20 23 260
4
8
12
16
20
24
56Regresión Lineal
Consumo y aceleración
57Regresión Lineal
Multicolinealidad: efecto en la varianza de los estimadores
)1(1
)1(
)1()1(1
)1(||
~~~~ˆˆ
var
22110
212
22
21221
12
21221
122
122112
1222
21
222112
211221
2212
122121
2
1
rsrssr
rssr
rsrss
sssrssrs
ssssn
iuixixy
XXXX
XXXXTT
i
SS
SSXXXX
)1()1(
)1()1(ˆˆ
var
212
22
2
21221
212
21221
212
212
21
2
2
1
rnsrsnsr
rsnsr
rns
58Regresión Lineal
Consecuencias de la multicolinealidadGran varianza de los estimadores Cambio importante en las estimaciones al eliminar o incluir regresores en el modeloCambio de los contrastes al eliminar o incluir regresores en el modelo.Contradicciones entre el contraste F y los contrastes individuales.
Regresión4. Regresión Múltiple: Variables
Cualitativas y Predicción
2Regresión Lineal
Consumo Cilindrada Potencia Peso Aceleración Origenl/100Km cc CV kg segundos
15 4982 150 1144 12 Europa16 6391 190 1283 9 Japón24 5031 200 1458 15 USA9 1491 70 651 21 Europa11 2294 72 802 19 Japón17 5752 153 1384 14 USA12 2294 90 802 20 Europa17 6555 175 1461 12 USA18 6555 190 1474 13 USA12 1147 97 776 14 Japón16 5735 145 1360 13 USA12 1868 91 860 14 Europa9 2294 75 847 17 USA... ... ... ... ... ...
Variables cualitativas como regresores
3Regresión Lineal
Variables cualitativas como regresores
Consumo = 0 + 1 CC + 2 Pot + 3 Peso +
+ 4 Acel + JAP ZJAP + USA ZUSA + Error
USAJapónEuropa
Origen
EUROPA siEUROPA si
USA siUSA si
JAPON siJAPON si
ii
iZ
ii
iZ
ii
iZ
EUR
USA
JAP
10
10
10
4Regresión Lineal
Consumo Cilindrada Potencia Peso Aceleración ZJAP ZUSA ZEURl/100Km cc CV kg segundos
15 4982 150 1144 12 0 0 116 6391 190 1283 9 1 0 024 5031 200 1458 15 0 1 09 1491 70 651 21 0 0 111 2294 72 802 19 1 0 017 5752 153 1384 14 0 1 012 2294 90 802 20 0 0 117 6555 175 1461 12 0 1 018 6555 190 1474 13 0 1 012 1147 97 776 14 1 0 016 5735 145 1360 13 0 1 012 1868 91 860 14 0 0 19 2294 75 847 17 0 1 0... ... ... ... ... ... ... ...
Variables cualitativas
Consumo = 0 + 1 CC + 2 Pot + 3 Peso +
+ 4 Acel + JAP ZJAP + USA ZUSA + Error
5Regresión Lineal
Interpretación var. cualitativaConsumo = 0 + 1 CC + 2 Pot + 3 Peso +
+ 4 Acel + JAP ZJAP + USA ZUSA + Error
• Coches europeos: ZJAP = 0 y ZUSA = 0 REFERENCIA
Consumo = 0 + 1 CC + 2 Pot + 3 Peso + 4 Acel + Error
• Coches japoneses: ZJAP =1 y ZUSA = 0
• Coches americanos: ZJAP =0 y ZUSA = 1
Consumo = 0 + JAP + 1 CC + 2 Pot + 3 Peso + 4 Acel + Error
Consumo = 0 + USA + 1 CC + 2 Pot + 3 Peso + 4 Acel + Error
6Regresión Lineal
Interpretación del modelo
0 + JAP
0
0 + USA
Europeos
Japoneses
Americanos
xi
yRef.
7Regresión Lineal
Modelo estimado (con R)
8Regresión Lineal
InterpretaciónSe introduce en el modelo la variable cualitativa ORIGEN del vehículo (USA=1, EUR=2,JAP=3). En el modelo se utiliza USA como referencia.El p-valor del coeficiente asociado a OrigenJAP es 0.1467 >.05, se concluye que no existe diferencia significativa entre el consumo de los coches Japoneses y Americanos (manteniendo constante el peso, cc, pot y acel.)La misma interpretación para OrigenEUR, no existe diferencia en el consumo de coches EUR y USA.Comparando R2 =0.8212 de este modelo con el anterior R2=0.8199, se confirma que el modelo con las variables de Origen no suponen una mejora sensible.
Body: Instrucciones con R
9Regresión Lineal
# ejemplo1 cars : modelo de regresión
> cars <- read.table("cars.txt",header=TRUE)> attach(cars)
> cons <- 235.1/mpg # transformamos la variable > Origen <- factor(origin,labels=c("USA","EUR","JAP")) # la instrucción “factor()” es necesaria# para introducir en el modelo de # regresión una variable cualitativa> m <- lm(cons ~ engine + horse + weight+ accel + Origen)> summary(m)
10Regresión Lineal
Modelo de regresión con variables cualitativas
En general, para considerar una variable cualitativa con r niveles, se introducen en la ecuación r-1 variables ficticias
Y el nivel r no utilizado es el que actúa de referencia
1110,,21
20,1110
121 ririzi
iziiz irii nivel
nivelnivelnivel
nivelnivel
iirrii
kikiiuzzz
xxy
acualitativ variable,112211
110
Ejemplo: BodyNombre: Body (Cuerpo Humano) Exploring Relationships in Body
Dimensions507 Observaciones, 25 Variables
Descripción: Este ejemplo contiene 21 medidas del cuerpo humano, ademásde la edad, peso, altura y género (mujeres = 0, hombres =1) de 507 individuos de los que 247 son hombres y 260 mujeres. Los datos fueronrecogidos entre personas que acudía frecuentemente al gimnasio en USA, la mayoría de ellos entre 20 y 40 años.
Fuente: Exploring Relationships in Body Dimensions, Grete Heinz,Louis J. Peterson,Roger W. Johnson , Carter J. Kerk, Journal of Statistics Education Volume 11, Number 2 (2003), www.amstat.org/publications/jse/v11n2/datasets.heinz.html
OBJETIVO: Relación entre el peso y altura diferenciando entre hombres y mujeres.
11Regresión Lineal
Body
12Regresión Lineal
Estatura Peso
Hombres 177.7cm 78.1 kg
Mujeres 164.9cm 60.6 kg
Diferencia 12.8 cm 17.5 kg
Weight = 0 + 1 Height + HOM ZHOM + Error
Weight = -56.9 + 0.713 Height + 8.366 ZHOM + Error
Interpretación
13Regresión Lineal
8.36 kg
A igualdad de ESTATURA, la diferencia de
PESO entre un hombre y una
mujer es8.36 kgFigura 2.1.
Body: Instrucciones con R
14Regresión Lineal
# body : modelo de regresión
> body <- read.table("body.txt",header=TRUE)> attach(body)> m.body<-lm(Weight~Height+Gender)> summary(m.body)
# figura 2.1
> plot(Height,Weight,col=Gender+2) # Gender +2 asigna el color rojo (2)# a mujeres y el verde (3) a los hombres
> abline(c(-56.949,0.7129),col = "red",lwd=2) # linea de regresión de mujeres> abline(c(-56.949+8.3659,0.7129),col = "green",lwd=2) # regresión hombres
FEV (Ejemplo 3)
15Regresión Lineal
Ejemplo “Fev” Forced Expiratory Volume (FEV)654 observaciones, 5 variables
Descripción: Es una muestra de 654 jóvenes entre 3 y 19 años recogidos en Boston(USA) a finales de los 70. Se desea ver la relación entre la capacidad pulmonar (FEV) yfumar. En este primer análisis estudiaremos la relación entre FEV y la estatura. En lalección de regresión múltiple estudiaremos el efecto del tabaco.
Fuente:Rosner, B. (1999), Fundamentals of Biostatistics, 5th Ed., Pacific Grove, CA: Duxbury
Variablesage años del individuofev variable continua en litrosht variable continua, estatura en pulgadassex cualitativa (mujer=0, hombre=1)smoke cualitativa (No-fumador=0, fumador=1)
age fev ht sex smoke1 9 1.708 57.0 0 02 8 1.724 67.5 0 03 7 1.720 54.5 0 04 9 1.558 53.0 1 05 9 1.895 57.0 1 06 8 2.336 61.0 0 0...
Tabla 6.1
Modelo de regresión
16Regresión Lineal
Log(fev) = 0 + 1 ht + 2 age + HOM ZHOM + HOM ZHOM + Error
Log(fev) = -1.9 + 0.042ht + 0.023age + 0.029 ZHOM – 0.046 ZFUM + Error
Interpretación
17Regresión Lineal
1. Todos los coeficientes son significativamente distintos de cero.2. A igualdad del resto de las variables, un aumento de 1cm en la
Estatura produce un incremento en fev del 4.2%3. A igualdad del resto de las variables, un aumento de 1 año en la
Edad produce un incremento en fev del 2.3%4. A igualdad del resto de las variables, los hombres tienen un 2.9%
más de fev que las mujeres.5. A igualdad del resto de las variables, los fumadores tienen un
4.6% menos de fev que los no-fumadores.
IMPORTANTE: El objetivo del estudio era cuantificar el efecto de fumar en la capacidad pulmonar de los jóvenes, el restos de lasvariables del modelo son necesarias (imprescindibles) paradetectar el efecto, aunque juegan un papel secundario.
fev: Instrucciones con R
18Regresión Lineal
# ejemplo 3: fev> pulmon <- read.table("fev.dat",header=TRUE)> attach(pulmon)> m.pulmon <- lm(log(fev) ~ ht + age + sex + smoke)> summary(m.pulmon)
# sex es una variable que toma valores 0,1# 0 mujeres# 1 hombres# # smoke es una variable 0,1, también 0 no fumador,# y 1 fumador## Cuando son variables 0,1 no es necesario convertirlas# en variables CUALITATIVAS o FACTOR utilizando la # instrucción # genero=factor(sex,labels=c(“Mujer”,”Hombre”))
19Regresión Lineal
Predicción
hx
hy
Media mh|xh Nueva Observ. yh|xh
hx
hm
hm
hy
hx
20Regresión Lineal
Predicción de la media mh(Regresión simple)
hx
hm
hx
hy
hhR vsthyhm ˆˆ 2/
))(1(12
2
x
hhh s
xxn
v
hx
hy
21Regresión Lineal
Predicción de la media mh(Regresión multiple)
hx
hm
hx
hy
hhR vsthyhm ˆˆ 2/
hx
hy
))()(1(1 1 xxSxx hxT
hhh nv
22Regresión Lineal
Intervalos de predicción para una nueva observación yh
hhR vsthyhy 1ˆˆ 2/
hx
hy
23Regresión Lineal
kk xxy ˆˆˆˆ 110
Límites de predicción
x
y hhR vsthyhy 1ˆˆ 2/
hhR vsthyhm ˆˆ 2/
Predicción
24Regresión Lineal
Weight = -56.9 + 0.713 Height + 8.366 ZHOM + Error
Peso predicho para el PESO MEDIO de hombre de 175cm
Pred_Weight = -56.9 + 0.713 x 175 + 8.366x 1 = 76.18 kg
Peso predicho para la media de la distribución del peso de las mujeres de 170cm de estatura
Pred_Weight = -56.9 + 0.713 x 170 + 8.366x 0 = 64.25 kg
Intervalos
25Regresión Lineal
Int. Confianza Previsto Lim. Inf Lim. SupHeight=175,Sexo = 1 76.19 75.04 77.33Height=170,Sexo = 0 64.25 63.03 65.47
Int. Predicción Previsto Lim. Inf Lim. SupHeight=175,Sexo = 1 76.19 58.85 93.51Height=170,Sexo = 0 64.25 49.92 81.59
95% confianza
Predicción: Instrucciones R
26Regresión Lineal
# ejemplo 3: fev> newbody <- data.frame(Height=170,Gender=0)> predict(m.body,newbody,interval="confidence")
fit lwr upr1 64.2563 63.03951 65.4731
> newbody <- data.frame(Height=170,Gender=0)> predict(m.body,newbody,interval="prediction")
fit lwr upr1 64.2563 46.92133 81.59128
> newbody <- data.frame(Height=175,Gender=1)> predict(m.body,newbody,interval="confidence")
fit lwr upr1 76.18717 75.04465 77.32969
> newbody <- data.frame(Height=175,Gender=1)> predict(m.body,newbody,interval="prediction")
fit lwr upr1 76.18717 58.85725 93.5171
Otros ejemplos con R
27Regresión Lineal
> newcar <- data.frame(horse=130,engine=180,accel=12,Origen="USA", weight=3000)> predict(m,newcar,interval="confidence")
fit lwr upr1 11.84055 11.47096 12.21014
> newboy <- data.frame(ht=160,age=17,sex=1,smoke=0)> predict(m.pulmon,newboy,interval="confidence")
fit lwr upr1 5.33023 5.041005 5.619455> newcars <- data.frame(horse=c(130,140,150)+ ,engine=c(180, 185, 190)+ ,accel=c(10,11,12)+ ,Origen=c("USA","JAP","EUR")+ ,weight=c(3000,2000,2500))> pred.w.clim <- predict(m,newcars,interval="confidence")> pred.w.clim
fit lwr upr1 11.67788 11.197035 12.158722 10.13996 9.440399 10.839523 11.62928 11.027327 12.23123
APÉNDICE: PREDICCIÓN
28Regresión Lineal
29Regresión Lineal
Predicción de la media mh(Regresión simple)
hh
hhxm
xNy
10
210 ),(
hx
hm
hx
hy
2
22
21
21
1010
110
)
]var[)])]ˆ
ˆ[)ˆ
(
ˆ(var[
(ˆvar[]var[
]ˆˆ[]
(ˆˆˆ
xh
h
hh
hhhh
hhh
nsxx
n
xxyxxyy
xxyExxyxy
mE
2
2)(1
2,ˆ
xs
xhxnhmNyh
30Regresión Lineal
Predicción de la media mh(Regresión múltiple)
hT
khkhh
hh
xxmmNy
'
),(
110
2
xβ
hx
hm
h'x
hy
hTT
hhh
hhhTT
h
hTT
hhT
h
hT
hT
hT
h
khhhT
hT
h
v
y
yE
y
v
EE
xxxh
'
'
']ˆ'ˆvar[]var[
'']ˆ[]'ˆ[]
),,,,1(','ˆ
1
221
21
)('
)('
var[']ˆ
ˆ[
ˆ
x
x
xβxβ
xβxβxβ
xxβ
XXx
XXx
x
hhhh vmNy 2,ˆ
31Regresión Lineal
Expresión alternativa para vhh
))()(1(
)~~
(,)()~~()(
)](ˆvar[)(]var[)](ˆvar[]ˆvar[
)(ˆˆ
12
212
xxSxx
XXSxxXXxx
xxbxxxxbxxb
hxT
h
T
xhTT
h
hT
hhT
h
hT
h
n
nn
yyy
yy
))()(1(1 1 xxSxx hxT
hhh nv nv
nv
hhh
hhh
/1/1
xxxx
32Regresión Lineal
Intervalos de confianza para la media mh
1
2
ˆ
)1,0(
ˆ
ˆ,ˆ
knhhR
hh
hh
hh
hhh
tvsm
Nvm
y
yvhmNy
hx
hy
))(1(12
2
x
hhh s
xxn
v
hhR vsthyhm ˆˆ 2/
))()(1(1 1 xxSxx hh xT
hh nv
Regresión simple
33Regresión Lineal
Predicción de una nueva observación yh (Reg.Simple)
hh
hh
xmmNy
10
2 ),(hx hx
hy
hh
hhh
hhh
hhh
hhhh
hh
v
yyeyEyEeE
yyevmNy
xy
22
210
]ˆvar[]var[]~var[0]ˆ[][]~[
ˆ~),(ˆ
ˆˆˆ
))1(,0(~ 2hhh vNe
hm
hy
34Regresión Lineal
Predicción de una nueva observación yh (Reg. Múltiple)
hx
hm
hx
hy
)1(]ˆvar[]var[]~var[0]ˆ[][]~[
ˆ~
),(ˆˆˆ
2
2
hhhhh
hhhhhh
hhhhhT
h
vyyeyEyEeE
yye
vmNyyy xb
))1(,0(~ 2hhh vNe
hy
35Regresión Lineal
Intervalos de predicción para una nueva observación yh
1
2
1ˆˆ
)1,0(1
ˆˆ~ )1(,0~
knhhR
hh
hh
hh
hhh
hhh
tvsy
Nvy
y
y
yye
vNe
hhR vsthyhy 1ˆˆ 2/
hx
hy
36Regresión Lineal
kk xxy ˆˆˆˆ 110
Límites de predicción
x
y hhR vsthyhy 1ˆˆ 2/
hhR vsthyhm ˆˆ 2/
37Regresión Lineal
Diagnosis: Residuos
)ˆˆˆ( 110 kikiii xxye
nkknnn
k
k
n e
ee
xxx
xxxxxx
y
yy
2
1
1
0
21
22212
12111
2
1
ˆ
ˆˆ
1
11
ResiduosPrevistosObservados
ˆ eβXY
38Regresión Lineal
Distribución de los residuos
V)(IV)(Y)(IV)(Ie0V)Xβ(IYV)(Ie
e
XX)X(XV
V)Y(IeIXβYT1T
2
2
var]var[][][
),(
EE
N
Normal
))1(,0(
),(
2iii vNe
N V)(I0e 2
39Regresión Lineal
Distancia de Mahalanobis
00
.()()(
2
2
12
i
i
ixT
ii
DD
D
xxxxxx
xxSxx
i
ii
a de distancia la Mide
s)Mahalanobi de Dist
TT
ii v
XX)X(XV 1
Vmatriz la de diagonales elementos los son
110)1(,1
22
,1
2
1ii
n
ijjijiiiiii
n
ijjijji
n
jijii v
nvvvvvvvv
))()(1(1')(' 11 xxSxxxXXx ixT
iiTT
iii nv
40Regresión Lineal
Residuos estandarizados
iivRsie
ir
eev
env
ve
iiiii
iiii
iii
1ˆ
adosestandariz Residuos
00)var(1 de lejos está Cuando
)var(/1 a próximo está Cuando
)1()var(
2
2
xx
xx
))1(,0( 2iii vNe
Modelos de regresion lineal
REGRESION SIMPLE
1. La tabla muestra los mejores tiempos mundiales en Juegos Olımpicos hasta 1976 en carreramasculina para distintas distancias.
y: tiempo (sg) 9.9 19.8 44.26 103.5 214.9 806.4 1658.4 7795x: distancia (m) 100 200 400 800 1500 5000 10000 42196
(a) Estimar la regresion lineal de y sobre x y calcular la varianza residual y el coeficientede correlacion.
(b) Obtener intervalos de confianza para la pendiente y varianza residual (α = 0.01).
(c) Analizar si la relacion lineal es adecuada, transformando las variables si es necesario.
(d) Supongase que en aquellas Olimpiadas hubiera existido una carrera de 500 metros.Estimar el tiempo previsto para el record olımpico en dicha carrera, dando un intervalode confianza con α = 0.05.
2. Segun la ecuacion de los gases ideales, la presion ejercida por un gas a volumen y temperaturaconstante es proporcional a la masa. Se puede utilizar el siguiente procedimiento para estimarel peso molecular de un gas. Se almacena el gas en un recipiente de volumen constante, y se vasoltando poco a poco gas, variando la presion, pero manteniendo la temperatura constante.En la tabla adjunta se proporcionan mediciones de la presion (con respecto a la atmosferica,1 atm = 14.7 psi) y de la masa del gas para el argon.
Presion (psi) Masa (g)52 1.02849 0.95644 0.88039 0.79334 0.72529 0.64525 0.59321 0.52619 0.50019 0.44211 0.3730 0.210
(a) Para estimar el peso molecular del argon a partir de los datos, se propone el siguientemodelo de regresion
Pi = β0 + β1mi + ui con ui ∼ N(0, σ2).
Estimar los parametros del modelo y contrastar si el termino independiente es signi-ficativo.
1
(b) Se considera el modelo alternativo
Pi = αmi + ui, con ui ∼ N(0, σ2).
Obtener el estimador de maxima verosimilitud del parametro α, ası como su varianza.
(c) Realizar el contraste H0 : α = 50 frente a H1 : α 6= 50 con nivel de significacion 0.05.
(d) Para el segundo modelo, obtener un intervalo de prediccion para la presion cuando lamasa es igual a 1 gramo.
(e) Obtener la varianza del estimador de E[Ph|mh], es decir del valor medio de la presionPh para una masa dada mh con ambos modelos. Si el modelo verdadero fuese el delprimer apartado, ¿que efecto tendrıa sobre la prediccion adoptar el modelo alternativo?
3. Sir Francis Galton (1877) estudio la relacion entre la estatura de una persona (y) y la estaturade sus padres (x) obteniendo las siguientes conclusiones:
(a) Existıa una correlacion positiva entre las dos variables.
(b) Las estaturas de los hijos cuyos padres medıan mas que la media era, en promedio,inferior a la de sus progenitores, mientras que los padres con estatura inferior a lamedia en promedio tenıan hijos mas altos que ellos, calificando este hecho como de”regresion” a la media.
Contrastar (α = 0.05) estas dos conclusiones con la ecuacion y = 17.8 + 0.91x resultante deestimar un modelo de regresion lineal entre las variables (en cm.) descritas anteriormentepara una muestra de tamano 100 si la desviacion tıpica (estimada) de β1 es 0.04.
4. La ley de Hubble sobre la expansion del universo establece que dadas dos galaxias la ve-locidad de desplazamiento de una respecto a la otra es v = Hd, siendo d su distancia y Hla constante de Hubble. La tabla proporciona la velocidad y la distancia de varias galaxiasrespecto a la Via Lactea. Se pide:
Galaxia Distancia Velocidad(millones anos luz) (103Km/s)
Virgo 22 1.21Pegaso 68 3.86Perseo 108 5.15Coma Berenices 137 7.56Osa Mayor 1 255 14.96Leo 315 19.31Corona Boreal 390 21.56Geminis 405 23.17Osa Mayor 2 700 41.83Hidra 1100 61.14
Tabla: Distancia y velocidad de desplazamiento de las distintas galaxias a la Via Lactea.
2
Nota: Observese que segun el modelo de Hubble la regresion debe pasar por el origen.Tomese 1 ano luz = 300 000 Km/seg x 31 536 000 seg = 9.46 1012 Km.
(a) Estimar por regresion la constante de Hubble.
(b) Como T = d/v = d/Hd = 1/H , la inversa de la constante de Hubble representa laedad estimada del Universo. Construir un intervalo de confianza del 95% para dichaedad .
5. Para establecer la relacion entre el alargamiento en mm (Y ) producido en un cierto materialplastico sometido a traccion y la tension aplicada en toneladas por cm2 (X) se realizaron 10experimentos cuyos resultados se muestran en la tabla
xi 0.20 0.50 0.60 0.70 0.90 1.00 1.20 1.50 1.60 1.70yi 23 20 33 45 67 52 86 74 98 102
Tabla: Alargamiento yi (mm) producidos por la tension xi (Tm/cm2).
(a) Ajustar el modelo de regresion lineal E(Y |x) = β0 + β1x y contrastar (α = 0.01) lahipotesis de que, en promedio, por cada Tm/cm2 de fuerza aplicada es de esperar unalargamiento de 50 milımetros, sabiendo que la desviacion tıpica residual vale 10.55.
(b) Si el lımite de elasticidad se alcanza cuando x = 2.2 Tm/cm2, construir un intervalode confianza al 95% para el alargamiento medio esperado en ese punto.
(c) Teniendo en cuenta que el alargamiento esperado cuando la fuerza aplicada es nuladebe ser nulo tambien, estimar el nuevo modelo E [Y |x] = βx con los datos anteriores¿Cual es el sesgo del estimador del parametro de la pendiente si se estima segun elmodelo del apartado 1?
6. Estimar por mınimos cuadrados los parametros a y b de la ecuacion y = a + bx2 con lamuestra de tres puntos siguientes (y, x) : (3, -1); (4, 0); (6,1).
7. La ecuacion de regresion entre las ventas de un producto y y su precio x es y = 320− 1.2x,sR = 2 y sy = 4. Si el numero de datos ha sido n = 50, contrastar H0 : β1
= −1 frente a laalternativa H1 : β1 < −1.
8. Se estudia la relacion entre el tiempo de reparacion (minutos) de ordenadores personales yel numero de unidades reparadas en ese tiempo por un equipo de mantenimiento con losresultados mostrados en la siguiente tabla
unidades reparadas 1 3 4 6 7 9 10tiempo de reparacion 23 49 74 96 109 149 154
Se pide:
3
(a) Construir la recta de regresion para prever el tiempo de reparacion y utilizarla paraconstruir un intervalo de confianza (α = 0.01) para el tiempo medio de reparacion de8 unidades.
(b) Construir un intervalo de confianza (α = 0.01) del tiempo de reparacion para un lotede 14 unidades.
(c) Si los tiempos de reparacion fuesen medias de 10 datos. ¿Cual serıa la recta de regresion?
REGRESION MULTIPLE
9. En la tabla se muestran los costes financieros mensuales en miles de euros (y) de 16 delega-ciones de una gestora de inversiones, ademas se proporciona el numero de nuevos prestamosdel mes (x1) y el numero de prestamos pendientes (x2).
n x1 x2 y1 80 8 22562 93 9 23403 100 10 24264 82 12 22935 90 11 23306 99 8 23687 81 8 22508 96 10 24099 94 12 236410 93 11 237911 97 13 244012 95 11 236413 100 8 240414 85 12 231715 86 9 230916 87 12 2328
(a) Estima la ecuacion de regresion
yi = β0+ β
1x1i + β
2x2i + ui con ui ∼ N(0, σ2)
incluyendo la varianza del modelo.
(b) Realizar los contrastes individuales e interpretar los coeficientes.
(c) Realiza el contraste general de regresion o contraste de la F. Proporciona el p-valor.
(d) Proporciona la tabla con valores previstos y residuos.
(e) Comprueba las hipotesis del modelo.
4
10. Los fabricantes que utilizan rodamientos en sus productos tienen interes en la fiabilidad deestos componentes. La medida basica de fiabilidad se denomina rating life, y consiste en elnumero de revoluciones que soporta el 90% de los rodamientos antes de la fractura, a estose denota por L10. Los modelos teoricos indica que este valor esta relacionado con la carga(P) a la que se somete el rodamiento, el diametro (D) del rodamiento y el numero de bolas(Z) del mismo, mediante la ecuacion:
L10 =
(
kZaDb
P
)3
.
Se desea comprobar experimentalmente esta ecuacion, para lo cual se realizo un experimentocon rodamientos de distintos fabricantes y tipos. Los datos se encuentran en el archivo(ballbearing.txt), en la tabla 1 se muestra los 10 primeros datos. La informacion que contienees la siguiente:
Com: Codigo de empresa 1, 2, and 3
N: Numero de ensayo (en cada empresa)
Year: Ano del ensayo NA = No disponible
NB : Numero de Rodamiento
P: Carga
Z: Numero de bolas
D: Diametro
L10: Percentil 10
L50: Percentil 50
Slope: Parametro de la distribucion Weibull
Btype: Tipo de rodamiento 1, 2, y 3 in la empresa 2; 0 en los demas casos.
Com N Year NB P Z D L10 L50 Slope Btype1 1 1936 24 4240 8 .68750 19.200 84.50 1.27 01 2 1937 20 4240 8 .68750 26.200 74.20 1.81 01 3 1937 14 4240 8 .68750 11.100 68.10 1.04 01 4 1937 19 4240 8 .68750 11.800 66.80 1.09 01 5 1937 18 4240 8 .68750 13.500 79.40 1.06 01 6 1938 21 2530 9 .50000 5.800 25.70 1.27 01 7 1938 28 4240 8 .68750 18.300 44.70 2.10 01 8 1938 27 4240 8 .68750 5.620 73.20 0.73 01 9 1940 20 4240 8 .68750 15.800 82.70 1.14 01 10 1940 22 4240 8 .68750 8.700 41.60 1.20 0· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·
5
(a) Estima el modelo
log(L10i) = β0 + β1 log(Zi) + β2 log(Di) + β3 log(Pi) + ui con ui ∼ N(0, σ2),
y realiza los contrastes individuales y el contraste general.
(b) Segun el modelo, β3= −3. Realiza el contraste
H0 : β3= −3
H1 : β3 6= −3
Proporciona el p-valor del contraste.
(c) Da un intervalo de confianza para los parametros a y b del modelo teorico.
(d) Se definen las variables ficticias T2 y T3 para identificar los rodamientos tipo 2 y 3 delsegundo fabricante (informacion en la variable Btype). Estima e interpreta el siguientemodelo de regresion:
log(L10i) = β0+ β
1log(Zi) + β
2log(Di) + β
3log(Pi) +
α2T2i + γ2T2i × log(Zi) + δ2T2i × log(Di) +
α3T3i + γ3T3i × log(Zi) + δ3T3i × log(Di) + ui
(e) Compara el modelo del apartado 1 con el modelo del apartado 4.
11. La matriz de varianzas de tres variables estandarizadas es la siguiente
1 0.8 0.60.8 1 0.20.6 0.2 1
Calcular la ecuacion de regresion de la primera variable respecto a las otras dos.
12. Dos variables x1 y x2 tienen la siguiente matriz de varianzas(
1 0.50.5 1
)
y las regresiones simples con y son y = 0.75x1 ; y = 0.6x2. Calcular la regresion multipleentre y y las dos variables x1, x2 sabiendo que la variable y tiene media cero y varianzaunidad.
13. Para establecer la relacion entre el voltaje de unas baterıas y la temperatura de fun-cionamiento se han hecho unos experimentos cuyos resultados se muestran en la siguientetabla
Baterıa 1 2 3 4 5 6 7 8Temperatura 10 10 20 20 30 30 40 40
Voltaje 7.2 7.7 7.3 7.4 7.7 9.4 9.3 10.8
6
Se pide:
(a) Contrastar la hipotesis (α = 0.05) de que no existe relacion lineal entre el voltaje y latemperatura.
(b) Las lecturas 1,3,5 y 7 fueron realizadas con unas baterıas de Cadmio y las 2,4, 6 y 8 conbaterıas de Zinc. Introducir en el analisis anterior una variable cualitativa que tengaen cuenta los dos tipos de baterıas y contrastar si es significativa al 95%.
(c) Dar un intervalo de confianza para el voltaje de una baterıa de Cadmio que va a trabajara 35◦ centıgrados. (Utilizar el modelo estimado en el apartado 2).
(d) Comprobar que se cumplen las hipotesis del modelo construido en los apartados ante-riores.
14. La variable y se relaciona con las variables x1 y x2 segun el modelo E(y) = β0+β1x1+β2x2;no obstante se estima el siguiente modelo de regresion que no incluye la variable x2
yi = β0+ β
1x1i.
Justificar en que condiciones el estimador β1 es centrado.
15. Se efectua una regresion con dos variables explicativas E[y] = β0+ β
1x1 + β
2x2. La matriz
de varianzas de x1 y x2 es
[
2 11 3
]
¿Cual de los dos estimadores β1 y β2 tendra menor varianza?
16. Con los datos de la tabla, se pide:
x -2 -2 -1 -1 0 0 1 1 2 2 3 3y 1.1 1.3 2.0 2.1 2.7 2.8 3.4 3.6 4.0 3.9 3.8 3.6
(a) Estimar un modelo de regresion simple con y como variable dependiente y x comoregresor. Indicar si el modelo es apropiado, justificando la respuesta.
(b) Estimar el modeloyi = β0 + β1xi + β2x
2
i + ui
y realizar el contraste H0 : β2 = 0.
(c) Estimar el modeloyi = β
0+ β
1xi + β
2x2
i + β3x3
i + ui
Realizar el contraste general de regresion con α = 0.01. Seleccionar entre los tres elmodelo mas adecuado, justificando la respuesta.
7
17. Una de las etapas de fabricacion de circuitos impresos requiere perforar las placas y recubrirlos orificios con una lamina de cobre mediante electrolisis. Una caracterıstica esencial delproceso es el grosor de la capa de cobre. Se han realizado 12 experimentos para evaluarel efecto de 7 variables, X1: Concentracion de Cobre, X2: Concentracion de Cloruro, X3:Concentracion de Acido, X4: Temperatura, X5: Intensidad, X6: Posicion y X7: Superficiede la placa. Cada variable se ha estudiado a dos niveles. Las condiciones experimentales ylos resultados de cada experimento se muestran en la tabla.
X1 X2 X3 X4 X5 X6 X7 Y1 1 -1 1 1 1 -1 2.131 -1 1 1 1 -1 -1 2.15-1 1 1 1 -1 -1 -1 1.671 1 1 -1 -1 -1 1 1.531 1 -1 -1 -1 1 -1 1.491 -1 -1 -1 1 -1 1 1.78-1 -1 -1 1 -1 1 1 1.80-1 -1 1 -1 1 1 -1 1.93-1 1 -1 1 1 -1 1 2.191 -1 1 1 -1 1 1 1.61-1 1 1 -1 1 1 1 1.70-1 -1 -1 -1 -1 -1 -1 1.43
Responder a las siguientes preguntas aplicando el modelo de regresion multiple: matrizidentidad de 8× 8.
(a) Estimar el modelo de regresion multiple
yi = β0 + β1x1i + β2x2i + β3x3i + β4x4i + β5x5i + β6x6i + β7x7i + ui.
Obtener la descomposicion de la variabilidad del modelo y realizar el contraste
H0 : β1 = β2 = β3 = β4 = β5 = β6 = β7 = 0
frente a la hipotesis alternativa H1: algun βj es distinto de cero.
(b) Realizar cada uno de los contrastes individuales e indicar que variables tienen efectosignificativo.
(c) Eliminar del modelo del apartado 1 todas las variables no significativas. Estimar elmodelo y contrastar sus coeficientes. Interpretar los resultados del experimento.
18. El molibdeno se anade a los aceros para evitar su oxidacion, pero en instalaciones nuclearespresenta el inconveniente de ser el causante de gran parte de los productos radioactivos. Seha realizado un experimento para determinar el grado de oxidacion del acero en funcion delporcentaje de molibdeno. Ademas se ha tenido en cuenta el efecto del tipo de refrigeranteutilizado (R1, R2). Los resultados se muestran en la tabla.
8
Molibdeno (%)Refrig. 0.5% 1% 1.5% 2% MediasR1 26.2 23.4 20.3 23.3 23.3R2 34.8 31.7 29.4 26.9 30.7R1 33.2 31.3 28.6 29.3 30.6R2 43.0 40.0 31.7 33.3 37.0
Media 34.3 31.6 27.5 28.2 30.4
(a) Escribir un modelo de regresion que incluya el porcentaje de molibdeno y el tipo de re-frigerante como regresores; estimar el modelo e indicar que parametros son significativos(α = 0.05)).
(b) Los experimentos relativos a las dos primeras filas se realizaron en un tipo de instalaciony los correspondientes a las dos ultimas en otra distinta. Escribir un nuevo modelo queincluya este aspecto. Comprobar que este nuevo regresor esta incorrelado con los dosanteriores. Estimar el nuevo modelo.
(c) Demostrar que en un modelo con los regresores incorrelados, la eliminacion de unode ellos no influye en el valor de los estimadores βi, (i 6= 0) restantes. ¿ Influye enla varianza residual y en los contrastes ? Explicar este efecto en funcion de que elparametro β del regresor eliminado sea o no nulo.
19. Sea x1 la altura del tronco de un arbol y x2 el diametro del mismo en su parte inferior. Elvolumen y del tronco de arbol puede ser calculado aproximadamente con el modelo
yi = αx1ix2
2i + ui,
segun el cual, el volumen del tronco es proporcional al volumen de un cono con las medidasx1i, x2i, siendo α el parametro (desconocido) de proporcionalidad, mas una componentede error aleatorio ui. La tabla siguiente contiene los datos (en metros y metros cubicos)correspondientes a una muestra aleatoria de 15 troncos de una variedad de pino.
Obs. x1i x2i yi1 10,1 0,117 0,0622 11,3 0,130 0,0853 20,4 0,142 0,2044 14,9 0,193 0,2275 23,8 0,218 0,4706 19,5 0,236 0,4847 21,6 0,257 0,6238 22,9 0,269 0,7229 19,8 0,297 0,82110 26,8 0,328 1,28011 21,0 0,351 1,03412 27,4 0,376 1,67913 29,0 0,389 2,07314 27,4 0,427 2,02215 31,7 0,594 4,630
9
(a) Estimar α por maxima verosimilitud suponiendo que las variables ui tienen distribucionnormal de media cero, con la misma varianza e independientes.
(b) Un tronco tiene una altura de 20 metros y un diametro de 0.25 metros, dar un intervalode prediccion de su volumen (95% de confianza).
(c) En el analisis de los residuos se observa que la varianza de los errores crece con elvolumen del tronco. Para obtener homocedasticidad se propone el siguiente modelotransformado utilizando logaritmos neperianos,
log yi = β0+ β
1log x1i + β
2log x2i + ui
Contrastar (nivel de significacion 0.05) si estos dos valores son aceptables.
(d) Con este modelo, dar un intervalo de prediccion (95% de confianza) para el volumendel tronco del apartado 2.
20. Ciertas propiedades del acero se mejoran sumergiendolo a alta temperatura (T0 = 1525oF ) en un bano templado de aceite (t0 = 95 oF ). Para determinar la influencia de lastemperaturas del acero y del bano de aceite en las propiedades finales del material se hanelegido tres valores de la temperatura del acero y tres del bano de aceite,
Temperatura acero (T )
1450 oF1525 oF1600 oF
Temperatura aceite (t)
70 oF95 oF120 oF
y se han realizado los siguientes experimentos:
x1i 0 0 0 0 -1 1 -1 1 0 0 -1 1x2i 0 0 0 0 -1 -1 1 1 -1 1 0 0yi 49.2 49.4 47.0 49.5 28.2 88.6 54.9 31.3 59.2 43.6 41.9 58.0
donde se ha utilizado la siguiente transformacion (para simplificar calculos)
x1i =Ti − 1525
75y x2i =
ti − 95
25.
Estimar el modelo de regresion
yi = β0+ β
1x1i + β
2x2i + β
3x1ix2i + ui
e indicar que parametros son significativos para nivel de significacion 0.05. Estimar y con-trastar el modelo anterior empleando las variables originales Ti y ti.
10
00,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,0
.5000
.5040
.5080
.5120
.5160
.5199
.5239
.5279
.5319
.5359
0,1
.5398
.5438
.5478
.5517
.5557
.5596
.5636
.5675
.5714
.5753
0,2
.5793
.5832
.5871
.5910
.5948
.5987
.6026
.6064
.6103
.6141
0,3
.6179
.6217
.6255
.6293
.6331
.6368
.6406
.6443
.6480
.6517
0,4
.6554
.6591
.6628
.6664
.6700
.6736
.6772
.6808
.6844
.6879
0,5
.6915
.6950
.6985
.7019
.7054
.7088
.7123
.7157
.7190
.7224
0,6
.7257
.7291
.7324
.7357
.7389
.7422
.7454
.7486
.7517
.7549
0,7
.7580
.7611
.7642
.7673
.7704
.7734
.7764
.7794
.7823
.7852
0,8
.7881
.7910
.7939
.7967
.7995
.8023
.8051
.8078
.8106
.8133
0,9
.8159
.8186
.8212
.8238
.8264
.8289
.8315
.8340
.8365
.8389
1,0
.8413
.8438
.8461
.8485
.8508
.8531
.8554
.8577
.8599
.8621
1,1
.8643
.8665
.8686
.8708
.8729
.8749
.8770
.8790
.8810
.8830
1,2
.8849
.8869
.8888
.8907
.8925
.8944
.8962
.8980
.8997
.9015
1,3
.9032
.9049
.9066
.9082
.9099
.9115
.9131
.9147
.9162
.9177
1,4
.9192
.9207
.9222
.9236
.9251
.9265
.9279
.9292
.9306
.9319
1,5
.9332
.9345
.9357
.9370
.9382
.9394
.9406
.9418
.9429
.9441
1,6
.9452
.9463
.9474
.9484
.9495
.9505
.9515
.9525
.9535
.9545
1,7
.9554
.9564
.9573
.9582
.9591
.9599
.9608
.9616
.9625
.9633
1,8
.9641
.9649
.9656
.9664
.9671
.9678
.9686
.9693
.9699
.9706
1,9
.9713
.9719
.9726
.9732
.9738
.9744
.9750
.9756
.9761
.9767
2,0
.9772
.9778
.9783
.9788
.9793
.9798
.9803
.9808
.9812
.9817
2,1
.9821
.9826
.9830
.9834
.9838
.9842
.9846
.9850
.9854
.9857
2,2
.9861
.9864
.9868
.9871
.9875
.9878
.9881
.9884
.9887
.9890
2,3
.9893
.9896
.9898
.9901
.9904
.9906
.9909
.9911
.9913
.9916
2,4
.9918
.9920
.9922
.9925
.9927
.9929
.9931
.9932
.9934
.9936
2,5
.9938
.9940
.9941
.9943
.9945
.9946
.9948
.9949
.9951
.9952
2,6
.9953
.9955
.9956
.9957
.9959
.9960
.9961
.9962
.9963
.9964
2,7
.9965
.9966
.9967
.9968
.9969
.9970
.9971
.9972
.9973
.9974
2,8
.9974
.9975
.9976
.9977
.9977
.9978
.9979
.9979
.9980
.9981
2,9
.9981
.9982
.9982
.9983
.9984
.9984
.9985
.9985
.9986
.9986
3,0
.9987
.9987
.9987
.9988
.9988
.9989
.9989
.9989
.9990
.9990
z
N(0,1)
)(
zZ
P≤
z
9750
.0)
96.1(Ejem
plo.
=≤
ZP
TABLA
Nor
mal
Es
tand
ar
z0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
3,1
.9990323
.9990645
.9990957
.9991259
.9991552
.9991836
.9992111
.9992377
.9992636
.9992886
3,2
.9993128
.9993363
.9993590
.9993810
.9994023
.9994229
.9994429
.9994622
.9994809
.9994990
3,3
.9995165
.9995335
.9995499
.9995657
.9995811
.9995959
.9996102
.9996241
.9996375
.9996505
3,4
.9996630
.9996751
.9996868
.9996982
.9997091
.9997197
.9997299
.9997397
.9997492
.9997584
3,5
.9997673
.9997759
.9997842
.9997922
.9997999
.9998073
.9998145
.9998215
.9998282
.9998346
3,6
.9998409
.9998469
.9998527
.9998583
.9998636
.9998688
.9998739
.9998787
.9998834
.9998878
3,7
.9998922
.9998963
.9999004
.9999042
.9999080
.9999116
.9999150
.9999184
.9999216
.9999247
3,8
.9999276
.9999305
.9999333
.9999359
.9999385
.9999409
.9999433
.9999456
.9999478
.9999499
3,9
.9999519
.9999538
.9999557
.9999575
.9999592
.9999609
.9999625
.9999640
.9999655
.9999669
4,0
.9999683
.9999696
.9999709
.9999721
.9999733
.9999744
.9999755
.9999765
.9999775
.9999784
Bin
omia
ln,p
Poiss
onλ
Nor
mal
µ,σ
0,
→∞
→p
nnp
=λ
λσ
λµλ
==∞
→
)1(2/1
pnp
nppn
−==→∞
→
σµ
Dis
tribu
ción
nor
mal
est
ánda
r(co
ntin
uaci
ón)
Rel
ació
n en
tre B
inom
ial,
Pois
son
y N
orm
al
N(0,1)
)(
zZ
P≤
z
Tabl
a χ
2
α
ν: g
rado
s de
liber
tad
(g.l.
)
χ ν,α
EJEM
PLO
P(χ 9≥
19,0
2) =
0,0
25
g.l.
0,995
0,990
0,975
0,950
0,500
0,050
0,025
0,010
0,005
1,00004
,00016
,00098
,00393
0,455
3,841
5,024
6,635
7,879
2,01002
,0201
0,051
0,103
1,386
5,991
7,378
9,210
10,60
3,0717
0,115
0,216
0,352
2,366
7,815
9,348
11,34
12,84
40,207
0,297
0,484
0,711
3,357
9,488
11,14
13,28
14,86
50,412
0,554
0,831
1,145
4,351
11,07
12,83
15,09
16,75
60,676
0,872
1,237
1,635
5,348
12,59
14,45
16,81
18,55
70,989
1,239
1,690
2,167
6,346
14,07
16,01
18,48
20,28
81,344
1,647
2,180
2,733
7,344
15,51
17,53
20,09
21,95
91,735
2,088
2,700
3,325
8,343
16,92
19,02
21,67
23,59
102,156
2,558
3,247
3,940
9,342
18,31
20,48
23,21
25,19
112,603
3,053
3,816
4,575
10,341
19,68
21,92
24,73
26,76
123,074
3,571
4,404
5,226
11,340
21,03
23,34
26,22
28,30
133,565
4,107
5,009
5,892
12,340
22,36
24,74
27,69
29,82
144,075
4,660
5,629
6,571
13,339
23,68
26,12
29,14
31,32
154,601
5,229
6,262
7,261
14,339
25,00
27,49
30,58
32,80
165,142
5,812
6,908
7,962
15,338
26,30
28,85
32,00
34,27
175,697
6,408
7,564
8,672
16,338
27,59
30,19
33,41
35,72
186,265
7,015
8,231
9,390
17,338
28,87
31,53
34,81
37,16
196,844
7,633
8,907
10,117
18,338
30,14
32,85
36,19
38,58
207,434
8,260
9,591
10,851
19,337
31,41
34,17
37,57
40,00
218,034
8,897
10,283
11,591
20,337
32,67
35,48
38,93
41,40
228,643
9,542
10,982
12,338
21,337
33,92
36,78
40,29
42,80
239,260
10,196
11,689
13,091
22,337
35,17
38,08
41,64
44,18
249,886
10,856
12,401
13,848
23,337
36,42
39,36
42,98
45,56
2510,520
11,524
13,120
14,611
24,337
37,65
40,65
44,31
46,93
2611,160
12,198
13,844
15,379
25,336
38,89
41,92
45,64
48,29
2711,808
12,878
14,573
16,151
26,336
40,11
43,19
46,96
49,65
2812,461
13,565
15,308
16,928
27,336
41,34
44,46
48,28
50,99
2913,121
14,256
16,047
17,708
28,336
42,56
45,72
49,59
52,34
3013,787
14,953
16,791
18,493
29,336
43,77
46,98
50,89
53,67
4020,707
22,164
24,433
26,509
39,335
55,76
59,34
63,69
66,77
5027,991
29,707
32,357
34,764
49,335
67,50
71,42
76,15
79,49
6035,534
37,485
40,482
43,188
59,335
79,08
83,30
88,38
91,95
7043,275
45,442
48,758
51,739
69,334
90,53
95,02
100,43
104,21
8051,172
53,540
57,153
60,391
79,334
101,88
106,63
112,33
116,32
9059,196
61,754
65,647
69,126
89,334
113,15
118,14
124,12
128,30
100
67,328
70,065
74,222
77,929
99,334
124,34
129,56
135,81
140,17
120
83,852
86,923
91,573
95,705
119,334
146,57
152,21
158,95
163,65
α
g.l
0,20
0,15
0,10
0,05
0,025
0,01
0,005
0,0025
0,001
0,0005
11,376
1,963
3,078
6,314
12,706
31,821
63,656
127,321
318,289
636,578
21,061
1,386
1,886
2,920
4,303
6,965
9,925
14,089
22,328
31,600
30,978
1,250
1,638
2,353
3,182
4,541
5,841
7,453
10,214
12,924
40,941
1,190
1,533
2,132
2,776
3,747
4,604
5,598
7,173
8,610
50,920
1,156
1,476
2,015
2,571
3,365
4,032
4,773
5,894
6,869
60,906
1,134
1,440
1,943
2,447
3,143
3,707
4,317
5,208
5,959
70,896
1,119
1,415
1,895
2,365
2,998
3,499
4,029
4,785
5,408
80,889
1,108
1,397
1,860
2,306
2,896
3,355
3,833
4,501
5,041
90,883
1,100
1,383
1,833
2,262
2,821
3,250
3,690
4,297
4,781
100,879
1,093
1,372
1,812
2,228
2,764
3,169
3,581
4,144
4,587
110,876
1,088
1,363
1,796
2,201
2,718
3,106
3,497
4,025
4,437
120,873
1,083
1,356
1,782
2,179
2,681
3,055
3,428
3,930
4,318
130,870
1,079
1,350
1,771
2,160
2,650
3,012
3,372
3,852
4,221
140,868
1,076
1,345
1,761
2,145
2,624
2,977
3,326
3,787
4,140
150,866
1,074
1,341
1,753
2,131
2,602
2,947
3,286
3,733
4,073
160,865
1,071
1,337
1,746
2,120
2,583
2,921
3,252
3,686
4,015
170,863
1,069
1,333
1,740
2,110
2,567
2,898
3,222
3,646
3,965
180,862
1,067
1,330
1,734
2,101
2,552
2,878
3,197
3,610
3,922
190,861
1,066
1,328
1,729
2,093
2,539
2,861
3,174
3,579
3,883
200,860
1,064
1,325
1,725
2,086
2,528
2,845
3,153
3,552
3,850
210,859
1,063
1,323
1,721
2,080
2,518
2,831
3,135
3,527
3,819
220,858
1,061
1,321
1,717
2,074
2,508
2,819
3,119
3,505
3,792
230,858
1,060
1,319
1,714
2,069
2,500
2,807
3,104
3,485
3,768
240,857
1,059
1,318
1,711
2,064
2,492
2,797
3,091
3,467
3,745
250,856
1,058
1,316
1,708
2,060
2,485
2,787
3,078
3,450
3,725
260,856
1,058
1,315
1,706
2,056
2,479
2,779
3,067
3,435
3,707
270,855
1,057
1,314
1,703
2,052
2,473
2,771
3,057
3,421
3,689
280,855
1,056
1,313
1,701
2,048
2,467
2,763
3,047
3,408
3,674
290,854
1,055
1,311
1,699
2,045
2,462
2,756
3,038
3,396
3,660
300,854
1,055
1,310
1,697
2,042
2,457
2,750
3,030
3,385
3,646
400,851
1,050
1,303
1,684
2,021
2,423
2,704
2,971
3,307
3,551
500,849
1,047
1,299
1,676
2,009
2,403
2,678
2,937
3,261
3,496
600,848
1,045
1,296
1,671
2,000
2,390
2,660
2,915
3,232
3,460
700,847
1,044
1,294
1,667
1,994
2,381
2,648
2,899
3,211
3,435
800,846
1,043
1,292
1,664
1,990
2,374
2,639
2,887
3,195
3,416
900,846
1,042
1,291
1,662
1,987
2,368
2,632
2,878
3,183
3,402
100
0,845
1,042
1,290
1,660
1,984
2,364
2,626
2,871
3,174
3,390
infinito
0,842
1,036
1,282
1,645
1,960
2,327
2,576
2,808
3,091
3,291
0,20
0,15
0,10
0,05
0,025
0,01
0,005
0,0025
0,001
0,0005
Tabl
a
t-Stu
dent
α
α
ν: g
rado
s de
liber
tad
(g.l.
)
t ν,α
EJEM
PLO
P(t 9≥
2,26
2) =
0,0
25
Grados de libertad del denominador: ν2
Gra
dos d
e l ib
erta
d de
l nu m
erad
o r: ν
1α
=0.0
5Ta
bla
Fα
αν
νν
να
νν
=≥
⇒)
(,
,,
,,
21
21
21
FF
PF
05.0)
50.3(
:8,7
=≥
FP
Ejem
plo
12
34
56
78
910
1215
2024
3040
60100
120
Inf.
1161,4
199,5
215,7
224,6
230,2
234,0
236,8
238,9
240,5
241,9
243,9
245,9
248,0
249,1
250,1
251,1
252,2
253,0
253,3
254,3
12
18,51
19,00
19,16
19,25
19,30
19,33
19,35
19,37
19,38
19,40
19,41
19,43
19,45
19,45
19,46
19,47
19,48
19,49
19,49
19,50
23
10,13
9,55
9,28
9,12
9,01
8,94
8,89
8,85
8,81
8,79
8,74
8,70
8,66
8,64
8,62
8,59
8,57
8,55
8,55
8,53
34
7,71
6,94
6,59
6,39
6,26
6,16
6,09
6,04
6,00
5,96
5,91
5,86
5,80
5,77
5,75
5,72
5,69
5,66
5,66
5,63
45
6,61
5,79
5,41
5,19
5,05
4,95
4,88
4,82
4,77
4,74
4,68
4,62
4,56
4,53
4,50
4,46
4,43
4,41
4,40
4,37
56
5,99
5,14
4,76
4,53
4,39
4,28
4,21
4,15
4,10
4,06
4,00
3,94
3,87
3,84
3,81
3,77
3,74
3,71
3,70
3,67
67
5,59
4,74
4,35
4,12
3,97
3,87
3,79
3,73
3,68
3,64
3,57
3,51
3,44
3,41
3,38
3,34
3,30
3,27
3,27
3,23
78
5,32
4,46
4,07
3,84
3,69
3,58
3,50
3,44
3,39
3,35
3,28
3,22
3,15
3,12
3,08
3,04
3,01
2,97
2,97
2,93
89
5,12
4,26
3,86
3,63
3,48
3,37
3,29
3,23
3,18
3,14
3,07
3,01
2,94
2,90
2,86
2,83
2,79
2,76
2,75
2,71
910
4,96
4,10
3,71
3,48
3,33
3,22
3,14
3,07
3,02
2,98
2,91
2,85
2,77
2,74
2,70
2,66
2,62
2,59
2,58
2,54
1011
4,84
3,98
3,59
3,36
3,20
3,09
3,01
2,95
2,90
2,85
2,79
2,72
2,65
2,61
2,57
2,53
2,49
2,46
2,45
2,40
1112
4,75
3,89
3,49
3,26
3,11
3,00
2,91
2,85
2,80
2,75
2,69
2,62
2,54
2,51
2,47
2,43
2,38
2,35
2,34
2,30
1213
4,67
3,81
3,41
3,18
3,03
2,92
2,83
2,77
2,71
2,67
2,60
2,53
2,46
2,42
2,38
2,34
2,30
2,26
2,25
2,21
1314
4,60
3,74
3,34
3,11
2,96
2,85
2,76
2,70
2,65
2,60
2,53
2,46
2,39
2,35
2,31
2,27
2,22
2,19
2,18
2,13
1415
4,54
3,68
3,29
3,06
2,90
2,79
2,71
2,64
2,59
2,54
2,48
2,40
2,33
2,29
2,25
2,20
2,16
2,12
2,11
2,07
1516
4,49
3,63
3,24
3,01
2,85
2,74
2,66
2,59
2,54
2,49
2,42
2,35
2,28
2,24
2,19
2,15
2,11
2,07
2,06
2,01
1617
4,45
3,59
3,20
2,96
2,81
2,70
2,61
2,55
2,49
2,45
2,38
2,31
2,23
2,19
2,15
2,10
2,06
2,02
2,01
1,96
1718
4,41
3,55
3,16
2,93
2,77
2,66
2,58
2,51
2,46
2,41
2,34
2,27
2,19
2,15
2,11
2,06
2,02
1,98
1,97
1,92
1819
4,38
3,52
3,13
2,90
2,74
2,63
2,54
2,48
2,42
2,38
2,31
2,23
2,16
2,11
2,07
2,03
1,98
1,94
1,93
1,88
1920
4,35
3,49
3,10
2,87
2,71
2,60
2,51
2,45
2,39
2,35
2,28
2,20
2,12
2,08
2,04
1,99
1,95
1,91
1,90
1,84
2021
4,32
3,47
3,07
2,84
2,68
2,57
2,49
2,42
2,37
2,32
2,25
2,18
2,10
2,05
2,01
1,96
1,92
1,88
1,87
1,81
2122
4,30
3,44
3,05
2,82
2,66
2,55
2,46
2,40
2,34
2,30
2,23
2,15
2,07
2,03
1,98
1,94
1,89
1,85
1,84
1,78
2223
4,28
3,42
3,03
2,80
2,64
2,53
2,44
2,37
2,32
2,27
2,20
2,13
2,05
2,01
1,96
1,91
1,86
1,82
1,81
1,76
2324
4,26
3,40
3,01
2,78
2,62
2,51
2,42
2,36
2,30
2,25
2,18
2,11
2,03
1,98
1,94
1,89
1,84
1,80
1,79
1,73
2425
4,24
3,39
2,99
2,76
2,60
2,49
2,40
2,34
2,28
2,24
2,16
2,09
2,01
1,96
1,92
1,87
1,82
1,78
1,77
1,71
2526
4,23
3,37
2,98
2,74
2,59
2,47
2,39
2,32
2,27
2,22
2,15
2,07
1,99
1,95
1,90
1,85
1,80
1,76
1,75
1,69
2627
4,21
3,35
2,96
2,73
2,57
2,46
2,37
2,31
2,25
2,20
2,13
2,06
1,97
1,93
1,88
1,84
1,79
1,74
1,73
1,67
2728
4,20
3,34
2,95
2,71
2,56
2,45
2,36
2,29
2,24
2,19
2,12
2,04
1,96
1,91
1,87
1,82
1,77
1,73
1,71
1,65
2829
4,18
3,33
2,93
2,70
2,55
2,43
2,35
2,28
2,22
2,18
2,10
2,03
1,94
1,90
1,85
1,81
1,75
1,71
1,70
1,64
2930
4,17
3,32
2,92
2,69
2,53
2,42
2,33
2,27
2,21
2,16
2,09
2,01
1,93
1,89
1,84
1,79
1,74
1,70
1,68
1,62
3040
4,08
3,23
2,84
2,61
2,45
2,34
2,25
2,18
2,12
2,08
2,00
1,92
1,84
1,79
1,74
1,69
1,64
1,59
1,58
1,51
4050
4,03
3,18
2,79
2,56
2,40
2,29
2,20
2,13
2,07
2,03
1,95
1,87
1,78
1,74
1,69
1,63
1,58
1,52
1,51
1,44
5060
4,00
3,15
2,76
2,53
2,37
2,25
2,17
2,10
2,04
1,99
1,92
1,84
1,75
1,70
1,65
1,59
1,53
1,48
1,47
1,39
6070
3,98
3,13
2,74
2,50
2,35
2,23
2,14
2,07
2,02
1,97
1,89
1,81
1,72
1,67
1,62
1,57
1,50
1,45
1,44
1,35
7080
3,96
3,11
2,72
2,49
2,33
2,21
2,13
2,06
2,00
1,95
1,88
1,79
1,70
1,65
1,60
1,54
1,48
1,43
1,41
1,32
8090
3,95
3,10
2,71
2,47
2,32
2,20
2,11
2,04
1,99
1,94
1,86
1,78
1,69
1,64
1,59
1,53
1,46
1,41
1,39
1,30
90100
3,94
3,09
2,70
2,46
2,31
2,19
2,10
2,03
1,97
1,93
1,85
1,77
1,68
1,63
1,57
1,52
1,45
1,39
1,38
1,28
100
120
3,92
3,07
2,68
2,45
2,29
2,18
2,09
2,02
1,96
1,91
1,83
1,75
1,66
1,61
1,55
1,50
1,43
1,37
1,35
1,25
120
Inf
3,84
3,00
2,60
2,37
2,21
2,10
2,01
1,94
1,88
1,83
1,75
1,67
1,57
1,52
1,46
1,39
1,32
1,24
1,22
1,00
Inf
12
34
56
78
910
1215
2024
3040
60100
120
Inf.
Grados de libertad del denominador: ν2
Gra
dos d
e l ib
erta
d de
l nu m
erad
o r: ν
1α
=0.0
25Ta
bla
Fα
αν
νν
να
νν
=≥
⇒)
(,
,,
,,
21
21
21
FF
PF
025
.0)
53.4(
:8,7
=≥
FP
Ejem
plo
12
34
56
78
910
1215
2024
3040
60100
120
Inf.
1647,8
799,5
864,2
899,6
921,8
937,1
948,2
956,6
963,3
968,6
976,7
984,9
993,1
997,31001,41005,61009,81013,21014,01018,3
12
38,51
39,00
39,17
39,25
39,30
39,33
39,36
39,37
39,39
39,40
39,41
39,43
39,45
39,46
39,46
39,47
39,48
39,49
39,49
39,50
23
17,44
16,04
15,44
15,10
14,88
14,73
14,62
14,54
14,47
14,42
14,34
14,25
14,17
14,12
14,08
14,04
13,99
13,96
13,95
13,90
34
12,22
10,65
9,98
9,60
9,36
9,20
9,07
8,98
8,90
8,84
8,75
8,66
8,56
8,51
8,46
8,41
8,36
8,32
8,31
8,26
45
10,01
8,43
7,76
7,39
7,15
6,98
6,85
6,76
6,68
6,62
6,52
6,43
6,33
6,28
6,23
6,18
6,12
6,08
6,07
6,02
56
8,81
7,26
6,60
6,23
5,99
5,82
5,70
5,60
5,52
5,46
5,37
5,27
5,17
5,12
5,07
5,01
4,96
4,92
4,90
4,85
67
8,07
6,54
5,89
5,52
5,29
5,12
4,99
4,90
4,82
4,76
4,67
4,57
4,47
4,41
4,36
4,31
4,25
4,21
4,20
4,14
78
7,57
6,06
5,42
5,05
4,82
4,65
4,53
4,43
4,36
4,30
4,20
4,10
4,00
3,95
3,89
3,84
3,78
3,74
3,73
3,67
89
7,21
5,71
5,08
4,72
4,48
4,32
4,20
4,10
4,03
3,96
3,87
3,77
3,67
3,61
3,56
3,51
3,45
3,40
3,39
3,33
910
6,94
5,46
4,83
4,47
4,24
4,07
3,95
3,85
3,78
3,72
3,62
3,52
3,42
3,37
3,31
3,26
3,20
3,15
3,14
3,08
1011
6,72
5,26
4,63
4,28
4,04
3,88
3,76
3,66
3,59
3,53
3,43
3,33
3,23
3,17
3,12
3,06
3,00
2,96
2,94
2,88
1112
6,55
5,10
4,47
4,12
3,89
3,73
3,61
3,51
3,44
3,37
3,28
3,18
3,07
3,02
2,96
2,91
2,85
2,80
2,79
2,72
1213
6,41
4,97
4,35
4,00
3,77
3,60
3,48
3,39
3,31
3,25
3,15
3,05
2,95
2,89
2,84
2,78
2,72
2,67
2,66
2,60
1314
6,30
4,86
4,24
3,89
3,66
3,50
3,38
3,29
3,21
3,15
3,05
2,95
2,84
2,79
2,73
2,67
2,61
2,56
2,55
2,49
1415
6,20
4,77
4,15
3,80
3,58
3,41
3,29
3,20
3,12
3,06
2,96
2,86
2,76
2,70
2,64
2,59
2,52
2,47
2,46
2,40
1516
6,12
4,69
4,08
3,73
3,50
3,34
3,22
3,12
3,05
2,99
2,89
2,79
2,68
2,63
2,57
2,51
2,45
2,40
2,38
2,32
1617
6,04
4,62
4,01
3,66
3,44
3,28
3,16
3,06
2,98
2,92
2,82
2,72
2,62
2,56
2,50
2,44
2,38
2,33
2,32
2,25
1718
5,98
4,56
3,95
3,61
3,38
3,22
3,10
3,01
2,93
2,87
2,77
2,67
2,56
2,50
2,44
2,38
2,32
2,27
2,26
2,19
1819
5,92
4,51
3,90
3,56
3,33
3,17
3,05
2,96
2,88
2,82
2,72
2,62
2,51
2,45
2,39
2,33
2,27
2,22
2,20
2,13
1920
5,87
4,46
3,86
3,51
3,29
3,13
3,01
2,91
2,84
2,77
2,68
2,57
2,46
2,41
2,35
2,29
2,22
2,17
2,16
2,09
2021
5,83
4,42
3,82
3,48
3,25
3,09
2,97
2,87
2,80
2,73
2,64
2,53
2,42
2,37
2,31
2,25
2,18
2,13
2,11
2,04
2122
5,79
4,38
3,78
3,44
3,22
3,05
2,93
2,84
2,76
2,70
2,60
2,50
2,39
2,33
2,27
2,21
2,14
2,09
2,08
2,00
2223
5,75
4,35
3,75
3,41
3,18
3,02
2,90
2,81
2,73
2,67
2,57
2,47
2,36
2,30
2,24
2,18
2,11
2,06
2,04
1,97
2324
5,72
4,32
3,72
3,38
3,15
2,99
2,87
2,78
2,70
2,64
2,54
2,44
2,33
2,27
2,21
2,15
2,08
2,02
2,01
1,94
2425
5,69
4,29
3,69
3,35
3,13
2,97
2,85
2,75
2,68
2,61
2,51
2,41
2,30
2,24
2,18
2,12
2,05
2,00
1,98
1,91
2526
5,66
4,27
3,67
3,33
3,10
2,94
2,82
2,73
2,65
2,59
2,49
2,39
2,28
2,22
2,16
2,09
2,03
1,97
1,95
1,88
2627
5,63
4,24
3,65
3,31
3,08
2,92
2,80
2,71
2,63
2,57
2,47
2,36
2,25
2,19
2,13
2,07
2,00
1,94
1,93
1,85
2728
5,61
4,22
3,63
3,29
3,06
2,90
2,78
2,69
2,61
2,55
2,45
2,34
2,23
2,17
2,11
2,05
1,98
1,92
1,91
1,83
2829
5,59
4,20
3,61
3,27
3,04
2,88
2,76
2,67
2,59
2,53
2,43
2,32
2,21
2,15
2,09
2,03
1,96
1,90
1,89
1,81
2930
5,57
4,18
3,59
3,25
3,03
2,87
2,75
2,65
2,57
2,51
2,41
2,31
2,20
2,14
2,07
2,01
1,94
1,88
1,87
1,79
3040
5,42
4,05
3,46
3,13
2,90
2,74
2,62
2,53
2,45
2,39
2,29
2,18
2,07
2,01
1,94
1,88
1,80
1,74
1,72
1,64
4050
5,34
3,97
3,39
3,05
2,83
2,67
2,55
2,46
2,38
2,32
2,22
2,11
1,99
1,93
1,87
1,80
1,72
1,66
1,64
1,55
5060
5,29
3,93
3,34
3,01
2,79
2,63
2,51
2,41
2,33
2,27
2,17
2,06
1,94
1,88
1,82
1,74
1,67
1,60
1,58
1,48
6070
5,25
3,89
3,31
2,97
2,75
2,59
2,47
2,38
2,30
2,24
2,14
2,03
1,91
1,85
1,78
1,71
1,63
1,56
1,54
1,44
7080
5,22
3,86
3,28
2,95
2,73
2,57
2,45
2,35
2,28
2,21
2,11
2,00
1,88
1,82
1,75
1,68
1,60
1,53
1,51
1,40
8090
5,20
3,84
3,26
2,93
2,71
2,55
2,43
2,34
2,26
2,19
2,09
1,98
1,86
1,80
1,73
1,66
1,58
1,50
1,48
1,37
90100
5,18
3,83
3,25
2,92
2,70
2,54
2,42
2,32
2,24
2,18
2,08
1,97
1,85
1,78
1,71
1,64
1,56
1,48
1,46
1,35
100
120
5,15
3,80
3,23
2,89
2,67
2,52
2,39
2,30
2,22
2,16
2,05
1,94
1,82
1,76
1,69
1,61
1,53
1,45
1,43
1,31
120
Inf
5,02
3,69
3,12
2,79
2,57
2,41
2,29
2,19
2,11
2,05
1,94
1,83
1,71
1,64
1,57
1,48
1,39
1,30
1,27
1,00
Inf
12
34
56
78
910
1215
2024
3040
60100
120
Inf.
Grados de libertad del denominador: ν2
Gra
dos d
e l ib
erta
d de
l nu m
erad
o r: ν
1α
=0.0
1Ta
bla
Fα
αν
νν
να
νν
=≥
⇒)
(,
,,
,,
21
21
21
FF
PF
01.0)
18.6(
:8,7
=≥
FP
Ejem
plo
12
34
56
78
910
1215
2024
3040
60100
120
Inf.
14052,24999,35403,55624,35764,05859,05928,35981,06022,46055,96106,76157,06208,76234,36260,46286,46313,06333,96339,56365,6
12
98,50
99,00
99,16
99,25
99,30
99,33
99,36
99,38
99,39
99,40
99,42
99,43
99,45
99,46
99,47
99,48
99,48
99,49
99,49
99,50
23
34,12
30,82
29,46
28,71
28,24
27,91
27,67
27,49
27,34
27,23
27,05
26,87
26,69
26,60
26,50
26,41
26,32
26,24
26,22
26,13
34
21,20
18,00
16,69
15,98
15,52
15,21
14,98
14,80
14,66
14,55
14,37
14,20
14,02
13,93
13,84
13,75
13,65
13,58
13,56
13,46
45
16,26
13,27
12,06
11,39
10,97
10,67
10,46
10,29
10,16
10,05
9,89
9,72
9,55
9,47
9,38
9,29
9,20
9,13
9,11
9,02
56
13,75
10,92
9,78
9,15
8,75
8,47
8,26
8,10
7,98
7,87
7,72
7,56
7,40
7,31
7,23
7,14
7,06
6,99
6,97
6,88
67
12,25
9,55
8,45
7,85
7,46
7,19
6,99
6,84
6,72
6,62
6,47
6,31
6,16
6,07
5,99
5,91
5,82
5,75
5,74
5,65
78
11,26
8,65
7,59
7,01
6,63
6,37
6,18
6,03
5,91
5,81
5,67
5,52
5,36
5,28
5,20
5,12
5,03
4,96
4,95
4,86
89
10,56
8,02
6,99
6,42
6,06
5,80
5,61
5,47
5,35
5,26
5,11
4,96
4,81
4,73
4,65
4,57
4,48
4,41
4,40
4,31
910
10,04
7,56
6,55
5,99
5,64
5,39
5,20
5,06
4,94
4,85
4,71
4,56
4,41
4,33
4,25
4,17
4,08
4,01
4,00
3,91
1011
9,65
7,21
6,22
5,67
5,32
5,07
4,89
4,74
4,63
4,54
4,40
4,25
4,10
4,02
3,94
3,86
3,78
3,71
3,69
3,60
1112
9,33
6,93
5,95
5,41
5,06
4,82
4,64
4,50
4,39
4,30
4,16
4,01
3,86
3,78
3,70
3,62
3,54
3,47
3,45
3,36
1213
9,07
6,70
5,74
5,21
4,86
4,62
4,44
4,30
4,19
4,10
3,96
3,82
3,66
3,59
3,51
3,43
3,34
3,27
3,25
3,17
1314
8,86
6,51
5,56
5,04
4,69
4,46
4,28
4,14
4,03
3,94
3,80
3,66
3,51
3,43
3,35
3,27
3,18
3,11
3,09
3,00
1415
8,68
6,36
5,42
4,89
4,56
4,32
4,14
4,00
3,89
3,80
3,67
3,52
3,37
3,29
3,21
3,13
3,05
2,98
2,96
2,87
1516
8,53
6,23
5,29
4,77
4,44
4,20
4,03
3,89
3,78
3,69
3,55
3,41
3,26
3,18
3,10
3,02
2,93
2,86
2,84
2,75
1617
8,40
6,11
5,19
4,67
4,34
4,10
3,93
3,79
3,68
3,59
3,46
3,31
3,16
3,08
3,00
2,92
2,83
2,76
2,75
2,65
1718
8,29
6,01
5,09
4,58
4,25
4,01
3,84
3,71
3,60
3,51
3,37
3,23
3,08
3,00
2,92
2,84
2,75
2,68
2,66
2,57
1819
8,18
5,93
5,01
4,50
4,17
3,94
3,77
3,63
3,52
3,43
3,30
3,15
3,00
2,92
2,84
2,76
2,67
2,60
2,58
2,49
1920
8,10
5,85
4,94
4,43
4,10
3,87
3,70
3,56
3,46
3,37
3,23
3,09
2,94
2,86
2,78
2,69
2,61
2,54
2,52
2,42
2021
8,02
5,78
4,87
4,37
4,04
3,81
3,64
3,51
3,40
3,31
3,17
3,03
2,88
2,80
2,72
2,64
2,55
2,48
2,46
2,36
2122
7,95
5,72
4,82
4,31
3,99
3,76
3,59
3,45
3,35
3,26
3,12
2,98
2,83
2,75
2,67
2,58
2,50
2,42
2,40
2,31
2223
7,88
5,66
4,76
4,26
3,94
3,71
3,54
3,41
3,30
3,21
3,07
2,93
2,78
2,70
2,62
2,54
2,45
2,37
2,35
2,26
2324
7,82
5,61
4,72
4,22
3,90
3,67
3,50
3,36
3,26
3,17
3,03
2,89
2,74
2,66
2,58
2,49
2,40
2,33
2,31
2,21
2425
7,77
5,57
4,68
4,18
3,85
3,63
3,46
3,32
3,22
3,13
2,99
2,85
2,70
2,62
2,54
2,45
2,36
2,29
2,27
2,17
2526
7,72
5,53
4,64
4,14
3,82
3,59
3,42
3,29
3,18
3,09
2,96
2,81
2,66
2,58
2,50
2,42
2,33
2,25
2,23
2,13
2627
7,68
5,49
4,60
4,11
3,78
3,56
3,39
3,26
3,15
3,06
2,93
2,78
2,63
2,55
2,47
2,38
2,29
2,22
2,20
2,10
2728
7,64
5,45
4,57
4,07
3,75
3,53
3,36
3,23
3,12
3,03
2,90
2,75
2,60
2,52
2,44
2,35
2,26
2,19
2,17
2,06
2829
7,60
5,42
4,54
4,04
3,73
3,50
3,33
3,20
3,09
3,00
2,87
2,73
2,57
2,49
2,41
2,33
2,23
2,16
2,14
2,03
2930
7,56
5,39
4,51
4,02
3,70
3,47
3,30
3,17
3,07
2,98
2,84
2,70
2,55
2,47
2,39
2,30
2,21
2,13
2,11
2,01
3040
7,31
5,18
4,31
3,83
3,51
3,29
3,12
2,99
2,89
2,80
2,66
2,52
2,37
2,29
2,20
2,11
2,02
1,94
1,92
1,80
4050
7,17
5,06
4,20
3,72
3,41
3,19
3,02
2,89
2,78
2,70
2,56
2,42
2,27
2,18
2,10
2,01
1,91
1,82
1,80
1,68
5060
7,08
4,98
4,13
3,65
3,34
3,12
2,95
2,82
2,72
2,63
2,50
2,35
2,20
2,12
2,03
1,94
1,84
1,75
1,73
1,60
6070
7,01
4,92
4,07
3,60
3,29
3,07
2,91
2,78
2,67
2,59
2,45
2,31
2,15
2,07
1,98
1,89
1,78
1,70
1,67
1,54
7080
6,96
4,88
4,04
3,56
3,26
3,04
2,87
2,74
2,64
2,55
2,42
2,27
2,12
2,03
1,94
1,85
1,75
1,65
1,63
1,49
8090
6,93
4,85
4,01
3,53
3,23
3,01
2,84
2,72
2,61
2,52
2,39
2,24
2,09
2,00
1,92
1,82
1,72
1,62
1,60
1,46
90100
6,90
4,82
3,98
3,51
3,21
2,99
2,82
2,69
2,59
2,50
2,37
2,22
2,07
1,98
1,89
1,80
1,69
1,60
1,57
1,43
100
120
6,85
4,79
3,95
3,48
3,17
2,96
2,79
2,66
2,56
2,47
2,34
2,19
2,03
1,95
1,86
1,76
1,66
1,56
1,53
1,38
120
Inf
6,63
4,61
3,78
3,32
3,02
2,80
2,64
2,51
2,41
2,32
2,18
2,04
1,88
1,79
1,70
1,59
1,47
1,36
1,32
1,00
Inf
12
34
56
78
910
1215
2024
3040
60100
120
Inf.