ejercicios - escuela técnica superior de ingenieros ... · de servicio requeridos por las tres...

61
EJERCICIOS 1. Probabilidad 2. Inferencia 3. Diseño de Experimentos 4. Regresión Escuela Técnica Superior de Ingenieros Industriales Universidad Politécnica de Madrid www.etsii.upm.es/ingor/estadistica/

Upload: phamque

Post on 26-Sep-2018

222 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

EJERCICIOS 1. Probabilidad 2. Inferencia 3. Diseño de

Experimentos 4. Regresión

Escuela Técnica Superior de Ingenieros Industriales

Universidad Politécnica de Madrid

ww

w.e

tsii

.up

m.e

s/in

go

r/e

stad

isti

ca/

Page 2: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

.

Page 3: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

Capítulo 1. Descriptiva

1.1 En un departamento cuatro profesores imparten clases en grupos con 10, 18, 22 y 150 alumnosrespectivamente. Si se pregunta a los profesores por el tamaño de su clase ¿cuál sería el valor medioy la desviación típica obtenida? ¿Y si se pregunta a todos los alumnos del departamento?

1.2 ¿Es posible que la varianza de una variable x sea 4, la de y sea 9 y la de z = x + y sea igual a 2?Justificar la respuesta.

1.3 Demostrar que al multiplicar x por k1 e y por k2, el coeficiente de correlación entre ambas no varía(k1 y k2 deben tener el mismo signo).

1.4 Demostrar que si entre dos variables existe una relación exacta y = a+ bx, con b > 0, el coeficientede correlación es uno.

1.5 Demostrar que el coeficiente de correlación es siempre en valor absoluto menor que uno.

1.6 En un proceso de fabricación se han medido tres variables y calculado la matriz de varianzas con elresultado siguiente:

2 3 13 4 21 2 2

¿Podemos afirmar que hay un error en los cálculos? ¿Por qué?

1.7 A la variable x de media x = 100 se le ha aplicado una transformación con el logaritmo decimalobteniéndose la nueva variable y = log10(x). La media de la nueva variable es y = 2.5. ¿Es posibleeste resultado?

1.8 En la figura se presenta el diagrama de tallos y hojas de los residuos obtenidos de un diseño factorial.Representa el diagrama de caja (box plot) de los datos. (Nota.- La rama -6|91 representa los valores-0.69 y -0.61).

2 -6 | 912 -5 |4 -4 | 0010 -3 | 76632018 -2 | 9875431029 -1 | 98654321100

(16) -0 | 997766655443321136 0 | 01556667727 1 | 233347820 2 | 13478914 3 | 234556996 4 | 011355

1

Page 4: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

Capítulo 2. Probabilidad

2.1 Sea X una variable aleatoria con distribución uniforme en (0, 1). Calcular la probabilidad de queY > 0.8 si Y = e−X2

.

2.2 Se elige un punto al azar interior a la circunferencia de ecuación x2 + y2 = r2. Llamando Z a lavariable aleatoria definida por la distancia entre el punto elegido y el centro de la circunferencia,calcular las funciones de densidad y distribución de Z.

2.3 Si X es una variable aleatoria con media µ. Demostrar que cuando m = µ, E[(X −m)2] es mínima.2.4 La función de densidad de la variable aleatoria X es

f(x) =

½1/(kx), si 25 ≤ x ≤ 500, en el resto.

Obtener k, la media y la varianza de X.

2.5 De acuerdo con la teoría cinética de los gases, la velocidad V de una molécula de masa m de un gasa la temperatura (absoluta) T es una variable aleatoria con la siguiente función de densidad:

f(v) =4

α3√πv2e−v

2/α2 , v ≥ 0

donde α =p2kT/m, siendo k la constante de Boltzmann. Además, E(V ) = 2α/

√π y Var(V ) =

(3/2 − 4/π)α2. Calcular el valor medio de la energía cinética, mV 2/2, de una molécula. ¿ A unamisma temperatura T , qué gas tiene mayor valor medio de energía cinética, uno ligero u otro máspesado?

2.6 La función de distribución de la variable aleatoria X es FX(x). Obtener la función de densidad dela variable aleatoria Y = FX(x).

2.7 Un modelo que habitualmente se utiliza en balística para comprobar la correcta calibración de lasarmas es

f(x) =x

σ2exp

·− x

2

2σ2

¸, x ≥ 0,σ ≥ 0,

donde la variable aleatoria X es la distancia del punto de impacto del proyectil al centro del blancoal que iba dirigido y σ es el parámetro que mide la precisión. Si para una distancia determinada dedisparo la precisión del arma es σ = 10 cm, ¿cuál es la probabilidad de que al lanzar 10 proyectiles,ninguno haya impactado a una distacia menor de 5 cm del centro del blanco?

2.8 Adaptar la demostración de la desigualdad de Chebychev y demostrar la desigualdad de Markov

P (X > a) ≤ 1aE [X]

donde X es una variable aleatoria positiva (P (X > 0) = 1)

2.9 Dada la variable aleatoria X, cuya función de densidad es

f(x) =

½k(1− x2), si 0 < x < 10, en el resto

1

Page 5: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

Obtener k, así como la media y la varianza de la variable Y = 3X − 1.

2.10 Supóngase una diana circular con centro en el origen de coordenadas y radio r y X, Y las coor-denadas de un punto elegido al azar (por ejemplo, el lanzamiento de un dardo). Supóngase quecualquier otro punto de la diana tiene la misma probabilidad de ser elegido. Calcule fXY (x, y) yfX(x).

2.11 Un gran almacén guarda cajas que contienen piezas de distinto tipo. La proporción p de piezas detipo A en una caja se puede considerar una variable aleatoria con función de densidad:

f(p) = kp(1− p) con 0 ≤ p ≤ 1

(a) Calcular el valor de k, la media y la varianza de la variable aleatoria p.

(b) Si se toman 10 cajas al azar.¿Cuál es la probabilidad de que ninguna de ellas contenga unaproporción de piezas de tipo A igual o superior al 75% ?

2.12 X e Y son dos variables aleatorias independientes con la misma función de distribución F . Calcularla función de densidad de

U = max(X,Y).

2.13 Obtén la distribución de probabilidad del máximo, del mínimo y de la media de los resultadosobtenidos al lanzar dos dados equilibrados. Se acepta que los resultados de los dados son variablesaleatorias independientes.

2.14 La función de densidad de una variable aleatoria bidemensional viene dada por la expresión:

fXY (x, y) =

½xy + cex, cuando 0 < x < 1 y 0 < y < 10, en el resto

¿Son independientes las variables aleatorias X e Y ?

2.15 Los billetes de banco son fabricados en pliegos. La impresión se realiza por dos máquinas iguales,una de ellas imprime el anverso y la otra el reverso. Sea X e Y , respectivamente, el número dedefectos de impresión en el anverso y reverso de un pliego. Ambas variables son independientes condistribución de Poisson de parámetros λ1 y λ2.

(a) Demostrar que el número total de defectos en un pliego Z = X + Y tiene distribución dePoisson. (Nota.- Utilizar que

Pr{Z = n} =nXk=0

Pr{X = k}Pr{Y = n− k}

y el desarrollo del binomio de Newton para (λ1 + λ2)n.)

(b) Si el número total de defectos en un pliego es Z = n, ¿ cuál es la probabilidad de que hayaexáctamente X = k defectos en el anverso? (Obtener la expresión en función de λ1,λ2, ny k). ¿ De qué distribución de probabilidad se trata?

2.16 La cantidad en miligramos de dos componentes contenidos en un producto es una variable aleatoriabidemensional, cuya función de densidad viene dada por la expresión

2

Page 6: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

fXY (x, y) =

½4xy, cuando 0 ≤ x ≤ 1 y 0 ≤ y ≤ 10, en el resto

Calcular la probabilidad de que la cantidad del primer componentes sea menor que 0.3 miligramoscuando la del segundo es 0.8 miligramos.

2.17 La llegada de los clientes a un banco se considera un proceso Poisson con parámetro λ. Sabiendoque en la última hora han llegado 2 clientes, ¿cuál es la probabilidad de que los dos entraran en losprimeros 15 minutos?

2.18 La función de densidad de la variable aleatoria bidemendional (X,Y ), bien dada por la expresión:

fXY (x, y) =

½kxy, cuando 0 < x < y < 10, en el resto

(a) Calcular el valor de k.(b) Calcular P (X < 0.5|Y = 0.5).(c) ¿Son independientes las variables aleatorias X e Y ?

2.19 X e Y son variables aleatorias con coeficiente de correlación lineal ρ = −1. Si las varianzas soniguales, calcular la varianza de Z = X + Y − 1.

2.20 Un equipo de radio tiene dos partes, el receptor y el amplificador. La duración del receptor esuna variable aleatoria exponencial de media 500 horas y la duración del amplificador una variableexponencial de media 1000 horas. ¿Cuál es la probabilidad de que el fallo del equipo (cuando seproduzca) sea debido a un fallo del receptor? (Se supone que las variables son independientes)

2.21 Una máquina en funcionamiento es reemplazada por una nueva máquina bien cuando falla, biencuando alcanza la edad de T años. Si el tiempo de vida de las sucesivas máquinas son variablesaleatorias independientes con la misma función de distribución F y con función de densidad f,demuestra que el número medio esperado de máquinas empleadas en un año es·Z T

0xf(x)dx+ T (1− F (T ))

¸−1.

2.22 SeaX1 una variable aleatoria N(10,1), X2 una variable aleatoria N(20,1), yX3 una variable aleatoriaN(30,4). Se define

Z1 = X1 +X2 −X3

Z2 = X1 +X2 +X3

Z3 = X1 −X2 −X3

Si X1,X2,X3 son independientes, calcular la matriz de varianzas de (Z1, Z2, Z3).

3

Page 7: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

2.23 La distribución de probabilidad conjunta de las variables aleatorias Y1 e Y2 es la siguiente:

Y1-1 0 1

-1 1/16 3/16 1/16Y2 0 3/16 0 3/16

1 1/16 3/16 1/16

Calcular su coeficiente de correlación e indicar si son independientes.

2.24 La función de densidad conjunta de X e Y viene dada por

f(x, y) = xy, 0 < x < 1, 0 < y < 2

(a) Obtener las funciones de densidad marginales y decir si X e Y son independientes.(b) Calcular P(X + Y < 1).

2.25 La función de distribución conjunta de dos variables aleatorias X e Y es

F (x, y) = (1− e−ax)(1− e−by), x ≥ 0, y ≥ 0, a > 0, b > 0siendo a y b dos constantes conocidas. Calcula las funciones de distribución marginales de X eY.¿Son variables aleatorias independientes? Calcula P (X < 1, Y ≥ 2), P (X < 1) y P (Y ≥ 2).

2.26 Un ordenador tarda un total de T2 segundos en procesar un mensaje de correo electrónico, estacantidad incluye el tiempo T1 durante el cual el mensaje está en la cola esperando a ser procesado(T2 ≥ T1). La función de densidad conjunta de las variables aleatorias T1, T2 es

fT1T2(t1, t2) = e−t2 , 0 ≤ t1 ≤ t2 <∞

Calcular la probabilidad de que un mensaje haya estado menos de un segundo en la cola si el tiempototal que ha durado su procesamiento ha sido mayor que dos segundos.

2.27 Sea X un valor elegido al azar de la distribución uniforme en el intervalo [0,1]. A continuaciónse toma al azar otro valor Y de la distribución uniforme [X, 1]. Calcular la función de densidadmarginal de Y.

2.28 Una oficina de correos tiene dos ventanillas de atención al público. Tres personas A,B y C llegan enel mismo instante a la oficina de correos y encuentran las dos ventanillas desocupadas. Los tiemposde servicio requeridos por las tres personas son variables aleatorias independientes con distribuciónexponencial de parámetro λ. Los tiempos de servicio de A y B comienzan de inmediato, mientrasque C debe esperar a que termine el primero de los dos. ¿Cuál es la probabilidad de que C no seael último en salir de la oficina de correos?

2.29 Sean X,Y,U y V variables aleatorias, demostrar que si Y = U + V, entonces

Cov(X,Y ) = Cov(X,U) + Cov(X,V ).

2.30 Un laboratorio de análisis realiza pruebas de sangre para detectar la presencia de un tipo de virus.Se sabe que una de cada 100 personas es portadora del virus. Se va a realizar un estudio en uncolegio, para abaratar las pruebas se realiza un análisis combinado que consiste en: En lugar deanalizar la sangre de cada individuo, se toman las muestras de 50 y se analiza la mezcla. Si elresultado del análisis es negativo, se concluye que los 50 individuos están sanos. Si el análisis espositivo, se repite a cada persona de manera individual. El análisis es infalible.

4

Page 8: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

(a) Determinar el número esperado de pruebas (análisis) que se tendrá que realizar si se sigueeste tipo de estrategia.

(b) ¿Cuál es la probabilidad de que un individuo determinado sea portador del virus, si elresultado del análisis realizado a su grupo de 50 ha resultado positivo?

2.31 De un lote con una proporción de piezas defectuosas p, se extraen piexas con reposición hasta quese observa la k−ésima defectuosa. Obtener la distribución de probabilidad de la variable aleatoriaX número total de piezas observadas.

2.32 La función de densidad de una variable aleatoria X viene dada por la expresión

f(x) =

½x/8, si 0 ≤ x ≤ 40, en el resto

Se generan secuencialmente valores de esta variable. ¿Cuántos valores de X habrá que generarpor término medio hasta obtener un valor mayor que 3?

2.33 Una pareja decide tener hijos hasta el nacimiento de la primera niña. Calcular la probabilidad deque tengan más de 4 hijos. (Supóngase P (nino) = P (nina) = 0.5)

2.34 Si las llamadas telefónicas a una centralita siguen una distribución de Poisson de parámetro λ = 3llamadas/cinco minutos, calcular la probabilidad de:

(a) Seis llamadas en cinco minutos.(b) Tres llamadas en diez minutos.(c) Más de 15 en un cuarto de hora.(d) Dos en un minuto.

2.35 La variable aleatoria X tiene distribución exponencial con media 1. Obtener la función de distribu-ción y la función de densidad de

W = aX1/b, a > 0, b > 0

2.36 El número de averías diarias de una máquina sigue una distribución de Poisson de media 0.4 averías.Calcular la probabilidad de que haya tres días sucesivos sin averías.

2.37 A un puesto de servicio llegan de manera independiente, por término medio, 10 clientes/hora.Calcular la probabilidad de que lleguen 8 clientes en la próxima media hora sabiendo que en laúltima hora llegaron 14 clientes, y que la variable aleatoria número de clientes que llegan en unhora siguen una distribución de Poisson.

2.38 En una planta industrial dos bombas B1 y B2 en paralelo conducen agua desde un pozo a unadepuradora D, y posteriormente otras dos bombas B3 y B4, también en paralelo, la trasladan a undepósito como indica la figura.

Los tiempos de vida de la depuradora y de las bombas son variables aleatorias independientes condistribución exponencial, siendo 20 mil horas la vida media de la depuradora y 30 mil horasla de cada bomba.

5

Page 9: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

Pozo

B2

D

B1 B3

B4

Depósito

- ¡¡µ

-@@R

@@R

¡¡µ

-

-

(a) Calcular la probabilidad de que llegue agua al depósito después de 20 mil horas de fun-cionamiento.

(b) Calcular la probabilidad de que una depuradora que ha trabajado T horas falle antes de las milhoras siguientes. ¿Es razonable que para evitar fallos de la depuradora se renueve ésta cada 20 milhoras? ¿Por qué?

2.39 La distancia D entre dos vehículos consecutivos es una autopista sigue una distribución exponencialcon media 200 metros. ¿Cuál es la probabilidad de que en un tramo de 1 km haya exactamente 5vehículos?

2.40 La función de densidad del tiempo T de funcionamiento de un componente hasta que falla es

f(t) = kβtβ−1 exp(−ktβ), t > 0, k > 0,β > 0.

Cuando un componente falla se puede reparar y queda igual que otro que no hubiera fallado nuncay tuviera la misma edad. Además, el tiempo necesario para reparar el componente se consideradespreciable. Si un componente tiene su primer fallo en el instante t1, calcular la probabilidad deque el segundo fallo se produzca después de t2 con t2 > t1.

2.41 Ricardo es un pescador experto que ha comprobado, después de una larga experiencia practicandosu deporte favorito, que el número de peces capturados por la mañana puede ser representado poruna variable aleatoria de Poisson de media 3 peces a la hora. Quiere ir a pescar el sábado próximo,si empieza a las 7 de la mañana, ¿cuál es la probabilidad de que capture el primer pez antes de las7 h. 15 min.? ¿Cuál es la probabilidad de que capture 5 peces durante dos horas de pesca?

2.42 La variable aleatoria T representa la duración de vida de un componente electrónico. En teoría dela fiabilidad la probabilidad de que un componente falle en el instante t sabiendo que ha duradohasta t se denomina tasa de fallo y se representa por λ(t), siendo su valor en función de t

λ(t) =f(t)

1− F (t) ,

donde f y F son, respectivamente, las funciones de densidad y de distribución de la variablealeatoria T . Obtener la tasa de fallo en caso que T sea una variable aleatoria exponencial demedia 1000 horas e interpolar el resultado.

2.43 Un examen consiste en 25 cuestiones. En cada cuestión, el alumno debe elegir entre 5 solucionespropuestas, de las que una (y sólo una) es cierta. El número mínimo de respuestas correctas quedebe tener un alumno para aprobar es a. El profesor decide fijar a con el siguiente criterio: quela probabilidad de aprobar para un alumno que conteste todas las cuestiones al azar sea menor de0.05. Obtener a. (Una cuestión es respondida al azar si cada uno de los cinco resultados propuestostiene la misma probabilidad de ser escogido).

6

Page 10: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

2.44 Obtener la función de densidad de una variable aleatoria χ2 con un grado de libertad. (Si X ;

N(0, 1), Y = X2 es una χ21.)

2.45 Dada una variable aleatoria X, cuya distribución es N(0,σ2), calcular la mediana de la variableY = |X|.

2.46 La longitud L en milímetros de las piezas fabricadas en un proceso es una variable aleatoria quese distribuye según una N(32, 0.3), considerándose aceptables aquellas cuya medida se encuentradentro del intervalo (31.1, 32.6).

(a) Calcular la probabilidad de que una pieza elegida al azar sea aceptable.(b) Si se toma al azar una muestra de tres piezas, ¿cuál es la probabilidad de que la primera

y la tercera sean aceptables y la segunda no lo sea?(c) ¿Cuál es la probabilidad de que en una muestra de tamaño 3 al menos una sea aceptable?(d) Las piezas se embalan en lotes de 500. Calcular la probabilidad de que un lote tenga más

de 15 defectuosas.

2.47 En cierta fabricación mecánica el 96% de las piezas resultan con longitudes admisibles (dentrode tolerancias), un 3% son piezas defectuosas cortas y un 1% son defectuosas largas. Calcular laprobabilidad de:

(a) En un lote de 250 piezas sean admisibles 242 o más.(b) En un lote de 500 sean cortas 10 o menos.(c) En 1000 piezas haya entre 6 y 12 largas. Todas las aproximaciones se calculan la distribu-

ción normal.

2.48 Una máquina rellena sobres de azucar para café. La cantidad de azucar en cada sobre se distribuyecomo una normal de media 8 gramos y desviación típica 0.5 gramos. Los sobres llenos se colocanen cajas de cartón. Cada caja tiene 100 sobres de azucar. El peso conjunto de la caja y los 100sobres vacíos es 30 gramos. Al final del proceso de empaquetado se pesa cada caja llena, si el pesoes menor de 820 gramos se retiran y no se comercializan. ¿Cuál es el porcentaje de cajas llenasque pesan menos de 820 gramos? ¿Cuál es la probabilidad de que una caja con 99 sobres llenos deazucar supere el control? (Se supone despreciable el peso de un sobre vacío)

2.49 En un juego de apuestas una persona paga un euro, elige un número del 1 al 6 y lanza tres dados.La banca le paga tantos euros como número de veces haya salido el número elegido. Sea X los eurosganados o perdidos por el jugador en una jugada, calcula E[X]. ¿A quién beneficia este juego, a labanca o al jugador?

2.50 Una empresa y su proveedor han llegado a un acuerdo en cuanto al plan de muestreo en la compra-venta de lotes de 100.000 unidades. Para comprobar la calidad se tomará una muestra de 400unidades, aceptando el lote cuando haya como máximo c unidades defectuosas. Calcula c para quela probabilidad de aceptar un lote con el 6% de piezas defectuosas sea 0.05.

7

Page 11: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

Capítulo 3. Inferencia

3.1 La variable aleatoria X tiene distribución binomial con parámetros n y p, ambos desconocidos. Si{16,18,22,25,27} es una muestra aleatoria simple de la distribución anterior, estimar por el métodode los momentos n y p.

3.2 Los taxis en servicio de una ciudad están numerados del 1 al N. Se observa una muestra de 10 taxisy se apuntan sus números. Obtener un estimador de N por el método de los momentos.

3.3 Sea X1,X2, . . . ,Xn una muestra aleatoria simple de una variable aleatoria X con función de densi-dad,

fX(x) = 5x4/θ5, 0 ≤ x ≤ θ.

Obtén el estimador por el método de los momentos de θ y determina su sesgo y su varianza.

3.4 Una variable aleatoria discreta puede tomar los valores 0, 1 y 2 con probabilidades 1.5/θ, 2.5/θ y(θ − 4)/θ respectivamente. Se toma una muestra de tamaño 25 con los resultados siguientes (lasegunda fila corresponde a la fracción observada Oi para 0, 1 y 2).

x 0 1 2Oi 17 5 3

Estimar θ por máxima verosimilitud.

3.5 Se ha tomado una muestra de tamaño 10 del tiempo, en minutos, entre el paso de dos autobuses Ten una parada con los siguientes resultados: 9,10,6,4,15,6,1,5,4,10.

Si la función de distribución del tiempo de paso es F (t) = 1− exp(−αt), calcular la probabilidadestimada de esperar al autobús más de 10 minutos.

3.6 La función de distribución de una variable aleatoria es

F (x) =

0 x < 0,(x/β)α 0 ≤ x ≤ β,1 x > β.

donde los parámetros α y β son positivos. Estimar los parámetros de la distribución por el métodode máxima verosimilitud.

3.7 El club de tiro de una determinada ciudad está estudiando la distancia X del punto de impacto delproyectil al centro de la diana de sus 13 mejores tiradores.

Sabiendo que la función de densidad de la variable aleatoria presentada es

f(x) =2x

θ2exp[−x

2

θ2], x ≥ 0, θ ≥ 0,

estimar θ si la distancia en cm al blanco de 10 tiradores fue

2,1 3,2 6,3 5,4 2,2 6,9 7,1 6,6 2,5 9,1

1

Page 12: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

y la distancia de los otros tres fue mayor que la distancia máxima permitida en su categoría quees de 11cm.

3.8 Una compañía, para determinar el número de consumidores de un determinado producto en Madrid,ha encuestado a personas elegidas al azar hasta encontrar a 20 que utilicen el producto. Estimar pormáxima verosimilitud la proporción de consumidores en la ciudad si el número total de entrevistadosha sido 115.

3.9 El tiempo de duración de ciertos componentes electrónicos es una variable aleatoria con distribuciónexponencial. Se ha realizado un ensayo con 10 componentes cuyos tiempos de duración han sido:37,45,92,104,109,200,295. Despues de 400 horas, tres componentes seguían funcionando. Con estainformación, estimar por máxima verosimilitud el parámetro de la distribución exponencial.

3.10 Sea X1,X2, ...,Xn una muestra aleatoria simple de la función de densidad

f(x) = 2(θ − x)/θ2, 0 ≤ x ≤ θ.

Obtener por el método de los momentos un estimador insesgado de θ y calcular su varianza.

3.11 Sea X la media aritmética de una muestra aleatoria simple de una distribución N(µ,σ). Se defineX = cX como nuevo estimador para µ. Determinar c (en función de µ y σ) para que el nuevoestimador tenga Error Cuadrático Medio (ECM) mínimo. Calcular c si se sabe que el coeficientede variación σ/µ = 2.

3.12 X1,X2, ...,Xn es una muestra aleatoria simple de una distribución normal con parámetros descono-cidos. Para estimar la varianza se propone el siguiente estimador

S2 = kn−1Xi=1

nXj=i+1

(Xi −Xj)2.

Determinar k para que el estimador sea centrado.

3.13 Para estimar la media σ2 de una población normal se utiliza el estimador bσ2 = kbs2, siendo bs2la varianza muestral corregida y k una constante. Calcular el valor de k que minimiza el errorcuadrático medio. (Utilizar Var[χ2g] = 2g, siendo g el número de grados de libertad).

3.14 Los tiempos de funcionamiento de dos componentes electrónicos distintos siguen distribucionesexponenciales con esperanzas µ y 2µ. Se han obtenido los tiempos de fallo de una muestra de cadatipo de componente, en ambos casos de tamaño n. Obtener el estimador de máxima verosimilitudde µ, calcular su media y su varianza.

3.15 Un sistema de lectura telemática de consumo de energía eléctrica emplea un mensaje de 128-bit. Ocasionalmente las interferencias aleatorias provocan que un bit se invierta produciéndose unerror de transmisión. Se acepta que la probabilidad de que cada bit cambie en una transmisiónes constante e igual a p, y que los cambios son independientes. Estima el valor de p si se hacomprobado que de las últimas 10000 lecturas efectuadas (todas de 128-bit) 340 eran erróneas.

3.16 Se han tomado 12 valores de una variable física X, que se supone normal, resultando

30.2, 30.8, 29.3, 29, 30.9, 30.8, 29.7, 28.9, 30.5, 31.2, 31.3, 28.5.

(a) Construir un intervalo de confianza para la media de la población al 95% de confianza.

2

Page 13: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

(b) Construir un intervalo de confianza para la varianza de la población con el mismo nivelde confianza del apartado anterior.

3.17 En la lista adjunta se indica la edad y el área científica en que trece importantes científicos dediversas áreas descubrieron la teoría que les ha dado la fama. Construir con estos datos un intervalode confianza para la edad a la que los científicos realizan su contribución más importante: Galileo(34, astronomía), Franklin (40, electricidad), Lavoisier (31, química), Lyell (33, geología), Darwin(49, biología), Maxwell (33, ecuaciones de la luz), Curie (34, radiactividad), Plank (43, teoríacuántica), Marx (30, socialismo científico), Freud (31, psicoanálisis), Bohr (26, modelo del átomo),Einstein (26, relatividad), Keynes (36, macroeconomía).

3.18 Una muestra de 12 estaciones de servicio de una cadena de gasolineras proporciona un ingreso mediopor persona al mes de 2340 euros con una desviación típica de 815 euros. Calcular un intervalo deconfianza para el ingreso medio por trabajador en esta empresa. Calcular el número de estacionesque debemos estudiar para que el intervalo tenga una amplitud máxima de 500 euros.

3.19 Se han escogido al azar 15 probetas de un determinado acero, cuya resistencia a la compresión sesupone que se distribuye normalmente, y se ha medido ésta en las unidades adecuadas, habiéndoseobservado los resultados siguientes

40.15, 65.10, 49.5, 22.4, 38.2, 60.4, 43.4, 26.35, 31.2, 55.6, 47.25, 73.2, 35.9, 45.25, 52.4.

(a) Estimar la resistencia media del acero y su varianza.(b) Hallar un intervalo de confianza del 99% para la resistencia media.(c) Hallar un intervalo de confianza del 99% para la varianza.(d) ¿Cuántas probetas deberían haberse utilizado en el estudio si se quisiera estimar la re-

sistencia media del acero con una precisión de ±6 unidades y una confianza del 95%?.

3.20 Una compañía de comida precocinada desea lanzar al mercado un nuevo producto. Para conocer laaceptación del mismo realiza previamente una encuesta entre 200 personas elegidas al azar, de lasque 37 manifiestan su disposición a comprarlo. Obtener un intervalo de confianza (α = 0.05) parala proporción p de compradores potenciales de este nuevo producto. ¿Cúal debería ser el tamañomuestral si se quisiera reducir la longitud del intervalo a la mitad.

3.21 Se desea estimar la proporción de niños entre 0 y 14 años que se encuentran adecuadamentevacunados contra la poliomielitis. Si se quiere que la diferencia en valor absoluto entre la estimaciónfinal y el verdadero valor de la proporción sea menor que 0.05 con probabilidad 0.95, ¿ Cúal es eltamaño muestral mínimo requerido?.

3.22 Una roca lunar es enviada a un laboratorio para determinar su nivel de radiactividad θ, nivel que semide por el número medio de partículas emitidas por hora. Después de 15 horas, el equipo Geigerha contabilizado un total de 3.547 partículas emitidas. Aceptando que el número de partículasemitidas sigue una distribución de Poisson, dar un intervalo con 95% de confianza para el nivelde radiactividad de la roca. (Nota.- Utilizar que si Z tiene distribución N(0,1), entonces P (Z ≤1.96) = 0.975).

3.23 Teniendo en cuenta que si X1,X2, . . . ,Xn es una muestra aleatoria simple de una variable aleatoriaexponencial con función de densidad, f(x) = 1

λe−x/λ, x ≥ 0, λ > 0; el estadístico U = 2nX/λ

tiene distribución χ22n, donde X = (X1 +X2 + · · ·+Xn)/n; resolver la cuestión siguiente:

3

Page 14: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

El tiempo de funcionamiento de un equipo electrónico es una variable aleatoria con distribución expo-nencial. Se han tomado los tiempos de funcionamiento hasta el fallo de 30 equipos elegidos al azar,obteniéndose 6.2 × 103 horas de media. Calcular un intervalo con 95 % de confianza para la vidamedia de un equipo.

3.24 La velocidad de una molécula según el modelo de Maxwell, es una variable aleatoria con funciónde densidad

f(x) =

4√π× 1

α3x2 exp−(x/α)2, x ≥ 0

0, x ≤ 0.donde α > 0, es el parámetro de la distribución y se verifica que

E(X) =2α√πy V ar(X) =

3

2− 4

πα2.

(a) Calcular el estimador máximo verosímil de α y su varianza asintótica.(b) Calcular el estimador por momentos de α y la varianza de dicho estimador.

(c) Para una muestra de tamaño n=100, para la que se verifica que100Pi=1xi = 342 y que

100Pi=1x2i =

1339, hallar un intervalo de confianza de α con el 95% de confianza utilizando ambosestimadores.

3.25 Los núcleos (radionucleidos) del elemento radiactivo Carbono 14 (C14) se desintegran aleatori-amente. El tiempo que tarda en desintegrarse cada radionucleido es una variable aleatoria condistribución exponencial de media 8, 27× 103 años.

(a) Si inicialmente había 1012 radionucleidos, obtener el número esperado de los radionucleidossin desintegrar al cabo de los 20.000 años.

(b) Obtener, para la variable aleatoria número de radionucleidos sin desintegrar al cabo de20.000 años, un intervalo que contenga al valor de esa variable con probabilidad 0, 95 einterpretar el resultado.

(c) Una pieza arqueológica ha estado enterrada durante 20.000 años al cabo de los cualesse han observado 1010 radionucleidos de C14. Estimar por el método de los momentosel número inicial de radionucleidos N y calcular la media y la varianza del estimadorobtenido.

(d) Determinar el tiempo que debe transcurrir para que el número de radionucleidos inicialesse reduzca a la mitad.

3.26 Un proceso industrial fabrica piezas cuya longitud en mm se distribuye según una N(190, 10). Unamuestra de 5 piezas proporciona los resultados siguientes:

187, 212, 195, 208, 192

(a) Contrastar la hipótesis de que la media del proceso µ es efectivamente 190.(b) Contrastar la hipótesis de que la varianza del proceso σ2 es 100. Tómese α = 0.05 en

todos los contrastes.

4

Page 15: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

3.27 Para contrastar unilateralmente que la esperanza µ de una variable aleatoria normal es 10, se tomauna muestra de tamaño 16 y se rechaza la hipótesis en el caso en que la media muestral sea mayorque 11, aceptándose en el caso contrario. Sabiendo que la desviación típica de la población es σ = 2,¿cúal es la probabilidad de error de tipo I de este contraste?. ¿Cúal sería la probabilidad de errorde tipo II del contraste si el valor verdadero de la esperanza fuese 12?.

3.28 Una medicina estándar es efectiva en el 75% de los casos en los que se aplica. Se ha comprobadoun nuevo medicamento en 100 pacientes, observándose su efectividad en 85 de ellos. ¿ Es la nuevamedicina más efectiva que la estándar ? (Contrastar con α = 0.05).

3.29 Un empresario quiere comprar una empresa que fabrica cojinetes. Durante los 5 últimos años laproporción de cojinetes defectuosos se ha mantenido en un 3%. Para verificar esto, se toma unamuestra de 200 cojinetes y obtiene que 9 son defectuosos. ¿Se puede concluir que la proporción decojinetes defectuosos ha aumentado? Calcular la potencia del contraste planteado anteriormente enfunción de p. Calcular la probabilidad de error de tipo II cuando la hipótesis alternativa es p = 0.06,siendo p la proporción de defectuosos.(Nota: Utilícese la aproximación normal y α = 0, 05.).

3.30 Teniendo en cuenta que si X1,X2, . . . ,Xn es una muestra aleatoria simple de una variable aleatoriaexponencial con función de densidad, f(x) = 1

λe−x/λ, x ≥ 0, λ > 0; el estadístico U = 2nX/λ

tiene distribución χ22n, donde X = (X1 +X2 + · · ·+Xn)/n; resolver las cuestiones siguientes:

(a) El tiempo de funcionamiento de un equipo electrónico es una variable aleatoria con dis-tribución exponencial. Se han tomado los tiempos de funcionamiento hasta el fallo de30 equipos elegidos al azar, obteniéndose 6.2× 103 horas de media. Contrastar con nivelde significación igual a 0.05, H0 : λ = 5 × 103 horas, frente a H1 : λ > 5 × 103 horas;indicando: (a) el valor crítico, y (b) la probabilidad de error tipo II cuando λ = 7.5× 103horas. (Es suficiente con proporcionar el valor más proximo obtenido en las tablas dellibro de texto).

(b) Se va a realizar un ensayo con 15 equipos fabricados por una segunda empresa. Si eltiempo de funcionamiento de estos tiene también distribución exponencial. ¿ Cuál es elvalor máximo de la media muestral de estos quince equipos que permitiría concluir conα = 0.05 que son peores que los de la primera empresa? Después de 6000 horas de ensayohan fallado 6 equipos, siendo el promedio de estos seis valores igual a 2350 horas. ¿Esnecesario seguir el ensayo para tomar una decisión ?

3.31 Cibeles Computer S.A. ha realizado un gran pedido de chips para su nueva linea de ordenadorespersonales. En el contrato de suministro se especifica que al menos el 95% de los chips debenser aceptables. Como es imposible comprobarlo al 100%, el control se va a realizar mediante elsiguiente procedimiento: de cada lote (que se supone de gran tamaño) se toman al azar n chips, sila proporción de chips en la muestra que supera el control es mayor que c se acepta el lote y en casocontrario se rechaza. Llamando p a la proporción real de chips aceptables en un lote, determinar ny c si se desea que

P(Aceptar un lote)=0.01 si p=0.85

P(Aceptar un lote)=0.99 si p=0.95.

(Utilizar la aproximación normal y considerar que si Z es una variable aleatoria normal estándar,P (Z ≤ 2.33) = 0.99).

5

Page 16: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

3.32 La estatura de 60 niños de una escuela infantil se resume en la siguiente tabla de frecuencias, dóndela última columna muestra la frecuencia esperada bajo la hipótesis de normalidad.

Frecuencia FrecuenciaIntervalo Observada Esperada41,5-43,5 4 4,0843,5-45,5 7 5,5845,5-47,5 12 9,0647,5-49,5 8 11,2749,5-51,5 6 11,2751,5-53,5 11 9,0853,5-55,5 9 5,5855,5-57,5 3 4,08Total 60 60¿Se puede aceptar la hipótesis de normalidad de los datos (α = 0.05) ?

3.33 Se tira 120 veces un dado y se obtienen los resultados de la tabla

VALOR 1 2 3 4 5 6FRECUENCIA 20 14 23 12 26 25

Contrastar la hipótesis de que el dado está equilibrado y que, por tanto, sus caras son equiproba-bles. (Tómese α = 0.05).

3.34 Un modelo sísmico indica que la distribución de los epicentros de sismos en una región debería seguiruna distribución de Poisson en el plano. Un grupo de expertos pretende contrastar si ese modelose cumple, para ello ha representado un mapa de la región dividido en cuadrículas de tamaño 100km2, y ha señalado con puntos las posiciones de los epicentros (véase figura adjunta). Realizar elcontraste χ2 de bondad de ajuste con nivel de significación α = 0, 05 proporcionando el nivel críticoaproximado del contraste.

6

Page 17: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

3.35 El Ministerio de defensa está considerando un nuevo sistema de apoyo para el lanzamineto demisiles de corto alcance. El sistema existente tiene errores en el 7% de los lanzamientos y se deseacomprobar si el nuevo sistema tiene una probabilidad de fallo menor. El ensayo va a consistiren realizar 20 lanzamientos y se concluirá que el nuevo sistema es mejor si no se produce ningúnfallo. Llamando p a la probabilidad de fallo del sistema nuevo y aceptando independencia entre losresultados del lanzamiento, obtenga y represente gráficamente la probabilidad de error de tipo IIdel contraste ½

H0 : p = 0.07H1 : p < 0.07

Obtenga la probabilidad de error tipo I. Interprete el resultado y valore si el método de decisiónes adecuado.

3.36 El tiempo de duración T de un componente electrodinámico es una variable aleatoria con distribu-ción exponencial de media µ. Veinte componentes han sido sometidos a un ensayo y el número dehoras que han durado ha sido:

10.99 15.79 24.14 34.43 43.72 51.72 56.12 60.27 77.20 88.4791.07 117.58 130.40 133.12 152.90 159.00 193.62 208.71 308.82 316.07

Teniendo en cuenta que 2T/µ tiene distribución χ2 con dos grados de libertad, realiza el siguientecontraste

H0 : µ = 200 horas,

H1 : µ < 200 horas,

con α = 0.05.

3.37 Para controlar la calidad de un proceso textil se cuenta el número de defectos que aparecen en latela fabricada. Según el fabricante, cuando el proceso funciona correctamente el número de defectosen una bobina de 100 metros cuadrados es una variable aleatoria de Poisson con media 4. Se hainstalado un equipo de visión artificial para realizar el recuento que permite inspeccionar 900 m2

de tela cada hora. ¿Cuál es la probabilidad de que aparezcan más de 50 defectos en una horasi el proceso funciona bien? En una jornada de 16 horas de fabricación se han contabilizado 720defectos, ¿se puede afirmar que ha habido un aumento del número medio de defectos en ese día?(Nivel de significación 0.05).

7

Page 18: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

Capítulo 4. Análisis de la varianza

4.1 Se estudian los Km recorridos antes del desgaste de dos tipos de neumáticos con los resultadossiguientes:

Tipo ni xi(Km) bsi(Km)A 121 27465 2500B 121 27572 3000

(a) Calcular, con α = 0.05,un intervalo de confianza paraσ21σ22.

(b) Un intervalo de confianza para µ1 − µ2.

4.2 Se dispone de rendimientos de dos máquinas. Los resultados de la máquina A son 137.5; 140.7;106.9; 175.1; 177.3; 120.4; 77.9 y 104.2, mientras que los reultados para la B son: 103.3; 121.7; 98.4;161.5; 167.8 y 67.3. ¿Son las máquinas iguales? (Suponer que los rendimientos de ambas máquinassiguen distribuciones normales).

4.3 Un fabricante de automóviles debe elegir entre un determinado tipo de piezas de acero suministradaspor un proveedor A y otras suministradas por otro proveedor B. Para proceder a la elección se haanalizado la resistencia a la tracción de las piezas suministradas por ambos proveedores, tomandouna muestra de tamaño 10 de las piezas del primero, y otra de tamaño 12 del segundo. La resistenciamedia de la muestra de A es de 54000 unidades y la de la muestra de B es de 49000 unidades, siendolas desviaciones típicas muestrales corregidas bsA = 2100 y bsB = 1900. Las resistencias de las piezasde ambos proveedores se distribuyen normalmente. Las piezas del proveedor B son más baratasque las del proveedor A, por lo que estas últimas sólo son rentables si tienen una resistencia mediaal menos 2000 unidades mayor que las de B, y la misma variabilidad.

(a) ¿A qué proveedor habría que comprar las piezas a la vista de los resultados muestrales?(b) Obtener un intervalo de confianza del 90\% para la diferencia de medias de la resistencia

de las piezas de los proveedores A y B.

4.4 En una fábrica de automóviles se utiliza una misma planta para el ensamblaje de tres modelosdistintos (A,B y C). Para determinar si los modelos reciben el mismo tratamiento, se ha realizadoun control de calidad a una muestra tomada para cada modelo. El número de defectos encontradospara cinco vehículos del modelo A son 5, 4, 6, 6 y 7; para seis vehículos del modelo B son 7, 8, 6, 7, 6y 5;y para ocho vehículos del modelo C: 9, 7, 8, 9, 10, 11, 10 y 10. Contrastar si existen diferenciasen el tratamiento que se da a los distintos modelos.

4.5 Cinco tipos (A, B, C, D y E) de material sintético se han sometido a un ensayo de desgaste. Paracada tipo de material la prueba se repitio 6 veces. El desgaste medio y la desviación típica corregidaen cada caso es la siguiente:

A B C D Emedia xi 14.1 16.3 13.5 14.8 15.3d. típica si 1.3 1.2 1.4 1.2 1.5

1

Page 19: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

(a) Contrastar (α = 0.05) la hipótesisH0 : µA = µB = µC = µD = µEfrente a la hipótesis alternativa,H1 : Alguna media es distinta a las demás.Indicar con nivel de confianza 0.95 el material con desgaste menor y qué materiales tienendesgaste medio, distinto.

(b) Obtener un intervalo de confianza con α = 0.01 para la varianza del error experimental.

4.6 Se mide la temperatura de una mezcla con cuatro termómetros, obteniéndose los datos siguientes:

Termómetro1 63 63 62 65 662 64 64 63 64 653 58 59 59 684 61 61 62 60 63

(a) ¿Son los cuatro termómetros análogos?(b) Analizar si se verifican las hipótesis básicas del modelo ADEVA mediante los residuos.(c) Elimine el tercer termómetro y calcule la tabla ADEVA para comparar los otros tres

termómetros. ¿Qué conclusiones pueden extraerse?

4.7 Se desea comprobar el efecto de un tratamiento térmico sobre la resistencia de un nuevo material.Se han tomado 15 probetas y se han asignado al azar a los tres tratamientos T1, T2 y T3 obteniendocomo medida de resistencia superficial los valores siguientes:

T1 T2 T32.65 4.31 4.812.67 3.96 5.322.46 4.64 4.931.90 4.74 5.492.62 4.00 4.45

(a) Contrastar mediante el test de análisis de la varianza si existen diferencias significativasentre los tratamientos térmicos (α = 0.01).

(b) La temperatura del tratamiento 2 es la media de las temperaturas de los otros dostratamientos. Si la relación entre la resistencia y la temperatura es lineal, es de esperarque la media del tratamiento 2 verifique : H0 : µ2 =

12(µ1 + µ3). Hacer el contraste

bilateral de esta hipótesis con α = 0.05. (Nota.- Usar la distribución de y2 − (y1 + y3)/2,donde yi es la media de los datos correspondientes al tratamiento Ti).

4.8 En un modelo de análisis de la varianza se ha observado que la desviación típica (si) y la media(yi) de las observaciones de cada tratamiento están relacionadas linealmente, si = kyi, donde kes una constante. ¿ Cuál de las siguientes transformaciones es la más adecuada para corregir laheterocedasticidad ? z = log y, z = y2 o z = ky

2

Page 20: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

Capítulo 5. Diseño de experimentos

5.1 Un laboratorio de Análisis Clínicos ha adquirido un nuevo equipo (B) para medir el colesterol en lasangre de los enfermos. Para evaluar si el nuevo equipo está ajustado se decide analizar muestrasde 5 enfermos que previamente han sido analizadas con otro equipo (A), dando como resultado

Enfermo 1 2 3 4 5 MediaEquipo A 215 305 247 221 286 254.8Equipo B 224 312 251 232 295 262.8

Contrastar con α = 0.05 existen diferencias entre los dos equipos.

5.2 El análisis de la varianza de un diseño en bloques aleatorizados proporciona los siguientes resultados:V T = 232, V E(factor) = 156, V E(bloque) = 15 y V NE = 61. El número de niveles del factor es5 y el número de bloques 8. Construir la tabla ADEVA. ¿ Cuál sería el resultado del análisis si nose tiene en cuenta el efecto de los bloques ? Indicar en qué circunstancias es preferible cada uno delos modelos.

5.3 Para determinar el consumo de energía eléctrica para usos domésticos se ha medido el consumomedio por persona en las distintas estaciones del año en siete comunidades autónomas para 1989,habiéndose obtenido los siguientes resultados:

COMUNIDAD INVIERNO PRIMAVERA VERANO OTOÑO MEDIAS1 13.1 11.4 10.6 11.5 11.652 13.4 12.1 11.1 12.0 12.153 13.8 12.1 11.4 12.9 12.554 14.0 12.8 11.7 12.6 12.775 14.4 12.6 12.5 13.4 13.226 14.8 13.4 13.0 14.0 13.807 15.6 14.2 14.1 14.4 14.57

MEDIAS 14.16 12.66 12.06 12.97 12.96

(a) Analizar si el factor estación del año es influyente, sabiendo que s2y = 1.53.(No considerarel factor Comunidad).

(b) Razonar estadísticamente cuál es la estación de mayor consumo y la de menor, utilizandoel análisis anterior. Calcular los intervalos de confianza para el consumo medio de cadaestación del año.

(c) Sabiendo que la variabilidad explicada por el factor comunidad es 23.62, construir unanueva tabla de la varianza, con dos factores, y decidir qué factor es significativo.

(d) Utilizar los resultados del apartado anterior para realizar un contraste de igualdad demedias del efecto estación y comparar los resultados con los del apartado 2, justificandolas diferencias encontradas.( NOTA: Utilizar α = 0.05 en todos los contrastes )

5.4 Una instalación típica de almacenamiento de combustible en una Estación de Servicio (gasolinera)está formada por un tanque enterrado de gran capacidad, al que se encuentran conectados distintos

1

Page 21: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

surtidores. La cantidad total de gasolina suministrada en un día se puede determinar midiendodirectamente la variación que se ha producido en el tanque de almacenamiento (Y1j) o por la sumade los suministros de los distintos surtidores (Y2j). La comparación de ambas medidas permitedeterminar pérdidas en la instalación enterrada y otras anomalías. En el proceso de comparaciónes necesario tener en cuenta que las medidas están afectadas por errores aleatorios. Durante 20 díasse han tomado los valores anteriores en un gasolinera:

Día→ 1 2 3 4 5 6 7 8 9 10Y1j 4116,2 5627,0 2820,4 2521,8 2973,5 2834,9 2335,7 2590,8 2182,7 2621,4Y2j 4143,6 5632,0 2868,1 2477,7 2955,4 2851,9 2312,7 2630,6 2208,9 2635,9

Día→ 11 12 13 14 15 16 17 18 19 20Y1j 4323,6 1880,7 2131,4 3349,6 2545,0 2247,3 1817,5 1461,3 1646,5 1955,4Y2j 4305,4 1877,9 2159,2 3366,7 2566,1 2281,4 1854,6 1461,5 1607,3 1956,4

(a) Llamando Dj = Y1j − Y2j a la diferencia en las medidas de un mismo día, contrastar conα = 0.05

H0 : µD = 0H1 : µD 6= 0

dondeDj tiene distribución N(µD,σD). Calcular el nivel crítico del contraste aproximandola distribución t de Student por la normal.

(b) Los datos anteriores pueden ser analizados mediante un modelo de bloques aleatorizadostomando el tipo de medida (tanque, surtidores) como un factor y los días como bloques.Demostrar con caracter general que en el modelo de bloques aleatorizados si el factor tienedos niveles la varianza residual cumple:

bs2R = 1

2bs2D

donde bs2D es la estimación de σ2D del apartado 1.(c) Teniendo en cuenta lo anterior, demostrar que el contraste correspondiente al factor en el

modelo de bloques aleatorizados es equivalente al contraste del apartado 1.

5.5 Un investigador quiere estudiar el efecto de sexo (hombre, mujer) y tipo de formación (ciencias,letras) en el dominio del inglés escrito en profesores universitarios. Para ello analiza el número deincorrecciones gramaticales en artículos científicos enviados a publicación. Para cada combinaciónde niveles de los factores se han elegido al azar tres profesores. En la tabla se proporciona el númerode fallos detectados en artículos de 15 páginas

Letras CienciasHombre 8, 6, 13 22, 28, 33Mujer 5, 10, 6 12, 14, 9

Contrastar con nivel de significación 0.05 si los efectos principales y la interacción son significativos.Tener en cuenta que P (F1,8 ≤ 5.32) = 0.95, siendo F1,8 la distribución F con grados de libertad1 y 8. Interpretar los resultados.

2

Page 22: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

5.6 Un alumno, como trabajo de la asignatura de estadística, ha comparado tres marcas distintas (A,B,C)de palomitas de maíz precocinadas. Cada marca puede prepararse friendolas en una sartén (método1) o en el horno microondas (método 2). El alumno ha realizado un diseño factorial completo 3×2con cinco replicaciones en cada uno de los seis tratamientos. La variable respuesta medida es elporcentaje de granos de maíz que no se han inflado adecuadamente. Los resultados del experimentose muestran en la tabla, en cada tratamiento se proporciona la media y entre paréntesis la desviacióntípica corregida para las cinco replicaciones. Contrastar si la interacción entre los dos factores essignificativa.

A B C

Sartén5.5(1,4)

3.6(1,8)

7.5(2,5)

Horno3.8(1,3)

3.4(0,9)

4.3(1,3)

5.7 Una característica de la calidad de la gasolina es su índice de octanos. Una refinería de petróleotiene cinco fórmulas que pueden emplearse para la obtención de gasolina con plomo o sin plomo.

(a) Para determinar que fórmula proporciona mayor índice de octanos, con cada una de ellasse ha repetido 10 veces en el laboratorio el proceso de fabricación de gasolina con plomo.Si el coeficiente de determinación del análisis de la varianza de los resultados es igual a0.20, contrastar con α = 0.05 si existen diferencias entre las cinco fórmulas para este tipode gasolina.

(b) Los valores medios (yi•) para cada fórmula son:

Fórmula 1 2 3 4 5Media 89.2 90.1 90.7 90.5 89.5Contrastar con α = 0.05 que fórmulas proporcionan índices de octanos significativamentedistintos y cuales no.

(c) Debido a los problemas medio-ambientales gran parte de la producción futura debe estarlibre de plomo. Para determinar que fórmula de las anteriores produce mejores resultadosen cuanto al índice de octanos , se realizo un diseño experimental similar al anterior (cincofórmulas, 10 observaciones en cada fórmula) para la obtención de gasolina sin plomo. Elcoeficiente de determinación en este caso es igual a 0.25 y el índice medio para cada fór-mula es,

Fórmula 1 2 3 4 5Media 88.0 89.5 88.5 90.2 89.8Contrastar (α = 0.05) si existe interacción entre los factores tipo de gasolina (con y sinplomo) y fórmula.

5.8 Se ha realizado un experimento con dos factores cada uno de ellos con 3 niveles. El 20% de lavariabilidad total está explicada por la interacción de los dos factores y el 40% de la variabilidadtotal es debida a la variabilidad residual. Determinar el número de replicaciones necesarias en cadatratamiento para que la interacción sea significativa con α = 0.01. (Explicar el procedimiento decálculo, dejando el resultado indicado en función de las tablas).

3

Page 23: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

5.9 Se ha estudiado el efecto de tres hornos diferentes y dos temperaturas (290 oC y 320 oC) en laduración de cierto componente. Para cada combinación de horno y temperatura se ha replicadoel experimento 3 veces. En la tabla siguiente se proporcionan las medias y desviaciones típicas(corregidas) de los datos de cada tratamiento.

Temperatura oC290 oC 320 oC

Media Desv. T. Media Desv. T.Horno 1 24.56 0.850 18.00 0.265Horno 2 19.10 1.539 14.40 0.265Horno 3 18.70 0.458 17.43 0.862

Contrasta si existe interacción entre los factores horno y temperatura (α = 0.05).

5.10 Se desea determinar si cuatro laboratorios dan en promedio los mismos resultados en un análisisquímico. Cada laboratorio ha repetido el análisis cinco veces y los resultados son:

Laboratorios1 2 3 458.7 62.7 55.9 60.761.4 64.5 56.1 60.360.9 63.1 57.3 60.959.1 59.2 55.2 61.458.2 60.3 58.1 62.3

La tabla de análisis de la varianza y la comparación de las medias de los cuatros laboratorios semuestran a continuación:

Analisis de la Varianza-----------------------------------------------------------------------------Fuente Suma de Cuadrados Gl Cuadr. Medios F-Ratio P-Valor-----------------------------------------------------------------------------Laboratorios 85,9255 3 28,6418 13,33 0,0001Residual 34,38 16 2,14875-----------------------------------------------------------------------------Total (Corr.) 120,305 19

4

Page 24: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

--------------------------------------------------------------------------------Method: 99,0 percent LSDLaboratorio Count Mean Homogeneous Groups--------------------------------------------------------------------------------3 5 56,52 X 1 5 59,66 X4 5 61,12 X2 5 61,96 X--------------------------------------------------------------------------------Contrast Difference +/- Limits--------------------------------------------------------------------------------1 - 2 -2,3 2,70784 1 - 3 *3,14 2,70784 1 - 4 -1,46 2,70784 2 - 3 *5,44 2,70784 2 - 4 0,84 2,70784 3 - 4 *-4,6 2,70784 --------------------------------------------------------------------------------

Comparación de las medias de los cuatro laboratorios.

(a) Explica que conclusiones se pueden extraer de estos resultados: ¿Existen diferencias entrelos laboratorios? ¿Qué laboratorios presentan diferencias significativas? Da un intervalode confianza al 99% para la media del laboratorio 3.

(b) Según el modelo, la medida yij del laboratorio i en la muestra j tiene distribución normalde media µi y varianza σ2. Los cuatro laboratorios afirman que el error en sus medidasse corresponde con σ2 = 1. Aceptando la hipótesis de homocedasticidad contrastar H0 :σ2 = 1 frente a H1 : σ2 > 1.

(c) Para confirmar los resultados se vuelve a repetir el mismo proceso y otro día se vuelvea analizar por los cuatro laboratorios el producto químico proporcionando otras cincomedidas. Abajo se incluye la tabla de análisis de la varianza del estudio conjunto de las40 observaciones con un modelo de dos factores: Laboratorio (4 niveles) y Día (2 niveles),con 5 replicaciones en cada combinación de día y laboratorio.

Análisis de la varianza----------------------------------------------------------------------------- Suma de Grados CuadradosFuente Cuadrados Libertad Medios F P-Val----------------------------------------------------------------------------- A:Laboratorio 186,81 3 62,27 30,21 0,0 B:Día 0,07396 1 0,07396 0,04 0,8 AB 0,40334 3 0,134447 0,07 0,9

RESIDUAL 65,9686 32 2,06152-----------------------------------------------------------------------------TOTAL (CORREGIDA) 253,256 39

5

Page 25: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

-----------------------------------------------------------------Method: 99,0 percent LSDLaboratorio Count LS Mean Homogeneous Groups-----------------------------------------------------------------3 10 56,391 X 1 10 59,766 X 4 10 61,238 XX2 10 62,037 X-----------------------------------------------------------------Contrast Difference +/------------------------------------------------------------------1 - 2 *-2,271 1,71 - 3 *3,375 1,71 - 4 -1,472 1,72 - 3 *5,646 1,72 - 4 0,799 1,73 - 4 *-4,847 1,7-----------------------------------------------------------------

Interpreta los resultados del análisis conjunto y compáralos con los obtenidos en el primeranálisis.

(d) Contrasta si ha habido un cambio significativo en la varianza σ2 de un día y otro. (Ayuda.Comprueba que la varianza residual del modelo factorial es el promedio de las varianzasresiduales de cada día).

5.11 Se ha realizado un experimento para estudiar el efecto de la temperatura (T) y tiempode exposición (E) sobre la cantidad absorbida de un compuesto químico por un materialsumergido en él. En el estudio se han empleado tres temperaturas (T1, T2, T3) y tres tiemposde exposición (E1, E2, E3): cada tratamiento se ha replicado tres veces. La cantidad absorbida(mg) del compuesto químico en cada uno de los 27 experimentos se muestra en la tabla 1 ylas medias en la tabla 2:

Tabla 1: Cantidad Absorbida (mg)

Tiempo de TemperaturaExposición T1 T2 T3

35.5 91.2 70.1E1 29.7 100.7 64.1

31.5 82.4 70.1

52.5 71.0 79.4E2 53.3 77.0 77.7

55.0 75.6 75.1

85.9 87.0 83.0E3 85.2 86.1 87.0

80.2 88.1 78.5

Tabla 2: Medias de Cantidad Absorbida (mg)

Tiempo de TemperaturaExposición T1 T2 T3 Medias

E1 32.23 91.43 68.10 63.92E2 53.60 74.53 77.40 68.51E3 83.76 87.06 82.83 84.56

Medias 56.53 84.34 76.11 72.33

6

Page 26: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

La tabla 3 corresponde al análisis de la varianza del experimento y las figuras muestran los gráficosde los intervalos de confianza para las medias de las tres temperaturas, los tres tiempos deexposición y los nueve tratamientos por separado.

Tabla 3: Tabla de análisis de la varianzaFuente Suma de Grados deVariabilidad Cuadrados Libertad Varianzas F p-valorTemperatura 3673.61 2 1836.80 110.58 0.0000T. Exposición 2112.65 2 1056.32 63.59 0.0000Interacción 2704.44 4 676.11 40.70 0.0000Residual 299.00 18 16.61Total 8789.7 26

Intervalos de confianza (95%)

Tiempo

Abs

orci

on

1 2 361

66

71

76

81

86

91

Intervalos de confianza (95%)

Temperatura

Abs

orci

on

1 2 354

64

74

84

94

Int. de conf. para las medias de los 9 tratamientos (95%)

Abs

orci

on

T1 T2 T3 T1 T2 T3 T1 T2 T325

45

65

85

105

E1 E2 E3

7

Page 27: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

(a) Interpreta los resultados del análisis de la varianza.(b) Demuestra que si se hubiera utilizado el modelo de un único factor para comparar los

nueve tratamientos, la variabilidad explicada de este modelo (VE’) se puede poner comosuma de las variabilidades explicadas del modelo factorial de la tabla 3:

V E0 = V E(Temperatura) + V E(Tiempo) + V E(Interaccion)

Obtén la tabla del análisis de la varianza del nuevo modelo.(c) Realiza las comparaciones dos a dos de los nueve tratamientos y elige aquél o aquellos que

proporcionan una absorción mayor (95%).(d) Comprueba gráficamente la hipótesis de homocedasticidad e interpreta los resultados.

5.12 Se ha realizado un diseño experimental para determinar la influencia de dos factores combinaciónde hidrocarburos y cantidad de hidrógeno en el rendimiento de un proceso químico complejo. Seestudiaron cuatro combinaciones de hidrocarburos (A,B, C y D) y tres niveles en el contenido dehidrógeno (1,2 y 3). En cada tratamiento se realizaron cuatro réplicas. En la tabla 1 se presentanlos resultados: mejora en tanto por mil respecto a procedimiento estándar. Los números entreparéntesis de la tabla se corresponden con las medias de cada tratamiento, de los cuatro niveles delfactor hidrocarburos y de los tres niveles de hidrógeno. En la tabla 2 se muestra la tabla de análisisde la varianza del experimento.

Tabla 1. Datos y medias entre paréntesisA B C D Medias Etapa

10.3 10.5 7.2 13.0 111.1 8.2 5.3 12.9 1

1 15.3 9.7 12.5 5.3 22.1 8.9 19.1 12.0 2

Medias (9.7) (9.325) (11.025) (10.8) (10.213)

25.8 20.6 29.7 17.6 125.7 17.1 26.3 12.0 1

2 28.9 21.4 22.4 24.6 227.8 17.3 25.9 23.1 2

Medias (27.05) (19.1) (26.075) (19.325) (22.888)

28.5 21.0 30.4 20.5 131.2 26.8 26.6 26.2 1

3 24.8 19.4 34.4 27.8 226.5 22.2 27.5 21.9 2

Medias (27.75) (22.35) (29.975) (24.1) (25.981)

Medias (21.5) (16.925) (22.275) (18.075)

8

Page 28: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

Tabla 2. ANOVA -Suma Grados

Fuentes Cuadrados Libertad Var. F p-valorHidrocarburos 242.5 3 80.85 5.55 .0031Hidrógeno 2234 2 1117 76.7 .0000Interacción 119.3 6 19.88 1.36 .2546Residual 523.7 36 14.55Total 3120 47

(a) Comparar las medias de los cuatro niveles del factor Hidrocarburo y las de los tres niveles del factorHidrógeno. Indica si existen diferencias significativas con nivel de significación 0.05.

(b) Elige el tratamiento que proporciona el rendimiento óptimo, justificando la respuesta. Da un inter-valo de confianza para el valor medio en dichas condiciones con nivel de confianza del 95%.

(c) El experimento se realizó en dos etapas, en una primera etapa se recogieron las 24 observacionesque se indican en la tabla 1 como etapa 1 y las otras 24 como etapa 2. Los resultados del análisisde la varianza correspondientes a cada etapa se muestran en las tablas 3 y 4.

Tabla 3. ANOVA - Etapa 1Suma Grados

Fuentes Cuadrados Libert. Var. F p-valorHidrocarburos 115.9 3 38.63 6.07 .0093Hidrógeno 1175.0 2 587.7 92.4 .0000Interacción 218.4 6 36.39 5.72 .0051Residual 76.3 12 6.358Total 1586.0 23

Tabla 4. ANOVA - Etapa 2Suma Grados

Fuentes Cuadrados Libert. Var. F p-valorHidrocarburos 162.9 3 54.31 3.35 .0555Hidrógeno 1076 2 537.9 33.19 .0000Interacción 94.94 6 15.82 0.976 .9762Residual 194.5 12 16.21Total 1528 23

¿Se puede concluir que en las dos etapas la varianza del error experimental es la misma? (Realizael contraste con α = 0.05)

(d) Denominando µ y µ0 a las medias (globales) de los modelos factoriales para cada una de las dosetapas, contrasta que son iguales ( H0 : µ = µ0) con α = 0.01.

5.13 Sea un diseño factorial con 4 factores a 3, 4, 2 y 5 niveles. Calcular el número de parámetros totalescorrespondientes a efectos principales e interacciones de orden 2, 3 y 4.

9

Page 29: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

5.14 Un centro ha realizado un experimento para mejorar la resistencia a la tensión de ciertos muelles deacero. En una etapa del proceso el muelle caliente se sumerge en aceite templado. Se han estudiadotres factores, A (temperatura del acero antes de la inmersión, con tres niveles), B (temperatura delbaño de aceite, dos niveles) y C (concentración de carbono en el acero, dos niveles). El experimentose ha replicado tres veces. En la tabla se muestra la media y la varianza (corregida) para los tresdatos de cada tratamiento.

A B C yi s2i1 1 1 40.2 0.251 1 2 61.1 2.681 2 1 35.9 2.431 2 2 57.1 4.442 1 1 49.0 3.492 1 2 70.3 7.772 2 1 46.7 5.082 2 2 67.6 1.033 1 1 41.9 4.273 1 2 62.7 11.413 2 1 37.1 1.333 2 2 60.3 6.13

(a) Dar un intervalo del 95 % de confianza para la varianza del error experimental, σ2.(b) Indicar si los efectos principales de A, B y C son significativamente distintos de cero.(c) Dado σ2, construir un intervalo que cumpla que la probabilidad de que s2i (la varianza

muestral corregida de un tratamiento) esté contenido en él sea igual a 0.95. Sustituir σ2

por su estimador y con ayuda de este intervalo, discutir si se puede rechazar la hipótesisde homocedasticidad de las observaciones.

5.15 Se desea estudiar la señal recibida por un equipo de ultrasonidos en función de la profundidad ala que se encuentra el objeto enterrado. En un experimento se han enterrando objetos a 0.5, 1.0,1.5 y 2.0 metros. En cada distancia se han realizado 10 replicaciones. La tabla muestra la media yvarianza de cada nivel.

Nivel Profundidad Num. Media Varianza1 0.5 10 78.21 28.192 1.0 10 50.29 11.113 1.5 10 33.49 8.864 2.0 10 23.574 12.55

Denominando µ1, µ2, µ3 y µ4 a las medias de los niveles, realiza el siguiente contraste:

H0 : µ1 − µ2 = µ3 − µ4,H1 : µ1 − µ2 > µ3 − µ4,

suponiendo que las observaciones tienen distribución normal, con la misma varianza y que sonindependientes (Utiliza α = 0.05). (Ayuda. Llamando δ = (µ1 − µ2) − (µ3 − µ4), el contrastese puede escribir como H0 : δ = 0; H1 : δ > 0. Estima µ1, µ2, µ3 y µ4 con la media muestralrespectiva).

10

Page 30: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

5.16 Un estudio bioquímico ha valorado la cantidad de tres ácidos (a, b, c) en muestras extraídas acuatro terneras (1, 2 ,3 y 4) de la misma raza. El análisis es bastante complejo y la determinaciónincluye un error de medida. ¿Se puede aceptar la hipótesis de que los tres ácidos se encuentranen la misma proporción en cada animal? Realiza el contraste con nivel de significación 0.05. (Lavariabilidad total es 41.90).

1.

a b c Medias1 11.0 11.4 12.7 11.72 9.8 10.8 13.7 11.433 7.5 10.6 11.5 9.874 7.9 7.6 10.1 8.53

Medias 9.05 10.1 12.0 10.38

11

Page 31: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

Capítulo 6. Regresión lineal

6.1 Con los datos de la tabla, se pide:

x -2 -2 -1 -1 0 0 1 1 2 2 3 3y 1.1 1.3 2.0 2.1 2.7 2.8 3.4 3.6 4.0 3.9 3.8 3.6

(a) Estimar un modelo de regresión simple con y como variable dependiente y x como regresor.Indicar si el modelo es apropiado, justificando la respuesta.

(b) Estimar el modelo

yi = β0 + β1xi + β2x2i + ui.

6.2 La ley de Hubble sobre la expansión del universo establece que dadas dos galaxias la velocidad dedesplazamiento de una respecto a la otra es v = Hd, siendo d su distancia y H la constante deHubble. La tabla proporciona la velocidad y la distancia de varias galaxias respecto a la Via Láctea.Se pide:

Galaxia Distancia Velocidad(millones años luz) (103km/s)

Virgo 22 1.21Pegaso 68 3.86Perseo 108 5.15Coma Berenices 137 7.56Osa Mayor 1 255 14.96Leo 315 19.31Corona Boreal 390 21.56Géminis 405 23.17Osa Mayor 2 700 41.83Hidra 1100 61.14

Tabla: Distancia y velocidad de desplazamiento de las distintas galaxias a la Via Lactea.

Nota: Obsérvese que según el modelo de Hubble la regresión debe pasar por el origen. Tómese 1año luz = 300 000 km/s × 31 536 000 s = 9.46 1012 km.

(a) Estimar por regresión la constante de Hubble.(b) Como T = d/v = d/Hd = 1/H, la inversa de la constante de Hubble representa la edad

estimada del Universo. Construir un intervalo de confianza del 95% para dicha edad .

6.3 Estimar por máxima verosimilitud los parámetros β1 y β2 del modelo

yi = β1x1i + β2x22i + ui ;ui ; N(0,σ).

¿En qué condiciones los estimadores obtenidos por máxima verosimilitud son iguales que los obtenidospor mínimos cuadrados?

6.4 Sir Francis Galton (1877) estudió la relación entre la estatura de una persona (y) y la estatura desus padres (x) obteniendo las siguientes conclusiones:

1

Page 32: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

(a) Existía una correlación positiva entre las dos variables.(b) Las estaturas de los hijos cuyos padres medían más que la media era, en promedio, inferior

a la de sus progenitores, mientras que los padres con estatura inferior a la media enpromedio tenían hijos más altos que ellos, calificando este hecho como de ”regresión” a lamedia.

Contrastar (α = 0.05) estas dos conclusiones con la ecuación y = 17.8 + 0.91x resultante de estimarun modelo de regresión lineal entre las variables (en cm.) descritas anteriormente para unamuestra de tamaño 100 si la desviación típica (estimada) de β1 es 0.04.

6.5 Demostrar que en un modelo de regresión simple y y el estimador de la pendiente β1 son indepen-dientes. Utilizar esta propiedad para calcular la varianza de β0 = y − β1x.

6.6 La matriz de varianzas de las variables X1, X2 e Y es

25 27 1427 36 19.214 19.2 16

Siendo X1 = 30,X2 = 40, Y = 100 y el número de datos n = 10. Se pide:

(a) Realizar la regresión simple entre Y (variable dependiente) y X1, dando el intervalo deconfianza para la pendiente de la recta con α = 0.05. Hacer lo mismo con Y y X2.

(b) Realizar la regresión múltiple entre Y (variable dependiente) y X1,X2, en desviaciones ala media.

(c) Indicar si los coeficientes de la regresión anterior son significativos.(d) Calcular R2 para los tres modelos, comentar los resultados obtenidos e indicar qué modelo

eligiría y por qué.

6.7 Demostrar que el coeficiente de correlación múltiple en el modelo general de regresión es igual alcoeficiente de correlación lineal entre la variable observada y y la prevista by.

6.8 La resistencia a la tracción (y) de una aleación metálica en función de la temperatura de templado(x) se ha ajustado con una ecuación de regresión para 30 observaciones resultando:

y = 276.1 + 1.9x, sR = 15.7, R2 = 0.43

¿Se puede concluir con una confianza del 95% que la temperatura de templado tiene efecto signi-ficativo en la resistencia a la tracción.?

6.9 El coeficiente de determinación en un modelo de regresión simple es R2 = 0.75. Si el número deobservaciones es n = 100, contrasta la hipótesis H0 : β1 = 0 frente a la alternativa H1 : β1 6= 0(α = 0.05).

6.10 La masa M de un cristal de hielo depositado en una cámara a temperatura (-5oC) y humedadrelativa constante crece según la ecuación M = αT β, donde T es el tiempo y α y β son parámetros

2

Page 33: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

desconocidos. La relación anterior se linealiza con la transformación logarítmica, estimándose elsiguiente modelo

logM = logα+ β log T + u

donde el término añadido u son los errores experimentales, que se consideran aleatorios e indepen-dientes con distribución normal, N(0,σ2). Diez cristales del mismo tamaño y forma se introdujeronen una cámara, extrayéndose secuencialmente según unos tiempos previamente establecidos. Paradeterminar la influencia del tipo de cámara, se repitió exáctamente el experimento en una segundacámara. Los valores de sR para la cámara 1 y 2 son 0.64 y 0.50, respectivamente. Los modelosestimados para cada cámara, XTX y (XTX)−1 son:

logM1 = −7.30 + 2.40 log TlogM2 = −5.74 + 2.03 log T XTX =

µ10.00 46.6646.66 218.9

(XTX)−1 =µ18.27 −3.89−3.89 0.835

¶(a) Contrastar con nivel de significación 0.05 si los dos modelos tienen la misma pendiente. Lo

mismo para la ordenada en el origen. (NOTA.- Aceptar que la varianza de los dos modeloses la misma y estimarla como el promedio de las dos varianzas residuales calculadas.)

(b) Un modelo de regresión múltipleY = Xβ +U, se replica, es decir se obtienen dos vectoresde variables respuesta Y1,Y2, para los mismo regresores (matriz X). Demostrar que siβ1 y β2 son los resultados de la estimación de β utilizando por separado la variable Y1 eY2; entonces el estimador de β con todos los datos es (β1+β2)/2.

(c) Estimar un único modelo con los datos de las dos cámaras. Sabiendo que YTY = 306.8,donde Y = logM , dar un intervalo de confianza al 99% para los dos parámetros.

6.11 Se ha estimado un modelo de regresión para la estatura (y) de un grupo de adultos y sus estaturasa los 7 (x1) y 14 (x2) años. La desviación típica residual obtenida es 5 cm y la desviación típicadel coeficiente de x1 (estatura a los 7 años) resulta 2.4, siendo este efecto no significativo al 95%.Sin embargo, un segundo modelo de regresión que incluya sólo a esta variable (x1) conduce a unadesviación típica residual de 7 cm y a un coeficiente de regresión de 2 con desviación típica de 1.¿Qué podemos concluir con estos resultados de la correlación entre x1 y x2?

6.12 En la tabla 1 se muestran los resultados de un experimento en el que se estudiaron las pérdidas porabrasión (rozamiento) de material de goma empleado en la fabricación de neumáticos en funciónde la dureza de la goma en grados Shore y de su resistencia a la tensión. Esta última variable estárepresentada por dos únicos valores, -1 para las gomas con una resistencia máxima a la tensión menorde 180 kg/cm2 y con +1 aquellas que presentan una resistencia máxima superior a 180 kg/cm2. Losresultados del modelo de regresión múltiple (P erdidas = β0+β1Dureza+β2 Re sistencia +ui) semuestran en las tablas 1 y 2.

(a) ¿Hay diferencias significativas en las pérdidas observadas en gomas con resistencia baja(-1) y en gomas con resistencia alta (+1)?. Explicar el significado de β2 (coeficiente deResistencia) y dar un intervalo de confianza de 95% para el mismo.

3

Page 34: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

(b) Para comprobar si el efecto de la dureza en las pérdidas es el mismo para las gomas donresistencia alta y baja se planteó el siguiente modelo:P erdidas = β0 + β1Dureza+ β2Re sistencia+ β3Dureza×Re sistencia+ ui.Explicar de forma concisa el significado de cada uno de los tres parámetros del modelo.

(c) Los resultados de la estimación del modelo del apartado 2 se proporcionan en la tabla 3 yen la figura siguiente. Teniendo en cuenta los resultados de la tabla 2 y 3, elegir el modeloque relaciona las pérdidas por rozamiento con las variables resistencia y dureza. Justificarla respuesta. ¿Por qué cambia tanto el nivel crítico (p-value) correspondiente a la variableResistencia en uno y otro modelo?.

(d) En la tabla 1 se proporcionan los valores previstos y los residuos del modelo anterior.Comprobar la hipótesis de homocedasticidad.

DATOS RESULTADOSDureza Resistencia Pérdidas Predicción Residuos53 -1 221 227,1 -6,155 -1 206 215,1 -9,156 -1 228 209,1 18,960 -1 166 185,1 -19,261 -1 175 179,2 -4,264 -1 164 161,2 2,866 -1 154 149,2 4,868 -1 113 137,3 -24,371 -1 136 119,3 16,771 -1 112 119,3 -7,375 -1 128 95,4 32,679 -1 82 71,4 10,681 -1 55 59,4 -4,481 -1 32 59,4 -27,486 -1 45 29,5 15,545 1 372 378,4 -6,451 1 341 342,5 -1,559 1 249 294,6 -45,659 1 340 294,6 45,465 1 283 258,7 24,368 1 196 240,7 -44,771 1 219 222,8 -3,874 1 267 204,8 62,280 1 186 168,9 17,181 1 215 162,9 52,182 1 155 156,9 -1,983 1 97 150,9 -53,986 1 148 133,0 15,088 1 64 121,0 -57,089 1 114 115,0 -1,0

TABLA 1. Datos, valores previstos y residuos del modelo de regresión: P erdidas = β0 + β1Dureza+β2Re sistencia+ ui

4

Page 35: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

TABLA 2.

Multiple Regression AnalysisDependent variable: PerdidasParameter Estimate Standard Error T Statistic P-ValueCONSTANT 596,075 32,8079 18,1686 0,0000Dureza -5,98636 0,46042 -13,0019 0,0000Resistencia 51,7421 5,51215 9,38692 0,0000

Analysis of VarianceSource Sum of Squares Df Mean Square F-ratio P-ValueModel 200957,0 2 100478,0 112,78 0,0000Residual 24054,6 27 890,909Total (Corr.) 225011,0 29

R-squared=89,3096 percentR-squared (adjusted for d.f.)=88,5177 percentStandard Error of Est.=29,8481Mean absolute error =21,1946Durbin-Watson statistic=2,25411

TABLA 3.

Multiple Regression AnalysisDependent variable: PerdidasParameter Estimate Standard Error T Statistic P-ValueCONSTANT 592,59 34,4264 17,2132 0,0000Dureza -5,93173 0,486879 -12,1832 0,0000Resistencia 65,4644 34,4264 1,90157 0,0684Dureza×Resistencia -0,196688 0,486879 -0,403978 0,6895

Analysis of VarianceSource Sum of Squares Df Mean Square F-ratio P-ValueModel 201107,0 3 67035,6 72,91 0,0000Residual 23904,5 26 919,404Total (Corr.) 23904,5 29

R-squared=89,3763 percentR-squared (adjusted for d.f.)=88,1505 percentStandard Error of Est.=30,3217Mean absolute error =21,1085Durbin-Watson statistic=2,25622

6.13 Se ha estimado un modelo de regresión múltiple para estudiar el efecto de tres regresores x1, x2, x3sobre la resistencia de ciertas fibras textiles con n = 15 observaciones, resultando:

yi = 17.36 + 0.95x1i + 1.03x2i − 1.58x3i, s2R = 2.54, R2 = 0.92

Realiza el contraste general de regresión y los contrastes individuales (α = 0.05) si

5

Page 36: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

(XT X)−1 =

0.0051 −0.0041 0.0204−0.0041 0.4033 0.18360.0204 0.1836 0.4818

.6.14 Los datos mostrados son el resultado de un experimento para caracterizar la duración de un material

utilizado en un torno de corte de acero, en función de la velocidad de corte (X1) y del ratio dealimentación (X2). Por sencillez, las variables se han escalado de la siguiente forma

V =X1 − 900300

, F =X2 − 136

V F Y V F Y-1 -1 54.5 -

√2 0 20.1

-1 -1 66.0√2 0 2.9

1 -1 11.8 0 0 3.81 -1 14.0 0 0 2.2-1 1 5.2 0 0 3.2-1 1 3.0 0 0 4.01 1 0.8 0 0 2.81 1 0.5 0 0 3.20 -

√2 86.5 0 0 4.0

0√2 0.4 0 0 3.5

y se ha estimado el siguiente modelo

log(Yi) = β0 + β1Vi + β2Fi + β3V2i + β4F

2i + β5Vi × Fi + Ui

siendo Ui errores aleatorios con distribución normal de media cero y varianza constante. y se haestimado el siguiente modelo

log(Yi) = β0 + β1Vi + β2Fi + β3V2i + β4F

2i + β5Vi × Fi + Ui

siendo Ui errores aleatorios con distribución normal de media cero y varianza constante. Losresultados principales del análisis son los de la siguiente tabla.

Interpreta los resultados del análisis de regresión, indica de forma específica los resultados de los con-trastes individuales de los parámetros βi y del contraste general de regresión si se utiliza un nivelde significación α = 0.01.

6

Page 37: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

Análisis de Regresión Múltiple----------------------------------------------------------------------------Variable Dependiente: LOG10(Duración)----------------------------------------------------------------------------- Desviación Estadístico Parámetro Estimación Típica t P-Valor-----------------------------------------------------------------------------CONSTANTE 0,515979 0,045626 11,3089 0,0000V -0,343176 0,0372527 -9,21213 0,0000F -0,690076 0,0372536 -18,5237 0,0000V^2 0,181733 0,0436797 4,16058 0,0010F^2 0,125106 0,043684 2,86389 0,0125V x F -0,0316418 0,045626 -0,693503 0,4993-----------------------------------------------------------------------------

Análisis de la Varianza----------------------------------------------------------------------------- Suma de Grados CuadradosFuente Cuadrados Libertad Medios F P-Valor-----------------------------------------------------------------------------Modelo 7,60038 5 1,52008 91,27 0,0000Residual 0,233154 14 0,0166539-----------------------------------------------------------------------------Total (Corr.) 7,83354 19

6.15 En un modelo de regresión simple se ha obtenido un coeficiente de correlación igual a −0.8. Si elnúmero de observaciones es n = 150, y = 22 y la variabilidad total es 320. Construir un intervalode confianza al 95% para el valor medio de la variable dependiente (y) cuando x (regresor) esigual a x. (Aproximar la distribución t de Student correspondiente por una distribución normal, siZ ; N(0, 1), P (Z ≤ 1.96) = 0.975).

6.16 Sea x1 la altura del tronco de un árbol y x2 el diámetro del mismo en su parte inferior. El volumeny del tronco de árbol puede ser calculado aproximadamente con el modelo

yi = αx1ix22i + ui,

según el cual, el volumen del tronco es proporcional al volumen de un cono con las medidas x1i, x2i,siendo α el parámetro (desconocido) de proporcionalidad, más una componente de error aleatorioui. La tabla siguiente contiene los datos (en metros y metros cúbicos) correspondientes a unamuestra aleatoria de 15 troncos de una variedad de pino.

Obs. x1i x2i x1ix22i yi Obs. x1i x2i x1ix

22i yi

1 10,1 0,117 0,14 0,062 9 19,8 0,297 1,75 0,8212 11,3 0,13 0,19 0,085 10 26,8 0,328 2,90 1,2803 20,4 0,142 0,41 0,204 11 21 0,351 2,60 1,0344 14,9 0,193 0,56 0,227 12 27,4 0,376 3,90 1,6795 23,8 0,218 1,13 0,47 13 29 0,389 4,40 2,0736 19,5 0,236 1,09 0,484 14 27,4 0,427 5,00 2,0227 21,6 0,257 1,43 0,623 15 31,7 0,594 11,2 4,6308 22,9 0,269 1,66 0,722

7

Page 38: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

(a) Estimar α por máxima verosimilitud suponiendo que las variables ui tienen distribuciónnormal de media cero, con la misma varianza e independientes.

(b) Un tronco tiene una altura de 20 metros y un diametro de 0.25 metros, dar un intervalo depredicción de su volumen (95% de confianza). La varianza residual del modelo es 0,0058.

(c) En el análisis de los residuos se observa que la varianza de los errores crece con el volumendel tronco. Para obtener homocedasticidad se propone el siguiente modelo transformadoutilizando logaritmos neperianos,

log yi = β0 + β1 log x1i + β2 log x2i + ui

El resultado de la estimación es:

Parámetro Estimaciónβ0 -1,45β1 1,14β2 1,86

y cMbβ = 0, 1250 0, 0212 −0, 0317

0, 0212 0, 0082 −0, 0051−0, 0317 −0, 0051 0, 0042

siendocMbβ = bs2R(XTX)−1 (X es la matriz de los regresores transformados según el modelo)La transformación logarítmica del modelo inicial (αx1ix22i) implicaría que β1 = 1 y β2 = 2.Contrastar (nivel de significación 0.05) si estos dos valores son aceptables.

(d) Con este modelo, dar un intervalo de predicción (95% de confianza) para el volumen deltronco del apartado 2 si la varianza residual es 0,0031.

6.17 La empresa de bebidas gaseosas CIBELES quiere determinar la influencia sobre la presión interna(yi) en los botes de refresco de dos variables continuas (x1, x2) y del tipo de bebida (NARANJA=1,LIMÓN=2 y COLA=3). Para distintos valores de x1 y x2 y 20 botes de cada sabor, ha medidola presión interna. El tipo de bebida se representa por las variables z1, z2 y z3 qué identifican elsabor NARANJA, LIMÓN y COLA, respectivamente. El modelo estimado de regresión de y conrespecto a x1, x2, z2 y z3 es:

y = 19.4 + 77.2x1 − 50.8x2 + 2.95z2 + 5.52z3; bsR = 4.32donde

(XTX)−1 =

0.1772 −0.6909 −0.5043 −0.0605 −0.0896−0.6909 5.8085 0.2541 0.1478 0.2444−0.5043 0.2541 5.0070 −0.0680 0.1216−0.0605 0.1478 −0.0680 0.1049 0.0546−0.0896 0.2444 0.1216 0.0546 0.1127

(a) Realizar los contrastes individuales con α = 0.01, indicando las variables que influyen

significativamente en la presión. Interpretar el resultado explicando el significado de cadaparámetro.

(b) Si se realiza una regresión entre la presión interna (yi) y las dos variables continuas x1 yx2 se obtiene el siguiente modelo de regresión

y = 23.86 + 65.1x1 − 56.3x2; sR = 4.78.

Contrastar (α = 0.01) conjuntamente que el tipo de bebida no influye. (H0 : α2 = α3 = 0frente a H1 : α2 ó α3 es distinto de cero).

8

Page 39: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

(c) ¿Existe diferencia significativa en las presiones internas de los botes de LIMÓN y COLA?(α = 0.01)

6.18 Se ha ajustado el siguiente modelo de regresión múltiple con una muestra de 86 vehículos, delos cuales 31 son japoneses , 41 norteamericanos y 14 europeos, dónde la variable dependiente esel consumo, y los regresores: Pot (potencia) está expresada en unidades de 100 Cv, el Peso enToneladas, ZJ toma el valor 1 si el coche es japonés y cero en los demás, y ZE toma el valor 1 paralos coches europeos y cero en los demás.

by = 3.305 + 0.843 Pot+ 3.829 Peso+ 0.440 ZJ + 1.127 ZE bs2R = 0.506, R2 = 75.7%

(XTX)−1 =

4.791e− 1 5.054e− 2 −3.794e− 1 −9.157e− 2 −4.682e− 25.054e− 2 1.595e− 1 −1.931e− 1 −3.443e− 3 −1.262e− 2−3.794e− 1 −1.931e− 1 4.646e− 1 5.210e− 2 2.865e− 2−9.157e− 2 −3.443e− 3 5.210e− 2 6.667e− 2 2.744e− 2−4.682e− 2 −1.262e− 2 2.865e− 2 2.744e− 2 9.759e− 2

Dar el intervalo de confianza para el consumo previsto de un coche norteamericano con una potenciade 120 Cv y 1600 kg de peso.

6.19 Sea X la matriz completa de un diseño 2k, por ejemplo para el caso de k = 3,

X =

1 −1 −1 −1 1 1 1 −11 1 −1 −1 −1 −1 1 11 −1 1 −1 −1 1 −1 11 1 1 −1 1 −1 −1 −11 −1 −1 1 1 −1 −1 11 1 −1 1 −1 1 −1 −11 −1 1 1 −1 −1 1 −11 1 1 1 1 1 1 1

e Y el vector de dimensión n = 2k con los valores de la variable respuesta correspondiente al exper-imento. El análisis estadístico del experimento se puede realizar mediante el modelo de regresiónmúltiple

Y = Xβ +U,

donde β = (β0,β1, ...,βn−1)T es el vector de parámetros yU = (u1, u2, ..., un)T el vector de variables

aleatorias independientes con distribución normal de media cero y desviación típica σ. Demostrarque para cualquier i, la varianza de bβi es σ2/n y que el error de predicción de una observaciónnueva en cualquiera de los 2k tratamientos tiene como varianza 2σ2.

6.20 Demuestra que la recta de regresión pasa por el punto (x, y) y que el intervalo de predicción parala media de la variable respuesta cuando el regresor toma el valor igual a x, es

y ± tα/2sR√n

donde n es el número de observaciones, tα/2 se obtiene de la distribución t de Student con n − 2grados de libertad y s2R es la varianza residual.

9

Page 40: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

6.21 La masa M de un cristal de hielo depositado en una cámara a temperatura (-5oC) y humedadrelativa constante crece según la ecuación M = αT β, donde T es el tiempo en horas, y α y βson parámetros desconocidos. La relación anterior se linealiza con la transformación logarítmica,estimándose el siguiente modelo

logM = logα+ β log T + u

donde el término añadido u son los errores experimentales, que se consideran aleatorios e indepen-dientes con distribución normal, N(0,σ2). Diez cristales del mismo tamaño y forma se introdujeronen una cámara, extrayéndose secuencialmente según unos tiempos previamente establecidos. Elmodelo estimado, XTX y (XTX)−1 son:

dlogMi = −7.30 + 2.40 log Ti, sR = 0.64

XTX =

µ10.00 46.6646.66 218.9

¶(XTX)−1 =

µ18.27 −3.89−3.89 0.835

¶Predice el crecimiento medio esperado del cristal después de 3 horas en la cámara con un intervaloal 95% de confianza.

6.22 La siguiente tabla muestra los datos recogidos en un estudio sobre el efecto de disolver azufre en latensión superficial del cobre fundido

Variables ObservacionesX: % en Peso deAzufre 0.034 0.093 0.30 0.40 0.61 0.83Y: Reducción de Ten.Sup. 301 430 593 630 656 740(dos replicaciones) 316 422 586 618 642 714

Se ha estimado el modelo de regresión lineal simple con log(X) como regresor. El resultado delanálisis de regresión y la gráfica del modelo se proporcionan más abajo.Se ha estimado el modelo deregresión lineal simple con log(X) como regresor. El resultado del análisis de regresión y la gráficadel modelo se proporcionan más abajo.

Análisis de Regresión: Modelo Logarítmico Y = a + b*ln(X)--------------------------------------------------------------------------Variable dependiente: Tensión SuperficialVariable Independiente: Azufre-------------------------------------------------------------------------- Desviación Estadístico Parámetro Estimación Típica t P-Valor--------------------------------------------------------------------------Constante 735,784 7,47038 98,4935 0,0000Pendiente 127,457 4,12867 30,8712 0,0000--------------------------------------------------------------------------

Analisis de la Varianza--------------------------------------------------------------------------Fuente Suma de Grados Cuadrados Cuadrados Libertad Medios F P-Va--------------------------------------------------------------------------Modelo 241678,0 1 241678,0 953,03 0,0Residual 2535,9 10 253,59--------------------------------------------------------------------------Total (Corr.) 244214,0 11

10

Page 41: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

Azufre

Tension_Sup

0 0,2 0,4 0,6 0,8 1300

400

500

600

700

800

Utiliza el modelo para predecir la reducción de la tensión superficial del cobre fundido con un 0.8%de azufre disuelto. Da un intervalo de confianza del 95% para la predicción.

6.23 Se ha estimado un modelo de regresión con dos variables independientes y 20 observaciones obtenién-dose la siguiente ecuación:

byi = −19.17 + 0.222x1 + 0.659x2, bs2R = 6.468La matriz de varianzas de los regresores (x1, x2) esµ

25.23 24.2924.29 27.40

¶.

Teniendo en cuenta que la matriz de varianza teórica de los estimadores bb = [bβ1, bβ2]T esσ2

ns21(1− r2)− r σ2

ns1s2(1− r2)− r σ2

ns1s2(1− r2)σ2

n s22(1− r2)

,donde n es el número de observaciones, r el coeficiente de correlación entre los regresores, s21 ys22 las varianzas muestrales de los regresores y σ2 la varianza del modelo de regresión; realiza loscontrastes individuales de los dos regresores, α = 0.05. Interpreta el resultado de los dos contrastes.

11

Page 42: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

EstadísticaSoluciones a los ejercicios propuestos.

Curso 2004/05

1

Page 43: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

Capítulo 1. Descriptiva

1.1 xp = (10+18+22+150)/4 = 50; sp =

r(10− 50)2 + ...+ (150− 50)2

4= 57.9;xa = 10(10/200)+

...+ 150(150/200) = 117.04;

sa =p(10− 117.04)2(10/200) + ...+ (150− 117.04)2(150/200) = 57.1.

1.2 Si es posible el resultado, z = x+ y; s2z = s2x + s

2y + 2sxy; sxy = −11/2;

¯4 −11/2

−11/2 9

¯≥ 0.

1.3 x0 = k1x; y0 = k2y; cov(x0, y0) = k1k2cov(x, y); sx0 = |k1| sx; sy0 = |k2| sy; r(x0, y0) = r(x, y).1.4 cov(x, y) = bs2x; s

2y = b

2s2x; r(x, y) = 1.

1.5

¯s2x rsxsyrsxsy s2y

¯= s2xs

2y − r2s2xs2y ≥ 0; 1 ≥ r2.

1.6 Si. Determinante = −2. No puede ser una matriz de varianzas.1.7 No. y = log10 xG; xG es la media geométrica; xG < xA; log10 xG < log10 xA; 2.5 ≮ 2.

1.8 Q1 = −0.16;Q2 = mediana = −0.0.3;Q3 = 0.18;RI = 0.34;LI = −0.67;LS = 0.69, como el valormáximo muestral es 0.45, entonces LS = 0.45.

Capítulo 2. Probabilidad

2.1 p = 0.472

2.2 La función de densidad es fz(z) = 2zr2con 0 < z < r y la función de distribución es Fz(z) =

z2

r2

2.4 k = log 2;E[X] =25

log 2y V ar[X] ' 51.67

2.5 E

·mV 2

2

¸= 3

2kT,que es independiente de su masa. Fijada la temperatura T , cualquier gas tiene

el mismo valor medio de energía cinética molecular independientemente de su masa.

2.6 fY (y) = 1 con 0 ≤ y ≤ 1

2.7 p =

R∞5 x

σ2e−x2

2σ2 dx

10

= e−10/8

2.8 E[X] =R a0 xfX(x)dx +

R∞a xfX(x)dx ≥

R∞a xfX(x)dx = aP (x > a) y despejando se obtiene la

desigualdad de Markov.

2.9 k =3

2, E[Y ] =

1

8, V ar[Y ] =

171

320.

2.10 fXY (x,y) =

½c si x2 + y2 ≤ r20 si x2 + y2 > r2

, fX(x) =2

πr2√r2 − x2, −r ≤ x ≤ r

2

Page 44: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

2.11 (a) k = 6;E[p] =1

2;V ar[p] =

1

20.

(b)³R 0.750 6p(1− p)dp

´10= 0.183

2.12 fU (u) = 2F (u)f(u)

2.13 La función de probabilidad para el máximo es:

Valor Probabilidad1 1/36

2 3/36

3 5/36

4 7/36

5 9/36

6 11/36

La función de probabilidad para el mínimo es:

Valor Probabilidad1 11/36

2 9/36

3 7/36

4 5/36

5 3/36

6 1/36

La función de probabilidad para la media es:

Valor Probabilidad1 1/36

1, 5 2/36

2 3/36

2, 5 4/36

3 5/36

3, 5 6/36

4 5/36

4, 5 4/36

5 3/36

5, 5 2/36

6 1/36

2.14 fXY (x, y) 6= fx(x)fY (y), por lo que X e Y no son variables aleatorias independientes.

2.15 (a) P (Z = n) =Pnk=0 P (X = k)P (Y = n − k) = e−(λ1+λ2)

Pnk=0

λk1λn−k2

k!(n− k)! , multiplicando y

dividiendo por n!, y utilizando que (λ1 + λ2)n =

Pnk=0

n!

k!(n− k)!λk1λn−k2 , se obtiene que:

3

Page 45: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

P (Z = n) =e−(λ1+λ2)

n!(λ1 + λ2)

n,

que es la probabilidad de Poisson con parámetro λ = λ1 + λ2.

(b) P (X = k|Z = n) = n!

k!(n− k)!³

λ1λ1+λ2

´k ³λ2

λ1+λ2

´n−k, si llamamos p =

λ1λ1 + λ2

,

P (X = k|Z = n) = ¡nk¢ (p)k (1− p)n−k que es una binomial de parámetros n y p = λ1λ1 + λ2

2.16 P (X < 0.3|Y = 0.8) = 0.092.17 Sea X la variable llegada de clientes en una hora, X1 la variable llegada de clientes en los 15

primeros minutos de esa hora y X2 la variable llegada de clientes en los 45 últimos minutos de esahora. La probabilidad pedida:

P (X1 = 2|X2 = 2) =µ1

4

¶2.

2.18 (a) k = 8

(b) P (X < 0.5|Y = 0.5) = 1(c) Las variables aleatoriasX e Y no son independientes ya que el campo de variación deX dependede Y.

2.19 V ar(Z) = 0

2.20 LLamando X al tiempo de vida del receptor e Y al tiempo de vida del amplificador, P (X < Y ) =2

3.

2.21 El número medio de años que dura una máquina es:

E[Y ] =R T0 xfx(x)dx+ T (1− F (T )).

Por lo tanto el número medio esperado de máquinas empleadas en un año es:

1

E[Y ]= [R T0 xfx(x)dx+ T (1− F (T ))]−1.

2.22 MZ =

6 −2 4−2 6 −44 −4 6

2.23 ρ = 0. Las variables no son independientes porque por ejemplo P (Y1 = 0|Y2 = 0) = 0 6= P (Y1 = 0)

2.24 (a) fX(x) = 2x con 0 < x < 1, fY (y) =y

2con 0 < y < 2. Las variables X e Y son independientes

ya que fXY (x, y) = fX(x)fY (y)

(b) P (X + Y < 1) =1

24

4

Page 46: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

2.25 FX(x) = 1− e−ax;x ≥ 0 y FY (y) = 1− e−ay; y ≥ 0. Como FXY (x, y) = FX(x)Fy(y) las variablesaleatorias X e Y son independientes.

P (X < 1, Y ≥ 2) = (1− e−a)e−2b;P (X < 1) = 1− e−a y P (Y ≥ 2) = e−2b.

2.26 P (T1 < 1|T2 > 2) = 1

3

2.27 fY (y) = − ln(1− y) con 0 ≤ y ≤ 1

2.28 p =1

2

2.29 Cov(X,Y ) = E[(X −E(X))(Y −E(Y ))] = E[XY ]−E[X]E[Y ],

se sustituye Y = U + V, obteniendo:

Cov(X,Y ) = E[(X(U + V )]−E[X]E[U + V ] = E[XU ]−E[X]E[U ] +E[XV ]−E[X]E[V ] == Cov(X,U) + Cov(X,V )

2.30 (a) Sea Y el número de pruebas a realizar, E[Y ] = 51× 0.395 + 1× 0.605 = 20.75 ' 21

(b) Sea A el suceso de que un individuo sea portador del virus y B el suceso el resultado delaanálisis ha resultado positivo, P (A|B) = 0.025.

2.31 P (X = n) =

µn

k − 1¶pk(1− p)n−k+1.

2.32 16/7

2.33 p = 1−P4i=1(

12)i = 0.0625

2.34 (a) e−336

6!

(b) e−663

3!

(c) 1−P15i=0 e

−9 9i

i!

(d) e−3

5(3

5)2

2!

2.35 La función de densidad es fW (w) =b

abwb−1e

−(w

a)b

con a > 0, < b > 0, w > 0 y la función de

distribución es FW (w) = 1− e−µwa

¶b

2.36 p = 0.3

2.37 p = 0.065

2.38 (a) p = 0.76× 0.37× 0.76 = 0.21

5

Page 47: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

(b) Sea D el tiempo de vida de la depuradora P (D < T + 1000|D > T ) = 0.049. No depende deT, por lo que no está justificado renovar la depuradora antes del fallo ya que la probabilidadde fallo no depende del tiempo que ha estado funcionando.

2.39 p = 0.175

2.40 p = e−k(tβ2−tβ1 )

2.41 Sea X el número de peces capturados en 15 minutos, P (X > 1|λ = 3

4) = 0.5276. Sea X

0el número

de peces capturados en dos horas de pesca P (X0= 5|λ0 = 6) = 0.1606.

2.42 λ(t) = 11000

2.43 Utilizando la aproximación a la normal a ≥ 9.

2.44 fY (y) =1√y

1√2πe−y

2 con y > 0

2.45 Mediana= 0.674σ

2.46 (a) 0.976

(b) 0.0229

(c) 0.999

(d) 0.1

2.47 (a) 0.3142

(b) 0.119

(c) 0.7103

2.48 X = peso de caja con 100 sobres;

X ∼ N(µ = 100× 8 + 30 = 830;σ = √100× 0, 25 = 5);P (X > 820) = 1− φ(820−8305 ) = 0, 0228;

Y = peso de caja con 199 sobres;

Y ∼ N(µ = 99× 8 + 30 = 822;σ = √99× 0, 25 = 4, 975);P (Y > 820) = 1− φ(820−8224,975 ) = 0, 656

2.49 Y = número de veces que sale el número elegido

Y ∼ B(n = 3; p = 1/6);X = balance del jugador = Y − 1E[X] = 3/6− 1 = −0.5; sale ganando la banca.

2.50 X = número de unidades defectuosas de un total de 400

6

Page 48: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

X ∼ B(n = 400; p = 0, 06) ∼ (aprox) ∼ N(µ = 400× 0, 06 = 24;σ = √400× 0, 06× 0, 94 = 4, 745);Hay que calcular c tal que φ( c−244,745) = 0, 05, es decir

c−244,745 = −1, 645; c = 16, 18

Capítulo 3. Inferencia3.1 bn = 103; bp = 0.21.3.2 bN = 2x− 1.

3.3 bθ = 6

5x; E[bθ] = θ y V ar[bθ] = θ2

35.

3.4 bθ = 100/22.3.5 P (t > 10) = 1− P (t ≤ 10) = 1− FT (10) = exp(−10/7) = 0.24, siendo bα = 1/7.3.6 bα = n

ni=1 log

à bβxi

! ; bβ = max{x1, x2, ..., x3}.

3.7dL(θ)

dθ= −20

θ+2

θ3

10

i=1(xi)

2 +726

θ3;bθMV = 8.2582.

3.8 L(p) = 20 log p+ 95 log(1− p) + k; dL(p)dp

= 0; bp = 0.174.3.9 l(λ) =

1

λ7exp(−2082λ ); bλ = 2082

7= 297.4.

3.10 bθ = 3x;V ar(bθ) = θ2

2n.

3.11 c =nµ2

σ2 + nµ2; c =

n

4 + n.

3.12 k =1

n(n− 1) .

3.13 ECM(bσ2) = σ4(k − 1)2 + 2k2σ4

(n− 1); k =n− 1n+ 1

.

3.14 bµ = t12+t24;E[µ] = µ;V ar[µ] =

1

4V ar[t1] +

1

16V ar[t2] =

17

64nµ2.

3.15 P = P (fallo en un mensaje) = P (fallo en al menos un bit de los 128) = 1 − (1 − p)128. En losúltimos 10000 mensajes (lecturas) ha habido 340 erróneos. bP = 340

10000= 1−(1−bp)128; bp = 0.000270.

3.16 (a) µ ∈ x± t(11;α2)bs√n;µ ∈ (29.47, 30.70).

(b)(n− 1)bs2

σ2; χ211;σ

2 ∈ (0.472, 2.709).

7

Page 49: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

3.17 µ ∈ x± t(12;α2)bs√n;µ ∈ (30.37, 38.25).

3.18 ingreso ∈ x± t(11;α2)bs√n; ingreso ∈ (2857, 1822).La amplitud es 500.

L = 250;n = z2α2

bs2L2= 40.8; al menos n = 41 estaciones.

3.19 (a) x = 45.75; bs2 = 201.6(b) µ ∈ x± t(14;α

2)bs√n;µ ∈ (34.82, 56.67)

(c)(n− 1)bs2

σ2; χ214;σ

2 ∈ (90.19, 693.60)

(d) L = 2× bs√n× t(14;α

2);√n >

bs6× t(14;α

2);n > 23;n = 24.

3.20 p ∈ bp± zα2

rbp(1− bp)n

; p ∈ (0.131, 0.239);L = 2× 1.96×rbp(1− bp)

200;

L1 = 2× 1.96×rbp(1− bp)

m,L1 =

L

2;m = 4× 200 = 800.

3.21 P (|bp− p| ≤ 0.05) = 0.95; bp ; N

Ãp,

rp(1− p)n

!;

0.05rp(1− p)n

= 1.96;n =1.962p(1− p)

0.052; p =

1/2;n = 384.

3.22 θ ∈ bθ ± zα2

sbθT;bθ = 236.5;T = 15; θ ∈ (228.72, 244.28).

3.23 χ2a,60 ≤2× 30× x

λ≤ χ2b,60;λ ∈ (4.46, 9.18).

3.24 (a) bαMV =r2Px2i3n

;V ar(bαMV ) = α2

6n.

(b) bαM =x√π

2;V ar(bαM) = µ3π

8n− 1n

¶α2.

(c) α ∈ bαMV ± zα2

rbα2MV6n

;α ∈ (2.74, 3.21); α ∈ bαM ± zα2

sµ3π

8n− 1n

¶ bα2M ;α ∈ (2.78, 3.27).3.25 (a) X ; B(n = 1012, p = e−λt = e−20000/8270);E[X] = np = 8.9× 1010.

X ; N(µ = ne−λt,σ =pne−λt(1− e−λt)).

(b) El intervalo es µ ± 1.96σ; (8.9 × 1010 ± 5.58 × 105). Se ve que el cociente entre la desviacióntípica y la media es 6.26× 10−6, lo cual indica que la incertidumbre del proceso es despreciable.

8

Page 50: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

(c) E[X] = Np = Ne−λt;x = x1 = 1010; bNe−λt = 1010; bN = x1eλt = 1.12×1011;E[ bN ] = eλtE[x1] =

eλtNe−λt = N ;V ar( bN) = e2λtV ar(x1) = e2λtNe−λt(1− e−λt) = Neλt(1− e−λt).(d) Ne−λT =

N

2;T =

log 2

λ= 5.73× 103.

3.26 (a) t =190− xbs/√n ; tn−1; t = 1.84; |t| < t(4;0.025) = 2.78, no se puede rechazar H0 : µ = 190.

(b) D =(n− 1)bs2100

; χ24;D = 4.58 < χ2(4,0.05) = 9.49, no se puede rechazar H0 : σ2 = 100.

3.27 P (Error tipo I) = P (x > 11|µ = 10) = 0.0227;P (Error tipo II) = P (x < 11|µ = 12) = 0.0227.3.28 P

¡X ≥ 85|X ; N

¡100× 0.75,√100× 0.75× 0.25¢¢ = 0.01044 < α = 0.05. Con nivel de signifi-

cación α = 0.05, la nueva medicina es más efectiva que la antigua.

3.29½H0 : p = 0.03H1 : p > 0.03

;Z =bp− prp(1− p)n

; N(0, 1);Z = 1.24 < Z0.05 = 1.65, no se puede rechazar

H0;Pot(p) = 1−Φ

0.04978− prp(1− p)200

;P (Error tipo II|p = 0.06) = 1− Pot(p = 0.06) = 0.2709.3.30 (a) X2 =

2nx

λ; χ260;X

2 = 74.4 < χ2(60;0.05) = 79.1, no se puede rechazar H0;

Nivel crítico: P (χ260 ≥ 74.4) = 0.10.P (Error tipo II|λ = 7.5) = Pµ2nx

5≤ 79.1 |λ = 7.5

¶≈ 0.25.

(b)½H0 : λ1 = λ2H1 : λ1 > λ2

;x1/λ1x2/λ2

; F2n1,2n2 . Se rechaza H0 six1x2> 1.74;x2 < 3.56. Después de 6000

horas x2 ≥ 2.35× 6 + 6× 915

= 4.54 > 3.56. No es necesario seguir el ensayo.

3.31 P (bp > c|p = 0.85) = 0.01;P (bp > c|p = 0.95) = 0.99;n ≈ 180; c = 0.912.3.32 X2 =8i=1

(Oi −Ei)2Ei

; χ25;X2 = 7.5181 < χ2(5;0.05) = 11.1, no se puede rechazar la hipótesis de

normalidad.

3.33 X2 =6i=1(Oi −Ei)2

Ei; χ25;Ei = 20 ∀i;X2 = 8.5 < χ2(5;0.05) = 11.1,no existe evidencia para

rechazar la hipótesis de que el dado está equilibrado.

3.34 X : v.a número de epicentros en una cuadrícula de tamaño 100 km2 ; Poisson(λ);

bλ = no total de epicentrosno total de cuadrículas

=

PxiPni=48

34= 1.41 epicentros/100 km2;X2 =5i=1

(Oi −Ei)2Ei

; χ23;

X2 = 0.44 < χ2(3;0.05) = 7.8147; no existe evidencia para rechazar la hipótesis de que la distribución

de epicentros es una Poisson. Nivel crítico: P (χ23 ≥ 0.44) ≈ 0.90÷ 0.95.

9

Page 51: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

3.35 P (error tipo II ) = P (X > 0|p < 0.07) = 1− (1− p)20, p < 0.07;P (error tipo I ) = P (X = 0|p =0.07) = (1 − p)20 = 0.234. El método tiene una probabilidad muy alta (0.234) de dar como mejorel apoyo nuevo cuando es igual que el existente.

3.36 X2 =20Pi=1

2Ti200

à χ240; X2 = 22.74 < χ2(40;0.95) = 26.5. Se rechaza H0 con α = 0.05. Conviene

resaltar que el contraste es unilateral con la región de rechazo a la izquierda.

3.37 X = número de defectos en 900m2 de tela

X ∼ Poisson(λ = 9 ∗ 4 = 36) ∼ (aprox) ∼ N(µ = 36;σ = 6);P (X > 50, 5) = 1− φ(50,5−366 ) = 0, 0078;

Y = número de defectos en 16 horas de fabricación

Y ∼ Poisson(λ = 9 ∗ 4 ∗ 16 = 576) ∼ (aprox) ∼ N(µ = 576;σ = 24);H0 : λ = 576;H1 : λ > 576;

P (Y > 720 | λ = 576) = 1− φ(720,5−57624 ) = 8, 6e− 10; se rechaza H0, la evidencia muestral indic queha habido un aumento.

Capítulo 4. Análisis de la varianza

4.1 (a) 0.4325 ≤ σ21σ22≤ 1.1149.

(b) µ1 − µ2 ∈ (−809.2, 1023.2).

4.2 La región de rechazo es:|d| > 2.179, como d = 0.51 no se rechaza las máquinas son iguales.4.3 (a) Se debe elegir el proveedor A.

(b) µA − µB ∈ (3526.34, 6473.65).

4.4 El valor calculado de la F (19.2) se compara con el valor de tablas F(2,16;0.05) = 3.63. Como19.2>3.63 se puede concluir que para α = 0.05 existen diferencias significativas entre los tratamien-tos.

4.5 (a) Se compara el valor obtenido de la F(3.99) con el valor de tablas F(4,25;0.05) = 2.76. Como3.99>2.76 se concluye que existen diferencias significativas entre los materiales. No se puede concluirque exista un material con desgaste significativamente menor. Los materiales que tiene un desgastemedio significativamente distinto son: B y C, B y A, y E y C. El resto no se pueden considerarsignificativamente distintos.

(b) 0.93 ≤ σ2 ≤ 4.18

4.6 (a) El valor de la F obtenido es 2.05, que se compara con el de tablas F(3,15;0.05) = 3.29. Como3.29 >2.05 no puede rechazarse la hipótesis nula de igualdad de medias.

(b) No, el valor 68 del tercer termómetro parece discordante con los demas.

10

Page 52: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

(c) El termómetro 4 es distinto al 1 al 2. La diferencia de las conclusiones proviene de que el valor68 del grupo 3 es atípico y distorsiona todo el resultado.

4.7 (a) Se compara el valor de la F (64.348) obtenido con el de las tablas F(2,12;0.01) = 6.92. Como64.348 > 6.92 se rechaza la hipótesis nula de que las medias son iguales.

(b) El valor que se obtiene de la t es 2.9853 que no está incluido en el intervalo (−2.18, 2.18), conlo que se rechaza la hipótesis nula.

4.8 La relación aproximada entre la desviación típica de la variable transformada y la original essz ' sy|h0(y)| donde h es la transformación realizada, h0 es la primera derivada de la transformacióne y es el valor medio de y. Utilizando la expresión anterior se observa que la transformación quecorrige la heterocedaricidad es z = log y.

Capítulo 5. Diseño de experimentos

5.1 Se compara el valor de la F = 45.7 con el valor de las tablas F(1,4;0.05) = 7.71. Como 45.7 > 7.71se rechaza que los equipos son iguales.

5.2 Si no se tiene en cuenta el bloque el resultado es el mismo que si no se tiene en cuenta. El factores significativo. Es mejor el modelo en bloques que el de un factor para cualquier caso. Ya que si elbloque no es significativo, podemos pasar directamente al modelo con un factor (sin realizar ningúncálculo), pero si el bloque es significativo se pierde mucho no planteando el modelo en bloques,incluso podría suceder que el factor no resultara significativo.

5.3 (a) Existe evidencia de que el consumo medio no es igual en cada estación del año.

(b) La estación de mayor consumo es el invierno. No se puede hablar de una estación de menorconsumo, ya que el consumo medio en otoño, primavera y verano no se pueden considerar significa-tivamente distintos. Los intervalos de confianza para el consumo medio de las diferentes estacionesdel año son: µI ∈ (13.36, 14.96), µI ∈ (12.17, 13.77), µI ∈ (11.86, 13.46) y µI ∈ (11.26, 12.86).(c) Los factores estación y comunidad son significativos.

(d) El consumo en invierno es significativamente mayor que en el resto de las estaciones, el consumoen otoño y primavera es significativamente mayor que en verano y, el consumo en primavera essignificativamente mayor que en primavera. Al incluir el factor comunidad disminuye la varianzaresidual y el test para el invierno resulta más significativo y permite detectar el efecto de las demásestaciones.

5.4 (a) No se rechaza H0 : µD = 0. El nivel crítico del contraste es 0.1462.

(b) El número de niveles del factor y del bloque es respectivamente I = 2 y J = 20, bs2R =P2i=1

P20j=1 e

2ij

(I − 1)(J − 1) =P20j=1 e

21j +

P20j=1 e

22j

(J − 1) , donde eij = yij − yi• − y•j + y••. Para un mismo día

e1j + e2j = 0⇒P20j=1 e

21j =

P20j=1 e

22j , por lo tanto bs2R = 1

2

P20j=1(Dj −D)2(J − 1) =

1

2bs2D

(c) F1,J−1 =V Ebs2R =

µy1• − y2•bsD/√J

¶2=

µDbsD/√J

¶2= t2J−1.

11

Page 53: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

5.5 El efecto del sexo y el tipo de de formación son significativos y además existe interacción entre ellos.Interpretacción: 1) Existen diferencias significativas en el número medio de errores cometidos entreprofesores de ciencias y profesores de letras (11.67 más en ciencias). 2) También es significativa ladiferencia entre hombres y mujeres (9 errores más para hombres). 3) Además la diferencia observadaentre hombres y mujeres de letras (2 errores más para hombres) difieren significativamente de laobservada para los profesores de ciencias (16 errores más para hombres).

5.6 La interacción entre los dos factores no es significativa. Esta conclusión se puede obtener alcomparar el valor de la F (2.16) obtenido con el de las tablas F(2,24;0.05) = 3.4. Como 2.16>3.4 lainteracción no resulta significativa.

5.7 (a) Se compara el valor de laF (2.8125) con el obtenido en las tablas F(4,45;0.05) = 2.59. Como2.8125 > 2.59 se rechaza la hipótesis nula de igualdad de medias, y se concluye que el índice deoctanos medido no es igual para cada fórmula.

(b) La fórmula 3 proporciona índice medio de octanos significativamente distintos a las fórmulas 1y 5, y la fórmula 4 es significativamente distinto a la 1. Las demás fórmulas no se pueden considerarque proporcionen índice de octanos diferentes.

(c) El valor de la F (2.43) correspondiente a la interaccion se compara con el valor de las tablasF(4,90;0.05) = 2.47. Como 2.47 > 2.43 no se puede rechazar que la interacción sea nula, o de otraforma, el efecto de la interacción no es significativo al 95%.

5.8 Para que la interacción sea significativa debe cumplirse que 1.125(R− 1) > F(4,9(R−1);0.05), dondeR es el número de replicaciones. El cálculo de R es iterativo. Se irán dando valores hasta conseguirque la interacción sea significativa.

5.9 V E(αβ) = 20.9988, V NE = 4.1842, el valor correspondiente de la F es 28.5155, que se comparacon el valor de las tablas F(2,12;0.05) = 3.89. Como 28.5155 > 3.89 se rechaza que la interacción entrelos factores horno y temperatura.

5.10 (a) El laboratorio 3 tiene una media significativamente menor que los otros tres. La diferenciaentre las medias de los laboratorios 1,2 y 4 no son significativas. Este resultado se observa en latabla del enunciado, en la que se marcan con un asterísco las diferencias significativas entre losvalores medios de los laboratorios. El intervalo para la media del tercer laboratorio es:

µ3 ∈ y3• ± t16;0.005bsRr 1

n3,

y sustituyendo para los datos obtenidos se tiene que:

µ3 ∈ 56.52± 2.921×√2.14872

r1

5→ µ3 ∈ (54.61, 58.44).

(b) El contraste

H0 : σ2 = 1

H1 : σ2 > 1

12

Page 54: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

se realiza con el estadístico

(n− I)s2Rσ2

que tiene distribución de probabilidad χ2n−I siendo I = 4 el número de laboratorios y n = 20 elnúmero de datos.

χ20 =(n− I)s2R

σ2=16× 2.14872

1= 34. 38

que es mayor que el valor χ216,0.01 = 32, por consiguiente se rechaza la hipótesis H0 y se concluyeque la varianza es mayor que 1.

(c) Como resultado del análisis del modelo con dos factores se observa que el efecto principal día yla interacción entre el laboratorio y el día no resultan significativas, obteniendo para ambos casosp-valores (0.8510 y 0.9779 respectivamente) claramente superiores a 0.01. Por otra parte al hacerlas comparaciones para los laboratorios dos a dos se observa que además de las diferencias entrelaboratorios obtenidos en el primer apartado, se aprecia ahora una nueva diferencia significativaentre el laboratorio 1 y 2.

(d) Sea σ21 la varianza correspondiente al día 1 y σ22 la correspondiente al día 2. El contraste pedido

es:

H0 : σ21 = σ22

H1 : σ21 6= σ22

El contraste se realiza según:

16s2R1σ2116s2R2σ22

∼ F16,16,donde s2R1 = 2.14875 y s2R2 se calcula como se

muestra a continuación.

La varianza residual correspondiente al modelo de dos factores es:

s2R =

P4i=1

P2j=1

P5r=1(yijr − yij.)

IJ(R− 1) ,donde I = 4 es el número de laboratorios, J = 1 es el

número de días y R = 5 es el número de replicaciones. Esta varianza residual se puede escribircomo:

s2R =

P4i=1

P5r=1(yi1r − yi1.) +

P4i=1

P5r=1(yi2r − yi2.)

32=16s2R1 + 16s

2R2

32,de donde se obtiene

que:

s2R2 = 2s2R − s2R1 = 2 × 2.06152 − 2.14875 = 1.9743. El valor del estadístico de contraste

es:2.14875

1.9743= 1.0884, que pertenece al intervalo (F16,16;0.95 = 0.26, F16,16;0.05 = 3.92), por lo

que no se rechaza la hipótesis nula y se concluye que no ha habido un cambio en la varianzade un día a otro.

5.11 (a) Los resultados del análisis de la varianza se pueden interpretar de la siguiente manera: En latabla 3 se puede ver que el nivel crítico de los tres contrastes es p-valor=0.0000, ésto quiere decir que

13

Page 55: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

con un nivel de significación α = 0.05, por ejemplo, la temperatura, el tiempo de exposicióny la interacción entre ambas tienen un efecto significativo sobre la cantidad absorbida.Como la interacción es significativa, el efecto de la temperatura y del tiempo de exposición sobre lacantidad absorbida debe hacerse de forma conjunta. El gráfico de interaccciones que se proporcionaen el enunciado ayuda a realizar la interpretación: Para el tiempo de exposición E1: Laabsorción media es diferente para cada temperatura. La máxima absorción se consigue a T2 y lamínima a T1. Para el tiempo de exposición E2: La absorción media para cada temperaturason más parecidas. Sólo es distinta la media de la temperatura T1, que es mayor que las mediasde las otras dos. Para el tiempo de exposición E3: No existen diferencias significativas en laabsorción media de cada temperatura. Para este tiempo de exposición la temperatura no influyeen la absorción.

(b)La tabla de análisis de la varianza para el nuevo modelo es:

Fuente Suma de Grados deVariabilidad Cuadrados Libertad Varianzas F p-valorV E 8490.7 8 1061.34 63.89 0.0000V NE 299.00 18 16.61V T 8789.7 26

(c) Con los datos del experimento, se rechazará H0 cuando|zi. − zj.| > 6.99. El tratamiento quetiene mayor media es el número 2, z2. = 91.43, que es significativamente distinto de todos los demássalvo del 8, z8. = 87.06, pero éste a su vez no se puede distinguir del 7, z7. = 83.76. Luego nose puede decir que exista un único tratamiento que proporcione una absorción significativamentemayor que el resto.

(d) No se aprecian signos preocupantes de heterocedasticidad. Unicamente comentar que los resid-uos correspondientes al valor previsto zk. = 91.43 tienen mayor variabilidad que el resto. Alrepresentar los residuos frente a los tratamientos, se observa que es el tratamiento 2 el que presentamayor variabilidad. Este resultado debe ser analizado en detalle: El tratamiento 2, que es el quepresenta la mayor media de cantidad absorbida, es también el que presenta una mayor variabili-dad. Este resultado tendría que ser comentado y discutido con los expertos que han realizado elexperimento.

5.12 (a) Los resultados del análisis de la varianza se pueden interpretar de la siguiente manera: losfactores hidrocarburo e hidrógeno son significativos pero la interacción entre ellos no lo es. Lasdiferencias significativas con nivel de significación de 0.05 son:

- Para Hidrocarburos: B 6= A,B 6= C,D 6= A,D 6= C.- Para Hidrógeno: 1 6= 2, 1 6= 3, 2 6= 3.

(b) Teniendo en cuenta que la interacción no es significativa el tratamiento que proporciona elrendimiento óptimo es el correspondiente al hidrocarburo C y el hidrógeno 3. El intervalo deconfianza para el valor medio en esas condiciones es:

µ ∈ y33. ± t36;0.025bsR 1√4→ µ ∈ 29.975± 2.02√14.551

2

(c) .Se contrasta la hipótesis H0 : σ21 = σ22 frente a la alternativa H1 : σ21 6= σ22, obteniendo

un valor de F = 0.3922, que se compara con los valores obtenidos en las tablas (F12,12). Como0.3922 ∈ (0.30, 3.28),no se rechaza la hipótesis nula.

14

Page 56: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

(d) Teniendo en cuenta que x1 = 18.6875 y x2 = 20.03, el estadístico t =(16.6875− 20.03)3.36

p1/12

= −1.38.Como −1.38 está dentro del intervalo (−2.7, 2.7), no se rechaza la hipótesis nula de igualdad demedias.

5.13 El número de parámetros correspondientes a efectos principales son 14, correspondientes a inter-acciones de orden 2 son 71, correspondientes a interacciones de orden 3 son 154, y correspondientesa interacciones de orden 4 son 120. Por lo tanto, el número de parámetros totales son 359.

5.14 (a) 2.55 ≤ σ2 ≤ 8.11(b) Los efectos principales de A, B y C son significativamente distintos de cero.

(c) El intervalo pedido es: 0.0253σ2 ≤ bs2i ≤ 3.69σ2. Sustituyendo σ2 por su estimador se obtieneque 0.106 ≤ bs2i ≤ 15.47. Como todos los valores de bs2i pertenecen al intervalo construido no se puederechazar la hipótesis de homocedasticidad.

5.15 . d = (y1 − y2)− (y3 − y4) ∼ N(µ = µ1 − µ2 − µ3 + µ4;σ =q4σ2y/10);

bS2R = 104Pi=1

s2i

4×10−4 ;

t = (y1−y3)−(y3−y4)bSR√4/10 ∼ t(4× 10− 4)H0 : δ = 0;H1 : δ > 0;

Para la muestra, t = 6, 93 > t0,95(36) = 1, 69, se rechaza H0

Capítulo 6. Regresión lineal

6.1 (a) bβ0 = 2.5876; bβ1 = 0.5414; en el contraste½H0 : β1 = 0H1 : β1 6= 0 se rechaza H0; bs2R = 0.1269; en el

gráfico de los residuos frente a los valores previstos se aprecia falta de linealidad, el modelo no esadecuado.

(b) bβ = bβ0bβ1bβ2

=

2.89710.6575−01161

.6.2 (a) El modelo es vi = Hdi + ui; la estimación por mínimos cuadradros se realiza a partir de

M =P(vi −Hdi)2; bH =

PvidiPd2i

= 6.015× 10−18s−1.

(b) H ∈ ( bH ± t(n−1;0.025) × bs( bH);V ar( bH) = V arµP vidiPd2i

¶=

σ2Pd2i;H ∈ ( bH ± t(9;0.025) × bsRqP

d2i

;

bs2R =P e2i ;H ∈ (5.849× 10−18, 6.185× 10−18) segundos; bT = bH−1 = 5271× 106 años;T ∈ (5126× 106, 5422× 106) años.

15

Page 57: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

6.3 Como ui ; N(0,σ),la estimación por máxima verosimilitud es equivalente a la estimación por

mínimos cuadrados; M =P(yi − β1x1i − β2x

22i)2; bb = " bβ1bβ2

#=¡WTW

¢−1W0Y; siendo W = x11 x221

... ...x1n x22n

e Y =

y1...yn

.6.4 (a)

½H0 : β1 ≤ 0H1 : β1 > 0

; t =bβ1 − 0bs(bβ1) ; tn−2; t = 22.75 > t(98;0.05) ≈ 1.66, se rechaza H0.

(b)½H0 : β1 ≥ 1H1 : β1 < 1

; t =bβ1 − 1bs(bβ1) ; tn−2; t = −2.25 < t(98;0.95) ≈ −1.66, se rechaza H0.

6.5 Si cov(y, bβ1) = 0, al ser ambas variables normales, son independientes.cov(y, bβ1) = E h(y −E(y))³bβ1 −E(bβ1)´i , siendo yi = β0 + β1xi + ui.

y −E(y) = 1

n

Pui; bβ1 −E(bβ1) = 1

ns2x

P(xi − x)ui;

cov(y, bβ1) =P (xi − x)n2s2x

E(u2i ) =σ2

n2s2x

P(xi − x) = 0.

6.6 (a) Con x1 : yi = β0 + β1x1i + ui;bβ0 = 83.2; bβ1 = 0.56;

β1 ∈ bβ1 ± t(n−2;α/2)bs(bβ1); bs(bβ1) = bsRs1√n; bs2R = eTe

n− 2; eTe = YTY−bβTXTY = 81.6;

β1 ∈ (0.1, 1.02).Con x2 : yi = α0 + α1x2i + ²i; bα0 = 78.8; bα1 = 0.53;α1 ∈ bα1 ± t(n−2;α/2)bs(bα1); bs(bα1) = bsR

s2√n; bs2R = ²T ²

n− 2; ²T ² = YTY−bαTXTY = 58.3;

α1 ∈ (0.21, 0.85).

(b) En desviaciones a la media:

yi − y = β1(x1i − x1) + β2(x2i − x2) + εi; bβ = Ã bβ1bβ2!=³eXT eX´−1 eXT eY =

· −0.0840.597

¸.

(c) Los contrastes individuales ti =bβi − 0bs(bβi) ; tn−2−1; dV ar(bβ) = bs2R ³eXT eX´−1 ; bs2R =

εTε

n− 2− 1;

εTε = eYT eY − bβT eXT eY = 57.1;dV ar(bβ) = · 0.17 −0.13−0.13 0.12

¸t1 = −0.21 < t(7,0.025) = 2.36; t2 = 1.7 < t(7,0.025) = 2.36. Ninguno de los coeficientes essignificativo.

El contraste conjunto:

16

Page 58: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

½H0 : β1 = β2 = 0H1 : Alguno 6= 0 ; F =

bβT eXT eXbβk × bs2R ; F(2,7); F = 6.73 > F(2,7;0.05) = 4.73. Se rechaza H0.

Existe multicolinealidad provocada por la alta correlación entre x1 y x2. r12 =cov(x1, x2)

s1s2=

0.9.

(d) Regresión Y − X1 : R21 = 0.49; Regresión Y − X2 : R22 = 0.64; Regresión Y − X1,X2 :R23 = 0.64. El modelo con dos regresores y el modelo de regresión simple con X2 son similares.La selección de un modelo u otro depende del objetivo. Si el interés es estimar los coeficientesβ, son preferibles las regresiones simples. Si lo que se pretende es hacer predicciones de Y paravalores de X1,X2 se podría usar el modelo de regresión múltiple pues la multicolinealidad noafecta a las predicciones.

6.7 Coeficiente de correlación múltiple R =µP

(byi − y)2P(yi − y)2

¶1/2=sbysy.

Coeficiente de correlación lineal r =P(yi − y)(byi − y)pP

(yi − y)2pP

(byi − y)2 = sybysysby .

Se demuestraP(yi − y)(byi − y) =P(byi − y)2; entonces r = s2by

sysby =sbysy= R.

6.8 F =n− k − 1

k

R2

1−R2 = 21.12 > F(1,28;0.05) = 4.196. El efecto es significativo.

6.9 Conocidos los valores de R2 y n se calcula F =n− 21

R2

1−R2 = 294, y se compara con el valor detablas F(1,98;0.05) = 3.92. Como 294 > 3.92 se rechaza la hipótesis nula.

6.10 (a)

(H0 : β1 = β

01

H1 : β1 6= β01

, t =bβ1 − bβ01bsT√2× 0.835 ; t(2(n−2)); bsT = 0.5743;

t = 0.4986 < t(16;0.025) = 2.1199. No se rechaza H0.½H0 : β0 = β00H1 : β0 6= β00

, t =bβ0 − bβ00bsT√2× 18.27 = −0.4493; |t| < t(16;0.025). No se rechaza H0.

(b) YR =·Y1Y2

¸;XR =

·XX

¸;YR = XRβ +U; bβ = (XTRXR)−1XTRYR = 1

2(bβ1 + bβ2).

(c) bY = −6.52+2.215 log T ; dV ar(bβ) = bs2R(XTRXR)−1; bs2R = 0.2258; (XTRXR)−1 = 1

2(XTX)−1;β1 ∈bβ1 ± t(18;0.005) × bs(bβ1);β1 ∈ 2.215± 0.8836; β0 ∈ bβ0 ± t(18;0.005) × bs(bβ0);β0 ∈ −6.52± 4.1333.

6.11

6.12 (a) En la tabla 2 del enunciado: bβ2 = 51.7421; p − V alue = 0.00. La variable resistencia essignificativa.Significado de β2 : Independientemente del valor de la dureza, las gomas de resistenciaalta(+1) tienen, por término medio, unas pérdidas superiores en 2 × β2 unidades a las gomas deresitencia baja (-1). En el problema 2 × bβ2 = 103.4842. Esta diferencia se aprecia en la gráficadel enunciado. Intervalo para bβ2. β2 ∈ bβ2 ± t27;0.025 × bs(bβ2) con los datos de la tabla 2, β2∈ [40.44; 63.04].

17

Page 59: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

(b) β0: Ordenada en el origen. En este caso no tiene interés práctico. β3: Cuantifica el efecto dela interacción dureza×resistencia en las pérdidas. Mide el cambio del efecto de la dureza al utilizargomas con resistencia alta o gomas con resistencia baja. Al observar la figura del enunciado, sepuede ver que la influencia de la dureza sobre las pérdidas no depende de la resistencia. En amboscasos al aumentar la dureza, las pérdidas disminuyen en una cantidad muy similar, puesto quelas rectas que determinan esta relación son prácticamente paralelas en el rango de variación de ladureza.

Para resistencia baja : P erdidas = (β0 − β2) + (β1 − β3)×DurezaPara resistencia alta: P erdidas = (β0 + β2) + (β1 + β3)×Durezaβ1: Incremento que se produce en las pérdidas al aumentar la dureza un grado Shore, mante-niendo la resistencia de las gomas constante.

β2: Interpretado en el apartado 1.

(c) Eligiríamos el modelo del apartado 1. Ambos modelos parecen adecuados porque en ambosse rechaza el contraste general de regresión. Sin embargo en la tabla 3, se observa que la inter-acción dureza×resistencia no es significativa. Además R2modelo1 =88.5177 > R

2modelo2 = 88.1505.

La variable resistencia (significativa en el modelo 1), deja de serlo al introducir la interaccióndureza×resistencia. bs(bβ1) crece desde 5.52215 (modelo 1) hasta 34.4264 (modelo 2). Hay mul-ticolinealidad entre resistencia y dureza×resistencia que tambien ocasiona el cambio en el nivelcrítico.

(d) El gráfico de residuos frente a valores previstos no presenta anomalías que indiquen falta dehomocedasticidad.

6.13 F =n− k − 1

k

R2

1−R2 Ã F(3,11);F = 42.166 > F(3,11;0.05) = 3.5874. Se rechaza H0 en el contraste

general de regresión.

Los contrastes individuales:½H0 : βi = 0H1 : βi 6= 0 ; ti =

bβi − 0bsR√qii à t11; t1 = 8.347 > t(11;0.025) = 2.20;

t2 = 1.018 < 2.20; |t3| = 1.429 < 2.20. Solo x3 es significativa.

6.14 El contraste general de regresión (contraste de la F) proporciona un nivel crítico = 0.0000 ( p-valor)<0.01, el contraste es por lo tanto significativo, se rechaza H0; Los contrastes individualesson todos significativos (p-valor <0.01) a excepción de F 2 y V × F.

6.15 mh ∈ byh ± t(n−2;α/2) bsR√bnh ; byh = 22; bnh = n = 150; bs2R = 0.778;mh ∈ 22± 0.1411.

6.16 (a) Como ui à N(0,σ),máxima verosimilitud es equivalente a mínimos cuadrados

M =P(yi − αzi)

2; bα = PyiziPz2i

= 0.4210.

(b) El error de predicción eh = yh − byh; eh à N

Ã0,σ

s1 +

z2hPz2i

!;

18

Page 60: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

yh ∈ byh ± t(n−1;α/2)bsRs1 +

z2hPz2i= 0.525± 0.1636.

(c)½H0 : β1 = 1H1 : β1 6= 1 , t =

1.14− 1√0.0081

= 1.54 < t(15−2−1;0.025) = 2.18. No se rechaza H0.½H0 : β2 = 2H1 : β2 6= 2 , t =

1.86− 2√0.0042

= −2.16; |t| < t(15−2−1;0.025). No se rechaza H0.

(d) En general yh ∈ byh ± tn−k−1bsR√1 + vhh; en nuestro casobyh = \log(volumen) = −1.45 + 1.14 log 20 + 1.86 log 0.25 = −0.6134;vhh = x

0h

¡XTX

¢−1xh = 149.64; log(volumen) ∈ −0.6134± 2.18

√0.0031

√1 + 149.64;

volumen ∈ (0.1221, 2.4022).

6.17 (a)bβi; bαi 77.2 −50.8 2.95 5.52

ti 7.415 −5.255 2.108 3.806; los valores |ti| se comparan con

t(60−4−1;0.005) = 2.68; todas las variables son significativas a excepción de z2.

bβ0 : es la presión media de los botas de naranja para x1 = x2 = 0.; bβ1 : la presión media aumentaen 77.2 por cada unidad de incremento en x1 manteniendo x2, z2 y z3 constantes; bβ2 : lapresión media disminuye en 50.8 por cada unidad de incremento en x2 manteniendo x1, z2 yz3 constantes; bα2 : la presión media de los botes de limón es superior en 2.95 unidades a lade los botes de naranja manteniendo x1y x2 constantes; bα3 : la presión media de los botes decola es superior en 5.52 unidades a la de los botes de naranja manteniendo x1y x2 constantes.

(b) F =∆V E/2bs2R Ã F(2,55);F =

275.92/2

4.322= 7.3833 > F(2,55;0.01) ≈ 5.00. Se rechaza H0.

(c)½H0 : α2 − α3 = 0H1 : α2 − α3 6= 0 ; t =

(bα2 − bα3)− 0qdV ar(bα2 − bα3) Ã t55;

dV ar(bα2−bα3) = dV ar(bα2)+dV ar(bα3)−2ccov(bα2, bα3) = 2.023; |t| = |−1.8073| < t(55;0.005) = 2.68.No existe diferencia significativa entre los botes de limón y cola.

6.18 yh ∈ byh ± tn−k−1bsR√1 + vhh; byh = 3.305 + 0.843× 1.2 + 3.829× 1.6 + 0 + 0 = 10.446;vhh = x

0h

¡XTX

¢−1xh = 0.0639; yh ∈ 10.443± 2× 0.7113

√1 + 0.0639; yh ∈ 10.443± 1.4674.

6.19 En el modelo de regresión múltiple V ar(bβ) = σ2¡XTX

¢−1. En el problema XTX = nI, donde I

es la matriz identidad.¡XTX

¢−1= (1/n)I, luego V ar(bβi) = σ2/n.

V ar(bmh) = V ar(xTh bβ) = xThV ar(bβ)xh = (σ2/n)n;eh = yh − bmh;V ar(eh) = V ar(yh) + V ar(bmh) = σ2 + σ2.

6.20nPi=1(yi − bβ0 − bβ1xi) = 0; nP

i=1yi = bβ0 + bβ1 nP

i=1xi; y = bβ0 + bβ1x.

19

Page 61: EJERCICIOS - Escuela Técnica Superior de Ingenieros ... · de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro

mh ∈ byh ± t(n−2;α/2) bsRvuuut n

1 +

µxh − xsx

¶2 ;xh = x; byh = y;mh ∈ yh ± t(n−2;α/2)bsR√n.

6.21 mh ∈ byh ± t(8;0.025)bsR√vhhvhh = x

0h

¡XTX

¢−1xh = 10.7306;mh ∈ −4.66± 2.31× 0.64

√10.7306;mh ∈ −4.66± 4.41.

6.22 yh ∈ byh ± t(10;0.025)bsRr1 + 1bnh ; bnh = n

1 +

µxh − xsx

¶2 ;xh = −0.2231;x = −1.4262; sx = 1.1134;n = 12; bβ0 = 735.784; bβ1 = 127.457; bs2R = 253.59; yh ∈ (668.79, 745.89).

20