1_regresión lineal simple

Upload: jessica-chaparrita-de-diego

Post on 15-Jul-2015

712 views

Category:

Documents


3 download

TRANSCRIPT

UNIDAD

1

REGRESINLINEAL SIMPLE

OBJETIVO EDUCACIONALAl trmino de esta unidad el alumno ser capaz de: Interpretar el proceso metodolgico para la construccin de un modelo de regresin lineal simple, as como manipular un conjunto de datos, ya sea con una calculadora de escritorio o un programa de computadora diseado especialmente para ello o a travs de un paquete estadstico con el fin de obtener los parmetros del modelo.

1.1 IntroduccinEl trmino regresin fue usado por primera vez como concepto estadstico en 1877 por Sir Francis Galton; quien efectu un estudio que demostr que las estaturas de los hijos de padres altos tendan a retroceder, o a regresar, hacia la estatura promedio de la poblacin. Regresin fue el nombre que le dio al proceso general de predecir una variable a partir de otra.1

__________________________________________________________________________________ Estadstica II

El objetivo en el anlisis de regresin lineal es el desarrollo de un modelo estadstico que pueda ser utilizado para predecir los valores de una variable de respuesta o dependiente basados en los valores de al menos una variable independiente o explicatoria. En esta unidad enfocaremos nuestra atencin en un modelo de regresin lineal simple que utiliza una sola variable numrica independiente X para predecir la variable numrica dependiente Y. En la unidad 2

desarrollaremos un modelo de regresin mltiple que utiliza varias variables explicatorias (X1, X2, . . . . , Xk) para predecir una variable numrica dependiente Y. Diagrama de Dispersin. En el anlisis de regresin que implica una variable dependiente y una variable independiente, los valores individuales se representan en una grfica bidimensional conocida como diagrama de dispersin. En la siguiente grfica se muestran los tipos de relacin ms comunes que pueden observarse en los diagramas de dispersin. Grafica 1.1. Tipos de relacin

2

Jos Armando Rodrguez Romo

_____________________________________________________________ Regresin Lineal Simple y Correlacin

Modelo de regresin lineal simple. La naturaleza de la relacin entre dos variables puede tomar muchas formas, desde las sencillas hasta las funciones matemticas extremadamente complicadas. La relacin ms sencilla consiste en una lnea o relacin lineal, de la forma yi = 0 + 1 xi + i donde: 0 es la interseccin con el eje Y para la ecuacin poblacional; 1 es la pendiente de la ecuacin poblacional y el error aleatorio i, es el error del modelo, debe necesariamente tener una media de cero. Si ciertas suposiciones son vlidas (Normalidad, Homocedasticidad,

Independencia del Error y Linealidad), entonces la interseccin con el eje Y de la muestra (b0 ) y la pendiente de la ecuacin muestral (b1) pueden utilizarse como estimaciones de los respectivos parmetros de la ecuacin poblacional. Por consiguiente, la ecuacin de regresin de la muestra que representa al modelo de regresin lineal ser: i = b0 + b 1 x i y

1.2 Estimacin de Parmetros.El anlisis de regresin lineal simple tiene que ver con la bsqueda de la lnea recta que mejor se ajuste a los datos. El mejor ajuste significa que deseamos encontrar la lnea recta para la cual las diferencias entre los valores reales (yi) y los valores que seran estimados a partir de la lnea y ajustada de regresin ( i ) sean lo ms pequeas posible. Debido a que tales diferencias sern positivas y negativas para las diferentes observaciones, se minimiza matemticamente la expresin

n

e i2

=

i =1

n

( yi i )2 = y

i =1

[yi=1

n

i

( b0 + b1 x i )]

2

Esta tcnica matemtica utilizada para determinar los valores de b0 y b1 que mejor se ajusten a los datos observados se conoce como mtodo de mnimos cuadrados. Cualesquiera valores diferentes de b0 y b1 que sean diferentes a los determinados por el mtodo de mnimos

cuadrados tendran como resultado una suma mayor del cuadrado de las diferencias entre el valor real y el valor estimado.Jos Armando Rodrguez Romo 3

__________________________________________________________________________________ Estadstica II

Al derivar parcialmente la expresin

n

e i2 =

i =1

n

( yi i )2 = y

i =1

[yi=1

n

i

( b0 + b1 x i )] ,2

primero con respecto a b0 y despus con respecto a b1, e igualar a cero, obtenemos las siguientes dos ecuaciones conocidas como normales:

I. II .

nb0 + b1 b0

xi = yi i =1 i=1 i=1n

n

n

i=1

n

x i + b1

x i2 =

xi yi i=1

n

Las estimaciones de mnimos cuadrados

b0 y b1 de los respectivos coeficientes de regresin

0 y 1 . Dada la muestra {(xi, yi), i= 1, 2, . . . , n}, se calculan por medio de las siguientesfrmulas que resultan de resolver de manera simultanea para b0 y b1:

b1 =

n n n xi yi x i yi i = 1 i = 1 i=1

n

2

n n x i2 xi i =1 i=1

=

S xy S xx

b0 =

i=1

n

yi b xii=1

n

n

n

= y b1 x

donde:

S xx =

n

n

xi2

i=1

n xi / n i=1

2

S yy =

n

yi2

i=1

n yi / n i=1

2

S xy =

i=1

n n x i yi x i yi / n i = 1 i = 1

Propiedades de los Estimadores. Puede demostrarse que

E ( b0 ) = 0

1 x2 y V ( b0 ) = + Sxx n 2

E ( b1 ) = 1

y V ( b1 ) =

2SxxJos Armando Rodrguez Romo

4

_____________________________________________________________ Regresin Lineal Simple y Correlacin

En consecuencia b0

es un estimador insesgado de la ordenada al origen

0 y b1 es un

estimador insesgado de la pendiente verdadera 1 . Una estimacin insesgada de 2 es:

2 = s2 =

S yy b1 S x y SCE = n2 n2

Estimacin por Intervalos de Confianza para los Parmetros Intervalo de Confianza para 0 . Un intervalo de confianza del ( 1 )100% para el parmetro 0 en la lnea de regresin y i = 0 + 1 x i + i es:

b0 t

/ 2,n 2

s

i=1

n

x i2 < 0 < b0 + t / 2,n 2

nS xx

s

i=1

x

n

2 i

nS xx

Intervalo de Confianza para 1 . Un intervalo de confianza del ( 1 )100% para el parmetro 1 , en la lnea de regresin y i = 0 + 1 x i + i es:

b1 t

s/ 2,n 2

S xx

< 1 < b1 + t

s/ 2,n 2

S xx

1.3 Pruebas de Hiptesis en la Regresin Lineal Simple1) Las hiptesis son

H0 : 1 = 0

(la variacin de Y resulta de fluctuaciones aleatorias que son independientes de los valores de X)

H1 : 1 0

(existe una cantidad significativa en la variacin de Y que se explica por la variacin de X)

2) El estadstico de prueba es:

t0 =

b1 1 ,0 Sb

=

b1 1 ,0 s2 / Sx x

3) La regla de decisin para un nivel de significancia y v = n 2 grados de libertad es Rechazar H0 si t 0 > t 1 / 2 , n 2 4) Evaluar el estadstico de prueba:Jos Armando Rodrguez Romo 5

Pvalor

__________________________________________________________________________________ Estadstica II

5) Decisin: se rechaza o no se rechaza H0 6) Conclusin: el rechazo de H 0 : 1 = 0 , implica que existe una cantidad significativa en

la variacin de Y que se explica por la variacin de XPara probar la significancia de la regresin se puede utilizar el anlisis de varianza 1) Las hiptesis son

H0 : 1 = 0

(La variacin de Y resulta de fluctuaciones aleatorias que son independientes de los valores de X)

H1 : 1 0

(Existe una cantidad significativa en la variacin de Y que se explica por la variacin de X)

2) El estadstico de prueba es: f 0 =

SCR / 1 CMR = SCE /( n 2 ) CME

3) La regla de decisin para un nivel de significancia , v 1 = 1 Rechazar H0 si f 0 > f vv21, 1 4) Evaluar el estadstico de prueba:

y v 2 = n 2 es

Pvalor

Anlisis de varianza para probar la hiptesis nula H 0 : 1 = 0 Fuente de Variacin Regresin Error Total Suma de CuadradosSCR = b1 S xy

Grados de Libertad

Cuadrados MediosCMR

fo

1n2

CMR s2

SCE = S y y b1 S x y SCT = S y y

s2 =

SCE n2

5) Decisin: se rechaza o no se rechaza H0 6) Conclusin: el rechazo de H 0 : 1 = 0 implica que existe una cantidad significativa en

la variacin de Y que se explica por la variacin de X

6

Jos Armando Rodrguez Romo

_____________________________________________________________ Regresin Lineal Simple y Correlacin

1.4 Prediccin de Nuevas ObservacionesIntervalo de Confianza para Y | x 0 respuesta media Y | x0 es: Un intervalo de confianza del ( 1 )100% para la

0 t y

/ 2,n 2

s

2 1 ( x0 x ) + < E ( y 0 ) < 0 + t y n S xx

/ 2,n 2

s

2 1 ( x0 x ) + n S xx

Intervalo de Confianza para y0 respuesta y0 es:

Un intervalo de confianza del ( 1 )100% para una sola

0 t y

/ 2,n 2

s

2 1 ( x0 x ) 1+ + < y 0 < 0 + t y n S xx

/ 2,n 2

s

2 1 ( x0 x ) 1+ + n S xx

1.5 Mediciones de la Adecuacin del Modelo de RegresinAl evaluar la adecuacin de un modelo de regresin a un conjunto de datos lo que se quiere, es verificar que se cumplen las suposiciones necesarias para poder hacer un anlisis de regresin, que son: 1. Normalidad, requiere que los valores de Y estn distribuidos normalmente en cada valor de X. 2. Homocesdasticidad, requiere que la variacin alrededor de la lnea de regresin sea constante para todos los valores de X. 3. Independencia del error, requiere que el error (la diferencia entre un valor

observado y un valor estimado) es independiente de cada valor de X. 4. Linealidad, establece que la relacin entre las variables es lineal.

1.5.1 Anlisis ResidualSe definen los residuos como e i = y i i , i = 1, 2, . . . , n, donde y i es una observacin y i y y es el valor estimado correspondiente a partir del modelo de regresin. A menudo es til graficar

y los residuos: 1) en secuencia de tiempo (si se conoce), 2) contra i , y 3) contra la variableindependiente x. Estas grficas suelen verse como una de los cuatro patrones generales de laJos Armando Rodrguez Romo 7

__________________________________________________________________________________ Estadstica II

figura 1.2 El patrn a) representa la situacin normal, en tanto que los patrones b), c) y d) representan anomalas. Si los residuos aparecen como en b), entonces la varianza de las observaciones puede incrementarse con el tiempo o con la magnitud de las y i o x i . Si una grfica de los residuos contra el tiempo tiene la apariencia de b), entonces la varianza de las observaciones se incrementa con el tiempo. Las grficas contra y i y y i que se observan como c) indican tambin desigualdad de varianza. Las grficas de residuos que se observan como d) indican insuficiencia del modelo; esto es, trminos de mayor orden que deben ser aadidos al modelo. Figura 1.2 Patrones para las grficas de los residuos

8

Jos Armando Rodrguez Romo

_____________________________________________________________ Regresin Lineal Simple y Correlacin

1.5.2 Prueba de Falta de AjusteLa suma de cuadrados del error consiste en dos partes: la cantidad debida a la variacin entre los valores de y dentro de los valores dados de x y el componente que normalmente reciben el nombre de contribucin por falta de ajuste. La primera refleja la mera variacin aleatoria o el error experimental puro, mientras que el segundo componente es una medicin de la variacin sistemtica debida a los trminos de orden superior. Para calcular la suma de cuadrados del error puro debemos tener observaciones repetidas en y para al menos un nivel de x. Suponga que tenemos n observaciones en total tales quey 11 , y 1 2 , K , y 1 n1 observaciones repetidas en x1 y 2 1 , y 2 2 , K , y 2 n2 observaciones repetidas en x2

M

M

y k 1 , y k 2 , K , y k nk observaciones repetidas en xk

Donde k es el numero de valores diferentes de x. Un procedimiento computacional para separar la suma de cuadrados del error en los dos componentes que representan el error puro y la falta de ajuste es el siguiente: 1 Calcule la suma de cuadrados del error puro:

SCE puro =

( yi =1 j=1

k

ni

ij

yi ) =2

i = 1j = 1

k

ni

y i2 j -

i=1

ki

Ti2 ni

2

Reste la suma de cuadrados del error puro de la suma de cuadrados del error, por medio de lo cual se obtiene la suma de cuadrados debida a la falta de ajuste. Los grados de libertad para falta de ajuste se obtienen tambin restando: (n 2) (n k) = k 2.

Una prueba para la bondad de ajuste del modelo lineal de regresin es la siguiente: 1) Las hiptesis son

H 0 : El modelo lineal se ajusta adecuadamente a los datos

H 1 : El modelo lineal no se ajusta a los datos2) El estadstico de prueba es: f 0 =SCE SCE puro s2(k 2 )9

Jos Armando Rodrguez Romo

__________________________________________________________________________________ Estadstica II

3) La regla de decisin para un nivel de significancia , v 1 = k 2 Rechazar H0 si f 0 > f vv21, 1 4) Evaluar el estadstico de prueba:

y v 2 = n k es

Pvalor

Fuente de Variacin Regresin Error Falta de Ajuste Error Puro Total

Anlisis de varianza para probar la linealidad de la regresin Grados Suma de Cuadrados de Cuadrados Medios LibertadSCR = b1 S x y SCE = S y y b1 S x y SCE SCE puro

fo

1n2 k2

CMR

CMR s2

SCE n2 SCE SCE puro s2 =

k2 s2 = SCE puro nk

SCE SCE puro s2 ( k 2 )

SCE puro =

i = 1j = 1

k

ni

y i2 j -

i=1

ki

Ti2 ni

nk n1

SCT = S y y

Donde k = valores distintos de x, x1 , x 2 ,K , xk , de tal forma que la muestra contenga n1 valores observados de la variable aleatoria y1 correspondiente a x1, n2 valores observados de y2 correspondientes a x2, y as , sucesivamente, nk valores observados de yk correspondientes a xk, ( n = ni ,i =1 k ni

Ti =

yj=1

ij

)

5) Decisin: se rechaza o no se rechaza H0 6) Conclusin: si H 0 no se rechaza, entonces no hay razn aparente para dudar que el

modelo lineal es adecuado.

1.5.3 Coeficiente de DeterminacinEl coeficiente de determinacin muestral, r 2 expresa la proporcin de la variacin total de los valores de la variable Y que se pueden contabilizar o explicar por una relacin lineal con los valores de la variable aleatoria X.2 S xy

r

2

=

Sx xSy y

=

SCR Sy yJos Armando Rodrguez Romo

10

_____________________________________________________________ Regresin Lineal Simple y Correlacin

1.6 Transformaciones LinealesEn ocasiones encontramos que el modelo de regresin lineal

yi = 0 + 1 xi + i

es

inapropiado porque la funcin de regresin verdadera no es lineal; la necesidad de realizar una transformacin es bastante simple de diagnosticar en el caso de la regresin lineal simple debido que las grficas de dos dimensiones dan una imagen real de cmo entra cada variable en el modelo. En ciertas situaciones una funcin no lineal puede expresarse como una lnea recta utilizando una transformacin apropiada. intrnsecamente. (Ver tabla 1.1) Tabla 1.1 Algunas transformaciones tiles Forma funcional que relaciona y con x Exponencial: Potencia: Recproca:y = e x

Tales modelos lineales se llaman lineales

Transformaciny * = ln y y * = log y ; x * = log x

Forma de regresin lineal simpley * contra x y * contra x * y contra x *

y = x 1 y = + x x + x

x* =y* = 1 ; y

1 xx* = 1 x

Funcin Hiperblica: y =

y * contra x *

1.7 CorrelacinLa intensidad de una relacin entre dos variables de una poblacin por lo general se mide mediante el coeficiente de correlacin poblacional . Es costumbre referirse a la estimacin r como el coeficiente de correlacin producto-momento de Pearson, o simplemente coeficiente

de correlacin muestral; cuyos valores van desde 1, correspondiente una correlacin perfectanegativa, hasta +1, correspondiente a una correlacin perfecta positiva, de asociacin lineal entre dos variables X y Y. Se estima con el coeficiente de correlacin muestral r, donde:S xx S yy S xy S x x S yy

= r =b

=

Jos Armando Rodrguez Romo

11

__________________________________________________________________________________ Estadstica II

Ejemplo 1.1 Las cantidades de un compuesto qumico y, en gramos, que se disuelven en 100 gramos de agua a varias temperaturas, x, en C, se registran como sigue:

x C0 0 0 15 15 15 30 30 30 45 45 45 60 60 60 75 75 75

y ( gr )8 6 8 12 10 14 25 21 24 31 33 28 44 39 42 48 51 44

xy

x2

y2

a) Elaborar el diagrama de dispersin b) Obtener la ecuacin de regresin c) Interprete los valores de los coeficientes de regresin estimados b0 y b1 d) Pruebe la hiptesis:

H0 : 1 = 0

contra la alternativa

H1 : 1 0

e interprete la

decisin resultante, empleando el estadstico t e) Utilice el anlisis de varianza para probar la significancia de la regresin f) Utilice el anlisis de varianza para probar la linealidad de la regresin (prueba de falta de ajuste) g) Obtenga e interprete el coeficiente de determinacin muestral r 2 h ) Encuentre un intervalo de confianza del 95% para la respuesta media y un intervalo de prediccin del 95% para una respuesta individual para Y cuando x0 = 35 i ) Trazar una grfica de probabilidad normal de los residuales para verificar el supuesto de normalidad.

12

Jos Armando Rodrguez Romo

_____________________________________________________________ Regresin Lineal Simple y Correlacin

j ) Trazar e interpretar una grfica de los residuales versus valores predichos para verificar el supuesto de homocedasticidad. k ) Trazar e interpretar una grfica de los residuales versus orden de obtencin de los datos para verificar el supuesto de independencia. Solucin. En seguida se presenta la solucin de este problema a) Elaborar el diagrama de dispersin

Diagrama de Dispersin para Cantidad vs Temperatura60 50

Cantidad

40 30 20 10 0 0 15 30 45 60 75 90

TemperaturaSe observa en el diagrama una posible relacin lineal directa. b) Obtener la ecuacin de regresin

x C0 0 0 15 15 15 30 30 30 45 45 45 60 60 60 75 75 75 675Jos Armando Rodrguez Romo

y ( gr )8 6 8 12 10 14 25 21 24 31 33 28 44 39 42 48 51 44 488

xy0 0 0 180 150 210 750 630 720 1395 1485 1260 2640 2340 2520 3600 3825 3300 25005

x20 0 0 225 225 225 900 900 900 2025 2025 2025 3600 3600 3600 5625 5625 5625 37125

y264 36 64 144 100 196 625 441 576 961 1089 784 1936 1521 1764 2304 2601 1936 1714213

__________________________________________________________________________________ Estadstica II

S xxS xy

n = xi2 xi / n = 37125 (675 )2 / 18 = 11812.5 i =1 i=1 n n n = xi yi xi yi / n = 25005 (675 )(488 ) / 18 = 6705 i = 1 i = 1 i=1 n n 2

2

n S yy = yi / n = 17142 (488 )2 / 18 = 3911.777778 i=1 i=1 6705 488 675 b1 = = 0.567619 ( 0.567619 ) y b0 = = 5.8254 11812.5 18 18 yi2Entonces la ecuacin de regresin es:

= 5.8254 + 0.567619 x yc) Interprete los valores de los coeficientes de regresin estimados b0 y b1

b0 = 5.8254 representa el valor de la cantidad disuelta cuando la temperatura es 0 C b1 = 0.567619, significa que la cantidad disuelta aumenta en 0.567619 gramos por cada gradocentgrado que aumente la temperatura. d) Pruebe la hiptesis: H 0 : 1 = 0 contra la alternativa H 1 : 1 0 e interprete la decisin resultante, empleando el estadstico ti) Las hiptesis son

H 0 : 1 = 0 (la variacin de la cantidad disuelta resulta de fluctuaciones aleatorias queson independientes de los valores de la temperatura)

H1 : 1 0

(existe una cantidad significativa en la variacin de la cantidad disuelta que se explica por la variacin de la temperatura)b1 0 Sb b1 0 s2 / Sx x

ii) El estadstico de prueba es:

t0 =

=

iii) La regla de decisin para un nivel de significancia

= 0.05 y v = n 2 = 16 gradosPvalor 0.05

de libertad es Rechazar H0 si t 0 > 2.12 iv) Evaluar el estadstico de prueba:

2 = s2 =14

S yy b1 S x y n 2

=

3911.777778 0.567619( 6705 ) 16

= 6.6183

Jos Armando Rodrguez Romo

_____________________________________________________________ Regresin Lineal Simple y Correlacin

t0 =

b1 0 s2 / Sx x

=

0.567619 0 6.6183 11812.5

= 23.9803

v) Decisin: como t 0 = 23.9803 > 2.12 , se rechaza H0 vi) Conclusin: el rechazo de H 0 :

1 = 0 , implica que existe una cantidad significativa

en la variacin de la cantidad disuelta que se explica por la variacin de la temperaturae) Utilice el anlisis de varianza para probar la significancia de la regresini) Las hiptesis son

H 0 : 1 = 0 (la variacin de la cantidad disuelta resulta de fluctuaciones aleatorias queson independientes de los valores de la temperatura)

H1 : 1 0

(existe una cantidad significativa en la variacin de la cantidad disuelta que se explica por la variacin de la temperatura)

ii) El estadstico de prueba es:

f0 =

SCR / 1 CMR = SCE /( n 2 ) CME

iii) La regla de decisin para un nivel de significancia

= 0.05 y v = n 2 = 16 grados

de libertad es Rechazar H0 si f 0 > 4.49 iv) Evaluar el estadstico de prueba: Anlisis de la Varianza ----------------------------------------------------------------------------Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor ----------------------------------------------------------------------------Modelo 3805.89 1 3805.89 575.06 0.0000 Residuo 105.892 16 6.61825 ----------------------------------------------------------------------------Total (Corr.) 3911.78 17 v) Decisin: como F = 575.06 > 4.49 Pvalor=0.0000 < 0.05 se rechaza H0 vi) Conclusin: la regresin es significativa, tal como se obtuvo en la prueba t, existe una

Pvalor 0.05

cantidad significativa en la variacin de la cantidad disuelta que se explica por la variacin de la temperatura) f) Utilice el anlisis de varianza para probar la linealidad de la regresin (prueba de falta de ajuste)Jos Armando Rodrguez Romo 15

__________________________________________________________________________________ Estadstica II

i.

Las hiptesis son

H 0 : El modelo lineal se ajusta adecuadamente a los datos

H 1 : El modelo lineal no se ajusta a los datosii. iii. El estadstico de prueba es: f 0 =SCE SCE puro s2(k 2 )

La regla de decisin para un nivel de significancia , v 1 = k 2 es Rechazar H0 si f 0 > 3.26

y v2 = n k

Pvalor 0.05

iv.

Evaluar el estadstico de prueba:Anlisis de Varianza con Falta de ajuste -------------------------------------------------------------------------------Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor -------------------------------------------------------------------------------Modelo 3805.89 1 3805.89 575.06 0.0000 Residuo 105.892 16 6.61825 -------------------------------------------------------------------------------Falta de ajuste 36.5587 4 9.13968 1.58 0.2420 Error puro 69.3333 12 5.77778 -------------------------------------------------------------------------------Total (Corr.) 3911.78 17

v. vi.

Decisin: el valor de f = 1.58 es menor que 3.26, NO se Rechaza H0 Conclusin: por lo que el modelo lineal es adecuado

g) Obtenga e interprete el coeficiente de determinacin muestral r 2

r

2

=

2 S xy

Sx xSy y

=

( 6705 ) 2 ( 11812.5 )( 3911.777778 )

= 0.9729 = 97.29%

Esto significa que el 97.29% de la variacin en la cantidad del compuesto qumico que se disuelve en 100 gramos de agua se explica por la variacin en la temperatura. h ) Encuentre un intervalo de confianza del 95% para la respuesta media y un intervalo de prediccin del 95% para una respuesta individual para Y cuando x0 = 35

0 = 5.8254 + 0.567619 x 0 = 5.8254 + 0.567619( 35 ) = 25.6921 yIntervalo de Confianza del 95% para la respuesta media, E ( y ) es:25.6921 2.12( 2.5726 ) ( 35 37.5 ) 2 1 + < E ( y ) < 25.6921 + 2.12( 2.5726 ) 18 11812.5 ( 35 37.5 ) 2 1 + 18 11812.5

24.4005 < E(y) < 26.983716 Jos Armando Rodrguez Romo

_____________________________________________________________ Regresin Lineal Simple y Correlacin

Intervalo de Confianza del 95% para una sola respuesta y0 es:25.6921 2.12( 2.5726 ) 1+ 1 ( 35 37.5 ) 2 + < y 0 < 25.6921 + 2.12( 2.5726 ) 18 11812.5 1+ 1 ( 35 37.5 ) 2 + 18 11812.5

20.1193 < y0 < 31.2649

i ) Trazar una grfica de probabilidad normal de los residuales para verificar el supuesto de normalidad. En la grfica se observa que los puntos siguen la lnea recta, por lo que podemos suponer que los residuales se distribuyen en forma normal.

Grfico de Probabilidad Normal99.9 99 95 80 50 20 5 1 0.1-4.4 -2.4 -0.4 1.6 3.6 5.6

porcentaje

ResidualesResiduo estudentizado Grfico de Residuos2.9 1.9 0.9 -0.1 -1.1 -2.10 10 20 30 40 50

j ) Trazar e interpretar una grfica de los residuales versus valores predichos para verificar el supuesto de homocedasticidad. No se observa ningn patrn en la grfica en forma de embudo, por lo que se satisface el supuesto de homocedasticidad.

Y_Cant predichok ) Trazar e interpretar una grfica de los residuales versus orden de obtencin de los datos para verificar el supuesto de independencia.

Residuo estudentizado

Grfico de Residuos2.9 1.9 0.9 -0.1 -1.1 -2.10 3 6 9 12 15 18

No se observa ningn patrn anormal en la grfica, por lo que se satisface el supuesto de independencia.

nmero de fila

Jos Armando Rodrguez Romo

17

__________________________________________________________________________________ Estadstica II

EJERCICIOS DE LA UNIDAD I1. Las calificaciones de un grupo de estudiantes en su reporte de medio ao (x) y en los exmenes finales (y) fueron los siguientes:x y 77 82 50 66 71 78 71 44 81 55 94 85 96 99 96 95 96 97 99 99 67 70 67 68 81 70

(x0 = 85)50 60

2. Se llev a cabo un estudio acerca de la cantidad de azcar refinada obtenida (y), mediante un cierto proceso a varias temperaturas (x), diferentes. Los datos se codificaron y registraron en la siguiente tabla.x y 1.0 8.1 1.1 7.8 1.2 8.5 1.2 8.8 1.2 8.2 1.3 9.6 1.3 9.9 1.4 9.5 1.5 8.9 1.6 8.6 1.7 10.2 1.8 9.3 1.9 9.2

(x0 = 1.75)2.0 10.5

3. En tipo de espcimen metlico de prueba, la resistencia normal (x) est funcionalmente relacionada con la resistencia de corte (y). experimentales codificados para las dos variables:x y 26.8 26.5 25.4 27.3 28.9 24.2 23.6 27.1 27.7 23.6 23.9 25.9 24.7 26.3 28.1 22.5 26.9 21.7 27.4 21.4

El siguiente es un conjunto de datos (x0 = 24.5)22.6 25.8 25.6 24.9

4. Las cantidades de slidos eliminados (y), en gramos, de un material particular cuando se le expone a periodos de secado de diferentes duraciones (x), en horas, se registraron como sigue:x y x y 4.4 4.4 13.1 14.2 4.5 9.0 4.5 4.8 4.8 5.5 5.5 5.7 5.7 11.5 10.4 11.5 13.8 14.8 12.7 15.1 5.9 9.9 5.9 12.7

(x0 = 6.0)

6.3 6.3 6.9 6.9 7.5 7.5 7.8 7.8 13.8 16.5 16.4 15.7 17.6 16.9 18.3 17.2

5. Se aplica una prueba de ubicacin de matemticas a todos los alumnos de primer grado que estn ingresando a una institucin de educacin superior. No se admiten a los que obtienen una calificacin inferior a 35 en el examen de matemticas y se les coloca en un curso de regularizacin. Las calificaciones del examen de ubicacin y del examen final de 20 (x0 = 60)40 56 60 71 55 68 60 71 65 36 40 47 35 11 55 53 60 70 50 68 90 79 65 57 35 59 50 79

estudiantes fueron las siguientes:x y x y 50 53 90 54 35 41 80 91 35 61 60 48

18

Jos Armando Rodrguez Romo