tema 2 regresión y correlación-enviar a los alumnos (1)
Post on 07-Jul-2018
216 Views
Preview:
TRANSCRIPT
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
1/78
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
2/78
Exploración de los datos
)ntes de realizar cualquier análisis estad5stico formal, primero debemos utilizar un diarama dedispersión para explorar los datos de manera visual. (odemos examinar el diarama de dispersión
para ver si existen patrones diferentes y valores at5picos, que son los puntos que se alejan muc6ode los demás valores. 7i los puntos raficados muestran un patrón distintivo, podemos concluir que existe una correlación entre las dos variables en una muestra de datos pareados
/.// /.0/ .// .0/ 4.// 4.0/
/.//
/.0/
.//
.0/
4.//
4.0/
/.0
/.20
.//
.20.0/
4.//
Pizza
Metro
FIGURA 2-1. 8iarama de dispersión de los preciosde la pizza y del boleto del metro.
Coefciente de correlación lineal(uesto que las conclusiones que se basan en el examen visual de los diaramas de dispersión sonmuy subjetivas, necesitamos medidas más objetivas. Empleamos el coeficiente de correlación
lineal r , que sirve para detectar patrones lineales.
D EF I N I C I Ó N
El coeficiente de correlación lineal r mide la fuerza de la relación lineal entre los valores
cuantitativos pareados x y y en una muestra. El coeficiente de correlación lineal
también se conoce como coeficiente de correlación prodcto !o!ento de Pear"on, en
6onor de Karl Pearson &301−-2', quien lo desarrolló oriinalmente.
2
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
3/78
(uesto que el coeficiente de correlación lineal r se calcula utilizando datos muestrales, se trata
de un estadístico muestral empleado para medir la fuerza de la correlación lineal entre x y
y . 7i tuviéramos cada par de los valores poblacionales de x y y , el resultado de la
fórmula de correlación lineal r ser5a un parámetro poblacional , representado por ρ &laletra riea r6o'.Objetivo
8eterminar si existe una correlación lineal entre dos variables.
Notación para la ecuación de regresión
n=¿ número de pares de datos muestrales.
Σdenota la suma de los elementos indicados.
Σ x=¿ suma de todos los valores de x .
Σ x2=¿ indica que cada valor de x debe elevarse al cuadrado y que después deben
sumarse.
( Σ x )2=¿ indica que los valores de x deben sumarse para lueo elevar el total al
cuadrado. Es sumamente importante evitar confundirse entre Σ x2
y ( Σ x )2
.
Σ xy=¿ indica que cada valor de x debe multiplicarse primero por su valor
correspondiente de y . 8espués de obtener todos estos productos, se calcula la
suma.
r=¿ coeficiente de correlación lineal para datos muestrales.
ρ=¿ coeficiente de correlación lineal para una población de datos pareados.
Requisitos
9uando nos enfrentamos a un conjunto de datos cuantitativos muestrales pareados, siempre se
puede calcular el coeficiente de correlación lineal r , pero se deben satisfacer los siuientes
requisitos al utilizar los datos muestrales para llear a una conclusión acerca de una correlaciónen la población.
3
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
4/78
1. !a muestra de datos pareados ( x , y ) es una muestra aleatoria simple de datos cuantitativos.
&Es importante que los datos muestrales no se 6ayan reunido por alún método inadecuado,como una muestra de respuesta voluntaria'.
2. El examen visual del diarama de dispersión debe confirmar que los puntos se acercan al patrón de una l5nea recta.
#. 9omo los resultados se pueden ver muy afectados por la presencia de valores at5picos, esnecesario eliminar cualquier valor at5pico, si se sabe que se trata de un error. !os efectos de
cualquier otro valor at5pico deben tomarse en cuenta calculando r con y sin el valor
at5pico incluido.
órmulas para calcular r
Fórmula 2-1
r=Corr ( x , y )=Cov ( x , y )S x S y
= Σ ( x i−´ x ) ( y i−´ y )√ [ Σ ( xi−´ x )2 ][ Σ ( y i− ́y )2 ]
Fórmula 2-2
r= Σ x i y i−( Σ xi ) ( Σ y i )/n
√ [ Σ x i2−( Σ x i )2/n ] [ Σ y i2−( Σ y i )2/n ]
Fórmula 2-3
r=
n ( Σ x i y i )−( Σ x i ) ( Σ y i )
√ n ( Σ xi2 )−( Σ xi )
2
√ n ( Σ yi2 )−( Σ y i )
2=¿
Fórmula 2-4
r= Σ( z x z y)
n−1
:tras fórmulas que son ;equivalentes< para el cálculo de r en el sentido de que todas
producen los mismos valores.
r= 1
(n−1)s x s y∑i=1
n
( x i−´ x ) ( y i−´ y ) ; r= 1
n−1∑i=1
n
[( x i−´ xs x )( y i− ́y
s y )]; r= s xys x s y
4
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
5/78
donde z x es la puntuación z para el valor muestral x , y
z y es la puntuación z
para el valor muestral y .
!nterpretación del coe"iciente de correlación lineal r
=so de la Tabla 2-A &al final del tema' para interpretar r . 7i el valor absoluto de r , que se denota
por |r| , excede el valor en la Tabla 2-A, se concluye que existe una correlación lineal. 8e lo
contrario, no existe evidencia suficiente para sustentar la conclusión de una correlación lineal.
ADVERTEC!A
>ecuerde que los métodos utilizados se aplican a una correlación lineal . 7i concluye que, al parecer, no existe una correlación lineal, es posible que exista alún otro tipo de relación que no
es lineal.
Redondeo del coefciente de correlación lineal r
>edondee el coeficiente de correlación lineal r a tres decimales &de manera que su valor
pueda compararse directamente con los valores cr5ticos de la Tabla 2-A'. )l calcular a manor y otros estad5sticos, 6acer un redondeo a la mitad de un cálculo suele enerar errores
importantes, as5 que trate de almacenar los resultados inmediatos y redondee solo 6asta el final.
"ropiedades del coefciente de correlación lineal r
1. El valor de r está siempre entre − y , inclusive. Es decir,
−1≤ r ≤1 .
2. El valor de r no cambia si todos los valores de cualquiera de las variables se convierten
a una escala diferente.
#. El valor de r no se ve afectado por la elección de x o y . Intercambie todos los
valores de x y y , y el valor de r no sufrirá cambios.
$. r mide la fuerza de una relación lineal. #o está dise*ada para medir la fuerza de una
relación que no sea lineal.
5
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
6/78
%. r es muy sensible a los valores at5picos, en el sentido de que un solo valor at5pico puede
afectar su valor de manera drástica.
Valores de r # sus implicaciones
C$lculo del coefciente de correlación lineal r
6
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
7/78
?ay varios métodos para calcular el valor del coeficiente de correlación lineal r , pero solo es
necesario utilizar un método. Se recomienda ampliamente el uso de un programa de cómputocomo el Excel . 7i es absolutamente necesario realizar cálculos a mano, se recomienda el uso de laFór!la 2-#.
E%emplo 1& &'lclo de r por !edio de la fór!la 2-# . 9on base en la Fór!la 2-#, calcule
el valor del coeficiente de correlación lineal r para los precios pareados de la pizza y del
boleto del "etro listados en la Tabla 2-1.
'olución( 7i se utiliza la Fór!la 2-#, el valor de r se obtiene como se muestra a
continuación. :bserve que la variable x se utilizó para el precio de la pizza, y que la variable
y se utilizó para el precio del boleto del metro. 9omo 6ay seis pares de datos n=6 . En la
Tabla 2-2 aparecen otros valores requeridos.
TABLA 2-2 Cálculo de r con la fórmula 2 3
Año
Precio de
pizza (
x i¿
+arifa del
"etro
i
y¿¿
x i2
y i2 x i y i
-/ /.0 /.0 /./440 /./440 /./440
-12 /.20 /.20 /.440 /.440 /.440
-3 .// .// .//// .//// .////
--0 .40 .20 .040 .3440 .310
4//4 .10 .0/ 2./40 4.40// 4.40/
4//2 4.// 4.// @./// @./// @.////
Σ xi=¿
.0/
Σ y i=¿ .
20
Σ x i2=¿
-.11
Σ y i2=¿ -.
410
Σ x i y i=¿
-.@010
9on los valores de la Tabla 2-2 y la Fór!la 2-#, calculamos r como siueA
r= n ( Σ x i y i )−( Σ x i ) ( Σ y i )
√ n ( Σ xi2)−( Σ xi )
2
√ n ( Σ yi2 )−( Σ y i )
2=
6 (9.4575 )−(6.50 ) (6.35 )
√ 6 (9.77 )−(6.50 )2
√ 6 (9.2175 )−(6.35 )2
7
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
8/78
r= 15.47
√ 16.37√ 14.9825=0.988.
E%emplo 2& &'lclo de r por !edio de la fór!la 2-1 . 9on base en la Fór!la 2-1, calcule
el valor del coeficiente de correlación linealr
para los precios pareados de la pizza y del
boleto del "etro listados en la Tabla 2-# y los datos de las medias ´ x y ´ y .
TABLA 2-# Cálculo de r con la fórmula 2 1
Año
Precio de
pizza (
x i¿
+arifa del
"etro
i
y¿¿
( x i−´ x ) ( y i−´ y ) ( x i−´ x )2 ( y i−´ y )
2 ( x i−´ x ) ( y i−´ y )
-/ /.0 /.0 −/.-222 −/.-/32 /.31 /.340 /.3@13
-12 /.20 /.20 −/.1222 −/.1/32 /.0213 /.0/1 /.0-@
-3 .// .// −/./322 −/./032 /.//- /.//2@ /.//@-
--0 .40 .20 /.1 /.4-1 /./413 /./30 /./@3
4//4 .10 .0/ /.1 /.@@1 /.@@@@ /.-0 /.4-@@
4//2 4.// 4.// /.-1 /.-@1 /.3@/2 /.331 /.324
SUM (.%) (.#% ).)))) ).)))) 2.*2+# 2.$,*1 2.%*+#
´ x= Σ x i
n
=6.50
6
=1.0833, ´ y= Σ y i
n
=6.35
6
=1.0583 .
r= Σ ( x i−´ x ) ( y i−´ y )
√ [ Σ ( xi−´ x )2 ] [ Σ ( y i− ́y )2 ]=
2.5783
√ (2.7283)(2.4971)=
2.5783
2.6101=0.988
Des)iación est$ndar de una muestra
!a desviación estándar es la medida de variación que más se utiliza en estad5stica.
D EF I N I C I Ó N
8
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
9/78
!a de"iación e"t'ndar de un conjunto de valores muestrales, denotada por s , es la
medida de variación de los valores con respecto a la media. Es un tipo de desviación
promedio de los valores con respecto a la media, que se calcula utilizando las Fór!la" 2-% y2-(, que alebraicamente son iuales.
Fórmula 2-*
s=√ Σ ( x−´ x )
2
n−1
Fórmula 2-+
s=√n Σ ( x2 )− ( Σ x )2
n (n−1)
E%emplo 3& &'lclo de r por !edio de la fór!la 2-$ . 9on base en la Fór!la 2-$, calculeel valor del coeficiente de correlación lineal r para los precios pareados de la pizza y del
boleto del "etro incluidos en la Tabla 2-$.
=sando la Fór!la 2-% y de la Tabla 2-#, obtenemos las desviaciones de x y de yA
s x=√ Σ ( xi−´ x )
2
n−1 =√ 2.72836−1 =0.7387
s y=
√ Σ ( y i− ́y )
2
n−1 =√
2.4971
6−1 =0.7067
TABLA 2-$ Cálculo de r con la fórmula 2 4
Año
Precio
de pizza
( x i¿
+arifa del
"etro
i
y¿¿
z x= x i−´ x
s x z y=
y i−´ y
s y z x ∙ z y
-/ /.0 /.0 −.42@ −.4302 .42-
-12 /.20 /.20 −/.--41 −.//42 /.--@-
-3 .// .// −/.43 −/./340 /.//-2
--0 .40 .20 /.4401 /.@43 /./-2
4//4 .10 .0/ /.-/40 /.40/ /.0@
4//2 4.// 4.// .4@/ .2240 .02
9
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
10/78
SUMA .0/ .20 Σ ( z x z y )=¿ @.
-2-/
´ x= Σ x i
n =
6.50
6=1.0833, ´ y=
Σ y i
n =
6.35
6=1.0583 .
7i sumamos Σ ( z x z y )=¿ @.-2-/ de la Tabla 2-$, el valor de r se calcula utilizando la
Fór!la 2-$, como se muestra a continuación.
r= Σ( z x z y)
n−1=
4.939
6−1=0.988
!nterpretación del coefciente de correlación lineal r
8espués de calcular el coeficiente de correlación lineal
r
, necesitamos interpretar susinificado. (odemos basar nuestra interpretación en un valor ( &(robabilidad' o en un valor cr5tico de la Tabla 2-A . )l utilizar dic6a tabla, concluimos que existe una correlación lineal si|r| excede el valor utilizado en la tabla. Esto equivale a la condición de que r es mayor
que el valor de la Tabla 2-A o menor que el neativo del valor de dic6a tabla. Es útil considerar los valores cr5ticos de la Tabla 2-A como positivos y neativos. (ara los datos del precio de la
pizza y del boleto del "etro, la tabla produce r=0.811 ¶ seis pares de datos y un nivel de
sinificancia de /./0'. )s5, podemos comparar el valor calculado de r=0.988 con los valores
de ±0.811 , como se observa en la Fira 2-2.
FIGURA 2-2. Balores cr5ticos de la Tabla 2-A y el valor calculado de r.
!nterpretación de r( Variación explicada
10
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
11/78
7i concluimos que existe una correlación lineal entre x y y , podemos obtener una
ecuación lineal que exprese y en términos de x , y la ecuación puede utilizarse para
predecir valores de y a partir de los valores dados de x .
/l alor de r2
e" la proporción de la ariación de y 0 "e
eplica por la relación lineal entre x y .
E%emplo 4& 3ariación eplicada. 9on los datos de los precios de la pizza y del boleto del
"etro, encontramos que el coeficiente de correlación lineal es r=0.988 . CDué proporción de
la variación en el precio del boleto del "etro puede explicarse por la variación en el precio de larebanada de pizza
'olución(
9on r=0.988 , obtenemos r2=0.976
!nterpretación& 9oncluimos que /.-1 &o aproximadamente el -3F' de la variación en el precio de un boleto del "etro puede explicarse por la relación lineal entre los precios de la pizzay del boleto del "etro. Esto implica que cerca del 4F de la variación de los precios del boleto del"etro no puede explicarse por los precios de la pizza.
"rue,a de ipótesis para una correlación lineal .uso del estad/stico
de prue,a r0
Notación
n=¿ #úmero de pares de datos.
r=¿ 9oeficiente de correlación lineal para una muestra de datos pareados.
ρ=¿ 9oeficiente de correlación lineal para una población de datos pareados.
Requisitos
7e aplican los mismos requisitos que pare el coeficiente de correlación lineal.
#ipótesis H
0: ρ=0
o existe una correlación lineal'
H 1: ρ ≠0
&Existe una correlación lineal'
11
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
12/78
$stad%stico de prueba & r
3alore" cr4tico"5 >em5tase a la Tabla 2-A.
Conclusión
• 7i |r|>¿ el valor cr5tico de la Tabla 2-A, rec6ace H 0 y concluya que no existe
evidencia suficiente para sustentar la afirmación de una correlación lineal.
• 7i |r|≤ el valor cr5tico de la Tabla 2-A, no rec6ace H 0 y concluya que no 6ay
evidencia suficiente para sustentar la afirmación de una correlación lineal.
E%emplo *& Preba de 6ipóte"i" con lo" precio" del boleto del Metro de la pizza . =tilicelos datos pareados de los precios de la pizza y del boleto del "etro para someter a prueba laafirmación de que existe una correlación lineal entre el precio de una rebanada de pizza y el
precio de un boleto del "etro. =tilice un nivel de sinificancia de /./0.
'olución(
)firmar que existe una correlación lineal equivale a aseverar que el coeficiente de correlación
lineal población ρ es diferente de /. (or lo tanto, tenemos las siuientes 6ipótesisA
H 0: ρ=0
o existe una correlación lineal'
H 1: ρ ≠0
&Existe una correlación lineal'
El estad5stico de prueba es r=0.988 . El valor cr5tico de r=0.811 se encuentra en la
Tabla 2-A con n=6 y α =0.05 . (uesto que |0.988|>0.811 , rec6azamos H 0: ρ=0 .
&El rec6azo de ;ninuna correlación lineal< indica que existe una correlación lineal'.
!nterpretación& 9oncluimos que existe evidencia suficiente para sustentar la afirmación deuna correlación lineal entre los precios de una rebanada de pizza y los precios del boleto del"etro.
todo del )alor " para la prue,a de ipótesis deuna correlación
El método de prueba de 6ipótesis anterior supone cálculos relativamente sencillos. !os (aquetesde cómputo suelen utilizar el método del valor P basado en una prueba t . !os siuientes son loscomponentes fundamentales de una prueba t.
12
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
13/78
"rue,a de ipótesis para una correlación lineal .uso del )alor " deuna prue,a t0
#ipótesis H
0: ρ=0
o existe una correlación lineal'
H 1: ρ ≠0
&Existe una correlación lineal'
$stad%stico de prueba
t = r
√ 1−r2
n−2
.
3alor PA =tilice un prorama de cómputo o la Tabla 2-B &al final del tema' con n−2 rados
de libertad para calcular el ( correspondiente al estad5stico de prueba t .
Conclusión
• 7i el valor ( es menor que o iual al nivel de sinificancia, rec6ace H 0 y concluya que
existe evidencia suficiente para sustentar la afirmación de una correlación lineal.
• 7i el valor de ( es mayor que el nivel de sinificancia, no rec6ace H
0 y concluya que no
6ay evidencia suficiente para sustentar la afirmación de una correlación lineal.
E%emplo +& Preba de 6ipóte"i" con lo" precio" del boleto del Metro de la pizza . =tilicelos datos pareados de los precios de la pizza y del boleto del "etro y utilice el método del valor ( para someter a prueba la afirmación de que existe una correlación lineal entre el precio de unarebanada de pizza y el precio de un boleto del "etro. =tilice un nivel de sinificancia de /./0.
'olución(
)firmar que existe una correlación lineal equivale a aseverar que el coeficiente de correlación
lineal población ρ es diferente de /. (or lo tanto, tenemos las siuientes 6ipótesisA
H 0: ρ=0 o existe una correlación lineal' H
1: ρ ≠0
&Existe una correlación lineal'
El coeficiente de correlación lineal es r G /.-33 y n G &porque 6ay seis pares de datosmuestrales'. 8e manera que el estad5stico de prueba esA
13
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
14/78
t = r
√ 1−r2
n−2
= 0.988
√ 1−0.9882
6−2
=12.793
!os paquetes de cómputo utilizan mayor precisión para obtener el estad5stico de prueba másexacto de t G4.-4. 9on @ rados de libertad, la Tabla 2-B &al final del tema' indica que elestad5stico de prueba t G 4.1-2 produce un valor P que es menor que /./. !os paquetes decómputo dan un valor ( de /.///44. 9omo el valor de ( es menor que el nivel de sinificancia de/./0, rec6azamos ?/.
!nterpretación& 9oncluimos que existe evidencia suficiente para sustentar la afirmación deuna correlación lineal entre el precio de una rebanada de pizza y el precio del boleto del metro.
so del Excel para o,tener el coefciente de
correlación lineal el estad/stico de prue,a t # el)alor de la pro,a,ilidad ."0
"rimer paso. 9apturar la tabla de datos anterior en Excel y seleccionar del menú principal laopción 7ato"8An'li"i" de dato". En la ventana de An'li"i" de dato" se selección Rere"ión.
En la ventana de ;>eresión< seleccionar en Rango de entrada los datos de (>E9I: 8E(IHH) &)A)1', en Rango ! de entrada se seleccionan los datos de +)>I) 8E! "E+>:&JAJ1', marcar la opción de Rótulos si queremos reservar también las celdas con los nombres delas variablesK y en "pciones de salida marcamos En una #o$a nuevaK se da clic en el botón %ceptar .
14
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
15/78
8espués de 6acerlo, obtenemos los siuientes resultadosA
2.2. Conceptos básicos de regresión
En esta sección, describimos la ecuación de la recta que se ajusta mejor a los datos muestrales pareados. 8ic6a fórmula describe alebraicamente la relación entre las dos variables. ) la rectacon el mejor ajuste se le conoce como recta de reresión y su ecuación se denomina ecuación dereresión. Es posible raficar la ecuación de reresión en un diarama de dispersión paradeterminar de manera visual qué tan bien se ajusta a los datos. +ambién se presentan métodos para 6acer predicciones a partir de la ecuación de reresión.
15
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
16/78
'n problema de regresión simple
(ara explicar los conceptos básicos, empezaremos con un experimento para determinar la
relación entre dos variables x y y , x actúa como una variable independiente cuyos
valores son controlados por el experimentador, mientras que y
depende de x
, y está sujetaa las fuentes incontrolables de error.
!a variable independiente o controlada también se llama la variable predictora y se
denota por x . El efecto o variable de respuesta se denota por y.
!a dependencia de y sobre x es unidireccional, por lo que trataremos principalmente con
situaciones en las que los valores de x se establecen sin un error apreciable. &9asos en los que
tanto x como y son ajenas a la voluntad del experimentador y sólo pueden ser observados
por muestreo aleatorio'. (ara una discusión más concreta suponemos que n automóviles
"ustan se utilizan en un experimento. !a cantidad de óxidos de nitróeno que cada ve65culo
emite se mide primero sin el aditivo. ) continuación, una determinada cantidad x del aditivo
se utiliza en un tanque de asolina lleno y se mide de nuevo la emisión de óxidos de nitróeno.
Enseuida la reducción en la cantidad de óxidos se reistra como la variable de respuesta y .
!os datos se pueden oranizar como en la Tabla 2-%A
TABLA 2-%.F9RMA 7/ L9: 7AT9:
9antidad de aditivo x x
1 x
2 x
3 ⋯ xn
>educción de óxidos de nitróeno
y y
1 y2 y3 ⋯ yn
9omo ejemplo numérico, consideramos los datos de la Tabla 2-( como las observacionesobtenidas en un experimento con n=10 automóviles. !a cantidad de aditivo x y la
reducción de óxidos de nitróeno y se mide con las unidades adecuadas. 7iete diferentes
niveles de x se incluyen en el experimento, y alunos de estos niveles se repiten para más de
un automóvil. =n vistazo a la tabla nos muestra que y eneralmente aumenta con x , pero
16
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
17/78
es dif5cil decir muc6o más acerca de la forma de la relación simplemente viendo estos datostabulares.
TABLA 2-(.7AT9: 7/ LA &A;TI7A7 7/ A7ITI39 < LA R/7U&&I=; 7/
9>I79: 7/ ;ITR=G/;9 /; 1) AUT9M=3IL/:
9antidad de aditivo x 4 2 @ @ 0 1
>educción de óxidos de nitróeno
y 4. 4.0 2. 2./ 2.3 2.4 @.2 2.- @.@ @.3
Representación de los datos
En el estudio de la relación entre dos variables, el primer paso lóico es representar los datoscomo puntos. !a fiura resultante, llamada diarama de dispersión, indica si los puntos searupan en torno a una l5nea recta o a una curva y también nos dan una impresión visual de la
manitud de la variación con respecto a la l5nea o a la curva. En la mayor5a de las situaciones no6ay una relación teórica a priori conocida para aplicarla, as5 que la información representada enel diarama de dispersión es útil en la búsqueda de un modelo matemático adecuado.
El diarama de dispersión de las observaciones en la Tabla 2.( aparece en la Fira 2.#. Estediarama de dispersión revela que la relación es aproximadamente lineal por naturalezaK es decir,los puntos parecen aruparse en torno a una l5nea recta. 8ebido a que una relación lineal es larelación más simple para manejarse matemáticamente, se presentan los detalles del análisis dereresión estad5stica para este caso. :tras situaciones a menudo pueden reducirse a este caso por la aplicación de transformaciones adecuadas para una o ambas variables.
Es importante 6acer el siuiente recordatorioA
El primer paso en el análisis
En la investiación de la relación entre dos variables, la ráfica de un diagrama de
dispersión es un importante paso previo que se debe realizar antes de comenzar un análisis
estad5stico formal. =n diarama de dispersión da una idea de la naturaleza de la relación
mostrada por los datos.
17
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
18/78
Fira 2.#. 8iarama de dispersión
2&2&1& Re5resión lineal simple por m/nimos cuadrados
Objetivo
9alcular la ecuación de una recta de reresión.
Notación para la ecuación de regresión
Parámetro poblacional Estadstico muestral
Intersección de la ecuación de regresión con el eje
y β
0 b
0
Pendiente de la ecuación de regresión β
1 b
1
Ecuación de la recta de regresión ̂y= β
0+ β
1 x ̂y=b
0+b
1 x
Requisitos
1. !a muestra de datos pareados & x , y ¿ es una muestra aleatoria de datos cuantitativos.
2. El examen visual del diarama de dispersión indica que los puntos se aproximan al patrón deuna l5nea recta.
18
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
19/78
#. !os valores at5picos pueden tener un ran efecto sobre la ecuación de reresión, por lo que sedebe eliminar cualquier valor at5pico, si se sabe que es un error. Es importante tomar encuenta los efectos de cualquier valor at5pico que no sea un error conocido.
órmulas para calcular la pendiente b1 y la intersección con el eje y( b0 (
en la ecuación de regresión ̂y=´ y−b
1 ´ x
Fórmula 2-6 Pendiente5 b1=rs y
s x
8onde r es el
coeficiente de correlación
lineal,s y es la
desviación estándar de los
valores de y , ys x
es la desviación estándar
de los valores de x .
Formula 2-7 Inter"ección con el e?e y5 b0=´ y−b1 ´ x
D EF I N I C I Ó N
1.2. ) partir de un conjunto de datos muestrales pareados, la ecación de rere"ión#.
̂y i=b0+b1 x
describe alebraicamente la relación entre las dos variables
x
e
y
. !a ráfica de laecuación de reresión se denomina recta de reresión &o recta del me$or a$uste o recta de
mínimos cuadrados'.
19
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
20/78
!a ecuación de reresión expresa una relación entre x &llamada ariable eplicatia0
ariable de predicción o ariable independiente' y ̂y &llamada ariable de re"pe"ta o
ariable dependiente'. !a definición anterior indica que en estad5stica, la ecuación t5pica de una
l5nea recta y=mx+b se expresa en la forma ̂y=b0+b1 x .
7upona una l5nea arbitraria ̂y=b
0+b
1 x
en el diarama de dispersión, como se muestra en la
Fira 2-$. (ara el valor x i de la variable controlada, el valor ̂y i del modelo para esta
l5nea esb0+b
1 x i , donde el valor observado y es
y i . $ la distancia entre estos valores
es d i= y i−b0−b1 x i , que es la distancia vertical del punto a la l5nea.
b05 9rdenada en el orien. (unto de corte con el eje de ordenadas o ;eje y
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
21/78
FIGURA 2-$. 8esviaciones de las observaciones a partir de una l5nea y G a N bx .
!a pendiente de la rectab1 en la Fira 2.$ esA
b1=
̂y i− y0 x i− x0
de donde y
0=b
0 y x
0=0
, despejando para ̂y i A
b1=
̂y i−b0 x i−0
̂y i=b0+b1 x i
21
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
22/78
!a recta de reresión es la que se obtiene a partir de la nube de puntos y es la que representamejor la distribución de esos puntos como modelo lineal.
7e suele emplear el método de los &ínimos 'uadrados, que consiste en encontrar aquella rectatal que la suma de los cuadrados de las distancias, d i , de los puntos a la recta sea la m5nima
posible. d i2=d1
2+¿d22+%+di
2+%+dn2⇒ M&nimo
∑i=1
n
¿
!a función eleida para aproximar la relación entre variables es una recta, es decirA ̂y=b
0+b
1 x
.
7I:TA;&IA @ 9B:/R3A&I=; M97/L9
En la Fira 2-$ se observa queA
b
(¿¿0+b1 x i)+di y i= ̂y i+d i=¿
de donde,d i= y i− ̂yi= yi−b0−b1 x i .
9onsiderando todas las distancias de todos los n puntos, se tieneA
b
(¿¿0+b1 x i) y i−¿¿¿2¿¿
d i2=∑
i=1
n
¿
'=∑i=1
n
¿
22
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
23/78
!a manitud de ' obviamente depende de la l5nea dibujadaK en otras palabras, depende de
b0 y de
b1 , las dos cantidades que determinan la l5nea. =n buen ajuste ocurre cuando '
es lo más peque*a posible.
El Principio de &ínimos 'uadrados
El principio de m5nimos cuadrados consiste de la determinación de los valores de los
parámetros desconocidos que 6aan m5nima la distancia total.
!a distancia total ' se define comoA
(!s)!st# obs!rv#d#− (!s)!st#
∑ (¿d!" mod!"o)2
'=¿
donde la respuesta pronosticada involucra los parámetros desconocidos del modelo. !os valores
de los parámetros determinados se llaman estimaciones por mínimos cuadrados.
El objetivo es minimizar la suma total de las distancias. 7e trata de encontrar la recta que 6aa
m5nimos las distancias &errores o residuos' para todas las observaciones. !a distancia, d , la
6emos definido como la diferencia entre el valor real y i y el valor obtenido &valor estimado o
valor ajustado' con la recta de reresión que se denota poniendo un acento circunflejo encima de
la variable, ̂y i .
b
(¿¿0+b1 x i)= y i−b0−b1 x id i= y i− ̂y i= y i−¿
.
9omo se cometerán errores en todas las observaciones, podr5amos buscar los valores deb0 y
b1 que 6acen m5nima la suma o la media de todas las distancias, aunque es fácil comprobar
que en estos modelos la suma y la media son iual a /. !as alternativas ser5an sumar o 6acer lamedia de los valores absolutos de estas distancias, o bien la de las distancias al cuadradoK por sencillez a la 6ora de derivar el criterio que adoptamos es éste último, es decir, vamos a buscar
los valores deb0 y
b1 que 6aan m5nima la suma de todos los errores al cuadrado, es lo
que se conoce como el criterio de "5nimos 9uadradosA
23
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
24/78
b
(¿¿0+b1 x i) y i−¿¿¿2¿¿
d i2=¿ Minb0 , b1∑
i=1
n
¿
Minimiz#r '= Minb0
, b1∑i=1
n
¿
8erivando con respecto a ; b
0 < y a ; b1 < e iualando con cero, se obtieneA
b1 xi
¿ y i−b0−¿¿
(¿ y i−b0−b1 x i)=02(−1)¿
* '
* b0
=∑i=1
n
¿
xi(¿ y i−b0−b1 x i)=0
¿ y i−b0−b1 x i¿2−1=−2
∑i=1
n
¿
2(− x i)¿
* '
* b1
=∑i=1
n
¿
8ividiendo por −2, resulta un sistema de dos ecuaciones lineales con dos incónitas
(b0 , "#ord!n#d# #" ori+!n y b1 , "# !ndi!nt!d! "#"&n!#r!$t#) .
(¿ y i−b0−b1 x i)=0(2−9)
∑i=1
n
¿
24
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
25/78
x i(¿ yi−b0−b1 x i)=0 (2−10)
∑i=1
n
¿
El cual desarrollado queda de la siuiente formaA
∑i=1
n
y i−∑i=1
n
b0−∑
i=1
n
b1 x i=0(2−11)
∑i=1
n
x i yi−∑i=1
n
b0 x i−∑
i=1
n
b1 x i
2=0(2−12)
7i, ∑i=1
n
b0=n b0 , se tieneA
n b0+b
1∑i=1
n
x i=∑i=1
n
y i(2−13)
b0∑
i=1
n
x i+b1∑i=1
n
xi2=∑
i=1
n
xi y i(2−14 )
>esolviendo para el parámetro desconocido ; b0 < de la ecuación (2−13) A
−n b0=−∑
i=1
n
y i+b1∑i=1
n
x i
8espejando ; b
0
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
26/78
( ´ y−b1 ´ x )∑i=1
n
x i+b1∑i=1
n
xi2=∑
i=1
n
xi y i
x i−¿b1 ´ x
∑i=1
n
x i+b1
∑i=1
n
xi2=
∑i=1
n
x i y i
´ y∑i=1
n
¿
"ultiplicando y dividiendo los dos primeros términos del primer miembro de esta última
ecuación por n A
n ´ y ( 1n∑i=1n
x i)⏟
´ x
−b1n ´ x ( 1n∑i=1
n
x i)⏟
´ x
+b1∑
i=1
n
xi2=∑
i=1
n
xi y i
7implificando,
n ´ y ´ x−b1
n ´ x2+b1∑
i=1
n
x i2=∑
i=1
n
x i y i
b1(∑i=1
n
x i2−n ´ x2)=∑
i=1
n
x i y i−n ́y ´ x
b1=∑i=1
n
x i yi−n ´ y ´ x
∑i=1
n
x i2−n ´ x2
=S xy
S x
2
=rS y
S x
$ obtenemos que la recta de reresión de y sobre x es ̂y=b
0+b
1 x
con los valores deb0 y
b1 anteriormente calculadosA
7i,
̂y=b0+b
1 x=( ´ y−b1 ´ x )+b1 x=´ y+b1 ( x−´ x )=´ y+( S xyS
x2 ) ( x−´ x )
es decir,
26
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
27/78
̂y−´ y= ( S xyS x
2 )⏟
!ndi!nt!
( x−´ x )
que ser5a la misma recta pero expresada en punto pendiente. ) la pendienteb1 de la recta de
reresión ̂y sobre x se le denomina coeficiente de reresión de y sobre x.
89TEC!: DE; 8DE;8 DE RE
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
28/78
siA
M =
[
n ∑i=1
n
xi
∑ x=1
n
x i ∑i=1
n
xi2
]entonces,
M −1=
[
∑i=1
n
x i2
n∑i=1
n
xi2−∑
i=1
n
x i∑ x=1
n
x i
−∑i=1
n
x i
n∑i=1
n
x i2−∑
i=1
n
xi∑i=1
n
x i
−∑i=1
n
xi
n∑i=1
n
xi2−∑
i=1
n
x i∑i=1
n
x i
n
n∑i=1
n
x i2−∑
i=1
n
xi∑i=1
n
x i
] M −1=[
∑i=1
n
xi2
n∑i=1
n
xi2−
(∑i=1
n
x i
)
2
−∑i=1
n
x i
n∑i=1
n
x i2−
(∑i=1
n
x i
)
2
−∑i=1
n
x i
n∑i=1
n
xi2−(∑
i=1
n
x i)2
n
n∑i=1
n
x i2−(∑
i=1
n
x i)2 ]
(remultiplicando por la matriz inversa ambos miembros del sistema de ecuaciones #A
28
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
29/78
M
−1
M ⏟ M#triz [
b0
b1]=[
∑i=1
n
x i2
n∑i=1
n
x i2−(∑
i=1
n
x i)2
−∑i=1
n
x i
n∑i=1
n
x i2−(∑
i=1
n
x i)2
−∑i=1
n
xi
n∑i=1
n
x i2−(∑
i=1
n
x i)2
n
n∑i=1
n
x i2−(∑
i=1
n
x i)2 ][ ∑i=1
n
y i
∑i=1
n
xi y i
]de donde,
b0=∑i=1
n
y i∑i=1
n
x i2−∑
i=1
n
x i∑i=1
n
x i y i
n∑i=1
n
xi2−(∑
i=1
n
x i)2
b1=
n∑i=1
n
x i yi−∑ x=1
n
x i∑i=1
n
y i
n∑i=1
n
x i2−
(∑i=1
n
x i
)
2
=na vez que evaluamosb0 y
b1 , podemos identificar la ecuación de la recta de reresión
estimada, la cual tiene la siuiente propiedad especialA la recta de regresión es la que me$or sea$usta a los puntos muestrales.
DER!VAC!8 DE ;A' E'T!AC!8E' DE =!8' CADRAD8' ,> ? ,1
8e acuerdo con el principio de m5nimos cuadradosA
'= Σ ( (!s)!st#obs!rv#d#− (!s)!st# d!" mod!"o )2
'=∑i=1
n
d i2=∑
i=1
n
( y i−b0−b1 x i )2
29
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
30/78
(odemos determinar las cantidadesb0 y
b1 tal que '=∑
i=1
n
( y i−b0−b1 xi )2
sea
minimizada.
d i2=¿ Minb0 , b1∑
i=1
n
( y i−b0−b1 x i )2
Minimiz#r '= Minb0 ,b1∑i=1
n
¿
(rimero escribimosA
y i−b0−b1 x i= y i−b0−b1 x i+ ( ́y−´ y )+(b1 ´ x−b1 ´ x )
¿ ( yi−´ y )−b1 ( xi−´ x )+( ´ y−b0−b1 ´ x )
Elevando al cuadrado ambos lados de la ecuación anterior, se obtieneA
( y i−b0−b1 x i )2=[ ( y i−´ y )−b1 ( x i−´ x )+( ´ y−b0−b1 ´ x ) ]
2
¿ [ ( y i−´ y )−b1 ( x i−´ x )+( ´ y−b0−b1 ´ x ) ] [ ( y i− ́y )−b1 ( x i−´ x )+( ´ y−b0−b1 ´ x) ]
¿ ( y i−´ y )2−b
1 ( xi−´ x ) ( yi−´ y )+( y i− ́y) ( ´ y−b0−b1 ´ x)−b1 ( x i−´ x ) ( y i−´ y )
+b12 ( x i−´ x )
2−b1 ( x i−´ x ) ( ´ y−b0−b1 ´ x )+( y i− ́y )( ´ y−b0−b1 ´ x )
−b1 ( x i−´ x ) ( ´ y−b0−b1 ´ x )+( ´ y−b0−b1 ´ x)
2
7umando términos semejantesA
( y i−b0−b1 x i )2=( y i− ́y )2+b12 ( xi−´ x )2+( ´ y−b0−b1 ´ x )2
−2b1 ( x i−´ x ) ( y i−´ y )−2b1 ( x i−´ x ) ( ´ y−b0−b1 ´ x )+2 ( y i−´ y ) ( ´ y−b0−b1 ´ x)
)6ora sumamos ambos lados de la ecuación sobre i=1,% , n .
30
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
31/78
'=∑i=1
n
( y i−b0−b1 xi )2=∑
i=1
n
( y i−´ y )2+b
1
2∑i=1
n
( x i−´ x )2+∑
i=1
n
( ´ y−b0−b1 ´ x )2
−2b1
∑i=1
n
( xi−´ x ) ( y i−´ y )−2b1 ( ́y−b0−b1 ´ x )∑i=1
n
( xi−´ x)+2 ( ´ y−b0−b1 ´ x )∑i=1
n
( y i− ́y )
(or sencillez en la presentación de esta fórmula introducimos las siuientes nociones básicas.
(ociones básicas
´ x=1
n Σ xi
´ y=1
n Σ y i
s x2= Σ ( xi−´ x )2= Σ x i2−2 ´ x Σ x i− Σ ´ x2= Σ x i2−2n ´ x Σ x in −
Σ ´ x2
¿ Σ x i2−2n ´ x ´ x−n ´ x2= Σ xi
2−2n ´ x2−n ´ x2= Σ x i2−n ´ x2
s y2= Σ ( y i−´ y )
2= Σ y i
2−2 ´ y Σ y i− Σ y2= Σ y i
2−2n ́y Σ y i
n − Σ ́y2
¿ Σ y i2−2n ´ y ́y−n ´ y2= Σ y i
2−2n ´ y2−n ´ y2= Σ y i2−n ´ y2
s xy= Σ ( x i−´ x ) ( y i− ́y )= Σ ( x i y i−´ y x i−´ x y i+´ x ́y )
¿ Σ x i yi−´ y Σ x i−´ x Σ y i+ Σ ´ x ´ y
¿ Σ x i yi−n ´ y Σ x i
n −n ´ x
Σ yi
n + Σ ´ x ́y
¿ Σ x i yi−n ´ y Σ x i
n
−n ´ x Σ yi
n
+ Σ ´ x ́y
¿ Σ x i yi−n ´ x ´ y−n ´ x ´ y+n ´ x ´ y
¿ Σ x i yi−n ´ x ´ y
31
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
32/78
:bservamos que los dos últimos términos en el lado derec6o de la fórmula desaparecen después
de la suma, porque Σ ( x i−´ x )=0 y Σ ( yi−´ y )=0 . (or lo tanto, tenemosA
'=s y2+b
1
2s x2+n ( ´ y−b0−b1 ´ x )
2−2b1
s xy
reordenamos los términosA
'=n ( ´ y−b0−b1 ´ x )2+(b1
2s x2−2b
1s xy )+s y
2
y completamos un cuadradoA
'=n ( ´ y−b0−b1 ´ x)2+(b12s x2−2b1 s xy+ s xy
2
s x2 )+s y2− s xy
2
s x2
'=n ( ´ y−b0−b1 ´ x)2+(b1 s x− s xys x )
2
+(s y2− s xy2
s x2 )
El último término no involucra ab0 y
b1 . !os primeros dos términos pueden reducirse al
valor m5nimo de cero, si establecemos queA
´ y−b0−b
1´ x=0
entonces,b0=´ y−b
1´ x
además,
b1
s x− s xy
s x=0∴b
1s x=
s xy
s x
de donde,
b1=Cov ( x , y )
/#r ( x) = s xy
s x2 = Σ x i y i−n ´ x ́y
Σ x i2−n ´ x2
E%emplo 6. En la aplicación del método de m5nimos cuadrados para el siuiente conjunto de
datos ( x , y ) , es conveniente calcular primero las cantidades básicas ´ x , ´ y , s x2
ys xy .
32
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
33/78
!ueo se usan la fórmula ̂y=b
0+b
1 x
para obtener la recta de reresión de m5nimos
cuadrados.
xi
yi xi
2 xi y
i
4. 4. 4.0 4.0
4 2. @ .42 2./ - -./
@ 2.3 0.4@ 2.4 4.3
0 @.2 40 4.0 2.- 2 42.@
@.@ 2 4.@
1 @.3 @- 22. Σ G
2-20. -2 04.1
Entonces
´ x=39
10=3.9, ´ y=
35.1
10=3.51,∑
i=1
n
x i y i=152.7,∑i=1
n
x i2=193,
determinamos primero b1 y después b0 :
b1=
s xy
s x2 =
Σ x i y i−n ´ x ́y
Σ x i2−n ´ x2
=152.7−(10)(3.9)(3.51)
193−(10)(3.9)2 =
15.81
40.9=0.387
b0=´ y−b
1´ x=3.51− (0.387 ) (3.9 )=2.
!a ecuación de la recta ajustada por el método de m5nimos cuadrados esA
̂y=b0+b
1 x=2+0.387 x
.
Compro,ación de la linealidad
33
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
34/78
(ara explicar la comprobación de la linealidad nos valdremos del siuiente ejemplo. En una prueba de laboratorio para el desaste de neumáticos se realizó el siuiente experimento. !osneumáticos de una determinada marca se montaron en un automóvil. !os neumáticos se rotaronde una posición a otra cada ,/// millas, y la profundidad del desaste se midió en milésimas de
pulada &/,// puladas G /./40@ mm' inicialmente y después de cada @,/// millas. !asmediciones se realizaron en seis posiciones equianulares en cada una de seis ranuras alrededor de la circunferencia de cada neumático. !a Tabla 2.+ da los promedios de las seis medicionessobre la ranura de un neumático después de cada @,/// %ilómetros 6asta 24,/// %ilómetros. Elráfico de dispersión para estos datos se muestra Fira 2.%. 7e ve bastante lineal, y por lo tantoes razonable para adaptarse a una l5nea recta a los datos.
TABLA 2.+Pilometraje y profundidad del desaste de
un neumático de automóvil.
Pilometraje
&en ,/// %ms.'
(rofundidad del desaste
&en milésimas de pulada'/ 2-@.22
@ 24-.0/
3 4-.//
4 400.1
44-.22
4/ 4/@.32
4@ 1-.//
43 2.32
24 0/.22
34
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
35/78
Fira 2.%. 8iarama de dispersión, l5nea de tendencia y ecuación del ráfico.
!as! i 0 s no son independientes porque están sujetas a las siuientes dos restricciones
linealesA
∑i=1
n
! i=0 ,∑i=1
n
x i !i=0
Estas restricciones se obtienen a partir de las siuientes derivadas parciales iualadas con cero,vistas anteriormenteA
b1 xi
¿ y i−b0−¿¿
(¿ y i−b0−b1 x i)=02(−1)¿
* '
* b0
=∑i=1
n
¿
35
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
36/78
xi(¿ y i−b0−b1 x i)=0
¿ y i−b0−b1 x i¿2−1=−2∑
i=1
n
¿
2(− x i)¿
* '
* b1=∑i=1
n
¿
b
(¿¿0+b1 x i) y i−¿¿¿
∑i=1
n
¿
b
(¿¿0+b1 x i) y i−¿¿
∑i=1
n
xi ¿
En la Tabla 2., se muestran las y i observadas, las ̂y i ajustadas, y los residuales
! i= y i− ^ y i para el desaste de neumáticos. 7e verifica que se satisfacen las restriccionesA
∑i=1
n
! i=0 ,∑i=1
n
x i !i=0
TABLA 2., !os datos x i , y i , ^ yi , !i y x i ! i para el desaste de neumáticos.
i x i yi ̂y i=360.636667−7.280625 x i ! i= y i− ^ y i x i !i
/ 2-@.22 2/.@ 22.- /.//
4 @ 24-.0/ 22.0 −4./ −3./
2 3 4-.// 2/4.2- −.2- −-.2
@ 4 400.1 412.41 −3./ −41.-
0 44-.22 4@@.0 −@.34 −421./1
36
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
37/78
4/ 4/@.32 40./4 −/.- −4/2.33
1 4@ 1-.// 30.-/ Q.-/ −0.@
3 43 2.32 0.13 1./0 -1.@4
- 24 0/.22 41. 44.1 140.00
∑ ¿ /.// /.//
!as! i se rafican contra las
x i en la Fira 2.(. !a ráfica es claramente parabólica, lo
que indica que después de filtrar la componente lineal, todav5a queda un componente no lineal.)s5 que la reresión lineal no se ajusta adecuadamente a los datos, a pesar de que el coeficiente
lineal de la pendienteb1 es sinificativo. =na lección importante que aprendemos aqu5 es que
un valorb1 sinificativo no quiere decir necesariamente que la relación es lineal, sólo nos
dice que 6ay un componente lineal sinificativo.
Fira 2.(. Lráfica de residuos ! i vs .xi para el ajuste lineal
de los datos del desaste de neumáticos
(ara verificar si 6ay otro mejor posible ajuste podemos comparar el ajuste lineal con las curvasde potencia y exponencial, es decirA
• !inealA ̂y=b
0+b
1 x
.
• (otenciaA ̂y=b
0 x
b1
. &!a potencial no trabaja con valore de x=0 , por ello. #o se
considera'.
37
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
38/78
• ExponencialA ̂y=b0 !b1 x
.
0 5 10 15 20 25 30 350.00
100.00
200.00
300.00
400.00
500.00
f(x) = - 7.28x + 360.64
@ilometra%e
"roBundidad del des5aste ?
Fira 2.*. )juste a una recta.
0 5 10 15 20 25 30 350.00
50.00
100.00
150.00
200.00250.00
300.00
350.00
400.00
450.00
f(x) = 374.64 exp( -0.03 x )
Fira 2.+. )juste a una l5nea exponencial
38
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
39/78
9alculamos el /rror Ab"olto Porcental & %PE) %bsolute Percentage Error ' con la fórmulaeneralA
A1=/#"or obs!rv#do−/#"or ronosti$#do
/#"or obs!rv#do
(ara determinar el /rror Porcental Ab"olto Medio & &%PE) &ean %bsolute Percentage Error ', pro!edia!o" e"to" alore" de AP/ para todas las curvas consideradas. 9onsideraremosa la curva con el !enor MAP/ como la que mejor se ajusta a los datos. En este caso la quemejor se ajusta a los datos es la cra eponencial.
so de la ecuación de re5resión para eBectuar predicciones!as ecuaciones de reresión a menudo sirven para predecir el valor de una variable, a partir dealún valor espec5fico de la otra variable. Es necesario considerar lo siuiente al realizar las prediccionesA
1. =se la ecuación de reresión para 6acer predicciones únicamente si la ráfica de la recta dereresión en el diarama de dispersión confirma que la recta de reresión se ajusta a los puntos razonablemente.
39
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
40/78
2. =se la ecuación de la reresión para 6acer predicciones únicamente si el coeficiente decorrelación lineal r indica que existe una correlación lineal entre las dos variables.
#. =se la recta de reresión para realizar predicciones únicamente si los datos no se alejanmuc6o más allá del ámbito de los datos muestrales disponibles se llama extrapolación, lo cual
puede dar como resultado predicciones erróneas'.
$. 7i la ecuación de reresión no parece ser útil para realizar predicciones, el mejor valor de predicción de una variable es su estimación puntual, que es la media muestral.
FIGURA 2-,. Estrateia recomendada para los valores de predicción de y.
!nterpretación de la ecuación de re5resión( Cam,iomar5inal
(odemos utilizar la ecuación de reresión para observar el efecto en una variable, cuando la otravariable cambia por una cantidad espec5fica.
D EF I N I C I Ó N9uando se trabaja con dos variables relacionadas por una ecuación de reresión, el ca!bio!arinal en una variable es la cantidad que esta se modifica cuando la otra variable cambia
exactamente una unidad. !a pendienteb1 en la ecuación de reresión representa el cambio
40
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
41/78
marinal que ocurre en y cuando x cambia una unidad.
E%emplo 7( )juste una l5nea recta a los valores x y y de las primeras columnas siuientesA
x i y i xi2 x i y i
/.0 /.0
4 4.0 @ 0./
2 4./ - ./
@ @./ ./
0 2.0 40 1.0
./ 2 2./1 0.0 @- 23.0
Σ G
434@ @/ -.0
7e pueden calcular las siuientes cantidadesA
n=7 , ∑i=1
n
x i=28, (∑i=1
n
x i)2
=(28)2=784 , ∑i=1
n
x i2
G@/, ∑i=1
n
y i=24
=sando las ecuacionesA
b0=∑i=1
n
y i∑i=1
n
x i2−∑
i=1
n
x i∑i=1
n
x i y i
n∑i=1
n
xi2−(∑
i=1
n
x i)2
=(24 ) (140 )−(28)(119.5)
(7 ) (140 )−784=
14
196=0.07142857
b1=
n∑i=1
n
x i yi−∑ x=1
n
x i∑i=1
n
y i
n∑i=1
n
x i2−(∑
i=1
n
x i)2 = (
7 ) (119.5)−(28)(24)(7 ) (140 )−784
=164.5
196=0.839285714
(or consiuiente, la ecuación lineal con ajuste por m5nimos cuadrados esA
41
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
42/78
̂y=b0+b
1 x=0.07142857+0.839285714 x
En este ejemplo la recta de reresión tiene una pendiente de /.3@, aproximadamente. )s5 si
incrementamos x en una unidad, el valor de ̂y se incrementará en /.3@. Es decir, por cada
unidad adicional de x el valor de ̂y aumenta /.3@ de unidad.
Valores at/picos # puntos inu#entes
=n análisis de correlaciónRreresión de datos bivariados &pareados' debe incluir la investiaciónde valores atípicos y puntos influyentes, los cuales se definen a continuación.
En un diarama de dispersión, un alor at4pico es un punto que aparece muy lejos de los otros puntos de datos.
!os datos muestrales pareados pueden incluir uno o más pnto" inflente", los cuales son puntos que afectan fuertemente la ráfica de la recta de reresión.(ara determinar si un pnto e" at4pico, examine el diarama de dispersión para ver si ese puntose aleja demasiado de los demás. ?e aqu5 cómo determinamos un pnto inflenteA rafique larecta de reresión que resulta de los datos con el punto influyente incluido, después, rafique larecta de reresión resultante de los datos sin incluir el punto. 7i la ráfica cambia de formaconsiderable, se trata de un punto influyente. !os puntos influyentes a menudo se encuentran alidentificar los valores at5picos que están alejados #ori*ontalmente de los demás puntos.
Residuos # la propiedad de los m/nimos cuadrados?emos establecido que la ecuación de reresión representa la recta que se ajusta ;mejor< a losdatos. El criterio utilizado para determinar cuál recta es mejor que todas las demás se basa en lasdistancias verticales entre los puntos de datos oriinales y la recta de reresión. +ales distanciasse denominan residuos.
D EF I N I C I Ó N
(ara una muestra de datos pareados x y y , un re"ido es la diferencia entre un valor
y muestral observado y el valor y predic#o por medio de la ecuación de reresión. Es
decir,
r!sid)o= y obs!rv#d#− y r!di$2#= y− ̂y
42
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
43/78
Esta definición no 6a anado premios por su sencillez, pero comprenderá fácilmente los residuos
con la recta que se ajusta a los siuientes datos muestrales pareados & x y y 'A
x i y i x i2 x i y i ̂y i=5+4 x (!sid)o= y i− ̂y i
@ @ - −0
4 4@ @ @3 2
@ 3 24 4 −2
0 24 40 / 40 1
Σ G
43 @ 4@@ /
7e pueden calcular las siuientes cantidadesA
n=4 , ∑i=1
n
x i=12, (∑i=1
n
x i)2
=(12)2=144 ,
∑i=1
n
x i2
G@, ∑i=1
n
y i=68 , ∑i=1
n
x i yi=244
=sando las ecuacionesA
b0=∑i=1
n
y i∑i=1
n
x i2−∑
i=1
n
x i∑i=1
n
x i y i
n∑i=1
n
xi2−(∑
i=1
n
x i)2
=(68 ) (46 )−(12)(244 )
(4 ) (46)−144=
200
40=5
b1=
n∑i=1
n
x i yi−∑ x=1
n
x i∑i=1
n
y i
n∑i=1
n
x i2−(∑i=1
n
x i)2 =
(4 ) (244 )−(12)(68)
(4 ) (46 )−144 =
160
40 =4
(or consiuiente, la ecuación lineal con ajuste por m5nimos cuadrados esA
43
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
44/78
̂y=b0+b
1 x=5+4 x
9onsidere el punto muestral con las coordenadas &0, 24'. 7i sustituimos x=5 en la ecuación
de reresión ̂y=5+4 x , obtenemos un valor predic#o de ̂y=25 . 7in embaro, el valor
muestral observado es y=32 . !a diferencia y− ^ y−¿32−25=7 es un residuo.
!a ecuación de reresión representa la recta que se ajusta ;mejor< a los puntos, de acuerdo con lasiuiente propiedad de mínimos cuadrados.
D EF I N I C I Ó N
=na recta satisface la propiedad de !4ni!o" cadrado" si la suma de los cuadrados de losresiduos es la menor suma posible.
En la siuiente tabla y en la Fira 2-1) podemos observar que los residuos sonA
x i y i ̂y i >esiduo
@
̂y1=5+4 (1 )=9 y1− ̂y1=4−9=−5
4 4@ ̂y
1=5+4 (2 )=13 y1− ̂y1=24−13=11
@ 3 ̂y
1=5+4 (4 )=21 y1− ̂y1=8−21=−13
0 24 ̂y
1=5+4 (5 )=25 y1− ̂y1=32−25=7
8e manera que la suma de sus cuadrados esA
(−5)2+(11)2+(−13)2+(7)2=25+121+169+49=364 .
(odemos visualizar la propiedad de m5nimos cuadrados si nos remitimos a la Fira 2-#, dondelos cuadrados de los residuos están representados por las áreas de los cuadrados sombreados. !asuma de las áreas sombreadas cuadradas es 2@, que es la menor suma posible.
44
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
45/78
FIGURA 2-1). >esiduos y cuadrados de los residuos.
"rue,as de si5nifcancia del modelo de re5resión einter)alos de confana
En esta sección se presenta un método para construir un intervalo de predicción, que es una
estimación del intervalo de un valor predic6o de y . &!as estimaciones de intervalos de
parámetros se conocen como como intervalos de confian*a, en tanto que las estimaciones deintervalos de variables se denominan intervalos de predicción'.
Variación explicada # sin explicar
(rimero examinaremos las medidas de desviación y variación para un para de valores ( x , y ) .
9onsideremos el caso espec5fico descrito en la Fira 2-11. Imaine una muestra de datos
pareados ( x , y ) que incluye los valores espec5ficos de &0,-'. 7upona que utilizamos esta
muestra de datos pareados para calcular los siuientes resultadosA
45
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
46/78
• Existe evidencia suficiente para sustentar la afirmación de una correlación lineal entre x y
y .
• !a ecuación de recta de reresión es ̂y=3+2 x .
• !a media de los valores de y está dada por ´ y=9.
• =no de los pares de datos muestrales es x=5 y y=19.
• El punto &0,2' es uno de los puntos sobre la recta de reresión, ya que la sustitución de x=5 en la ecuación de reresión ̂y=3+2 x produce ̂y=13 .
FIGURA 2-11. 8esviación sin explicación, explicada y total.
!a Fira 2-11 indica que el punto &0,2' está sobre la recta de reresión, pero el punto &0,-'del conjunto de datos oriinal no se ubica en la recta de reresión. 7i inoramos por completo los
conceptos de correlación y reresión, y deseamos producir un valor de y a partir de un valor
46
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
47/78
de x y un conjunto de datos pareados ( x , y ) , nuestra mejor conjetura ser5a la media ´ y .
(ero en este caso existe una correlación lineal sinificativa entre x y y , por lo que la
forma de predecir el valor de y cuando x=5 consiste en sustituir x=5 en la ecuación
de reresión para obtener^ y=13 . (odemos explicar las discrepancias entre ´ y=9 y
̂y=13 al se*alar que existe una relación lineal mejor descrita por medio de la recta de
reresión. 9omo consecuencia, cuando x=5 , el valor predic6o de y es 2, pero el valor
muestral observado de y en realidad es -. !a discrepancia ente ̂y=13 y y=19 no
puede explicarse por medio de la recta de reresión y se le denomina desviación sin explicación o
residuo. Esta desviación sin explicar se exoresa en s5mbolos como y− ^ y .
=na desviación es la diferencia entre un valor y la media. &En este caso, la media es ´ y=9 '.
Examine con atención la iura 4Q@ y observe las siuientes desviaciones espec5ficas a partir de´ y=9 A
+esviación total &a partir de ´ y=9 ' del punto &0,-' G y−´ y=19−9=10 .
+esviación explicada &a partir de ´ y=9 ' del punto &0,2' G ̂y−´ y=13−9=4 .
+esviación sin explicar &a partir de ´ y=9 ' del punto &0,-' G y− ^ y=19−13=6 .
Estas desviaciones a partir de la media se eneralizan y definen formalmente como siue.
D EF I N I C I Ó N
7upona que tenemos un conjunto de datos pareados que contienen el punto muestral
( x , y ) , que ̂y es el valor predic6o de y &obtenido por medio de la ecuación de
reresión', y que la media de los valores y muestrales es ´ y .
!a de"iación total de ( x , y ) es la distancia vertical y−´ y , que es la distancia entre el
punto ( x , y ) y la recta 6orizontal que pasa por la media muestral ´ y .
!a de"iación eplicada es la distancia vertical ̂y−´ y , que es la distancia entre el valor
47
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
48/78
predic6o ̂y y la recta 6orizontal que pasa por la media muestral ´ y .
!a de"iación "in eplicar es la distancia vertical y− ^ y , que es la distancia vertical entre
el punto ( x , y ) y la recta de reresión. &!a distancia y−^ y también se conoce como
residuo'.
En la Fira 2-11 podemos apreciar la siuiente relaciónA
Formula 2-1+
&desviación total' G&desviación
explicada'N &desviación sin explicar'
( y−´ y ) G ( ̂y−´ y ) N ( y− ^ y )
!a expresión anterior implica desviaciones a partir de la media y se aplica a cualquier punto( x , y ) particular. 7i sumamos los cuadrados de las desviaciones utilizando todos los puntos
( x , y ) , obtenemos cantidades de variación, y la misma relación se aplica a las sumas de
cuadrados que se muestran en la Fór!la 2-1*, aunque esta última expresión no esalebraicamente equivalente. En esta fórmula, la ariación total se expresa como la suma de loscuadrados de los valores de las desviaciones totales, la ariación eplicada es la suma de loscuadrados de los valores de las desviaciones explicadas, y la ariación "in eplicar es la suma delos cuadrados de los valores de las desviaciones sin explicar.
Formula 2-16&variación total' G &variación explicada' N &variación sin explicar'
Σ( y−´ y )2
G Σ(^ y−´ y )
2
N Σ( y−^
y )2
El coeficiente de correlación lineal r se utiliza para calcular la proporción de la variación total
en y que puede explicarse por medio de la correlación lineal.
48
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
49/78
/l alor de r2
e" la proporción de la ariación en y Ce "e eplica por la
relación lineal entre x y .
Esta afirmación sobre la variación explicada se formaliza en la siuiente definición.
D EF I N I C I Ó N
El coeficiente de deter!inación es la cantidad de variación en y que se explica por la
recta de reresión. 7e calcula comoA
r2=
v#ri#$i3n !x"i$#d#
v#ri#$i3ntot#"
(odemos calcular r2
por medio de la definición que dimos con la órmula 4Q@, o bien,
podemos simplemente elevar al cuadrado el coeficiente de correlación lineal r .
E%emplo . Precio de la pizza y del boleto del Metro. En -@, Eric Jram, un t5picoadolescente de la ciudad de #ueva $or% observó que el precio de una rebanada de pizza conqueso era iual al precio de un boleto del "etro. 9on el paso de los a*os, se dio cuenta que
ambos precios aumentaban aproximadamente en la misma cantidad.
AñoPrecio de pizza
( x i¿
+arifa del "etro
i
y¿¿
x i2 x i y i
-/ /.0 /.0 /./440 /./440
-12 /.20 /.20 /.440 /.440
-3 .// .// .//// .////
--0 .40 .20 .040 .3104//4 .10 .0/ 2./40 4.40/
4//2 4.// 4.// @./// @.////
7umaA .0/ .20 -.11 -.@010
7e pueden calcular las siuientes cantidadesA
49
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
50/78
n=6 , ∑i=1
n
x i=6.50, (∑i=1
n
x i)2
=(6.50)2=42.25 , ∑i=1
n
x i2
G-.11, ∑i=1
n
y i=6.35
∑i=1
n
x i yi=9.4575
=sando las ecuacionesA
b0=∑i=1
n
y i∑i=1
n
x i2−∑
i=1
n
x i∑i=1
n
x i y i
n∑i=1
n
xi2−(∑
i=1
n
x i)2
=(6.35 ) (9.77 )−(6.5)(9.4575)
(6 ) (9.77 )−42.25=0.03456
b1=
n∑i=1
n
x i yi−∑ x=1
n
x i∑i=1
n
y i
n∑i=1
n
x i2−(∑
i=1
n
x i)2 =
(6 ) (9.4575 )−(6.50)(6.35)(6 ) (9.77 )−42.25
=15.47
16.37=0.94502
(or consiuiente, la ecuación lineal con ajuste por m5nimos cuadrados esA
̂y=b0+b
1 x=0.03456+0.94502 x
)demás,
´ y=∑i=1
n
y i
n =
6.35
6=1.05833
podemos observar que los residuos sonA
Precio de
pizza( x i¿
+arifa del
"etro & yi¿
^ y i=0.03456+0.94502 x i (
^ y−´ y )
2
( y−´ y )2
/.0 /.0 /.122 /.111-02-- /.340/22-
/.20 /.20 /.2021 /.@3/41/4 /.0/122-
.// .// /.-1-03/ /.//4/0 /.//2@/42-
50
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
51/78
.40 .20 .40320 /./4@3/132 /./30/12-
.10 .0/ .332@0 /.2--3- /.-0/142-
4.// 4.// .-4@// /.10/@421 /.331@42-
7=")A 4.@2012/ 4.@-1/322@
r2=
v#ri#$i3n !x"i$#d#d! y
v#ri#$i3ntot#"d! y =
Σ( ̂y−´ y )2
Σ( y−´ y )2=
2.43657301
2.49708334=0.976 .
El coeficiente de deter!inación es r2=0.976 . #ote que es el cuadrado del coeficiente de
correlación r . 9omo r2
es la proporción de la variación total que está explicada,
concluimos que aproximadamente el -1.F de la variación total en las tarifas del "etro se pueden explicar por los precios de una rebanada de pizza. Esto sinifica que 4.@F de la variación
total del precio del boleto del "etro está explicada por otros factores y no por el precio de unarebanada de pizza. 7in embaro, recuerde que esos resultados son estimaciones que se basan enlos datos muestrales con que se cuenta. Es probable que otros datos muestrales produzcanestimaciones diferentes.
El coeficiente de deter!inación es la proporción de la variación total en ,y- explicada por el a$uste de regresión. (uesto que el numerador no puede exceder al denominador, su valor máximoes .
!nter)alos de predicción
=na estimación del intervalo de un parámetro &como la media de las estaturas de los alumnos delrupo de Estad5stica )plicada' suele denominarse intervalo de confian*a, mientras que laestimación del intervalo de una variable &como el precio de un litro de asolina' se conoce comointervalo de predicción.
D EF I N I C I Ó N
=n interalo de predicción es una estimación del intervalo de un valor predic6o de y .
El desarrollo de un intervalo de predicción requiere una medida de la dispersión de los puntosmuestrales alrededor de la recta de reresión. >ecuerde que la desviación sin explicar &o residuo'es la distancia vertical entre un punto muestral y la recta de reresión & Fira 2-('. El error estándar de la estimación es una medida colectiva de la dispersión de los puntos muestralesalrededor de la recta de reresión, y se define de manera formal como siue.
51
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
52/78
D EF I N I C I Ó N
El error e"t'ndar de la e"ti!ación, denotado con s! , es una medida de las diferencias
&o distancias' entre los valores muestrales observados de y y los valores predic6os ̂y
que se obtienen por medio de la ecuación de reresión. Está dado porA
43rm)"#2−18:
s!=√ Σ ( y− ^ y )
2
n−2(dond! ̂y !s !" v#"or r!di$2od! y ) , o por medio de la siuiente
fórmula equivalenteA
43rm)"#2−19:
s!=√ Σ y
2−b0 Σ y−b
1 Σ xy
n−2
E%emplo 1>& Precio de la pizza del boleto del Metro5 &'lclo de s! . =tilice las
fór!la" 2-11 o 2-12 para calcular el error estándar de la estimación para los datos pareados delos precios de la pizza y del boleto del "etro, que se incluyen en el E%emplo 1 &correlaciónlineal'.
'olución(
En el E%emplo , calculamos estos valoresA b0=0.03456 y b1=0.94502 . $ de la tabla
siuiente obtenemos los valores faltantes.
Precio de pizza
x i
+arifa del "etro
yi ̂y i ( y−^ y )2 y i
2 x i y i
/.0 /.0/.12
2/.///- /./440 /./440
/.20 /.20/.202
1/.///42 /.440 /.440
.// .///.-1-03
//.///@4 .//// .////
52
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
53/78
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
54/78
'olución(
8el E%emplo 1 de la sección de correlación encontramos que r=0.988 , de manera que
existe evidencia suficiente para sustentar la afirmación de una correlación lineal &con un nivel de
sinificancia de /./0', y la ecuación de reresión es
̂y=0.03456+0.94502 x. 8el E%emplo
1>, anterior, sabemos que s!=0.123 . !os estad5sticos se obtienen de los datos sobre los
precios de la pizza .
Año Precio de pizza ( x i¿ x i
2
-/ /.0 /./440
-12 /.20 /.440
-3 .// .////
--0 .40 .040
4//4 .10 2./40
4//2 4.// @.///
7umaA Σ x i=¿ .0/ Σ x i
2=¿ -.11
"ediaA ´ x= Σ x i
n =
6.5
6=1.0833
En la Tabla 2-B &al final del tema' encontramos que t α /2=2.776 &utilizamos −4 G @ rados
de libertad con
α =0.05 en dos colas'. (rimero calculamos el maren de error E permitiendo
que x
0=2.25
&ya que buscamos el intervalo de predicción del precio del boleto del "etro,
considerando que una rebanada de pizza cuesta x=2.25 ="'.
1=t α /2 s!√1+1
n+
n ( x0−´ x )2
n ( Σ x2 )− ( Σ x )2=(2.776)(0.123)√1+
1
6+6 (2.25−1.0833 )
2
6 (9.77 )−(6.50 )2
¿ (2.776 ) (0.123 ) (1.29056 )=0.441
9on ̂y=2.16 y 1=0.441 , obtenemos el intervalo de predicción de la siuiente formaA
̂y− 1
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
55/78
1.72
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
56/78
5 =¿ número de variables de predicción o ariable" independiente"
x i1 , xi2 , % , xi5 =¿ valores fijos de las 5 variables de predicción o variables
independientes.
̂y=¿variable de respuesta.
b0
, b1
, b2
, % , b5 =¿ con cantidades fijas desconocidas.
(ara el modelo de tres variables de predicción, requerimos variarb0
, b1
, b2 y
b3
simultáneamente para minimizar la suma de las desviaciones al cuadrado.
b
y i−(¿¿0+b1 x i1+b2 x i2+%+b5 x i5 )
¿¿¿¿
'=∑i=1
n
¿
!os m5nimos cuadrados estimados se encuentran estableciendo las primeras derivadas parciales
de + con respecto ab0
, b1,⋯ , b5 e iualando con cero y resolviendo las ecuaciones resultantes.
Estas ecuaciones se escriben comoA
b
y i−(¿¿0+b1 x i1+b2 x i2+%+b5 x i5 )¿¿¿
* '
* b0=−2∑
i=1
n
¿
b
y i−(¿¿0
+b1 x i1+b2 x i2+%+b5 x i5 )¿¿¿
* '
* b0
=−2∑i=1
n
¿
8ivindiendo por −4A
56
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
57/78
b
y i−(¿¿0+b1 x i1+b2 x i2+%+b5 x i5 )¿¿¿
∑i=1
n¿
b
y i−(¿¿0+b1 x i1+b2 x i2+%+b5 x i5 )¿¿¿
∑i=1
n
¿
8esarrollandoA
x i2−%−¿b5 ∑i=1
n
xi5 =0
x i1−¿b2∑i=1
n
¿
b0−¿b
1∑i=1
n
¿
∑i=1
n
y i−∑i=1
n
¿
x i2 x i6−%−¿b5 ∑i=1
n
x i5 x i6=0 ( 6=1,2,% , 5 ) .
x i1 x i6−¿b2∑i=1
n
¿
x i6−¿b1∑i=1
n
¿
∑i=1
n
y i xi6−b0∑i=1
n
¿
7implificando nos lleva a las siuientes ecacione" nor!ale"A
57
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
58/78
x i2+%+¿b5 ∑i=1
n
x i5 =∑i=1
n
y i
x i1+¿b2∑i=1
n
¿
b0 n+b1∑i=1
n
¿
x i2 x i6+%+¿b5 ∑i=1
n
xi5 xi6=∑i=1
n
yi x i6 ( 6=1,2,% , 5 ) .
x i1 x i6+¿b2∑i=1
n
¿
x i6+¿b1∑i=1
n
¿
b0∑i=1
n
¿
Estas ecuaciones lineales simultáneas en (5 +1) variables desconocidas se pueden resolver con
una computadora.
8ebido a que se utilizará un prorama de computadora para determinar las ecuaciones dereresión múltiple, inoraremos los cálculos reales y nos concentraremos en interpretar las pantallas de resultados.
E%emplo 12& /"tatra" de !adre"0 padre" e 6i?a". !a siuiente tabla incluye una muestraaleatoria simple de las estaturas de madres, padres y sus 6ijas que servirá para aplicar un examen
de nutrición. Encuentre la ecuación de reresión múltiple donde la variable de respuesta ̂y es
la estatura de una 6ija y las variables de predicción ( x) son las estaturas de la madre y del
padre.
Estaturas !en pul"adas# de madres$ padres% sus &i'as(
Estatura dela &i'a Estatura dela madre Estatura delpadre
58.6 63 64
64.7 67 65
65.3 64 67
61.0 60 72
65.4 65 72
67.4 67 72
60.9 59 67
58
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
59/78
63.1 60 71
60.0 58 66
71.1 72 75
62.2 63 69
67.2 67 70
63.4 62 69
68.4 69 6262.2 63 66
64.7 64 76
59.6 63 69
61.0 64 68
64.0 60 66
65.4 65 68
=na opción para para obtener la recta de reresión múltiple es por medio de Excel de "icrosoft.
"rimer paso. 9apturar la tabla de datos anterior en Excel y seleccionar del menú principal laopción 7ato"8An'li"i" de dato". En la ventana de An'li"i" de dato" se selección Rere"ión.
En la ventana de ;>eresión< seleccionar en Rango de entrada los datos de E7+)+=>) 8E!) ?IS) &)A)4', en Rango ! de entrada se seleccionan los datos de E7+)+=>) 8E !)")8>E y E7+)+=>) 8E! ()8>E &JA94', marcar la opción de Rótulos si queremosreservar también las celdas con los nombres de las variablesK y en "pciones de salida marcamos En una #o$a nuevaK se da clic en el botón %ceptar .
59
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
60/78
9on lo que obtenemos los siuientes resultados.
En la columna de 9oeficientes observamos queA
60
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
61/78
b0=7.5
&redondeando',b1=0.707
&truncando', yb2=0.164
&redondeando'
(or lo que, la ecuación de reresión múltiple, esA
̂y=7.5+0.707m#dr!+0.164 #dr!
7i utilizamos la notación presentada antes, podemos escribir esta ecuación de la siuiente formaA
̂y=b0+b
1 xi1+b2 x i2=7.5+0.707 xi1+0.164 x i2 .
8onde ̂y es la estatura predic6a de una 6ija, x i1 es la estatura de la madre y
x i2 es la
estatura del padre.
7i una ecuación de reresión múltiple se ajusta bien a los datos muestrales, se puede emplear para6acer las predicciones. (or ejemplo, si determinamos que la ecuación de reresión múltiple delE%emplo 12 es adecuada para 6acer las predicciones, y si una mujer tiene una estatura de 2 puladas y su esposo una de - puladas, podemos predecir la estatura de la 6ija de ambossustituyendo esos valores en la ecuación de reresión, para obtener una estatura predic6a para su6ija de 2.@ puladas.
̂y=7.5+0.707 (63 )+0.164 (69 )=63.34 )"+#d#s &redondeando'
R2 # R2 a%ustado
(2
denota el coeficiente !Dltiple de deter!inación, que es una medida de lo bien que se
ajusta la ecuación de reresión múltiple a los datos muestrales. =n ajuste perfecto dar5a como
resultado (2=1 , y un ajuste muy bueno dar5a por resultado un valor cercano a . =n ajuste
muy deficiente se relaciona con un valor de (2
cercano a /. El valor de (2=67.52 en los
resultados de Excel del E%emplo 12, indica que 1.04F de la variación en las estaturas de las6ijas puede explicarse por las estaturas de las madres y de los padres. 7in embaro, el coeficiente
múltiple de determinación (2 tiene una rave desventajaA a mayor número de variables
incluidas, se incrementa (2
. & (2
podr5a permanecer iual, pero suele incrementarse'. !a
(2
más rande se obtiene por el simple 6ec6o de incluir todas las variables disponibles, pero
la mejor ecuación de reresión múltiple no necesariamente utiliza todas las variables disponibles.) causa de esta desventaja, la comparación de diferentes ecuaciones de reresión múltiple se
61
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
62/78
lora mejor con el coeficiente a$ustado de determinación, que es (2
a?"tado para el número
de variables y el tama*o de la muestra.
D EF I N I C I Ó N
El coeficiente a?"tado de deter!inación es el coeficiente múltiple de determinación (2
modificado para tener en cuenta el número de variables y el tama*o de la muestra. 7e calcula
por medio de la fórmula 4Q1.
órmula 2)1*
(2
#6)st#do=1− (n−1 )
[ n−(5 +1 ) ]
(1− (2)
donde n=¿ tama*o de la muestra.
5 =¿ número de variables de predicción ( x)
!os resultados anteriores de Excel del E%emplo 1, indican que el coeficiente ajustado de
determinación es (2
#6)st#d#=63.7 . 7i utilizamos la Fór!la 2-1# con el valor de
(2=0.675 , n=20 y 5 =2 , encontramos que el valor ajustado de (
2
, esA
(2
#6)st#do=1− (20−1 )
[20−(2+1) ] (1−0.675 )=1−( 1917 ) (0.325 )=0.637
!o que confirma el valor de 2.1F de los resultados de Excel. 9uando comparamos esta ecuación
de reresión múltiple con otras, es mejor utilizar la (2
#6)st#d# de 2.1F &o /.21'.
El )alor "ro,a,ilidad
El valor Probabilidad es una medida de la sinificancia eneral de la ecuación de reresiónmúltiple. El valor de Probabilidad de /./// &redondeado a tres decimales' de los resultados deExcel es peque*o, lo que indica que la ecuación de reresión múltiple tiene buena sinificancia
62
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
63/78
eneral y es útil para realizar predicciones. Es decir, tiene sentido predecir las estaturas de las
6ijas con base en las estaturas de las madres y de los padres. )l iual que la (2
#6)st#d# este
valor de rob#bi"id#d es una buena medida de qué tan bien se ajusta la ecuación a los datos
muestrales.
)*+,* 2-* .alores crticos del coeficiente de correlación r de Pearson
n α = 0.05 α = 0.01 n α = 0.05 α = 0.01
4 0.950 0.990 18 0.468 0.590
5 0.878 0.959 19 0.456 0.575
6 0.811 0.917 20 0.444 0.561
7 0.754 0.875 25 0.396 0.505
8 0.707 0.834 30 0.361 0.463
9 0.666 0.798 35 0.335 0.430
10 0.632 0.765 40 0.312 0.40211 0.602 0.735 45 0.294 0.378
12 0.576 0.708 50 0.279 0.361
13 0.553 0.684 60 0.254 0.330
14 0.532 0.661 70 0.236 0.305
15 0.514 0.641 80 0.220 0.286
16 0.497 0.623 90 0.207 0.269
17 0.482 0.606 100 0.196 0.256
Nota/ Para soeter a !rue"a H
0: ρ=0
contra H
1: ρ ≠0
# rec$ace H
0 si el %alor a"soluto de
r es a&or 'ue el %alor cr(tico en la ta"la.
)*+,* 2-+ Distribución t/ 0alores crticos t
63
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
64/78
)rados de
li"ertad
rea en una cola
( (1 (2 ( (1
rea en dos colas
(1 (2 ( (1 (2
1 63.65
7 31.821 12.706 6.314 3.078
2 9.925 6.965 4.303 2.920 1.8863 5.841 4.541 3.182 2.353 1.6384 4.604 3.747 2.776 2.132 1.5335 4.032 3.365 2.571 2.015 1.4766 3.707 3.143 2.447 1.943 1.4407 3.499 2.998 2.365 1.895 1.4158 3.355 2.896 2.306 1.860 1.3979 3.250 2.821 2.262 1.833 1.38310 3.169 2.764 2.228 1.812 1.37211 3.106 2.718 2.201 1.796 1.36312 3.055 2.681 2.179 1.782 1.35613 3.012 2.650 2.160 1.771 1.35014 2.977 2.624 2.145 1.761 1.34515 2.947 2.602 2.131 1.753 1.34116 2.921 2.583 2.120 1.746 1.337
17 2.898 2.567 2.110 1.740 1.33318 2.878 2.552 2.101 1.734 1.33019 2.861 2.539 2.093 1.729 1.32820 2.845 2.528 2.086 1.725 1.32521 2.831 2.518 2.080 1.721 1.32322 2.819 2.508 2.074 1.717 1.32123 2.807 2.500 2.069 1.714 1.31924 2.797 2.492 2.064 1.711 1.31825 2.787 2.485 2.060 1.708 1.31626 2.779 2.479 2.056 1.706 1.31527 2.771 2.473 2.052 1.703 1.31428 2.763 2.467 2.048 1.701 1.31329 2.756 2.462 2.045 1.699 1.31130 2.750 2.457 2.042 1.697 1.31031 2.744 2.453 2.040 1.696 1.30932 2.738 2.449 2.037 1.694 1.30933 2.733 2.445 2.035 1.692 1.30834 2.728 2.441 2.032 1.691 1.30735 2.724 2.438 2.030 1.690 1.30636 2.719 2.434 2.028 1.688 1.30637 2.715 2.431 2.026 1.687 1.30538 2.712 2.429 2.024 1.686 1.30439 2.708 2.426 2.023 1.685 1.30440 2.704 2.423 2.021 1.684 1.30345 2.690 2.412 2.014 1.679 1.30150 2.678 2.403 2.009 1.676 1.29960 2.660 2.390 2.000 1.671 1.29670 2.648 2.381 1.994 1.667 1.29480 2.639 2.374 1.990 1.664 1.292
90 2.632 2.368 1.987 1.662 1.291100 2.626 2.364 1.984 1.660 1.290200 2.601 2.345 1.972 1.653 1.286300 2.592 2.339 1.968 1.650 1.284400 2.588 2.336 1.966 1.649 1.284500 2.586 2.334 1.965 1.648 1.283
1000 2.581 2.330 1.962 1.646 1.2822000 2.578 2.328 1.961 1.646 1.282
)rande 2.576 2.326 1.960 1.645 1.282
64
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
65/78
EIE";8' RE'E;T8'
Regresión lineal m+ltiple
E%emplo 1& & &icroeconomía'. =na empresa inmobiliaria posee diez edificios dedepartamentos cerca de una =niversidad, que alquila exclusivamente a estudiantes. 9ada edificiode departamentos tiene // viviendas para alquilar, pero el propietario está teniendo problemasde tesorer5a debido a una tasa de desocupación de casi el 0/ por ciento. !os departamentos encada edificio son semejantes, pero alunos edificios están más cerca de las facultades que otros.El propietario de la empresa inmobiliaria tiene datos del a*o pasado sobre el número dedepartamentos alquilados, el precio de alquiler &en ="' y la cantidad ajustada en publicidad &encientos de ="' en cada uno de los / edificios. Estos datos, junto con la distancia &en%ilómetros' de cada edificio a las facultades, se presenta en las filas a de la Tabla 1-2.
)*+,* 1-1 Datos de ocupación de los edificios
bser0ación Cantidad Precio Publicidad Distancia
1 28 250 11 12
2 69 400 24 6
3 43 450 15 5
4 32 550 31 7
5 42 575 34 4
6 72 375 22 2
7 66 375 12 5
8 49 450 24 7
9 70 400 22 4
10 60 375 10 5
El propietario quiere 6acer una reresión de la cantidad demandada de departamentos conrespecto al precio, la publicidad y la distancia. !os resultados de la reresión se muestran en laTabla 2. C9uál es la función de demanda estimada de los departamentos de alquiler de la empresainmobiliaria 7i la empresa elevara el precio de alquiler en uno de los edificios en // =", Cquéespera que ocurra con el número de apartamentos alquilados 7i la empresa eleva el alquiler enun edificio de apartamentos medio, Cqué ocurrirá con los inresos totales de la empresa CDué puede inferir de este análisis
'olución(
65
-
8/18/2019 Tema 2 Regresión y Correlación-EnVIAR a LOS ALUMNOS (1)
66/78
"rimer paso. 9apturar la tabla de datos anterior en Excel y seleccionar del menú principal laopción 7ato"8An'li"i" de dato". En la ventana de An'li"i" de dato" se selección Rere"ión.
En la ventana de ;>eresión< seleccionar en Rango de entrada los datos de 9)#+I8)8&JAJ', en Rango ! de entrada se seleccionan los datos de (>E9I:, (=J!I9I8)8 y8I7+)#9I) &9AE', marcar la opción de Rótulos si queremos reservar también las celdas conlos nombres de las variablesK y en "pciones de salida marcamos En una #o$a nuevaK se da clic en
top related