regresión lineal simple [modo de compatibilidad]
DESCRIPTION
Regresión Lineal SimpleTRANSCRIPT
• Regresión: conjunto de técnicas que son usadas paraestablecer una relación entre una variable cuantitativallamada variable dependiente y una o más variablesindependientes, llamadas predictoras. Estas tambiendeberian ser cuantitativas, sin embargo algunas deellas podrian ser cualitativas.
• Modelo de regresión. Ecuación que representa larelación entre las variables. Para estimar la ecuación delmodelo se debe tener una muestra de entrenamiento.
El modelo de Regresión Lineal simple
Considerando la muestra (xi, yi) para i=1,…n
• Suposiciones del modelo:La variable X es no aleatoria.Los errores ei son variables aleatorias con media 0 y varianzaconstante σ2.Los errores y (i≠j=1…,n) son independientes entre si.
ie
++= XY
iii eXY ++=
je
{∆x
∆E(y|x)
E(y|x)
X
E(y|x)=α+βx
= ∆E(y|x)∆x
ConstanteParámetro deintercepción
: expresa la magnituddel cambio de y por
cada unidad de x
Es la pendienteParámetro de pendiente
Estimación de la línea de regresión usandoMínimos Cuadrados
Se debe Minimizar
( ),Q ∑=
n
iie
1
2 ∑=
−−n
iii xy
1
2)( =
Derivando se obtiene las ecuaciones normales,cuya solucion produce
∑ ∑
∑∑∑
= =
===
−
−=
n
i
n
iii
n
ii
n
ii
n
iii
xxn
yxyxn
1
2
1
2
111
)(̂
xy ˆˆ −=
xx
xy
S
S= ˆ
equivalentemente
=
Interpretación de los coeficientes de regresiónestimados
La pendiente indica el cambio promedio en la variable derespuesta cuando la variable predictora aumenta en una unidadadicional.
El intercepto indica el valor promedio de la variable derespuesta cuando la variable predictora vale 0. Sin embargocarece de interpretación práctica si es irrazonable pensar que elrango de valores de x incluye a cero.
Propiedades de los estimadores mínimos cuadráticosde regresión
a) es un estimador insegado de β. Es decir, E( )=β
b) es un estimador insegado de α. Es decir, E( )=α
c) La varianza de es y la de es
Sxx
2 )1
(2
2
Sxx
x
n+
Propiedades de los residuales
Los residuales son las desviaciones de los valoresobservados de la variables de respuesta con respectoa la línea de regresión.
a) La suma de los residuales es 0. Es decir,
b)
c)
01
=∑=
n
iie
01
=∑=
n
iii xe
01
=∑=
n
iii ye
Estimación de la varianza del error
• Un estimador insesgado de es:2
22
)(1
2
1
2
2
−=
−
−=
∑∑==
n
e
n
yys
n
ii
n
iii
2s es tambien llamado el cuadrado medio del error(CME)
Descomposición de la suma de cuadrados total
)()()( yyyyyy iiii −+−=−
La desviacion de un valor observado con respecto ala media se puede escribir como:
=−∑=
n
ii yy
1
2)( ∑=
−n
iii yy
1
2)( ∑
=
−n
ii yy
1
2)(+
SCT = SCE + SCR
∑=
−=n
ii xxSCR
1
22 )(̂
Se puede deducir que
El Coeficiente de Determinación
Es una medida de la bondad de ajuste del modelo
Un modelo de regresión con mayor o igual a 75% se puede
considerar bastante aceptable.
Nota: El valor de es afectado por la presencia de valores
anormales.
SCT
SCRR =2
2R
2R
Distribución de los estimadores mínimoscuadráticos
Para efecto de hacer inferencia en regresión, se requiere asumir
que los errores , se distribuyen en forma normal e
independientemente con media 0 y varianza constante . En
consecuencia, también las s se distribuyen normalmente con
media y varianza .
Se puede establecer que:
ie2
'iy
ix + 2
),(~ˆ2
xxSN ))
1(,(~ˆ 2
2
xxS
x
nN +
Las sumas de cuadrados son formas cuadráticas del vector aleatorio Y y porlo tanto se distribuyen como una Chi-cuadrado. Se pueden establecer lossiguientes resultados:
i) (Chi-Cuadrado no central con n-1 g.l)
ii) Equivalentemente
iii) (Chi-Cuadrado no central con 1 g.l)
Podemos mostrar que:
2)1(2
'~ −n
SCT
2)2(2
~ −n
SCE
2)2(2
2
~)2(
−−
n
sn
2)1(2
'~
SCR
xxxx SSESCRE 222 )ˆ()( +==
Inferencia en Regresion Lineal Simple
• Pruebas de hipótesis e intervalos de confianza acerca de loscoeficientes de regresión del modelo de regresiónpoblacional.
• Intervalos de confianza para un valor predicho y para el valormedio de la variable de respuesta
Inferencia acerca de la pendiente y elintercepto usando la prueba t.
La pendiente de regresión se distribuye como una normal con
media β y varianza
Un intervalo de confianza del 100(1-)% para la pendientepoblacional es de la forma:
El nivel de significación α, varía entre 0 y 1.
),( )2/1,2()2/1,2(Sxx
st
Sxx
st nn −−−− +−
Sxx
2
Intervalo de confianza para el intercepto
Un intervalo de confianza del 100(1-α)% para el intercepto α de
la linea de regresión poblacional es de la forma:
)1
,1
(2
)2/1,2(
2
)2/1,2( Sxx
x
nst
Sxx
x
nst nn +++− −−−−
Pruebas de hipótesis para la pendiente (asuminendo que su valor es * )
Caso I Caso II Caso IIIHo: β=β* Ho: β=β* Ho: β=β*Ha: β<β* Ha: β≠β* Ha: β>β*
Prueba Estadística
Regla de DecisiónRechazar Ho, Rechazar Ho Rechazar Ho
si tcal<-t(1-α,n-2) si |tcal |>t(1-α/2,n-2) si tcal>t(1-α,n-2)*Un “P-value” cercano a cero, sugiriría rechazar la hipótesis nula.
)2(~*
−−= nt
Sxx
st
El análisis de varianza para regresión linealsimple
El análisis de varianza para regresión consiste en descomponerla variación total de la variable de respuesta en varias partesllamadas fuentes de variación.
La división de la suma de cuadrados por sus grados de libertades llamada cuadrado medio.Así se tienen tres cuadrados medios.Cuadrado Medio de Regresión=CMR=SCR/1Cuadrado Medio del Error= CME=SCE/(n-2)
Tabla de Análisis de Varianza
________________________________________________________________Fuente de Variación g.l. Sumas de Cuadrados Cuadrados Medios F________________________________________________________________Debido ala Regresion 1 SCR CMR=SCR/1Error n-2 SCE CME=SCE/(n-2)Total n-1 SCT________________________________________________________________
Se rechazaría la hipótesis nula Ho:β=0 si el “P-value” de laprueba de F es menor de 0.05
CME
CMR
Intervalo de confianza para el valor medio de lavariable de respuesta e Intervalo de Predicción
Queremos predecir el valor medio de las Y para un valor x0 de
la variable predictora x.
Como y se distribuyen normalmente, entonces también se
distribuye normalmente con media y varianza igual a:
00 )/( xxxYE +==
))(1
()ˆ(2
020 Sxx
xx
nYVar
−+=
Intervalo de confianza para el valor medio
Un intervalo de confianza del 100(1- )% para el valor mediode las y’s dado que x=x0 es de la forma:
intervalo de predicción para un valor individual de Y dado x=x0
es de la forma
Sxx
xx
nstx n
20
)2,2/1(0
)(1ˆˆ −+±+ −−
Sxx
xx
nstx n
20
)2,2/1(0
)(11ˆˆ −++±+ −−
El Coeficiente de Correlación
Mide el grado de asociación lineal entre las variables X y Y y se
define como:
a)
b) La media condicional de Y dado X es ,
donde: y
c) La varianza condicional de las Y dado X, está dado por
Si entonces (perfecta relación lineal).
yx
YXCov
),(=
11 ≤≤−
xXYE +=)/(
x
y
= xy −=
)1( 222/ −= yxy
1±= 02/ =xy
Coeficiente de correlación muestral
Considerando una muestra de n pares (xi,yi)
Notar que:
El cuadrado del coeficiente de correlación es igual al coeficientede determinación.
SxxSyy
Sxyr =
Syy
Sxxr
=SCT
SCR
Syy
Sxxr ==
22
Modelos No Lineales y TransformacionesEn el análisis de regresión generalmente el punto de partida esconsiderar que la relación entre la variable respuesta X y la variableY es lineal. Algunas veces esta relación lineal es inadecuada. Estano linealidad se puede detectar por medio de:•La Prueba de Falta de Ajuste•El Diagrama de Dispersión•Los Gráficos de ResidualesTambién se puede presentar que si la varianza no es constante, losresiduos no son normales, etc. A continuación se presenta unasituación en la cual no se presenta la homogeneidad de varianzas. Enotros casos como el de la situación se conoce que la relación funcionalentre la variable respuesta Y y la variable regresora X esfácil conocer la transformación, pero cuando no se conoce esta relaciónse pueden utilizar métodos más avanzados para determinar el tipo detransformación a ejecutar. En otros casos existen muchos modelos ofunciones que no pueden ser llevadas a formas lineales como porejemplo
Los siguientes datos presentan el número promediode bacterias sobrevivientes dentro de un alimentoenlatado y los minutos de exposición al calora
175 1108 295 382 471 550 649 731 828 917 1016 1111 1212 12
123456789101112
NTotal
bacterias tiempo
Limitado a los primeros 100 casos.
a.
ANOVAb
22268,813 1 22268,813 66,512 ,000a
3348,104 10 334,81025616,917 11
RegresiónResidualTotal
Modelo1 Suma de
cuadrados glMediacuadrática F Sig.
Variables predictoras: (Constante), tiempo
a.
Variable dependiente: bacterias
b.
Resumen del modelo
,932a ,869 ,856 18,298Modelo1
R R cuadradoR cuadradocorregida
Error típ. de laestimación
Variables predictoras: (Constante), tiempo
a.
Coeficientesa
142,197 11,262 12,627 ,000-12,479 1,530 -,932 -8,155 ,000
(Constante)tiempoModelo
1B Error típ.
Coeficientes noestandarizados
Beta
Coeficientesestandarizados
t Sig.
Variable dependiente: bacterias
a.
Ejemplo de un modelo No lineal
Análisis de los residuos
Ahora al chequear la homogeneidad devarianza gráficamente por medio de lafigura (errores y tiempo), se observa queeste supuesto no se cumple debido alpatrón curvilíneo que presenta el gráfico.
Al tratar de chequear la normalidadde los errores por medio del gráficode probabilidad normal de la figura.Según este gráfico se observa queeste supuesto parece no cumplirsecomo lo
Prueba de la Normalidad Prueba de Homogenidad de Varianzas
Lo anterior nos permite concluir que el modelo linealno es adecuado para ajustar los datos. En este casose debe transformar la variable respuesta.
¿Cómo transformarla?
En esta situación es fácil conocer latransformación ya que los datos representan elcrecimiento de las bacterias en el tiempo, parael cual se conoce que el número de bacterias enel tiempo t , , se modela como
• donde n0es el número inicial de bacterias y .• Tomando logaritmo natural a ambos lados se
tiene
¿Cómo se distribuye el error?
Es de observar que el modelo original (1)no tiene errores aditivos yaque se encuentra multiplicando. Así un ajuste de (2), es apropiadosolamente si creemos que el modelo (1) es el adecuado. Latransformación de nt(Y) en lnnt(Y) ha alterado la estructura del error demultiplicativo a aditivo. Si nosotros realmente creemos que los erroresson aditivos y quenosotros no podríamos tomar logaritmos y utilizar el método de mínimoscuadrado. Se tendría que usar métodos de estimación no lineal. Elmodelo (4) se dice que es intrínsicamente no lineal, mientras que elmodelo (1)es intrínsicamente lineal.De lo anterior se concluye que para analizar los datos del ejemplo, sedebe transformar la variable como se muestra en la tabla:
Diagrama de dispersión dellogaritmo del número de bacteriassobrevientes a través del tiempo
Resumen del modelob
,991a ,982 ,980 ,12039Modelo1
R R cuadradoR cuadradocorregida
Error típ. de laestimación
Variables predictoras: (Constante), tiempo
a.
Variable dependiente: LnY
b.
Coeficientesa
5,339 ,074 72,054 ,000-,236 ,010 -,991 -23,459 ,000
(Constante)tiempoModelo
1B Error típ.
Coeficientes noestandarizados
Beta
Coeficientesestandarizados
t Sig.
Variable dependiente: LnY
a.
Regresión Cuadrática
Un modelo cuadrático es de la forma:
donde a, b y c son constantes a estimar. Usando la técnica demínimos cuadrados se pueden obtener fórmulas explícitas paracalcular a, b y c.
En SPSS para obtener la ecuación del modelo cuadrático,hay que elegir la opción Regresion/ curva en la ventana de
diálogo de
+++= 2cXbXaY
EjemploCase Summariesa
1 4,0 21,02 3,4 12,03 3,5 25,24 3,1 10,45 2,9 30,96 1,9 6,87 4,1 19,68 3,2 14,59 3,8 25,010 3,6 19,110 10 10
12345678910
NTotal
Tienda
ValorAgregado porhora-hombre($)
Tamaño de latienda ( milesde piescuadrados)
Limitado a los primeros 100 casos.
a.
Resumen del modelo y estimaciones de los parámetros
Variable dependiente: Valor Agregado por hora-hombre ($)
,883 26,438 2 7 ,001 -,120 ,387 -,009EcuaciónCuadrático
R cuadrado F gl1 gl2 Sig.Resumen del modelo
Constante b1 b2Estimaciones de los parámetros
La variable independiente esTamaño de la tienda ( miles de pies cuadrados).
Modelos No lineales que pueden sertransformados en lineales
Nombre del modelo Ecuación del Modelo Transformación Modelo Linealizado
Exponencial Y=αeβX Z=Ln Y X=X Z=Ln α +βX
Logarítmico Y= α +βLog X Y=Y W=Log X Y= α +βW
Doblemente Logarítmico Y=αXβ Z=Log Y W=Log X Z= Log α +βW
Hiperbólico Y= α +β/X Y=Y W=1/X Y= α +βW
Inverso Y=1/(α +βX) Z=1/Y X=X Z=α +βX
La segunda alternativa para aumentar el R2 consiste en usar modelos nolineales que pueden ser convertidos en lineales, a través de transformacionestanto de la variable independiente como dependiente.
Para predecir el valor de Y usando el modelo linealizado hay que aplicar lainversa de la transformación correspondiente al mismo.