regresión lineal simple [modo de compatibilidad]

36
REGRESIÓN LINEAL SIMPLE

Upload: hans-hidalgo-alta

Post on 12-Dec-2015

13 views

Category:

Documents


0 download

DESCRIPTION

Regresión Lineal Simple

TRANSCRIPT

REGRESIÓN LINEAL SIMPLE

• Regresión: conjunto de técnicas que son usadas paraestablecer una relación entre una variable cuantitativallamada variable dependiente y una o más variablesindependientes, llamadas predictoras. Estas tambiendeberian ser cuantitativas, sin embargo algunas deellas podrian ser cualitativas.

• Modelo de regresión. Ecuación que representa larelación entre las variables. Para estimar la ecuación delmodelo se debe tener una muestra de entrenamiento.

Usos del modelo de regresión

a) Predicciónb) Descripciónc) Controld) Selección de variables

El modelo de Regresión Lineal simple

Considerando la muestra (xi, yi) para i=1,…n

• Suposiciones del modelo:La variable X es no aleatoria.Los errores ei son variables aleatorias con media 0 y varianzaconstante σ2.Los errores y (i≠j=1…,n) son independientes entre si.

ie

++= XY

iii eXY ++=

je

{∆x

∆E(y|x)

E(y|x)

X

E(y|x)=α+βx

= ∆E(y|x)∆x

ConstanteParámetro deintercepción

: expresa la magnituddel cambio de y por

cada unidad de x

Es la pendienteParámetro de pendiente

Estimación de la línea de regresión usandoMínimos Cuadrados

Se debe Minimizar

( ),Q ∑=

n

iie

1

2 ∑=

−−n

iii xy

1

2)( =

Derivando se obtiene las ecuaciones normales,cuya solucion produce

∑ ∑

∑∑∑

= =

===

−=

n

i

n

iii

n

ii

n

ii

n

iii

xxn

yxyxn

1

2

1

2

111

)(̂

xy ˆˆ −=

xx

xy

S

S= ˆ

equivalentemente

=

.

..

.

y4

y1

y2

y3

x1 x2 x3 x4

}

}

{

{

e1

e2

e3

e4

y = b0 + b1x

x

y E(y) = α + βx

(RRM)

(RRP)

Interpretación de los coeficientes de regresiónestimados

La pendiente indica el cambio promedio en la variable derespuesta cuando la variable predictora aumenta en una unidadadicional.

El intercepto indica el valor promedio de la variable derespuesta cuando la variable predictora vale 0. Sin embargocarece de interpretación práctica si es irrazonable pensar que elrango de valores de x incluye a cero.

Propiedades de los estimadores mínimos cuadráticosde regresión

a) es un estimador insegado de β. Es decir, E( )=β

b) es un estimador insegado de α. Es decir, E( )=α

c) La varianza de es y la de es

Sxx

2 )1

(2

2

Sxx

x

n+

Propiedades de los residuales

Los residuales son las desviaciones de los valoresobservados de la variables de respuesta con respectoa la línea de regresión.

a) La suma de los residuales es 0. Es decir,

b)

c)

01

=∑=

n

iie

01

=∑=

n

iii xe

01

=∑=

n

iii ye

Estimación de la varianza del error

• Un estimador insesgado de es:2

22

)(1

2

1

2

2

−=

−=

∑∑==

n

e

n

yys

n

ii

n

iii

2s es tambien llamado el cuadrado medio del error(CME)

Descomposición de la suma de cuadrados total

)()()( yyyyyy iiii −+−=−

La desviacion de un valor observado con respecto ala media se puede escribir como:

=−∑=

n

ii yy

1

2)( ∑=

−n

iii yy

1

2)( ∑

=

−n

ii yy

1

2)(+

SCT = SCE + SCR

∑=

−=n

ii xxSCR

1

22 )(̂

Se puede deducir que

El Coeficiente de Determinación

Es una medida de la bondad de ajuste del modelo

Un modelo de regresión con mayor o igual a 75% se puede

considerar bastante aceptable.

Nota: El valor de es afectado por la presencia de valores

anormales.

SCT

SCRR =2

2R

2R

Distribución de los estimadores mínimoscuadráticos

Para efecto de hacer inferencia en regresión, se requiere asumir

que los errores , se distribuyen en forma normal e

independientemente con media 0 y varianza constante . En

consecuencia, también las s se distribuyen normalmente con

media y varianza .

Se puede establecer que:

ie2

'iy

ix + 2

),(~ˆ2

xxSN ))

1(,(~ˆ 2

2

xxS

x

nN +

Las sumas de cuadrados son formas cuadráticas del vector aleatorio Y y porlo tanto se distribuyen como una Chi-cuadrado. Se pueden establecer lossiguientes resultados:

i) (Chi-Cuadrado no central con n-1 g.l)

ii) Equivalentemente

iii) (Chi-Cuadrado no central con 1 g.l)

Podemos mostrar que:

2)1(2

'~ −n

SCT

2)2(2

~ −n

SCE

2)2(2

2

~)2(

−−

n

sn

2)1(2

'~

SCR

xxxx SSESCRE 222 )ˆ()( +==

Inferencia en Regresion Lineal Simple

• Pruebas de hipótesis e intervalos de confianza acerca de loscoeficientes de regresión del modelo de regresiónpoblacional.

• Intervalos de confianza para un valor predicho y para el valormedio de la variable de respuesta

Inferencia acerca de la pendiente y elintercepto usando la prueba t.

La pendiente de regresión se distribuye como una normal con

media β y varianza

Un intervalo de confianza del 100(1-)% para la pendientepoblacional es de la forma:

El nivel de significación α, varía entre 0 y 1.

),( )2/1,2()2/1,2(Sxx

st

Sxx

st nn −−−− +−

Sxx

2

Intervalo de confianza para el intercepto

Un intervalo de confianza del 100(1-α)% para el intercepto α de

la linea de regresión poblacional es de la forma:

)1

,1

(2

)2/1,2(

2

)2/1,2( Sxx

x

nst

Sxx

x

nst nn +++− −−−−

Tres Posibles Poblaciones

1< 0 = 0 > 0A B C

XXX

YYY

Pruebas de hipótesis para la pendiente (asuminendo que su valor es * )

Caso I Caso II Caso IIIHo: β=β* Ho: β=β* Ho: β=β*Ha: β<β* Ha: β≠β* Ha: β>β*

Prueba Estadística

Regla de DecisiónRechazar Ho, Rechazar Ho Rechazar Ho

si tcal<-t(1-α,n-2) si |tcal |>t(1-α/2,n-2) si tcal>t(1-α,n-2)*Un “P-value” cercano a cero, sugiriría rechazar la hipótesis nula.

)2(~*

−−= nt

Sxx

st

El análisis de varianza para regresión linealsimple

El análisis de varianza para regresión consiste en descomponerla variación total de la variable de respuesta en varias partesllamadas fuentes de variación.

La división de la suma de cuadrados por sus grados de libertades llamada cuadrado medio.Así se tienen tres cuadrados medios.Cuadrado Medio de Regresión=CMR=SCR/1Cuadrado Medio del Error= CME=SCE/(n-2)

Tabla de Análisis de Varianza

________________________________________________________________Fuente de Variación g.l. Sumas de Cuadrados Cuadrados Medios F________________________________________________________________Debido ala Regresion 1 SCR CMR=SCR/1Error n-2 SCE CME=SCE/(n-2)Total n-1 SCT________________________________________________________________

Se rechazaría la hipótesis nula Ho:β=0 si el “P-value” de laprueba de F es menor de 0.05

CME

CMR

Intervalo de confianza para el valor medio de lavariable de respuesta e Intervalo de Predicción

Queremos predecir el valor medio de las Y para un valor x0 de

la variable predictora x.

Como y se distribuyen normalmente, entonces también se

distribuye normalmente con media y varianza igual a:

00 )/( xxxYE +==

))(1

()ˆ(2

020 Sxx

xx

nYVar

−+=

Intervalo de confianza para el valor medio

Un intervalo de confianza del 100(1- )% para el valor mediode las y’s dado que x=x0 es de la forma:

intervalo de predicción para un valor individual de Y dado x=x0

es de la forma

Sxx

xx

nstx n

20

)2,2/1(0

)(1ˆˆ −+±+ −−

Sxx

xx

nstx n

20

)2,2/1(0

)(11ˆˆ −++±+ −−

El Coeficiente de Correlación

Mide el grado de asociación lineal entre las variables X y Y y se

define como:

a)

b) La media condicional de Y dado X es ,

donde: y

c) La varianza condicional de las Y dado X, está dado por

Si entonces (perfecta relación lineal).

yx

YXCov

),(=

11 ≤≤−

xXYE +=)/(

x

y

= xy −=

)1( 222/ −= yxy

1±= 02/ =xy

Coeficiente de correlación muestral

Considerando una muestra de n pares (xi,yi)

Notar que:

El cuadrado del coeficiente de correlación es igual al coeficientede determinación.

SxxSyy

Sxyr =

Syy

Sxxr

=SCT

SCR

Syy

Sxxr ==

22

Modelos No Lineales y TransformacionesEn el análisis de regresión generalmente el punto de partida esconsiderar que la relación entre la variable respuesta X y la variableY es lineal. Algunas veces esta relación lineal es inadecuada. Estano linealidad se puede detectar por medio de:•La Prueba de Falta de Ajuste•El Diagrama de Dispersión•Los Gráficos de ResidualesTambién se puede presentar que si la varianza no es constante, losresiduos no son normales, etc. A continuación se presenta unasituación en la cual no se presenta la homogeneidad de varianzas. Enotros casos como el de la situación se conoce que la relación funcionalentre la variable respuesta Y y la variable regresora X esfácil conocer la transformación, pero cuando no se conoce esta relaciónse pueden utilizar métodos más avanzados para determinar el tipo detransformación a ejecutar. En otros casos existen muchos modelos ofunciones que no pueden ser llevadas a formas lineales como porejemplo

Los siguientes datos presentan el número promediode bacterias sobrevivientes dentro de un alimentoenlatado y los minutos de exposición al calora

175 1108 295 382 471 550 649 731 828 917 1016 1111 1212 12

123456789101112

NTotal

bacterias tiempo

Limitado a los primeros 100 casos.

a.

ANOVAb

22268,813 1 22268,813 66,512 ,000a

3348,104 10 334,81025616,917 11

RegresiónResidualTotal

Modelo1 Suma de

cuadrados glMediacuadrática F Sig.

Variables predictoras: (Constante), tiempo

a.

Variable dependiente: bacterias

b.

Resumen del modelo

,932a ,869 ,856 18,298Modelo1

R R cuadradoR cuadradocorregida

Error típ. de laestimación

Variables predictoras: (Constante), tiempo

a.

Coeficientesa

142,197 11,262 12,627 ,000-12,479 1,530 -,932 -8,155 ,000

(Constante)tiempoModelo

1B Error típ.

Coeficientes noestandarizados

Beta

Coeficientesestandarizados

t Sig.

Variable dependiente: bacterias

a.

Ejemplo de un modelo No lineal

Análisis de los residuos

Ahora al chequear la homogeneidad devarianza gráficamente por medio de lafigura (errores y tiempo), se observa queeste supuesto no se cumple debido alpatrón curvilíneo que presenta el gráfico.

Al tratar de chequear la normalidadde los errores por medio del gráficode probabilidad normal de la figura.Según este gráfico se observa queeste supuesto parece no cumplirsecomo lo

Prueba de la Normalidad Prueba de Homogenidad de Varianzas

Lo anterior nos permite concluir que el modelo linealno es adecuado para ajustar los datos. En este casose debe transformar la variable respuesta.

¿Cómo transformarla?

En esta situación es fácil conocer latransformación ya que los datos representan elcrecimiento de las bacterias en el tiempo, parael cual se conoce que el número de bacterias enel tiempo t , , se modela como

• donde n0es el número inicial de bacterias y .• Tomando logaritmo natural a ambos lados se

tiene

¿Cómo se distribuye el error?

Es de observar que el modelo original (1)no tiene errores aditivos yaque se encuentra multiplicando. Así un ajuste de (2), es apropiadosolamente si creemos que el modelo (1) es el adecuado. Latransformación de nt(Y) en lnnt(Y) ha alterado la estructura del error demultiplicativo a aditivo. Si nosotros realmente creemos que los erroresson aditivos y quenosotros no podríamos tomar logaritmos y utilizar el método de mínimoscuadrado. Se tendría que usar métodos de estimación no lineal. Elmodelo (4) se dice que es intrínsicamente no lineal, mientras que elmodelo (1)es intrínsicamente lineal.De lo anterior se concluye que para analizar los datos del ejemplo, sedebe transformar la variable como se muestra en la tabla:

Diagrama de dispersión dellogaritmo del número de bacteriassobrevientes a través del tiempo

Resumen del modelob

,991a ,982 ,980 ,12039Modelo1

R R cuadradoR cuadradocorregida

Error típ. de laestimación

Variables predictoras: (Constante), tiempo

a.

Variable dependiente: LnY

b.

Coeficientesa

5,339 ,074 72,054 ,000-,236 ,010 -,991 -23,459 ,000

(Constante)tiempoModelo

1B Error típ.

Coeficientes noestandarizados

Beta

Coeficientesestandarizados

t Sig.

Variable dependiente: LnY

a.

¿Cómo interpretar el parámetro estimado ?

Regresión Cuadrática

Un modelo cuadrático es de la forma:

donde a, b y c son constantes a estimar. Usando la técnica demínimos cuadrados se pueden obtener fórmulas explícitas paracalcular a, b y c.

En SPSS para obtener la ecuación del modelo cuadrático,hay que elegir la opción Regresion/ curva en la ventana de

diálogo de

+++= 2cXbXaY

EjemploCase Summariesa

1 4,0 21,02 3,4 12,03 3,5 25,24 3,1 10,45 2,9 30,96 1,9 6,87 4,1 19,68 3,2 14,59 3,8 25,010 3,6 19,110 10 10

12345678910

NTotal

Tienda

ValorAgregado porhora-hombre($)

Tamaño de latienda ( milesde piescuadrados)

Limitado a los primeros 100 casos.

a.

Resumen del modelo y estimaciones de los parámetros

Variable dependiente: Valor Agregado por hora-hombre ($)

,883 26,438 2 7 ,001 -,120 ,387 -,009EcuaciónCuadrático

R cuadrado F gl1 gl2 Sig.Resumen del modelo

Constante b1 b2Estimaciones de los parámetros

La variable independiente esTamaño de la tienda ( miles de pies cuadrados).

Modelos No lineales que pueden sertransformados en lineales

Nombre del modelo Ecuación del Modelo Transformación Modelo Linealizado

Exponencial Y=αeβX Z=Ln Y X=X Z=Ln α +βX

Logarítmico Y= α +βLog X Y=Y W=Log X Y= α +βW

Doblemente Logarítmico Y=αXβ Z=Log Y W=Log X Z= Log α +βW

Hiperbólico Y= α +β/X Y=Y W=1/X Y= α +βW

Inverso Y=1/(α +βX) Z=1/Y X=X Z=α +βX

La segunda alternativa para aumentar el R2 consiste en usar modelos nolineales que pueden ser convertidos en lineales, a través de transformacionestanto de la variable independiente como dependiente.

Para predecir el valor de Y usando el modelo linealizado hay que aplicar lainversa de la transformación correspondiente al mismo.