departamento de estadística | uc3m - regresión lineal...

14
1 Ignacio Cascos Depto. Estadística, Universidad Carlos III 1 Regresión lineal simple Tema 1 Ignacio Cascos Depto. Estadística, Universidad Carlos III 2 Descripción breve del tema 1. Introducción 2. El modelo de regresión simple 3. Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad, independencia y normalidad 4. Estimación de los parámetros Mínimos cuadrados, Máxima Verosimilitud 5. Propiedades de los estimadores Coeficientes de regresión, varianza residual 6. Inferencia y predicción 7. Diagnosis e interpretación de los coeficientes Ignacio Cascos Depto. Estadística, Universidad Carlos III 3 Objetivos Construcción de modelos de regresión Métodos de estimación para dichos modelos Inferencia acerca de los parámetros Aprendizaje de utilización de gráficos para detectar el tipo de relación entre dos variables Cuantificación del grado de relación lineal Ignacio Cascos Depto. Estadística, Universidad Carlos III 4 Descripción breve del tema 1. Introducción 2. El modelo de regresión simple 3. Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad, independencia y normalidad 4. Estimación de los parámetros Mínimos cuadrados, Máxima Verosimilitud 5. Propiedades de los estimadores Coeficientes de regresión, varianza residual 6. Inferencia y predicción 7. Diagnosis e interpretación de los coeficientes

Upload: others

Post on 02-Aug-2020

9 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Departamento de Estadística | UC3M - Regresión lineal simplehalweb.uc3m.es/esp/Personal/personas/icascos/esp/est2/rl...2. El modelo de regresión simple 3. Hipótesis del modelo

1

Ignacio Cascos Depto. Estadística, Universidad Carlos III 1

Regresión lineal simpleTema 1

Ignacio Cascos Depto. Estadística, Universidad Carlos III 2

Descripción breve del tema1. Introducción2. El modelo de regresión simple3. Hipótesis del modelo

Linealidad, homogeneidad, homocedasticidad, independencia y normalidad

4. Estimación de los parámetros Mínimos cuadrados, Máxima Verosimilitud

5. Propiedades de los estimadores Coeficientes de regresión, varianza residual

6. Inferencia y predicción7. Diagnosis e interpretación de los coeficientes

Ignacio Cascos Depto. Estadística, Universidad Carlos III 3

Objetivos Construcción de modelos de regresión Métodos de estimación para dichos modelos Inferencia acerca de los parámetros Aprendizaje de utilización de gráficos para

detectar el tipo de relación entre dos variables Cuantificación del grado de relación lineal

Ignacio Cascos Depto. Estadística, Universidad Carlos III 4

Descripción breve del tema1. Introducción2. El modelo de regresión simple3. Hipótesis del modelo

Linealidad, homogeneidad, homocedasticidad, independencia y normalidad

4. Estimación de los parámetros Mínimos cuadrados, Máxima Verosimilitud

5. Propiedades de los estimadores Coeficientes de regresión, varianza residual

6. Inferencia y predicción7. Diagnosis e interpretación de los coeficientes

Page 2: Departamento de Estadística | UC3M - Regresión lineal simplehalweb.uc3m.es/esp/Personal/personas/icascos/esp/est2/rl...2. El modelo de regresión simple 3. Hipótesis del modelo

2

Ignacio Cascos Depto. Estadística, Universidad Carlos III 5

Introducción Estudio conjunto de dos variables Relación entre las variables Regresión lineal Historia del concepto de regresión lineal

uxy 10

Ignacio Cascos Depto. Estadística, Universidad Carlos III 6

Descripción breve del tema1. Introducción2. El modelo de regresión simple3. Hipótesis del modelo

Linealidad, homogeneidad, homocedasticidad, independencia y normalidad

4. Estimación de los parámetros Mínimos cuadrados, Máxima Verosimilitud

5. Propiedades de los estimadores Coeficientes de regresión, varianza residual

6. Inferencia y predicción7. Diagnosis e interpretación de los coeficientes

Ignacio Cascos Depto. Estadística, Universidad Carlos III 7

Ejemplo: Pureza del oxígeno en un proceso de destilación

Ignacio Cascos Depto. Estadística, Universidad Carlos III 8

Ejemplo: Pureza del oxígeno en un proceso de destilación

Page 3: Departamento de Estadística | UC3M - Regresión lineal simplehalweb.uc3m.es/esp/Personal/personas/icascos/esp/est2/rl...2. El modelo de regresión simple 3. Hipótesis del modelo

3

Ignacio Cascos Depto. Estadística, Universidad Carlos III 9

El modelo de regresión simple n pares de la forma (xi,yi) Objetivo: valores aproximados de Y a partir de X X: variable independiente o explicativa Y: variable dependiente o respuesta (a explicar)

pendiente intercepto

regresión de escoeficient y

1

0

10

10

iii uxy

Ignacio Cascos Depto. Estadística, Universidad Carlos III 10

El modelo de regresión simple

Ignacio Cascos Depto. Estadística, Universidad Carlos III 11

Descripción breve del tema1. Introducción2. El modelo de regresión simple3. Hipótesis del modelo

Linealidad, homogeneidad, homocedasticidad, independencia y normalidad

4. Estimación de los parámetros Mínimos cuadrados, Máxima Verosimilitud

5. Propiedades de los estimadores Coeficientes de regresión, varianza residual

6. Inferencia y predicción7. Diagnosis e interpretación de los coeficientes

Ignacio Cascos Depto. Estadística, Universidad Carlos III 12

Linealidad: datos con aspecto recto

Plot of Y1 vs X1

0 40 80 120 160 200

X1

0

200

400

600

800

Y1

Plot of Y2 vs X2

0 40 80 120 160 200 240

X2

0

100

200

300

400

500

600

Y2

Page 4: Departamento de Estadística | UC3M - Regresión lineal simplehalweb.uc3m.es/esp/Personal/personas/icascos/esp/est2/rl...2. El modelo de regresión simple 3. Hipótesis del modelo

4

Ignacio Cascos Depto. Estadística, Universidad Carlos III 13

Homogeneidad El valor promedio del error es cero,

0][ iuE

Ignacio Cascos Depto. Estadística, Universidad Carlos III 14

Homocedasticidad:Var[ui]=2 Varianza de errores constante

Ignacio Cascos Depto. Estadística, Universidad Carlos III 15

Independencia: Observaciones independientes, en particular E[uiuj]=

Ignacio Cascos Depto. Estadística, Universidad Carlos III 16

Normalidad: ui~N(0, 2)

Page 5: Departamento de Estadística | UC3M - Regresión lineal simplehalweb.uc3m.es/esp/Personal/personas/icascos/esp/est2/rl...2. El modelo de regresión simple 3. Hipótesis del modelo

5

Ignacio Cascos Depto. Estadística, Universidad Carlos III 17

Descripción breve del tema1. Introducción2. El modelo de regresión simple3. Hipótesis del modelo

Linealidad, homogeneidad, homocedasticidad, independencia y normalidad

4. Estimación de los parámetros Mínimos cuadrados, Máxima Verosimilitud

5. Propiedades de los estimadores Coeficientes de regresión, varianza residual

6. Inferencia y predicción7. Diagnosis e interpretación de los coeficientes

Ignacio Cascos Depto. Estadística, Universidad Carlos III 18

Método de Mínimos Cuadrados

Valor observado Dato (y)

Recta de regresiónestimada

Valor observado Dato (y)

Recta de regresiónestimada

Ignacio Cascos Depto. Estadística, Universidad Carlos III 19

Mínimos Cuadrados (Gauss, 1809) Objetivo: Buscar los valores de y que

mejor se ajustan a nuestros datos. Ecuación:

Residuo:

Minimizar:

iiiii xyyye 10ˆˆˆ

n

iie

1

2

ii xy 10ˆˆˆ

Ignacio Cascos Depto. Estadística, Universidad Carlos III 20

Mínimos Cuadrados (Gauss, 1809) Resultado:

xS

Sy

X

YX2,

xxyy ii 1ˆ

2,

X

YX

SS

Page 6: Departamento de Estadística | UC3M - Regresión lineal simplehalweb.uc3m.es/esp/Personal/personas/icascos/esp/est2/rl...2. El modelo de regresión simple 3. Hipótesis del modelo

6

Ignacio Cascos Depto. Estadística, Universidad Carlos III 21

Ajuste regresión simple:Datos pureza oxígeno

Ignacio Cascos Depto. Estadística, Universidad Carlos III 22

Ajuste regresión simple:Datos pureza oxígeno

xy

xySS

SS

yxn

x

xy

xyx

95142874

28741961951416929514681017710

177106810

20

1021

2

..ˆ

..).(.ˆˆ ...ˆ

. .

92.16 1.196

Ignacio Cascos Depto. Estadística, Universidad Carlos III 23

Ajuste regresión simple:Datos pureza oxígeno

xy 95142874 ..ˆ

Ignacio Cascos Depto. Estadística, Universidad Carlos III 24

Ajuste regresión simple:Datos pureza oxígeno

0

Page 7: Departamento de Estadística | UC3M - Regresión lineal simplehalweb.uc3m.es/esp/Personal/personas/icascos/esp/est2/rl...2. El modelo de regresión simple 3. Hipótesis del modelo

7

Ignacio Cascos Depto. Estadística, Universidad Carlos III 25

Ajuste regresión simple:Datos pureza oxígeno

1

Ignacio Cascos Depto. Estadística, Universidad Carlos III 26

Método de Máxima Verosimilitud Mismo resultado. Estimación de la varianza:

INSESGADO 2

ˆ Residual Varianza

insesgado no EMV ˆ

22

22

ne

S

ne

iR

i

Ignacio Cascos Depto. Estadística, Universidad Carlos III 27

Ajuste regresión simple:Datos pureza oxígeno

2RS

Ignacio Cascos Depto. Estadística, Universidad Carlos III 28

Descripción breve del tema1. Introducción2. El modelo de regresión simple3. Hipótesis del modelo

Linealidad, homogeneidad, homocedasticidad, independencia y normalidad

4. Estimación de los parámetros Mínimos cuadrados, Máxima Verosimilitud

5. Propiedades de los estimadores Coeficientes de regresión, varianza residual

6. Inferencia y predicción7. Diagnosis e interpretación de los coeficientes

Page 8: Departamento de Estadística | UC3M - Regresión lineal simplehalweb.uc3m.es/esp/Personal/personas/icascos/esp/est2/rl...2. El modelo de regresión simple 3. Hipótesis del modelo

8

Ignacio Cascos Depto. Estadística, Universidad Carlos III 29

Props. de los coeficientes de regresiónNormalidad

iiix

i ywynS

xx21

)( Combinación lineal de normales

),(~ 20 iii xNy

Estimador centrado

121

ix

i yEnS

xxE )(ˆ

Varianza del estimador

2

22

21x

ix

i

nSyVar

nSxxVar

)(ˆ

2

2

11xnS

N ,~ˆIgnacio Cascos Depto. Estadística, Universidad Carlos III 30

Props. de los coeficientes de regresiónNormalidad

ii ywx

nxy 1

10 ˆˆ Combinación lineal de normales

),(~ 20 iii xNy

Estimador centrado

001

ii yEwxn

E ˆ

Varianza del estimador

2

222

0 11

xii S

xn

yVarwxn

Var

2

22

00 1xS

xn

N ,~ˆ

Ignacio Cascos Depto. Estadística, Universidad Carlos III 31

Descripción breve del tema1. Introducción2. El modelo de regresión simple3. Hipótesis del modelo

Linealidad, homogeneidad, homocedasticidad, independencia y normalidad

4. Estimación de los parámetros Mínimos cuadrados, Máxima Verosimilitud

5. Propiedades de los estimadores Coeficientes de regresión, varianza residual

6. Inferencia y predicción7. Diagnosis e interpretación de los coeficientes

Ignacio Cascos Depto. Estadística, Universidad Carlos III 32

Inferencia respecto a los parámetros IC

2

ˆ ˆEn general, si ~ , ( ) un I.C. para :

ˆ ˆ ( )

N Var

z Var

2 20

1

ˆˆ ( / 2, 2) 1 /

ˆˆ ( / 2, 2)

Rx

R

x

St n x SnSt n

S n

2

1 1 2

2 2

0 0 2

ˆ ~ ,

ˆ ~ , 1

x

x

NnS

xNn S

2ˆDesconocida RS

Page 9: Departamento de Estadística | UC3M - Regresión lineal simplehalweb.uc3m.es/esp/Personal/personas/icascos/esp/est2/rl...2. El modelo de regresión simple 3. Hipótesis del modelo

9

Ignacio Cascos Depto. Estadística, Universidad Carlos III 33

Inferencia respecto a los parámetrosContraste de Hipótesis

0 0 1 0

0 2 2

0 1 1 1

1

: 0 : 0

ˆ ˆ 1 /

: 0 : 0ˆ

ˆ

R x

x

R

H H

ntS x S

H H

S ntS

( / 2, 2)t n

Ignacio Cascos Depto. Estadística, Universidad Carlos III 34

Ajuste regresión simple:pureza oxígeno

0 1ˆ ˆ y

significativos

Ignacio Cascos Depto. Estadística, Universidad Carlos III 35

Descomposición de la variabilidad La variabilidad del modelo satisface: VT =VE+VNE

Comentario fuera de programa: Contraste de regresión

n

ii

n

iii

n

ii

n

ii

eyy

yy

yy

1

2

1

2

1

2

1

2

)ˆ(Explicada No adVariabilidVNE

)ˆ(Explicada adVariabilidVE

)(Total adVariabilidVT

2,11 ~2VNE

VE entonces 0, Si nF

n

Ignacio Cascos Depto. Estadística, Universidad Carlos III 36

Ajuste regresión simple:pureza oxígeno

VE

Page 10: Departamento de Estadística | UC3M - Regresión lineal simplehalweb.uc3m.es/esp/Personal/personas/icascos/esp/est2/rl...2. El modelo de regresión simple 3. Hipótesis del modelo

10

Ignacio Cascos Depto. Estadística, Universidad Carlos III 37

Ajuste regresión simple:pureza oxígeno

VNE

Ignacio Cascos Depto. Estadística, Universidad Carlos III 38

Coeficiente de determinación

22

2,

21

2

1

2

1

2

2)ˆ(

)(

)ˆ(

VTVE

YX

YX

Y

n

ii

n

ii

n

ii

SSS

nS

yy

yy

yyR

Expresado en %, obtenemos el porcentaje de variabilidad de la variable respuesta explicado por el modelo.

Ignacio Cascos Depto. Estadística, Universidad Carlos III 39

Predicción Dos tipos de predicción: Predecir un valor promedio de y para cierto

valor de x. Predecir futuros valores de la variable

respuesta.La predicción es la misma (a partir de la recta de regresión) pero la precisión de los estimadores es diferente.

Ignacio Cascos Depto. Estadística, Universidad Carlos III 40

Predicción (promedio)

2

202

12

00

010

)(1

)ˆ()()()ˆ(

)(ˆˆ

XnSxx

n

VarxxyVaryVar

xxyy

2

20

2/,20)(1ˆˆ

XRn nS

xxn

Sty

Intervalo de confianza para la media estimada

Estimación de la media de la distribución condicionada de y para x=x0:

Page 11: Departamento de Estadística | UC3M - Regresión lineal simplehalweb.uc3m.es/esp/Personal/personas/icascos/esp/est2/rl...2. El modelo de regresión simple 3. Hipótesis del modelo

11

Ignacio Cascos Depto. Estadística, Universidad Carlos III 41

Ajuste regresión simple:pureza oxígeno

,x y

La anchura del intervaloaumenta cuando aumenta

hx x

Ignacio Cascos Depto. Estadística, Universidad Carlos III 42

Predicción para futuros valores

2

20

2/,20)(11ˆˆ

XRn nS

xxn

Sty

Intervalo de predicción

Ignacio Cascos Depto. Estadística, Universidad Carlos III 43

Ajuste regresión simple:pureza oxígeno

Ignacio Cascos Depto. Estadística, Universidad Carlos III 44

Descripción breve del tema1. Introducción2. El modelo de regresión simple3. Hipótesis del modelo

Linealidad, homogeneidad, homocedasticidad, independencia y normalidad

4. Estimación de los parámetros Mínimos cuadrados, Máxima Verosimilitud

5. Propiedades de los estimadores Coeficientes de regresión, varianza residual

6. Inferencia y predicción7. Diagnosis e interpretación de los coeficientes

Page 12: Departamento de Estadística | UC3M - Regresión lineal simplehalweb.uc3m.es/esp/Personal/personas/icascos/esp/est2/rl...2. El modelo de regresión simple 3. Hipótesis del modelo

12

Ignacio Cascos Depto. Estadística, Universidad Carlos III 45

DiagnosisUna vez ajustado el modelo, hay que comprobar si se cumplen las hipótesis iniciales. Gráficos de residuos frente a valores

previstos. Si las hipótesis iniciales se satisfacen, este

gráfico no debe tener estructura alguna.

Ignacio Cascos Depto. Estadística, Universidad Carlos III 46

Ajuste regresión simple:Datos pureza oxígeno

Ignacio Cascos Depto. Estadística, Universidad Carlos III 47

Relaciones no lineales

Gráficos de residuos

Ignacio Cascos Depto. Estadística, Universidad Carlos III 48

LinealidadSoluciones a la falta de linealidad: Transformar las variables para intentar

conseguir linealidad. Introducir variable adicionales. Detectar la presencia de datos atípicos o

ausencia de otras variables importantes para explicar la variable respuesta.

Page 13: Departamento de Estadística | UC3M - Regresión lineal simplehalweb.uc3m.es/esp/Personal/personas/icascos/esp/est2/rl...2. El modelo de regresión simple 3. Hipótesis del modelo

13

Ignacio Cascos Depto. Estadística, Universidad Carlos III 49

Homocedasticidad

.y

Cuando la varianza de las perturbaciones es muy diferente para unos valores de la variable explicativa que para otros tenemos heterocedasticidad

e

Ignacio Cascos Depto. Estadística, Universidad Carlos III 50

HomocedasticidadSoluciones a la heterocedasticidad: Si la variabilidad de la respuesta aumenta con

x según la ecuación Var(y|x) = g(x), dividimos la ecuación de regresión (y) entre g(x).

Transformar la variable respuesta y puede que también x.

Si lo anterior no funciona, cambiar el método de estimación.

Ignacio Cascos Depto. Estadística, Universidad Carlos III 51

NormalidadLa falta de normalidad invalida resultados inferenciales.Comprobación mediante histogramas o gráficos

probabilísticos. En un gráfico probabilístico comparamos los

residuos ordenados con los cuantiles de la distribución Normal estándar.

Si la distribución de los residuos es normal, el gráfico ha de mostrar aproximadamente una recta.

Ignacio Cascos Depto. Estadística, Universidad Carlos III 52

Normalidad

Page 14: Departamento de Estadística | UC3M - Regresión lineal simplehalweb.uc3m.es/esp/Personal/personas/icascos/esp/est2/rl...2. El modelo de regresión simple 3. Hipótesis del modelo

14

Ignacio Cascos Depto. Estadística, Universidad Carlos III 53

Independencia y Datos influyentesIndependencia Conviene hacer una gráfica de residuos frente

a tiempo (residuos incorrelados).Datos influyentes Analizar la presencia de datos influyentes.

Los atípicos son datos muy grandes o muy pequeños. Estudiar su posible eliminación.

Ignacio Cascos Depto. Estadística, Universidad Carlos III 54

Transformaciones

y’ = lnyy’ = lny , x’ = lnxx’ = 1/xy’ = 1/y , x’ = 1/x

Exponencial: y = aexp{bx}Potencia: y = axb

Recíproca: y = a+b/xHiperbólica: y = x/(a+bx)

Transformación apropiadaForma funcional que relaciona y con x

Ignacio Cascos Depto. Estadística, Universidad Carlos III 55

Interpretación de los coeficientesUna vez estudiada la significatividad de los mismos: y=a+bx Un incremento de x en 1 unidad,

incrementaría y en b unidades . ln(y)=a+bx Un incremento de x en 1 unidad,

provocaría un incremento de y del 100b% . ln(y)=a+bln(x) Un incremento de x del 1%,

provocaría un incremento de y del b% . y=a+bln(x) Un incremento de x del 1%,

incrementaría y en b/100 unidades .