copyright©2005.métodos estadísticos modelos lineales tema 4

Post on 23-Jan-2016

233 Views

Category:

Documents

3 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Copyright©2005. Métodos Estadísticos

Modelos LinealesModelos Lineales

Tema 4Tema 4

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Contenido programáticoContenido programático

Modelos basados en datos Entrada-Modelos basados en datos Entrada-SalidaSalida

Modelos linealesModelos lineales Regresión Lineal SimpleRegresión Lineal Simple Regresión MultivariadaRegresión Multivariada Etapas para la construcción de un Etapas para la construcción de un

modelomodelo Test de hipótesisTest de hipótesis

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Naturaleza de los ModelosNaturaleza de los Modelos Los modelos considerados están Los modelos considerados están

caracterizados por un conjunto de caracterizados por un conjunto de datos de entrada-salidadatos de entrada-salida

x1

CAJA NEGRA y

x2

x...

xp

Ausencia de un Ausencia de un modelo físico o modelo físico o matemáticomatemático

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Datos de entrada-salidaDatos de entrada-salida

OBSERVACIONES

Variables de entrada Variables de entrada Variable de Variable de salidasalidaX1 X2.......Xp Y

2 7 12

3 5 2 8 2 7

15

1932

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

PropósitosPropósitos PredicciónPredicción

Comprender mejor el procesoComprender mejor el proceso

Identificar variables significativasIdentificar variables significativas

Visualizar la naturaleza de la relación Visualizar la naturaleza de la relación

entre variables de entrada y salidaentre variables de entrada y salida

Determinar el impacto individual de las Determinar el impacto individual de las

variables de entrada en la respuestavariables de entrada en la respuesta

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Estrategias del ModeladoEstrategias del Modelado

ETAPAS: ETAPAS:

Identificación de la estructura

Estimación de parámetros

Validación del modelo

y = b0+ b1 x1+ b2 x2

Test de validación

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

¿Qué es regresión simple? ¿Qué es regresión simple? Cuantificar el efecto de una variable Cuantificar el efecto de una variable independienteindependiente

X sobre unaX sobre una dependientedependiente Y Y

Ajustar una recta a la nube de datos Ajustar una recta a la nube de datos

Intensidad del efecto está dada por la pendiente de Intensidad del efecto está dada por la pendiente de la recta la recta

Yi=0+1x+i

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

0

0,5

1

1,5

2

2,5

3

3,5

4

4,5

0 1 2 3 4 5 6

X Y

1 1

2 1

3 2

4 2

5 4

EjemploEjemplo

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

-1

0

1

2

3

4

5

6

0 1 2 3 4 5 6 7 8

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

-1

0

1

2

3

4

5

6

0 1 2 3 4 5 6 7 8

E(y)=0+1x

0=Punto en el que la línea corta al eje Y

1=pendiente(intensidad del efecto. Cambio por cada unidad de X)

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s Errores positivos

Errores negativosMatriz de covarianza de = I2

~ N(0,I2).

•Generalmente la distribución de probabilidad de es normal•Los errores asociados a cualquier par de observaciones distintas son independientes

i ~ N(0,2)

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Se quiere estudiar la asociación entre el consumo de sal y la tensión arterial. A una serie de voluntarios se les administra distintas dosis de sal en su dieta y se mide su tensión arterial un tiempo después. Se obtienen los siguientes datos:

SalSal

(grs (grs diarios)diarios)

Presión Presión arterialarterial

1,81,8 100100

2,22,2 9898

3,53,5 110110

4,04,0 110110

4,34,3 112112

5,05,0 120120

¿Cuáles serían las matrices X, Y y ?

Y = 0 + 1X

0: presión media de los que no toman nada de sal1: cambio de la presión arterial por aumentar un gramo el consumo de sal

¿Qué representan ¿Qué representan 00 y y 11??

??

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Y = X +

E(Y) = X

Var(Y) = I2

Y ~ N(X,I2)

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

¿ Cómo se determina la ¿ Cómo se determina la recta?recta?

Método de mínimos Método de mínimos cuadrados cuadrados

Minimiza la suma de Minimiza la suma de cuadrados de las cuadrados de las diferencias entre las diferencias entre las observaciones y las observaciones y las predicciones del predicciones del modelo es decir modelo es decir minimiza la suma de minimiza la suma de residuales residuales

22 )ˆ(min iiii

YY Residual: i i iY Y

X

Y i

Yi

Yi

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

EstimaciónEstimación

b

X X Y Y

Cov X Y

i ii

N

X Xii

N

X

( )( )

( , )

( )

1

2

1

2

rCov X Y

X Y

( , )

r b X

Y

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Supuestos del modeloSupuestos del modelo Los residuales son independientesLos residuales son independientes

Su valor esperado es 0Su valor esperado es 0

Para algunas pruebas se suponen distribuidos NormalesPara algunas pruebas se suponen distribuidos Normales

La varianza de los residuales es igual para todos lo xLa varianza de los residuales es igual para todos lo x ii (homoscedasticidad).(homoscedasticidad).

Las X son determinísticasLas X son determinísticas

La aleatoriedad de Y se debe a la del residualLa aleatoriedad de Y se debe a la del residual

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

EjemploEjemplo

Age SBP Age SBP Age SBP

22 131 41 139 52 128 23 128 41 171 54 105 24 116 46 137 56 145 27 106 47 111 57 141 28 114 48 115 58 153 29 123 49 133 59 157 30 117 49 128 63 155 32 122 50 183 67 176 33 99 51 130 71 172 35 121 51 133 77 178 40 147 51 144 81 217

X = Edad (AGE) e Y = presión sistólica (SBP)

33 mujeres adultas

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Minimizar suma de Minimizar suma de cuadrados de residualescuadrados de residuales

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

sDescomposición de la suma Descomposición de la suma

de de cuadrados totalescuadrados totales

Total SS SS debido al modelo

( )Y Yii

N

1

2 ( )Y Yii

N

1

2 ( )Y Yii

N

i

1

2

Y

Y

= +

Total SS SS debido al modelo SS residuales

= +

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Si suponemos que x no contribuye con información a la predicción de y, la mejor predicción de y será la media de la muestra

Descomposición de la suma de Descomposición de la suma de cuadrados totalescuadrados totales

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

sDescomposición de la suma de Descomposición de la suma de

cuadrados totalescuadrados totales

150

160

170

180

190

200

210

50 60 70 80 90 100 110

( )Y Yii

N

1

2 ( )Y Yii

N

1

2 ( )Y Yii

N

i

1

2

Total SS SS debido al modelo SS residuales (SSE)

= +

SS Total SS Residual

SS Modelo

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Si x contribuye con poca o ninguna información a la predicción de y, las sumas de los cuadrados de SStotal y SSE serán casi iguales

Si x contribuye con información a la predicción de y, entonces

SSE < SStotal

De hecho, ¿qué pasa si todos caen en la línea de mínimos cuadrados? SSE = 0

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

sPunto Punto de datosde datos

Valor de Valor de yy

x1x1 x2x2 . . .. . . xpxp Error Error aleatorio no aleatorio no observableobservable

11 yy11 xx1111 xx2121 xx1p1p εε11

22 yy22 xx2121 xx2222 xx2p2p εε22

.. .. .. .. .. ..

.. .. .. .. .. ..

.. .. .. .. .. ..

nn yynn xxn1n1 xxn2n2 xxnpnp εεnn

yy11

yy22

..

..

..

yynn

Y=

εε11

εε 2 2

..

..

..

εε n n

εε =

11 xx1111 xx2121 xx1p1p

11 xx2121 xx2222 xx2p2p

.. .. .. ..

.. .. .. ..

.. .. .. ..

11 xxn1n1 xxn2n2 xxnpnp

X=

β0

β 1 1

..

..

..

β p p

β =

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

yy11

yy22

..

..

..

yynn

Y

εε11

εε 2 2

..

..

..

εε n n

εε

11 xx1111 xx2121 xx1p1p

11 xx2121 xx2222 xx2p2p

.. .. .. ..

.. .. .. ..

.. .. .. ..

11 xxn1n1 xxn2n2 xxnpnp

X β

= * +

β0

β 1 1

..

..

..

β p p

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Medidas de ajuste globalMedidas de ajuste global

2

1

2

12

)(

)ˆ(1

YY

YYR N

ii

i

N

ii

RR22=1-(SS RESIDUAL / TOTAL =1-(SS RESIDUAL / TOTAL SS)SS)

R cuadradoR cuadrado

El valor de R2 aumenta conforme se agregan más variables al modelo. R2 es 1 cuando el número de términos del modelo es igual al número de puntos de datos.

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Medidas de ajuste globalMedidas de ajuste global

R cuadrado R cuadrado ajustadoajustado

1

)(

)ˆ(

12

1

2

1

2

N

YY

pN

YY

AdjR N

ii

i

N

ii

Toma en cuenta tanto el tamaño de la muestra (N) como el número de parámetros del modelo (p)

SS RESIDUALSS RESIDUAL

TOTAL SSTOTAL SS

Grados de libertad totalGrados de libertad total

Grados de libertad del errorGrados de libertad del error

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Aproximadamente el R2 % de la variación total en los valores de y, es explicada por la regresión.

Interpretación de RInterpretación de R22

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

¿¿Cómo se estimaCómo se estima??

pnSSE

MSE

yyXySSE

PyXy

yXXX TT

2

22

1

ˆ

ˆˆ

ˆˆ

ˆ

2min

XySSE

Se minimiza la suma de cuadrados de los Se minimiza la suma de cuadrados de los errores y se determinan los parámetros del errores y se determinan los parámetros del modelomodelo

Operaciones Operaciones matriciales con las matriciales con las matrices de datos matrices de datos arrojan los arrojan los siguientes siguientes estimadores: estimadores: ¿Es computacionalmente costoso calcular esta inversa?

¿De qué depende?

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

El objetivo de una proyección es transformar Y en un espacio n dimensional a un vector tal que esté lo más cerca posible de Y.

= PY donde P es la matriz de proyección.Y

Ejemplos de matrices de proyección:

1/3 1/3 1/31/3 1/3 1/31/3 1/3 1/3

1 0 00 1 00 0 1

Matrices de Matrices de proyecciónproyección

Propiedades: Idempotencia y Simetría

Y Y

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Nivel de hidrocarburo (%) Pureza (%)

X Y

0,99 90,01

1,02 89,05

1,15 91,43

1,29 93,74

1,46 96,73

1,36 94,45

0,87 87,59

1,23 91,77

1,55 99,42

, ,

, ,

, ,

Porcentaje de hidrocarburos presentes en el condensador principal de la unidad de destilación

Pureza del oxígeno producido en un proceso de destilación químico

Ejemplo 1

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

86

88

90

92

94

96

98

100

102

0,8 1 1,2 1,4 1,6

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Estadísticas de la regresión

Coeficiente de correlación múltiple 0,937155851

Coeficiente de determinación R^2 0,878261088

R^2 ajustado 0,871497816

Error típico 1,08367414

Observaciones 20

ANÁLISIS DE VARIANZA

 Grados de

libertadSuma de

cuadradosPromedio de los

cuadrados

Regresión 1 152,498001 152,4980014

Residuos 18 21,138293 1,174349642

Total 19 173,636295  

  Coeficientes Error típico Estadístico t

Intercepción 74,267 1,589 46,729

Variable X 1 14,966 1,313 11,395

SS residuales (SSE)SS debido al modelo (SSR)

Error cuadrático medio (MSE)

¿Cuál sería la estimación del nivel de pureza si el porcentaje de hidrocarburo es 1%?

Y=74.26+14.97*1= 89.23

n – número de parámetros

n-1

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

70737679828588919497

100103

-1 -0,5 0 0,5 1 1,5 2

Y = 74.26 + 14.97X

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Y x1 x2 x3 x4

240 25 24 91 100

236 31 21 90 95

290 45 24 88 110

274 60 25 87 88

301 65 25 91 94

316 72 26 94 99

300 80 25 87 97

296 84 25 86 96

267 75 24 88 110

276 60 25 91 105

288 50 25 90 100

261 38 23 89 98

Se piensa que la potencia eléctrica consumida al mes por una planta química está relacionada con la temperatura ambiente promedio (x1), el número de días del mes (x2), la pureza promedio del producto (x3) y las toneladas de producto producidas (x4). Los datos correspondientes al años pasado son las siguientes:

Ejemplo 2

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

sEstadísticas de la regresión

Coeficiente de correlación múltiple 0,86298887

Coeficiente de determinación R^2 0,74474978

R^2 ajustado 0,59889252

Error típico 15,5793327

Observaciones 12

ANÁLISIS DE VARIANZA

 Grados de

libertadSuma de

cuadradosPromedio de los

cuadrados

Regresión 4 4957,240744 1239,310186

Residuos 7 1699,009256 242,7156081

Total 11 6656,25  

  Coeficientes Error típico Estadístico t

Intercepción -102,713236 207,8588509 -0,494148967

Variable X 1 0,60537054 0,368896954 1,641028833

Variable X 2 8,9236442 5,300522238 1,683540564

Variable X 3 1,43745673 2,391620508 0,601038806

Variable X 4 0,01360931 0,733821444 0,018545803

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Prediga el consumo de potencia para un mes en el que x1 = 75oF, x2 = 24 días, x3 = 90% y x4 = 98 toneladas

-102.71+0.60*75+8.92*24+1.43*90+0.0136*98

= 287,5618328

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s Una muestra aleatoria simple de 15 niños aparentemente sanos con edades entre 6 meses y 15 años produjo los siguientes datos con respecto a la edad (X), y el volumen del hígado por unidad de peso corporal (ml/kg), Y:

EdadEdadVol. del Vol. del HigadoHigado

0,50,5 4141

0,70,7 5555

2,52,5 4141

4,14,1 3939

5,95,9 5050

6,16,1 3232

77 4141

8,28,2 4242

1010 2626

10,110,1 3535

10,910,9 2525

11,511,5 3131

21,121,1 3131

14,114,1 2929

1515 2323

Ejemplo 3

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Estadísticas de la regresión

Coeficiente de correlación múltiple 0,704398266

Coeficiente de determinación R^2 0,496176917

R^2 ajustado 0,457421296

Error típico 6,770916984

Observaciones 15

ANÁLISIS DE VARIANZA

 Grados de

libertadSuma de

cuadradosPromedio de los

cuadrados

Regresión 1 586,9442148 586,9442148

Residuos 13 595,9891185 45,84531681

Total 14 1182,933333  

  Coeficientes

Intercepción 45,822078

Variable X 1 -1,14589796

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

0

10

20

30

40

50

60

0 5 10 15 20 25

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

0

10

20

30

40

50

60

-10 0 10 20 30

  Coeficientes

Intercepción 45,822078

Variable X 1 -1,14589796

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Tipos de ResidualesTipos de Residuales

Ausencia de Ausencia de patronespatrones

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Tendencias en los Tendencias en los residualesresiduales

Re

sid

ua

lX

Y

ComportamientComportamiento cuadráticoo cuadrático

¿Qué hacer?¿Qué hacer? Incluir una variable Incluir una variable

cuadrática en el cuadrática en el modelomodelo

Modelo

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Análisis de residualesAnálisis de residuales

¿¿Homoscedasticidad?Homoscedasticidad?

Predicción

Re

sid

ua

l Grupo 1

Grupo 2Grupo 3

Variabilidad residual Variabilidad residual crecientecreciente

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Intervalos de confianzaIntervalos de confianza Se separan a Se separan a

medida que la medida que la

variable se aleja del variable se aleja del

centro de la centro de la

distribucióndistribución

La extrapolación es La extrapolación es

imprecisaimprecisa

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Modelos LinealesModelos Lineales El modelo lineal (análisis de regresión) es una El modelo lineal (análisis de regresión) es una

metodología para examinar la asociación metodología para examinar la asociación

cuantitativa entre una variable de respuesta cuantitativa entre una variable de respuesta yy

con otras con otras pp variables de predicción variables de predicción xxjj

Donde existen Donde existen nn mediciones de la respuesta mediciones de la respuesta yyii

observadas bajo un conjunto de condiciones observadas bajo un conjunto de condiciones

experimentales de las variables de predicción experimentales de las variables de predicción xxjj

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

FormulaciónFormulación

Los errores Los errores ii son variables aleatorias son variables aleatorias independientes de media 0independientes de media 0

La varianza de los errores La varianza de los errores ii es constante es constante para todas las observacionespara todas las observaciones

La linealidad se establece sobre los La linealidad se establece sobre los parámetros no sobre las variablesparámetros no sobre las variables

2

1

0

ii

p

ji

jiji V E xy

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Modelos lineales y no Modelos lineales y no linealeslineales

)cos()sin(

)sin(

)1(

122

122

212121

2

2

tt dcbtay

btay

exxdxcxbxay

xcbay

xbxay

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

sDos modelos alternativos Dos modelos alternativos

para una data de la población para una data de la población de EEUUde EEUU

2

21

10

añoañoPob cuadrático

añoPob lineal

0

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Etapas para construir Etapas para construir un buen Modeladoun buen Modelado

1.1. Identificación de la estructura de entradaIdentificación de la estructura de entrada

2.2. Formulación y estimación del modeloFormulación y estimación del modelo

3.3. Análisis globalAnálisis global

4.4. Análisis individual de los parámetrosAnálisis individual de los parámetros

5.5. Reformulación del modeloReformulación del modelo

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Etapas del ModeladoEtapas del Modelado

6.6. Seleccionar los mejores modelos alternativosSeleccionar los mejores modelos alternativos

7.7. Estudio de residualesEstudio de residuales

8.8. Coherencia con la realidadCoherencia con la realidad

9.9. Elección del mejor modelo e interpretación del mismoElección del mejor modelo e interpretación del mismo

10.10. PredicciónPredicción

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Identificación de la Identificación de la estructura estructura de entradade entrada

Identificar variables candidatasIdentificar variables candidatas Experiencia experta (tormenta de ideas)Experiencia experta (tormenta de ideas) Correlación de las variables causales con la Correlación de las variables causales con la

respuestarespuesta Estudio de interacción entre las variables Estudio de interacción entre las variables

seleccionadasseleccionadas Análisis de correlación múltiple entre las Análisis de correlación múltiple entre las

variables causalesvariables causales Componentes principalesComponentes principales

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Formulación: Resultados Formulación: Resultados FundamentalesFundamentales

Formulación vectorialFormulación vectorial

20 V E con Xy

Las dimensiones de y, X, Las dimensiones de y, X, , y , y son: son:

YY n*1n*1

XX n*pn*p

p*1p*1

n*1n*1

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Estimación de Parámetros Estimación de Parámetros por mínimos cuadradospor mínimos cuadrados

2ˆvar

ˆ

estimadaianzaLa

estimadosparámetrosLos

¿Qué se estima?¿Qué se estima?

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

¿¿Cómo se estimaCómo se estima??

pn

SSE

ypyXySSE

PyXyp

yXXX TT

2

22

1

ˆ

ˆ

ˆ

ˆ

2min

XySSE

Se minimiza la suma de cuadrados de los Se minimiza la suma de cuadrados de los errores y se determinan los parámetros del errores y se determinan los parámetros del modelomodelo

Operaciones Operaciones matriciales con las matriciales con las matrices de datos matrices de datos arrojan los arrojan los siguientes siguientes estimadores: estimadores:

¡El Software lo ¡El Software lo

Hace por Uds!Hace por Uds!

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Ajuste Global del ModeloAjuste Global del Modelo

SS Y Yii

N

Total ( )

1

2

SS Y Yii

N

model ( )

1

2

SS Y Yii

N

ierror ( )

1

2

X2

X1

Y

Modelo SS

Total SS

Residual SS

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Ajuste Global del ModeloAjuste Global del Modelo

Error medio cuadrático MSE (mean square error)Error medio cuadrático MSE (mean square error)

El coeficiente de determinación R-SquareEl coeficiente de determinación R-Square

El coeficiente de determinación ajustado ADJR-El coeficiente de determinación ajustado ADJR-

SquareSquare

El número de parámetrosEl número de parámetros

1

11 22

2

nSST

pnSSE

AdjRSSTSSE

R

yySSTpn

SSEMSE

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Análisis Individual de los Análisis Individual de los ParámetrosParámetros

i

ii

T

ˆ

ˆtratio XXdiagRMSEˆ

1

Pruebas de hipótesis para determinar si cada Pruebas de hipótesis para determinar si cada

uno de los parámetros es distinto de 0 uno de los parámetros es distinto de 0

Eliminar la que tenga menor tratio Eliminar la que tenga menor tratio mayor p-mayor p-

valuevalue

Las variables en un modelo de regresión Las variables en un modelo de regresión

deben ser deben ser eliminadas de una en unaeliminadas de una en una::

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Estimación del modelo de poblaciónEstimación del modelo de población

añolineal 10Pob

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Estimación del modelo de poblaciónEstimación del modelo de población

2210Pob añoañocuadrático

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Seleccionar los Mejores Seleccionar los Mejores Modelos AlternativosModelos Alternativos

En función de:En función de: Error medio cuadrático MSEError medio cuadrático MSE

El coeficiente de determinación R-SquareEl coeficiente de determinación R-Square

El coeficiente de determinación AdjR-El coeficiente de determinación AdjR-SquareSquare

El número p de variables en el modeloEl número p de variables en el modelo

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

El principio de ParsimoniaEl principio de Parsimonia

““.... everything should be made as .... everything should be made as simple as possible but not simple as possible but not simpler”simpler”

Albert Einstein

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Estudio de ResidualesEstudio de Residuales Graficar los residuales contra cada una de las Graficar los residuales contra cada una de las

variables de entrada en busca de patronesvariables de entrada en busca de patrones La ausencia de patrones es una buena señalLa ausencia de patrones es una buena señal

Comportamiento cuadráticoComportamiento cuadrático

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Estudio de ResidualesEstudio de Residuales

Graficar los residuales contra las prediccionesGraficar los residuales contra las predicciones La ausencia de patrones es una buena señalLa ausencia de patrones es una buena señal

RResiduales del modeloesiduales del modelo

cuadrático decuadrático de

poblaciónpoblación

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

EjemploEjemplo

Age SBP Age SBP Age SBP

22 131 41 139 52 128 23 128 41 171 54 105 24 116 46 137 56 145 27 106 47 111 57 141 28 114 48 115 58 153 29 123 49 133 59 157 30 117 49 128 63 155 32 122 50 183 67 176 33 99 51 130 71 172 35 121 51 133 77 178 40 147 51 144 81 217

X= Edad (AGE) e Y=presión sistólica (SBP)

33 mujeres adultas

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Modelo Lineal de Presión SistólicaModelo Lineal de Presión Sistólica

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

ResidualesResiduales

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Modelo Cuadrático de Presión SistólicaModelo Cuadrático de Presión Sistólica

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

ResidualesResiduales

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Coherencia con la Coherencia con la realidadrealidad

Interpretación de los coeficientes: Interpretación de los coeficientes: jj representa el representa el incremento de la respuesta por unidad de cambio de incremento de la respuesta por unidad de cambio de la variable de entrada la variable de entrada xxjj

El signo de El signo de jj debe corresponder con el tipo de debe corresponder con el tipo de asociación esperada.asociación esperada.

1

p

ji

jiji xy

Condición aeróbica = 00+ + 11 BMI + BMI + 22 pulso pulsoreposoreposo + +

¿Qué signo esperamos de los coeficientes?

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

sComparación final de Comparación final de

modelos posiblesmodelos posibles

síok5.88322.01 II

síok3.87324.73 I

coherenciaresidualesParámetrosAdjR2MSEModelo

Criterios

min minmax

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

sConsumo de oxigeno por unidad de Consumo de oxigeno por unidad de tiempo y peso en una carrera de 2 tiempo y peso en una carrera de 2

kmkm

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Se excluyó RSTPULSESe excluyó RSTPULSE

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Se excluyó WEIGHTSe excluyó WEIGHT

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

Se excluyó MAXPULSESe excluyó MAXPULSE

¿Es un modelo coherente?¿Es un modelo coherente?

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

OKOK33.7901.79012.44062.4406--MAXPULSMAXPULSEE

??44.8117.81172.31162.3116-WEIGHT-WEIGHT

??55.8176.81762.27522.2752--RSTPULSERSTPULSE

??66.8108.81082.31692.3169fullfull

Cohe_Cohe_

renciarencia

Número Número variablevariabless

Ad-jRAd-jR22RMSERMSEmodelmodeloo

Copyright©2007. Copyright©2007. Métodos EstadísticosMétodos Estadísticos

Tem

a 4

. M

odelo

s Li

neale

sTem

a 4

. M

odelo

s Li

neale

s

PredicciónPredicción Se estima la predicción Se estima la predicción Intervalos de confianza de la predicciónIntervalos de confianza de la predicción

top related