modelos de regresión · número de variables en el modelo. el estadístico c p de mallows i otra...

Post on 16-Mar-2020

1 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Modelos de RegresiónEL PROBLEMA DE LA SELECCIÓN DE VARIABLES

Javier Olaya Ochoa

Escuela de EstadísticaUniversidad del Valle

Cali - Colombia

13 de febrero de 2016

Contenido

Indicadores de calidad de los modelos ajustadosEl coeficiente de Determinación R2

El coeficiente de Determinación Ajustado R2aj

El estadístico Cp de MallowsEl criterio de información de Akaike (AIC)El criterio de información Bayesiano (BIC)

El problema de la selección de variables

La prueba F-parcial

La bibliografía

Contenido

Indicadores de calidad de los modelos ajustadosEl coeficiente de Determinación R2

El coeficiente de Determinación Ajustado R2aj

El estadístico Cp de MallowsEl criterio de información de Akaike (AIC)El criterio de información Bayesiano (BIC)

El problema de la selección de variables

La prueba F-parcial

La bibliografía

¿Cuál modelo es mejor?

I Con mucha frecuencia debemos comparar varios modeloslineales para decidir cuál de ellos es “mejor”

I Pero, como es normal, la noción de “mejor” estáestrechamente relacionada con el criterio con el cual setoma la decisión

I En el mundo de las decisiones personales, los criterios sonpersonales

I Pero en las aplicaciones técnicas lo mejor es tener a manoindicadores técnicos que nos ayuden a formular nuestrasconclusiones

I En el marco de los modelos lineales se han propuestovarios indicadores de bondad de los modelos

I Presentaremos algunos de ellos

¿Cuál modelo es mejor?

I Con mucha frecuencia debemos comparar varios modeloslineales para decidir cuál de ellos es “mejor”

I Pero, como es normal, la noción de “mejor” estáestrechamente relacionada con el criterio con el cual setoma la decisión

I En el mundo de las decisiones personales, los criterios sonpersonales

I Pero en las aplicaciones técnicas lo mejor es tener a manoindicadores técnicos que nos ayuden a formular nuestrasconclusiones

I En el marco de los modelos lineales se han propuestovarios indicadores de bondad de los modelos

I Presentaremos algunos de ellos

¿Cuál modelo es mejor?

I Con mucha frecuencia debemos comparar varios modeloslineales para decidir cuál de ellos es “mejor”

I Pero, como es normal, la noción de “mejor” estáestrechamente relacionada con el criterio con el cual setoma la decisión

I En el mundo de las decisiones personales, los criterios sonpersonales

I Pero en las aplicaciones técnicas lo mejor es tener a manoindicadores técnicos que nos ayuden a formular nuestrasconclusiones

I En el marco de los modelos lineales se han propuestovarios indicadores de bondad de los modelos

I Presentaremos algunos de ellos

¿Cuál modelo es mejor?

I Con mucha frecuencia debemos comparar varios modeloslineales para decidir cuál de ellos es “mejor”

I Pero, como es normal, la noción de “mejor” estáestrechamente relacionada con el criterio con el cual setoma la decisión

I En el mundo de las decisiones personales, los criterios sonpersonales

I Pero en las aplicaciones técnicas lo mejor es tener a manoindicadores técnicos que nos ayuden a formular nuestrasconclusiones

I En el marco de los modelos lineales se han propuestovarios indicadores de bondad de los modelos

I Presentaremos algunos de ellos

¿Cuál modelo es mejor?

I Con mucha frecuencia debemos comparar varios modeloslineales para decidir cuál de ellos es “mejor”

I Pero, como es normal, la noción de “mejor” estáestrechamente relacionada con el criterio con el cual setoma la decisión

I En el mundo de las decisiones personales, los criterios sonpersonales

I Pero en las aplicaciones técnicas lo mejor es tener a manoindicadores técnicos que nos ayuden a formular nuestrasconclusiones

I En el marco de los modelos lineales se han propuestovarios indicadores de bondad de los modelos

I Presentaremos algunos de ellos

¿Cuál modelo es mejor?

I Con mucha frecuencia debemos comparar varios modeloslineales para decidir cuál de ellos es “mejor”

I Pero, como es normal, la noción de “mejor” estáestrechamente relacionada con el criterio con el cual setoma la decisión

I En el mundo de las decisiones personales, los criterios sonpersonales

I Pero en las aplicaciones técnicas lo mejor es tener a manoindicadores técnicos que nos ayuden a formular nuestrasconclusiones

I En el marco de los modelos lineales se han propuestovarios indicadores de bondad de los modelos

I Presentaremos algunos de ellos

El coeficiente de Determinación R2

I De acuerdo con lo discutido, la suma de cuadrados delas respuestas, corregida por la media, se puede expresarcomo

n∑i=1

(yi − y)2 =n∑

i=1

(yi − yi)2 +

n∑i=1

(yi − y)2

I O seaSCT = SCE + SCR

I Si dividimos ambos términos de la igualdad entre SCT,tenemos

1 =SCESCT

+SCRSCT

El coeficiente de Determinación R2

I De acuerdo con lo discutido, la suma de cuadrados delas respuestas, corregida por la media, se puede expresarcomo

n∑i=1

(yi − y)2 =n∑

i=1

(yi − yi)2 +

n∑i=1

(yi − y)2

I O seaSCT = SCE + SCR

I Si dividimos ambos términos de la igualdad entre SCT,tenemos

1 =SCESCT

+SCRSCT

El coeficiente de Determinación R2

I De acuerdo con lo discutido, la suma de cuadrados delas respuestas, corregida por la media, se puede expresarcomo

n∑i=1

(yi − y)2 =n∑

i=1

(yi − yi)2 +

n∑i=1

(yi − y)2

I O seaSCT = SCE + SCR

I Si dividimos ambos términos de la igualdad entre SCT,tenemos

1 =SCESCT

+SCRSCT

El coeficiente de Determinación R2

I El Coeficiente de Determinación del modelo se denota R2

y se define como

R2 =SCRSCT

I Se calcula así

R2 =SCRSCT

= 1 − SCESCT

I Y se interpreta como la variación de las respuestas quelogra ser explicada por el modelo ajustado

El coeficiente de Determinación R2

I El Coeficiente de Determinación del modelo se denota R2

y se define como

R2 =SCRSCT

I Se calcula así

R2 =SCRSCT

= 1 − SCESCT

I Y se interpreta como la variación de las respuestas quelogra ser explicada por el modelo ajustado

El coeficiente de Determinación R2

I El Coeficiente de Determinación del modelo se denota R2

y se define como

R2 =SCRSCT

I Se calcula así

R2 =SCRSCT

= 1 − SCESCT

I Y se interpreta como la variación de las respuestas quelogra ser explicada por el modelo ajustado

El coeficiente de Determinación Ajustado R2aj

I El Coeficiente de Determinación R2 crece con la adición denuevas variables

I Así que podría no ser muy adecuado para compararmodelos con diferente número de variables

I Una alternativa es usar una versión del R2 que se “ajuste”por el número de variables

I Esta versión ajustada se llama, consecuentemente,Coeficiente de Determinación Ajustado, se denota R2

aj y sedefine así

R2aj = R2 n − 1

n − p

I El R2aj no necesariamente será mayor al aumentar el

número de variables en el modelo

El coeficiente de Determinación Ajustado R2aj

I El Coeficiente de Determinación R2 crece con la adición denuevas variables

I Así que podría no ser muy adecuado para compararmodelos con diferente número de variables

I Una alternativa es usar una versión del R2 que se “ajuste”por el número de variables

I Esta versión ajustada se llama, consecuentemente,Coeficiente de Determinación Ajustado, se denota R2

aj y sedefine así

R2aj = R2 n − 1

n − p

I El R2aj no necesariamente será mayor al aumentar el

número de variables en el modelo

El coeficiente de Determinación Ajustado R2aj

I El Coeficiente de Determinación R2 crece con la adición denuevas variables

I Así que podría no ser muy adecuado para compararmodelos con diferente número de variables

I Una alternativa es usar una versión del R2 que se “ajuste”por el número de variables

I Esta versión ajustada se llama, consecuentemente,Coeficiente de Determinación Ajustado, se denota R2

aj y sedefine así

R2aj = R2 n − 1

n − p

I El R2aj no necesariamente será mayor al aumentar el

número de variables en el modelo

El coeficiente de Determinación Ajustado R2aj

I El Coeficiente de Determinación R2 crece con la adición denuevas variables

I Así que podría no ser muy adecuado para compararmodelos con diferente número de variables

I Una alternativa es usar una versión del R2 que se “ajuste”por el número de variables

I Esta versión ajustada se llama, consecuentemente,Coeficiente de Determinación Ajustado, se denota R2

aj y sedefine así

R2aj = R2 n − 1

n − p

I El R2aj no necesariamente será mayor al aumentar el

número de variables en el modelo

El coeficiente de Determinación Ajustado R2aj

I El Coeficiente de Determinación R2 crece con la adición denuevas variables

I Así que podría no ser muy adecuado para compararmodelos con diferente número de variables

I Una alternativa es usar una versión del R2 que se “ajuste”por el número de variables

I Esta versión ajustada se llama, consecuentemente,Coeficiente de Determinación Ajustado, se denota R2

aj y sedefine así

R2aj = R2 n − 1

n − p

I El R2aj no necesariamente será mayor al aumentar el

número de variables en el modelo

El estadístico Cp de Mallows

I Otra alternativa de comparación de modelos es elestadístico Cp de Mallows, que se define de la siguientemanera

Cp =SCEσ2 − (n − 2p)

I Se sabe que E[Cp] = p y si uno ajusta un modelo con todaslas variables disponibles, entonces Cp = p

I La idea sería entonces elegir un modelo que usando menosvariables tenga un valor del estadístico que sea cercano ap

I Una forma de evaluar esta cercanía es graficar una rectade Cp contra p

El estadístico Cp de Mallows

I Otra alternativa de comparación de modelos es elestadístico Cp de Mallows, que se define de la siguientemanera

Cp =SCEσ2 − (n − 2p)

I Se sabe que E[Cp] = p y si uno ajusta un modelo con todaslas variables disponibles, entonces Cp = p

I La idea sería entonces elegir un modelo que usando menosvariables tenga un valor del estadístico que sea cercano ap

I Una forma de evaluar esta cercanía es graficar una rectade Cp contra p

El estadístico Cp de Mallows

I Otra alternativa de comparación de modelos es elestadístico Cp de Mallows, que se define de la siguientemanera

Cp =SCEσ2 − (n − 2p)

I Se sabe que E[Cp] = p y si uno ajusta un modelo con todaslas variables disponibles, entonces Cp = p

I La idea sería entonces elegir un modelo que usando menosvariables tenga un valor del estadístico que sea cercano ap

I Una forma de evaluar esta cercanía es graficar una rectade Cp contra p

El estadístico Cp de Mallows

I Otra alternativa de comparación de modelos es elestadístico Cp de Mallows, que se define de la siguientemanera

Cp =SCEσ2 − (n − 2p)

I Se sabe que E[Cp] = p y si uno ajusta un modelo con todaslas variables disponibles, entonces Cp = p

I La idea sería entonces elegir un modelo que usando menosvariables tenga un valor del estadístico que sea cercano ap

I Una forma de evaluar esta cercanía es graficar una rectade Cp contra p

El criterio de información de Akaike (AIC)

I Una alternativa que tiene cada vez más y más acogida esel AIC, que se define así:

AIC = −nlog(

SCEn

)+ 2p

I Este criterio se basa en una estimación de la desigualdadde Kullback-Leibler, que propone un mecanismo de mediruna distancia entre dos funciones

I Una de estas funciones es la “función de regresiónverdadera” (que uno no conoce) y la otra es la que unoobtiene de los datos

I Este criterio no tiene una cota, por lo que es útil en términosrelativos

I El mejor modelo, entre varios basados en los mismosdatos, será el que tenga el menor AIC (Faraway 2004)

El criterio de información de Akaike (AIC)

I Una alternativa que tiene cada vez más y más acogida esel AIC, que se define así:

AIC = −nlog(

SCEn

)+ 2p

I Este criterio se basa en una estimación de la desigualdadde Kullback-Leibler, que propone un mecanismo de mediruna distancia entre dos funciones

I Una de estas funciones es la “función de regresiónverdadera” (que uno no conoce) y la otra es la que unoobtiene de los datos

I Este criterio no tiene una cota, por lo que es útil en términosrelativos

I El mejor modelo, entre varios basados en los mismosdatos, será el que tenga el menor AIC (Faraway 2004)

El criterio de información de Akaike (AIC)

I Una alternativa que tiene cada vez más y más acogida esel AIC, que se define así:

AIC = −nlog(

SCEn

)+ 2p

I Este criterio se basa en una estimación de la desigualdadde Kullback-Leibler, que propone un mecanismo de mediruna distancia entre dos funciones

I Una de estas funciones es la “función de regresiónverdadera” (que uno no conoce) y la otra es la que unoobtiene de los datos

I Este criterio no tiene una cota, por lo que es útil en términosrelativos

I El mejor modelo, entre varios basados en los mismosdatos, será el que tenga el menor AIC (Faraway 2004)

El criterio de información de Akaike (AIC)

I Una alternativa que tiene cada vez más y más acogida esel AIC, que se define así:

AIC = −nlog(

SCEn

)+ 2p

I Este criterio se basa en una estimación de la desigualdadde Kullback-Leibler, que propone un mecanismo de mediruna distancia entre dos funciones

I Una de estas funciones es la “función de regresiónverdadera” (que uno no conoce) y la otra es la que unoobtiene de los datos

I Este criterio no tiene una cota, por lo que es útil en términosrelativos

I El mejor modelo, entre varios basados en los mismosdatos, será el que tenga el menor AIC (Faraway 2004)

El criterio de información de Akaike (AIC)

I Una alternativa que tiene cada vez más y más acogida esel AIC, que se define así:

AIC = −nlog(

SCEn

)+ 2p

I Este criterio se basa en una estimación de la desigualdadde Kullback-Leibler, que propone un mecanismo de mediruna distancia entre dos funciones

I Una de estas funciones es la “función de regresiónverdadera” (que uno no conoce) y la otra es la que unoobtiene de los datos

I Este criterio no tiene una cota, por lo que es útil en términosrelativos

I El mejor modelo, entre varios basados en los mismosdatos, será el que tenga el menor AIC (Faraway 2004)

El criterio de información de Bayesiano (BIC)

I Y otra alternativa es el BIC, definido así:

BIC = −nlog(

SCEn

)+ log(n)p

I Este criterio es una variación del anteriorI Al término de la derecha se le conoce como “penalización”,

por lo que el BIC tiene una penalización más fuerte que elAIC

I Por esta razón el BIC tiende a elegir modelos con menosvariables que el AIC

El criterio de información de Bayesiano (BIC)

I Y otra alternativa es el BIC, definido así:

BIC = −nlog(

SCEn

)+ log(n)p

I Este criterio es una variación del anterior

I Al término de la derecha se le conoce como “penalización”,por lo que el BIC tiene una penalización más fuerte que elAIC

I Por esta razón el BIC tiende a elegir modelos con menosvariables que el AIC

El criterio de información de Bayesiano (BIC)

I Y otra alternativa es el BIC, definido así:

BIC = −nlog(

SCEn

)+ log(n)p

I Este criterio es una variación del anteriorI Al término de la derecha se le conoce como “penalización”,

por lo que el BIC tiene una penalización más fuerte que elAIC

I Por esta razón el BIC tiende a elegir modelos con menosvariables que el AIC

El criterio de información de Bayesiano (BIC)

I Y otra alternativa es el BIC, definido así:

BIC = −nlog(

SCEn

)+ log(n)p

I Este criterio es una variación del anteriorI Al término de la derecha se le conoce como “penalización”,

por lo que el BIC tiene una penalización más fuerte que elAIC

I Por esta razón el BIC tiende a elegir modelos con menosvariables que el AIC

Contenido

Indicadores de calidad de los modelos ajustadosEl coeficiente de Determinación R2

El coeficiente de Determinación Ajustado R2aj

El estadístico Cp de MallowsEl criterio de información de Akaike (AIC)El criterio de información Bayesiano (BIC)

El problema de la selección de variables

La prueba F-parcial

La bibliografía

El problema de la selección de variables

I El problema de la selección de variables es en realidad unproblema de selección de modelos

I Por esta razón, los indicadores de bondad de los modelosson muy útiles en el problema de la selección de variables

I Este será nuestro interés a partir de este momento

El problema de la selección de variables

I El problema de la selección de variables es en realidad unproblema de selección de modelos

I Por esta razón, los indicadores de bondad de los modelosson muy útiles en el problema de la selección de variables

I Este será nuestro interés a partir de este momento

El problema de la selección de variables

I El problema de la selección de variables es en realidad unproblema de selección de modelos

I Por esta razón, los indicadores de bondad de los modelosson muy útiles en el problema de la selección de variables

I Este será nuestro interés a partir de este momento

El problema de la selección de variables

I El propósito es escoger el mejor subconjunto de las X ’sque permita predecir la respuesta sin perder calidad en laestimación

I ¿Por qué usar menos variables?

I The simpler, the betterI Es menos posible que se presente “colinealidad”I Los costos son menores

El problema de la selección de variables

I El propósito es escoger el mejor subconjunto de las X ’sque permita predecir la respuesta sin perder calidad en laestimación

I ¿Por qué usar menos variables?

I The simpler, the betterI Es menos posible que se presente “colinealidad”I Los costos son menores

El problema de la selección de variables

I El propósito es escoger el mejor subconjunto de las X ’sque permita predecir la respuesta sin perder calidad en laestimación

I ¿Por qué usar menos variables?I The simpler, the better

I Es menos posible que se presente “colinealidad”I Los costos son menores

El problema de la selección de variables

I El propósito es escoger el mejor subconjunto de las X ’sque permita predecir la respuesta sin perder calidad en laestimación

I ¿Por qué usar menos variables?I The simpler, the betterI Es menos posible que se presente “colinealidad”

I Los costos son menores

El problema de la selección de variables

I El propósito es escoger el mejor subconjunto de las X ’sque permita predecir la respuesta sin perder calidad en laestimación

I ¿Por qué usar menos variables?I The simpler, the betterI Es menos posible que se presente “colinealidad”I Los costos son menores

El problema de la selección de variables

I Antes de escoger variables asegúrese de:

I Identificar atípicos y si es del caso excluirlos, al menostemporalmente

I Identificar puntos influyentes y si es del caso excluirlos, almenos temporalmente

I Si planea o necesita introducir algún tipo de transformaciónde los datos, hacerlo con anticipación.

I Y tenga en cuenta que su mejor modelo deberá estarasociado con la naturaleza de sus variables y del problemaque tiene

I Los métodos de selección eligen modelos que sonestadísticamente preferibles

I Pero estos modelos pueden no ser los mejores para suproblema

I Si este es el caso, es posible que usted haya dejadovariables importantes por fuera de su estudio

El problema de la selección de variables

I Antes de escoger variables asegúrese de:I Identificar atípicos y si es del caso excluirlos, al menos

temporalmente

I Identificar puntos influyentes y si es del caso excluirlos, almenos temporalmente

I Si planea o necesita introducir algún tipo de transformaciónde los datos, hacerlo con anticipación.

I Y tenga en cuenta que su mejor modelo deberá estarasociado con la naturaleza de sus variables y del problemaque tiene

I Los métodos de selección eligen modelos que sonestadísticamente preferibles

I Pero estos modelos pueden no ser los mejores para suproblema

I Si este es el caso, es posible que usted haya dejadovariables importantes por fuera de su estudio

El problema de la selección de variables

I Antes de escoger variables asegúrese de:I Identificar atípicos y si es del caso excluirlos, al menos

temporalmenteI Identificar puntos influyentes y si es del caso excluirlos, al

menos temporalmente

I Si planea o necesita introducir algún tipo de transformaciónde los datos, hacerlo con anticipación.

I Y tenga en cuenta que su mejor modelo deberá estarasociado con la naturaleza de sus variables y del problemaque tiene

I Los métodos de selección eligen modelos que sonestadísticamente preferibles

I Pero estos modelos pueden no ser los mejores para suproblema

I Si este es el caso, es posible que usted haya dejadovariables importantes por fuera de su estudio

El problema de la selección de variables

I Antes de escoger variables asegúrese de:I Identificar atípicos y si es del caso excluirlos, al menos

temporalmenteI Identificar puntos influyentes y si es del caso excluirlos, al

menos temporalmenteI Si planea o necesita introducir algún tipo de transformación

de los datos, hacerlo con anticipación.

I Y tenga en cuenta que su mejor modelo deberá estarasociado con la naturaleza de sus variables y del problemaque tiene

I Los métodos de selección eligen modelos que sonestadísticamente preferibles

I Pero estos modelos pueden no ser los mejores para suproblema

I Si este es el caso, es posible que usted haya dejadovariables importantes por fuera de su estudio

El problema de la selección de variables

I Antes de escoger variables asegúrese de:I Identificar atípicos y si es del caso excluirlos, al menos

temporalmenteI Identificar puntos influyentes y si es del caso excluirlos, al

menos temporalmenteI Si planea o necesita introducir algún tipo de transformación

de los datos, hacerlo con anticipación.I Y tenga en cuenta que su mejor modelo deberá estar

asociado con la naturaleza de sus variables y del problemaque tiene

I Los métodos de selección eligen modelos que sonestadísticamente preferibles

I Pero estos modelos pueden no ser los mejores para suproblema

I Si este es el caso, es posible que usted haya dejadovariables importantes por fuera de su estudio

El problema de la selección de variables

I Antes de escoger variables asegúrese de:I Identificar atípicos y si es del caso excluirlos, al menos

temporalmenteI Identificar puntos influyentes y si es del caso excluirlos, al

menos temporalmenteI Si planea o necesita introducir algún tipo de transformación

de los datos, hacerlo con anticipación.I Y tenga en cuenta que su mejor modelo deberá estar

asociado con la naturaleza de sus variables y del problemaque tiene

I Los métodos de selección eligen modelos que sonestadísticamente preferibles

I Pero estos modelos pueden no ser los mejores para suproblema

I Si este es el caso, es posible que usted haya dejadovariables importantes por fuera de su estudio

El problema de la selección de variables

I Antes de escoger variables asegúrese de:I Identificar atípicos y si es del caso excluirlos, al menos

temporalmenteI Identificar puntos influyentes y si es del caso excluirlos, al

menos temporalmenteI Si planea o necesita introducir algún tipo de transformación

de los datos, hacerlo con anticipación.I Y tenga en cuenta que su mejor modelo deberá estar

asociado con la naturaleza de sus variables y del problemaque tiene

I Los métodos de selección eligen modelos que sonestadísticamente preferibles

I Pero estos modelos pueden no ser los mejores para suproblema

I Si este es el caso, es posible que usted haya dejadovariables importantes por fuera de su estudio

El problema de la selección de variables

I Antes de escoger variables asegúrese de:I Identificar atípicos y si es del caso excluirlos, al menos

temporalmenteI Identificar puntos influyentes y si es del caso excluirlos, al

menos temporalmenteI Si planea o necesita introducir algún tipo de transformación

de los datos, hacerlo con anticipación.I Y tenga en cuenta que su mejor modelo deberá estar

asociado con la naturaleza de sus variables y del problemaque tiene

I Los métodos de selección eligen modelos que sonestadísticamente preferibles

I Pero estos modelos pueden no ser los mejores para suproblema

I Si este es el caso, es posible que usted haya dejadovariables importantes por fuera de su estudio

El problema de la selección de variables

I Algunas otras recomendaciones que es prudenteconsiderar en la construcción de modelos

I Si tiene pocos datos, evite modelos complejosI Si le es posible, conserve algunos de sus datos para validar

su modeloI Documéntese: use la literatura para elegir su modelo, pero

no se case con unoI Si le es posible, pruebe con varios modelos y elija el más

sencillo si todos producen resultados similares.I Si no, dele a todos sus modelos la oportunidad

(multiplicidad de modelos)

El problema de la selección de variables

I Algunas otras recomendaciones que es prudenteconsiderar en la construcción de modelos

I Si tiene pocos datos, evite modelos complejos

I Si le es posible, conserve algunos de sus datos para validarsu modelo

I Documéntese: use la literatura para elegir su modelo, perono se case con uno

I Si le es posible, pruebe con varios modelos y elija el mássencillo si todos producen resultados similares.

I Si no, dele a todos sus modelos la oportunidad(multiplicidad de modelos)

El problema de la selección de variables

I Algunas otras recomendaciones que es prudenteconsiderar en la construcción de modelos

I Si tiene pocos datos, evite modelos complejosI Si le es posible, conserve algunos de sus datos para validar

su modelo

I Documéntese: use la literatura para elegir su modelo, perono se case con uno

I Si le es posible, pruebe con varios modelos y elija el mássencillo si todos producen resultados similares.

I Si no, dele a todos sus modelos la oportunidad(multiplicidad de modelos)

El problema de la selección de variables

I Algunas otras recomendaciones que es prudenteconsiderar en la construcción de modelos

I Si tiene pocos datos, evite modelos complejosI Si le es posible, conserve algunos de sus datos para validar

su modeloI Documéntese: use la literatura para elegir su modelo, pero

no se case con uno

I Si le es posible, pruebe con varios modelos y elija el mássencillo si todos producen resultados similares.

I Si no, dele a todos sus modelos la oportunidad(multiplicidad de modelos)

El problema de la selección de variables

I Algunas otras recomendaciones que es prudenteconsiderar en la construcción de modelos

I Si tiene pocos datos, evite modelos complejosI Si le es posible, conserve algunos de sus datos para validar

su modeloI Documéntese: use la literatura para elegir su modelo, pero

no se case con unoI Si le es posible, pruebe con varios modelos y elija el más

sencillo si todos producen resultados similares.

I Si no, dele a todos sus modelos la oportunidad(multiplicidad de modelos)

El problema de la selección de variables

I Algunas otras recomendaciones que es prudenteconsiderar en la construcción de modelos

I Si tiene pocos datos, evite modelos complejosI Si le es posible, conserve algunos de sus datos para validar

su modeloI Documéntese: use la literatura para elegir su modelo, pero

no se case con unoI Si le es posible, pruebe con varios modelos y elija el más

sencillo si todos producen resultados similares.I Si no, dele a todos sus modelos la oportunidad

(multiplicidad de modelos)

Contenido

Indicadores de calidad de los modelos ajustadosEl coeficiente de Determinación R2

El coeficiente de Determinación Ajustado R2aj

El estadístico Cp de MallowsEl criterio de información de Akaike (AIC)El criterio de información Bayesiano (BIC)

El problema de la selección de variables

La prueba F-parcial

La bibliografía

Prueba F-parcial

I En lo sucesivo diremos que p es el número de parámetrosβ del modelo

I Por ejemplo, el modelo lineal simple tiene p = 2, porquetiene dos parámetros: β0 y β1

I Consideremos dos modelos anidados

yi = β0 + β1x1i + β2x2i + . . .+ βkxki + εi (1)yi = β0 + β1x1i + β2x2i + . . .+ βkxki + . . .+ βqxqi + εi (2)

Prueba F-parcial

I En lo sucesivo diremos que p es el número de parámetrosβ del modelo

I Por ejemplo, el modelo lineal simple tiene p = 2, porquetiene dos parámetros: β0 y β1

I Consideremos dos modelos anidados

yi = β0 + β1x1i + β2x2i + . . .+ βkxki + εi (1)yi = β0 + β1x1i + β2x2i + . . .+ βkxki + . . .+ βqxqi + εi (2)

Prueba F-parcial

I En lo sucesivo diremos que p es el número de parámetrosβ del modelo

I Por ejemplo, el modelo lineal simple tiene p = 2, porquetiene dos parámetros: β0 y β1

I Consideremos dos modelos anidados

yi = β0 + β1x1i + β2x2i + . . .+ βkxki + εi (1)yi = β0 + β1x1i + β2x2i + . . .+ βkxki + . . .+ βqxqi + εi (2)

Prueba F-parcial

I En el modelo (1) tenemos p = k + 1 parámetros y en elmodelo (2), p = q + 1, con q > k

I Llamaremos SCEk a la suma de cuadrados de los erroresen el modelo (1)

I Y sea SCEq, la suma para el modelo (2)I Como el modelo (2) tiene más variables, entonces SCEq <

SCEk

I A la diferencia (SCEk −SCEq) se le conoce como “suma decuadrados extra"

Prueba F-parcial

I En el modelo (1) tenemos p = k + 1 parámetros y en elmodelo (2), p = q + 1, con q > k

I Llamaremos SCEk a la suma de cuadrados de los erroresen el modelo (1)

I Y sea SCEq, la suma para el modelo (2)I Como el modelo (2) tiene más variables, entonces SCEq <

SCEk

I A la diferencia (SCEk −SCEq) se le conoce como “suma decuadrados extra"

Prueba F-parcial

I En el modelo (1) tenemos p = k + 1 parámetros y en elmodelo (2), p = q + 1, con q > k

I Llamaremos SCEk a la suma de cuadrados de los erroresen el modelo (1)

I Y sea SCEq, la suma para el modelo (2)

I Como el modelo (2) tiene más variables, entonces SCEq <SCEk

I A la diferencia (SCEk −SCEq) se le conoce como “suma decuadrados extra"

Prueba F-parcial

I En el modelo (1) tenemos p = k + 1 parámetros y en elmodelo (2), p = q + 1, con q > k

I Llamaremos SCEk a la suma de cuadrados de los erroresen el modelo (1)

I Y sea SCEq, la suma para el modelo (2)I Como el modelo (2) tiene más variables, entonces SCEq <

SCEk

I A la diferencia (SCEk −SCEq) se le conoce como “suma decuadrados extra"

Prueba F-parcial

I En el modelo (1) tenemos p = k + 1 parámetros y en elmodelo (2), p = q + 1, con q > k

I Llamaremos SCEk a la suma de cuadrados de los erroresen el modelo (1)

I Y sea SCEq, la suma para el modelo (2)I Como el modelo (2) tiene más variables, entonces SCEq <

SCEk

I A la diferencia (SCEk −SCEq) se le conoce como “suma decuadrados extra"

Prueba F-parcial

I Para evaluar la importancia de la adición de estas q −k variables, una estrategia sería verificar si la suma decuadrados extra es o no significativa

I Para ellos se usa la “prueba F parcial”, que se basa en elsiguiente estadístico de prueba

F =

(SCEk−SCEq)(q−k)SCEq

(n−(q+1))

(3)

I El estadístico F definido en (3) se distribuye F con (q − k)y (n − (q + 1)) grados de libertad

I Así que para cada conjunto de variables (o cada variable)que se añada al modelo se puede verificar si su adición eso no significativa para el modelo

Prueba F-parcial

I Para evaluar la importancia de la adición de estas q −k variables, una estrategia sería verificar si la suma decuadrados extra es o no significativa

I Para ellos se usa la “prueba F parcial”, que se basa en elsiguiente estadístico de prueba

F =

(SCEk−SCEq)(q−k)SCEq

(n−(q+1))

(3)

I El estadístico F definido en (3) se distribuye F con (q − k)y (n − (q + 1)) grados de libertad

I Así que para cada conjunto de variables (o cada variable)que se añada al modelo se puede verificar si su adición eso no significativa para el modelo

Prueba F-parcial

I Para evaluar la importancia de la adición de estas q −k variables, una estrategia sería verificar si la suma decuadrados extra es o no significativa

I Para ellos se usa la “prueba F parcial”, que se basa en elsiguiente estadístico de prueba

F =

(SCEk−SCEq)(q−k)SCEq

(n−(q+1))

(3)

I El estadístico F definido en (3) se distribuye F con (q − k)y (n − (q + 1)) grados de libertad

I Así que para cada conjunto de variables (o cada variable)que se añada al modelo se puede verificar si su adición eso no significativa para el modelo

Prueba F-parcial

I Para evaluar la importancia de la adición de estas q −k variables, una estrategia sería verificar si la suma decuadrados extra es o no significativa

I Para ellos se usa la “prueba F parcial”, que se basa en elsiguiente estadístico de prueba

F =

(SCEk−SCEq)(q−k)SCEq

(n−(q+1))

(3)

I El estadístico F definido en (3) se distribuye F con (q − k)y (n − (q + 1)) grados de libertad

I Así que para cada conjunto de variables (o cada variable)que se añada al modelo se puede verificar si su adición eso no significativa para el modelo

Contenido

Indicadores de calidad de los modelos ajustadosEl coeficiente de Determinación R2

El coeficiente de Determinación Ajustado R2aj

El estadístico Cp de MallowsEl criterio de información de Akaike (AIC)El criterio de información Bayesiano (BIC)

El problema de la selección de variables

La prueba F-parcial

La bibliografía

Bibliografía

Draper y Smith (1998), Applied Regression Analysis, 3ra. edn, JohnWiley & Sons, New York, NY.

Faraway, J. J. (2004), Linear Models with R, Chapman & Hall/CRC,London.

top related