Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

Modelos de RegresiónEL PROBLEMA DE LA SELECCIÓN DE VARIABLES

Javier Olaya Ochoa

Escuela de EstadísticaUniversidad del Valle

Cali - Colombia

13 de febrero de 2016

Contenido

Indicadores de calidad de los modelos ajustadosEl coeficiente de Determinación R2

El coeficiente de Determinación Ajustado R2aj

El estadístico Cp de MallowsEl criterio de información de Akaike (AIC)El criterio de información Bayesiano (BIC)

El problema de la selección de variables

La prueba F-parcial

La bibliografía

Contenido

Indicadores de calidad de los modelos ajustadosEl coeficiente de Determinación R2

El coeficiente de Determinación Ajustado R2aj

El estadístico Cp de MallowsEl criterio de información de Akaike (AIC)El criterio de información Bayesiano (BIC)

El problema de la selección de variables

La prueba F-parcial

La bibliografía

¿Cuál modelo es mejor?

I Con mucha frecuencia debemos comparar varios modeloslineales para decidir cuál de ellos es “mejor”

I Pero, como es normal, la noción de “mejor” estáestrechamente relacionada con el criterio con el cual setoma la decisión

I En el mundo de las decisiones personales, los criterios sonpersonales

I Pero en las aplicaciones técnicas lo mejor es tener a manoindicadores técnicos que nos ayuden a formular nuestrasconclusiones

I En el marco de los modelos lineales se han propuestovarios indicadores de bondad de los modelos

I Presentaremos algunos de ellos

¿Cuál modelo es mejor?

I Con mucha frecuencia debemos comparar varios modeloslineales para decidir cuál de ellos es “mejor”

I Pero, como es normal, la noción de “mejor” estáestrechamente relacionada con el criterio con el cual setoma la decisión

I En el mundo de las decisiones personales, los criterios sonpersonales

I Pero en las aplicaciones técnicas lo mejor es tener a manoindicadores técnicos que nos ayuden a formular nuestrasconclusiones

I En el marco de los modelos lineales se han propuestovarios indicadores de bondad de los modelos

I Presentaremos algunos de ellos

¿Cuál modelo es mejor?

I Con mucha frecuencia debemos comparar varios modeloslineales para decidir cuál de ellos es “mejor”

I Pero, como es normal, la noción de “mejor” estáestrechamente relacionada con el criterio con el cual setoma la decisión

I En el mundo de las decisiones personales, los criterios sonpersonales

I Pero en las aplicaciones técnicas lo mejor es tener a manoindicadores técnicos que nos ayuden a formular nuestrasconclusiones

I En el marco de los modelos lineales se han propuestovarios indicadores de bondad de los modelos

I Presentaremos algunos de ellos

¿Cuál modelo es mejor?

I Con mucha frecuencia debemos comparar varios modeloslineales para decidir cuál de ellos es “mejor”

I Pero, como es normal, la noción de “mejor” estáestrechamente relacionada con el criterio con el cual setoma la decisión

I En el mundo de las decisiones personales, los criterios sonpersonales

I Pero en las aplicaciones técnicas lo mejor es tener a manoindicadores técnicos que nos ayuden a formular nuestrasconclusiones

I En el marco de los modelos lineales se han propuestovarios indicadores de bondad de los modelos

I Presentaremos algunos de ellos

¿Cuál modelo es mejor?

I Con mucha frecuencia debemos comparar varios modeloslineales para decidir cuál de ellos es “mejor”

I Pero, como es normal, la noción de “mejor” estáestrechamente relacionada con el criterio con el cual setoma la decisión

I En el mundo de las decisiones personales, los criterios sonpersonales

I Pero en las aplicaciones técnicas lo mejor es tener a manoindicadores técnicos que nos ayuden a formular nuestrasconclusiones

I En el marco de los modelos lineales se han propuestovarios indicadores de bondad de los modelos

I Presentaremos algunos de ellos

¿Cuál modelo es mejor?

I Con mucha frecuencia debemos comparar varios modeloslineales para decidir cuál de ellos es “mejor”

I Pero, como es normal, la noción de “mejor” estáestrechamente relacionada con el criterio con el cual setoma la decisión

I En el mundo de las decisiones personales, los criterios sonpersonales

I Pero en las aplicaciones técnicas lo mejor es tener a manoindicadores técnicos que nos ayuden a formular nuestrasconclusiones

I En el marco de los modelos lineales se han propuestovarios indicadores de bondad de los modelos

I Presentaremos algunos de ellos

El coeficiente de Determinación R2

I De acuerdo con lo discutido, la suma de cuadrados delas respuestas, corregida por la media, se puede expresarcomo

n∑i=1

(yi − y)2 =n∑

i=1

(yi − yi)2 +

n∑i=1

(yi − y)2

I O seaSCT = SCE + SCR

I Si dividimos ambos términos de la igualdad entre SCT,tenemos

1 =SCESCT

+SCRSCT

El coeficiente de Determinación R2

I De acuerdo con lo discutido, la suma de cuadrados delas respuestas, corregida por la media, se puede expresarcomo

n∑i=1

(yi − y)2 =n∑

i=1

(yi − yi)2 +

n∑i=1

(yi − y)2

I O seaSCT = SCE + SCR

I Si dividimos ambos términos de la igualdad entre SCT,tenemos

1 =SCESCT

+SCRSCT

El coeficiente de Determinación R2

I De acuerdo con lo discutido, la suma de cuadrados delas respuestas, corregida por la media, se puede expresarcomo

n∑i=1

(yi − y)2 =n∑

i=1

(yi − yi)2 +

n∑i=1

(yi − y)2

I O seaSCT = SCE + SCR

I Si dividimos ambos términos de la igualdad entre SCT,tenemos

1 =SCESCT

+SCRSCT

El coeficiente de Determinación R2

I El Coeficiente de Determinación del modelo se denota R2

y se define como

R2 =SCRSCT

I Se calcula así

R2 =SCRSCT

= 1 − SCESCT

I Y se interpreta como la variación de las respuestas quelogra ser explicada por el modelo ajustado

El coeficiente de Determinación R2

I El Coeficiente de Determinación del modelo se denota R2

y se define como

R2 =SCRSCT

I Se calcula así

R2 =SCRSCT

= 1 − SCESCT

I Y se interpreta como la variación de las respuestas quelogra ser explicada por el modelo ajustado

El coeficiente de Determinación R2

I El Coeficiente de Determinación del modelo se denota R2

y se define como

R2 =SCRSCT

I Se calcula así

R2 =SCRSCT

= 1 − SCESCT

I Y se interpreta como la variación de las respuestas quelogra ser explicada por el modelo ajustado

El coeficiente de Determinación Ajustado R2aj

I El Coeficiente de Determinación R2 crece con la adición denuevas variables

I Así que podría no ser muy adecuado para compararmodelos con diferente número de variables

I Una alternativa es usar una versión del R2 que se “ajuste”por el número de variables

I Esta versión ajustada se llama, consecuentemente,Coeficiente de Determinación Ajustado, se denota R2

aj y sedefine así

R2aj = R2 n − 1

n − p

I El R2aj no necesariamente será mayor al aumentar el

número de variables en el modelo

El coeficiente de Determinación Ajustado R2aj

I El Coeficiente de Determinación R2 crece con la adición denuevas variables

I Así que podría no ser muy adecuado para compararmodelos con diferente número de variables

I Una alternativa es usar una versión del R2 que se “ajuste”por el número de variables

I Esta versión ajustada se llama, consecuentemente,Coeficiente de Determinación Ajustado, se denota R2

aj y sedefine así

R2aj = R2 n − 1

n − p

I El R2aj no necesariamente será mayor al aumentar el

número de variables en el modelo

El coeficiente de Determinación Ajustado R2aj

I El Coeficiente de Determinación R2 crece con la adición denuevas variables

I Así que podría no ser muy adecuado para compararmodelos con diferente número de variables

I Una alternativa es usar una versión del R2 que se “ajuste”por el número de variables

I Esta versión ajustada se llama, consecuentemente,Coeficiente de Determinación Ajustado, se denota R2

aj y sedefine así

R2aj = R2 n − 1

n − p

I El R2aj no necesariamente será mayor al aumentar el

número de variables en el modelo

El coeficiente de Determinación Ajustado R2aj

I El Coeficiente de Determinación R2 crece con la adición denuevas variables

I Así que podría no ser muy adecuado para compararmodelos con diferente número de variables

I Una alternativa es usar una versión del R2 que se “ajuste”por el número de variables

I Esta versión ajustada se llama, consecuentemente,Coeficiente de Determinación Ajustado, se denota R2

aj y sedefine así

R2aj = R2 n − 1

n − p

I El R2aj no necesariamente será mayor al aumentar el

número de variables en el modelo

El coeficiente de Determinación Ajustado R2aj

I El Coeficiente de Determinación R2 crece con la adición denuevas variables

I Así que podría no ser muy adecuado para compararmodelos con diferente número de variables

I Una alternativa es usar una versión del R2 que se “ajuste”por el número de variables

I Esta versión ajustada se llama, consecuentemente,Coeficiente de Determinación Ajustado, se denota R2

aj y sedefine así

R2aj = R2 n − 1

n − p

I El R2aj no necesariamente será mayor al aumentar el

número de variables en el modelo

El estadístico Cp de Mallows

I Otra alternativa de comparación de modelos es elestadístico Cp de Mallows, que se define de la siguientemanera

Cp =SCEσ2 − (n − 2p)

I Se sabe que E[Cp] = p y si uno ajusta un modelo con todaslas variables disponibles, entonces Cp = p

I La idea sería entonces elegir un modelo que usando menosvariables tenga un valor del estadístico que sea cercano ap

I Una forma de evaluar esta cercanía es graficar una rectade Cp contra p

El estadístico Cp de Mallows

I Otra alternativa de comparación de modelos es elestadístico Cp de Mallows, que se define de la siguientemanera

Cp =SCEσ2 − (n − 2p)

I Se sabe que E[Cp] = p y si uno ajusta un modelo con todaslas variables disponibles, entonces Cp = p

I La idea sería entonces elegir un modelo que usando menosvariables tenga un valor del estadístico que sea cercano ap

I Una forma de evaluar esta cercanía es graficar una rectade Cp contra p

El estadístico Cp de Mallows

I Otra alternativa de comparación de modelos es elestadístico Cp de Mallows, que se define de la siguientemanera

Cp =SCEσ2 − (n − 2p)

I Se sabe que E[Cp] = p y si uno ajusta un modelo con todaslas variables disponibles, entonces Cp = p

I La idea sería entonces elegir un modelo que usando menosvariables tenga un valor del estadístico que sea cercano ap

I Una forma de evaluar esta cercanía es graficar una rectade Cp contra p

El estadístico Cp de Mallows

I Otra alternativa de comparación de modelos es elestadístico Cp de Mallows, que se define de la siguientemanera

Cp =SCEσ2 − (n − 2p)

I Se sabe que E[Cp] = p y si uno ajusta un modelo con todaslas variables disponibles, entonces Cp = p

I La idea sería entonces elegir un modelo que usando menosvariables tenga un valor del estadístico que sea cercano ap

I Una forma de evaluar esta cercanía es graficar una rectade Cp contra p

El criterio de información de Akaike (AIC)

I Una alternativa que tiene cada vez más y más acogida esel AIC, que se define así:

AIC = −nlog(

SCEn

)+ 2p

I Este criterio se basa en una estimación de la desigualdadde Kullback-Leibler, que propone un mecanismo de mediruna distancia entre dos funciones

I Una de estas funciones es la “función de regresiónverdadera” (que uno no conoce) y la otra es la que unoobtiene de los datos

I Este criterio no tiene una cota, por lo que es útil en términosrelativos

I El mejor modelo, entre varios basados en los mismosdatos, será el que tenga el menor AIC (Faraway 2004)

El criterio de información de Akaike (AIC)

I Una alternativa que tiene cada vez más y más acogida esel AIC, que se define así:

AIC = −nlog(

SCEn

)+ 2p

I Este criterio se basa en una estimación de la desigualdadde Kullback-Leibler, que propone un mecanismo de mediruna distancia entre dos funciones

I Una de estas funciones es la “función de regresiónverdadera” (que uno no conoce) y la otra es la que unoobtiene de los datos

I Este criterio no tiene una cota, por lo que es útil en términosrelativos

I El mejor modelo, entre varios basados en los mismosdatos, será el que tenga el menor AIC (Faraway 2004)

El criterio de información de Akaike (AIC)

I Una alternativa que tiene cada vez más y más acogida esel AIC, que se define así:

AIC = −nlog(

SCEn

)+ 2p

I Este criterio se basa en una estimación de la desigualdadde Kullback-Leibler, que propone un mecanismo de mediruna distancia entre dos funciones

I Una de estas funciones es la “función de regresiónverdadera” (que uno no conoce) y la otra es la que unoobtiene de los datos

I Este criterio no tiene una cota, por lo que es útil en términosrelativos

I El mejor modelo, entre varios basados en los mismosdatos, será el que tenga el menor AIC (Faraway 2004)

El criterio de información de Akaike (AIC)

I Una alternativa que tiene cada vez más y más acogida esel AIC, que se define así:

AIC = −nlog(

SCEn

)+ 2p

I Este criterio se basa en una estimación de la desigualdadde Kullback-Leibler, que propone un mecanismo de mediruna distancia entre dos funciones

I Una de estas funciones es la “función de regresiónverdadera” (que uno no conoce) y la otra es la que unoobtiene de los datos

I Este criterio no tiene una cota, por lo que es útil en términosrelativos

I El mejor modelo, entre varios basados en los mismosdatos, será el que tenga el menor AIC (Faraway 2004)

El criterio de información de Akaike (AIC)

I Una alternativa que tiene cada vez más y más acogida esel AIC, que se define así:

AIC = −nlog(

SCEn

)+ 2p

I Este criterio se basa en una estimación de la desigualdadde Kullback-Leibler, que propone un mecanismo de mediruna distancia entre dos funciones

I Una de estas funciones es la “función de regresiónverdadera” (que uno no conoce) y la otra es la que unoobtiene de los datos

I Este criterio no tiene una cota, por lo que es útil en términosrelativos

I El mejor modelo, entre varios basados en los mismosdatos, será el que tenga el menor AIC (Faraway 2004)

El criterio de información de Bayesiano (BIC)

I Y otra alternativa es el BIC, definido así:

BIC = −nlog(

SCEn

)+ log(n)p

I Este criterio es una variación del anteriorI Al término de la derecha se le conoce como “penalización”,

por lo que el BIC tiene una penalización más fuerte que elAIC

I Por esta razón el BIC tiende a elegir modelos con menosvariables que el AIC

El criterio de información de Bayesiano (BIC)

I Y otra alternativa es el BIC, definido así:

BIC = −nlog(

SCEn

)+ log(n)p

I Este criterio es una variación del anterior

I Al término de la derecha se le conoce como “penalización”,por lo que el BIC tiene una penalización más fuerte que elAIC

I Por esta razón el BIC tiende a elegir modelos con menosvariables que el AIC

El criterio de información de Bayesiano (BIC)

I Y otra alternativa es el BIC, definido así:

BIC = −nlog(

SCEn

)+ log(n)p

I Este criterio es una variación del anteriorI Al término de la derecha se le conoce como “penalización”,

por lo que el BIC tiene una penalización más fuerte que elAIC

I Por esta razón el BIC tiende a elegir modelos con menosvariables que el AIC

El criterio de información de Bayesiano (BIC)

I Y otra alternativa es el BIC, definido así:

BIC = −nlog(

SCEn

)+ log(n)p

I Este criterio es una variación del anteriorI Al término de la derecha se le conoce como “penalización”,

por lo que el BIC tiene una penalización más fuerte que elAIC

I Por esta razón el BIC tiende a elegir modelos con menosvariables que el AIC

Contenido

Indicadores de calidad de los modelos ajustadosEl coeficiente de Determinación R2

El coeficiente de Determinación Ajustado R2aj

El estadístico Cp de MallowsEl criterio de información de Akaike (AIC)El criterio de información Bayesiano (BIC)

El problema de la selección de variables

La prueba F-parcial

La bibliografía

El problema de la selección de variables

I El problema de la selección de variables es en realidad unproblema de selección de modelos

I Por esta razón, los indicadores de bondad de los modelosson muy útiles en el problema de la selección de variables

I Este será nuestro interés a partir de este momento

El problema de la selección de variables

I El problema de la selección de variables es en realidad unproblema de selección de modelos

I Por esta razón, los indicadores de bondad de los modelosson muy útiles en el problema de la selección de variables

I Este será nuestro interés a partir de este momento

El problema de la selección de variables

I El problema de la selección de variables es en realidad unproblema de selección de modelos

I Por esta razón, los indicadores de bondad de los modelosson muy útiles en el problema de la selección de variables

I Este será nuestro interés a partir de este momento

El problema de la selección de variables

I El propósito es escoger el mejor subconjunto de las X ’sque permita predecir la respuesta sin perder calidad en laestimación

I ¿Por qué usar menos variables?

I The simpler, the betterI Es menos posible que se presente “colinealidad”I Los costos son menores

El problema de la selección de variables

I El propósito es escoger el mejor subconjunto de las X ’sque permita predecir la respuesta sin perder calidad en laestimación

I ¿Por qué usar menos variables?

I The simpler, the betterI Es menos posible que se presente “colinealidad”I Los costos son menores

El problema de la selección de variables

I El propósito es escoger el mejor subconjunto de las X ’sque permita predecir la respuesta sin perder calidad en laestimación

I ¿Por qué usar menos variables?I The simpler, the better

I Es menos posible que se presente “colinealidad”I Los costos son menores

El problema de la selección de variables

I El propósito es escoger el mejor subconjunto de las X ’sque permita predecir la respuesta sin perder calidad en laestimación

I ¿Por qué usar menos variables?I The simpler, the betterI Es menos posible que se presente “colinealidad”

I Los costos son menores

El problema de la selección de variables

I El propósito es escoger el mejor subconjunto de las X ’sque permita predecir la respuesta sin perder calidad en laestimación

I ¿Por qué usar menos variables?I The simpler, the betterI Es menos posible que se presente “colinealidad”I Los costos son menores

El problema de la selección de variables

I Antes de escoger variables asegúrese de:

I Identificar atípicos y si es del caso excluirlos, al menostemporalmente

I Identificar puntos influyentes y si es del caso excluirlos, almenos temporalmente

I Si planea o necesita introducir algún tipo de transformaciónde los datos, hacerlo con anticipación.

I Y tenga en cuenta que su mejor modelo deberá estarasociado con la naturaleza de sus variables y del problemaque tiene

I Los métodos de selección eligen modelos que sonestadísticamente preferibles

I Pero estos modelos pueden no ser los mejores para suproblema

I Si este es el caso, es posible que usted haya dejadovariables importantes por fuera de su estudio

El problema de la selección de variables

I Antes de escoger variables asegúrese de:I Identificar atípicos y si es del caso excluirlos, al menos

temporalmente

I Identificar puntos influyentes y si es del caso excluirlos, almenos temporalmente

I Si planea o necesita introducir algún tipo de transformaciónde los datos, hacerlo con anticipación.

I Y tenga en cuenta que su mejor modelo deberá estarasociado con la naturaleza de sus variables y del problemaque tiene

I Los métodos de selección eligen modelos que sonestadísticamente preferibles

I Pero estos modelos pueden no ser los mejores para suproblema

I Si este es el caso, es posible que usted haya dejadovariables importantes por fuera de su estudio

El problema de la selección de variables

I Antes de escoger variables asegúrese de:I Identificar atípicos y si es del caso excluirlos, al menos

temporalmenteI Identificar puntos influyentes y si es del caso excluirlos, al

menos temporalmente

I Si planea o necesita introducir algún tipo de transformaciónde los datos, hacerlo con anticipación.

I Y tenga en cuenta que su mejor modelo deberá estarasociado con la naturaleza de sus variables y del problemaque tiene

I Los métodos de selección eligen modelos que sonestadísticamente preferibles

I Pero estos modelos pueden no ser los mejores para suproblema

I Si este es el caso, es posible que usted haya dejadovariables importantes por fuera de su estudio

El problema de la selección de variables

I Antes de escoger variables asegúrese de:I Identificar atípicos y si es del caso excluirlos, al menos

temporalmenteI Identificar puntos influyentes y si es del caso excluirlos, al

menos temporalmenteI Si planea o necesita introducir algún tipo de transformación

de los datos, hacerlo con anticipación.

I Y tenga en cuenta que su mejor modelo deberá estarasociado con la naturaleza de sus variables y del problemaque tiene

I Los métodos de selección eligen modelos que sonestadísticamente preferibles

I Pero estos modelos pueden no ser los mejores para suproblema

I Si este es el caso, es posible que usted haya dejadovariables importantes por fuera de su estudio

El problema de la selección de variables

I Antes de escoger variables asegúrese de:I Identificar atípicos y si es del caso excluirlos, al menos

temporalmenteI Identificar puntos influyentes y si es del caso excluirlos, al

menos temporalmenteI Si planea o necesita introducir algún tipo de transformación

de los datos, hacerlo con anticipación.I Y tenga en cuenta que su mejor modelo deberá estar

asociado con la naturaleza de sus variables y del problemaque tiene