universidad del cema prof. jos é p dapena métodos

26
Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos 1 VII – CORRELACIÓN Y REGRESIÓN En este y los capítulos siguientes examinaremos métodos para relaciónar variables unas a otras. Este capítulo trata el concepto de correlación, una medida de la fortaleza de la relación entre dos variables, y el siguiente capítulo describe un método para modelar esta relación. 7.1 Diagramas de Dispersión Supongamos que los datos se encuentran disponibles en forma de pares (x i , y i ), i= 1, 2,...n Un ejemplo de tales datos es el siguiente; representa nivel de motivación y resultados de la unidad de negocio La primera acción que realizamos cuando tratamos con datos es hacer un diagrama de dispersión (scatter diagram) y realizar una inspección visual. El diagrama nos da una MOTIVACION VS RESULTADOS 4000 4500 5000 5500 6000 6500 0 500 1000 1500 2000 2500 3000 NIVEL DE MOTIVACION RESULTADOS

Upload: others

Post on 16-Oct-2021

10 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Universidad del CEMA Prof. Jos é P Dapena Métodos

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

1

VII – CORRELACIÓN Y REGRESIÓN En este y los capítulos siguientes examinaremos métodos para relaciónar variables unas a

otras. Este capítulo trata el concepto de correlación, una medida de la fortaleza de la

relación entre dos variables, y el siguiente capítulo describe un método para modelar esta

relación.

7.1 Diagramas de Dispersión

Supongamos que los datos se encuentran disponibles en forma de pares

(xi, yi), i= 1, 2,...n

Un ejemplo de tales datos es el siguiente; representa nivel de motivación y resultados de la

unidad de negocio

La primera acción que realizamos cuando tratamos con datos es hacer un diagrama de

dispersión (scatter diagram) y realizar una inspección visual. El diagrama nos da una

MOTIVACION VS RESULTADOS

4000

4500

5000

5500

6000

6500

0 500 1000 1500 2000 2500 3000

NIVEL DE MOTIVACION

RE

SU

LT

AD

OS

Page 2: Universidad del CEMA Prof. Jos é P Dapena Métodos

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

2

impresión de una relación positiva entre la motivación de los empleados y los resultados de

la unidad de negocio. Se puede ver que a mayor motivación, mayores resultados, no

obstante la relación no es exactamente lineal; los puntos no yacen sobre una línea recta.

Se dice que datos que muestran una forma “hacia arriba” se encuentran correlacionados

positivamente, mientras que “hacia abajo” seran correlacionados negativamente, y sin

relación a la vista, no tendrán correlación alguna.

Ejemplos:

Variables Correlación

Altura y peso Positiva

Tiempo bueno y malo negativa

Horas de estudio y notas positiva

Gasto en publicidad/% de mercado positiva

7.2 Relaciónes causales y no causales

Cuando dos variables se encuentran correlacionadas, una pregunta interesante que surge es

en que medida la correlación indica una relación causal. En el ejemplo anterior, es natural

deducir que las horas de estudio son el causante de la nota de exámen, debido a que mas

horas resulta en mayor análisis y mejor preparación para resolver situaciones, que redunda

en una nota mayor; en este caso la relación es causa. Pero consideremos helados y cremas

de protección solar; las dos se incrementan o disminuyen al mismo tiempo generalmente,

pero no existe una relación causal entre estas variables; no es la venta de helados lo que

provoca un incremento en las ventas de cremas de protección solar; ambas variables

Page 3: Universidad del CEMA Prof. Jos é P Dapena Métodos

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

3

responden al tiempo cálido (grados centigrados de temperatura), lo que se ubicaría como

variable causal en este caso.

Debe quedar en claro de esta situación que se debe tener cuidado en la interpretación de

relaciones correlacionadas.

7.3 Covarianza Poblacional y correlación

Con estos conceptos estamos en condiciones de definir parámetros de la distribución

poblaciónal, que representan la fuerza y dirección de la correlación entre las variables X e

Y.

La covarianza poblacional se define como

γ = E{ (X - µx) (Y - µy)} = E (XY) – E(X) E(Y)

Notese el paralelo con la definición de varianza, y si X = Y, la covarianza se transforma en

la varianza de X.

El coeficiente de correlación se define como

ρρ = γγ / σσx σσy,

entonces

ρρ = { E(XY) – E(X) E(Y) } / √√{ Var(X)* Var(Y)}

Puede ser demostrado que el coeficiente de correlación debe encontrarse en el rango de –1

a +1. Un ρ cercano a 1 representa una fuerte correlación positiva y uno negativo cerca de –

Page 4: Universidad del CEMA Prof. Jos é P Dapena Métodos

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

4

1 indica fuerte correlación negativa; cerca de cero sugiere que no existe relación entre las

variables (no estan relacionadas linealmente).

Una palabra de advertencia aquí; no obstante un coeficiente de correlación que difiere

bastante de cero sugiere fuerte asociación, un coeficiente cerca de cero no implica falta de

asociación. El nombre completo del parámetro es “coeficiente de correlación lineal”que

hace hincapie en el hecho que solo mide relaciones lineales.

Estamos ahora en condiciónes de dar una formula general para la varianza de la suma de

dos variables aleatorias. Esta es

Var (aX + bY) = a2 Var(X) + b2 Var(Y) + 2ab Cov(X, Y)

Casos particulares importantes son

Var (X + Y) = Var(X) + Var(Y) + 2Cov(X, Y)

Var (X - Y) = Var(X) + Var(Y) – 2 Cov(X, Y)

Procedemos ahora a estimar los equivalentes muestrales de la covarianza y del coeficiente

de correlación que nos proveen de importantes estimadores de estos parámetros; los

estadísticos muestrales poseen similares propiedades a su contraparte poblacional.

Page 5: Universidad del CEMA Prof. Jos é P Dapena Métodos

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

5

7.4 Estadísticos de base

Procedemos ahora a describir un método para la representación cuantitativa de la

correlación. Empezamos por definir los principales estadísticos sobre los que correlación y

regresión estan basados. Todos los cálculos involucrados en correlaciónes y regresiónes

pueden ser expresados en terminos de estos. Existen tres elementos de información que un

usuario necesita; estos son:

El tamaño muestral n

La media muestral de los datos x mx = (x1 + x2 + ....xn) /n

La media muestral de los datos y my = (y1 + y2 + ....yn) /n

La suma corregida de cuadrados de los x’s Sxx = Σ (xi - mx)2

La suma corregida de cuadrados de los y’s Syy = Σ (yi – my)2

La suma corregida del producto cruzado Sxy = Σ {(xi – mx) (yi – my)}

Cálculos alternativos utiles son

Sxx = Σ (xi2) – n *mx

2

Syy = Σ (yi2) – n *my

2

Sxy = Σ (xi yi ) – n *mx my

Estas fórmulas son mas fáciles de calcular cuando se necesitan cálculos rapidos “a mano”.

No osbtante existen muchas funciónes de calculadoras y softwares que realizan estos y

muchos mas cálculos en forma programada.

Page 6: Universidad del CEMA Prof. Jos é P Dapena Métodos

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

6

7.5 El Coeficiente de Correlación Muestral

Ahora describimos una medida formal de la fortaleza de asociación entre dos variables

aleatorias.

Consideremos corregir la primera observación de x e y por sus medias muestrales;

x1 – mx y y1 – my

Si x e y se mueven en direcciones similares (una relación positiva) entonces cuando x esta

por encima de su media, y también lo estará, y cuando x se encuentra por debajo, asi lo hará

y. En ambos casos, el producto de los valores corregidos sera positivo, y un argumento

similar muestra que el producto sera siempre negativo sin las variables se mueven en

sentido contrario. Como medida de esta relación computamos por consiguiente “la suma

corregida del producto cruzado” :-

Sxy = Σ (xi – mx) (yi – my)

El tamaño de esta cantidad dependera del número de datos utilizados, para evitar esto y

obtener una medida susceptible de comparación, dividimos por (n – 1) obteniendo asi la

covarianza muestral de x e y. Notese que dividimos por n- 1 en lugar de n al igual que en la

estimación de la varianza; de alli que la covarianza muestral sea un estimador insesgado de

la covarianza poblacional.

De aquí que la formula para la covarianza muestral es

cov = Sxy/ (n- 1)

Page 7: Universidad del CEMA Prof. Jos é P Dapena Métodos

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

7

Esta es una buena medida de la relación de x a y, pero adolece del defecto que su valor

depende de la unidad de medida que se haya escogido. Si, por ejemplo, estuviesemos

midiendo la relación entre peso y altura, obtendríamos una alta covarianza si la unidad de

medida fuesen miligramos y milimetros, mientras que de ser los valores medidos en millas

y toneladas, la covarianza sera baja. Para eliminar esta dependencia de la unidad de medida,

dividimos la covarianza por el producto de las desviaciones estandar muestrales. El

resultado es el estaditico denominado COEFICIENTE DE CORRELACIÓN

MUESTRAL de x en y y este estadístico es completamente independiente de la unidad de

medida empleada. De alli tendremos:

Correlación = c /(sx * sy), que es equivalente a

R = Sxy / √√(Sxx * Syy)

De manera tal que el coeficiente puede ser computado directamente de los valores S.

7.6 Prueba para la Correlación

Existe una prueba formal simple para testear la existencia de una no-cero correlación entre

dos variables, la cual es descripta y demostrada.

Si ρ representa el coeficiente de correlación de la población entre x e y, entonces deseamos

testear:-

H0: ρ = 0 v H1: ρ ≠ 0,

donde el estadístico de prueba sera

r * √(n –2)/ √(1 – r2), y la distribución bajo la hipotesis nula sera tn-2

Page 8: Universidad del CEMA Prof. Jos é P Dapena Métodos

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

8

REGRESIÓN

7.7 Introducción

Debemos esperar solo revisar lo que es un tópico muy grande en Análisis Estadístico, y

diversos libros y cursos han sido dedicados exclusivamente a Análisis de Regresión. En

este capítulo nos concentraremos básicamente en el modelo basico, Regresión Simple

Lineal, y no obstante el análisis del modelo puede ser realizado con una calculadora de

mano, para regresiones mas poderosas es aconsejable hacer uso de softwares especificos

debido a la complejidad de los cálculos involucrados, y aprovechar plenamente las

deducciones que un análisis como este le pueder otorgar al problema.

En general, el modelo de regresión relacióna el valor de un set de variables de interes y,

llamadas variables de “respuesta”, al set de variables x, llamados también variables

explanatorias o “regresor”. Puede haber un numero de razones para querer establecer una

relación tal, a saber:

(i) Encontrar e interpretar constantes desconocidas en una relación conocida

(ii) Entender las razones de una relación – es causal?

(iii) Predecir las variables de respuesta dados ciertos valores de los regresores.

Objetivos a ser alcanzados en un análisis de regresión son entonces:

(i) estimadores de los parámetros desconocidos

(ii) estimadores de las variaciónes del modelo postulado.

Page 9: Universidad del CEMA Prof. Jos é P Dapena Métodos

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

9

(iii) estimadores de la precisión de nuestros estimadores.

(iv) algunos métodos de prueba de la adecuación de nuestro modelo, y sobre la

relevancia de las variables explanatorias.

Modelos

Existen diferentes vías alternativas de modelar las relaciones entre variables. Al relacionar

una variable y a una variable x, podemos encontrar los siguientes modelos posibles:

Modelo de Regresión Lineal Simple y = a + bx

Regresión cuadratica y = a + bx + cx2

Regresión Cubica y = a + bx + cx2 + dx3

Modelo de Potencia y = abx

Modelos similares pueden ser construidos para mas de una variable regresora, y esto es

usualmente conocido como regresión multiple.

Modelos de potencias (crecimiento) pueden generalmente ser reducidos a una foma lineal a

través de tomar logaritmos; por ejemplo, el modelo de potencia anterior se reduce a :-

y = A + Bx donde A = ln a, y B = lnb

Entonces, como escoger un modelo? En el caso de dos variables, la forma de la curva en un

diagrama de dispersión sugerirá generalmente un modelo. Para mas de dos variables,

podremos llegar a sugerir la forma de una relación a través de nuestra experiencia y el

conocimiento de la interacción de dos variables. Mas generalmente, sin embargo,

Page 10: Universidad del CEMA Prof. Jos é P Dapena Métodos

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

10

confiamos en datos para ajustar nuestro modelo, y debemos escoger un modelo basado en

el ajuste de los datos.

Una vista efectiva pero quizá sobresimplificada del procedimiento es el siguiente:-

Si tenemos n datos, entonces tendremos n valores para nuestra variable de interes, siendo

y1, y2, ..yn.

La volatilidad inicial de y es representada por su varianza muestral, a saber,

sy2 = Σ (y – my)

2 / (n –1), donde my es la media muestral

El proposito de ajustar el modelo es predecir y a partir de las variables explanatorias, y los

méritos relativos de los modelos pueden ser evaluados a través de la comparación de las

varianzas pronosticadas. Por ejemplo, sean u1, u2, ...un los predictores de y1, y2, ..yn una vez

que el modelo U ha sido ajustado a los datos. Entonces los “errores” del modelo serán

y1 - u1, y2 - u2, ..yn - un

para “buenos” modelos estos seran pequeños. Evaluamos su valor total a través del cálculo

de la varianza (la Varianza Residual) como

su2 = Σ (yi – ui)

2 / (n – p),

donde p es el número de parámetros del modelo que deben ser estimados usando los datos.

Similarmente, para un modelo alternativo V, tendremos la varianza residual

sv2 = Σ (yi – vi)

2 / (n – q),

Page 11: Universidad del CEMA Prof. Jos é P Dapena Métodos

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

11

donde q es el numero de estimadores que se utilizan al ajustar el modelo V.

El modelo U sera preferido a V si su2 < sv

2

Todos los modelos anteriores pueden ser ajustados y comparados de esta manera.

Esto nos posibilita el elegir entre modelos, pero no nos dice nada acerca de si el modelo es

bueno o no. Esto puede ser evaluado a través de considerar el porcentaje de reducción en

varianza que es alcanzado por el ajuste del modelo.

Para el modelo U es

100 (sy2 – su

2) / sy2

Si este es un porcentaje alto, entonces el modelo es bueno, y viceversa. Esta cantidad es

calculada por softwares, y es conocida como “factor R2 ajustado”. Una versión cruda, el R2,

tiene una interpretación similar, y es igual a

100 * (SCC para y – SC de residuos luego de ajustar el modelo)

SCC para y

Muchos ajustes de modelos, comparaciones y elecciones (incluyendo el modelo de series

de tiempo) estan basados en estas ideas. Ahora daremos una explicación mas detallada de la

estimación y ajuste de modelos para la versión de la regresión lineal simple; debe ser tenido

en cuenta que los conceptos generales de detallados aquí son aplicados a muchos modelos

mas complicados.

Empezamos por tener un vistazo detallado al Modelo de Regresión Lineal Simple; simple

significa que el modelo contiene una sola variable explicativa, lineal significa que la

Page 12: Universidad del CEMA Prof. Jos é P Dapena Métodos

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

12

atención se centra en una relación lineal en los coeficientes. Despues de analizar el modelo

con cierto detalle, sumarizaremos propiedades similares para el modelo de regresión

multiple.

7.8 El Modelo de Regresión Lineal Simple

Este es el modelo estadístico en el que se basa nuestro análisis. Expresa la forma en la que

creemos que los datos han sido generados.

Suponemos que existe una verdadera relación lineal entre las varaibles x e y para la

población de la forma:

y = αα + ββx

donde α y β son parámetros fijos de la población, pero desconocidos.

Si esto fuese cierto, entonces los puntos (x, y) yacerían exactamente en la linea recta, y

sabemos que esto no es asi. Entonces extendemos nuestro modelo a:

y = αα + ββx + εε

donde ε es una perturbación aleatoria de la línea. En otras palabras, cada observación casi

yace en la línea, pero “salta”hacia fuera de acuerdo a la perturbación ε.

Las desviaciónes aleatorias ε1, ε2, ...... εn correspondiente a los puntos de los datos se

suponen inicialmente normalmente distribuidos e independientes de la forma :-

Page 13: Universidad del CEMA Prof. Jos é P Dapena Métodos

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

13

ε ~ N {0, σ2}

Esto describe totalmente el modelo de regresión simple.

Notese que existen tres parámetros poblaciónales desconocidos en este modelo, a saber, los

parámetros lineales α y β, y el error estándar σ. Consideramos a continuación métodos de

estimación de estos parámetros.

7.9 Estimación de Parámetros – Método de Mínimos Cuadrados

En el capítulo 6 describimos brevemente el poderoso método de Mínimos Cuadrados para

al construcción de estimadores puntuales. Basicamente puede ser descripto de la siguiente

forma:

Si tenemos un set de datos y1, y2,.... yn tal que la media de los y’s es una función de

algunos parámetros,

θ = (θ1, θ2...), de manera que

E (y) = f(θ),

Entonces minimizando la función S{ y – f(θ)}2 con respecto a θ obtenemos valores para θ;

estos son los estimadores de mínimos cuadrados. Puede ser demostrado que si f es una

función lineal de los θ’s, entonces los estimadores generados por Mínimos Cuadrados

tendran óptimas propiedades, a saber seran los mejores estimadores lineales insesgados.

Page 14: Universidad del CEMA Prof. Jos é P Dapena Métodos

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

14

Siguiendo el Método de Mínimos Cuadrados consideramos

ΣΣ { y – (αα + ββx)}2

y dado que los valores y’s son conocidos, la función depende unicamente de α y β.

Minimizamos la función a través de la diferenciación parcial con respecto a α y β,

igualamos a cero, obtenemos las ecuaciónes

ΣΣ { y – (αα + ββx)} = 0

ΣΣ [x { y – (αα + ββx)}] = 0

y resolviendo esto para α y β obtenemos los estimadores

b = Sxy / Sxx

a = my – b* mx

de forma que la linea recta que mejor ajusta los datos es y = a + bx

Solo queda el problema de estimar σ2. Para hacer esto, notamos que

σσ2 = Var (εε) = Var { y - (αα + ββx)}

Page 15: Universidad del CEMA Prof. Jos é P Dapena Métodos

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

15

de forma que seria natural estimar σ2 a través de Σ{ y - (α + βx)}2 / n, pero no es posible

dado que los parámetros α y β son desconocidos. En su lugar reemplazamos sus

estimadores a y b, pero al hacerlo perdemos dos grados de libertad debido a que

necesitamos estimar dos estimadores. Entonces estimamos σ2 por:-

s2 = ΣΣ { y – (a + bx) }2 / (n-2)

Este es un estimador bien definido y puede ser calculado a través de los datos, pero

calcularlo en este formato sería muy tedioso. Aplicación de algebra nos da un formato

alternativo para s2 que es mucho mas fácil de usar.

Consideremos la suma de cuadrados minimizada Σ { y – (a + bx) }2 , sustituyendo a = my –

b * mx nos da

ΣΣ { y – my + b *( x - mx ) }2 = Syy + b2 * Sxx – 2*b* Sxy

y sustituyendo para b = Sxy / Sxx nos da la suma de cuadrados minimizada como:-

Syy - Sxy2 /Sxx,

o equivalentemente,

Syy – b2 * Sxx.

Esto es conocido como la descomposición de la suma de cuadrados.

Entonces la mejor formula para la estimación de σ2 es,

Page 16: Universidad del CEMA Prof. Jos é P Dapena Métodos

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

16

s2 = { Syy - Sxy2 /Sxx} / (n-2)

Syy representa la volatilidad original de la variable y, que es lo que estamos tratando de

explicar,

Sxy2 /Sxx representa el monto de volatilidad que puede ser explicada utilizando los

x’s.

Syy - Sxy2 /Sxx representa el monto de volatilidad que no estamos en condiciónes de explicar

con la variable x, atribuida a los errores, la volatilidad RESIDUAL.

Una vía conveniente y convencional de presentar estos resultados es a través de una tabla

conocida como Tabla de Análisis de Varianza para la Regresión (ANOVA).

Tiene el formato

Fuente de la variación df Suma de Cuadrados Cuadrado Medio

Por la Regresión 1 Sxy / Sxx sr2

Residuos n-2 diferencia s2

Total n –1 SYY

Nota: La columna “Cuadrado medio” es siempre igual a la “Suma de Cuadrados” dividido

por los grados de libertad. Hay solo un grado de libertad para la regresión debido a que solo

consideramos una variable explicativa, x.

Page 17: Universidad del CEMA Prof. Jos é P Dapena Métodos

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

17

Un método popular de medir el ajuste del modelo es el expresarlo el % de la volatilidad

total que es explicada por el modelo. Este es el estadístico R2 que puede ser visto como:-

R2 = 100 * Sxy2 /Sxx / Syy %

Si este porcentaje es alto, entonces el modelo “calza” bien; seria 100% si los datos se

encontrarán exactamente sobre la línea recta.

Notese que R2 = 100* r2 donde r es el coeficiente de correlación muestral; pero esto es

cierto unicamente para el caso de regresiónes lineales simples –i.e. de un solo regresor.

Para regresiónes multiples no se verifica.

También podemos llevar a cabo una prueba simple utilizando esta tabla, y esto es descripto

en la sección 13.5.

7.10 Prueba General de efecto de una variable

La Distribución F

En análisis de regresión, y en ajuste y calibración de modelos en general, se utiliza una

tabla standarizada y tabulada que juega un rol muy importante, la distribución F.

Si tenemos dos estimadores muestrales de la varianza poblaciónal, sx2, y sy

2 con grados de

libertad de νx , y νy entonces el ratio: -

sx2 / sy

2 se distribuye como F en (νx , νy) grados de libertad.

Page 18: Universidad del CEMA Prof. Jos é P Dapena Métodos

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

18

νx son llamados grados de libertad superiores; y νy grados de libertad inferiores. Todas las

tablas estadísticas contienen tablas F; es una variable positiva, con una distribución con

sesgo hacia la derecha (como la chi – cuadrada). Puede ser demostrado que cuando los

grados de libertad superiores son = 1, entonces la variable F tiene la misma distribución que

la variable t de Student al cuadrado. Esto es:-

F1,νν = (tνν)2

Prueba del efecto de una variable

Asi como la Tabla de Análisis de Varianza nos da los estimadores s2 de σ2, y una medida

de la bondad del ajuste, el R2, también la tabla nos da un rápida y fácil prueba de

significancia del modelo – i.e. si el modelo contribuye a la explicación de la volatilidad de

la variable y. De momento que estamos tratando únicamente con regresión de una variable,

esto es equivalente a testear el efecto de la variable x, y entonces es equivalente a testear en

que medida β = 0 o no. Para una situación de regresión multiple, este test puede ser

utilizado pata testear el efecto conjunto de todas las variables, y aun el efecto de un grupo

de variables; es, por consiguiente, una prueba de gran valor para la selección del modelo.

La Prueba se desarrolla de la siguiente manera:

Para probar H0 = la variable x no produce efectos (β = 0).

v

Page 19: Universidad del CEMA Prof. Jos é P Dapena Métodos

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

19

H1 = la variable x tiene efectos en y.

Computamos el estadístico de prueba como el ratio de los errores medios al cuadrado de la

variable x (sr2) a la varianza residual (s2). Estamos computando en que medida las varianzas

muestrales son diferentes o no.

sr2 / s2 , notese que esto es igual a (Sxy

2 /Sxx) / s2,

a los efectos de dessarrollar la prueba, comparamos este valor con el correspondiente de la

tabla F con los correspondientes grados de libertad (νx , νy).

Puede ser mostrado que si H0 es cierta (la variable x no tiene efecto en y) entonces sr2 es un

estimador independiente de s2 en cuyo caso el estadístico de prueba sigue una distribución

F; pero si H1 es cierta (la variable x tiene efectos sobre y) el estadístico de prueba se

distribuye siempre por encima de F, en el sentido que E(sr2) > s2. Por esta razon, la prueba

correcta para H0 es siempre una prueba de una cola.

7.11 Propiedades Muestrales

Se puede mostrar fácilmente que a, b, y s2 son estimadores insesgados de α, β, y σ2

respectivamente, y sus distribuciones muestrales son bien conocidas. Las distribuciones

muestrales de a y b son normales, entonces los métodos descriptos en los capítulos 7 y 9

pueden ser aplicados para computar intervalos de confianza para α y β o testear hipótesis

sobre ellos. Como veremos, estos métodos pueden también ser aplicados en el importante

caso de utilizar la recta de ajuste de la regresión para predecir un valor de respuesta. En

todas estas situaciones de inferencia, la cantidad clave es el error estandar del estimador, lo

que se detalla mas abajo. En la mayor parte de los casos sera necesario reemplazar σ2 en el

Page 20: Universidad del CEMA Prof. Jos é P Dapena Métodos

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

20

error estándar por s2 y utilizar la distribución t de Student; cuando se hace esto la varianza

muestral es siempre aquella computada de la Tabla de Análisis de Varianza con sus

correspondientes grados de libertad.

Para inferencias de σ2 la distribución de s2 es la chi-cuadrada, como en el capítulo 7, y esta

puede ser utilizada para determinar intervalos de confianza y testear hipotesis acerca de σ2.

Las distribuciones muestrales son:

b se distribuye como N (β , σ2/ Sxx)

a se distribuye como N {α , σ2( 1/n + mx2 / Sxx)}

(n – 2) s2 / σ2 se distribuye χ2n-2

de donde se puede apreciar que el error estándar de b es σ/ √Sxx , y

el error estándar de a es σ √(1/n + mx2 / Sxx).

Predicción

Si Y (desconocido) es el valor real de una observación futura correspondiente a un valor

futuro de X, entonces podremos establecer una distribución muestral para nuestro predictor

Y. Notese que (X,Y) no es un par de datos del conjunto original sobre los que se deriva la

linea de regresión. Entonces, si Y’ es nuestro valor predecido de Y, tenemos:-

Page 21: Universidad del CEMA Prof. Jos é P Dapena Métodos

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

21

Y’= a + bx

y la distribución muestral de Y’ sera

Y’ se distribuye como ~ N (Y, σ2( 1 + 1/n + (x -mx) 2 / Sxx)}

Notese que esta última distribución tiene una varianza que se incrementa a medida que la

distancia de x de la media también lo hace, reflejando asi la pérdida de certidumbre a

medida que nos movemos hacia fuera del punto central de los valores observados x.

Otras propiedades muestrales de interes son:

Cov (a, b) = - mxσ2 / Sxx, y la Cov (my, b) = 0,

y la distribución muestral del residuo,

ei = yi – a – bxi

puede ser mostrado que es

ei ~ N {0, σ2( 1 - 1/n - (x -mx) 2 / Sxx)}

esto se asemeja a la distribución muestral del valor pronosticado, pero es importanyte el

apreciar la diferencia entre

E = Y – (a + bX),

y

e = y – (a + bx)

Page 22: Universidad del CEMA Prof. Jos é P Dapena Métodos

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

22

Para el primer residuo el punto (X,Y) es un nuevo punto, y en consecuencia independiente

del set de datos original, y entonces de a y b. Para el segundo residuo, sin embargo, los

puntos pertenecen al set de datos originales, de manera que a y b son funciones de ellos, de

aquí que y esta correlacionado con a y b.

7.12 Pruebas e Intervalos de Confianza para parámetros del modelo

En cada caso el estadístico tiene la forma,

(est – valor hip.)/ SE

En cada caso, el intervalo de confianza tiene la forma

est ±± t * SE

i) Para testear que H0: β = β0 vs. H1: β ≠ β0 formamos el estadístico de prueba

(b - ββ0) √√Sxx/ s

y utilizamos la distribución t con (n-2) grados de libertad.

ii) Para testear H0: α = α0 vs. H1: α ≠ α0, ie. La intersección de la recta en el eje y es

cero formamos el estadístico de prueba

a / {s √√( 1/n + mx2 / Sxx)}

Page 23: Universidad del CEMA Prof. Jos é P Dapena Métodos

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

23

y nuevamente utilizamos una distribución t con (n – 2) grados de libertad.

iii) Un intervalo de confianza del 95% para el coeficiente de la pendiente es

b ±± t s/√√Sxx

iv) Un intervalo de confianza del 95% para la intersección es

a ±± t {s/√√(1/n + mx2 / Sxx)}

iv) Finalmente, un intervalo de confianza de 95% para una futura observación en x=X

esta dado por

a + bX ±± t {s/√√(1 + 1/n +(x - mx) 2 / Sxx)}

donde en cada caso t es el punto de la distribución de Student correspondiente a 2.5% de

probabilidad. Naturalmente, intervalos de confianza de 99% y 90% pueden ser obtenidos

utilizando el correspondiente t.

Notese que en el caso especial de la primera prueba en la que β0 = 0, la prueba esta basada

en la comparación

b√Sxx/s vs. tn-2

Page 24: Universidad del CEMA Prof. Jos é P Dapena Métodos

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

24

como vimos anteriormente, el test de ρ = 0 esta basado en la comparación

r√ (n –2) /√( 1 –r2) vs. tn-2

y el test para el efecto de la variable explicativa, de la Talba de Análisis de Varianza, esta

basado en la comparación de

(S2xy /Sxx)/ s

2 vs. F1, n-2

Ahora nótese que las tres pruebas estan testeando la misma hipotesis, y de hecho son

equivalentes; puede ser mostrado que :-

b√Sxx/s = r√ (n –2) /√( 1 –r2) = (S2xy /Sxx)/ s

2, y que

tn-2 = √F1, n-2

7.13 Prueba de supuestos, Robustez.

Observaciones alejadas

Una acción natural en el exámen de cualquier set de datos será mirar los residuos, ei = yi – a

– bxi. Diagramas de los mismos pueden revelar relaciones mas avanzadas en los datos. Un

Page 25: Universidad del CEMA Prof. Jos é P Dapena Métodos

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

25

método para detectar “outliers” es computar el residuo estandarizado para cada punto de los

datos – el ratio de cada ei a su error estándar,

σσ2( 1 - 1/n - (x -mx) 2 / Sxx)}

Residuos estandarizados mayores a 2 seran tratados con sospecha, y valores mayores que 3

sugerirán fuertemente un “outlier”.

Puntos de Influencia

Dejando de lado datos, y obsrevando su influencia en a y b proporciona información sobre

la influencia de dichos puntos.

Regresión robusta

Dejando de lado outliers y puntos de influencia, pueden, con cuidado, producir resultados

mas robustos, ie. resultados menos sensibles a perturbaciones.

Mínimos cuadrados ponderados

Cuando es sabido que la varianza de e cambia con los x’s en una forma sistematica tal que

Var(ei) = σ2i entonces todas las fórmulas de regresión se mantienen como antes pero todos

las sumas de datos son reemplazados por las sumas ponderadas, utilizando 1/ σ2i como

denominador o ponderador.

Por ejemplo

Σ xi es reemplazada por Σ (xi/ σ2i)

Page 26: Universidad del CEMA Prof. Jos é P Dapena Métodos

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

26

Σ xi2 es reemplazada por Σ (xi

2 / σ2

i),

y n es reemplazada por Σ (1/ σ2i)