regresión y correlación lineal

35
Qué es el análisis de correlación lineal ? Es una herramienta estadística que podemos usar para describir el grado de relación lineal entre las variables.

Upload: erelah

Post on 08-Jan-2016

136 views

Category:

Documents


16 download

DESCRIPTION

Regresión y Correlación Lineal. Qué es el análisis de correlación lineal ?. Es una herramienta estadística que podemos usar para describir el grado de relación lineal entre las variables. Regresión y Correlación Lineal. Tipos de Variables. Variable Independiente (X) - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Regresión y Correlación Lineal

Qué es el análisis de correlación

lineal ?

Es una herramienta estadística que podemos usar para describir el grado de relación lineal entre las variables.

Page 2: Regresión y Correlación Lineal

Tipos de Variables

Variable Independiente

(X)(determinística, es

decir no aleatoria.)

Variable Dependiente

(Y) aleatoria

Ejemplos

X: Número de llamadas telefónicas realizadas por un vendedor promocionando un producto.Y: Unidades vendidas por el vendedor.

X: Tiempo que dedica un estudiante a una materia.Y : Evaluación que obtiene el estudiante en la materia.

Page 3: Regresión y Correlación Lineal

Ejercicio Modelo

En una ciudad de Canadá, las personas al comprar casas se interesan por el precio del costo de la calefacción. Se ha determinado que un grupo de factores pueden estar relacionados con el costo ( en dólares):

•Temperatura exterior. (Grados Fahrenheit)•Aislante térmico en el desván. (en pulgadas)•Antigüedad del calefactor.•Área de la sala principal del apartamento. (en metros cuadrados).

Un cliente le ha preguntado a un vendedor: Si usted me brinda la información de las variables anteriores de un apartamento, ¿cómo puedo saber yo aproximadamente cuanto pagaré en calefacción?. ¿Cuan confiable será la información que usted me brinde?

Page 4: Regresión y Correlación Lineal

Pasos en el Análisis de Correlación

1. Determinar cuál es la variable dependiente. Y: Costo.

2. Seleccionar una muestra de tamaño n de ambas variables X e Y, con lo que se obtienen n pares de observaciones

(x1 , y1) , (x2 , y2)… (xn , yn).

En nuestro ejemplo se tomo una muestra de 20 apartamentos. Se midieron todas las variables independientes para cada uno de ellos.

Page 5: Regresión y Correlación Lineal
Page 6: Regresión y Correlación Lineal

3. Mostrar la relación en un diagrama de dispersión: Gráfico de X vs. Y. Se aprecia de manera descriptiva el sentido y la intensidad de relación

entre las variables.

Se realizaran los 4 gráficos que corresponden a cada una de las variables independientes consideradas.

Page 7: Regresión y Correlación Lineal

Temperatura Exterior vs. Costo

0

50

100

150

200

250

300

350

400

450

0 10 20 30 40 50 60 70

Temp

Co

sto

r = -0.812Relación Inversafuerte

Page 8: Regresión y Correlación Lineal

Aislante térmico vs. Costo.

0

50

100

150

200

250

300

350

400

450

0 2 4 6 8 10 12 14

Aislante

Co

sto

r = -0.257 Relación Inversadébil

Page 9: Regresión y Correlación Lineal

Antiguedad del calefactor vs. Costo

0

50

100

150

200

250

300

350

400

450

0 5 10 15 20

Antiguedad

Co

sto

r =0,512 Relación Directa moderada

Page 10: Regresión y Correlación Lineal

Tamaño sala vs. Costo

0

50

100

150

200

250

300

350

400

450

0 5 10 15 20 25

Tamaño

Co

sto

r = 0.991Relación directafuerte aunque se aprecia una tendencia no lineal

Page 11: Regresión y Correlación Lineal

4. Calcular un coeficiente de correlación lineal r a partir de la muestra, como aproximación de la verdadera relación lineal ρ (rho) entre las variables.

2222 yyn xxn

yxxynr

11 r

Page 12: Regresión y Correlación Lineal

Interpretación:

1. El valor absoluto de r indica la fuerza de la relación entre Y y X.2. El signo la dirección de la relación (directa o inversamente proporcional) (tener cuidado con relaciones espúreas)

r = 1 correlación positiva perfecta.r = -1 correlación negativa perfecta. r = 0 no hay relación lineal entre Y y X.

Page 13: Regresión y Correlación Lineal

Si hay presencia de varias variables independientes, entonces podemos agrupar todas las correlaciones en la Matriz de Correlaciones.

Page 14: Regresión y Correlación Lineal

Costo Temp Aislante Antigüedad

Costo 1.00

Temp -.812 1.00

Aislante -.257 -.103 1.00

Antigüedad .537 -.486 .064 1.00

Tamaño .991 -.831 -.253 .482 1.000

Interpretación de las Correlaciones lineales e Identificación de las Variables independientes con mayor correlación lineal.

Page 15: Regresión y Correlación Lineal

Temperatura.Una correlación de -0,812 indica alta correlación, inversamente proporcional:A mayor Temperatura exterior, menor el costo en calefacción y viceversa.

Aislante.La correlación de 0,257 es baja, así que no existe relación lineal entre las variables.

Antigüedad.Una correlación de 0,512; es moderada, directamente proporcional, a mayor antigüedad del calefactor, mayor costo y viceversa.

Tamaño de la sala principal.Una correlación de 0,991; es alta y directamente proporcional: A mayor tamaño de la sala, mayor costo de la calefacción

Page 16: Regresión y Correlación Lineal

5. Prueba de Hipótesis para analizar si las correlaciones son significativamente diferentes de cero.

0:H

0:H

1

0

Las correlaciones que son significativas aparecen reflejados en el cálculo de la matriz de correlaciones

Costo

Costo 1.000

Temp -.812

Aislante -.257

Antigüedad .537

Tamaño .991

± .444 critical value .05 (two-tail)

± .561 critical value .01 (two-tail)

Esto quiere decir que la correlación de -,812 entre Temperatura y Costo y la de ,991 entre Tamaño y Costo es significativa si consideramos un nivel de confianza del 99% (α = 0,01) si bajamos el nivel de confianza a un 95% (α = 0,05), también es significativa la relación de ,537 entre Antigüedad y Costo.

Conclusión Parcial: Seleccionamos a las variables Temperatura y Tamaño para continuar el análisis acerca del Costo.

Page 17: Regresión y Correlación Lineal

Qué es el análisis de regresión

lineal ?

Es modelar la dependencia de la variable Y de la variable X a través de una recta

Page 18: Regresión y Correlación Lineal

a. Cálculo de la recta de regresión que expresa la relación entre: Temperatura y Costo.

ε XααY 10 α0 y α1 parámetros ; ε error aleatorio.

α0 y α1 son estimados a partir de la muestraobteniendo la recta Y = a0 + a1X + e

Constante de regresión Coeficiente de

regresión

Interpretación de la pendiente: Cuánto cambia la variable dependiente Y, por cada unidad que varíe la variable independiente X.

Page 19: Regresión y Correlación Lineal

Estimación de los parámetros: Método de los mínimos cuadrados.

La recta de regresión hace mínimos los cuadrados de las distancias verticales desde cada punto de una observación a la recta.

Yi es un valor observado real de la variable Y

es un valor de la recta predicho por la ecuación iY

min)Y(Y 2

ii

min es el número más pequeño que se puede obtener si se suman estas desviaciones verticales elevadas al cuadrado entre los puntos y la recta.

ii YY

Page 20: Regresión y Correlación Lineal

Los coeficientes a1 y a0 se obtienen mediante las expresiones

221

xxn

yxxyna

xaya 10

Aplicamos MegaStat para realizar el Análisis de Regresión

MegaStat

Correlation/Regresión

Regresión Análisis

Y marcamos en la nueva ventana las opciones que aparecen en la pantalla siguiente que nos mostrarán todas las salidas que son de nuestro interés para el análisis de regresión

Page 21: Regresión y Correlación Lineal
Page 22: Regresión y Correlación Lineal

r² 0.659

Adjusted r² 0.640

r -0.812

Std. Error 63.553

20 observations

1 predictor variable

Costo is the dependent variable

Salida

Page 23: Regresión y Correlación Lineal

Salida

ANOVA table Source SS df MS F p-value Regression 140,214.9411 1 140,214.9411 34.72 1.41E-05 Residual 72,700.8089 18 4,038.9338 Total 212,915.7500 19

Regression output confidence interval variables coefficients std. error t (df=18) p-value 95% lower 95% upper intercept 388.8020 34.2408 11.355 1.22E-09 316.8646 460.7393 Temp -4.9342 0.8374 -5.892 1.41E-05 -6.6936 -3.1748

Page 24: Regresión y Correlación Lineal

Recta de regresión estimada

Esta es la ecuación de la recta de regresión pintada en el diagrama de dispersión, que fue mostrada anteriormente

Note que la pendiente -4.9342 tiene signo negativo, lo cual refleja que la relación es inversa, análogo al signo del coeficiente de correlación (-.812).

El valor de la pendiente significa que por cada grado que descienda la temperatura exterior habrá un aumento promedio de 5 dólares en el costo de la calefacción.

4,9342X - 388,8020Y

Page 25: Regresión y Correlación Lineal

b. Cálculo del error estándar de la estimación

Mide la variabilidad o dispersión de los valores observados alrededor de la línea de regresión.

1-k -n

YYSe

2

xsobrey

Si se trabaja con una recta, se puede calcular el error mediante

2n

xyayaySe 10

2

xsobrey

Mientras más grande sea el error estándar de la estimación, mayor será la dispersión de los puntos alrededor de la línea de regresión

En nuestro ejemplo el error estándar de estimación que se comete al usar la recta para estimar el costo es de 63,553 $

Page 26: Regresión y Correlación Lineal

c. Cálculo del Coeficiente de Determinación

Mide el poder explicativo del modelo de regresión, es decir, la parte de la variación de Y explicada por la variación de X El valor de r2 ha de estar entre 0 y 1, si r2 = 0,70 significa que el 70% de la variación de Y está explicada por las variaciones de X. Es evidente que cuanto mayor sea r2, mayor poder explicativo tendrá nuestro modelo.En nuestro ejemploSi analizamos el valor del coeficiente de determinación r ² = 0.659, apreciamos que aproximadamente el 66% de la variabilidad del costo esta determinado por la variabilidad en la Temperatura exterior.

Page 27: Regresión y Correlación Lineal

d. Prueba de Hipótesis para analizar si la pendiente es significativa

0:H

0:H

11

10

Para tomar una decisión podemos comparar el valor de un estadístico con un percentil, o utilizar un criterio equivalente, usado en los paquetes de Estadística: Comparar el p-valor con el nivel de significación

Regla de Decisión: Rechazar Ho si p < α

En el ejemplo p = 1.41E-05 < 0.05, así que rechazamos H0 por lo que el valor de la pendiente es significativamente diferente de cero.

Conclusión: La relación entre la Temperatura Exterior y el Costo es significativa.

Page 28: Regresión y Correlación Lineal

e. Predicciones

e.1) Cálculo de una predicción puntual.

Suponga que se desea un estimador puntual del costo de un apartamento, si la temperatura exterior es de 35 grados Sol: Sustitución del valor de x = 35, en la ecuación de la recta para obtener un valor y

05,216y

35*4,9342-8,8020y

4,9342x-8,8020y

e.2) Cálculo de un intervalo de Predicción

Se desea calcular una estimación por intervalo con un nivel del confianza del 95% para el apartamento específico en un día considerado con temperatura de 35 grados. Aquí calculamos un intervalo de predicción.

Page 29: Regresión y Correlación Lineal

pSntY *)2(ˆ2/1

22

2

0ep

xnx

xx

n

11SS

e.3) Cálculo del Intervalo de Confianza para el Costo Promedio de todos los apartamentos, para una temperatura dada.Se desea calcular una estimación por Intervalo, del costo promedio de la calefacción de todos los apartamentos considerados en los que la temperatura es de 35 grados. Aquí calculamos un intervalo de confianza.

Con el Uso del Programa MegaStatMarcar en la ventana correspondiente a Análisis de Regresión el valor de predicción de interés, en nuestro caso 35.

Page 30: Regresión y Correlación Lineal
Page 31: Regresión y Correlación Lineal

La salida obtenida con el programa es

Predicted values for: Costo 95% Confidence Interval 95% Prediction Interval

Temp Predicted lower upper lower upper Leverage 35 216.105 186.000 246.211 79.234 352.976 0.051

Conclusiones

e.1 El costo por la calefacción de un apartamento con Temperatura de 35 grados es de 216,105 dólares. e.2 Con un nivel de confianza del 95% el costo por la calefacción de un apartamento con Temperatura de 35 grados oscila entre 79,234 y 352,976$e.3 El costo promedio de la calefacción de los apartamentos para una temperatura de 35 grados se encuentra entre 186,000 246,211 $; con una confianza del 95%.

Nota: Observe que el tamaño del intervalo de confianza (para todos los apartamentos con temperatura exterior de 35 grados), es menor que el intervalo de predicción (para un solo apartamento con temperatura exterior de 35 grados). Es de una amplitud mucho menor, ya que habrá mayor variación en el estimado del costo para una observación que para un grupo.

Page 32: Regresión y Correlación Lineal

Análisis de las suposiciones realizadas para la recta de regresión Debemos comprobar que se cumplen dos condiciones fundamentales:

a. Los residuos siguen una distribución aproximadamente Normal.

Para ello realizamos el gráfico de Probabilidad Normal, obteniendo

Normal Probability Plot of Residuals

-150,0

-100,0

-50,0

0,0

50,0

100,0

150,0

-3,0 -2,0 -1,0 0,0 1,0 2,0 3,0

Normal Score

Res

idua

l

Se aprecia que se ajustan aproximadamente a la recta x = y, por lo que puede concluirse que los residuos tienen una distribución aproximadamente normal.

Page 33: Regresión y Correlación Lineal

b. La variabilidad de los residuos y - ŷ no varía en dependencia del valor estimado ŷ

Esto lo apreciamos en el gráfico de los residuos. En este caso nuestro valor estimado ŷ, es el costo estimado

Residuals by Predicted Costo

-127,1

-63,6

0,0

63,6

127,1

190,7

0 100 200 300 400

Predicted Costo

Res

idua

l (gr

idlin

es =

std

. err

or)

Efectivamente se observa un comportamiento aleatorio de los residuales

Con esto se concluye que todo el análisis de regresión efectuado hasta el momento es valido.

Page 34: Regresión y Correlación Lineal

Un análisis análogo podemos realizar para analizar la relación entre el Tamaño de la sala principal y el costo del calefactor, dado que la correlación obtenida es alta: 0,991. Sin embargo el análisis seria muy similar, excepto algo muy importante que es el análisis de los residuales.Veamos los gráficos

a. Grafico de Probabilidades Normales

Normal Probability Plot of Residuals

-20,0

-10,0

0,0

10,0

20,0

30,0

40,0

-3,0 -2,0 -1,0 0,0 1,0 2,0 3,0

Normal Score

Re

sid

ua

l

Se observa un comportamiento análogo al anterior, es decir los residuales siguen una distribución normal.

Page 35: Regresión y Correlación Lineal

b. Gráfico de los valores estimados vs. Residuos.

Residuals by Predicted Costo

-29,6

-14,8

0,0

14,8

29,6

44,4

0 100 200 300 400

Predicted Costo

Re

sid

ua

l (g

rid

line

s =

std

. err

or)

En este caso los residuos sí muestran variación en dependencia de los valores estimados del costo, vemos que valores muy pequeños o muy altos tienen variabilidad mayor que los que están alrededor de un costo de 200, es decir no hay un comportamiento aleatorio.

Esto significa que no es valido el modelo de regresión realizado previamente. Las consecuencias de no realizar este análisis es que las estimaciones de los coeficientes de la regresión pueden no ser adecuados y las predicciones pueden ser incorrectas.