anÁlisis de regresiÓn

ANÁLISIS DE REGRESIÓN

Y = f ( X1

, X2

, ......, Xj ; E

)

Análisis exploratorio

Análisis confirmatorio

ALGUNOS EJEMPLOS

Y : ventas mensuales de un producto

X1 : precio del producto cada mes

X2 : precio del competidor cada mes

X3 : gastos de publicidad cada mes

Y : cosecha anual de un cultivo en una región agrícola

X1 : área sembrada del cultivo cada año

X2 : lluvia caída en la región en un período del año

Y : demanda diaria de gas en una ciudad

X1 : pronóstico de la temperatura

X2 : demanda del día anterior

X3 : día feriado o laborable

MODELO LINEAL GENERAL

Y = B0 + B

1X

1 + B

2X

2 + ..... + B

jX

j + E

MODELO LINEAL SIMPLE

Y = B0 + B

1X + E

UN PRIMER EJEMPLO

Y : ventas mensuales de autos en unidades

X1 : gastos de publicidad en $ del mes anterior

X2

: tasa de interés anual en %

Y X1 X

2

5.298 24.000 8,5

8.100 32.000 9,2

4.506 14.000 9,7

4.816 23.000 11,0

9.768 45.000 9,8

6.486 28.000 11,5

2.022 14.000 11,5

4.676 19.000 12,0

5.524 25.000 12,0

4.152 26.000 12,2

MODELOS A EXPLORAR

Modelo 1 : Y = B0 + B

1X

1 + E

Modelo 2 : Y = B0 + B

2X

2 + E

Modelo 1, 2 : Y = B0 + B

1X

1 + B

2X

2 + E

MODELO 1

Y = B0 + B

1X

1 + E

FUNCIÓN DE REGRESIÓN POBLACIONAL

E(Y/X) = B0 + B

1X

1

FUNCIÓN PREDICTORA

yc = b0 + b

1X

1

NUBE DE PUNTOS

Y

X

*

*

*

*

*

*

*

*

* *

14 45

FP

ANÁLISIS CONFIRMATORIO

Aspecto 1 : Estimación de B0 y B

1

yc = b0 + b

1X

1

yc = 114,45 + 0,2168 X1

yc = 114,45 + 0,2168 * 24.000 = 5.318 U.

Aspecto 2 : Validación del modelo

¿Es ésta la mejor ecuación de predicción?

VALIDACIÓN DEL MODELO

Método 1: Coeficiente de determinación R2

0 < R2 < 1

¿Cuál es el valor apropiado de R2

?

Procesos físicos e industriales: 0,8 a 0,9

Variables macro y microeconómicas: 0,6 a 0,7

Sociología y Psicología: 0,4 a 0,6

VENTAS DE AUTOS

R2 = 0,83 = 83%

El 83% de los cambios en las ventas está

explicado estadísticamente por los cambios

en los gastos de publicidad

El 17% restante está explicado por fuentes

fortuitas (ruido)

Coeficiente de correlación ( -1 < R < 1 )

R = 0,911 = 91,1%

ACLARACIÓN

Un valor alto de R2 implica la existencia de

una relación estadística entre X e Y, pero no

demuestra que haya relación causa-efecto

Si existe causalidad implica que habrá una

relación estadística

Una relación estadística, por sí misma,

no implica causalidad

VALIDACIÓN DEL MODELO

Método 2 : Ensayo de hipótesis

B1 = 0

El rechazo de este supuesto con un riesgo

bajo, se considera una prueba concluyente de

la relación entre X e Y

En nuestro ejemplo se rechaza este supuesto

con un riesgo muy pequeño

LA VARIANZA RESIDUAL

Las diferencias entre las ventas

observadas y las estimadas con la

ecuación de predicción se llaman

“residuos”

El conjunto de esos residuos expresan la

variabilidad no explicada por el modelo, y

se resumen en un indicador que se llama

“varianza”

S2

MODELOS CANDIDATOS

Condiciones necesarias pero no suficientes

R2 mayor a 0,6

Menor S2

Un modelo puede tener un alto R2 y

ser el de menor S2, pero puede tener

problemas de superposición de

información

VEAMOS UN EJEMPLO

Y : facturación de una telefónica en millones de $

X1 : cantidad de clientes en miles

X2 : cantidad de líneas en miles

X1 X

2 Y

560,786 610,430 73,396987

243,599 256,974 27,391359

245,663 257,461 30,129529

193,859 202,154 29,303350

549,618 624,463 76,895378

124,064 130,299 19,082110

335,451 354,823 48,683583

217,950 228,314 34,188365

ANÁLISIS EXPLORATORIO

Modelo Ecuación de predicción R2 S

2

1 yc = 1,54 + 0,132X

1 0,97124 16,1

2 yc = 3,79 + 0,116X

2 0,97420 14,4

1, 2 yc = 4,24 - 0,03X

1 + 0,138X

2 0,97428 17,2

¿Cuáles son los modelos candidatos?

¿Cuál es el hecho anómalo que se observa en el

modelo 1, 2 ?

LA MULTICOLINEALIDAD

1. Es la existencia de fuertes asociaciones entre los datos

de las variables explicativas.

2. Conlleva errores muestrales altos para la estimación de

los parámetros, pudiendo producir signos contrarios a su

naturaleza.

3. Cuando hay multicolinealidad hay que ser precavido en la

predicción, no debe extrapolarse.

4. Es un problema que está contenido en los datos, y es

independiente del planteo teórico del modelo.

5. Es un problema de grado, no de ausencia o presencia.

¿CÓMO SE DETECTA?

El determinante de la matriz de correlaciones es

un indicador global de la multicolinealidad

0 < DET < 1

Si toma valor 0 la multicolinealidad es total y si

toma valor 1 hay ausencia absoluta

Si es menor a 0,1 el problema es severo

Siempre que agreguemos variables a un modelo

estaremos agregando multicolinealidad

PRINCIPIO DE PARSIMONIA

En la selección del mejor

modelo de Regresión Múltiple

deberá tener importancia

prioritaria la sencillez del

mismo, dada por el menor

número de variables

explicativas

EL PRESS Y EL CP

PRESS : Prediction Sum of Squares

Es una medida de la capacidad predictiva del modelo

A menor PRESS el modelo dará mejores pronósticos

CP : Coeficiente P ( P = cantidad de variables )

Indica si en un modelo hay pérdida de información

Para el modelo completo el CP es igual a P

Para modelos incompletos, si el CP es mucho mayor a P,

hay pérdida de información

ANÁLISIS EXPLORATORIO

1. Ventas de autos

2. Facturación de una telefónica

3. Consumo de vino

4. Humedad del tabaco

HUMEDAD DEL TABACO

DESCRIPCIÓN DE LAS VARIABLES

Y : Humedad del tabaco a la entrada del silo

X1 : Humedad del tabaco a la salida del secadero

X2 : Humedad ambiente

X3 : Temperatura ambiente

TABLA DE DATOS

y x1 x2 x3

17,10 18,27 70,0 26,50

16,99 18,41 70,0 26,50

16,55 17,85 62,0 30,50

18,20 19,80 62,0 30,50

16,80 18,20 60,0 31,00

17,70 19,96 53,0 29,00

16,50 18,75 50,0 29,00

15,40 17,63 50,0 29,00

TABLA DE INDICADORES

Modelos R2 S2 DET CP PRESS

1 0,718 0,2320 1 128,0 2,665

2 0,151 0,6973 1 392,9 7,229

3 0,002 0,8198 1 462,6 7,273

1, 2 0,958 0,0417 0,987 17,8 0,505

1, 3 0,720 0,2757 0,987 128,8 3,348

2, 3 0,211 0,2757 0,777 366,8 8,369

1, 2, 3 0,991 0,0105 0,783 4,0 0,176

MODELO CANDIDATO

Y = B0 + B1X1 + B2X2 + B3X3 + E

Coeficiente Desvío tobs Alfa VIF

b0 = -5,89

b1 = 0,8746 0,0457948 19,1 0,00 1,0

b2 = 0,0608 0,0053985 11,3 0,00 1,3

b3 = 0,0998 0,0251458 4,0 0,02 1,3

ECUACIÓN DE PREDICCIÓN

yc = b0 + b

1 .

X

1 + b

2 .

X

2 + b

3 .

X

3

yc = -5,89 + 0,8746 . X1 + 0,0608 . X

2 + 0,0998 . X

3

SOLUCIÓN AL PROBLEMA

¿Qué parámetro de humedad

debe tener el tabaco a la entrada del silo?

Respuesta: 16,55

ENTONCES

dada la ecuación

16,55 = -5,89 + 0,8746 . X1 + 0,0608 . 60 + 0,0998 . 27,5

la humedad a la salida del secadero debe ser:

X1 = 18,345

Los resultados prácticos que se obtuvieron

con este procedimiento fueron excelentes

BIBLIOGRAFÍA

GARCÍA, R. “Inferencia Estadística y Diseño de Experimentos”

Eudeba. Buenos Aires, 2004.

MYERS, R. “Classical and Modern Regression with Applications”

PWS-KENT, Boston.

CANAVOS, G. “Probabilidad y Estadística”

McGraw-Hill. México, 1987.

GUJARAT,I D. “Econometría”

McGraw-Hill. México, 1991.

HINES, W. – MONTGOMERY, D. “Probabilidad y Estadística para Ingeniería y

Administración”

CECSA. México, 1993.

anÁlisis de regresiÓn

Documents