anÁlisis de regresiÓn
TRANSCRIPT
![Page 1: ANÁLISIS DE REGRESIÓN](https://reader036.vdocumento.com/reader036/viewer/2022081701/62e3cc84dc1cca57b03f4766/html5/thumbnails/1.jpg)
ANÁLISIS DE REGRESIÓN
Y = f ( X1
, X2
, ......, Xj ; E
)
Análisis exploratorio
Análisis confirmatorio
![Page 2: ANÁLISIS DE REGRESIÓN](https://reader036.vdocumento.com/reader036/viewer/2022081701/62e3cc84dc1cca57b03f4766/html5/thumbnails/2.jpg)
ALGUNOS EJEMPLOS
Y : ventas mensuales de un producto
X1 : precio del producto cada mes
X2 : precio del competidor cada mes
X3 : gastos de publicidad cada mes
Y : cosecha anual de un cultivo en una región agrícola
X1 : área sembrada del cultivo cada año
X2 : lluvia caída en la región en un período del año
Y : demanda diaria de gas en una ciudad
X1 : pronóstico de la temperatura
X2 : demanda del día anterior
X3 : día feriado o laborable
![Page 3: ANÁLISIS DE REGRESIÓN](https://reader036.vdocumento.com/reader036/viewer/2022081701/62e3cc84dc1cca57b03f4766/html5/thumbnails/3.jpg)
MODELO LINEAL GENERAL
Y = B0 + B
1X
1 + B
2X
2 + ..... + B
jX
j + E
MODELO LINEAL SIMPLE
Y = B0 + B
1X + E
![Page 4: ANÁLISIS DE REGRESIÓN](https://reader036.vdocumento.com/reader036/viewer/2022081701/62e3cc84dc1cca57b03f4766/html5/thumbnails/4.jpg)
UN PRIMER EJEMPLO
Y : ventas mensuales de autos en unidades
X1 : gastos de publicidad en $ del mes anterior
X2
: tasa de interés anual en %
Y X1 X
2
5.298 24.000 8,5
8.100 32.000 9,2
4.506 14.000 9,7
4.816 23.000 11,0
9.768 45.000 9,8
6.486 28.000 11,5
2.022 14.000 11,5
4.676 19.000 12,0
5.524 25.000 12,0
4.152 26.000 12,2
![Page 5: ANÁLISIS DE REGRESIÓN](https://reader036.vdocumento.com/reader036/viewer/2022081701/62e3cc84dc1cca57b03f4766/html5/thumbnails/5.jpg)
MODELOS A EXPLORAR
Modelo 1 : Y = B0 + B
1X
1 + E
Modelo 2 : Y = B0 + B
2X
2 + E
Modelo 1, 2 : Y = B0 + B
1X
1 + B
2X
2 + E
![Page 6: ANÁLISIS DE REGRESIÓN](https://reader036.vdocumento.com/reader036/viewer/2022081701/62e3cc84dc1cca57b03f4766/html5/thumbnails/6.jpg)
MODELO 1
Y = B0 + B
1X
1 + E
FUNCIÓN DE REGRESIÓN POBLACIONAL
E(Y/X) = B0 + B
1X
1
FUNCIÓN PREDICTORA
yc = b0 + b
1X
1
![Page 7: ANÁLISIS DE REGRESIÓN](https://reader036.vdocumento.com/reader036/viewer/2022081701/62e3cc84dc1cca57b03f4766/html5/thumbnails/7.jpg)
NUBE DE PUNTOS
Y
X
*
*
*
*
*
*
*
*
* *
14 45
FP
![Page 8: ANÁLISIS DE REGRESIÓN](https://reader036.vdocumento.com/reader036/viewer/2022081701/62e3cc84dc1cca57b03f4766/html5/thumbnails/8.jpg)
ANÁLISIS CONFIRMATORIO
Aspecto 1 : Estimación de B0 y B
1
yc = b0 + b
1X
1
yc = 114,45 + 0,2168 X1
yc = 114,45 + 0,2168 * 24.000 = 5.318 U.
Aspecto 2 : Validación del modelo
¿Es ésta la mejor ecuación de predicción?
![Page 9: ANÁLISIS DE REGRESIÓN](https://reader036.vdocumento.com/reader036/viewer/2022081701/62e3cc84dc1cca57b03f4766/html5/thumbnails/9.jpg)
VALIDACIÓN DEL MODELO
Método 1: Coeficiente de determinación R2
0 < R2 < 1
¿Cuál es el valor apropiado de R2
?
Procesos físicos e industriales: 0,8 a 0,9
Variables macro y microeconómicas: 0,6 a 0,7
Sociología y Psicología: 0,4 a 0,6
![Page 10: ANÁLISIS DE REGRESIÓN](https://reader036.vdocumento.com/reader036/viewer/2022081701/62e3cc84dc1cca57b03f4766/html5/thumbnails/10.jpg)
VENTAS DE AUTOS
R2 = 0,83 = 83%
El 83% de los cambios en las ventas está
explicado estadísticamente por los cambios
en los gastos de publicidad
El 17% restante está explicado por fuentes
fortuitas (ruido)
Coeficiente de correlación ( -1 < R < 1 )
R = 0,911 = 91,1%
![Page 11: ANÁLISIS DE REGRESIÓN](https://reader036.vdocumento.com/reader036/viewer/2022081701/62e3cc84dc1cca57b03f4766/html5/thumbnails/11.jpg)
ACLARACIÓN
Un valor alto de R2 implica la existencia de
una relación estadística entre X e Y, pero no
demuestra que haya relación causa-efecto
Si existe causalidad implica que habrá una
relación estadística
Una relación estadística, por sí misma,
no implica causalidad
![Page 12: ANÁLISIS DE REGRESIÓN](https://reader036.vdocumento.com/reader036/viewer/2022081701/62e3cc84dc1cca57b03f4766/html5/thumbnails/12.jpg)
VALIDACIÓN DEL MODELO
Método 2 : Ensayo de hipótesis
B1 = 0
El rechazo de este supuesto con un riesgo
bajo, se considera una prueba concluyente de
la relación entre X e Y
En nuestro ejemplo se rechaza este supuesto
con un riesgo muy pequeño
![Page 13: ANÁLISIS DE REGRESIÓN](https://reader036.vdocumento.com/reader036/viewer/2022081701/62e3cc84dc1cca57b03f4766/html5/thumbnails/13.jpg)
LA VARIANZA RESIDUAL
Las diferencias entre las ventas
observadas y las estimadas con la
ecuación de predicción se llaman
“residuos”
El conjunto de esos residuos expresan la
variabilidad no explicada por el modelo, y
se resumen en un indicador que se llama
“varianza”
S2
![Page 14: ANÁLISIS DE REGRESIÓN](https://reader036.vdocumento.com/reader036/viewer/2022081701/62e3cc84dc1cca57b03f4766/html5/thumbnails/14.jpg)
MODELOS CANDIDATOS
Condiciones necesarias pero no suficientes
R2 mayor a 0,6
Menor S2
Un modelo puede tener un alto R2 y
ser el de menor S2, pero puede tener
problemas de superposición de
información
![Page 15: ANÁLISIS DE REGRESIÓN](https://reader036.vdocumento.com/reader036/viewer/2022081701/62e3cc84dc1cca57b03f4766/html5/thumbnails/15.jpg)
VEAMOS UN EJEMPLO
Y : facturación de una telefónica en millones de $
X1 : cantidad de clientes en miles
X2 : cantidad de líneas en miles
X1 X
2 Y
560,786 610,430 73,396987
243,599 256,974 27,391359
245,663 257,461 30,129529
193,859 202,154 29,303350
549,618 624,463 76,895378
124,064 130,299 19,082110
335,451 354,823 48,683583
217,950 228,314 34,188365
![Page 16: ANÁLISIS DE REGRESIÓN](https://reader036.vdocumento.com/reader036/viewer/2022081701/62e3cc84dc1cca57b03f4766/html5/thumbnails/16.jpg)
ANÁLISIS EXPLORATORIO
Modelo Ecuación de predicción R2 S
2
1 yc = 1,54 + 0,132X
1 0,97124 16,1
2 yc = 3,79 + 0,116X
2 0,97420 14,4
1, 2 yc = 4,24 - 0,03X
1 + 0,138X
2 0,97428 17,2
¿Cuáles son los modelos candidatos?
¿Cuál es el hecho anómalo que se observa en el
modelo 1, 2 ?
![Page 17: ANÁLISIS DE REGRESIÓN](https://reader036.vdocumento.com/reader036/viewer/2022081701/62e3cc84dc1cca57b03f4766/html5/thumbnails/17.jpg)
LA MULTICOLINEALIDAD
1. Es la existencia de fuertes asociaciones entre los datos
de las variables explicativas.
2. Conlleva errores muestrales altos para la estimación de
los parámetros, pudiendo producir signos contrarios a su
naturaleza.
3. Cuando hay multicolinealidad hay que ser precavido en la
predicción, no debe extrapolarse.
4. Es un problema que está contenido en los datos, y es
independiente del planteo teórico del modelo.
5. Es un problema de grado, no de ausencia o presencia.
![Page 18: ANÁLISIS DE REGRESIÓN](https://reader036.vdocumento.com/reader036/viewer/2022081701/62e3cc84dc1cca57b03f4766/html5/thumbnails/18.jpg)
¿CÓMO SE DETECTA?
El determinante de la matriz de correlaciones es
un indicador global de la multicolinealidad
0 < DET < 1
Si toma valor 0 la multicolinealidad es total y si
toma valor 1 hay ausencia absoluta
Si es menor a 0,1 el problema es severo
Siempre que agreguemos variables a un modelo
estaremos agregando multicolinealidad
![Page 19: ANÁLISIS DE REGRESIÓN](https://reader036.vdocumento.com/reader036/viewer/2022081701/62e3cc84dc1cca57b03f4766/html5/thumbnails/19.jpg)
PRINCIPIO DE PARSIMONIA
En la selección del mejor
modelo de Regresión Múltiple
deberá tener importancia
prioritaria la sencillez del
mismo, dada por el menor
número de variables
explicativas
![Page 20: ANÁLISIS DE REGRESIÓN](https://reader036.vdocumento.com/reader036/viewer/2022081701/62e3cc84dc1cca57b03f4766/html5/thumbnails/20.jpg)
EL PRESS Y EL CP
PRESS : Prediction Sum of Squares
Es una medida de la capacidad predictiva del modelo
A menor PRESS el modelo dará mejores pronósticos
CP : Coeficiente P ( P = cantidad de variables )
Indica si en un modelo hay pérdida de información
Para el modelo completo el CP es igual a P
Para modelos incompletos, si el CP es mucho mayor a P,
hay pérdida de información
![Page 21: ANÁLISIS DE REGRESIÓN](https://reader036.vdocumento.com/reader036/viewer/2022081701/62e3cc84dc1cca57b03f4766/html5/thumbnails/21.jpg)
ANÁLISIS EXPLORATORIO
1. Ventas de autos
2. Facturación de una telefónica
3. Consumo de vino
4. Humedad del tabaco
![Page 22: ANÁLISIS DE REGRESIÓN](https://reader036.vdocumento.com/reader036/viewer/2022081701/62e3cc84dc1cca57b03f4766/html5/thumbnails/22.jpg)
HUMEDAD DEL TABACO
DESCRIPCIÓN DE LAS VARIABLES
Y : Humedad del tabaco a la entrada del silo
X1 : Humedad del tabaco a la salida del secadero
X2 : Humedad ambiente
X3 : Temperatura ambiente
TABLA DE DATOS
y x1 x2 x3
17,10 18,27 70,0 26,50
16,99 18,41 70,0 26,50
16,55 17,85 62,0 30,50
18,20 19,80 62,0 30,50
16,80 18,20 60,0 31,00
17,70 19,96 53,0 29,00
16,50 18,75 50,0 29,00
15,40 17,63 50,0 29,00
![Page 23: ANÁLISIS DE REGRESIÓN](https://reader036.vdocumento.com/reader036/viewer/2022081701/62e3cc84dc1cca57b03f4766/html5/thumbnails/23.jpg)
TABLA DE INDICADORES
Modelos R2 S2 DET CP PRESS
1 0,718 0,2320 1 128,0 2,665
2 0,151 0,6973 1 392,9 7,229
3 0,002 0,8198 1 462,6 7,273
1, 2 0,958 0,0417 0,987 17,8 0,505
1, 3 0,720 0,2757 0,987 128,8 3,348
2, 3 0,211 0,2757 0,777 366,8 8,369
1, 2, 3 0,991 0,0105 0,783 4,0 0,176
![Page 24: ANÁLISIS DE REGRESIÓN](https://reader036.vdocumento.com/reader036/viewer/2022081701/62e3cc84dc1cca57b03f4766/html5/thumbnails/24.jpg)
MODELO CANDIDATO
Y = B0 + B1X1 + B2X2 + B3X3 + E
Coeficiente Desvío tobs Alfa VIF
b0 = -5,89
b1 = 0,8746 0,0457948 19,1 0,00 1,0
b2 = 0,0608 0,0053985 11,3 0,00 1,3
b3 = 0,0998 0,0251458 4,0 0,02 1,3
![Page 25: ANÁLISIS DE REGRESIÓN](https://reader036.vdocumento.com/reader036/viewer/2022081701/62e3cc84dc1cca57b03f4766/html5/thumbnails/25.jpg)
ECUACIÓN DE PREDICCIÓN
yc = b0 + b
1 .
X
1 + b
2 .
X
2 + b
3 .
X
3
yc = -5,89 + 0,8746 . X1 + 0,0608 . X
2 + 0,0998 . X
3
SOLUCIÓN AL PROBLEMA
¿Qué parámetro de humedad
debe tener el tabaco a la entrada del silo?
Respuesta: 16,55
![Page 26: ANÁLISIS DE REGRESIÓN](https://reader036.vdocumento.com/reader036/viewer/2022081701/62e3cc84dc1cca57b03f4766/html5/thumbnails/26.jpg)
ENTONCES
dada la ecuación
16,55 = -5,89 + 0,8746 . X1 + 0,0608 . 60 + 0,0998 . 27,5
la humedad a la salida del secadero debe ser:
X1 = 18,345
Los resultados prácticos que se obtuvieron
con este procedimiento fueron excelentes
![Page 27: ANÁLISIS DE REGRESIÓN](https://reader036.vdocumento.com/reader036/viewer/2022081701/62e3cc84dc1cca57b03f4766/html5/thumbnails/27.jpg)
BIBLIOGRAFÍA
GARCÍA, R. “Inferencia Estadística y Diseño de Experimentos”
Eudeba. Buenos Aires, 2004.
MYERS, R. “Classical and Modern Regression with Applications”
PWS-KENT, Boston.
CANAVOS, G. “Probabilidad y Estadística”
McGraw-Hill. México, 1987.
GUJARAT,I D. “Econometría”
McGraw-Hill. México, 1991.
HINES, W. – MONTGOMERY, D. “Probabilidad y Estadística para Ingeniería y
Administración”
CECSA. México, 1993.