analisis de regresión (1)
DESCRIPTION
ddTRANSCRIPT
Estadistica y Métodos Numéricos Aplicados a las Finanzas
Estadística a través de Regresión Lineal
ANÁLISIS DE REGRESIÓN
El análisis de regresión es un proceso estadístico para relacionar variables. La regresión lineal es un método matemático que modela una variable dependiente (y) relacionada con varias variables independientes (xi) y un término aleatorio .
MODELO DE REGRESIÓN LINEAL MÚLTIPLE – (MRLM)
Este modelo une a la teoría económica, la estadística, y la matemática para establecer
relaciones entre una variable dependiente llamada “y” y dos o más variables explicativas
llamadas “x”, con el fin establecer un predicción o en su defecto el impacto que tienen las
variables explicativas sobre la variable explicada. A la variable dependiente y, también se
le llama: regresando, explicada, predicha o endógena) y las variables independientes,
también se le conoce como: Regresores, explicativas, predictoras o exógenos).
Uriel y Aldás (2005), nos dice que el MRLM es uno de los más conocidos y aplicados del
análisis multivariante y constituye el núcleo en el cual se ha desarrollado la econometría.
La variable respuesta es de tipo cuantitativa y las variables explicativas deben ser
cuantitativas y/o categóricas (en situaciones especiales). (Sifuentes, V 2002)
1. VENTAJAS DEL MRLM
Nos permite encontrar el efecto combinado de dos o más variables sobre una variable que
es explicada. Además nos permite conocer la relación de una sola explicativa (x) sobre la
explicada (y), dejando todo lo demás constantes. En economía y en administración este
concepto se llama CETERIS PARIBUS.
2. MODELO ESTADÍSTICO DE LA REGRESIÓN LINEAL MÚLTIPLE
y = es la variable aleatoria cuantitativa para el i-ésimo objeto.
, son los parámetros desconocidos. Donde es el término
independiente. y Siendo “p” el número de de variables independientes.
, es la perturbación aleatoria (ruido blanco), se supone tiene distribución
normal, con media 0. Es decir y varianza constante. .
En la práctica los valores de los parámetros generalmente no se conocen, en ese sentido
tendrían que estimarse a partir de datos muestrales.
3. ECUACION DE REGRESION MÚLTIPLE ESTIMADA
Son los valores estimados de la variable aleatoria dependiente “y”
Entonces los valores de los estadísticos muestrales son los estimadores de
.
Para el caso particular de dos variables independientes, la línea de regresión
múltiple estimada sería:
En este caso el cálculo de b0, b1 y b2 es similar cuando se trabajaba con un modelo de
regresión lineal simple donde se tenía una variable independiente.
4. MÉTODO DE MÍNIMOS CUADRADOS
Para estimar los parámetros se usó el método de mínimos cuadrados ordinarios, que permitió
minimizar la expresión siguiente:
CRITERIO DE MÍNIMOS CUADRADOS
Donde ε i se le llama error aleatorio, es la diferencia entre el valor observado ( ) menos
el valor esperado ( ). Esta es una distancia entre ambos valores y puede ser negativa o
positiva. Para hacer estudios inferenciales de regresión el error debe tener las siguientes
propiedades:
1) E (εi )=0
2 ) V (εi )=σ2
3 ) Cov (ε i , ε j )=0 ∀ i≠ j
La primera propiedad indica que en promedio los errores es igual a cero, la segunda que
las varianza de cada error, para un conjunto de variables “x” determinado son constantes
(homocedástico) y la tercera que es que debe existir incorrelación entre los errores.
(Sifuentes, 2002).
En regresión lineal simple se trabaja con conjuntos de datos relativamente pequeños, ahí
fue posible usar las fórmulas para obtener mediante cálculos manuales.
En la regresión múltiple, las fórmulas para los coeficientes de regresión
, se utiliza el álgebra matricial y se obtiene los resultados manualmente luego
de un proceso no muy rápido; el uso de estas fórmulas no es el objetivo de la presente
sesión. Para la estimación de dichos parámetros se utilizará el paquete estadístico IBM
SPSS en cualquier versión.
Solo para ilustrar, si son dos las variables independientes, entonces las tres ecuaciones
normales son:
1.
2.
3.
Que luego resolviendo el sistema de tres ecuaciones, se determina los valores de
.
5. COEFICIENTE DE CORRELACIÓN MÚLTIPLE Y COEFICIENTE DE
DETERMINACIÓN MÚLTIPLE
Al igual de determinación simple, el coeficiente de determinación múltiple R2, mide el
porcentaje de la varianza de y que queda explicada al conocer dos o más variables
independientes. Cuanto mayor es R2, mayor es el ajuste del plano de regresión y menor
es la dispersión de los datos.
El coeficiente de regresión múltiple se puede definir de manera general como la raíz
cuadrada de la suma de los cuadrados explicados sobre la suma de los cuadrados
totales.
O
Donde:
SCR = Suma de cuadrados debido a la regresión
SCT = Suma de cuadrados totales
SCE = Suma de cuadrados debido a los errores
SIGNIFICADO DE LAS BONDADES DE AJUSTE:
R2: Mide el porcentaje de explicación del modelo
R2 corregido: Permite comprar modelos con distintos números de regresores. No
está acotado por la parte inferior. Puede tomar valores negativos cuando el ajuste
realizado es muy malo.
AIC: Informa que cuánto más pequeño es el valor del estadístico, mejor es el ajuste del
modelo. (Uriel Et al., 2005)
EJEMPLO 1
La empresa Buenosaires se dedica a la fabricación y venta de abanicos, habiendo
obtenido en los últimos años unos resultados económicos relativamente aceptables. Los
directivos de la empresa consideran que los resultados habrían sido muchos mejores si el
absentismo laboral en la empresa no fuera tan elevado.
Este absentismo tiene una incidencia negativa que se refleja en los costes de personal y
en desajustes en las operaciones de fabricación y distribución.
Por las razones expuestas, la dirección de la empresa tiene gran interés en conocer
cuáles pueden ser los factores más relevantes del absentismo laboral que sufre la
empresa.
Se nos encarga el estudio, y para ello el jefe de personal facilita información acerca de los
días que en el último año han faltado al trabajo cada uno de los empleados de planilla
(excluidos los directivos). Esta información aparece en el siguiente cuadro.
Número ABSEN Taller Sexo Edad Antigüedad Salario1 10 1 1 32 8 902 13 1 0 18 0 753 2 0 0 53 15 1484 0 0 1 37 16 1785 9 0 1 19 0 1036 4 0 0 44 20 1007 2 1 1 17 0 1308 2 1 0 65 25 1239 10 1 1 23 3 110
10 9 1 1 27 7 12011 0 1 1 62 40 18012 9 1 1 26 2 13613 6 0 0 36 8 10214 6 1 0 28 8 13915 7 1 1 34 12 15316 5 1 0 28 9 11817 0 0 1 59 40 18118 0 1 1 53 29 19419 1 1 0 27 8 11820 8 1 1 32 10 13921 11 1 0 20 0 7222 0 0 0 54 13 18523 2 1 0 40 10 18424 7 1 0 22 2 13125 6 0 0 23 3 10626 8 1 0 39 10 8227 8 1 1 27 5 14328 8 1 1 24 3 14429 6 1 0 22 4 15230 6 1 0 25 5 11831 3 1 1 34 13 19332 5 0 1 25 5 17033 6 1 1 33 13 19334 5 1 0 21 1 17435 0 0 1 45 23 28436 0 1 0 43 20 12537 2 0 0 51 13 11638 0 1 1 48 25 22239 11 1 1 23 0 11940 6 1 0 57 10 8641 5 1 1 29 8 21342 6 1 0 38 3 15643 0 1 1 44 20 23144 0 0 1 33 10 24145 0 1 1 56 25 23146 2 1 1 58 28 13447 0 1 1 58 28 16548 0 1 1 37 10 229
PASOS PARA PROPONER UN MODELO DE REGRESIÓN LINEAL:
1. Analice la existencia de la multicolinealidad
rX1,X2= 0.872 r Y,X1= 0.675r Y,X2= 0.715
Si hay multicolinealidad
rX1,X3= 0.316 r Y,X1= 0.675r Y,X3= 0.667
No hay multicolinealidad
rX2,X3= 0.439 r Y,X2= 0.715r Y,X3= 0.667
No hay multicolinealidad
2. Determine el mejor modelo de regresión lineal múltiple.
Los modelos propuestos son: YX1, YX2, YX3, YX1X3, YX2X3
Correr la regresión lineal múltiple para cada modelo propuesto.Identifique el coeficiente de determinación corregido para cada modelo.
MODELO 1: YX1
Resumen del modelo
Modelo R R cuadrado
R cuadrado
ajustado
Error estándar
de la estimación
1 ,675a ,456 ,444 2,823
a. Predictores: (Constante), edad
MODELO 2: YX2
Resumen del modelo
Modelo R R cuadrado
R cuadrado
ajustado
Error estándar
de la estimación
1 ,715a ,512 ,501 2,675
a. Predictores: (Constante), antigüedad
MODELO 3: YX3
Resumen del modelo
Modelo R R cuadrado
R cuadrado
ajustado
Error estándar
de la estimación
1 ,667a ,445 ,433 2,852
a. Predictores: (Constante), salario
MODELO 4: YX1X3
Resumen del modelo
Modelo R R cuadrado
R cuadrado
ajustado
Error estándar
de la estimación
1 ,828a ,685 ,671 2,172
a. Predictores: (Constante), salario, edad
MODELO 5: YX2X3
Resumen del modelo
Modelo R R cuadrado
R cuadrado
ajustado
Error estándar
de la estimación
1 ,816a ,666 ,651 2,236
a. Predictores: (Constante), salario, antigüedad
ORDEN Modelos
R2 Corregido
4º Y X1 0.4443º Y X2 0.5015º Y X3 0.4331º Y X1X3 0.6712º Y X2X3 0.651
3. Valide el modelo de regresión lineal múltiple seleccionado, usando un nivel de significación de 0.05. (ANOVA y prueba t)
1º Y X1X3 0.671
Prueba Global:Ho: β1 = β3 =0H1: al menos un βi es ≠ 0
ANOVAa
Modelo
Suma de
cuadrados gl
Media
cuadrática F Sig.
1 Regresión 461,631 2 230,815 48,909 ,000b
Residuo 212,369 45 4,719
Total 674,000 47
a. Variable dependiente: absen
b. Predictores: (Constante), salario, edad
Sig= 0.000 < 0.05 Se rechaza Ho. EL MODELO ES SIGNIFICATIVO.
Pruebas Individuales
Coeficientesa
Modelo
Coeficientes no estandarizados
Coeficientes
estandarizados
t Sig.B Error estándar Beta
1 (Constante) 15,672 1,179 13,289 ,000
edad -,143 ,025 -,516 -5,854 ,000
salario -,039 ,007 -,504 -5,717 ,000
a. Variable dependiente: absen
Ho: β1 = 0 Ho: β3 = 0H1: β1 ≠ 0 H1: β3 ≠ 0
Para β1
Sig = 0.000 < 0.05, Se rechaza Ho. El aporte de β1 es significativo para el modelo.
Para β3
Sig = 0.000 < 0.05, Se rechaza Ho El aporte de β3 es significativo para el modelo.
Conclusión : Con un nivel de significación del 5%, se puede afirmar que el modelo es
válido.
4. Determine el modelo de regresión estimado e interprete los coeficientes de regresión. (Método de mínimos cuadrados)
y=15,672−0,143 x1−0,039 x3
β1 = -0.143
Cuando la edad del trabajador se incrementa en un año, se espera que en promedio los días de absentismo laboral disminuyan en un 0,143 días; manteniendo constante a la variable salario.
β3 = -0.039
Cuando el salario del trabajador se incrementa en una unidad monetaria, se espera que en promedio los días de absentismo laboral disminuyan en un 0,039 días; manteniendo constante a la variable edad.
5. Probar los supuestos del modelo de regresión lineal múltiple.
OBS.: Tener en cuenta si los errores están autocorrelacionados, las estimaciones pierden fidelidad. (Es decir los términos de perturbación correlacionados)
PRUEBA DE NORMALIDAD
Ho: Los errores tienen distribución normalH1: Los errores no tienen distribución normal
Prueba de Kolmogorov-Smirnov para una muestra
Unstandardized
Residual
N 48
Parámetros normalesa,b Media ,0000000
Desviación estándar 2,12567440
Máximas diferencias
extremas
Absoluta ,116
Positivo ,068
Negativo -,116
Estadístico de prueba ,116
Sig. asintótica (bilateral) ,105c
a. La distribución de prueba es normal.
b. Se calcula a partir de datos.
c. Corrección de significación de Lilliefors.
Sig = 0.105 > 0.05 No se rechaza Ho
Los errores tienen distribución normal
SUPUESTO DE AUTOCORRELACIÓN:
Prueba de Durbin – Watson
Ho: Los residuos no están autocorrelacionados (valor entre 1 y 3)H1: Los residuos están autocorrelacionados (valores fuera del rango)
Resumen del modelob
Modelo R R cuadrado
R cuadrado
ajustado
Error estándar
de la estimación Durbin-Watson
1 ,828a ,685 ,671 2,172 1,841
a. Predictores: (Constante), salario, edad
b. Variable dependiente: absen
DW= 1.841 No se rechaza Ho.
Los residuos no están autocorrelacionados
CONCLUSION:
Se cumplen los dos supuestos
6. Estimaciones y pronósticos. Puntual e intervalar
EJERCICIOS PARA EL ESTUDIANTE
1. En la siguiente tabla se tiene información acerca de los salarios percibidos por los trabajadores de una empresa, se seleccionó una muestra y se obtuvieron los siguientes datos.
Persona muestreada
Salario anual (Y)
Años de experiencia
(X1)
Años de educación después de secundaria
(X2)1 55 5,5 42 60 9 4
3 59 4 5
4 59 8 4
5 58 9,5 5
6 56 3 4
7 56 7 3
8 53 1,5 4,5
a. Realizar los pasos que se necesita para plantear y modelar la ecuación que tiene mayor r^2 corregido.
b. Interprete los valores de cada parámetro estimado y seleccionadoc. ¿Qué variable explicativa es más relevante para la variable explicada?d. Evaluar e interpreta la bondad de ajuste del modeloe. Estimar el sueldo anual de un trabajador si este tiene ocho años de experiencia y
cinco años de educación. ¿Será posible realizar la estimación?
2. La empresa Salsberry Realty vende casas en la costa este de Estados Unidos. Una de las preguntas que los posibles compradores hacen con más frecuencia es: si adquirimos esta casa, ¿Cuánto tendremos que pagar por la calefacción en invierno? Se le pidió al departamento de investigación de la compañía que elabore algunos lineamientos relacionados con los costos de calefacción para casas unifamiliares. Se consideró que el costo incluye tres variables: (1) la temperatura media diaria en el exterior, (2) el espesor en pulgadas del material de aislamiento térmico que se coloca en el desván, y (3) la antigüedad del calefactor. Para realizar esta investigación, el departamento en cuestión seleccionó una muestra aleatoria de 20 casas vendidas recientemente. Determinó el costo de la calefacción de cada casa en el mes de enero, la temperatura exterior en la región, el espesor en pulgadas de material aislante instalado en el desván, y la antigüedad del calefactor. En la tabla se presenta la información muestral.
TABLA: Factores en el costo de la calefacción de 20 casas, en el mes de enero, para una muestra de 20 casas.
Utiliza el paquete de cómputo para estadística IBM SPSS
a. ¿Cuál es variable dependiente? (con el modelo seleccionado)b. ¿Cuáles son las variables independientes? (con el modelo seleccionado)c. De ser posible estime el costo estimado para la calefacción de una casa, si la
temperatura media en el exterior es de 30 °F, hay 5 pulg de material aislante en el desván y el calefactor tiene 10 años de antigüedad es:(Reemplazar en la ecuación estimada del modelo seleccionado)
3. Se han observado los siguientes datos experimentales de una muestra de 10 trabajadores de la empresa Móviles S.A. para estimar salarios
Salario ($) Años de servicio Edad N° de hijos
600 5 33 0
620 4 34 3
500 2 35 4
700 7 34 2
800 7 35 2
850 9 40 0
750 4 38 3
900 6 29 4
500 3 39 6
a. ¿Cuál es la variable dependiente?b. ¿Cuáles son las variables independientes?c. Proponer el mejor modelo de acuerdo a los pasos del ejemplod. Interprete los valores de cada parámetro estimado y seleccionadoe. ¿Qué variable explicativa es más relevante para la variable explicada?f. Evaluar e interpreta la bondad de ajuste del modelog. El salario estimado para un trabajador que tiene 10 años de servicio, tiene 37 años
y con 3 hijos es:
4. La gerencia de Nuevo Mundo Viajeros para realizar decisiones importantes en directorio,
desea saber si el gasto individual por viaje que realiza el estudiante universitario está en
función del número de veces que viajó en los 2 últimos años (x1), el número de
acompañantes al viaje (x2) y cuánto dinero lleva como bolsa de viaje (x3). La base de datos
se encuentra en el archivo Data Turismo en Perú.xls.
¿Qué variable explicativa es más relevante para la variable explicada?
5. Investiga en fuentes confiables de internet el uso de la regresión lineal múltiple en el campo
de la Administración. Muestre dos importancias y cite la(s) página(s) web consultada.
GLOSARIO
1. Regresión: En términos generales, se designa con el término de regresión al retroceso o
a la acción de volver hacia atrás especialmente una actividad, proyecto o proceso, entre
otros. En términos estadísticos se refiere cuando se quiere predecir una medida
basándose en el conocimiento de otra(s) medida (s).
2. Homocedasticidad: Propiedad de una variable aleatoria que tiene varianza finita
constante. *Antónimo: heterocedasticidad.
BIBLIOGRAFÍA
Anderson, Et al. (2012). Estadística para negocios y economía (11va Edición).
Cengage Learning Editores S.A. Santa Fe, D.F. México.
Ávila, R. (2000). Estadística elemental. Lima. Estudios y ediciones R.A.
Córdova, M. (2006). Estadística aplicada. (1ra. Edición). Lima. Editorial MOSHERA
S.R.L.
Uriel, E. (2005). Análisis Multivariante Aplicado. Thomson Editores Spain. España.
Direcciones electrónicas:
http://www.definicionabc.com/general/regresion.php
http://personal.us.es/aggonzalez/Docencia/Problemas_3.pdf
http://www.youtube.com/watch?v=Bye0ZBdd6iI&feature=fvst