analisis de regresión (1)

Estadistica y Métodos Numéricos Aplicados a las Finanzas

Estadística a través de Regresión Lineal

ANÁLISIS DE REGRESIÓN

El análisis de regresión es un proceso estadístico para relacionar variables. La regresión lineal es un método matemático que modela una variable dependiente (y) relacionada con varias variables independientes (xi) y un término aleatorio .

MODELO DE REGRESIÓN LINEAL MÚLTIPLE – (MRLM)

Este modelo une a la teoría económica, la estadística, y la matemática para establecer

relaciones entre una variable dependiente llamada “y” y dos o más variables explicativas

llamadas “x”, con el fin establecer un predicción o en su defecto el impacto que tienen las

variables explicativas sobre la variable explicada. A la variable dependiente y, también se

le llama: regresando, explicada, predicha o endógena) y las variables independientes,

también se le conoce como: Regresores, explicativas, predictoras o exógenos).

Uriel y Aldás (2005), nos dice que el MRLM es uno de los más conocidos y aplicados del

análisis multivariante y constituye el núcleo en el cual se ha desarrollado la econometría.

La variable respuesta es de tipo cuantitativa y las variables explicativas deben ser

cuantitativas y/o categóricas (en situaciones especiales). (Sifuentes, V 2002)

1. VENTAJAS DEL MRLM

Nos permite encontrar el efecto combinado de dos o más variables sobre una variable que

es explicada. Además nos permite conocer la relación de una sola explicativa (x) sobre la

explicada (y), dejando todo lo demás constantes. En economía y en administración este

concepto se llama CETERIS PARIBUS.

2. MODELO ESTADÍSTICO DE LA REGRESIÓN LINEAL MÚLTIPLE

y = es la variable aleatoria cuantitativa para el i-ésimo objeto.

, son los parámetros desconocidos. Donde es el término

independiente. y Siendo “p” el número de de variables independientes.

, es la perturbación aleatoria (ruido blanco), se supone tiene distribución

normal, con media 0. Es decir y varianza constante. .

En la práctica los valores de los parámetros generalmente no se conocen, en ese sentido

tendrían que estimarse a partir de datos muestrales.

3. ECUACION DE REGRESION MÚLTIPLE ESTIMADA

Son los valores estimados de la variable aleatoria dependiente “y”

Entonces los valores de los estadísticos muestrales son los estimadores de

.

Para el caso particular de dos variables independientes, la línea de regresión

múltiple estimada sería:

En este caso el cálculo de b0, b1 y b2 es similar cuando se trabajaba con un modelo de

regresión lineal simple donde se tenía una variable independiente.

4. MÉTODO DE MÍNIMOS CUADRADOS

Para estimar los parámetros se usó el método de mínimos cuadrados ordinarios, que permitió

minimizar la expresión siguiente:

CRITERIO DE MÍNIMOS CUADRADOS

Donde ε i se le llama error aleatorio, es la diferencia entre el valor observado ( ) menos

el valor esperado ( ). Esta es una distancia entre ambos valores y puede ser negativa o

positiva. Para hacer estudios inferenciales de regresión el error debe tener las siguientes

propiedades:

1) E (εi )=0

2 ) V (εi )=σ2

3 ) Cov (ε i , ε j )=0 ∀ i≠ j

La primera propiedad indica que en promedio los errores es igual a cero, la segunda que

las varianza de cada error, para un conjunto de variables “x” determinado son constantes

(homocedástico) y la tercera que es que debe existir incorrelación entre los errores.

(Sifuentes, 2002).

En regresión lineal simple se trabaja con conjuntos de datos relativamente pequeños, ahí

fue posible usar las fórmulas para obtener mediante cálculos manuales.

En la regresión múltiple, las fórmulas para los coeficientes de regresión

, se utiliza el álgebra matricial y se obtiene los resultados manualmente luego

de un proceso no muy rápido; el uso de estas fórmulas no es el objetivo de la presente

sesión. Para la estimación de dichos parámetros se utilizará el paquete estadístico IBM

SPSS en cualquier versión.

Solo para ilustrar, si son dos las variables independientes, entonces las tres ecuaciones

normales son:

1.

2.

3.

Que luego resolviendo el sistema de tres ecuaciones, se determina los valores de

.

5. COEFICIENTE DE CORRELACIÓN MÚLTIPLE Y COEFICIENTE DE

DETERMINACIÓN MÚLTIPLE

Al igual de determinación simple, el coeficiente de determinación múltiple R2, mide el

porcentaje de la varianza de y que queda explicada al conocer dos o más variables

independientes. Cuanto mayor es R2, mayor es el ajuste del plano de regresión y menor

es la dispersión de los datos.

El coeficiente de regresión múltiple se puede definir de manera general como la raíz

cuadrada de la suma de los cuadrados explicados sobre la suma de los cuadrados

totales.

O

Donde:

SCR = Suma de cuadrados debido a la regresión

SCT = Suma de cuadrados totales

SCE = Suma de cuadrados debido a los errores

SIGNIFICADO DE LAS BONDADES DE AJUSTE:

R2: Mide el porcentaje de explicación del modelo

R2 corregido: Permite comprar modelos con distintos números de regresores. No

está acotado por la parte inferior. Puede tomar valores negativos cuando el ajuste

realizado es muy malo.

AIC: Informa que cuánto más pequeño es el valor del estadístico, mejor es el ajuste del

modelo. (Uriel Et al., 2005)

EJEMPLO 1

La empresa Buenosaires se dedica a la fabricación y venta de abanicos, habiendo

obtenido en los últimos años unos resultados económicos relativamente aceptables. Los

directivos de la empresa consideran que los resultados habrían sido muchos mejores si el

absentismo laboral en la empresa no fuera tan elevado.

Este absentismo tiene una incidencia negativa que se refleja en los costes de personal y

en desajustes en las operaciones de fabricación y distribución.

Por las razones expuestas, la dirección de la empresa tiene gran interés en conocer

cuáles pueden ser los factores más relevantes del absentismo laboral que sufre la

empresa.

Se nos encarga el estudio, y para ello el jefe de personal facilita información acerca de los

días que en el último año han faltado al trabajo cada uno de los empleados de planilla

(excluidos los directivos). Esta información aparece en el siguiente cuadro.

Número ABSEN Taller Sexo Edad Antigüedad Salario1 10 1 1 32 8 902 13 1 0 18 0 753 2 0 0 53 15 1484 0 0 1 37 16 1785 9 0 1 19 0 1036 4 0 0 44 20 1007 2 1 1 17 0 1308 2 1 0 65 25 1239 10 1 1 23 3 110

10 9 1 1 27 7 12011 0 1 1 62 40 18012 9 1 1 26 2 13613 6 0 0 36 8 10214 6 1 0 28 8 13915 7 1 1 34 12 15316 5 1 0 28 9 11817 0 0 1 59 40 18118 0 1 1 53 29 19419 1 1 0 27 8 11820 8 1 1 32 10 13921 11 1 0 20 0 7222 0 0 0 54 13 18523 2 1 0 40 10 18424 7 1 0 22 2 13125 6 0 0 23 3 10626 8 1 0 39 10 8227 8 1 1 27 5 14328 8 1 1 24 3 14429 6 1 0 22 4 15230 6 1 0 25 5 11831 3 1 1 34 13 19332 5 0 1 25 5 17033 6 1 1 33 13 19334 5 1 0 21 1 17435 0 0 1 45 23 28436 0 1 0 43 20 12537 2 0 0 51 13 11638 0 1 1 48 25 22239 11 1 1 23 0 11940 6 1 0 57 10 8641 5 1 1 29 8 21342 6 1 0 38 3 15643 0 1 1 44 20 23144 0 0 1 33 10 24145 0 1 1 56 25 23146 2 1 1 58 28 13447 0 1 1 58 28 16548 0 1 1 37 10 229

PASOS PARA PROPONER UN MODELO DE REGRESIÓN LINEAL:

1. Analice la existencia de la multicolinealidad

rX1,X2= 0.872 r Y,X1= 0.675r Y,X2= 0.715

Si hay multicolinealidad

rX1,X3= 0.316 r Y,X1= 0.675r Y,X3= 0.667

No hay multicolinealidad

rX2,X3= 0.439 r Y,X2= 0.715r Y,X3= 0.667

No hay multicolinealidad

2. Determine el mejor modelo de regresión lineal múltiple.

Los modelos propuestos son: YX1, YX2, YX3, YX1X3, YX2X3

Correr la regresión lineal múltiple para cada modelo propuesto.Identifique el coeficiente de determinación corregido para cada modelo.

MODELO 1: YX1

Resumen del modelo

Modelo R R cuadrado

R cuadrado

ajustado

Error estándar

de la estimación

1 ,675a ,456 ,444 2,823

a. Predictores: (Constante), edad

MODELO 2: YX2

Resumen del modelo

Modelo R R cuadrado

R cuadrado

ajustado

Error estándar

de la estimación

1 ,715a ,512 ,501 2,675

a. Predictores: (Constante), antigüedad

MODELO 3: YX3

Resumen del modelo

Modelo R R cuadrado

R cuadrado

ajustado

Error estándar

de la estimación

1 ,667a ,445 ,433 2,852

a. Predictores: (Constante), salario

MODELO 4: YX1X3

Resumen del modelo

Modelo R R cuadrado

R cuadrado

ajustado

Error estándar

de la estimación

1 ,828a ,685 ,671 2,172

a. Predictores: (Constante), salario, edad

MODELO 5: YX2X3

Resumen del modelo

Modelo R R cuadrado

R cuadrado

ajustado

Error estándar

de la estimación

1 ,816a ,666 ,651 2,236

a. Predictores: (Constante), salario, antigüedad

ORDEN Modelos

R2 Corregido

4º Y X1 0.4443º Y X2 0.5015º Y X3 0.4331º Y X1X3 0.6712º Y X2X3 0.651

3. Valide el modelo de regresión lineal múltiple seleccionado, usando un nivel de significación de 0.05. (ANOVA y prueba t)

1º Y X1X3 0.671

Prueba Global:Ho: β1 = β3 =0H1: al menos un βi es ≠ 0

ANOVAa

Modelo

Suma de

cuadrados gl

Media

cuadrática F Sig.

1 Regresión 461,631 2 230,815 48,909 ,000b

Residuo 212,369 45 4,719

Total 674,000 47

a. Variable dependiente: absen

b. Predictores: (Constante), salario, edad

Sig= 0.000 < 0.05 Se rechaza Ho. EL MODELO ES SIGNIFICATIVO.

Pruebas Individuales

Coeficientesa

Modelo

Coeficientes no estandarizados

Coeficientes

estandarizados

t Sig.B Error estándar Beta

1 (Constante) 15,672 1,179 13,289 ,000

edad -,143 ,025 -,516 -5,854 ,000

salario -,039 ,007 -,504 -5,717 ,000

a. Variable dependiente: absen

Ho: β1 = 0 Ho: β3 = 0H1: β1 ≠ 0 H1: β3 ≠ 0

Para β1

Sig = 0.000 < 0.05, Se rechaza Ho. El aporte de β1 es significativo para el modelo.

Para β3

Sig = 0.000 < 0.05, Se rechaza Ho El aporte de β3 es significativo para el modelo.

Conclusión : Con un nivel de significación del 5%, se puede afirmar que el modelo es

válido.

4. Determine el modelo de regresión estimado e interprete los coeficientes de regresión. (Método de mínimos cuadrados)

y=15,672−0,143 x1−0,039 x3

β1 = -0.143

Cuando la edad del trabajador se incrementa en un año, se espera que en promedio los días de absentismo laboral disminuyan en un 0,143 días; manteniendo constante a la variable salario.

β3 = -0.039

Cuando el salario del trabajador se incrementa en una unidad monetaria, se espera que en promedio los días de absentismo laboral disminuyan en un 0,039 días; manteniendo constante a la variable edad.

5. Probar los supuestos del modelo de regresión lineal múltiple.

OBS.: Tener en cuenta si los errores están autocorrelacionados, las estimaciones pierden fidelidad. (Es decir los términos de perturbación correlacionados)

PRUEBA DE NORMALIDAD

Ho: Los errores tienen distribución normalH1: Los errores no tienen distribución normal

Prueba de Kolmogorov-Smirnov para una muestra

Unstandardized

Residual

N 48

Parámetros normalesa,b Media ,0000000

Desviación estándar 2,12567440

Máximas diferencias

extremas

Absoluta ,116

Positivo ,068

Negativo -,116

Estadístico de prueba ,116

Sig. asintótica (bilateral) ,105c

a. La distribución de prueba es normal.

b. Se calcula a partir de datos.

c. Corrección de significación de Lilliefors.

Sig = 0.105 > 0.05 No se rechaza Ho

Los errores tienen distribución normal

SUPUESTO DE AUTOCORRELACIÓN:

Prueba de Durbin – Watson

Ho: Los residuos no están autocorrelacionados (valor entre 1 y 3)H1: Los residuos están autocorrelacionados (valores fuera del rango)

Resumen del modelob

Modelo R R cuadrado

R cuadrado

ajustado

Error estándar

de la estimación Durbin-Watson

1 ,828a ,685 ,671 2,172 1,841

a. Predictores: (Constante), salario, edad

b. Variable dependiente: absen

DW= 1.841 No se rechaza Ho.

Los residuos no están autocorrelacionados

CONCLUSION:

Se cumplen los dos supuestos

6. Estimaciones y pronósticos. Puntual e intervalar

EJERCICIOS PARA EL ESTUDIANTE

1. En la siguiente tabla se tiene información acerca de los salarios percibidos por los trabajadores de una empresa, se seleccionó una muestra y se obtuvieron los siguientes datos.

Persona muestreada

Salario anual (Y)

Años de experiencia

(X1)

Años de educación después de secundaria

(X2)1 55 5,5 42 60 9 4

3 59 4 5

4 59 8 4

5 58 9,5 5

6 56 3 4

7 56 7 3

8 53 1,5 4,5

a. Realizar los pasos que se necesita para plantear y modelar la ecuación que tiene mayor r^2 corregido.

b. Interprete los valores de cada parámetro estimado y seleccionadoc. ¿Qué variable explicativa es más relevante para la variable explicada?d. Evaluar e interpreta la bondad de ajuste del modeloe. Estimar el sueldo anual de un trabajador si este tiene ocho años de experiencia y

cinco años de educación. ¿Será posible realizar la estimación?

2. La empresa Salsberry Realty vende casas en la costa este de Estados Unidos. Una de las preguntas que los posibles compradores hacen con más frecuencia es: si adquirimos esta casa, ¿Cuánto tendremos que pagar por la calefacción en invierno? Se le pidió al departamento de investigación de la compañía que elabore algunos lineamientos relacionados con los costos de calefacción para casas unifamiliares. Se consideró que el costo incluye tres variables: (1) la temperatura media diaria en el exterior, (2) el espesor en pulgadas del material de aislamiento térmico que se coloca en el desván, y (3) la antigüedad del calefactor. Para realizar esta investigación, el departamento en cuestión seleccionó una muestra aleatoria de 20 casas vendidas recientemente. Determinó el costo de la calefacción de cada casa en el mes de enero, la temperatura exterior en la región, el espesor en pulgadas de material aislante instalado en el desván, y la antigüedad del calefactor. En la tabla se presenta la información muestral.

TABLA: Factores en el costo de la calefacción de 20 casas, en el mes de enero, para una muestra de 20 casas.

Utiliza el paquete de cómputo para estadística IBM SPSS

a. ¿Cuál es variable dependiente? (con el modelo seleccionado)b. ¿Cuáles son las variables independientes? (con el modelo seleccionado)c. De ser posible estime el costo estimado para la calefacción de una casa, si la

temperatura media en el exterior es de 30 °F, hay 5 pulg de material aislante en el desván y el calefactor tiene 10 años de antigüedad es:(Reemplazar en la ecuación estimada del modelo seleccionado)

3. Se han observado los siguientes datos experimentales de una muestra de 10 trabajadores de la empresa Móviles S.A. para estimar salarios

Salario ($) Años de servicio Edad N° de hijos

600 5 33 0

620 4 34 3

500 2 35 4

700 7 34 2

800 7 35 2

850 9 40 0

750 4 38 3

900 6 29 4

500 3 39 6

a. ¿Cuál es la variable dependiente?b. ¿Cuáles son las variables independientes?c. Proponer el mejor modelo de acuerdo a los pasos del ejemplod. Interprete los valores de cada parámetro estimado y seleccionadoe. ¿Qué variable explicativa es más relevante para la variable explicada?f. Evaluar e interpreta la bondad de ajuste del modelog. El salario estimado para un trabajador que tiene 10 años de servicio, tiene 37 años

y con 3 hijos es:

4. La gerencia de Nuevo Mundo Viajeros para realizar decisiones importantes en directorio,

desea saber si el gasto individual por viaje que realiza el estudiante universitario está en

función del número de veces que viajó en los 2 últimos años (x1), el número de

acompañantes al viaje (x2) y cuánto dinero lleva como bolsa de viaje (x3). La base de datos

se encuentra en el archivo Data Turismo en Perú.xls.

¿Qué variable explicativa es más relevante para la variable explicada?

5. Investiga en fuentes confiables de internet el uso de la regresión lineal múltiple en el campo

de la Administración. Muestre dos importancias y cite la(s) página(s) web consultada.

GLOSARIO

1. Regresión: En términos generales, se designa con el término de regresión al retroceso o

a la acción de volver hacia atrás especialmente una actividad, proyecto o proceso, entre

otros. En términos estadísticos se refiere cuando se quiere predecir una medida

basándose en el conocimiento de otra(s) medida (s).

2. Homocedasticidad: Propiedad de una variable aleatoria que tiene varianza finita

constante. *Antónimo: heterocedasticidad.

BIBLIOGRAFÍA

Anderson, Et al. (2012). Estadística para negocios y economía (11va Edición).

Cengage Learning Editores S.A. Santa Fe, D.F. México.

Ávila, R. (2000). Estadística elemental. Lima. Estudios y ediciones R.A.

Córdova, M. (2006). Estadística aplicada. (1ra. Edición). Lima. Editorial MOSHERA

S.R.L.

Uriel, E. (2005). Análisis Multivariante Aplicado. Thomson Editores Spain. España.

Direcciones electrónicas:

http://www.definicionabc.com/general/regresion.php

http://personal.us.es/aggonzalez/Docencia/Problemas_3.pdf

http://www.youtube.com/watch?v=Bye0ZBdd6iI&feature=fvst

http://www.youtube.com/watch?v=Bye0ZBdd6iI&feature=fvst

http://personal.us.es/aggonzalez/Docencia/Problemas_3.pdf

http://www.definicionabc.com/general/regresion.php

http://www.definicionabc.com/ciencia/conocimiento.php

analisis de regresión (1)

Documents