regresión lineal simple para mkt

46
Unidad I. Regresión lineal simple H.A. para la toma de decisiones en MKT Escuela de Economía y Negocios Universidad Anáhuac Cancún

Upload: victor-cardenas-echazarreta

Post on 15-Dec-2015

24 views

Category:

Documents


3 download

DESCRIPTION

Se describen los elementos para obtener y validar una regresión lineal simple con ejemplos sencillos que pueden ser enfocados a temas de Marketing como Inversión en Publicidad vs Ventas

TRANSCRIPT

Unidad I. Regresión lineal simple

H.A. para la toma de decisiones en MKTEscuela de Economía y Negocios

Universidad Anáhuac Cancún

Contenido:◦ 1.1 Objetivo del análisis de regresión◦ 1.2 Análisis de correlación◦ 1.3 Diagrama de dispersión◦ 1.4 Estimación por mínimos cuadrados ordinarios◦ 1.5 Evaluación del modelo◦ 1.6 Bondad de ajuste◦ 1.7 Significación de la pendiente: Intervalo de

confianza, prueba de hipótesis◦ 1.8 Interpretación de los coeficientes◦ 1.9 Estimaciones y pronósticos

Unidad I. Regresión lineal simple

Escuela de Economía y Negocios Universidad Anáhuac Cancún

ANTECEDENTES

Las ideas matemáticas sobre estos temas y su desarrollo surgieron de los trabajos de los  científicos ingleses Francis Galton (1822-1911) y Karl Pearson(1857-1936), que las aportaron desde la Biología y la Física, asociadas a problemas relacionados con la evolución y la herencia.

Unidad I. Regresión lineal simple

Escuela de Economía y Negocios Universidad Anáhuac Cancún

Ejemplo: Elabora el diagrama de dispersión de los siguientes pares de datos donde x = calif. De matemáticas en 4º. Sem y y = calif. De Estadística 5º. Sem de un grupo de 10 estudiantes de preparatoria.

Escuela de Economía y Negocios Universidad Anáhuac Cancún

Unidad I. Regresión lineal simple

Alumno Calif. En Matemáticas

Calif. En Estadística

1 8 8

2 9 5

3 8 7

4 9 7

5 5 4

6 5 6

7 10 10

8 9 9

9 7 6

10 10 7

Escuela de Economía y Negocios Universidad Anáhuac Cancún

Unidad I. Regresión lineal simple

4 5 6 7 8 9 10 110

2

4

6

8

10

12

Series1; 8

5

7 7

4

6

109

67

Diagrama de dispersión

Matemáticas

Esta

dís

tica

Vemos que a mayor calificación en Matemáticas, mayor calificación se obtuvo en Estadística, aunque no tengan una perfecta relación.

Podríamos ajustar una recta que pase lo más cerca de todos los datos. La recta de mejor ajuste.

Escuela de Economía y Negocios Universidad Anáhuac Cancún

Unidad I. Regresión lineal simple

La recta de mejor ajuste se le conoce como recta de mínimos cuadrados y se representará en la forma

ŷ = bx + adonde ŷ se le conoce como valor ajustado, ya que el valor real será y.

Veamos esto gráficamente.

Escuela de Economía y Negocios Universidad Anáhuac Cancún

Unidad I. Regresión lineal simple

<

<

xi xj

yi

yj

ŷi

ŷj

X

Y

Variable independiente

Vari

ab

le d

ep

en

die

nte ŷ = bx + a Recta de mínimos cuadrados

Error de estimación = yj - ŷj

Error de estimación = ŷi - yi

La recta de mejor ajuste es la que minimice los errores de estimación.

Escuela de Economía y Negocios Universidad Anáhuac Cancún

Unidad I. Regresión lineal simple

Mediante método de Cálculo Diferencial se tienen las siguientes fórmulas:

Escuela de Economía y Negocios Universidad Anáhuac Cancún

22 XnX

YXnXYb

XbYa

X = valores de la var. independienteY = valores de la var. Dependiente = Media de los valores de X = Media de los valores de Yn = número de puntos de datos (parejas)

XY

Unidad I. Regresión lineal simple

4 5 6 7 8 9 10 110

2

4

6

8

10

12

f(x) = 0.633333333333333 x + 1.83333333333333

Diagrama de dispersión

Matemáticas

Esta

dís

tica

Escuela de Economía y Negocios Universidad Anáhuac Cancún

Unidad I. Regresión lineal simple

La recta de mínimos cuadrados sirve para predecir, con cierta aproximación, los valores de la variable dependiente (y) en función de los de la variable independiente (x).Esto es, sirve para estimar los valores reales de y, no observados.

Escuela de Economía y Negocios Universidad Anáhuac Cancún

Unidad I. Regresión lineal simple

La predicción o estimación de un valor de y puede ser de dos tipos:

a) Interpolación, si el valor de x se encuentra entre los límites de los datos registrados.

b) Extrapolación, si el valor de x se ubica más allá de los datos observados (por debajo o por arriba).

Escuela de Economía y Negocios Universidad Anáhuac Cancún

Unidad I. Regresión lineal simple

En la ecuación de la recta de regresión ŷ = bx + a

b, es la pendiente y se le llama coeficiente de regresión.

Si b > 0, entonces la relación entre los datos es directa.

Si b < 0, entonces la relación entre las variables es inversa.

El valor de b representa el cambio o incremento que sufre Y por una unidad de cambio en X (RAZÓN DE CAMBIO).

El valor a, se llama constante de regresiónEscuela de Economía y Negocios Universidad Anáhuac

Cancún

Unidad I. Regresión lineal simple

¿Cómo se verifica la recta de regresión?

Escuela de Economía y Negocios Universidad Anáhuac Cancún

Existen varios métodos:1) Revisar el ajuste de forma gráfica2) Analizando la suma de los errores

individuales con los datos3) Calculando el error estándar de

la estimación.

Unidad I. Regresión lineal simple

Error estándar de la estimación de RMC

Escuela de Economía y Negocios Universidad Anáhuac Cancún

o Se representa como se

o Mide la variabilidad, o dispersión, de los valores observados alrededor de la RMC

o Se calcula con la siguiente fórmula

2

)( 2

n

YYse

Unidad I. Regresión lineal simple

Error estándar de la estimación de RMC

Escuela de Economía y Negocios Universidad Anáhuac Cancún

o Se también puede calcularse con la siguiente fórmula compacta:

2

2

n

XYbYaYse

Unidad I. Regresión lineal simple

Error estándar de la estimación de RMC

Escuela de Economía y Negocios Universidad Anáhuac Cancún

o Ejemplo 1: Estima el error estándar de estimación para las calificaciones de Matemáticas vs. Estadística y compara las rectas generadas con los intervalos de estimación.

Unidad I. Regresión lineal simple

Error estándar de la estimación de RMC

Escuela de Economía y Negocios Universidad Anáhuac Cancún

Alumno Calif. En Mate (X)

Calif. En Est. (Y)

XY X2 Y2

1 8 8 64 64 642 9 5 45 81 253 8 7 56 64 494 9 7 63 81 495 5 4 20 25 166 5 6 30 25 367 10 10 100 100 1008 9 9 81 81 819 7 6 42 49 3610 10 7 70 100 49

TOTALES 80 69 571 670 505

MEDIA (X) 8 b 0.633 Se 1.452

MEDIA (Y) 6.9 a 1.833

El valor Se = 1.452indica que existe un error estándar de 1.452 puntos sobre las calificaciones pronosticadas de Estadística

Unidad I. Regresión lineal simple

Error estándar de la estimación de RMC(Interpretación)

Escuela de Economía y Negocios Universidad Anáhuac Cancún

ŷ = bx + a kSe

ŷ = bx + a

ŷ = bx + a + Se

ŷ = bx + a - Se

ŷ = bx + a + 2Se

ŷ = bx + a - 2Se

ŷ = bx + a + 3Se

ŷ = bx + a - 3Se

Unidad I. Regresión lineal simple

Escuela de Economía y Negocios Universidad Anáhuac Cancún

Se nos da información sobre la porción de datos que

queda comprendida alrededor de la recta de regresión,

es decir:

o ŷ = bx + a Se abarca aprox. 68% de los datos

o ŷ = bx + a 2Se abarca aprox. 95.5% de los datos

o ŷ = bx + a 3Se abarca aprox. 99.7% de los datos

Error estándar de la estimación de RMC(Interpretación)

Unidad I. Regresión lineal simple

Escuela de Economía y Negocios Universidad Anáhuac Cancún

o Ejemplo 2: El director del Depto. De Salubridad de Chapel Hill está interesado en la relación que existe entre la edad de un camión de basura y los gastos anuales de reparación que debería esperar. Con el fin de determinar dicha relación, el director ha acumulado información referente a cuatro de los camiones que la ciudad posee actualmente.

Error estándar de la estimación de RMC(Interpretación)

Unidad I. Regresión lineal simple

Escuela de Economía y Negocios Universidad Anáhuac Cancún

Ejemplo: Número del camión

Edad del camiónen años (X)

Gastos de reparacióndurante el último año

en cientos de dólares (Y)

101 5 7102 3 7103 3 6104 1 4

Tabla 1. Gastos anuales de reparación de camiones.

Determina el error estándar de la estimación de la RMC

Error estándar de la estimación de RMC(Interpretación)

Unidad I. Regresión lineal simple

Escuela de Economía y Negocios Universidad Anáhuac Cancún

1) Para cada valor X existe un grupo de valores Y, y estos valores Y se distribuyen en forma normal.

2) Las medias de estas distribuciones normales de valores Y se encuentran todas en la línea de regresión.

3) Las desviaciones estándares de dichas distribuciones normales son iguales.

4) Los valores Y son estadísticamente independientes. (En cada muestra seleccionada)

Condiciones básicas para la RMC

Unidad I. Regresión lineal simple

Escuela de Economía y Negocios Universidad Anáhuac Cancún

Condiciones básicas para la RMC

X

Y

X1 X2 X3

Las tres medias quedan en la RMC

RMC Una desviación estándar

Es la misma d.e. estimada por Sy-x

Unidad I. Regresión lineal simple

Escuela de Economía y Negocios Universidad Anáhuac Cancún

• Si el tamaño de la muestra es grande• Si la dispersión con relación a la RMC tiene

una distribución casi normalEs útil establecer intervalos de confianza

para disminuir el error de predicción por la variación de los datos al alejarnos de .

Intervalos de Confianza y de Predicción

Hay dos tipos:Intervalo de confianza (valor medio Y para X)Intervalo de predicción (valores de Y para X)

Y

Unidad I. Regresión lineal simple

Escuela de Economía y Negocios Universidad Anáhuac Cancún

El intervalo de confianza para el valor medio de Y para un valor dado de X se obtiene como:

Intervalos de Confianza y de Predicción

n

XX

XXn

StY e 2

2

21)('

'Y Valor pronosticado para XX Valor para X

Media de los datos XXNúmero de observaciones

nError estándar de estimación

eSValor de t-Student con n-2 grados de libertad, dos colas

t

Unidad I. Regresión lineal simple

Escuela de Economía y Negocios Universidad Anáhuac Cancún

Intervalos de Confianza y de Predicción

Tabla 1. Gastos anuales de reparación de camiones.

Determina un intervalo de confianza al 95% para todos los vehículos con una antigüedad de 4

años.

Número del camión

Edad del camiónen años (X)

Gastos de reparacióndurante el último año

en cientos de dólares (Y)

101 5 7102 3 7103 3 6104 1 4

Ejemplo:

Unidad I. Regresión lineal simple

Escuela de Economía y Negocios Universidad Anáhuac Cancún

Intervalos de Confianza y de Predicción

Con la ecuación de regresión, estimamos el valor Y, el cual resultó de Y = 0.75(3) + 3.75 = 6.75

Con los n = 4 datos, los g.l. = 4-2 = 2, en la tabla al 95% para t es igual a 4.303

Y dado que el error de estimación fue Se = 0.8660, se obtiene el intervalo:

Ejemplo:

47.4

03.928.275.6

412

44

3441

)866.0(303.475.6 2

2

Unidad I. Regresión lineal simple

Escuela de Economía y Negocios Universidad Anáhuac Cancún

Intervalos de Confianza y de Predicción

De lo anterior, para todos los camiones con 4 años de antigüedad se espera que generen un gasto de 6.75 cientos de dólares para su mantenimiento, con una variación de entre 4.47 hasta 9.03 cientos de dólares.

¿Y cuál será el intervalo de predicción para un camión que tiene exactamente 4 años de antigüedad?

Ejemplo:

Unidad I. Regresión lineal simple

Unidad II. Regresión lineal simple y múltiple (CAPM) Capital Assets Price Model

Escuela de Economía y Negocios Universidad Anáhuac Cancún

El intervalo de predicción para un valor dado de X se obtiene con la misma fórmula, salvo por un “1” que se agrega sumando dentro del radical

Intervalos de Confianza y de Predicción

n

XX

XXn

StY e 2

2

211)('

Unidad II. Regresión lineal simple y múltiple (CAPM) Capital Assets Price Model

Escuela de Economía y Negocios Universidad Anáhuac Cancún

Intervalos de Confianza y de Predicción

Aplicando tal variación a los datos del ejemplo, se obtiene

Ejemplo:

38.2

12.1137.475.6

412

44

3441

1)866.0(303.475.6 2

2

Luego, para un camión en particular de 4 años, el costo de reparación puede variar desde 2.38 hasta 11.12 cientos de dólares, un intervalo muy grande porque es el estimado para un camión solamente, no para todos.

Unidad II. Regresión lineal simple y múltiple (CAPM) Capital Assets Price Model

Escuela de Economía y Negocios Universidad Anáhuac Cancún

Intervalos de Confianza y de Predicción

Diferencias:Intervalo de confianza (valor medio Y para X). Se refiere a todos los casos con un valor dado de X y se obtiene con la 1ª fórmula.

Intervalo de predicción (valores de Y para X). Se enfoca a un valor particular dado de X, por lo que el intervalo tendrá una mayor amplitud, al agregar el “1” en el radical.

Unidad II. Regresión lineal simple y múltiple (CAPM) Capital Assets Price Model

Escuela de Economía y Negocios Universidad Anáhuac Cancún

Análisis de Correlación¿Es suficiente la RMC y el error para dar mayor certidumbre en el análisis de la relación entre datos para obtener nuevas estimaciones ?El análisis de correlación es la herramienta estadística que podemos usar para describir el grado hasta el cual una variable (X) está linealmente relacionada con otra (Y).

Unidad II. Regresión lineal simple y múltiple (CAPM) Capital Assets Price Model

Escuela de Economía y Negocios Universidad Anáhuac Cancún

Análisis de Correlación

El análisis de correlación utiliza dos medidas para describir la relación entre las variables:

• El coeficiente de determinación (r2), principal valor para medir la extensión o fuerza entre las variables X e Y.• El coeficiente de correlación (r)*, nos permite describir qué tan bien una variable (Y) está explicada por otra (X).

*Desarrollado por Karl Pearson (1900)

Unidad II. Regresión lineal simple y múltiple (CAPM) Capital Assets Price Model

Escuela de Economía y Negocios Universidad Anáhuac Cancún

Análisis de Correlación

El coeficiente de determinación (r2), mide la extensión o fuerza entre las variables X e Y, analizando la variación de los valores Y alrededor de la línea de regresión y con relación a su propia media. Se calcula como:

2

2

1YY

YYr

Es una medida del grado de asociación lineal entre X y Yr2= Var.Tot.-Var.No Exp. Var. Tot.

Unidad II. Regresión lineal simple y múltiple (CAPM) Capital Assets Price Model

Escuela de Economía y Negocios Universidad Anáhuac Cancún

Análisis de Correlación

También se calcula de forma práctica como:

22

2

2

YnY

YnXYbYar

Su interpretación es: r2 = 1, es una correlación perfecta r2 cercano a uno, Y está fuertemente relacionado con X. r2 = 0, NO existe correlación

Unidad II. Regresión lineal simple y múltiple (CAPM) Capital Assets Price Model

Escuela de Economía y Negocios Universidad Anáhuac Cancún

Análisis de Correlación

Otra interpretación de r2 es la proporción o porcentaje de desviación explicada e inexplicada de Y con relación a X.

Por ejemplo: Si r2 = 0.576, significa que el 57.6% de la variación en Y es explicada por la variación en X.

Veamos más aplicaciones…

Unidad II. Regresión lineal simple y múltiple (CAPM) Capital Assets Price Model

Escuela de Economía y Negocios Universidad Anáhuac Cancún

Análisis de Correlación

Ejercicio 1: Obtener el coeficiente de determinación de las calificaciones de Mate (X) y Estadística (Y). Describa sus resultados.

Ejercicio 2: Obtener el coeficiente de determinación del gasto en mantenimiento de camiones (Y) y la antigüedad del mismo (X). Describa sus resultados.

Unidad II. Regresión lineal simple y múltiple (CAPM) Capital Assets Price Model

Escuela de Economía y Negocios Universidad Anáhuac Cancún

Análisis de CorrelaciónEl coeficiente de correlación (r) permite analizar el tipo de relación entre X e Y.

-1.00 -0.50 0.50 1.000Correlación positivaCorrelación negativa

Ninguna correlación

Correlación negativa perfecta

Correlación positiva perfecta

Correlación negativa intensa

Correlación negativa

débil

Correlación negativa

moderada

Correlación positiva

débil

Correlación positiva intensa

Correlación positiva

moderada

Fuente: Mason (2001). Estadística para Admón. y Economía

Unidad II. Regresión lineal simple y múltiple (CAPM) Capital Assets Price Model

Escuela de Economía y Negocios Universidad Anáhuac Cancún

Análisis de Correlación

Ejercicio 3: Resuelve el problema planteado al inicio del tema, sobre la inversión en Investigación y Desarrollo:a) Elabora el diagrama de dispersiónb) Calcula la recta de regresión y estima

las ganancias al invertir 9 mdd.c) Obtener el error de estimaciónd) Calcula un intervalo de confianza al

95%e) Calcula el coeficiente de

determinación y de correlación

Unidad II. Regresión lineal simple y múltiple (CAPM) Capital Assets Price Model

Escuela de Economía y Negocios Universidad Anáhuac Cancún

Análisis de Correlación

Finalmente, un análisis práctico es la prueba de significancia del coeficiente de correlación, apoyando suposiciones sobre correlación NO nula para TODA la población, o viceversa.Se establecen las hipótesis nula y alternativaH0: 0H1: 0Y el estadísticode prueba es:

21

2

r

nrt

Con n-2 g.l. para t-Student con nivel de significancia α/2 (dos colas) ó α (una cola)

Unidad II. Regresión lineal simple y múltiple (CAPM) Capital Assets Price Model

Escuela de Economía y Negocios Universidad Anáhuac Cancún

Análisis de Correlación

Ejemplo: Para las hipótesis nula y alternativaH0: 0H1: > 0Considere una muestra al azar de 12 datos con una correlación de 0.32. ¿Se puede concluir que la correlación en la población es mayor que cero? Aplica un nivel de significancia de 0.05

Unidad II. Regresión lineal simple y múltiple (CAPM) Capital Assets Price Model

Escuela de Economía y Negocios Universidad Anáhuac Cancún

Análisis de Varianza para la Regresión Lineal

Una vez obtenido el Modelo de Regresión Lineal, se puede someter a un Análisis de Varianza para determinar si el modelo es significativo o no. Esto es, si influye la variable X sobre la variable Y.

H0: E(Y/X = x) = a (no depende de X)H1: E(Y/X = x) = a+bx (sí depende de X)

Unidad II. Regresión lineal simple y múltiple (CAPM) Capital Assets Price Model

Escuela de Economía y Negocios Universidad Anáhuac Cancún

Análisis de Varianza para la Regresión Lineal

Estas hipótesis se probarán descomponiendo la suma de cuadrados del total como se indica )ˆ()ˆ()( yyyyyy iiii

222 )ˆ()ˆ()( yyyyyy iiii

Suma de cuadrados Total (SCT)

Suma de cuadrados Explicada

(SCE)

g.l. = n-1 g.l. = n-2 g.l. = 1

Suma de cuadrados deResiduos

(SCR)

Unidad II. Regresión lineal simple y múltiple (CAPM) Capital Assets Price Model

Escuela de Economía y Negocios Universidad Anáhuac Cancún

Análisis de Varianza para la Regresión Lineal

Luego, la tabla ANOVA queda expresada

Fuente de variación

Suma de cuadrados

g.l. Cuadrado medio (Varianzas)

Fprueba

Por la recta SCE 1 Se2 = SCE/1 Se

2 / SR2

Residual SCR n – 2 SR2 = SCR/(n – 2)

Total SCT n – 1 Si Fprueba > Fcrítica, entonces H0 se rechaza y el modelo SÍ es significativo.

Calculemos con¡EXCEL!

GRACIAS