regresión y correlación.ppt

49
Material Preparado por Hugo Delfino Análisis de Regresión y Correlación

Upload: everth-serna-guti-coimbra

Post on 24-Nov-2015

33 views

Category:

Documents


0 download

TRANSCRIPT

Presentación de PowerPointAnálisis de
Material Preparado por Hugo Delfino
Muchas veces las decisiones gerenciales se basan en la relación entre dos o más variables
Ejemplos:
Después de revisar la relación entre los gastos de publicidad y las ventas, un gerente de marketing podría tratar de predecir las ventas para determinado nivel de gastos de publicidad.
Se quiere estimar el consumo de un bien en función de los ingresos de la familia.
Introducción
Material Preparado por Hugo Delfino
En general uno desea conocer la relación existente entre las variables y cuantificarla.
La representación gráfica es eficaz para obtener una información intuitiva sobre la relación entre variables.
Diagrama de Dispersión: Es un gráfico que muestra la intensidad y el sentido de la relación entre dos variables de interés.
Introducción
Material Preparado por Hugo Delfino
Los diagramas de dispersión no sólo muestran la relación existente entre variables, sino también resaltan las observaciones individuales que se desvían de la relación general. Estas observaciones son conocidas como outliers o valores inusitados, que son puntos de los datos que aparecen separados del resto.
Diagrama de dispersión
Material Preparado por Hugo Delfino
Análisis de Correlación: Un grupo de técnicas estadísticas usadas para medir la intensidad de la relación entre dos variables
Análisis de Regresión: Es un procedimiento estadístico que estudia la relación funcional entre variables. Con el objeto de predecir una en función de la/s otra/s.
Conceptos básicos
Material Preparado por Hugo Delfino
Variable dependiente (Y): es la variable que se desea predecir o estimar
Variables independientes (Xi ). Son las variables que proveen las bases para estimar.
Regresión simple: interviene una sola variable independiente
Regresión múltiple: intervienen dos o más variables independientes.
Regresión lineal: la función es una combinación lineal de los parámetros.
Regresión no lineal: la función que relaciona los parámetros no es una combinación lineal
Conceptos básicos
Coeficiente de correlación lineal
Coeficiente de Correlación (r) requiere variables medidas en escala de intervalos o de proporciones
Varía entre -1.00 y 1.00.
Valores de -1.00 o 1.00 indican correlación perfecta.
Valor igual a 0.0 indica ausencia de correlación.
*
Correlación Negativa Perfecta
0 1 2 3 4 5 6 7 8 9 10
10
9
8
7
6
5
4
3
2
1
0
X
Y
Material Preparado por Hugo Delfino
0 1 2 3 4 5 6 7 8 9 10
10
9
8
7
6
5
4
3
2
1
0
X
Y
Material Preparado por Hugo Delfino
0 1 2 3 4 5 6 7 8 9 10
10
9
8
7
6
5
4
3
2
1
0
X
Y
Material Preparado por Hugo Delfino
0 1 2 3 4 5 6 7 8 9 10
10
9
8
7
6
5
4
3
2
1
0
X
Y
*
Test de hipótesis del coeficiente de correlación
Hipótesis: H0: la correlación en la población es 0. H1: la correlación en la población no es 0.
Nivel de significación: = 0.05.
Estadística de la prueba: se distribuye como un t de Student con n-2 grados de libertad.
Regla de decisión: Rechazamos H0 si, y solo si, el valor de t calculado es mayor que el valor t teórico, o el valor p es menor que el fijado . En caso contrario, se acepta H0.
*
Modelo de Regresión
Un modelo de regresión, es una manera de expresar dos ingredientes esenciales de una relación estadística:
Una tendencia de la variable dependiente Y a variar conjuntamente con la variación de la o las X de una manera sistemática
*
Modelo de Regresión
Estas dos características están implícitas en un modelo de regresión, postulando que:
*
Representación gráfica del modelo de Regresión Lineal
*
Análisis de Regresión
Objetivo: determinar la ecuación de regresión para predecir los valores de la variable dependiente (Y) en base a la variable independiente (X).
*
Proceso de estimación de la regresión lineal simple
Modelo de regresión
y=0+1x+
Ecuación de regresión
E(y)=0+1x
Posibles modelos en la regresión lineal simple
x
*
*
*
Estimación de la ecuación de Regresión
= b0 + b1xi, donde:
es el valor estimado de y para distintos x.
b0 es la intersección o el valor estimado de y cuando x=0
b1 es la pendiente de la línea, o el cambio promedio de y para cada cambio en una unidad de x
*
Interpretación gráfica de coeficientes de regresión
Material Preparado por Hugo Delfino
En economía, la función de demanda de un producto a menudo se estima mediante la regresión de la cantidad vendida (Q) sobre el precio (P). Una compañía está tratando de estimar la función de demanda para su nuevo producto, y ha recabado los siguientes datos:
Ejemplo
Represente estos datos
Desarrolle un modelo para estimar la demanda a partir de estos precios
Cómo interpreta la ecuación de regresión estimada de la demanda.
¿Cuál sería el error estándar de la estimación?
Calcule un intervalo de predicción de aproximadamente el 95% para la demanda cuando el precio es de 13.0
Preguntas
Regresión múltiple
Para dos variables independientes, la forma general de la ecuación de Regresión múltiple es:
X1 y X2 son las variables independientes .
a es la intercepción con Y cuando X1 y X2 son iguales a cero .
b1 es el porcentaje de cambio en Y por cada unidad de cambio en X1 manteniendo X2 constante. La misma interpretación se aplica a b2.
b1. y b2. son llamados coeficientes de Regresión Parciales.
*
Proceso de estimación de la regresión múltiple
Modelo de regresión múltiple
Son parámetros desconocidos
x1
x2
xp
y
Modelo general
La Regresión Múltiple General con k variables independientes esta dada por:
El criterio de Mínimos cuadrados es utilizado para estimar los parámetros de la ecuación.
*
Linealidad.
La relación entre las variables independientes y dependientes es lineal.
¿Cómo se prueba?
Linealidad
Material Preparado por Hugo Delfino
Los diagramas de dispersión no sólo muestran la relación existente entre variables, sino también resaltan las observaciones individuales que se desvían de la relación general. Estas observaciones son conocidas como outliers o valores inusitados, que son puntos de los datos que aparecen separados del resto.
Diagrama de dispersión
Los residuos son una variable aleatoria.
No deben estar autocorrelacionados. Es común que ocurra en series temporales.
¿Cómo diagnosticar?
Durbin Watson
Varia entre 0 y 4 alrededor de 2 significa independencia de los residuos.
Independencia de los Residuos
Material Preparado por Hugo Delfino
Para cada valor de la variable independiente la variación alrededor de la línea de regresión de la variable dependiente es constante.
¿Cómo diagnosticar?
Gráfico de dispersión entre las valores pronosticados y los residuales (ambos estandarizados)
Homocedasticidad
Análisis de residuos
Distribuidos aleatoriamente alrededor del 0, es decir que haya aproximadamente la misma cantidad de valores positivos y negativos.
Variar entre -3 y +3.
*
Análisis de residuos
Caso 2: La relación no es lineal entre las variables.
Caso 3: Hay heterocedasticidad.
Residuo:
¿Cómo probarlo?
Colinealidad lineal perfecta cuando una variable se relaciona de forma perfectamente lineal con otra.
Colinealidad perfecta: no se pueden estimar los parámetros.
Colinealidad parcial: aumenta los residuos tipificados y produce coeficientes de regresión inestables.
¿Cómo diagnosticar?
No colinealidad
Estimación de la variancia de los términos del error (2)
Debe ser estimada por varios motivos
Para tener una indicación de la variabilidad de las distribuciones de probabilidad de Y.
Para realizar inferencias con respecto a la función de regresión y la predicción de Y.
*
Estimación de la variancia de los términos del error (2)
Dado que los Yi provienen de diferentes distribuciones de probabilidades con medias diferentes que dependen del nivel de X, la desviación de una observación Yi debe ser calculada con respecto a su propia media estimada
Por tanto, las desviaciones son los residuales
Y la suma de cuadrados es:
*
Estimación de la variancia de los términos del error (2)
La suma de cuadrados del error, tiene n-(k+1) grados de libertad asociados con ella, ya que se tuvieron que estimar k parámetros.
Por lo tanto, las desviaciones al cuadrado dividido por los grados de libertad, se denomina cuadrados medios
*
Análisis de Variancia en el análisis de regresión
El enfoque desde el análisis de variancia se basa en la partición de sumas de cuadrados y grados de libertad asociados con la variable respuesta Y.
La variación de los Yi se mide convencionalmente en términos de las desviaciones
*
Consideremos la desviación
Podemos descomponerla en
T R E
(T): desviación total
*
Material Preparado por Hugo Delfino
Desarrollo formal de la partición
Si consideremos todas las observaciones y elevamos al cuadrado para que los desvíos no se anulen
SCtot SCreg SCer
(SCreg): Suma de cuadrados de la regresión
(SCer): Suma de cuadrados del error
Dividiendo por los grados de libertad, (n-1), (k) y
*
Coeficiente de Determinación
Coeficiente de Determinación, R2 - es la proporción de la variación total en la variable dependiente Y que es explicada o contabilizada por la variación en la variable independiente X.
*
å
å
Material Preparado por Hugo Delfino
La prueba global es usada para investigar si la combinación lineal de variables independientes es significativa.
Las hipótesis son :
es distinto de cero.
Prueba de Hipótesis Global
*
Material Preparado por Hugo Delfino
La prueba “t” de Student es utilizada para determinar cual variable independiente tiene coeficientes de de regresión distinto de cero. Son llamadas pruebas parciales.
Las variables con coeficiente de regresión cero son eliminadas.
La estadística “t” se utiliza en este caso con n -(k+1) grados de libertad.
Prueba de Hipótesis Parciales
Material Preparado por Hugo Delfino
Queremos predecir la demanda anual de un cierto producto (DEMANDA), utilizando las siguientes variables independientes:
PRECIO: precio del producto en $
INGRESO: ingreso del consumidor (en $)
SUB: precio de un bien sustituto (en $)
Ejemplo
Datos del Ejemplo
Material Preparado por Hugo Delfino
Encuentre la ecuación de regresión de mejor ajuste para estos datos.
¿Son los signos (+ o -) de los coeficientes de regresión de las variables independientes como cabe esperar? Explique brevemente la respuesta.
Establezca e interprete el coeficiente de determinación múltiple del problema.
Establezca e interprete el error estándar de la estimación para el problema.
Utilizando la ecuación de regresión obtenida ¿qué valor de DEMANDA predeciría si el precio de los productos fue de $6, el ingreso del consumidor de $1200 y el precio del bien sustituto fue de 8 ?.
Preguntas
Material Preparado por Hugo Delfino
Suponga que se quiere estimar una función de gasto con tarjeta para 20 individuos con los siguientes datos, diferenciados según zona de residencia
¿Cómo tendría en cuenta la posibilidad de un desplazamiento de la función entre consumidores urbanos y rurales y cuál sería la estimación correspondiente, si cree que tienen la misma propensión marginal, pero distintas propensiones medias?
Metropolitana Interior
å
å