prácticas excel - uc3mejercicios adicionales • una vez completadas las tareas anteriores, y...
TRANSCRIPT
Prácticas Excel Estadística II
Práctica 1I:Estimación de modelos de regresión lineal
simple y múltiple
martes, 16 de julio de 13
Objetivo de la práctica
• Objetivo:
• Analizar datos de ocupación en función del PIB y el nivel de estudios, por Comunidades Autónomas
• Tareas a realizar:
• Estimar modelos de regresión y evaluar su significación
• Emplearlos para predicción
• Comprobar el cumplimiento de las hipótesis
martes, 16 de julio de 13
Datos
• Datos a emplear en esta práctica:
• INE (EPA y Contabilidad Regional) años 2008 y 2009:
• Niveles de ocupación por Comunidades
• PIB por habitante
• Porcentajes de la población con estudios universitarios
• Disponibles en el fichero “DatosContReg12.xlsx”
martes, 16 de julio de 13
Obtención de datos
• Datos disponibles en la página Web del Instituto Nacional de Estadística
• (1) Acceder a la página www.ine.es
• (2) Seleccionar enlace a “INEbase”
(1) Página Web INE
(2) Botón acceso INEbase
martes, 16 de julio de 13
Análisis de datos
• Emplearemos la herramienta “Análisis de datos” de Excel
• Asegúrate que esté instalada
• Para ello:
• (1) En la pestaña “Datos”
• (2) Verifica que aparece la opción “Análisis de datos”
• Si no lo está, comprueba en la práctica 1 como instalarla
(1) Pestaña “Datos”
(2) Opción “Análisis de datos”
martes, 16 de julio de 13
Análisis de datos
• En Excel, carga el fichero “DatosContReg12.xlsx”
• (1) Seleccionamos la pestaña “Datos ejercicio”
• Diagrama de dispersión
• (2) Selecciona las columnas de datos “Empleo” y “PIB”
• (3) Ve a la opción “Insertar”
• (4) En “Gráficos” selecciona “Dispersión”
(2) Seleccionar “Empleo” y “PIB”
(3) Insertar
(1) Pestaña “Datos ejercicio”
(4) Dispersión
martes, 16 de julio de 13
Diagrama de dispersión
• Diagrama de dispersión
• (1) Selecciona las ventana del gráfico
• (2) En “Herramientas de gráficos”
• (3) Selecciona el diseño de gráfico preferido
(3) Diseño de gráfico
(1) Ventana del gráfico
(2) Herramientas de gráficos
martes, 16 de julio de 13
Análisis de regresión
• Modelo de regresión lineal simple para la variable “Empleo” en función de “PIB”
• Seleccionamos:
• (1) “Datos”
• (2) “Análisis de datos”
• (3) “Regresión”
(3) Regresión
(1) Datos (2) Análisis de datos
martes, 16 de julio de 13
Regresión
• Datos de entrada:
• (1) Variable dependiente
• (2) Variable independiente
• (3) Salida de datos (en la hoja)
• (4) Nivel de confianza para intervalos de parámetros
• (5) Diagnósticos para residuos
• (6) Gráfico normalidad
(2) Variable independiente (3) Salida de datos(1) Variable dependiente
(4) Nivel de confianza (5) Diagnósticos residuos (6) Gráfico normalidad
martes, 16 de julio de 13
Salida regresión
• Valores obtenidos:
• (1) Coeficientes del modelo
• (2) Coeficiente de determinación R2
• (3) p-valor de los contrastes de significación
• (4) Intervalos de confianza para los coeficientes
(1) Coeficientes del modelo
(2) Coeficiente de determinación
(3) p-valor de contrastes
(4) Intervalos de confianza coeficientes del modelo
martes, 16 de julio de 13
Interpretación de resultados
• ¿Cuál es el modelo estimado?
ŷ = 0.184 + 0.0112 x
• Qué valor toma el coeficiente de determinación
R2 = 0.933
• ¿Es significativo el modelo?
p-valor = 3.12 10-10
• Intervalo de confianza al 95% para la pendiente:
[ 0.0095 ; 0.0128 ]
martes, 16 de julio de 13
Predicción• Valor estimado ŷ para x0 = 22.32
• (1) Estimación puntual:
ŷ = 0.184 + 0.0112 x 22.32 = 0.434
• Intervalo de confianza
• (2) Error estándar
• (3) Valor de sR2 de tabla ANOVA
• (4) Intervalo de confianza
(1) Estimación puntual
(4) Intervalo de confianza
(3) Varianza residual
SEy
=
s
s
2R
✓1 +
1n
+(x0 � x)2
(n� 1)s2x
◆
IC0.05(y) = y ⌥ t15;0.025 SEy
(2) Error estándar
martes, 16 de julio de 13
Diagnóstico del modelo (I)
• Valores de los residuos
• (1) Selecciona “Residuos estándares” en “Residuales”
• (2) Analiza los valores obtenidos bajo “Residuos estándares”
• ¿Hay algún valor que sea muy elevado bajo una distribución normal estándar?
• ¿Observación 16 (País Vasco)?
(1) Selecciona “Residuos estándares”
(2) Analiza los valores de los residuos estándares
martes, 16 de julio de 13
• Gráfico de residuos
• (1) Selecciona “Gráfico de residuales” en “Residuales”
• (2) Analiza el gráfico buscando posibles indicaciones de:
• No linealidad
• Heterocedasticidad
• ¿Observas algún patrón en el gráfico?
Diagnóstico del modelo (II)(1) Seleccionar “Gráfico de residuales”
(2) Analizar el gráfico
martes, 16 de julio de 13
• Gráfico de normalidad de los residuos
• (1) Selecciona “Gráfico de probabilidad normal” en “Probabilidad normal”
• El gráfico representa los valores de y frente a las probabilidades bajo una normal
• Debiera mostrar una línea recta bajo normalidad en y
• (2) Analiza el gráfico buscando desviaciones de linealidad
Diagnóstico del modelo (III)(1) Seleccionar “Gráfico de probabilidad normal”
(2) Analizar el gráfico
martes, 16 de julio de 13
Regresión múltiple
• Datos de entrada:
• (1) Variable dependiente
• (2) Variables independientes
• La diferencia con el caso anterior
• (3) Salida de datos (en la hoja)
(2) Variables independientes
(3) Salida de datos
(1) Variable dependiente
martes, 16 de julio de 13
Salida regresión múltiple
• Valores obtenidos:
• (1) Coeficientes del modelo
• (2) Coeficiente de determinación R2
• (3) p-valor del contraste de significación global
• (4) p-valor de los contrastes de significación individuales
• (5) Intervalos de confianza para los coeficientes
(1) Coeficientes del modelo
(2) Coeficiente de determinación
(4) p-valor contrastes significación individuales
(5) Intervalos de confianza coeficientes del modelo
(3) p-valor contraste de significación global
martes, 16 de julio de 13
Interpretación de resultados
• ¿Cuál es el modelo estimado?
ŷ = 0.189 + 0.0143 x1 - 0.407 x2
• ¿Es globalmente significativo el modelo?
p-valor = 2.50 10-11
• ¿Son significativos los coeficientes de las variables indep.?
p-valor(β1) = 4.48 10-10 , p-valor(β2) = 1.17 10-3
• Efecto de un aumento del 5% en la proporción de la población con estudios superiores en Castilla y León:
Δŷ = -0.407 x 0.05 x 0.194 = -0.004
martes, 16 de julio de 13
Ejercicios adicionales
• Una vez completadas las tareas anteriores, y utilizando los datos disponibles en la pestaña “Datos INE”, se pide que, con datos del año 2009:
1. Estimes el modelo de regresión lineal simple
• ¿Cambia mucho la relación respecto del año anterior?
2. Estimes el modelo de regresión lineal múltiple
• ¿Cambia mucho el coeficiente del porcentaje de personas con estudios superiores?
martes, 16 de julio de 13
Ejercicios adicionales
• También:
3. Estima un modelo de regresión lineal múltiple que explique la ocupación en función de
• El PIB por habitante y
• El porcentaje de la población con estudios de doctorado
I. ¿Es significativo el modelo?
II. ¿Es significativo el coeficiente del porcentaje con estudios de doctorado?
martes, 16 de julio de 13