Grado en Ingeniería
Asignatura: Estadística.
Tema: Regresión.
Grado en Ingeniería. Estadística. Tema 4
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 2
Regresión
Introducción. Relaciones no deterministas.
Regresion simple.
Modelo .
Estimación.
Diagnosis.
Regresion múltiple.
Gráficos de dispersión múltiples.
Estimación.
Diagnosis.
Previsiones.
Multicolinealidad.
Variables ficticias (dummy).
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 3
Objetivos
Saber analizar las relaciones entre variables a través de un modelo
de regresión lineal que describa cómo influye una variable X sobre otra
variable Y.
Saber obtener estimaciones puntuales de los parámetros de dicho
modelo.
Saber construir intervalos de confianza y resolver contrastes sobre
dichos parámetros.
Saber estimar el valor promedio de Y para un valor de X.
Saber predecir futuros valores de la variable respuesta Y.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 4
Relaciones entre variables
La regresión estudia relaciones entre variables.
Qué tipo de relaciones entre variables pueden existir:
-Relaciones deterministas (exactas).
- Relaciones no deterministas (no exactas).
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 5
Relaciones deterministas
Diremos que una relación entre dos variables es determinista cuando
al conocer el valor de una de las variables podemos conocer
exactamente el valor de la otra.
Corresponden a una relación matemática exacta, una función.
Y = f(x)
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 6
Relaciones no deterministas
La relación entre las dos variables no es exacta. Conocido el valor de
una de las variables, no podemos conocer el valor exacto de la otra.
Sabemos que existe relación entre las variables pero no es exacta.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 7
Regresión
¿Qué hace la regresión?
La relación no es exacta y el modelo no es exacto, pero es muy útil.
Crea un modelo lineal para simular la relación entre variables.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 8
Regresión: residuos
Si la relación no es exacta, siempre cometeremos un cierto error.
La distancia de cada punto (real) a la recta es la parte que el modelo
no puede predecir.
Estimaremos la recta de regresión para que los errores que cometemos
sean mínimos (Estimación por Mínimos Cuadrados), exigiendo que el
error medio sea cero.
e = residuo
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 9
¿Cómo se calcula la recta de regresión?
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 10
X YIndependiente
Explicativa
Es el valor que conocemos
Dependiente
Respuesta
A explicar
Es lo que queremos predecir
¿Cómo denominamos a las variables?
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 11
Regresión: un ejemplo
Analicemos la relación entre los costes de producción en un proceso
y la cantidad de piezas producidas . Plot of log(TOT_COST) vs log(UDS)
log(UDS)
log
(TO
T_
CO
ST
)
2,1 2,4 2,7 3 3,3 3,6 3,9
1,7
2,7
3,7
4,7
5,7
Y = coste de producción,
X = piezas producidas.
Calcularemos la recta con Statgraphics
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 12
Regresión: un ejemplo
Plot of log(TOT_COST) vs log(UDS)
log(UDS)
log
(TO
T_
CO
ST
)
2,1 2,4 2,7 3 3,3 3,6 3,9
1,7
2,7
3,7
4,7
5,7
coste prod = 0,783429 + 0,669509*piezas producidas
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 13
Regresión: un ejemplo
Plot of log(TOT_COST) vs log(UDS)
log(UDS)
log
(TO
T_
CO
ST
)
2,1 2,4 2,7 3 3,3 3,6 3,9
1,7
2,7
3,7
4,7
5,7
coste prod = 0,783429 + 0,669509*piezas producidas
Por tanto, una empresa que produzca un millón de unidades tendrá unos
costes de:
coste prod = 0,783429 + 0,669509* 1 = 1,45 millones €.
¿Todas las empresas con ese volumen de producción tienen el mismo coste?
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 14
Regresión: un ejemplo
Plot of log(TOT_COST) vs log(UDS)
log(UDS)
log
(TO
T_
CO
ST
)
2,1 2,4 2,7 3 3,3 3,6 3,9
1,7
2,7
3,7
4,7
5,7
Hay un rango de variación del coste, de 2,8 a 4,8 milllones de €.
En concreto, para la empresa donde trabajo: coste prod = 1,66 millones.
Pero el modelo dice:
coste prod = 0,783429 + 0,669509* 1 = 1, 46 millones €.
Por tanto, el error que cometemos será 1,66 – 1,46 = 0,2 millones.
¿Todas las empresas con ese volumen de producción tienen el mismo coste??
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 15
¿Podemos aplicar el modelo de regresión a todos los tipos de datos?
No, para que las conclusiones de nuestro modelos sean las correctas,
los datos que manejamos deben cumplir:
1. Linealidad.
2. Homocedasticidad.
3. Independencia.
4. Normalidad.
Hipótesis del modelo
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 16
Esta es una hipótesis fundamental. Los datos deben
seguir una tendencia lineal, estar altamente
correlacionados.
Linealidad
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 17
La regresión no representará correctamente la
relación entre los datos.
Linealidad: ¿qué pasa si los datos no son lineales?
Si nuestros datos no son lineales, podemos buscar una
transformación matemática (log, sqrt…) que mejore su
linealidad.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 18
Homocedasticidad
Esta hipótesis consiste en asegurar que nuestros datos tienen varianza constante, es decir la gráfica debe ser
• Cuando la varianza de los datos es constante se dice que son HOMOCEDÁSTICOS.
• ¿Qué sucede si los datos son no son homocedásticos?
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 19
Gastos - Ingresos
Ingresos
Gas
tos
0 2 4 6 8(X 100000)
0
0,2
0,4
0,6
0,8
1(X 1,E6)
Homocedasticidad: datos heterocedásticos
Cuando la varianza no es constante, se dice que los
datos son HETEROCEDÁSTICOS.
¿Cómo afecta esto a la regresión?
Los errores en la previsión serían más grandes a medida
que aumenta el valor de las variables!
No se debe aplicar regresión a datos heterocedásticos.
Hay que transformarlos (por ejemplo, LOG).
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 20
Comprobación de la linealidad y homocedasticidad
La comprobación de las hipótesis de linealidad y
homocedasticidad podemos realizarla mediante un
análisis grafico (gráficos de dispersión) de nuestros
datos.Plot of log(TOT_COST) vs log(UDS)
log(UDS)
log
(TO
T_
CO
ST
)
2,1 2,4 2,7 3 3,3 3,6 3,9
1,7
2,7
3,7
4,7
5,7
Si los datos cumplen estas hipótesis podemos
continuar nuestro análisis.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 21
Independencia
Exigimos que los datos que estamos analizando sean
independientes unos de otros:
- Si analizamos los costes en función del
volumen de producción para distintas fábricas,
asumimos que los datos de una fabrica no afectan a
los de otra.
- NO pueden analizarse con regresión valores de
una secuencia temporal, ya que cada dato depende
del anterior.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 22
Normalidad
La última de las hipótesis del modelo exige que los
datos que analizamos sean normales. ¿Qué significa
esto?
Plot of log(TOT_COST) vs log(UDS)
log(UDS)
log
(TO
T_
CO
ST
)
2,1 2,4 2,7 3 3,3 3,6 3,9
1,7
2,7
3,7
4,7
5,7
Hemos dicho que para cada valor de X, la Y toma
valores en un cierto rango.
Asumimos que los valores que Y toma para cada valor de
X siguen una distribución normal.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 23
El modelo
Si los datos cumplen las hipótesis que hemos formulado, ya
podemos estimarlo:
coste prod = 0,783429 + 0,669509*piezas producidas
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 24
El modelo
Es el valor de Y cuando la X vale 0 (no siempre tiene sentido real).
coste prod = 0,783429 + 0,669509*piezas producidas
El signo “+” nos indica que las dos variables crecen a la vez
El signo “-” nos indica que, si una variable crece, la otra decrece.
Además, nos dice cómo crece la Y cuando lo hace la X.
DY = b1 DX.
b1
b0
Por tanto, en nuestro ejemplo, ¿cuanto aumentará el coste si las
piezas producidas aumentan en un millón?
D(coste prod) = 0,669509*D (piezas producidas) = 0,67 millones.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 25
En regresión partimos de una muestra de datos y a partir de ella
estimamos el modelo.
Regresión: un problema….
Plot of log(TOT_COST) vs log(UDS)
log(UDS)
log
(TO
T_
CO
ST
)
2,1 2,4 2,7 3 3,3 3,6 3,9
1,7
2,7
3,7
4,7
5,7
coste prod = 0,783429 + 0,669509*piezas producidas
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 26
Si variamos la muestra, cambiarán los parámetros del modelo (los
números que hemos calculado).
¿Es posible elegir una muestra que nos de esta gráfica?
Regresión: un problema….
-3 -2 -1 0 1 2 3-2.5
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
Si esto sucede, la pendiente de la recta b1sera cero y se dice que
LA REGRESIÓN NO ES SIGNIFICATIVA.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 27
Queremos estar seguros de que nuestra regresión es válida
independientemente de la muestra considerada.
Queremos estar seguros de que la regresión vale para toda la
población estudiada y no solo para una muestra concreta.
QUEREMOS ASEGURARNOS DE QUE b1 NUNCA VALE CERO.
Regresión: un problema….
-3 -2 -1 0 1 2 3-2.5
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 28
Análisis de significación
Para analizar si b1 es cero, tenemos tres herramientas:
Intervalos de confianza.
Contrastes de Hipótesis:
Estadístico t.
p-valor.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 29
Intervalos de confianza
Calcularemos un rango donde estará la estimación del verdadero valor
de b1, cualquiera que sea la muestra que tomemos.
Esto lo aseguramos con una cierta probabilidad (generalmente el 95%).
b1 -2xSE(b1) b1 b1 +2xSE(b1)
Si el valor 0 no pertence al intervalo, el parámetro es significativo.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 30
Intervalos de confianza
El 0 no pertenece al intervalo, el parametro es significativo.
coste prod = 0,783429 + 0,669509*piezas producidas
(b1 -2xSE(b1) ; b1 +2xSE(b1) )
( 0,67-2*0,7; 0,67+2*0,7) = (0,53; 0,81)
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 31
Contrastes de hipótesis
Una alternativa para asegurar que b1 no es cero es
plantear un contraste según la forma estándar:
H0: b1 =0,
H1: b1 ≠0.
Statgraphics nos da el p-valor de este contraste.
p<0.05
Rechazamos Ho
La regresión es significativa.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 32
Contrastes de hipótesis: Prueba de la t
Aun tenemos una alternativa al p valor para resolver el
contraste:
H0: b1 =0
H1: b1 ≠0
p<0.05
Rechazamos Ho
La regresion es significativa
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 33
Contrastes de hipótesis: Prueba de la t
Aún tenemos una alternativa al p-valor para resolver el
contraste:
H0: b1 =0,
H1: b1 ≠0.
|t|>2 rechazamos Ho,
|t|<2 aceptamos Ho.
|t|>2
Rechazamos Ho
La regresión es significativa.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 34
¿Es bueno mi modelo? ¿Cuánto? -> R2
El coeficiente R2 indica cuánto de Y es explicado por X
Ejemplo:
R2=71.76%
R2 = coeficiente de correlación muestral al cuadrado.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 35
Resumen
Estudiamos los datos y vemos si cumplen las hipótesis.
Si no las cumplen, transformamos.
Ajustamos el modelo.
Intervalos y contrastes para ver si X es significativa (INFLUYE)
sobre Y.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 36
Diagnosis
Las decisiones que podemos tomar gracias a la información
aportada por un modelo de regresión son importantes.
Necesitamos estar seguros de que nuestras conclusiones son
correctas.
Para ello:
Contrastes, intervalos de confianza….
Diagnosis: comprobar una vez más que se cumplen las hipótesis del
modelo.
En la diagnosis del modelo, comprobamos que la parte aleatoria del
modelo (sus residuos) no contiene información adicional ni refleja
lagunas en el cumplimiento de las hipótesis del modelo (linealidad,
homocedasticidad, independencia y normalidad)
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 37
Diagnosis
La diagnosis se realiza observando los gráficos de los residuos:
debemos ver gráficos como este:
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 38
Diagnosis
No podemos aceptar residuos con otros comportamientos:
0 20 40 60 80 1000
500
1000
1500
2000
2500
3000
500 1000 1500 2000 2500 3000-1500
-1000
-500
0
500
1000
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 39
Regresión
Introducción. Relaciones no deterministas.
Regresion simple.
Modelo .
Estimación.
Diagnosis.
Regresion múltiple.
Gráficos de dispersión múltiples.
Estimación.
Diagnosis.
Previsiones.
Multicolinealidad.
Variables ficticias (dummy).
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 40
Regresión múltiple
En un modelo de regresión múltiple, queremos conocer el valor de
una variable respuesta a partir de más de una variable explicativa:
En esta expresión, cada uno de los coeficientes beta representa la
influencia individual que cada una de las X tiene sobre Y.
Ventajas:
Las hipótesis del modelo son las mismas que en regresión simple.
Los contrastes, intervalos, diagnosis… también.
Pequeños inconvenientes:
La visualización de los gráficos es un poco más complicada.
Necesitamos redefinir el coeficiente R2.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 41
Regresion multiple: Graficos
Cada celda del gráfico matricial representa la relación bilateral entre
dos variables:
TOT_COST
UDS
MANPOWER
ENERGY
INVEST
MAINT
MAT
ENV
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 42
Regresión múltiple: R2 corregido
El coeficiente R2 tiene el inconveniente de que se incrementa al
aumentar el número de variables en el modelo (ya sean
significativas o no). Para paliar este efecto, corregimos el
coeficiente para que tenga en cuenta este efecto, por lo que en
regresión múltiple se utiliza el coeficiente R2 corregido ( o ajustado).
Dependent variable: log(TOT_COST)
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT -1,82352 0,313487 -5,81689 0,0000
log(UDS) 0,666417 0,116524 5,71913 0,0000
log(MANPOWER) 0,157212 0,0551564 2,85029 0,0052
log(ENERGY) 0,174001 0,0489637 3,55367 0,0005
log(INVEST) 0,216335 0,0365883 5,91267 0,0000
log(MAINT) -0,0199751 0,0594171 -0,336185 0,7373
log(MAT) 0,139431 0,0221418 6,2972 0,0000
log(ENV) 0,0027926 0,0178724 0,156252 0,8761
-----------------------------------------------------------------------------
Adjusted R2 = 81.73%
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 43
Regresión
Introducción. Relaciones no deterministas.
Regresion simple.
Modelo .
Estimación.
Diagnosis.
Regresion múltiple.
Gráficos de dispersión múltiples.
Estimación.
Diagnosis.
Previsiones.
Multicolinealidad.
Variables ficticias (dummy).
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 44
Ejemplo
0 4 8 12 16 20 24(X 1000)
matricul
0
0,5
1
1,5
2
2,5
3(X 1000)
naccid
en
Número de accidentes en
provincias españolas
en función del número de
vehículos matriculados.
-----------------------------------------------------------------------------
Dependent variable: nacciden
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT 278,24 102,518 2,71406 0,0265
matricul 0,0993373 0,00850344 11,682 0,0000
-----------------------------------------------------------------------------
R-squared (adjusted for d.f.) = 93,7703 percent
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 45
Ejemplo
Número de accidentes en
provincias españolas
en función del número de
permisos de conducir
-----------------------------------------------------------------------------
Dependent variable: nacciden
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT 216,481 127,099 1,70325 0,1269
permisos 0,107617 0,0109657 9,81395 0,0000
-----------------------------------------------------------------------------
R-squared (adjusted for d.f.) = 91,3722 percent
permisos
naccid
en
0 4 8 12 16 20 24(X 1000)
0
0,5
1
1,5
2
2,5
3(X 1000)
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 46
Regresiones
Accid=278.2 +0.1 Matriculas
(11.68)
Accid=216.4 +0.1 Permisos
(9.81)
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 47
Regresión con las dos variables
-----------------------------------------------------------------------------
Dependent variable: nacciden
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT 250,63 113,216 2,21373 0,0625
matricul 0,0725492 0,0395634 1,83374 0,1093
permisos 0,0301069 0,043353 0,694461 0,5098
-----------------------------------------------------------------------------
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 48
Regresiones
Accid=278.2 +0.1 Matriculas
(11.68)
Accid=216.4 +0.1 Permisos
(9.81)
Accid=250+0.07 Matriculas +0.03 Permisos
(1.8) (0.69)
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 49
¿Qué está pasando?
permisos
matr
icu
l
0 4 8 12 16 20 24(X 1000)
0
4
8
12
16
20
24(X 1000)
Correlación=.975
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 50
Regresión: un problema
A veces las variables independientes son muy parecidas:
contienen la misma información.
Variable
Dependiente
Variables
Independientes
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 51
Regresión: un problema
El modelo no puede diferenciar entre las variables.
Variable
Dependiente
Variables
Independientes
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 52
En nuestro ejemplo
Num AccidMatrículas
Permisos
Ambas son muy parecidas para
distinguir entre ellas.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 53
En nuestro ejemplo
Num AccidMatrículas
Permisos
Ambas son muy parecidas para
distinguir entre ellas.
Solución: eliminar una variable.
Perdemos muy poca información.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 54
En nuestro ejemplo
Num AccidMatrículas
Ambas son muy parecidas para
distinguir entre ellas.
Solución: eliminar una variable.
Perdemos muy poca información.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 55
El problema de multicolinealidad aparece en casi todos los trabajos estadísticos.
Tendemos a medir una cosa de muchas formas.
Se detecta:
En regresión simple, las variables son significativas.
Al introducir nuevas variables, dejan de ser significativas.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 56
Regresión
Introducción. Relaciones no deterministas.
Regresion simple.
Modelo .
Estimación.
Diagnosis.
Regresion múltiple.
Gráficos de dispersión múltiples.
Estimación.
Diagnosis.
Previsiones.
Multicolinealidad.
Variables ficticias (dummy).
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 57
Estudiamos Pesos - Alturas
¿Es igual la relación para hombres que para mujeres?
Peso
Altura
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 58
Estudiamos Pesos - Alturas
¿Es igual la relación para hombres que para mujeres?
Peso
Altura Altura
Peso
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 59
Estudiamos Pesos - Alturas
Si la relación no es igual, podemos cometer errores graves:
Peso
Altura Altura
Peso
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 60
Ejemplos
Variable Y Variable X Grupo que puede influir
Peso Altura Sexo: Hombre o Mujer
Consumo de un
trabajador
Ingresos del
trabajador
Status laboral: Paro o
Empleado
Consumo de un
automóvil
Potencia Motor: Diésel o
Gasolina
Margen Ordinario
de una sucursal
bancaria
Comisiones Sucursal: Urbana o
Rural
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 61
Es necesario introducir el grupo:
Para ello:
• definiremos una variable Z que tome los siguientes valores:
Zi =0 si una observación pertenece al grupo A
Zi=1 si una observación pertenece al grupo B
• y estimaremos el siguiente modelo de regresión:
ZXy 210ˆˆˆˆ bbb =
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 62
El modelo que se estima:
ZXy 210ˆˆˆˆ bbb =
•Mujeres: Les asignamos Z=0. Por tanto:
Xy 10ˆˆˆ bb =
Xy 120ˆ)ˆˆ(ˆ bbb =
•Hombres: Les asignamos Z=1. Por tanto:
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 63
Por tanto:
Peso
Altura
Xy 10ˆˆˆ bb =
Xy 120ˆ)ˆˆ(ˆ bbb =
2b̂
El efecto es que un hombre de la misma altura pesa b2 kilos
más que una mujer de su misma altura.
¿O no?
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 64
Hagámoslo:
Dependent variable: peso
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT -77,7888 16,0908 -4,83438 0,0000
altura 0,842013 0,0905752 9,29628 0,0000
sexo -5,17748 2,20877 -2,34405 0,0208
-----------------------------------------------------------------------------
R-squared = 60,8791 percent
R-squared (adjusted for d.f.) = 60,1927 percent
Sexo=0 Hombres
Sexo=1 Mujeres
Por tanto: un hombre que mida 180 pesará= -78+0.84x180=73 kilos
..... y una mujer de la misma altura pesará=-78+0.84x180-5.17=68 kilos
La diferencia existe porque t=-2.34 que es mayor que 2 en valor absoluto
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 65
Resultado
Peso
Altura
Mujeres
Hombres
5 Kilos
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 66
Interacciones
Hemos supuesto que las rectas son paralelas.
¿Y si no lo son?
B
A
Y
X
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 67
Modelización de las interacciones
La modelización de la interacción es sencilla. Hay que
estimar un modelo de regresión entre:
· la variable Y,
· la variable X,
· la variable Z,
· la interacción de X y Z que se modeliza por el
producto (XZ). XZZXy 3210
ˆˆˆˆˆ bbbb =
Para el grupo con Z=0 Xy 10ˆˆˆ bb =
Para el grupo con Z=1 XXXy )ˆˆ()ˆˆ(ˆˆˆˆˆ31203210 bbbbbbbb ==
Por tanto, analizar si existe interacción se reduce a estimar un modelo de regresión y analizar si el parámetro es significativo (estadístico t mayor de 2) en la estimación realizada.
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 68
Ejemplo:Ventas de empresas del sector servicios en Madrid en función de su inversión en I+D
Plot of ventas vs id
0 0.5 1 1.5 2 2.5 3(X 1000)
id
0
40
80
120
160
200
240v
enta
s
Plot of log(ventas) vs log(id)
log(id)
log
(ven
tas)
3.1 4.1 5.1 6.1 7.1 8.1
2.7
3.2
3.7
4.2
4.7
5.2
5.7
LOG(VENTAS) = 1.762 0.393 Log(ID)
(t) (7.88) (10.34) R2 = 45.7 %
Grado en Ingeniería. Estadística. Tema 4Número de transparencia: 69
Queremos estudiar si hay diferencias por estar en el sector telecomunicaciones
TELECO=1 Si está en el sector teleco
TELECO=0 si no está en ese sector
LOG(VENTAS) =2.25+ 0.288 Log(ID)+0.527 TELECO
(t) (11.12) (8.08) (7.03) R2 = 61.05%
•Si la empresa funciona en el sector teleco:
Log(VENTAS)= 2.78 + 0.288 log(ID)
•Si funciona en otro sector:
Log(VENTAS) = 2.25 + 0.288 log(ID)
Estimamos la interacción:
Log(VENTAS)=1.99+0.334Log(ID)+1.80 TELECO-0.202 TELECOxLog(ID)
(t) (8.84) (8.40) (3.40) (-2.43) R2= 62.8%
•Si no está en el sector teleco
Log(VENTAS) = 1.99 + 0.334 log(ID)
•Si está en el sector teleco
Log(VENTAS) = 3.8 + 0.13 log(ID)
Ejemplo:Ventas de empresas del sector servicios en Madrid en función de su inversión en I+D