METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Análisis de Regresión LinealAnálisis de Regresión Lineal
Mª Dolores Cubiles de la Vega
Departamento de Estadística e
Mª Dolores Cubiles de la Vega
Departamento de Estadística eDepartamento de Estadística e Investigación Operativa
Universidad de Sevilla
Departamento de Estadística e Investigación Operativa
Universidad de Sevilla
1MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
El Análisis de Regresión es un conjunto de técnicasestadísticas cuyo objetivo es investigar la posible relaciónexistente entre una variable Y llamada variable dependiente o
El Análisis de Regresión es un conjunto de técnicasestadísticas cuyo objetivo es investigar la posible relaciónexistente entre una variable Y llamada variable dependiente oexistente entre una variable Y, llamada variable dependiente orespuesta, y un conjunto de p variables X1,...,Xp llamadasvariables independientes, tomando valores en R las p+1
existente entre una variable Y, llamada variable dependiente orespuesta, y un conjunto de p variables X1,...,Xp llamadasvariables independientes, tomando valores en R las p+1v b es depe d e es, o do v o es e s pvariables consideradas.v b es depe d e es, o do v o es e s pvariables consideradas.
Se aplica en numerosas áreas como la Economía, Ingeniería,Medicina, Ciencias Sociales, y en particular dentro de las
Se aplica en numerosas áreas como la Economía, Ingeniería,Medicina, Ciencias Sociales, y en particular dentro de lasTecnologías de la Información.Tecnologías de la Información.
Cuando p=1 se tiene una sola variable independiente, que sedenotará por X, hablándose en tal caso de Análisis de RegresiónSi l
Cuando p=1 se tiene una sola variable independiente, que sedenotará por X, hablándose en tal caso de Análisis de RegresiónSi lSimple.Simple.
2MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
D t d l A áli i d R ió Si l d di ti iDentro del Análisis de Regresión Simple puede distinguirse, según Cramer (1970):
Análisis de Regresión Simple I: cuyo objetivo es el de construir una función ϕ(X) que permita obtener la mejor representación posible de la variable Y, en el sentido del siguiente principio de mínimos cuadrados:
Se demuestra que la solución a este problema se obtiene para
[ ]2)(XYEMin ϕϕ
−
Se demuestra que la solución a este problema se obtiene para
[ ]xXYEx == /)(ϕllamándose curva de regresión a la curva obtenida al representar los puntos
[ ]( ){ }RxYEx X ∈/
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 3
[ ]( ){ }RxYEx xX ∈= ,/,
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Análisis de Regresión II: se restringe la búsqueda de la función ϕ(x) a una determinada clase de funcionesϕ(x) a una determinada clase de funciones Si la clase es la formada por todas las funciones lineales posibles,
Φpos b es,
{ }RxxxR ∈∀+=∈∃=Φ ,)(:,/ 1010 ββϕββϕ
se estará efectuando un Análisis de Regresión Lineal Simple.
Cuando la curva de regresión sea una recta, ésta coincidirá con la función lineal obtenida por el procedimiento de mínimos p pcuadrados.
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 4
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
El estudio de la nube de puntos, correspondiente a una muestral i i l d l i bl (X Y) d i laleatoria simple de la variable (X,Y), puede sugerir la
conveniencia de transformar alguna de estas variables, para queel Análisis de Regresión Lineal Simple proporcione un modelo loel Análisis de Regresión Lineal Simple proporcione un modelo lomás representativo posible de las nuevas variables resultantes.
La realización de un Análisis de Regresión Lineal Simple nosuele ser automática, sino que requiere un proceso iterativo en el
d id i d l t átique se pueden considerar varios modelos matemáticosalternativos. Para cada uno de estos modelos alternativos deberealizarse su diagnosis y validación proceso que consiste en larealizarse su diagnosis y validación, proceso que consiste en lacomprobación de las hipótesis asociadas, así como evaluar lacalidad de la aproximación.
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 5
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Diagrama de flujo de este proceso iterativo.g j p
C o m ie n z o
F o r m u la r u n m o d e lo
E s t im a c ió n d elo s p a r á m e t ro slo s p a r á m e t ro s
D ia g n o s is yv a l id a c ió n
¿ C o r r e c to ?N o
S í
E v a lu a r e la ju s t e
S í
N o
¿ C o r r e c to ?
S í
F in
6MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
La construcción de un modelo de aproximación mediante unAnálisis de Regresión Lineal Simple permite efectuar dos tiposAnálisis de Regresión Lineal Simple permite efectuar dos tiposde análisis:
Análisis de Predicción, donde a partir del descubrimiento deasociaciones, y la habilidad para expresar tales asociaciones enuna forma matemática precisa, se pueden obtener prediccionesde un valor no observable de la variable Y a partir del valor de lavariable Xvariable X.
Análisis de Correlación, cuyo objetivo es caracterizar la, y jforma de la asociación existente, así como medir su fuerza ointensidad.
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 7
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
El ét d d í i d d di i t l tEl método de mínimos cuadrados, procedimiento usualmenteempleado para estimar los parámetros en los modelos deregresión fue propuesto independientemente por Carl Friedrichregresión, fue propuesto independientemente por Carl FriedrichGauss en Alemania, sobre 1795 y por Adrien Marie Legendre enFrancia, sobre 1805.
Las primeras aplicaciones del método se hicieron enastronomía y geodesia.
L i bli ió l i d t tLa primera publicación relacionada con este tema aparece en1805 en un apéndice del libro de Legendre que trata sobre ladeterminación de las órbitas de los planetas describiendo eldeterminación de las órbitas de los planetas, describiendo elmétodo de mínimos cuadrados como un procedimientoalgebraico (no probabilístico) para ajustar una ecuación lineal alos datos.
Posteriormente, entre 1809 y 1828, Gauss y Laplace dieronl f d t b bilí ti d t ét d
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 8
los fundamentos probabilísticos de este método.
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Modelo de RegresiónModelo de Regresión Lineal Simplep
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 9
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Se considera el modelo de Regresión Lineal Simplepoblacional siguiente:
Y = β0 + β1X + ε
Donde Y denota la variable dependiente (también llamadarespuesta), X es la variable independiente (también llamadarespuesta), X es la variable independiente (también llamadapredictora), ε representa una perturbación aleatoria o errorcuya presencia representa la no existencia de una relaciónexacta, y β0, β1 son coeficientes ó parámetros desconocidos.
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 10
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
En este modelo teórico se suponen las siguientescondiciones:
a) E[ε]=0.b) V[ ] E[ 2] 2b) V[ε]=E[ε2]=σ2.c) Cov(ε,X)=0.
Para estimar los parámetros y estudiar la validez del modelo,se dispondrá de una muestra aleatoria simple (X1,Y1),...,(X Y ) S t d á t t l i i t d l d R ió(Xn,Yn). Se tendrá por tanto el siguiente modelo de RegresiónLineal Simple Muestral:
Yi = β0 + β1Xi + εi i=1,...,n
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 11
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
El método más empleado de estimación de los parámetros, es elde mínimos cuadrados. Supondremos conocida una realización(x y ) (x y )(x1, y1),...,(xn, yn).
Definición 1. Dado el par (xi,yi), y dados β0, β1, se define laefinición . ado e pa (xi,yi), y dados β0, β1, se de e apredicción de mediante
ixXY =/ ii xy 10ˆ ββ +=
Definición 2. Se define el error de predicción o residuo para la observación i-ésima como
iii yye ˆ−=
El objetivo del método de mínimos cuadrados consiste en minimizar la suma de los cuadrados de los residuos.
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 12
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Definición 3. Se definen los estimadores mínimo-cuadráticosde los parámetros β0, β1 como aquellos estimadores quep β0, β1 q qminimizan la suma de los residuos cuadráticos.
d l l i i blSe tratará por tanto de resolver el siguiente problema:
∑∑ =
nn
xyMineMin 22 )( ββ
PROPOSICIÓN 1. Supuesto que , los estimadores
∑∑==
−−=i
iii
i xyMineMin1
10,1,
)(1010
ββββββ
02 ≠xSp q ,mínimo cuadráticos de los parámetros β0, β1 vienen dados por las siguientes expresiones:
x
xy ˆˆ ββ −= xy 10 ββ =
21ˆ xy
S
S=β
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 13
21
xSβ
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Intervalos de Confianza.Se van a construir mediante el método de la cantidad pivotal.
ˆˆ
Para β0:
)ˆ(ˆ02/1,20 ββ α EStn −−m
Para β :
)ˆ(ˆ12/1,21 ββ α EStn −−m
Para β1:
⎟⎞
⎜⎛ −− 22 ˆ)2(ˆ)2( σσ nn
Para σ2:
⎟⎟⎠
⎜⎜⎝ −−−
22/,2
22/1,2
)2(,
)2(
αα χσ
χσ
nn
nn
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 14
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
⎨⎧ = 0: 00 βH
Contrastes de Hipótesis.Para β0:
⎩⎨ ≠ 0: 01 βH
β̂El estadístico a utilizar es:
)ˆ( 0
0
ββ
EST =
B j H T l l ió í iBajo H0, T~tn-2, por lo que la región crítica para un contraste con nivel de significación α es:
2/1,2 α−−> ntT
El p-valor o probabilidad de observar una desviación de la hipótesisEl p-valor, o probabilidad de observar una desviación de la hipótesisnula igual o mayor a una desviación observada T0 es:
{ }TtPp >=
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 15
{ }02 TtPp n >= −
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Análogamente se tiene el siguiente contraste para β1:
⎨⎧ = 0: 10 βH
⎩⎨⎧
≠ 0: 11
10
ββ
H
El estadístico a utilizar es:El estadístico a utilizar es:
)ˆ(
ˆ
1
1
ββ
EST =
Bajo H0, T~tn-2, por lo que la región crítica para un contraste connivel de significación α es:
2/1,2 α−−> ntT
Similarmente al caso anterior, el p-valor viene dado por:
{ }02 TtPp >=
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 16
{ }02 TtPp n >= −
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
La tabla de análisis de la varianza (tabla ANOVA) donde seLa tabla de análisis de la varianza (tabla ANOVA), donde sedescompone la suma de cuadrados total de la variable dependiente Ysegún las fuentes de variación. La estructura de esta tabla es la
Fuente de Sumas de Grados de Cuadrados Estadístico
gsiguiente:
Fuente de
Variación
Sumas de
Cuadrados
Grados de
Libertad
Cuadrados
Medios
Estadístico
F
Regresión 1∑=
−=n
iiR yySC
1
2)ˆ(
1R
R
SCCM =
E
R
CM
CMF =
n
Error n-2
Total n-1
∑=
−=n
iiiE yySC
1
2)ˆ(
2−=
n
SCCM E
E
∑ −=n
iT yySC 2)(=i 1
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 17
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Coeficiente de DeterminaciónCoeficiente de Determinación.A partir de la tabla del análisis de la varianza se puede calcular unamedida de la bondad del ajuste proporcionado por el modelo dej p p pregresión lineal simple.
ÓDEFINICIÓN. Se define el coeficiente de determinación R2 comola proporción, respecto a la variación total observada de Y,explicada por el modelo de regresión lineal:explicada por el modelo de regresión lineal:
ER
SC
SC
SC
SCR −== 12
TT SCSC
R2 carece de unidad de medida, por lo que permite comparar rectasd ió l l d i bl di ti t E lde regresión calculadas con variables distintas. En general,mientras más próximo a 1 esté el coeficiente de determinación,cabe esperar un mejor ajuste de la recta de mínimos cuadrados a la
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 18
cabe esperar un mejor ajuste de la recta de mínimos cuadrados a lanube de puntos.
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Sin embargo, la utilización exclusiva del coeficiente R2 comomedida de la bondad del ajuste puede conducir ocasionalmente ainterpretaciones erróneas sobre la relación entre las variables X e Yinterpretaciones erróneas sobre la relación entre las variables X e Y,por lo que debe examinarse siempre la nube de puntos, ya que R2
puede ser grande aunque X e Y no estén relacionadas linealmente.puede se g de u que e o es é e c o d s e e e.Así, las siguientes gráficas, presentan dos nubes de puntos, extraídasde Anscombe (1973), ambas con R2=0.6856, pero con relaciones denaturaleza muy distintas.
11
10
10
Y
10
9
8
7Y
9
8
7
6
161412108642
6
5
4
161412108642
6
5
4
3
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 19
X
161412108642
X
161412108642
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Obtención de predicciones.
P di ió t l
.
Predicción puntualUna de las principales aplicaciones de cualquier ajustefuncional es la de predecir valores de la variable dependiente
0/ xXY =
funcional es la de predecir valores de la variable dependientepara un determinado valor X=x0. En el modelo de RegresiónLineal Simple, una predicción puntual para el valor de
0100ˆˆˆ xy ββ +=
i d dviene dada por
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 20
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
.
Estimaciones por intervalos: Intervalos de Confianzaun intervalo de confianza al 100(1-α)% para [ ]/YEun intervalo de confianza al 100(1 α)% para [ ]
0/ xXYE =
20 )(1 xx −
20
2/1,20
)(1ˆˆ
x
nnS
xx
nty +−− σαm
Estimaciones por intervalos : Intervalos de predicciónun intervalo de confianza al 100(1-α)% para / XYu e va o de co a a a 00( α)% pa a
0/ xXY =
20 )(1
1ˆˆxx
ty−
++σm22/1,20 1x
n nSnty ++−− σαm
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 21
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
A áli i d C l ióAnálisis de CorrelaciónEl coeficiente de correlación lineal ρ entre las variables X e Yviene dado por 12σviene dado por
21
12
σσσ
ρ =
Este coeficiente toma valores en el intervalo [-1 1] siendoEste coeficiente toma valores en el intervalo [ 1,1] siendouna medida de la intensidad y el signo de la relación linealentre las dos variables.La estimación de máxima verosimilitud de ρ es:
( )( )∑ −−n
ii YYXX
( ) ( )∑∑==
=
−−==
n
ii
n
ii
i
YYXX
r
1
2
1
2
1ρ̂
Por tanto la estimación de máxima verosimilitud delcoeficiente de correlación lineal poblacional coincide con el
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 22
coeficiente de correlación lineal muestral r.
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Modelo de Regresión LinealModelo de Regresión Lineal Múltiplep
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 23
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Modelo Teórico
En primer lugar planteamos desde el punto de vista teóricop e uga p a ea os desde e pu o de v s a eó coel modelo poblacional:
El modelo que nos permite realizar una predicción se
0 1 1 .p pY X Xβ β β ε= + + + +L
El modelo que nos permite realizar una predicción seobtiene a partir de la estimación de los parámetros queaparecen, es decir, de los coeficientes.
pp XXY βββ)))
+++= ...110*
pp XXY βββ +++ ...110
24MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Modelo TeóricoModelo Teórico
Para realizar la estimación de los coeficientes, es necesarioconsiderar una muestra de la población a la que se le medirála variable objetivo o dependiente, yi y las variablesexplicativasexplicativas.
Una vez obtenidos estos datos, se pueden definir los residuoscomo la diferencia entre el valor observado de la variablecomo la diferencia entre el valor observado de la variableobjetivo y el valor que se predeciría con el modelo propuesto.
25MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
El modelo de regresión se estima minimizando el errorcuadrático medio (ECM), es decir, la media de los erroresl d d S b l fi i t t l
( )21i i
n
ECM β β β∑
al cuadrado. Se buscan los coeficientes tales que
( )
( )0 1
0 1 1, , ,
1
22
1min min
1 1
pi i p ip
i
n n
ECM y x xn
e y x x
β β ββ β β
β β β
=
= − − − − =∑
∑ ∑
KL
( )10 11 1
.i i i ippi i
e y x xn n
β β β= =
= = − − − −∑ ∑ L
26MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Los supuestos que se deben verificar en este modelo son:
Variables cuantitativas tanto la objetivo como lasVariables cuantitativas, tanto la objetivo como lasexplicativas.
Para cada valor de la variable o variables explicativas, lac d v o de v b e o v b es e p c v s,distribución de la variable objetivo debe ser normal. Al serdifícil de comprobar esta hipótesis se sustituye por que losresiduos deben poseer una distribución normal de media 0 yvarianza constante.
La varianza de la distribución de la variable explicativaLa varianza de la distribución de la variable explicativadebe ser la misma para todos los valores de la variableobjetivo.j
Relación lineal entre las variables explicativas y laobjetivo.
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 27
Observaciones independientes.
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Caso práctico (SPSS)
• Los datos del fichero “arboles.sav” proporcionan elvolumen (pies cúbicos), altura (pies) y diámetro( l d ) d d 31 á b l d l i(pulgadas) de una muestra de 31 árboles del tipo cerezonegro, en Pensilvania.
• Objetivo realizar un estudio sobre el rendimiento de la• Objetivo: realizar un estudio sobre el rendimiento de lamadera, para ello, se ajusta un modelo de regresiónlineal que permita predecir el volumen de un árbollineal que permita predecir el volumen de un árbolcuando se conoce su altura y diámetro.
28MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Analizar + Regresión + Lineales
29MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Variable dependiente: volumenVariables independientes : altura y diámetro
30MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Variable dependiente: volumenVariables independientes : altura y diámetro
Se puede también en el cuadro de diálogo:
i bl i d di bl ifi di iAgrupar variables independientes en bloques y especificar distintosmétodos de entrada para diferentes subconjuntos de variables.
Elegir una variable de selección para limitar el análisis a un subconjuntode casos que tengan valores particulares para esta variable.
Seleccionar una variable de identificación de casos para identificar lospuntos en los diagramas.p g
31MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Opción Estadísticos: p
32MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
A áli i d l R lt dAnálisis de los Resultados
33MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Coeficiente de determinación R2, se define como la proporción, respecto a
la variación total observada de Y, explicada por el modelo de regresiónlineal:
ER SCSC
R 12
T
E
T
R
SCSCR −== 1
El modelo ajustado explica el 94,8% dela variabilidad.
34MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Tabla de Análisis de la Varianza.Para el análisis de los resultados obtenidos en el ajuste de un modelo de regresiónlineal suele construirse la tabla de análisis de la varianza (tabla ANOVA), donde sedescompone la suma de cuadrados total de la variable dependiente Y según lasfuentes de variación. La estructura de esta tabla desde el punto de vista teórico es lasiguiente:
Fuente de
Variación
Sumas deCuadrados
Grados de
Libertad
Cuadrados
Medios
Estadístico
F
Regresión
p
∑=
−=n
iiR yySC
1
2)ˆ(
p
SCCM R
R = R
C
CMF =
Error
n-p-1
∑=
−=n
iiiE yySC
1
2)ˆ(
p
1−−=
pn
SCCM E
E
ECM
Total
n-1
i 1
∑=
−=n
iiT yySC
1
2)(
1pn
i 1
35MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
El resultado de esta tabla obtenido para el ejemplo que estamosutilizando corresponde a la siguiente:
⎧ == 0:H ββ
Contraste Fundamental
⎩⎨⎧
≠==
0lg:
0:
1
210
iúnaH
H
βββ
F = 254,972 y el p-valor = 0,000 nos indica que el conjunto formado por las variablesindependientes están relacionadas linealmente con la variable dependiente volumen.
36MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Estimación de los coeficientesEstimación de los coeficientes
La estimación de los coeficientes del modelo de regresión a partir de la tabla anterior nos daría el modelo estimado:
Volumen = ‐57,988 + 4,708 diámetro + 0,339 altura
37MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Intervalos de ConfianzaSe pueden construir mediante el método de la cantidad pivotal, losintervalos de confianza para los coeficientes:intervalos de confianza para los coeficientes:
)ˆ(ˆ2/1,1 ipni ESt ββ α−−−±
⎟⎟⎠
⎞⎜⎜⎝
⎛ −−−−2
2/1
2
22/11
2 ˆ)1(,
ˆ)1(
αα χσ
χσ
pnpn
pnpnVarianza:
Aplicando estos intervalos a los datos de nuestro ejemplo, obtenemos lossiguientes resultados:
⎠⎝ −−−−− 2/,12/1,1 αα χχ pnpn
gIC (β0) al 95% = (-75,682, -40,293)IC (β1) al 95% = (4,167, 5,249)IC (β2) al 95% = (0,073, 0,606)IC (β2) al 95% (0,073, 0,606)
Para σ2 tendríamos que calcularlo, utilizando la SCE que tenemos en latabla ANOVA, obteniendo:
IC(σ2) al 95% = (10,1930, 24,939)
38MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
C t t d Hi ót isContrastes de Hipótesis
⎩⎨⎧
≠=
0:
0:
1
0
i
i
H
H
ββ
ˆ
)ˆ( i
i
EST
ββ
=Estadístico
Bajo H T~t por lo que la región crítica para un contraste con
2/11> tT
Bajo H0, T~tn-p-1, por lo que la región crítica para un contraste con nivel de significación α es:
2/1,1 α−−−> pntT
{ }01 TtPp pn >=
p-valor viene dado por:
{ }01p pn −−
En nuestro ejemplo el p-valor correspondiente a este coeficiente es 0.000,con lo cual podemos decir que la variable diámetro está relacionadalinealmente con la variable volumenlinealmente con la variable volumen.De la misma forma se plantea el contraste para el coeficiente β2, de formaque el p-valor obtenido en la tabla del SPSS corresponde a 0.014 con lo quepodemos afirmar que la variable altura está relacionada linealmente con lapodemos afirmar que la variable altura está relacionada linealmente con lavariable volumen.
39MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Diagnosis y Validación del Modelo de RegresiónDiagnosis y Validación del Modelo de Regresión
lid ió d l hi ó ilid ió d l hi ó iValidación de las hipótesis
Linealidad
Validación de las hipótesis
Linealidad
Homocedasticidad
Normalidad
Homocedasticidad
NormalidadNormalidad
Estudio de la calidad de las observaciones
Normalidad
Estudio de la calidad de las observaciones
40MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Para comprobar que se verifican las hipótesis del modelo nos basamosl di d l id U áli i id d d l iden el estudio de los residuos. Un análisis cuidadoso de los residuos
puede informarnos sobre el cumplimiento de los mismos. En algunoscasos usaremos análisis gráficos y en otros numéricos.
ResiduosSe definen como las diferencias entre los valoresSe definen como las diferencias entre los valorescalculados por el modelo y los realmente observados en lavariable dependientep
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 41
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Ti d R idTipos de Residuos
• Residuo (No tipificado) : diferencia entre el valor observado y el valor pronosticado por el modelopronosticado por el modelo.
iiiii xyyye 10ˆˆˆ ββ −−=−=
• Residuo Tipificado : el residuo dividido por una estimación de su error típico. (También conocidos como residuos de Pearson) Tienen media 0 y desviación típica 1. e
• Residuo eliminado estudentizado : Residuo para un caso cuando ese
ii
ii
h
er
−=
1σ̂
Residuo eliminado estudentizado : Residuo para un caso cuando ese caso se excluye del cálculo de los coeficientes, dividido por su error típico.
ie
iii
ii
ht
−=
1ˆ )(σ
42MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
i lid d h d i id dLinealidad y homocedasticidad
Las gráficas de los residuos (ei, ri ó ti) frente a laspredicciones son muy útiles para identificar posiblesviolaciones de las hipótesis iniciales en cuanto a lalinealidad y la homogeneidad de las varianzas.
La interpretación a partir de la nube de puntos obtenidadebe ser simétrica respecto al eje horizontal (para verificarp j (pla linealidad de la relación) y de anchura constante (paraconfirmar la homogeneidad de las varianzas).
43MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Ej lEjemplos
( )3
(a)
ti
2
1
3
2
1
tti0
-1
0
-1
ti
1086420
-2
-32,01,51,0,50,0-,5-1,0-1,5-2,0
-2
-3
-4
1086420
Predicciones Predicciones
,,,,,,,,,
(a) Comportamiento satisfactorio(b) La varianza crece con la magnitud de las predicciones
44MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
2 3,0
1
0ti
2,5
2,0
1,5ti
-1
2
1,0
,5
0,0
Predicciones
2,01,51,0,50,0-,5-1,0-1,5-2,0
-2
-3
Predicciones
2,01,51,0,50,0-,5-1,0-1,5-2,0
-,5
-1,0
(c )La varianza crece con la magnitud de las predicciones y además se b f l d li lid d
Predicciones Predicciones
observa falta de linealidad
(d) Ausencia de linealidad
45MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
di d l lid dEstudio de la Normalidad
El estudio de la hipótesis de normalidad se basa en elEl estudio de la hipótesis de normalidad se basa en el análisis de la normalidad de los residuos.
Gráficos de probabilidad normal.
Histograma de los residuos tipificados con la curvaHistograma de los residuos tipificados con la curva normal superpuesta.
Métodos numéricos: Test Shapiro-Wilkp
46MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Gráfico de probabilidad NormalGráfico de probabilidad Normal
Se ordenan los residuos tipificados ri de menor aSe ordenan los residuos tipificados, ri, de menor a mayor
)()2()1( ... nrrr <<<
En el gráfico de probabilidad normal se representan los valores
)()()(
n
iPi
)2/1(−=
frente a F(ri), para i=1,2,...,n, siendo F la función de
distribución de la ley N(0,1).distribución de la ley N(0,1).
47MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Continuamos con el ejemplo “arboles”, representamos las gráficas con los residuos. Opciones: Gráficos
Residuos: ti o ri
Predicciones (pronósticosTipificados)Tipificados)
ZRESID: residuos tipificados (r)
48MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
S es duos t p cados ( )SDRESID: residuos eliminados estudentizados (t)
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Opciones: GuardarEsta opción va a generar nuevas variables en el editor de datos
ResiduosPredicciones
49MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Hi t d l id ti ifi d l tHistograma de los residuos tipificados con una curva normal superpuesta
50MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Gráfico de probabilidad Normal: en el eje de abcisas está representada laGráfico de probabilidad Normal: en el eje de abcisas está representada laprobabilidad acumulada de los residuos y en el de ordenada la prob. acumulada
teórica de una normal con media 0 y desviación típica 1.
51MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Métodos Numéricos : Test de Shapiro‐Wilk(Analizar + Estadísticos Descriptivos + Explorar + Gráficos con pruebas de Normalidad)(Analizar + Estadísticos Descriptivos + Explorar + Gráficos con pruebas de Normalidad)
P‐valor =0.644 no existen evidenciassignificativas para rechazar la hipótesissignificativas para rechazar la hipótesis de normalidadResiduo estandarizado (ri)
52MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Diagrama de dispersión (Residuos)Validación hipótesis de linealidad y homocedasticidad
53MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Estudio de la calidad de los datos:Estudio de la calidad de los datos:Observación Outlier e Influencia
Los casos con residuos grandes deben ser cuidadosamenteexaminados para averiguar si las puntuaciones asignadasson o no correctas o si difieren de algún modo del resto delos casos.
Se llamará observación outlier a toda observación que sedesvía marcadamente de las demás respecto del modelo deregresión lineal ajustadoregresión lineal ajustado.
Se denominará observación influencia a toda observacióncuya omisión del conjunto de datos produce cambioscuya omisión del conjunto de datos produce cambiossensibles en los resultados obtenidos.
54MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Identificación mediante gráficos de observaciones outlier e influencia
Uno de los métodos más elementales consiste enrepresentar de manera simultánea la recta estimada pormínimos cuadrados y la nube de puntos de los valoresmínimos cuadrados y la nube de puntos de los valores{(xi,yi), i=1,2,...,n}.
55MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
EjemplosEjemplos• El punto A es atípico respecto a los valores de X, pero no
respecto al modelo de regresión lineal, ya que el valorobservado de Y está próximo al punto estimado por la rectaconstruida sin considerar este puntoconstruida sin considerar este punto.
a 20
18
15
13
A
*
Y 10
8
5
1614121086420
5
3
0
X
56MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
• El punto B es atípico para la variable X y para la variable Y, y es también una observación influencia puesto que la rectaes también una observación influencia, puesto que la recta estimada sin él difiere de manera apreciable de la recta construida con todos los datos.
30
B
20
Y 10
0
1614121086420
0
-10
X
1614121086420
57MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
• La observación C es atípica respecto a Y, e influye en el cálculo de la recta de mínimos cuadrados En este caso elcálculo de la recta de mínimos cuadrados. En este caso el punto C no es atípico para la variable X.
1414
12
10
C
Y
10
8
6
4
1086420
2
0
X
58MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Método de identificación de observaciones outliersMétodo de identificación de observaciones outliers
Utilizando los residuos eliminados estudentizados, ti
)2/(1,1 npni tt α−−−>
Aplicando al ejemplo, calculamos el valor
)(,p
p j p
mediante Transformar + calcular+ función Gl inversos+ IDF.t
0484,2975.0,28 =t
f f
Observando la columna de los residuos vemos que laobservación 31 toma un valor 2.7656 > 2.0484, luego sepuede considerar observación outlier mediante estecriterio.
59MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Método de identificación de observaciones influenciaUtilizando el estadístico Di de Cook definido
( )2
)(2ˆˆ
ˆ2
1 ∑ −=n
jiji yyDσ 12 =jσ
> 11i FD
Aplicando al ejemplo, calculamos el valor mediante
α−−−> 1,1, pnpi FD
Transformar + calcular+ función Gl inversos+ IDF.F y
observando la columna del estadístico Di , podemos decirque no existen observaciones influencias.
60MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Finalizada esta etapa, podríamos preguntarnos si:
b l d l d ió j t d ?•¿es bueno el modelo de regresión ajustado?•¿se puede mejorar este modelo?
La respuesta con los datos desarrollados sería que la bondad de ajuste delmodelo de regresión es adecuada (observando el valor de R), sin embargo elcomportamiento de los residuos en las gráficas obtenidas no es del todop gadecuada para verificar la hipótesis de linealidad, junto a la existencia de unvalor atípico (observación 31).
Solución para posibles mejoras del modelo:• ajustar un modelo de regresión introduciendo un término cuadráticopara una de las variables independientes (diámetro altura)para una de las variables independientes (diámetro, altura).• filtrar la existencia de posibles valores atípicos.
61MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Propuesta 1.‐ Se introduce en el modelo la variable diámetro al cuadrado.Variable dependiente volumenVariable dependiente: volumenVariables independientes: altura, diametro2
Análisis de los Resultados
Resumen del modelo bResumen del modelo b
,986a ,973 ,971 2,7995Modelo1
R R cuadradoR cuadradocorregida
Error típ. de laestimación
Variables predictoras: (Constante), diametro2, alturaa.
Variable dependiente: volumenb.
Ecuación de Regresión:
Volumen = ‐27.512 + 0.349 altura + 0.168 diametro2
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 62
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Validación hipótesis con los residuosValidación hipótesis con los residuos
Pruebas de normalidad
Kolmogorov-Smirnova
Shapiro-Wilk
,116 31 ,200* ,955 31 ,212StudentizedDeleted Residual
Estadístico gl Sig. Estadístico gl Sig.
g p
Este es un límite inferior de la significación verdadera.*.
p‐valor
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 63
Corrección de la significación de Lillieforsa.
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Propuesta 2.‐ Se introduce en el modelo la variable altura al cuadrado.Variable dependiente volumenVariable dependiente: volumenVariables independientes: altura2, diametro
Análisis de los Resultados
bResumen del modelo b
,974a ,949 ,945 3,8468Modelo1
R R cuadradoR cuadradocorregida
Error típ. de laestimación
Ecuación de Regresión:
Variables predictoras: (Constante), diámetro, altura2a.
Variable dependiente: volumenb.
Volumen = ‐45.675 + 0.002 altura2 + 4.694 diametro
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 64
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Validación hipótesis iniciales
Pruebas de normalidad
E t dí ti l Si E t dí ti l Si
Kolmogorov-Smirnova
Shapiro-Wilk
,104 31 ,200* ,978 31 ,769StudentizedDeleted Residual
Estadístico gl Sig. Estadístico gl Sig.
Este es un límite inferior de la significación verdadera.*.
Corrección de lasignificacióndeLillieforsa.
p‐valor
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 65
Corrección de la significación de Lillieforsa.
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Propuesta 3.‐ Filtramos la observación 31 (outlier)Variable dependiente volumenVariable dependiente: volumenVariables independientes: altura, diametro
Análisis de los Resultados
Resumen del modelo bResumen del modelo
,971a ,944 ,940 3,4896Modelo1
R R cuadradoR cuadradocorregida
Error típ. de laestimación
Variables predictoras: (Constante) altura diámetroa
Ecuación de Regresión:
Variables predictoras: (Constante), altura, diámetroa.
Variable dependiente: volumenb.
Volumen = ‐52.236 + 0.299 altura + 4.477 diametro
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 66
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Diagrama de dispersión (validación hipótesis iniciales)
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 67
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Test de Shapiro‐Wilk (validación hipótesis de normalidad )
Pruebas de normalidad
StudentizedEstadístico gl Sig. Estadístico gl Sig.
Kolmogorov-Smirnova
Shapiro-Wilk
,118 30 ,200* ,962 30 ,353StudentizedDeleted Residual
Este es un límite inferior de la significación verdadera.*.
Corrección de la significación de Lillieforsa.
Analizadas todas las propuestas posibles, se selecciona la más adecuada que podríap p p , q pser cualquiera de las tres mirando la bondad del ajuste. En cuanto a la validaciónde las hipótesis iniciales observamos que el gráfico de dispersión de la propuesta 1valida de forma más clara las hipótesis de linealidad y homocedasticidad.
MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 68
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Obtención de PrediccionesObtención de Predicciones
Una de las principales aplicaciones de cualquier ajustep p p q jfuncional es la de predecir valores de la variabledependiente para un determinado valor X=x0.0
En el modelo de Regresión Lineal, una predicciónpuntual para el valor de , viene dada porp p p
Intervalos de predicción: estimaciones por intervalos
pp xxy βββ ˆ...ˆˆˆ 1100 +++=
Intervalos de predicción: estimaciones por intervalospara
Intervalos de confianza: estimaciones por intervalos0
/ xXY =
Intervalos de confianza: estimaciones por intervalos para [ ]
0/ xXYE =
69MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Estos resultados en SPSS se obtienen indicando en el menú de Guardar los Valorespronosticados no tipificados como predicción puntual los intervalos de pronósticosseñalando las dos opciones posibles que corresponden a los intervalos de confianza(media) y los intervalos de predicción (individuos) como se muestran en la(media) y los intervalos de predicción (individuos) como se muestran en lasiguiente pantalla:
Predicción puntual
Predicción Por intervalos
70MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Siguiendo con nuestro ejemplo vamos a calcular el volumen medioestimado así como los intervalos de confianza y predicción de los árboles deestimado así como los intervalos de confianza y predicción de los árboles dediámetro 21 y altura 82. Para ello añadimos estos datos en el editor de datosy volvemos a realizar el ajuste de la regresión teniendo en cuenta las
i i di d l á f t i t l t llopciones indicadas en el párrafo anterior, como se muestra en la pantalla.
Nota: Nos quedamos con la propuesta1 por tanto utilizamos la variablediametro2, luego el valor a introducir es diametro2=441Los resultados obtenidos para el modelo inicial:
• Predicción puntual del volumen de 75.3805• Intervalo de confianza para la media (72.1314;78.6297)p ( ; )• Intervalo de predicción para los individuos(68.7896;81.9715).
71MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Representamos el gráfico de dispersión junto a la ecuación de regresiónajustada y los intervalos de confianza y de predicción obteniendo el siguientegráfico:g
72MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Técnicas de selección de variables
En muchas situaciones se dispone de un conjunto grandep j gde variables independientes, nos podemos plantear si todaslas variables son necesarias para realizar el modelo de
ió ó d b j dregresión ó podemos tomar un subconjunto de esasvariables.
La colinealidad o multicolinealidad es una situación nodeseable en la que las variables independientes es unadeseable en la que las variables independientes es unafunción lineal de otras variables independientes, esto haceque los parámetros del modelo sean muy inestables, conq p y ,varianzas muy grandes.
73MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Técnicas de selección de variablesTécnicas de selección de variables
Para solucionar el problema planteado existen diferentesPara solucionar el problema planteado existen diferentesprocedimientos estadísticos: (SPSS)
Introducir
EliminarEliminar
Hacia delante
Hacia atrásHacia atrás
Pasos sucesivos
74MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Introducir : procedimiento para la selección de variables enel que todas las variables de un bloque se introducen en unel que todas las variables de un bloque se introducen en unsolo paso.
Eliminar: Procedimiento para la selección de variables enpel que las variables de un bloque se eliminan en un solopaso.
Hacia delante: las variables se introducen secuencialmente
en el modelo. La primera variable para entrar será la quetenga mayor correlación (valor absoluto) con la variabledependiente y además debe cumplir un criterio deentrada De forma sucesiva irán entrado el resto daentrada. De forma sucesiva irán entrado el resto davariables. El criterio termina cuando ya no quedanvariables que satisfagan el criterio de entrada.q g
75MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Hacia atrás: se introducen todas las variables en la
ecuación y después se van excluyendo una tras otra.Aquella variable que tenga la menor correlación parcial conla variable dependiente será la primera en ser consideradapara su exclusión. Si satisface el criterio de exclusión seráeliminada El procedimiento termina cuando ya no quedaneliminada. El procedimiento termina cuando ya no quedanen la ecuación variables que satisfagan el criterio deexclusión.
76MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
P i E d i t d l i blPasos sucesivos: En cada paso se introduce la variableindependiente que no se encuentre ya en la ecuación yque tenga la probabilidad para F más pequeña si esaque tenga la probabilidad para F más pequeña, si esaprobabilidad es suficientemente pequeña. Las variables yaintroducidas en la ecuación de regresión se eliminan deella si su probabilidad para F llega a ser suficientementegrande. El método termina cuando ya no haya más
i bl did t i l id li i dvariables candidatas a ser incluidas o eliminadas.
77MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Fichero: Airepolu.savVariables explicativas: Cantidad de lluvia registrada (lluvia), nivel deeducación (educa) densidad de población (densidad) porcentaje de etniaseducación (educa), densidad de población (densidad), porcentaje de etniasminoritarias (pormin), nivel de contaminación por nitrógeno (nox), nivel decontaminación por azufre (so2), logaritmo neperiano del nivel de
t i ió it ó (l ) l it i d l i l dcontaminación por nitrógeno (lnox) y logaritmo neperiano del nivel decontaminación por azufre (lnso2).Variable objetivo: Tasa de mortalidad (tasamor).
Objetivos: Estudiar los factores socio-culturales que influyen en la tasa demortalidad de los estados.
78MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Método Paso a Paso(Pasos Sucesivos)
En la entrada de datos añadimos el método de pasos sucesivos, con objeto deseleccionar las variables independientes que deben entrar en el modelo deseleccionar las variables independientes que deben entrar en el modelo deregresión.
79MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
R d l A áli i d R lt d
Variables introducidas/eliminadasa
Resumen del Análisis de Resultados
PORMIN ,Por pasos (criterio: Prob. de F paraentrar <= ,050, Prob. de F para salir >=,100).
Modelo1
Variablesintroducidas
Variableseliminadas Método
EDUCA ,Por pasos (criterio: Prob. de F paraentrar <= ,050, Prob. de F para salir >=,100).
LNSO2 ,Por pasos (criterio: Prob. de F paraentrar <= ,050, Prob. de F para salir >=100)
2
3
,100).
LLUVIA ,Por pasos (criterio: Prob. de F paraentrar <= ,050, Prob. de F para salir >=,100).
4
Variable dependiente: TASAMORa.
Esta tabla nos indica que el algoritmo de pasos sucesivos ha realizado 4 iteracionesen la primera entra la variable pormin y no sale ninguna variable en las siguientesen la primera entra la variable pormin y no sale ninguna variable, en las siguientesetapas van entrando las variables educa, lnso2 y lluvia respectivamente pero no saleninguna de las variables que están dentro.
80MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Variables excluidas eVariables excluidas e
294a 2 815 007 349 829LLUVIAModelo1
Beta dentro t Sig.Correlación
parcial Tolerancia
Estadísticosde
colinealidad
,294 2,815 ,007 ,349 ,829
-,393a -4,385 ,000 -,502 ,956
,270a 2,841 ,006 ,352 1,000
-,089a -,888 ,378 -,117 1,000
,332a 3,576 ,001 ,428 ,975
,371a 4,172 ,000 ,484 ,997
LLUVIA
EDUCA
DENSIDAD
NOX
SO2
LNSO2
1
, , , , ,
,176a 1,752 ,085 ,226 ,964
,129b 1,194 ,238 ,158 ,658
,187b 2,135 ,037 ,274 ,941
,000b ,004 ,997 ,001 ,945
,262b 3,098 ,003 ,382 ,932
LNOX
LLUVIA
DENSIDAD
NOX
SO2
2
,292b 3,535 ,001 ,427 ,934
,200b 2,326 ,024 ,297 ,961
,264c 2,681 ,010 ,340 ,593
,074c ,804 ,425 ,108 ,761
-,159c -1,772 ,082 -,232 ,760
LNSO2
LNOX
LLUVIA
DENSIDAD
NOX
3
,092c ,713 ,479 ,096 ,387
-,061c -,469 ,641 -,063 ,378
,073d ,831 ,410 ,112 ,761
-,073d -,750 ,457 -,102 ,620
,142d 1,159 ,252 ,156 ,379
127d 901 372 122 291
SO2
LNOX
DENSIDAD
NOX
SO2
LNOX
4
,127d ,901 ,372 ,122 ,291LNOX
Variables predictoras en el modelo: (Constante), PORMINa.
Variables predictoras en el modelo: (Constante), PORMIN, EDUCAb.
Variables predictoras en el modelo: (Constante), PORMIN, EDUCA, LNSO2c.
Variables predictoras en el modelo: (Constante), PORMIN, EDUCA, LNSO2, LLUVIAd. p ( )
Variable dependiente: TASAMORe.
81MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Resumen del modelo
,644a ,414 ,404 48,02638
,750b ,562 ,547 41,89180
,801c ,642 ,623 38,21409
Modelo1
2
3
R R cuadradoR cuadradocorregida
Error típ. de laestimación
R2=0,683,801 ,642 ,623 38,21409
,827d ,683 ,660 36,26387
3
4
Variables predictoras: (Constante), PORMINa.
Variables predictoras: (Constante), PORMIN, EDUCAb.
Variables predictoras: (Constante), PORMIN, EDUCA,LNSO2
c.
Variables predictoras: (Constante), PORMIN, EDUCA,LNSO2, LLUVIA
d.
ANOVAe
Contraste fundamental ANOVA
94573,849 1 94573,849 41,003 ,000a
133778,921 58 2306,533
228352,770 59
128322,141 2 64161,070 36,561 ,000b
Regresión
Residual
Total
Regresión
Modelo1
2
Suma decuadrados gl
Mediacuadrática F Sig.
100030,629 57 1754,923
228352,770 59
146575,044 3 48858,348 33,457 ,000c
81777,726 56 1460,317
228352,770 59
156024,026 4 39006,007 29,661 ,000d
Residual
Total
Regresión
Residual
Total
Regresión
3
4
72328,743 55 1315,068
228352,770 59
Residual
Total
Variables predictoras: (Constante), PORMINa.
Variables predictoras: (Constante), PORMIN, EDUCAb.
Variables predictoras: (Constante), PORMIN, EDUCA, LNSO2c.
Variables predictoras: (Constante) PORMIN EDUCA LNSO2 LLUVIAd. Variables predictoras: (Constante), PORMIN, EDUCA, LNSO2, LLUVIAd.
Variable dependiente: TASAMORe.
82MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Coeficientesa
Coeficientes noCoeficientesestandarizad
887,111 10,376 85,500 ,000
4,488 ,701 ,644 6,403 ,000
1211 376 74 496 16 261 000
(Constante)
PORMIN
(Constante)
Modelo1
2
B Error típ.
estandarizados
Beta
os
t Sig.
1211,376 74,496 16,261 ,000
3,916 ,625 ,561 6,264 ,000
-28,931 6,597 -,393 -4,385 ,000
1111,938 73,546 15,119 ,000
3,918 ,570 ,562 6,871 ,000
(Constante)
PORMIN
EDUCA
(Constante)
PORMIN
2
3
3,918 ,570 ,562 6,871 ,000
-23,412 6,217 -,318 -3,766 ,000
12,150 3,437 ,292 3,535 ,001
943,769 93,846 10,057 ,000
3,320 ,585 ,476 5,672 ,000
O
EDUCA
LNSO2
(Constante)
PORMIN
4
-13,885 6,888 -,189 -2,016 ,049
15,043 3,435 ,362 4,379 ,000
1,645 ,614 ,264 2,681 ,010
EDUCA
LNSO2
LLUVIA
Variable dependiente: TASAMORa.
Ecuación de Regresión:
Tasamor =943,765 + 3,320 PORMIN ‐13,885 EDUCA + 15,043 LNSO2 +1,645LLUVIATasamor 943,765 + 3,320 PORMIN 13,885 EDUCA + 15,043 LNSO2 +1,645LLUVIA
83MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación