estadística iii. regresión lineal. Ángela segura
Post on 11-Mar-2016
220 Views
Preview:
DESCRIPTION
TRANSCRIPT
Ángela María Segura C.
Angela María Segura Cardona asegura@ces.edu.co
Docente
Medellín, marzo 12 a abril 04 de 2013
MAESTRIA EN SALUD PÚBLICA IV
ESTADÍSTICA III
Ángela María Segura C.
Permite resumir en tablas, gráficos, y
algunos parámetros o estadísticos un
conjunto de datos.
Es la generalización que se hace de los
datos muestrales a la población total.
Procedimientos diseñados para
analizar las relaciones entre tres
o mas variables.
Ángela María Segura C.
ANÁLISIS ESTADÍSTICO O PLAN DE ANÁLISIS
Ángela María Segura C.
Análisis Univariado
Análisis Bivariado
Análisis Estratificado
Análisis Multivariado
Ángela María Segura C.
ANÁLISIS UNIVARIADO O ANÁLISIS DESCRIPTIVO
Ángela María Segura C.
Una variable cualitativa
Estado civil No. %
Soltero
Casado
Otro
3426
1483
8
69,6
30,2
0,2
Total 4917 100,0
Tablas
Gráficos
Masculino
56,2%
Femenino
43,8%
Distribución de los encuestados según sexo. Municipio X, 2010
2,8
17,8
38,7
18,5
14,1
8,1
1 2 3 4 5 6Estrato socioeconómico
Distribución de los encuestados según estrato socioeconómico. Municipio X, 2010
Distribución de los encuestados según Estado civil. Municipio X, 2010
Ángela María Segura C. Una variable cuantitativa
Medidas de resumen
Gráficos Distribución de los encuestados según
edad. Municipio X, 2010 Distribución de los encuestados según
edad. Municipio X, 2010
Media Aritmética
Moda, Mediana, Cuartiles, Deciles, Percentiles
Rango, Rango Intercuartil, Varianza, Desviación Estándar, Coeficiente de
Variación
Coeficiente de Curtosis, Coeficiente de Asimetría
Ángela María Segura C.
ANÁLISIS BIVARIADO O ANÁLISIS COMPARATIVO
Ángela María Segura C.
• Diferencia de proporciones
• Establecer asociación
• Muestras independientes Chi-cuadrado
• Diferencia de proporciones
• Establecer asociación
• Muestras dependientes McNemar
Ángela María Segura C.
• Diferencia de 2 promedios (muestras independientes)
t-Student
• Diferencia de 2 promedios (muestras dependientes)
t-Student pareada
• Diferencia de más de 2 promedios (muestras independientes)
Anova paramétrica (F Snedecor)
• Diferencia de más de 2 promedios (muestras dependientes)
Anova pareada paramétrica
• Establecer correlación
• Tendencia o relación Correlación Pearson
Ángela María Segura C.
• Diferencia de 2 medianas (muestras independientes)
U-Mann Withney
• Diferencia de 2 medianas (muestras dependientes)
Wilcoxon
• Diferencia de más de 2 medianas (muestras independientes)
Anova no paramétrica (H
Kruskal-Wallis)
• Diferencia de más de 2 medianas (muestras dependientes)
Anova pareada no paramétrica (Friedman)
• Establecer correlación
• Tendencia o relación Correlación Spearman
Ángela María Segura C.
ANÁLISIS ESTRATIFICADO
Ángela María Segura C.
• Análisis de confusión
• Análisis de interacción
Análisis estratificado
Asociación de interés
Variable externa
Régimen de afiliación
Cigarrillo
Subsidiado
Contributivo
Ca Pulmón Vinculado
Ángela María Segura C.
ANÁLISIS MULTIVARIADO O ANÁLISIS RELACIONAL
Ángela María Segura C.
Análisis de Regresión Lineal
Análisis de Regresión Logística
Análisis de Supervivencia
Análisis factorial
Análisis de cluster
Modelos mixtos o multinivel
Ángela María Segura C.
ANÁLISIS DE REGRESIÓN LINEAL
Ángela María Segura C.
“Conjunto de técnicas que son usadas para establecer
una relación entre una variable cuantitativa llamada
variable dependiente y una o más variables
independientes, llamadas predictoras o explicativas”
Ángela María Segura C.
Dependiente
Y
Presión en mmHg
Altura uterina
Ganancia
Independiente
X
Edad en años
Semanas de embarazo
Inversión
Ángela María Segura C.
UNA VARIABLE INDEPENDIENTE
R E C I P R O C O
P R O D U C T O
E X P O N E N C I A L
L O G A R I T M I C O
LINEAL
Ángela María Segura C.
Y(Cuantitativa)
X3
X6
X4
X1
X2
X5
Londoño, JL. Notas de Clase, 2005
Ángela María Segura C.
Y
X
Yi = 0+ 1 X1
Ángela María Segura C.
Y
X1
X2
x
x x
x
x
x
x
x
x
x
x
x
22110ˆ xxy
Ángela María Segura C.
Pasos para la construcción del modelo
PASO 1: CONSTRUYA EL GRAFICO DE DISPERSION PASO 2: ESTIMACIÓN DE LA LÍNEA DE REGRESIÓN USANDO MÍNIMOS CUADRADOS
Prueba: Prueba t-Student Hipótesis: Ho: La v. independiente no influye en la dependiente Ha: La v. independiente influye sobre la dependiente
Yi = 0+ 1 X1
Ángela María Segura C.
Incorrelación
30
80
130
180
230
280
330
140 150 160 170 180 190 200
Fuerte relación
directa.
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Cierta relación
inversa
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
Grisales H. Notas de clase
PASO 1: Construya el grafico de dispersión
Ángela María Segura C.
Londoño JL. Metodología de la investigación epidemiológica, 3a. edición. Bogotá, El Manual Moderno, 2004.
PASO 2: Construcción del modelo
Método de construcción
Es un método de selección paso a paso que inicia la modelación considerando únicamente la constante, en el primer paso entra aquella
variable que presentó mayor SCORE, siempre y cuando este sea significativo, y así sucesivamente.
Es otro método de selección de variables paso a paso, inicialmente incluye todas las variables, eliminando a continuación aquellas que no son
significativas para el modelo, usando el estadístico de Wald.
Este método es una variante del método Forward/Backward que admite, paso a paso, la posibilidad de eliminar variables previamente seleccionadas.
Forward
Backward
Stepwise
Ángela María Segura C.
PASO 2: Estimación de la línea de regresión usando mínimos cuadrados
• Cambio promedio en la variable respuesta cuando la variable predictora aumenta en una unidad adicional.
βi
• Valor promedio de la variable respuesta cuando la variable predictora vale 0.
• Carece de interpretación práctica si es irrazonable pensar que el rango de valores de X incluye el cero.
β0
Ángela María Segura C.
PASO 3: ANOVA APLICADA A LA REGRESION
Prueba: Anova aplicada a la regresión Hipótesis: Ho: No existe relación lineal entre X y Y Ha: Existe relación lineal entre X y Y PASO 4: ANALISIS DE CORRELACIÓN (R) Y COEFICIENTE DE DETERMINACIÓN (R2)
PASO 5: ANALISIS DE RESIDUOS Normalidad, varianza constante e incorrelación
Pasos para la construcción del modelo
Ángela María Segura C.
2R %100*22 RR
PASO 4: Análisis de correlación (R) y coeficiente de determinación (R2)
COEFICIENTE DE DETERMINACIÓN
• Es una medida de la bondad de ajuste del modelo
• Un modelo de regresion con R2 mayor o igual a 75% se puede considerar bastante aceptable.
22 )(RhoR
Ángela María Segura C.
PASO 5: Análisis de residuos
Normalidad
• La normalidad de los errores es un requisito indispensable para que tengan validez las pruebas estadísticas de t y F que se usan en la regresión.
• Relaciona los residuales Vs. los valores que se esperarían si existiera normalidad.
Varianza constante
• Se grafican los residuales Vs. los valores ajustados o Vs. la variable predictora X.
• Si los puntos del gráfico caen en una franja horizontal alrededor de 0, la varianza es constante; si siguen algún patrón la varianza no es constante.
No correlación
• Prueba de Durbin-Watson (D), mide el grado de correlación de un error con el anterior y el posterior a él.
• Interpretación: D varía entre 0 y 4.
• Si D esta cerca de 0 los errores están correlacionados positivamente.
• Si D está cerca de 4 entonces la correlación es negativa.
• La distribución de D es simétrica con respecto a 2, un valor D cercano a 2 indica que no hay correlación de los errores.
Ángela María Segura C.
Esperanza de vida femenina Vs. Tasa de natalidad
Tasa de natalidad (por 1.000 habitantes)
60 50 40 30 20 10 0
Esp
eran
za d
e vi
da
fem
enin
a
90
80
70
60
50
40
Ángela María Segura C.
B Error típ. Límite inferior Límite superior
(Constante) 89.268 1.203 74.234 .000 86.884 91.652
Tasa de natalidad -.737 .042 -17.592 .000 -.820 -.654
Modelo Sig.
Intervalo de confianza para B
al 95%
Coeficientes no
estandarizados t
Coeficientes
Regresión 8.969.413 1 8.969.413 309.496 .000
Residual 3.100.936 107 28.981
Total 12.070.349 108
Media
cuadráticaF Sig.glModelo
Suma de
cuadrados
Anova
Ángela María Segura C.
P-P normal de regresión Residuo tipificado
Prob acum observada 1.00 .75 .50 .25 0.00
Pro
b a
cum
esp
erad
a
1.00
.75
.50
.25
0.00
1 -.862 .743 .741 5.38
Error típ. de la
estimaciónModelo R R cuadrado
R cuadrado
corregida
Tabla de coeficientes
Ángela María Segura C.
Esperanza de vida femenina
Regresión Valor Pronosticado tipificado
1.5 1.0 .5 0.0 -.5 -1.0 -1.5 -2.0 -2.5
3
2
1
0
-1
-2
-3
Reg
resi
ón
Res
idu
o T
ipif
icad
o
Ángela María Segura C.
Hombres alfabet izados
(%)
120 100 80 60 40 20
E s p e r a n z a d e v i d a m a s c u l i n a
80
70
60
50
40
Esperanza de vida masculina vs. Alfabetización masculina
Ángela María Segura C.
Coeficientesa
36,924 2,861 12,907 ,000 31,234 42,614
,330 ,035 ,717 9,367 ,000 ,260 ,400
(Constante)
Hombres alfabetizados
(%)
Modelo
1
B Error típ.
Coef icientes no
estandarizados
Beta
Coef icient
es
estandari
zados
t Sig.
Límite
inferior
Límite
superior
Interv alo de conf ianza
para B al 95%
Variable dependiente: Esperanza de v ida masculinaa.
Ángela María Segura C.
ANOVAb
3813,761 1 3813,761 87,738 ,000a
3607,816 83 43,468
7421,576 84
Regresión
Residual
Total
Modelo
1
Suma de
cuadrados gl
Media
cuadrática F Sig.
Variables predictoras: (Constante), Hombres alf abet izados (%)a.
Variable dependiente: Esperanza de v ida masculinab.
Ángela María Segura C.
Resumen del modelob
,717a ,514 ,508 6,59
Modelo
1
R
R
cuadrado
R
cuadrado
corregida
Error típ.
de la
estimación
Variables predictoras: (Constante), Hombres
alfabetizados (%)
a.
Variable dependiente: Esperanza de v ida masculinab.
Ángela María Segura C.
Gráfico P-P norm al de regresión Residuo tipificado
Variable dependiente: Esperanza de vida masculina
Prob acum observada
1,00,75,50,250,00
Prob
acu
m e
sper
ada
1,00
,75
,50
,25
0,00
Ángela María Segura C.
Gráfico de dispersión
Variable dependiente: Esperanza de vida masculina
Regresión Valor pronosticado tipificado
210-1-2-3
Reg
resi
ón R
esi
duo
tipif
icad
o
3
2
1
0
-1
-2
-3
-4
top related