métodos estatísticos avançados em epidemiologiaedna/mae/mae-aula01-1.pdf · coeficiente de...
Post on 23-Jul-2020
17 Views
Preview:
TRANSCRIPT
Universidade Federal de Minas GeraisInstituto de Ciências ExatasDepartamento de Estatística
Métodos Estatísticos Avançados em Epidemiologia
Aula 1-1Aula 1-1
Correlação e Regressão Linear Simples:
Estimação e Interpretação da RetaTabela ANOVA e R 2
Estimação da Média e de Resposta IndividualAnálise dos Resíduos
Representação visual da relação entre duas variáveis quantitativas
Capacidade Vital Forçada (litros)
6,00
8,00Indivíduo
Capacidade Vital Forçada (litros)
Sentado Deitado
1 4,66 4,63
2 5,70 6,34
3 5,37 5,72
2,00
4,00
2,00 4,00 6,00 8,00Sentado
Deitado
3 5,37 5,72
4 3,34 3,23
5 3,77 3,60
6 7,43 6,96
7 4,15 3,66
8 6,21 5,81
9 5,90 5,61
10 5,77 5,33
Representação visual da relação duas variáveis quantitativas:
Gráfico de Dispersão ( Scatter Plot)
O Exemplo dos Ursos Marrons : relação entre o peso do animal e outras medidas como altura e perímetro do tórax
Quantificando a relacionamento linear entre duas variáveis quantitativas
O Coeficiente de Correlação Linear de Pearson
( )( ) ∑∑
∑=
−−
−−
=nn
n
iii
XY
yyxx
yyxxr 1
22( ) ∑∑
==
−−
ii
ii yyxx
11
2
-1 ≤ r ≤ 1
rXY = 1 , correlação linear positiva perfeita entre X e Y
rXY = 0 , correlação linear nula entre X e Y
rXY = -1 , correlação linear negativa perfeita entre X e Y
Sinal do coeficiente de correlação linear de Pearson
( )∑=
−−
n
iii yyxx
1
(-)(+) = (-) (+)(+) = (+)
(-)(-) = (+) (+)(-) = (-)
No exemplo da Capacidade Vital Forçada
67
Capacidade Vital Forcada (litros)
r = 0.955
4 5 6 7
45
Sentado
Dei
tado r = 0.955
2 3 4 5 6 7 8 9
24
68
10
xis
ypsi
+ 1
0
r = -0 .879
1 .0 1 .5 2 .0 2 .5 3 .0
56
78
9
xis
ypsi
+ 5
r = -0 .1 9 7
2 3 4 5 6 7 8 9
910
1112
1314
xis
ypsi
+ 1
0
r = 0 .357
2 3 4 5 6 7 8 9
23
45
67
xis
ypsi
+ 5
r = 0 .0025
Exemplo dos Ursos Marrons
r = 0.874
r = 0.964
1500
2000
2500
Gas
to M
ensa
l (R
$)
Exemplo: relação entre gasto e renda mensais.
r = 0.8503
500 1000 1500 2000 2500
050
010
00
Renda Mensal (R$)
Gas
to M
ensa
l (R
$)
r = 0.8503
Teste da Significância do Coeficiente Linear de Pea rson
Estudar o relacionamento entre duas variáveis:
Como a variável X explica a variável Y ?
•Variação no peso e tempo de exercício físico semanal;•Salário e idade;•Venda de um produto e gasto com propaganda;•Desempenho no emprego e resultado em testes de aptidão.
� Como a variável X explica a variável Y ?� Posso prever os valores deY usando os valores de X ?
Y : variável resposta ( dependente ) X : variável explicativa ( preditora, independente )
Uma das primeiras utilizações da regressão: estudar a herançade traços físicos entre gerações.
No período de 1893 a 1898, E. S. Pearson coletou informaçõessobre altura de n=1375 mulheres do Reino Unido com mais de65 anos e de uma de suas filhas com mais de 18 anos paraverificar se havia associação entre altura de mães e filhas.
Um exemplo clássico: altura de mães e filhas
verificar se havia associação entre altura de mães e filhas.
As filhas herdam a altura de suas mães?
Em outras palavras: mães mais altas tendem a ter filhas maisaltas e mães mais baixas tendem a ter filhas mais baixas?
A nuvem de pontos apresentam uma forma elíptica: algumas filhas têm altura muita maior/menor que a esperada pela altura de suas mães.
A altura da filha não é exatamente igual à da sua mae (os pontos não estão todos sobre a reta de 45º) , mas há uma tendência de mães mais altas terem filhas mais altas.
1500
2000
2500
Gas
to M
ensa
l (R
$)
Outro exemplo: renda e gasto
500 1000 1500 2000 2500
050
010
00
Renda Mensal (R$)
Gas
to M
ensa
l (R
$)
Exemplo: desempenho ensino médio X na universidade
A Equação da Reta
XY 10 ββ +=Intercepto:valor de Y quando X=0
Inclinação:aumento em Y a cada aumento de 1 unidade em X
2.0
2.5
3.0
3.5
Y = 1 + 0.5X
Exemplo de equação da reta: Y = 1 + 0.5X
X = 0, Y = 1
X = 1, Y = 1.5
0 1 2 3 4
0.0
0.5
1.0
1.5
X
Y X = 2, Y = 2
ββββ0 + ββββ1Xparte da variabilidade de Y que é explicada pela variação em X
O Modelo de Regressão Linear Simples
εββ ++= XY 10
εεεε erro aleatórioεεεε erro aleatório
parte da variabilidade de Y que NÃO é
explicada pela variação
em X:um mesmo valor de X
associado a valores de Y
diferentes.
O Modelo de Regressão Linear Simples
εββ ++= XY 10
parte da variabilidade de Y que é explicada pela variação de X
erro aleatório: parte da variabilidade
de Y que é NÃO é explicada
pela variação de X
O objetivo de um modelo de regressão é explicar parte davariabilidade da variável resposta Y através da variávelexplicativa X.
A parte não explicada da variabilidade de Y é representada porum termo de erro aleatório.
Suposições do Modelo de Regressão Linear:
A variável resposta Yé contínua.
A relação entreY e X
é linear.
Os erros εi são independentes e seguem a distribuição Normalcom média igual a zero e variância constante (σ2) ao longo da reta.
é contínua.
Estimação e Interpretação da Reta
A determinação da equação da reta, ou seja,a estimação dos valores de B0 e B1,
é feita a partir de uma amostra de n pares de valores
εββ ++= XY 10
é feita a partir de uma amostra de n pares de valores
das variáveis resposta e explicativa:
(x1,y1), (x2,y2), (x3,y3), ..., (xn,yn).
niiii xy ,...,3,2,1 ),( 10 =+−= ββε
( ) [ ]∑∑==
+−==n
iii
n
ii xySQE
1
210
1
2 )( ββε
Achar a reta que minimize o valor de SQE
E quais são os valores de β0 e β1 que levam ao menor valor de SQE?
0 1ˆ ˆ .y xβ β= −
( )( )( )
11
1
2ˆ
n
i ii
n
ii
y yx x
x xβ =
=
− −=
−
∑
∑
∑=
=n
iix
nx
1
1∑
=
=n
iiy
ny
1
1
Onde:
(médias amostrais)
1ix x
=
niii xy ,...,3,2,1 ,ˆˆ10 =+= ββ)
Exemplo da altura de mães e filhas
Exemplo: Renda e GastoY = gasto mensal (R$)X = renda (R$)
0210.07β̂ =
1 0.74β̂ =
1000
1500
2000
2500
Gas
to M
ensa
l (R
$)
A equação estimada
210.07 0.74ˆ iiy x= +
A cada real a mais na renda mensal, o gasto mensal aumenta, em média , R$ 0.74 (74 centavos).
500 1000 1500 2000 2500
050
0
Renda Mensal (R$)
Exemplo: desempenho ensino médio X na universidade
Não faz sentidointerpretrar β 0=66.48,pois não há nota zerono ensino médio.
Quando ao β1=0.18, significa que, a cada 1 ponto a mais na nota doensino médio, acrescenta-se, em média, 0.18 pontos na nota dauniversidade.
ββββ0 + ββββ1Xparte da variabilidade de Y que é explicada pela variação em X
O Modelo de Regressão Linear Simples
εββ ++= XY 10
εεεε erro aleatórioεεεε erro aleatório
parte da variabilidade de Y que NÃO é
explicada pela variação
em X:um mesmo valor de X
associado a valores de Y
diferentes.
As Fontes da Variabilidade de Y
A Análise de Regressão trabalha com a idéia de que avariabilidade total da variável resposta Y é o resultado de duasfontes de variação:
( ) ( ) ( )∑∑∑===
−+−=−n
iii
n
ii
n
ii yyyyyy
1
2
1
2
1
2 ˆˆ
sRegTotal SQ SQ SQ Re+=
Variabilidade Total de Y
Variabilidade Y explicada por X
Variabilidade Y devida ao erro
1000
1500
2000
2500
Gas
to M
ensa
l (R
$)
500 1000 1500 2000 2500
050
010
00
Renda Mensal (R$)
Gas
to M
ensa
l (R
$)
( ) ( ) ( )∑∑∑===
−+−=−n
iii
n
ii
n
ii yyyyyy
1
2
1
2
1
2 ˆˆ
A Tabela de Análise de Variância (ANOVA)
Fonte de Soma de Graus de Quadrado Estatística Valor -p
Variação Quadrados Liberdade Médio F
Regressão SQReg 1 QMReg QMReg valor
Residuos SQRes n-2 QMResQMRes
Total SQTotal n-1
Teste F da Tabela ANOVA:
Hipótese nula (o modelo linear de Y em X não é apropriado):
H0 : β1 = 0
H0 é rejeitada se o valor-p < α (nível de significância do teste)
Exemplo: desempenho ensino médio X na universidade
Não faz sentidointerpretrar β 0=66.48,pois não há nota zerono ensino médio.
Quando ao β1=0.18, significa que, a cada 1 ponto a mais na nota doensino médio, acrescenta-se, em média, 0.18 pontos na nota dauniversidade.
Exemplo: desempenho ensino médio X na universidade
Qual a proporção da variabilidade total de Y que é explicada pelo modelo de regressão ?
Coeficiente de Determinação:
10 , 2Reg2 ≤≤= RSQ
SQ
TotalR
( )22
XYrR =
Quanto mais próximo de 1, maior é a capacidade de explicação do modelo,
onde rxy é o coeficiente de correlação linear de Pearson.
No exemplo do desempenho ensino médio X na universi dade:
81% da variação total da nota na universidade é explicada pela variação da nota no ensino médio.
Qual é a estimativa para a variância do erro ε, ou seja, da parte de Y que não é explicada pelo modelo de regressão ?
( )
res
ii
QMn
yyn
i
=−
−=∑=
2
2
2
ˆ2
ˆ
ˆ 1
σσ
resQM=2σ̂
No exemplo do desempenho ensino médio X na universi dade:
Exemplo: desempenho ensino médio X na universidade
Regression Analysis: Univ versus EM
The regression equation isUniv = 66,5 + 0,180 EM
Predictor Coef SE Coef T PConstant 66,480 2,155 30,85 0,000EM 0,18000 0,02418 7,44 0,000
Exemplo: Saída do MINITAB
Analysis of Variance
Source DF SS MS F PRegression 1 11,340 11,340 55,42 0,000Residual Error 13 2,660 0,205Total 14 14,000
R-Sq = 81,0%
No MRLS, o teste T para ββββ1 é equivalente ao Teste F da ANOVA
Estimativa de ββββ0
Estimativa de ββββ1
SE Coef = Erro-Padrão do Coeficiente (mede a variabilidade da estimativa)
Intervalo de Confiança para ββββ0 e ββββ1
[ ])ˆ(ˆ00
)%1(100
0ββα
β EPtIC ⋅±=−
[ ])ˆ(ˆ11
)%1(100
1ββα
β EPtIC ⋅±=−
onde EP é o Erro-Padrão do Coeficientee t é o valor na Tabela T com gl= graus de liberdade do s resíduos na ANOVA
Estimação da Média de Y
Exemplo: desempenho ensino médio X na universidade
Veja arquivo Regressao-Simples-exemplo.xls.
Estimação de Resposta Individual de Y
Relembrando as Suposições do Modelo de Regressão Linear:
A variável resposta Yé contínua.
A relação entreY e X
é linear.
Os erros εi são independentes e seguem a distribuição Normalcom média igual a zero e variância constante (σ2) ao longo da reta.
é contínua.
Análise dos Resíduos
Os resíduos, , são uma estimativa dos erros εi.iii yye ˆ−=
Gráficos mais utilizados:
• Resíduos versus preditos pelo modelo;
• Resíduos versus variáveis no modelo;
• Resíduos versus variáveis fora do modelo;
• Histograma (ou boxplot) dos resíduos;
• Gráfico de Probabilidade Normal (e teste) dos resíduos.• Gráfico de Probabilidade Normal (e teste) dos resíduos.
Variância Constante e Linearidaderesíduo
( )xy,ˆ resíduo
( )xy,ˆ
resíduo
( )xy,ˆ resíduo
( )xy,ˆ
Exemplo: desempenho ensino médio X na universidade
Veremos mais tarde, na Aula01-4.
Você já consegue fazer o Exercício 1 da Lista 1.
top related