diego ignacio gallardo matelunambranco/aula r diego.pdf · suponha que estamos interessados em...
TRANSCRIPT
Inferencia Bayesiana na distribuicao Normal
Diego Ignacio Gallardo Mateluna
Instituto de Matematica e EstatısticaUniversidade de Sao Paulo
Marco, 2012
Distribuicao Normal: Inferencia da variancia
com media conhecida
Dados de anotacoes de equipes de Futebol Americano
Para 672 jogos de Futebol Americano, o banco de dados contem os pontosconseguidos pelo time favorito, pelo time “zebra” e o valor do “spread”, termoutilizado em apostas e que estima a diferenca entre os pontos conseguidospelo time favorito e pelo time zebra. Baseado nesses valores, e calculada avariavel d = favorite− underdog − spread.
require(LearnBayes)
data(footballscores)
attach(footballscores)
d = favorite - underdog - spread
n = length(d)
S = sum(d^2)
> n
[1] 672
> S
[1] 128902
Dados de anotacoes de equipes de Futebol Americano
Se assumimos que as diferencas d1, . . . , dn sao uma amostra i.i.d. da distri-buicao N(0, σ2), entao a funcao de verossimilhanca e dada por
L(σ2) = (σ2)−n2 exp
{−
n∑i=1
d2i
2σ2
}, σ2 > 0.
Suponha priori nao informativa para σ2, i.e.,
π(σ2) ∝ σ−2
Desse jeito, a distribuicao a posteriori para σ2 e dada por
π(σ2|X) ∝ (σ2)−(n2
+1) exp
{− S
2σ2
},
em que S =∑n
i=1 d2i .
Portanto, σ2|X ∼ Sχ−2n = 128.902χ−2
(672).
Dados de anotacoes de equipes de Futebol Americano
A distribuicao qui-quadrado invertida vem incorporada no pacote geoR.
require(geoR)
curve(dinvgamma(x, n/2,S/2),xlim=c(160,230),
ylab="densidade",xlab=expression(sigma^2),lwd=2)
Calculamos o intervalo de credibilidade com caudas simetricas para σ2 ecomparamos com o HDR.
S/qchisq(c(0.975,0.025),n)
[1] 172.8538 214.1019
HDRinvgamma(n/2,S/2,0.95)
[1] 172.1466 213.2860
Dados de anotacoes de equipes de Futebol Americano
170 180 190 200 210 220
0.01
0.02
0.03
σ2
dens
idad
eDensidade à posterioriHDRIC com caudas simétricas
Figura: Distribuicao a posteriori de σ2.
0.5 1.0 1.5 2.0
0.0
0.5
1.0
1.5
2.0
σ2
dens
idad
e
Densidade à posterioriHDRIC com caudas simétricas
Figura: Comparacao de HDR e IC com caudas simetricas para σ2 com outradistribuicao.
Distribuicao Normal: Inferencia da media
com variancia conhecida
Problema de Joe
Suponha que estamos interessados em estimar o QI de Joe, o qual tem dis-tribuicao N(θ, σ2), em que σ = 15. Voce acredita, a priori, que a media e amediana da distribuicao para θ e 100. Alem disso, considere os seguintes trescenarios:
1 Com um 90 % de confianca, voce acredita que o QI de Joe esta entre 70e 130.
2 Com um 90 % de confianca, voce acredita que o QI de Joe esta entre 80e 120.
3 Com um 90 % de confianca, voce acredita que o QI de Joe esta entre 90e 110.
Utilizando como distribuicao a priori a Normal, pode-se verificar que cadaum dos casos pode ser representado da seguinte forma:
1 θ ∼ N(100; 18.242)
2 θ ∼ N(100; 12.162)
3 θ ∼ N(100; 6.082)
Problema de Joe
Desenhamos as distribuicoes a priori atraves dos seguintes comandos.
curve(dnorm(x,mean=100,sd=18.24),xlim=c(80,130),
lwd=2,col=1,ylim=c(0,0.09),ylab="densidade",xlab=expression(theta))
curve(dnorm(x,mean=100,sd=12.16),lwd=2,col=2,add=T)
curve(dnorm(x,mean=100,sd=6.08),lwd=2,col=3,add=T)
a<-c("Priori 1","Priori 2","Priori 3","Post. 1","Post. 2","Post. 3")
legend("topleft",a,lwd=2,col=1:3,lty=rep(1:2,c(3,3)),bty="n",cex=1.3)
Problema de Joe
60 80 100 120 140
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
θ
dens
idad
e
Priori 1Priori 2Priori 3
Figura: Distribuicoes a priori para θ.
Problema de Joe
Sabemos que se y1, . . . , yn provem da distribuicao N(θ, σ2), (σ2 conhecido),e a distribuicao a priori para θ e N(µ, τ2), entao
θ|X ∼ N(y(n/σ2) + µ(1/τ2)
n/σ2 + 1/τ2,
1
n/σ2 + 1/τ2
)Suponhamos que foram observados quatro resultados do teste QI para Joe.Desse jeito, a distribuicao a posteriori para θ e
θ|X ∼ N(y(4/152) + 100(1/τ2)
4/152 + 1/τ2,
1
4/152 + 1/τ2
)
Problema de Joe
Consideremos os seguintes possıveis casos para y.
Caso 1: y = 110.As distribuicoes a posteriori para θ para cada um dos casos fica
1 θ|X ∼ N(108.55; 48.12)2 θ|X ∼ N(107.24; 40.75)3 θ|X ∼ N(103.97; 22.31)
Caso 2: y = 125.As distribuicoes a posteriori para θ para cada um dos casos fica
1 θ|X ∼ N(121.38; 48.12)2 θ|X ∼ N(118.11; 40.75)3 θ|X ∼ N(109.91; 22.31)
Caso 3: y = 140.As distribuicoes a posteriori para θ para cada um dos casos fica
1 θ|X ∼ N(134.22; 48.12)2 θ|X ∼ N(128.98; 40.75)3 θ|X ∼ N(115.86; 22.31)
Problema de Joe
Consideremos os seguintes possıveis casos para y.
Caso 1: y = 110.As distribuicoes a posteriori para θ para cada um dos casos fica
1 θ|X ∼ N(108.55; 48.12)2 θ|X ∼ N(107.24; 40.75)3 θ|X ∼ N(103.97; 22.31)
Caso 2: y = 125.As distribuicoes a posteriori para θ para cada um dos casos fica
1 θ|X ∼ N(121.38; 48.12)2 θ|X ∼ N(118.11; 40.75)3 θ|X ∼ N(109.91; 22.31)
Caso 3: y = 140.As distribuicoes a posteriori para θ para cada um dos casos fica
1 θ|X ∼ N(134.22; 48.12)2 θ|X ∼ N(128.98; 40.75)3 θ|X ∼ N(115.86; 22.31)
Problema de Joe
Consideremos os seguintes possıveis casos para y.
Caso 1: y = 110.As distribuicoes a posteriori para θ para cada um dos casos fica
1 θ|X ∼ N(108.55; 48.12)2 θ|X ∼ N(107.24; 40.75)3 θ|X ∼ N(103.97; 22.31)
Caso 2: y = 125.As distribuicoes a posteriori para θ para cada um dos casos fica
1 θ|X ∼ N(121.38; 48.12)2 θ|X ∼ N(118.11; 40.75)3 θ|X ∼ N(109.91; 22.31)
Caso 3: y = 140.As distribuicoes a posteriori para θ para cada um dos casos fica
1 θ|X ∼ N(134.22; 48.12)2 θ|X ∼ N(128.98; 40.75)3 θ|X ∼ N(115.86; 22.31)
Problema de Joe
60 80 100 120 140 160
0.00
0.02
0.04
0.06
0.08
θ
dens
idad
e
Priori 1Post. 1
60 80 100 120 140 160
0.00
0.02
0.04
0.06
0.08
θ
dens
idad
e
Priori 2Post. 2
60 80 100 120 140 160
0.00
0.02
0.04
0.06
0.08
θ
dens
idad
e
Priori 3Post. 3
Figura: Distribuicoes a priori e a posteriori para θ (Caso y = 110).
Problema de Joe
60 80 100 120 140 160
0.00
0.02
0.04
0.06
0.08
θ
dens
idad
e
Priori 1Post. 1
60 80 100 120 140 160
0.00
0.02
0.04
0.06
0.08
θ
dens
idad
e
Priori 2Post. 2
60 80 100 120 140 160
0.00
0.02
0.04
0.06
0.08
θ
dens
idad
e
Priori 3Post. 3
Figura: Distribuicoes a priori e a posteriori para θ (Caso y = 125).
Problema de Joe
60 80 100 120 140 160
0.00
0.02
0.04
0.06
0.08
θ
dens
idad
e
Priori 1Post. 1
60 80 100 120 140 160
0.00
0.02
0.04
0.06
0.08
θ
dens
idad
e
Priori 2Post. 2
60 80 100 120 140 160
0.00
0.02
0.04
0.06
0.08
θ
dens
idad
e
Priori 3Post. 3
Figura: Distribuicoes a priori e a posteriori para θ (Caso y = 140).
Problema de Joe
Mesmo problema de Joe. Suponha que estamos interessados em estimar o QIde Joe, o qual tem distribuicao N(θ, σ2), em que σ = 15. Voce acredita, apriori, que a media e a mediana da distribuicao para θ e 100 e Com um 90 %de confianca, voce acredita que o QI de Joe esta entre 80 e 120. A diferencae que agora sera utilizada como distribuicao a priori a distribuicao Normale a distribuicao T2. Assim, e possıvel concluir que as distribuicoes a prioripara θ serao
1 θ ∼ N(100; 12.162)
2 θ ∼ T2(100; 6.85)
Problema de Joe
Analogamente ao caso anterior, desenhamos as distribuicoes a priori.
curve(dnorm(x,mean=100,sd=12.16),xlim=c(60,140),
lwd=2,col=1,ylim=c(0,0.055),ylab="densidade",xlab=expression(theta))
tscale=6.85
curve(1/tscale*dt((x-mu)/tscale,2),lwd=2,col=2,add=T)
a<-c("Priori Normal","Priori T")
legend("topleft",a,lwd=2,col=1:2,lty=rep(1:2,c(3,3)),bty="n",cex=1.3)
Problema de Joe
60 80 100 120 140
0.00
0.01
0.02
0.03
0.04
0.05
θ
dens
idad
e
Priori NormalPriori T
Figura: Distribuicoes a priori para θ.
Problema de Joe
No caso de utilizar a distribuicao Normal como distribuicao a priori e comofoi visto anteriormente, temos que
θ|X ∼ N(y(4/152) + 100(1/12.162)
4/152 + 1/12.162,
1
4/152 + 1/12.162
)Note que no caso de utilizar a distribuicao T2 como distribuicao a priori,temos que
π(θ|X) ∝ φ(y|θ, σ/
√n)gT2(θ|µ, τ)
O nucleo dessa distribuicao a posteriori nao pertence a alguma distribuicaoconhecida. Dessa forma, precissamos aproximar essa distribuicao a posteriori(que e contınua) para um conjunto de valores finitos utilizando o seguinteprocedimento.
Problema de Joe
Procedimento para aproximar uma distribuicao contınua por um conjunto devalores finitos.
Defina uma grade de valores para θ, i.e., θ1, . . . , θM .
Para cada θi, i = 1, . . . ,M , calcule a distribuicao a posterioriavaliada em θi, que definiremos como fi.
Transforme os valores computados no passo anterior emprobabilidades, dividindo cada fi por
∑Mi=1 fi.
Desse jeito, e possıvel utilizar os valores θ1, . . . , θM para obter aproximacoesde estatısticas de interesse (por exemplo, a media ou a variancia).
Problema de Joe
Por exemplo, se foi observado y = 110 e queremos utilizar uma grade deM = 500 valores entre 60 e 180 para θ, entao um programa em R paracomputar a media e o desvio padrao da distribuicao a posteriori de θ, e oseguinte:
ybar=110
sigma=15;n=4;tscale=6.85
theta = seq(60, 180, length = 500)
like = dnorm((theta - ybar)/(sigma/sqrt(n)))
prior = dt((theta - mu)/tscale, 2)
post = prior * like
post = post/sum(post)
m = sum(theta * post)
s = sqrt(sum(theta^2 * post) - m^2)
m
[1] 105.2924
s
[1] 5.841821
Problema de Joe
Assim, e possıvel aplicar o mesmo procedimento para y = 125 e y = 140. Aseguinte tabela compara as duas distribuicoes a priori em diferentes cenariospara y observado.
Priori Normal Priori T2
y Media AP Desvio padrao AP Media AP Desvio padrao AP
110 107.2442 6.3835 105.2921 5.8417
125 118.1105 6.3835 118.0841 7.8852
140 128.9768 6.3835 135.4134 7.9735
Problema de Joe
Assim, e possıvel aplicar o mesmo procedimento para y = 125 e y = 140. Aseguinte tabela compara as duas distribuicoes a priori em diferentes cenariospara y observado.
Priori Normal Priori T2
y Media AP Desvio padrao AP Media AP Desvio padrao AP
110 107.2442 6.3835 105.2921 5.8417
125 118.1105 6.3835 118.0841 7.8852
140 128.9768 6.3835 135.4134 7.9735
Problema de Joe
Finalmente, e possıvel utilizar os mesmos pontos da grade para aproximar adistribuicao a posteriori de θ com as duas prioris.
normpost = dnorm(theta, 128.9768, 6.3835)
normpost = normpost/sum(normpost)
plot(theta,normpost,type="l",lwd=2,ylab="Densidade",col=1
,xlab=expression(theta))
lines(theta,post,lwd=2,col=2)
legend("topleft",legend=c("Priori Normal","Priori T"),lwd=2,
bty="n",col=1:2)
Problema de Joe
60 80 100 120 140 160 180
0.00
00.
005
0.01
00.
015
θ
Den
sida
de
Priori NormalPriori T
Figura: Distribuicoes a posteriori (estimadas) para θ.
Distribuicao Normal: Inferencia com media
e variancia desconhecida
Tempos de corrida
O banco de dados inclui os tempos de corrida (em minutos) de 20 homensde entre 20 e 29 anos. Sera assumido que os tempos y1, . . . , y20 representamuma a.a. da distribuicao N(θ, σ2). Se for assumida a priori nao informativaπ(θ, σ2) ∝ 1/σ2, entao a densidade a posteriori conjunta de (θ, σ2) e dadapor
π(θ, σ2|X) ∝ 1
(σ2)n/2+1exp
{− 1
2σ2(S + n(θ − y)2)
},
em que S =∑n
i=1(yi − y)2.Pode ser verificado que
θ|X ∼ Tn−1
(y,
√S
n(n− 1)
)θ|σ2,X ∼ N
(y, σ2/n
)σ2|X ∼ Sχ−2
n
Tempos de corrida
Assim, e possıvel construir HDR ao 95 % para θ e σ2 como segue:
data(marathontimes)
attach(marathontimes)
n=length(time)
ybar=mean(time)
S=(n-1)*var(time)
HDRtheta=ybar+qt(c(0.025,0.975),n-1)*sqrt(S/(n*n-1))
HDRtheta
[1] 254.9741 300.2259
HDRsigma2=HDRinvgamma(n/2,S/2,0.95)
HDRsigma2
[1] 1178.604 4393.832
Tempos de corrida
Tambem e possıvel fazer inferencia aproximada de (θ, σ2), simulando valo-res, em um primeiro passo, da distribuicao a posteriori marginal de σ2|X elogo, em um segundo passo, simulando valores da distribuicao condicional aposteriori de θ|σ2,X.
sigma2 = S/rchisq(1000, n - 1)
theta = rnorm(1000, mean = ybar, sd = sqrt(sigma2)/sqrt(n))
quantile(theta, c(0.025, 0.975))
2.5% 97.5%
256.0215 301.0007
quantile(sigma2, c(0.025, 0.975))
2.5% 97.5%
1471.431 5485.004
Tempos de corrida
Finalmente, e possıvel plotar as linhas de contorno ao 10 %, 1 % e 0.1 %para a distribuicao conjunta de (θ, σ2). Tambem e possıvel plotar os pontossimulados para θ e σ2.
mycontour(normchi2post, c(220, 330, 500, 9000), time)
title(xlab=expression(theta),ylab=expression(sigma^2))
points(theta, sigma2)
Tempos de corrida
−6.9
−4.6
−2.3
220 240 260 280 300 320
2000
4000
6000
8000
θ
σ2
●●
●
●
●
●●
●
●
●
●
●●
●
●●
●
●
●
●
● ●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
● ●●
●
● ●●
●
●
●
●
●
●●
●●
●
●
●●
●
●
●
●
●
●
●
●●
● ●
●
●
●
●
●
●
●
●
●
●●●
●
●●
●
●●
●
●
●
●
●●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
● ●
●●
●
●
●●
●
●
●●
●●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●●
●●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
● ●
●
●●
●●
●
●
●●
●●
● ●
●
●
●
●
●
●
●
●
●●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
● ●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
● ●
●●
●●●●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●● ●
●
●
●
●
●
●
●
●
●
●●
● ●
●
●
●
●
●
●●●
●
●
●
●
●
●●
●
●●
●●
●●
●
●
●
●
●
●
●
●
●
●
● ●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●● ●
●
●●
●●
●
●
●
●
●
●●
●●●
●●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●● ●
●
● ●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●●●
●
●
●●
●
●
●
● ●
●
●
●
●
●●
●●
●
●
●●
●
●
●
●●
●
●●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
● ●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
● ●●
●
●
●
●
●●●●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●●●
●
●
● ●● ●●
●
●
●
● ●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
Figura: Linhas de contorno para (θ, σ2) ao 10 %, 1 % e 0.1 %.
Referencias
Albert, J. (2007) Bayesian Computation with R. New York: Springer