contrastes teoría de decisiones
DESCRIPTION
ContrastesTRANSCRIPT
-
CAPITULO 7. ESTIMACION Y CONT-RASTES
Para leer
Lee, Captulo 4
Estimacion puntual
Para los bayesianos, el problema de estimaciones un problema de decision. Asociada con cadaestimador T hay una perdida L(T, ) que reflejala diferencia entre y T . Por ejemplo:
L(T, ) = (T )2, la perdida cuadratica
L(T, ) = |T |, la perdida lineal absoluta
L(T, ) =
{0 si T = 1 si T = , la perdida todo
o nada.
128
-
Definicion 9 El estimador Bayes TB es una
solucion de
TB = mnT
E[L(T, )]
Ejemplo 48 Dada la perdida cuadratica, cual
es el estimador Bayes?
E[L(T, )] =(T )2f() d
=
(T E[] + E[] )2 f() d
={(T E[])2 + (E[] )2}f() d
= V [] + (T E[])2
y entonces TB = E[] es el estimador Bayes.
129
-
Ejemplo 49 Con la perdida lineal absoluta, ten-
emos
E[L(T, )] =
|T |f() d
= T
(T )f() d +
+ T
( T)f() dd
dTE[L(T |)] = (T T)f(T) +
T
f() d
(T T)f(T) T
f() d
= F(T) (1 F(T))= 2F(T) 1
Entonces, recordando que en el mnimo la deriva-
da es igual a cero, tenemos F(TB) = 1/2 y el
estimador Bayes es la mediana de la distribu-
cion de .
130
-
Ejemplo 50 Suponiendo que es discreta, con
la perdida todo o nada se tiene
E[L(T, )] = =T
P()
= P( = T)y se minimiza la perdida esperada eligiendo el
estimador Bayes TB como la moda de la dis-
tribucion de .
Observacion 21 Esta perdida no se puede uti-
lizar con variables continuas porque P( = T) =
0 si es continua y entonces, la perdida esper-
ada sera 1 para cualquier eleccion de T .
131
-
Intervalos
Se han visto intervalos de credibilidad anteri-
ormente. Sigue la definicion formal.
Definicion 10 Si f(|x) es una densidad a pos-teriori, se dice que (a, b) es un intervalo de
credibilidad de 100 (1 )% siP(a b|x) = 1
Ejemplo 51 X| N (,1). Supongamos quef() 1, entonces, |x N (x,1/n) y algunosintervalos de credibilidad de 95% son
(, x+1,64/n) o (x 1,64/n,) o(x 1,96/n)
Hay muchos intervalos de credibilidad. El mas
corto se llama un intervalo de maxima den-
sidad a posteriori (MDP)
132
-
Definicion 11 El intervalo MDP de 100(1)% es el intervalo de forma
C = { : f() c()}donde c() es la constante mas grande cumplien-do
P(C) 1
Ejemplo 52 Volviendo al ejemplo 51, el inter-
valo MDP de 95% es
x 1,96/n
Se puede aplicar la definicion de un interva-
lo de credibilidad a densidades multivariantes
f(|x). En estas situaciones, se puede definiruna region de credibilidad C:
P( C|x) = 1 .
133
-
Contrastes
Consideramos las hipotesisH0 : 0H1 : 1 , donde
0 1 = y 0 1 = .
Teoricamente es facil distinguir entre las dos
hipotesis; dados los datos, solo se deben usar
las probabilidades a posteriori. Dada una fun-
cion de perdida, se elige aceptar o rechazar H0.
Ejemplo 53 Dada la perdida todo o nada,
L(H0, ) =
{0 si H0 es verdadero1 si H1 es verdadero
elegimos H0 si P(H0|x) > P(H1|x).
134
-
Ejemplo 54 Supongamos que X| N(,1).Queremos hacer el contraste: H0 : 0 frenteH1 : > 0. Si usamos una distribucion inicialno informativa para ,
f() 1,tenemos |x N
(x, 1n
). Entonces,
P(H0|x) = P( 0|x)= P
(n( x) nx|x
)=
(nx
)donde () es la funcion de distribucion nor-mal.
Observacion 22 Esta probabilidad es igual alp valor clasico para el contraste Hc0 : = 0frente H1 : > 0.
P(X x|H0) = P(
nX nx|H0)
= 1(
nx)
= (nx
)135
-
La paradoja de Lindley/Jeffreys
Consideramos el contraste H0 : = 0 frente
la alternativa H1 : = 0. En situaciones as,los resultados bayesianos pueden ser muy difer-
entes de los resultados clasicos.
Ejemplo 55 X| N (,1). Hacemos el con-traste H0 : = 0 frente H1 : = 0.
Se definen las probabilidades a priori
f0 = P(H0) = 0,5 = P(H1) = f1
y se supone que |H1 N (0,1).
Suponiendo que se observa la media de una
muestra de tamano n, se quiere calcular las
probabilidades a posteriori.
136
-
En primer lugar
0 = P(H0|x) f0f(x| = 0)
12
(n
2
)12exp
(nx
2
2
)
=K
2
(n
2
)12exp
(nx
2
2
)
para una constante K = f(x). Tambien
f(,H1|x) f1f(x|,H1)f(|H1)
12
(n
2
)12exp
(n(x )
2
2
)
(
1
2
)12exp
(
2
2
)
=K
2
(n
2
)12(
1
2
)12
exp(12
[n(x )2 + 2
])
donde K es la misma constante.
137
-
Entonces, se tiene
1 = P(H1|x)=
f(,H1|x) d
=
K
2
(n
2
)12(
1
2
)12exp
(12
[n(x )2 + 2
])d
=K
2
(n
2
)12(
1
2
)12
exp
(12
[(n+1)
( nx
n+1
)2 nx
2
n+1
])d
=K
2
(n
2
)12 1
n+1exp
( nx
2
2(n+1)
)
Recordando que 0 + 1 = 1, se tiene
K =
(1
2
( n2
)12
exp
(nx
2
2
)+
1
2
( n2
)12 1
n+1exp
( nx
2
2(n+1)
))1.
138
-
Entonces
0 =12
(n2
)12 exp
(nx22
)12
(n2
)12 exp
(nx22
)+ 1
2
(n2
)12 1
n+1exp
( nx2
2(n+1)
)=
exp(nx2
2
)exp
(nx22
)+ 1
n+1exp
( nx2
2(n+1)
)
=exp
(n(n+1)x2
2(n+1)
)exp
(n(n+1)x2
2(n+1)
)+ 1
n+1exp
( nx2
2(n+1)
)=
{1+
1n+1
exp
(n2x2
2(n+ 1)
)}1Consideramos el caso x = 2/
n > 1,96/
n.
Sabemos que si hubieramos hecho un contraste
clasico con un nivel de significacion de 95%, el
resultado habra sido significativo, y habramos
rechazado la hipotesis H0.
Pero 0 =
{1+
1n+1
exp(
n
n+1
)}1 1 cuando n .
139
-
Una muestra que nos llega a rechazar H0 con
un contraste clasico nos proporciona una prob-
abilidad a posteriori de H0 que se acerca a 1
cuando el tamano de la muestra es grande.
Esta paradoja se llama la paradoja de Lindley
y Jeffreys.
Observacion 23 La eleccion de la varianza de
en la distribucion inicial es bastante impor-
tante pero el ejemplo demuestra que no tiene
sentido usar niveles fijos de significacion segun
crece n.
Hipotesis nulos puntuales son poco razonables.
140
-
Factores Bayes
Tambien es util introducir otro concepto.
Supongamos que f0 = P(H0) y f1 = P(H1) y
que 0 = P(H0|x) y 1 = P(H1|x).
Definicion 12 Se define
B =0/1f0/f1
=0f11f0
el factor Bayes a favor de H0.
Observacion 24 El factor Bayes representa las
posibilidades (odds) a posteriori divididos por
las posibilidades a priori. Nos informe de los
cambios en nuestras creencias causados por los
datos.
Observacion 25 Es casi objetiva y parcialmente
elimina la influencia de la distribucion a priori.
141
-
Ejemplo 56 Supongamos el contraste simple
H0 : = 0 frente H1 : = 1. Tenemos
0 = P(H0|x) =f0l(0|x)
f0l(0|x) + f1l(1|x)1 = P(H1|x) =
f1l(1|x)f0l(0|x) + f1l(1|x)
Entonces el factor Bayes es
B =01
f1f0
=f0l(x|0)f1l(x|1)
f1f0
=l(0|x)l(1|x)
que coincide con la razon de verosimilutudes.
Entonces, la distribucion a priori no influye en
el factor Bayes.
142
-
Ejemplo 57 Se observa un dato de una dis-
tribucion exponencial con densidad
f(x|) = ex.Se quiere contrastar H0 : = 6 frente H1 : =
3. Cual es el factor Bayes?
B =l( = 6|x)l( = 3|x)
=6e6x3e3x
= 2e3x
Suponiendo que la probabilidad a priori de H0es 0,25, se puede demostrar que P(H0|x) < 0,5para cualquier valor de x.
En primer lugar, hallamos el factor Bayes.
143
-
B =P(H0|x)P(H1|x)
P(H1)
P(H0)
= 3P(H0|x)P(H1|x)
P(H0|x)P(H1|x)
=2
3e3x
y P(H0|x) 1/2 23e3x > 1 y entonces
x < 13log
3
2< 0
que es imposible.
Observacion 26 El factor Bayes es consistente.
Si H0 es verdadero, entonces B cuandon y si H1 es verdadero, B 0 cuandon .
144
-
El factor Bayes no elimina totalmente la influ-
encia de la distribucion a priori. Supongamos
que H0 y H1 son compuestos y entonces
B =P(H0|x)P(H1|x)
P(H1)
P(H0)
=f(x|H0)f(x|H1)
=
f(x|H0, 0)f(0|H0) d0f(x|H1, 1)f(1|H1) d1
donde f(0|H0) es la distribucion a priori bajola hipotesis H0 y f(1|H1) es la distribucion apriori bajo H1.
145
-
Ejemplo 58 Supongamos que X| E() co-mo en el Ejemplo 57. Ahora se quiere con-trastar H0 : = 6 frente a H1 : = 6. Sea ladistribucion a priori |H1 E(1/6).
Suponiendo que se observa un dato x comoanteriormente, se tiene
f(x|H0) = 6e6xy
f(x|H1) =
f(x|H1, )f(|H1) d
=
ex16e
16 d
=1
6
e
(x+16
)d
=1
6
21e
(x+16
)d
=1
6
(2)(x+ 16
)2=
6
(6x+1)2
146
-
Entonces el factor Bayes es
B = (6x+1)2e6x.
Supongamos ahora que las probabilidades a
priori son P(H0) = P(H1) = 0,5. Para cuales
valores de x es mas probable H0 a posteriori?
La probabilidad a posteriori de H0 es mayor
que 0,5 si B > 1. Construimos un grafico del
valor de B frente a x.
147
-
0.0 0.2 0.4 0.6 0.8 1.0
0.2
0.6
1.0
1.4
x
B
El modelo H0 es mas probable a posteriori si
x < 0,4188 a 4 plazas decimales.
Cual es el maximo valor posible de P(H0|x)?148
-
La probabilidad de H0 es maxima cuando el
factor Bayes es lo mas grande posible. Calcu-
lamos el maximo del factor Bayes como fun-
cion de x.
B = (6x+1)2e6x
logB = 2 log(6x+1) 6xd
dxlogB =
2
6x+1 6
0 =2
6x+1 6
36x = 8
x =2
9y en este caso, el valor de B es
B =(6 2
9+ 1
)2e6
29 = 1,43514
149
-
Recordamos que
B =P(H0|x)P(H1|x)
P(H1)
P(H0)
1,43514 =P(H0|x)
1 P(H0|x)P(H0|x) =
1,43514
1+ 1,43514 0,5893
es el maximo valor posible de la probabilidad a
posteriori.
150
-
Problemas y Generalizaciones
Si usamos distribuciones a priori impropias paralos parametros, puede que el factor Bayes noexista.
Volviendo a la situacion de la transparencia ,supongamos que f(0|H0) y f(1|H1) son im-propias, por ejemplo
f(i|Hi) = cigi(i)para algunas constantes ci indefinidas.
Luego
B =
f(x|H0, 0)f(0|H0) d0f(x|H1, 1)f(1|H1) d1
=c1c2
f(x|H0, 0)g0(0) d0f(x|H1, 1)g1(1) d1
que depende de la razon de las constantes in-definidas.
151
-
Hay algunas alternativas
factores Bayes fraccionales (OHagan, A.
Bayesian Inference, Edward Arnold, 1995)
factores Bayes intrnsicos (Berger J. y Per-
richi L. The Intrinsic Bayes Factor for lin-
ear models. En Bayesian Statistics V, eds
Bernardo et al, O.U.P., 23 42.)
Los dos metodos utilizan partes de los datos
para crear una distribucion inicial propia.
152