contrastes teoría de decisiones

CAPITULO 7. ESTIMACION Y CONT-RASTES

Para leer

Lee, Captulo 4

Estimacion puntual

Para los bayesianos, el problema de estimaciones un problema de decision. Asociada con cadaestimador T hay una perdida L(T, ) que reflejala diferencia entre y T . Por ejemplo:

L(T, ) = (T )2, la perdida cuadratica

L(T, ) = |T |, la perdida lineal absoluta

L(T, ) =

{0 si T = 1 si T = , la perdida todo

o nada.

128

Definicion 9 El estimador Bayes TB es una

solucion de

TB = mnT

E[L(T, )]

Ejemplo 48 Dada la perdida cuadratica, cual

es el estimador Bayes?

E[L(T, )] =(T )2f() d

=

(T E[] + E[] )2 f() d

={(T E[])2 + (E[] )2}f() d

= V [] + (T E[])2

y entonces TB = E[] es el estimador Bayes.

129

Ejemplo 49 Con la perdida lineal absoluta, ten-

emos

E[L(T, )] =

|T |f() d

= T

(T )f() d +

+ T

( T)f() dd

dTE[L(T |)] = (T T)f(T) +

T

f() d

(T T)f(T) T

f() d

= F(T) (1 F(T))= 2F(T) 1

Entonces, recordando que en el mnimo la deriva-

da es igual a cero, tenemos F(TB) = 1/2 y el

estimador Bayes es la mediana de la distribu-

cion de .

130

Ejemplo 50 Suponiendo que es discreta, con

la perdida todo o nada se tiene

E[L(T, )] = =T

P()

= P( = T)y se minimiza la perdida esperada eligiendo el

estimador Bayes TB como la moda de la dis-

tribucion de .

Observacion 21 Esta perdida no se puede uti-

lizar con variables continuas porque P( = T) =

0 si es continua y entonces, la perdida esper-

ada sera 1 para cualquier eleccion de T .

131

Intervalos

Se han visto intervalos de credibilidad anteri-

ormente. Sigue la definicion formal.

Definicion 10 Si f(|x) es una densidad a pos-teriori, se dice que (a, b) es un intervalo de

credibilidad de 100 (1 )% siP(a b|x) = 1

Ejemplo 51 X| N (,1). Supongamos quef() 1, entonces, |x N (x,1/n) y algunosintervalos de credibilidad de 95% son

(, x+1,64/n) o (x 1,64/n,) o(x 1,96/n)

Hay muchos intervalos de credibilidad. El mas

corto se llama un intervalo de maxima den-

sidad a posteriori (MDP)

132

Definicion 11 El intervalo MDP de 100(1)% es el intervalo de forma

C = { : f() c()}donde c() es la constante mas grande cumplien-do

P(C) 1

Ejemplo 52 Volviendo al ejemplo 51, el inter-

valo MDP de 95% es

x 1,96/n

Se puede aplicar la definicion de un interva-

lo de credibilidad a densidades multivariantes

f(|x). En estas situaciones, se puede definiruna region de credibilidad C:

P( C|x) = 1 .

133

Contrastes

Consideramos las hipotesisH0 : 0H1 : 1 , donde

0 1 = y 0 1 = .

Teoricamente es facil distinguir entre las dos

hipotesis; dados los datos, solo se deben usar

las probabilidades a posteriori. Dada una fun-

cion de perdida, se elige aceptar o rechazar H0.

Ejemplo 53 Dada la perdida todo o nada,

L(H0, ) =

{0 si H0 es verdadero1 si H1 es verdadero

elegimos H0 si P(H0|x) > P(H1|x).

134

Ejemplo 54 Supongamos que X| N(,1).Queremos hacer el contraste: H0 : 0 frenteH1 : > 0. Si usamos una distribucion inicialno informativa para ,

f() 1,tenemos |x N

(x, 1n

). Entonces,

P(H0|x) = P( 0|x)= P

(n( x) nx|x

)=

(nx

)donde () es la funcion de distribucion nor-mal.

Observacion 22 Esta probabilidad es igual alp valor clasico para el contraste Hc0 : = 0frente H1 : > 0.

P(X x|H0) = P(

nX nx|H0)

= 1(

nx)

= (nx

)135

La paradoja de Lindley/Jeffreys

Consideramos el contraste H0 : = 0 frente

la alternativa H1 : = 0. En situaciones as,los resultados bayesianos pueden ser muy difer-

entes de los resultados clasicos.

Ejemplo 55 X| N (,1). Hacemos el con-traste H0 : = 0 frente H1 : = 0.

Se definen las probabilidades a priori

f0 = P(H0) = 0,5 = P(H1) = f1

y se supone que |H1 N (0,1).

Suponiendo que se observa la media de una

muestra de tamano n, se quiere calcular las

probabilidades a posteriori.

136

En primer lugar

0 = P(H0|x) f0f(x| = 0)

12

(n

2

)12exp

(nx

2

2

)

=K

2

(n

2

)12exp

(nx

2

2

)

para una constante K = f(x). Tambien

f(,H1|x) f1f(x|,H1)f(|H1)

12

(n

2

)12exp

(n(x )

2

2

)

(

1

2

)12exp

(

2

2

)

=K

2

(n

2

)12(

1

2

)12

exp(12

[n(x )2 + 2

])

donde K es la misma constante.

137

Entonces, se tiene

1 = P(H1|x)=

f(,H1|x) d

=

K

2

(n

2

)12(

1

2

)12exp

(12

[n(x )2 + 2

])d

=K

2

(n

2

)12(

1

2

)12

exp

(12

[(n+1)

( nx

n+1

)2 nx

2

n+1

])d

=K

2

(n

2

)12 1

n+1exp

( nx

2

2(n+1)

)

Recordando que 0 + 1 = 1, se tiene

K =

(1

2

( n2

)12

exp

(nx

2

2

)+

1

2

( n2

)12 1

n+1exp

( nx

2

2(n+1)

))1.

138

Entonces

0 =12

(n2

)12 exp

(nx22

)12

(n2

)12 exp

(nx22

)+ 1

2

(n2

)12 1

n+1exp

( nx2

2(n+1)

)=

exp(nx2

2

)exp

(nx22

)+ 1

n+1exp

( nx2

2(n+1)

)

=exp

(n(n+1)x2

2(n+1)

)exp

(n(n+1)x2

2(n+1)

)+ 1

n+1exp

( nx2

2(n+1)

)=

{1+

1n+1

exp

(n2x2

2(n+ 1)

)}1Consideramos el caso x = 2/

n > 1,96/

n.

Sabemos que si hubieramos hecho un contraste

clasico con un nivel de significacion de 95%, el

resultado habra sido significativo, y habramos

rechazado la hipotesis H0.

Pero 0 =

{1+

1n+1

exp(

n

n+1

)}1 1 cuando n .

139

Una muestra que nos llega a rechazar H0 con

un contraste clasico nos proporciona una prob-

abilidad a posteriori de H0 que se acerca a 1

cuando el tamano de la muestra es grande.

Esta paradoja se llama la paradoja de Lindley

y Jeffreys.

Observacion 23 La eleccion de la varianza de

en la distribucion inicial es bastante impor-

tante pero el ejemplo demuestra que no tiene

sentido usar niveles fijos de significacion segun

crece n.

Hipotesis nulos puntuales son poco razonables.

140

Factores Bayes

Tambien es util introducir otro concepto.

Supongamos que f0 = P(H0) y f1 = P(H1) y

que 0 = P(H0|x) y 1 = P(H1|x).

Definicion 12 Se define

B =0/1f0/f1

=0f11f0

el factor Bayes a favor de H0.

Observacion 24 El factor Bayes representa las

posibilidades (odds) a posteriori divididos por

las posibilidades a priori. Nos informe de los

cambios en nuestras creencias causados por los

datos.

Observacion 25 Es casi objetiva y parcialmente

elimina la influencia de la distribucion a priori.

141

Ejemplo 56 Supongamos el contraste simple

H0 : = 0 frente H1 : = 1. Tenemos

0 = P(H0|x) =f0l(0|x)

f0l(0|x) + f1l(1|x)1 = P(H1|x) =

f1l(1|x)f0l(0|x) + f1l(1|x)

Entonces el factor Bayes es

B =01

f1f0

=f0l(x|0)f1l(x|1)

f1f0

=l(0|x)l(1|x)

que coincide con la razon de verosimilutudes.

Entonces, la distribucion a priori no influye en

el factor Bayes.

142

Ejemplo 57 Se observa un dato de una dis-

tribucion exponencial con densidad

f(x|) = ex.Se quiere contrastar H0 : = 6 frente H1 : =

3. Cual es el factor Bayes?

B =l( = 6|x)l( = 3|x)

=6e6x3e3x

= 2e3x

Suponiendo que la probabilidad a priori de H0es 0,25, se puede demostrar que P(H0|x) < 0,5para cualquier valor de x.

En primer lugar, hallamos el factor Bayes.

143

B =P(H0|x)P(H1|x)

P(H1)

P(H0)

= 3P(H0|x)P(H1|x)

P(H0|x)P(H1|x)

=2

3e3x

y P(H0|x) 1/2 23e3x > 1 y entonces

x < 13log

3

2< 0

que es imposible.

Observacion 26 El factor Bayes es consistente.

Si H0 es verdadero, entonces B cuandon y si H1 es verdadero, B 0 cuandon .

144

El factor Bayes no elimina totalmente la influ-

encia de la distribucion a priori. Supongamos

que H0 y H1 son compuestos y entonces

B =P(H0|x)P(H1|x)

P(H1)

P(H0)

=f(x|H0)f(x|H1)

=

f(x|H0, 0)f(0|H0) d0f(x|H1, 1)f(1|H1) d1

donde f(0|H0) es la distribucion a priori bajola hipotesis H0 y f(1|H1) es la distribucion apriori bajo H1.

145

Ejemplo 58 Supongamos que X| E() co-mo en el Ejemplo 57. Ahora se quiere con-trastar H0 : = 6 frente a H1 : = 6. Sea ladistribucion a priori |H1 E(1/6).

Suponiendo que se observa un dato x comoanteriormente, se tiene

f(x|H0) = 6e6xy

f(x|H1) =

f(x|H1, )f(|H1) d

=

ex16e

16 d

=1

6

e

(x+16

)d

=1

6

21e

(x+16

)d

=1

6

(2)(x+ 16

)2=

6

(6x+1)2

146

Entonces el factor Bayes es

B = (6x+1)2e6x.

Supongamos ahora que las probabilidades a

priori son P(H0) = P(H1) = 0,5. Para cuales

valores de x es mas probable H0 a posteriori?

La probabilidad a posteriori de H0 es mayor

que 0,5 si B > 1. Construimos un grafico del

valor de B frente a x.

147

0.0 0.2 0.4 0.6 0.8 1.0

0.2

0.6

1.0

1.4

x

B

El modelo H0 es mas probable a posteriori si

x < 0,4188 a 4 plazas decimales.

Cual es el maximo valor posible de P(H0|x)?148

La probabilidad de H0 es maxima cuando el

factor Bayes es lo mas grande posible. Calcu-

lamos el maximo del factor Bayes como fun-

cion de x.

B = (6x+1)2e6x

logB = 2 log(6x+1) 6xd

dxlogB =

2

6x+1 6

0 =2

6x+1 6

36x = 8

x =2

9y en este caso, el valor de B es

B =(6 2

9+ 1

)2e6

29 = 1,43514

149

Recordamos que

B =P(H0|x)P(H1|x)

P(H1)

P(H0)

1,43514 =P(H0|x)

1 P(H0|x)P(H0|x) =

1,43514

1+ 1,43514 0,5893

es el maximo valor posible de la probabilidad a

posteriori.

150

Problemas y Generalizaciones

Si usamos distribuciones a priori impropias paralos parametros, puede que el factor Bayes noexista.

Volviendo a la situacion de la transparencia ,supongamos que f(0|H0) y f(1|H1) son im-propias, por ejemplo

f(i|Hi) = cigi(i)para algunas constantes ci indefinidas.

Luego

B =

f(x|H0, 0)f(0|H0) d0f(x|H1, 1)f(1|H1) d1

=c1c2

f(x|H0, 0)g0(0) d0f(x|H1, 1)g1(1) d1

que depende de la razon de las constantes in-definidas.

151

Hay algunas alternativas

factores Bayes fraccionales (OHagan, A.

Bayesian Inference, Edward Arnold, 1995)

factores Bayes intrnsicos (Berger J. y Per-

richi L. The Intrinsic Bayes Factor for lin-

ear models. En Bayesian Statistics V, eds

Bernardo et al, O.U.P., 23 42.)

Los dos metodos utilizan partes de los datos

para crear una distribucion inicial propia.

152

contrastes teoría de decisiones

Documents