métodos de aproximación basados en integración numérica - felipe osorio

Post on 29-Dec-2015

36 Views

Category:

Documents

2 Downloads

Preview:

Click to see full reader

DESCRIPTION

Metodos de aproximacion basado en integracion numerica

TRANSCRIPT

Metodos de aproximacion basados enintegracion numerica

Felipe Osorio

felipe.osorio@uv.cl www.deuv.cl/osorio

MAT305 - Metodos Estadısticos, UTFSM

Cuadratura Gaussiana

Considere h(t) funcion regular (uni-dimensional) y

g(t) = h(t)(2πσ2)−1/2 exp− 1

2

(t−µσ

)2.

Cuadratura gaussiana utiliza la siguiente aproximacion∫Rg(t) dt ≈

M∑j=1

mj g(zj),

dondemj = wj exp(t2j )

√2σ, zj = µ+

√2σtj .

Para implementar este enfoque, tablas de tj , wj y wj exp(t2j ) son requeridas

(Naylor y Smith, 1982).

Cuadratura Gaussiana

Aproxima integrales con relacion a un kernel fijado por un promedioponderado del integrando evaluado en abscisas predeterminadas.

Los pesos y abscisas usadas en la cuadratura Gaussiana para los kernelsusuales pueden ser obtenidos desde tablas (Abramowitz y Stegun, 1964) opor un algoritmo propuesto por Golub (1973).

Es bien conocido que las reglas para cuadratura Gaussiana en el caso deintegrales multiples es numericamente complejo (curse of dimensionality).

Metodo Monte Carlo

Considere aproximar la integral

J =

∫h(x)g(x) dx = Egh(x) < +∞.

Si g(x) es una densidad, entonces el metodo Monte Carlo aproxima J como

JM =1

M

M∑j=1

h(xj)

donde x1, . . . , xMiid∼ g(x). Por la Ley de grandes numeros, tenemos

JMc.s→ J.

Importance Sampling

Cuando no es posible muestrear directamente desde g(x) una alternativa esusar Importance sampling.

J =

∫h(x)

( g(x)

π(x)

)π(x) dx,

tal que π(x) es una densidad facil de muestrear. Luego, importance samplingaproxima J como

JM =1∑M

j=1 wj

M∑j=1

wjh(xj),

donde x1, . . . , xM ∼ π(x) y wj = g(xj)/π(xj).

Funcion de verosimilitud

Se desea aproximar la funcion de verosimilitud

L(β,θ, σ2) =

n∏i=1

∫Rq

(2πσ2)−(ni+q)/2|∆| exp−g(β,θ,yi, bi)/2σ2dbi

dondeg(β,θ,yi, bi) = ‖Y i − f i(zi, bi)‖

2 + ‖∆bi‖2.

Funcion de verosimilitud

Sea

bi = bi(β,θ,yi) = arg minθ

g(β,θ,yi, bi),

G(β,θ,yi) =∂2g(β,θ,yi, bi)

∂bi∂bTi

∣∣∣bi=bi

.

Tenemos que el integrando es (ademas de una constante) aproximadamenteigual a la densidad

Nq(bi, σ2G−1(β,θ,yi)).

(que es una eleccion natural para la distribucion de importancia).

Aproximacion por importance sampling

Obtenemos una observacion desde Nq(bi, σ2G−1(β,θ,yi)), tomando

z∗ ∼ N(0, I) y calculando

b∗i = bi + σG−1/2(β,θ,yi)z∗,

donde G1/2(β,θ,yi) es el factor Cholesky de G(β,θ,yi).

Repetimos el procedimiento anterior M veces (numero de muestras de

importancia).

Aproximacion por importance sampling

La aproximacion importance sampling de la log-verosimilitud marginal estadada por

`IS(β,θ, σ2) = −1

2

N log(2πσ2) + n log |D|+

n∑i=1

log |G(β,θ, σ2)|

+

n∑i=1

log M∑j=1

exp[−g(β,θ,yi, b∗ij)/2σ

2 + ‖z∗j‖2/2]/M.

En este caso no es posible obtener expresiones en forma cerrada del MLE de σ2

para β y θ fijos.

Aproximacion por cuadratura Gaussiana

Idea:

Aprovechar la estructura del integrando en nlme para transformar el problema

en la aplicacion sucesiva de reglas de cuadratura Gaussiana unidimensionales.

Aproximacion por cuadratura Gaussiana

Sean z∗j , wj , j = 1, . . . ,M , las abscisas y los pesos para la cuadraturaGaussiana (unidimensional) con M puntos basados en un kernel N(0, 1).

Entonces∫Rq

(2πσ2)−q/2|D|−1/2 exp−‖yi − f i(β, bi)‖2/2σ2 exp(−bTi D−1bi/2σ

2) dbi

=

∫Rq

(2π)−q/2 exp−‖yi − f i(β, σDT/2z∗)‖2/2σ2 exp(−‖z∗‖2/2) dz∗

≈M∑j1=1

· · ·M∑jq=1

exp−‖yi − f i(β, σDT/2z∗j1,...,jq )‖2/2σ2

q∏k=1

wjk

donde z∗j1,...,jq = (z∗j1 , . . . , z∗jq )T .

Aproximacion por cuadratura Gaussiana

Luego, la aproximacion para la funcion de log-verosimilitud usando cuadraturaGaussiana esta dada por

`GQ(β,θ, σ2) = −N2

log(2πσ2)

+

n∑i=1

log M∑j

exp(−‖yi − f i(β, σDT/2z∗j)‖2/2σ2)

q∏k=1

wjk

donde j = (j1, . . . , jq)T .

Aproximacion por cuadratura Gaussiana adaptativa

Observaciones:

Cuadratura Gaussiana corresponde a una version determinista deintegracion Monte Carlo, donde las muestras de bi son generadas desdeNq(0, σ

2D).

Cuadratura Gaussiana adaptativa (AGQ) es el homologo determinista deImportance sampling.

En AGQ, la grilla de abscisas en la escala bi esta centrada en bi yG(β,θ,yi) se utiliza para escalar z∗.

Aproximacion por cuadratura Gaussiana adaptativa

La cuadratura Gaussiana adaptativa esta dada por∫Rq

(2πσ2)−q/2|D|−1/2 exp−‖yi − f i(β, bi)‖2/2σ2 exp(−bTi D−1bi/2σ2) dbi

=

∫Rq

(2π)−q/2|G(β,θ,yi)D|−1/2

× exp−g(β,θ,yi, bi + σG−1/2(β,θ,yi)z∗)/2σ2 + ‖z∗‖2/2 exp(−‖z∗‖2/2) dz∗

≈M∑j1=1

· · ·M∑jq=1

exp−g(β,θ,yi, bi + σG−1/2(β,θ,yi)z∗j1,...,jq

)/2σ2

+ ‖z∗j1,...,jq‖2/2

q∏k=1

wjk .

Aproximacion por cuadratura Gaussiana

La aproximacion de la log-verosimilitud asume la forma

`AGQ(β,θ, σ2) = −1

2

N log(2πσ2) + n log |D|+

n∑i=1

log |G(β,θ,yi)|

+n∑i=1

log M∑j

exp−g(β,θ,yi, bi + σG−1/2(β,θ,yi)z∗j)/2σ2

+ ‖z∗j‖2

q∏k=1

wjk

donde j = (j1, . . . , jq)

T .

Aproximacion por cuadratura Gaussiana adaptativa

Observaciones:

AGQ usa abscisas y pesos fijos, mientras que Importance sampling lasdetermina por medio de simulacion.

Cuando M = 1 cuadratura Gaussiana adaptativa reduce a laaproximacion Laplace (ver Sesion 9).

AGQ es exacto cuando f es lineal en bi, esto no es verdad paracuadratura Gaussiana.

Cinetica de Teofilina (Boeckmann, Sheiner y Beal, 1984)

Dosis orales de droga anti-asmatica Teofilina son suministradas a doceindivıduos, luego las concentraciones en la sangre (mg/L) son medidas en 11instantes en un periodo de 25 horas.

Time since drug administration (hr)

The

ophy

lline

con

cent

ratio

n in

ser

um (

mg/

l)

0

2

4

6

8

10

0 5 10 15 20 25

6

7

0 5 10 15 20 25

8

11

3

2

4

0

2

4

6

8

10

90

2

4

6

8

10

12

0 5 10 15 20 25

10

1

0 5 10 15 20 25

5

Cinetica de Teofilina (Pinheiro y Bates, 1995)

Modelo:

Yij =∆iKkai

Cli(kai −K)exp(−Ktij)− exp(−kaitij), (1)

donde ∆i representa la dosis inicial, kai y K son las constantes de absorcion yeliminacion, respectivamente y Cli es el Clearance, con

Cli = exp(β1 + bi1), kai = exp(β2 + bi2), K = exp(β3).

donde bi = (b1i, b2i)T ind∼ N2(0,Ψ).

Cinetica de Teofilina (Pinheiro y Bates, 1995)

Resultados de estimacion:

Aproximacion β1 β2 β3 log σ2 `LME -3.22719 0.46548 -2.45464 -0.68660 -177.0237Laplace -3.22946 0.46876 -2.46432 -0.68658 -176.9995Imp. sampling1000 -3.22682 0.47614 -2.45851 -0.68747 -177.7689Gaussiana5 -3.30411 0.50046 -2.48743 -0.48395 -182.4680Gaussiana10 -3.23814 0.59525 -2.46872 -0.70276 -176.1008Gaussiana100 -3.22684 0.47947 -2.45893 -0.68539 -177.7293Gaussiana Adap.5 -3.22503 0.47566 -2.45788 -0.68677 -177.7499Gaussiana Adap.10 -3.22705 0.47377 -2.45942 -0.68533 -177.7473

Cinetica de Teofilina (Pinheiro y Bates, 1995)

Numero de evaluaciones funcionales hasta convergencia:

Aproximacion Evaluaciones funcionalesLME 1.512Laplace 7.683Gaussiana Adap.5 30.020Gaussiana Adap.10 96.784Gaussiana5 47.700Gaussiana10 318.000Gaussiana100 10.200.000Imp. sampling1000 11.211.284

Modelo no lineal con efectos mixtos

Modelo en dos etapas:

Y i|φiind∼ Nmi(f i(zi,φi), σ

2Imi) y

φi = Aiβ + bi, biind∼ Nq(0,Ψ), (2)

para i = 1, . . . , n, con Ψ = Ψ(λ).

De este modo

p(y1, . . . ,yn) =n∏i=1

∫Rq

p(yi|bi;β, σ2)p(bi;θ, σ

2) dbi

Modelo no lineal con efectos mixtos

El modelo en (2) corresponde a un problema de datos incompletos, con

Y com = (Y T , bT )T ,

donde Y = (Y T1 , . . . ,Y

Tn )T y b = (bT1 , . . . , b

Tn )T representan los datos

observados y perdidos, respectivamente.

Se define la funcion

Q(θ|θ) = E`c(θ;Y com)|Y , θ =

∫`c(θ|Y com)p(b|y; θ) db. (3)

Modelo no lineal con efectos mixtos

La parte relevante de la log-verosimilitud de datos completos asume la forma

`c(θ;Y com) = −N2

log σ2 − 1

2σ2

n∑i=1

‖Y i − f i(zi,φi)‖2

− n

2log |Ψ| − 1

2

n∑i=1

(φi −Aiβ)TΨ−1(φi −Aiβ)

Note que:

La esperanza condicional requerida para el algoritmo EM en el modelo nlme es

intratable.

Algoritmos EM en nlme

Examinamos las siguientes versiones de algoritmos EM para nlme:

Monte Carlo EM (Walker, 1996).

Importance sampling y EM con cuadratura Gaussiana (Wang, 2007).

SAEM (Aproximacion Estocastica EM) por Kuhn y Lavielle (2005).

Monte Carlo EM (Walker, 1996)

Debido a la dificultad para evaluar la funcion Q(θ|θ) en (3), Walker (1996)propone:

Diferenciar bajo el signo de la integral, y

Aproximar las esperanzas necesarias usando Monte Carlo.

De este modo, el MLE esta dado por

E ∂

∂θ`c(θ|Y com)|Y ,θ

= 0.

Monte Carlo EM (Walker, 1996)

En nuestro caso

∂`c(θ|Y com)

∂βT=

n∑i=1

ATi Ψ−1(φi −Aiβ),

∂`c(θ|Y com)

∂ vechT Ψ=

1

2Ψ−1

n∑i=1

(φi −Aiβ)(φi −Aiβ)T − nΨ

Ψ−1,

∂`c(θ|Y com)

∂σ2= − N

2σ2+

1

2σ4

n∑i=1

‖Y i − f i(zi,φi)‖2.

Monte Carlo EM (Walker, 1996)

De este modo los MLE esta dados por

β =( n∑i=1

ATi Ψ−1Ai

)−1

ATi Ψ−1 E(φi|Y ,θ

′),

Ψ =1

n

n∑i=1

E(φi −Aiβ)(φi −Aiβ)T |Y ,θ′,

σ2 =1

N

n∑i=1

E‖Y i − f i(zi,φi)‖2|Y ,θ′.

Monte Carlo EM (Walker, 1996)

Sea φi = E(φi|Y ,θ′), Φi = Cov(φi|Y ,θ′), f i = E(f i(φi)|Y ,θ′) yΩi = Cov(f i(φi)|Y ,θ′). Entonces

β =( n∑i=1

ATi Ψ−1Ai

)−1

ATi Ψ−1φi,

Ψ =1

n

n∑i=1

(φi −Aiβ)(φi −Aiβ)T + Φi,

σ2 =1

N

n∑i=1

‖Y i − f i‖2 + tr(Ωi).

Monte Carlo EM (Walker, 1996)

Note que es requerido el calculo, de esperanzas como

φi =

∫φip(yi|φi;β, σ2)p(φi;θ, σ

2) dφi∫p(yi|φi;β, σ2)p(φi;θ, σ

2) dφi.

Para implementar Monte Carlo, considere T grande y tome

b(1), . . . , b(T ) iid∼ N(0,Ψ),

calcule φ(k) = Aiβ + b(k), k = 1, . . . , T , y finalmente

φi =

∑Tk=1 φ

(k)p(yi|φ(k);β, σ2)∑Tk=1 p(yi|φ

(k);β, σ2).

Monte Carlo EM (Walker, 1996)

Calculamos de manera analoga

Φi =

∑Tk=1 φ

(k)φ(k)T p(yi|φ(k);β, σ2)∑Tk=1 p(yi|φ

(k);β, σ2),

f i =

∑Tk=1 f(φ(k))p(yi|φ(k);β, σ2)∑T

k=1 p(yi|φ(k);β, σ2)

,

Ωi =

∑Tk=1 f(φ(k))fT (φ(k))p(yi|φ(k);β, σ2)∑T

k=1 p(yi|φ(k);β, σ2)

,

tal que Φi = Φi − φiφT

i y Ωi = Ωi − f ifT

i

Importance sampling (Wang, 2007)

El paso E del algoritmo EM requiere el calculo de

E(U(b)|Y ,θ′) =

∫U(Y , b)p(b|Y ,θ′) db ≈ 1

T

T∑k=1

U(Y , b(k))

con b(1), . . . b(T ) desde p(b|Y ,θ′).

Wang (2007) propone hacer importance sampling desde una mezcla λ(b) de

p(b) y N(b, (H + cI)−1) para c ≥ 0 una constante pequena,

λ(b) = γ0 p(b) + (1− γ0)N(b− b, (H + cI)−1), (0 ≤ γ0 ≤ 1).

Importance sampling (Wang, 2007)

De este modo Wang (2007), sugiere aproximar

E(U(b)|Y ,θ′) =

∫U(Y , b)p(Y |b,θ′)p(b;θ′) db∫

p(Y |b,θ′)p(b;θ′) db,

usando la razon de dos aproximaciones MC via importance sampling desdeλ(b), como

E(U(b)|Y ,θ′) ≈∑Tk=1 wkU(Y , b(k))p(Y |b(k),θ′)∑T

k=1 wkwkp(Y |b(k),θ′)

,

dondePb = Ψ1/2z = γ0 = 1− Pb = b+ (H + cI)−1z

con z ∼ N(0, I) y w = p(b;θ′)/λ(b).

Importance sampling (Wang, 2007)

Observaciones:

Para γ0 = 1, el algoritmo de Wang (2007) reduce al procedimientopropuesto por Walker (1996).

Cuando q ≤ 3, Wang (2007) sugiere utilizar cuadratura Gaussiana para laetapa E del algoritmo EM.

Algoritmo SAEM (Kuhn y Lavielle, 2005)

Cuando la log-verosimilitud de datos completos pertence a la familiaexponencial, esto es,

p(y,φ;θ) = exp−Ψ(θ) + 〈S(y,φ),Φ(θ)〉.

Delyon et al. (1999) propusieron:

Aproximar la etapa E del algoritmo EM mediante dos etapas:

Etapa de Simulacion.

Etapa de Aproximacion Estocastica.

Algoritmo SAEM (Kuhn y Lavielle, 2005)

El algoritmo SAEM (Delyon et al., 1999) esta dado por:

Etapa de simulacion: tomar φ(k+1) desde la distribucion condicional

p(φ|y; θ(k)

).

Etapa de aproximacion estocastica: actualizar sk, como

sk+1 = sk + γk(S(y;φ(k+1))− sk)

Etapa de maximizacion: actualizar θ(k)

como

θ(k+1)

= arg maxθ

`c(θ;Y com)

Algoritmo SAEM (Kuhn y Lavielle, 2005)

Observaciones:

Cuando el paso de simulacion no puede ser realizado directamente Kuhny Lavielle (2004) propusieron usar un procedimiento MCMC.

Delyon et al. (1999) y Kuhn y Lavielle (2004) mostraron las propiedadesde convergencia del algoritmo SAEM.

Algoritmo SAEM (Kuhn y Lavielle, 2005)

El algoritmo SAEM obtiene los MLE en el nlme mediante aproximar

β =( n∑i=1

ATi Ψ−1Ai

)−1

ATi Ψ−1φi,

Ψ =1

n

n∑i=1

E(φi −Aiβ)(φi −Aiβ)T |Y ,θ′,

σ2 =1

N

n∑i=1

E‖Y i − f i(zi,φi)‖2|Y ,θ′.

donde φi = Eφi|Y ,θ′.

Algoritmo SAEM (Kuhn y Lavielle, 2005)

Etapa de simulacion: tomar φ(k+1) desde la distribucion condicional

p(φ|y; θ(k)

).

Aproximacion estocastica:

s(k)1,i = s

(k−1)1,i + γk(φ

(k)i − s

(k−1)1,i ),

S(k)2,i = S

(k−1)2,i + γk(φ(k)

i −Aiβ(k)

)(φ(k)i −Aiβ

(k))T − S(k−1)

2,i ),

s(k)3,i = s

(k−1)3,i + γk‖Y i − f i(zi,φ

(k)i )‖2 − s(k−1)

3,i ),

Estimacion de la log-verosimilitud

La log-verosimilitud marginal asume la forma

`o(θ) =

∫p(y,φ;θ) dφ =

∫p(y|φ;θ)p(φ;θ) dφ,

esta integral puede ser aproximada usando importance sampling como:

o(θ) =

1

M

M∑m=1

p(y|φm;θ)p(φm;θ)

p(φm;θ)

donde φ1, . . . ,φM son tomados desde p(φ;θ). La eleccion optima es la

distribucion condicional de φ|Y . Sin embargo, en la practica se utiliza p(φ).

Aproximacion del error estandar

Se aproximar la matriz de informacion de Fisher usando el principio deinformacion perdida de Louis (1982).

En cuyo caso ¨o(θ) se aproxima por la secuencia Hkk≥0 definida como

gk = gk−1 + δk(U(θ)− gk−1

)Jk = Jk−1 + δk

(∂2 log p(y, b(k); θ(k)

)

∂θ∂θT+U(θ)UT (θ)− Jk−1

)Hk = Jk − gkg

Tk ,

donde U(θ) = ∂ log p(y, b; θ(k)

)/∂θ.

Cinetica de Teofilina (Boeckmann, Sheiner y Beal, 1984)

Dosis orales de droga anti-asmatica Teofilina son suministradas a doceindivıduos, luego las concentraciones en la sangre (mg/L) son medidas en 11instantes en un periodo de 25 horas.

Time since drug administration (hr)

The

ophy

lline

con

cent

ratio

n in

ser

um (

mg/

l)

0

2

4

6

8

10

0 5 10 15 20 25

6

7

0 5 10 15 20 25

8

11

3

2

4

0

2

4

6

8

10

90

2

4

6

8

10

12

0 5 10 15 20 25

10

1

0 5 10 15 20 25

5

Cinetica de Teofilina

Modelo:

Yij =∆iKkai

Cli(kai −K)exp(−Ktij)− exp(−kaitij), (4)

donde ∆i representa la dosis inicial, kai y K son las constantes de absorcion yeliminacion, respectivamente y Cli es el Clearance, con

Cli = exp(β1 + bi1), kai = exp(β2 + bi2), K = exp(β3).

donde bi = (b1i, b2i)T ind∼ N2(0,Ψ).

Cinetica de Teofilina

Resultados de estimacion:

Procedimiento β1 β2 β3 σ2 ψ11 ψ12 ψ22

FOCE -3.29 0.89 -2.57 0.49 0.03 0.003 0.68(0.07) (0.12) (0.05) (0.07) (0.01) (0.05) (0.33)

Laplace -3.23 0.47 -2.46 0.50 0.03 0.001 0.43(0.06) (0.20) (0.05) (0.07) (0.01) (0.05) (0.20)

MCEM -3.22 0.48 -2.46 0.50 0.03 -0.001 0.44(0.06) (0.21) (0.05) (0.07) (0.01) (0.03) (0.20)

GQEM -3.23 0.49 -2.46 0.50 0.03 -0.001 0.42(0.05) (0.15) (0.05) (0.07) (0.01) (0.03) (0.20)

SAEM -3.22 0.47 -2.45 0.50 0.03 0.000 0.44(0.05) (0.20) (0.01) (0.07) (0.01) (0.00) (0.23)

top related