est imac ion de funciones con soporte compacto

Upload: gastly29

Post on 08-Jul-2015

57 views

Category:

Documents


1 download

TRANSCRIPT

  • 5/10/2018 Est Imac Ion de Funciones Con Soporte Compacto

    D r\'HPH,IISt)c . i! I I r

    ESTIM ACION DE FUNCIONES CONSO PORTE COMPACTO

    A LVA RO ALEJAND RO INOSTROZA ALX ES22 DE JUN IO DE 2011

    1

  • 5/10/2018 Est Imac Ion de Funciones Con Soporte Compacto

    1. indice1. Introducci6n2. Dominios Acotados

    Una Forma Intuitiva. de Aproximar la Densidad3. Metodo Reflexi6n4. Beta. Kernel

    Beta. Kernel Bivariada5. Estimaci6n por la Transformaci6n del Kernel6. Codigos7. Bibliografia

    2

  • 5/10/2018 Est Imac Ion de Funciones Con Soporte Compacto

    2. Introducci6nEs dificil concebir Ia estadfstica actual sin el concepto de distrlbucion de pro-

    babilidad de una variable aleatoria, entendiendolo como un modelo matematicoque describe el comportamiento probabilfstico de la misma, Cualquier utilizacionposterior de Ia variable aleatoria: calculo de probabilidades, inferencia estadfsti-ca 0 las tecnieas de anal isis de datos rnultidimensionales, utilizan de una u otraforma y son dependientes de la distribucion de probabilidad que se acepta parala variable. La representacion matematica mas tangible de Ia distribucion de unavariable aleatoria se corresponde con las denominadas funciones de distribuciony de densidad de probabilidad de la variable aleatoria, fntimamente relacionadasentre S 1 . Conoeer la funcion de densidad de una variable aleatoria implica teneruna completa descripcion de la misma, Es por tanto un problema fundamentalde la estadfstica la estimacion de la funcion de densidad de una variable 0 vectoraleatoric a partir de la informacion proporcionada por una muestra.

    Una alternativa para el analisis es no predeterminar a priori ningiin modelopara la distribucion de probabilidad de la variable y dejar que la Iuncion dedensidad pueda adoptar cualquier forma, sin mas limites que los impuestos porlas propiedades que se exigen a las funciones de densidad para ser consideradascomo tales. Este enfoque es el denominado estirnacion no parametrica de ladensidad, y tiene uno de sus orfgenes mas cormmmente aceptados en los trabajosde Fix y Hodges (1951).

    Dentro del campo de la estimacion no parametrrca es muy frecuente queel dominio natural de definicion de una densidad que se estima no es toda lalinea real, sino un intervale delimit ado en uno 0 ambos lados. Este trabajo seenfoea en el presente problema present ando tres metodos los cuales mejoranconsiderablemente la estimacion de la densidad.

    3

  • 5/10/2018 Est Imac Ion de Funciones Con Soporte Compacto

    3. Dominios AcotadosEn muchas ocasiones el dominic de definicion de una densidad no es toda

    la recta real sino un subconjunto de la misma. Uno de los ejemplos mas claroses la estimaci6n a partir de tiempos 0 de cualquier variable que solo pueda ta-mar valores positives. La utilizaci6n de las funciones Kernel sin realizar ninguna ~modificacion previa conduce a estimaciones inexactas, por ejemplo las ~sti-maciones de la densidad que se observan en la Figura 1 al estimar una densidadexponencial negativa a partir de una muestra simulada.

    EI usa de un ejemplo es muy natural puesto que la informacion obtenida dela investigaci6n de las estimaciones de densidad puede proporcionar propiedadespara un determinada conjunto de datos. Estas estimaciones pueden dar indica-ciones valiosas de caracterfsticas tales como la asimetrfa y la multimodalidad enlos datos. Es por esto que para un mejor entendimiento se utilizaron los datosobtenidos por un estudio. Este consiste en el tiempo que duraron 86 tratamien-tos psiquiatricos de pacientes con riesgo de suicidio reportado por Copas y Fryer(1980).

    En la Figura 2 se pueden apreciar la estimaci6n de la densidad utilizandoel metodo kernel Epanechnikov. Es facll apreciar que al obtener un suavizadoadecuado se produce la misma subestimaci6n que en la Figura 1 puesto quela contribucion a 1 0 00j(x)dx de los puntas cercanos a cero sera rnucho menorque el de puntos bien alejados de la frontera, y asi, si la estimaci6n se vuelvea reescalar para que sea una densidad, el peso de la distribuci6n cerca de cerosera subestimado.

    4

  • 5/10/2018 Est Imac Ion de Funciones Con Soporte Compacto

    EPANECHNIKOV hO.1 EPANECHNIKOV hO.3

    o 1 2 3 4 5 6 7 1 2 3 4 567x x

    EPANECHNIKOV haG.S EPANECHNIKOV h-O.9ED

    1 l- ; l >-d , 0 1 234 5 6 7 0 1 2 3 4 5 6 7

    X X

    Figura 1:EstimaciOn basada. en Ia simulaci6n de una exponencial con parametrolambda=l, n=l000

    5

  • 5/10/2018 Est Imac Ion de Funciones Con Soporte Compacto

    3.1. Una Forma Intuitiva de Aproximar la DensidadUna alternativa en la que podriamos pensar es estimar iinicamente en la par-

    te positiva y asignar i(x ) igual a cero en los valores negatives; renormalizandoposteriormente para que la integral fuera 1. Supongamos por ejemplo que f(x)esti definida solo para x ~ 0, 10 cual resulta.\~C \~)

    E[in(x)) =I: :n K t ~ ~f(Y)dY = 1 o ' X ) :n K( ~ Y)f(y)dy (1)y con la situacin habitual Y = x - th y el desarrollo de Taylor obtenemos

    E[in(x)] =L : K(t)f(x - th)dt (2):: c 00 2 i )

    ~ f(x) L : k(t)dt - f'(x)h L : tk(t)dt + f"(x) ~ L : Pk(t)dt (3)Y la estimacion presenta un claro sesgo al ser

    nl~~ E[i(x)) =f(x) L : k(t)dt < f(x)_para..x E [0,h) (4)Sin embargo este proceso no soluciona la ~stimaci6n que se produce en

    las cercanlas del limite del dominic.

    7

  • 5/10/2018 Est Imac Ion de Funciones Con Soporte Compacto

    4. Metoda ReflexionEs posible utilizar adaptaciones de los metodos originalmente disefiado para

    toda la recta real. 8upongamos que aumentamos los datos al agregar las refle-xiones de todos los puntos, para dar al conjunto {Xl, - Xl, X2, -X 2, ...... } siuna estimacion del kernel r se construye a partir de este conjunto de datos detamaiio 2n, entonces, una estimaci6n basada en los datos originales puede serobtenida al colocar.

    l e x ) = { 2 f * e X) para x ; : : : 0o para x < 0

    (5 )Esta estimaci6n corresponde a un estimador general de la funci6n de pondera-ci6n con x e y > o .

    1 y-x 1 y+xw(x, y ) = li,k(-h-) + li,k(-h-) (6 )Siempre que el kernel es simetrico y diferenciable, una facil manipulacion

    muestra que la estimaci6n siempre tendra una derivada cero en el limite. Si elkernel es una densidad simetrica, la estimacion sera una densidad de proba-bilidad. Esta claro que no suele ser necesario reflejar el conjunto de datos ensu totalidad, ya que sites suficientemente grande, el punto reflejado ~ nosera.senti do en el calculo de r ( x ) para un x ; : : : 0, y por 1 0 tanto, solo necesitamosreflejar los puntos cerca de o .

    Por ejemplo, si K es el Kernel normal no hay necesidad practice de reflejarlos puntos donde Xi > Ah. Esta tecnica de reflexion se puede utilizar en conjuntocon cualquier metodo para la estimacion de la densidad en toda la linea. Conla mayoria de los metodos las estimaciones que satisfacen r (0+) = 0 seranobtenidas. Otra, tecnica relacionada fuerza /'(0+) = 0 en vez de /'(0+) =o .Refleja los datos al iguaJ que antes, pero da a los puntos reflejados unaponderacin de -1 en el calculo de la estimacion; por 10 que la estimaci6n es,para x ;::: . Vamos a llamar a esta tecnica Refiexion Negative,

    l e x ) =~ ~[K(x - Xi) _ K(x +Xi)]nh f ; ; t h h (7 )

    8

  • 5/10/2018 Est Imac Ion de Funciones Con Soporte Compacto

    4.1. Aplicaciones4.1.1. MuestraSimulada

    MU ES TR A S IM UL AD A S IN REFLEXION

    ;;- >- ~0 ; ; ;C!0

    0.0 1.0 2.0 3.0 00 U 2.0 3. 0X X

    MUESTRA REFLEJAOA CON REFLEX ION

  • 5/10/2018 Est Imac Ion de Funciones Con Soporte Compacto

    4.1.2. Suicidio Reportados por Copas y Fryer

    S IN REFLEX ION

    o 5 10 15 20 25

    xCON REFLEX rON

    >-

    -2 0 .10 o 10 20x

    Figura 4: Estimaci6n de la densidad para los datos de suicidio report ados porCopas y Fryer utilizando la funci6n Kernel Epanechnikov y el metodo de laReflexi6n de Ia muestra, h=5

    10

  • 5/10/2018 Est Imac Ion de Funciones Con Soporte Compacto

    5. Beta kernelEn esta seccion se examina el uso de la funcion Beta Kernel introducido por

    Brown y Chen (1999) para la estimacion de las curvas de regresion no parametri-cas y las densidades univariantes con soporte compacto, respectivamente. A raizde una idea de Harrell y Davis (1982), Chen (1999,2000) introdujo el estimadorKernel Beta como un estimador de una funcion de densidad con soporte com-pacto [0,1], para eliminar el sesgo en el limite producido POt estirnadores Kernelestandar.

    A 1 T X I-x!hex) =T LK(Xil h + 1, -h- + 1)i=

    (8 )donde KC 0:', (3 ) denota la densidad de la distribucion beta con parametres a y(3 , xCl(1 - x)f3K(x,a,(J) = B(a,{3) .a : E [0,1] (9 )donde

    r(a+{3)B(a,(J) = r(a)r(J) (10)

    No existe regla de oro para la eleccion del parametro de suavisado. El KernelBeta tiene dos ventajas prinoipales. En primer lugar, puede igualar el apoyocompacta del objeto a ser estimado. En segundo lugar, tiene una forma flexibley cambia la suavidad de una manera natural a medida que se aleja de los limites.Como consecuencia de ello, el Kernel Beta es un estimador libre de sesgo en ellimite y puede producir estimaciones con una variacion menor, De hecho sepueden beneficiar de un mayor tarnafio efectivo de la muestra ya que puedenacumularse mas datos.

    5.1. Beta Kernel BivariadaRenault y Scaillet (2004) informan un mejor rendimiento en comparacion con

    los estimadores Kernel de transformacion (Silverman (1986. Ademas, Bouez-marni y Rolin (2001, 2003) muestran que el estimador de densidad Kernel Betaes compatible incluso si la densidad real es sin lfmites en las fronteras esta carac-terfstica tambien pueden surgir en nuestra situacion, Pot ejemplo, la densidad deun Copula Gaussiana bivariada es iIimitada en las esquinas (0, 0) y (1,1), por 1 0tanto Kernel Beta son candidatos apropiados para construir buenos estimadores

    11

  • 5/10/2018 Est Imac Ion de Funciones Con Soporte Compacto

    no parametricos de la densidad de una funci6n Copula.

    La variacion depende dela ubicacion. M a s precisamente, Var(ch(u, u es fJ(TlI')-l),donde k = 2 en las esquinas, k =3/2 en las fronteras, y k =1 en el interior de[0,1] x [0,1]. Por otra parte, asf como estimaciones estandar kernel, Ch(U, v) esasint6ticamente una distribuci6n normal:

    as.:rhk' -+ co.and.h. -+ 0(12)(13)

    donde k' depende de la ubicaclon, y donde 0 '( U,v)2 es proporcional a c(u , v )

    D EN SID AO E XP ON EN CIA L T RU NC AD A

    0.0 02 0.4 0.6 08 1.0x

    K ER NE L E PA NE CH MK OV K ER NE L B ET A

    OeO 0.2 0.4 0.6 as 1.0 0.0 0.2 0.4 0.6 0.8 1.0x x

    Figura 5: Estimecion basada en la simulaci6n de una exponencial truncada conparametro lambda.=3, n=1000 y h=0.2 para los dos metodos

    12

  • 5/10/2018 Est Imac Ion de Funciones Con Soporte Compacto

    5.2. Funcion CopulaUna funcion Copula, es la restriccion a [0,I ]" de una funcion de distribucion

    n-dimensional cuyas marginales son distribuciones uniformes en el intervale [0,1]

    Figura 6: Estimacion basada en la simulaci6n de 1000 datos desde la funcionCopula Frank, h=O.Ol

    13

  • 5/10/2018 Est Imac Ion de Funciones Con Soporte Compacto

    Figura 7: Estimacion basada en la simulacion de 1000 datos desde la funcionCopula Frank, h=O.05

    14

  • 5/10/2018 Est Imac Ion de Funciones Con Soporte Compacto

    6. Estimaci6n por la Transforrnacion del KernelLa estimacion del Kernel transformado sobre la linea real fue introducido

    para reducir el error L1 de una forma relativamente facil. Los datos primeroson transformados T ;R -tR por una transformacion estrictamente monotonacreciente y diferenciable T ;Y1=T(X1) .... . , Yn =T(Xn).

    La densidad de Y1es(14)

    donde T-1 denota la inversa de T. 9 se calcula por la estimacion del kernel.1 ~ y-Yign(Y) =Ii6K(-h-)'n i=l (15)

    Donde K es el kernel con J K = 1. Finalmente, la estirnacion esta sujeta a latransformacion inversa, obteniendo as! la estimaei6n del kernel transformado

    Es evidente que,J fn,T =1 .Como se deja el error L1 inalterado, es decir,!fn,T(X) - f(x)ldx =J Ign(Y) - g(y)ldy, (17)Basta con estudiar el error L1 en el espacio transformado, y de ahf el interesde esas estimaciones.Si T =ax + b es lineal, entonces fn,T es la estimaci6n delkernel comun con factor de suavizado h=~.El interes, por 10 tanto, es en lastransformaciones no lineales. Se sabe que las colas pesadas se deben evitar paralas estirnaciones de kernel "Devroye". Por 1 0 tanto ,tenemos que compactar lastransformaciones de los datos. Si no ponemos ninguna restricci6n en la formade la transformaci6n, la eleccion optima se hace imposible .

    1 5

  • 5/10/2018 Est Imac Ion de Funciones Con Soporte Compacto

    q("")

    LQNM q=i Nro-0(IJ~ LQ:J~c.2 q

    LQ0

    0.0 0. 2 OA 0.8.6 1.0u

    Figura 8: Estimaci6n baaada en la Transfotmaci6n de una funci6n t de Stu-dent,para una exponencial truncada

    16

  • 5/10/2018 Est Imac Ion de Funciones Con Soporte Compacto

    7. Codigos7.1. Estimacion basada en la simulacion de una exponen-

    cial

    r< -z'expC 10 00 , 1 )n f< -l ay ou t( ma tr ix (c (1 ,2 ,3 ,4 ), 2 , 2, b yr ow =T RU E) ,r es pe ct =T RU E)h is t( r, fr eq =F ,y la b= lt yl t, xl ab =" X" ,c ol =" bl ue ", ma in =" EP A NE C HN IK O V h =O . l1 t )z = d en si ty ( r,b w= O. l, ke rn el= 'e pa ne ch ni ko v' , n =1 000, fr om =0, to =1 00)l i ne s ( z ,c o l= " re dlt)h is t{ r, fr eq =F ,y la b= "Y ", xl ab =" X" , co l= "b lu e" , ma in =" EP AN E C HN IK OV h =0 .3 ")z = d en sit y (r ,b w= O. 3, ke rn el ='e pa ne ch ni ko v' , n= 1000, fro m= 0,t o= 100)lines{z,col="red")hist(r,freq=F,ylab="YI,xlab="X",col=ltblue",main="EPANECHNIKOV h=O.6")z = d en sit y (r ,b w= O. 6, ke rn el ='e pa ne ch ni ko v' , n= 1000, fro m= O,t o= 100)lines(z,col="red")h is t( r, fr eq =F ,y la b= "Y ", xl ab =I X" ,c ol =" bl ue ", ma in =" EP AN EC HN IK OV h =O .9 ")z . . d en si ty ( r, bw =O .9 ,k er ne l= 'e pa ne ch ni ko v' , n =1 00 0, fr om =O ,t o= 10 0)lines(z,col="red")

    17

  • 5/10/2018 Est Imac Ion de Funciones Con Soporte Compacto

    7.2. Estimaci6n de la densidad para los datos de suicidioreportados por Copas y Fryern f< -l ay ou t( ma tr ix (c (1 ,2 ,3 ,4 ), 2 , 2 , b yr ow =T R UE ), re sp ec t= TR UE )h is t( a, fr eq =F ,y la b= "Y ", xl ab =" X" ,c ol =" gr ee n" ,m ai n= "E PA N EC HN IK O V h =1 ", 20 )z . . de ns it y ( a, bw =l ,k er ne l= 'e pa ne ch ni ko v' , n =1 00 0, fr om =O ,t o= 25 )lines(z,col="red")h is t (a ,f re q =F ,y l ab =" Y" , xl ab =" X ", co l =" gr ee n ", ma i n . .I I EP A NE C H NI K OV h = 2" ,2 0)z = d en si ty ( a, bw =2, ke rn el =' ep an ec hn ik ov ', n =l OO O, fr om =O ,t o= 25 )l i n es ( z ,c o l= " r ed " )h is t( a, fr eq =F ,y la b= "Y ", xl ab =" XI ,c ol =" gr ee n" ,m ai n= "E P AN EC H NI KO V h =4 ", 20 )z = d en si ty ( a, bw =4 ,k er ne l= 'e pa ne ch ni ko v' , n =1 000, fr om =O ,t o= 25 )lines(z,col="red")h is t( a, fr eq =F ,y la b= "Y ", xl ab =" X" ,c ol =" gr ee n" ,m ai n= "E P AN EC H NI KO V h =6 ", 20 )z = d en si ty ( a, bw =6 ,k er ne l= 'e pa ne Ch ni ko v' , n =1 000 ,f ro m= O, to =25 )lines(z,col="red")

    18

  • 5/10/2018 Est Imac Ion de Funciones Con Soporte Compacto

    7.3. Estimacion basada en la simulacion de una exponen-cial con parametro lambda=2, n=1000,utilizando fun-cion Kernel Epanechnikov y el rnetodo de Reflexi6nde la muestra, h=O.5

    k er ne l e pa ne ch n ik ovkl

  • 5/10/2018 Est Imac Ion de Funciones Con Soporte Compacto

    l

  • 5/10/2018 Est Imac Ion de Funciones Con Soporte Compacto

    1.4. Estimacion de la densidad para los datos de suicidioreport ados por Copas y Fryer utilizando la funcionKernel Epanechnikov y el metodo de la Reflexion dela muestra, h=5

    k er ne l e pa ne ch ni ko vk1

  • 5/10/2018 Est Imac Ion de Funciones Con Soporte Compacto

    n

  • 5/10/2018 Est Imac Ion de Funciones Con Soporte Compacto

    7.5. Estimaci6n basada en la simulaci6n de una exponen-cial truncada con parametro lambda=3, n=1000 yh=O.2 para los dos metodos

    figura 5f un cio n e xpo nen cia l t un cad af u nc t ru n ca d a< - fu n ct i on ( x, l a mb d a){p

  • 5/10/2018 Est Imac Ion de Funciones Con Soporte Compacto

    est [j]< -s um (Y ) * (l /n )}

    r et ur n ( es t)}n f< -l ay ou t( ma tr ix (c (l ,l ,2 ,3 ), 2 , 2 , b yr oy =T RU E) ,r es pe ct =T RU E)p=1001s = seq(l/p, len=(p-l), by=l/p)grafico de la densidad truncadah ist (t r( 1000, 3) ,f re q= F, yl ab =" Y" ,x la b= "X" ,m ai n= "D EN SI DA D E XP ON EN CI AL T RU NC AD A" )grafico de la estimacion de la densidadf un ci on k er ne l e pa ne ch ni ko vh is t ( tr (1 00 0 , 3) ,f re q= F, y la b= "Y " , xl ab =" X" , ma in =" KE RN EL E PA NE CH NI KO V" )z = d en si ty ( tr (1 000, 3) ,b w=O .02, ke rn el =' ep an ec hn ik ov ', n =1 000,f ro m= O, to =1 )l i ne s ( z ,c o l= " re d ")grafico estimacion de la densidadbeta kernelh is t( tr (1 00 0, 3) , fr eq =F , yl ab =" Y" , xl ab "" X" ,m ai n= "K ER NE L B ET A" )y

  • 5/10/2018 Est Imac Ion de Funciones Con Soporte Compacto

    7.6. Estimaci6n basada en la simulaci6n de 1000datos des-de la funci6n Copula Frank, h=O.Ol h=0.03 h=0.05h=0.07

    n f< -l ay ou t( ma tr ix (c (l ,2 ,3 ,4 ) , 2, 2, b yr ow =T R UE ) ,r es pe ct =T R UE )library(copula)beta.kernel.copula.surface = function (u,v,bx,by,p) {s . . se q( l/ p, l eno o( p- l), b y ..l /p )mat .. matrix(O,nrow .. p-l, ncol .. p-l)for (i in l:(p-l)) {a = sri]for (j in l:(p-l)) {b .. s[j]m a t[ i ,j ] . . s u m( d be t a( a ,( u /b x )+ l , l -u ) /b x )+ l ) *dbeta(b,(v/by)+l,l-v)/by)+l)) / (lengtheu))}}return(data.matrix(mat)) }l ib ra ry ( co pu la )COPULA .. frankCopula(param"S, dim = 2)X = r co pu la (n =1 00 0, C OP U LA )pO = 26Z = b et a. ke rn el .c op ul a. su rf ac e( X[ ,1 ] ,X [, 2] ,b x . ..O l ,b y= .O l ,p =p O)u = seq(l/pO , len=(pO -l), by=l/pO )persp(u,u,Z,theta=30,shade=TRUE,box=FALSE,zlim=c(O,6))Z= beta.kernel.copula.surface(X[,1],X[,2],bx=.03,by=.03,p=pO)u = seq(l/pO, len=(pO-l), by=l/pO)p er sp ( u, u, Z, th et a= 30 , sh ad e= TR U E,box=FALSE,zlim=c(O,6))Z= beta.kernel.copula.surface(X[,1],X[,2],bx=.06,by=.06,p=pO)u = seq(l/pO, len=(pO-l), by=l/pO)persp(u,u,Z,theta=30,shade=TRUE,box=FALSE,zlim=c(O,6))Z = b et a. ke rn el .c op ul a. su rf ac e( X[ ,1 ] ,X [, 2] , bx =. 09 ,b y= .0 9, p" pO )u = seq(l/pO, len=(pO-l), by=l/pO)persp(u,u,Z,theta=30,shade=TRUE,box=FALSE,zlim=c(O,6))

    25

  • 5/10/2018 Est Imac Ion de Funciones Con Soporte Compacto

    7.7. Estimaci6n basada en la Transformacion de una fun-cion t de Student,para una exponencial truncada

    functruncada

  • 5/10/2018 Est Imac Ion de Funciones Con Soporte Compacto

    8. Bibliografia1. Silverman, B.W. ( 1986 ). Density Estimation for Statistics and Data

    Analysis.2. Luc Devroye, Gabor Lugosi.Combinatorial Methods in Density Estimation

    Chapman and Hall, London.3. Arthur Charpentier, Jean- David Fermanian and Olivier Scaillet. The Es-

    timation of Copulas.

    27