-
Estimación de la densidad
Alberto Rodŕıguez Casal
23 de marzo de 2009
-
HistogramaEstimador Naive
Estimación de la densidad: histograma
Si suponemos que F tiene función de densidad f puede ser útilestimarla. Un estimador muy utilizado es el histograma. Dado unorigen x0 y un ancho h > 0 el histograma es una densidadconstante en intervalos de la forma
{[x0 + hm, x0 + h(m + 1)) : m ∈ Z}.
Dada una muestra aleatoria X1, . . . ,Xn,
¿Cuánto debe valer el estimador en [x0 + hm, x0 + h(m + 1))?
Alberto Rodŕıguez Casal Estimación de la densidad
-
HistogramaEstimador Naive
HistogramaEl estimador natural de la probabilidad del intervalo [xm, xm+1)(donde xk = x0 + kh) es
1
n
n∑i=1
I (Xi ∈ [xm, xm+1))
Si denotamos por f̂n,H al histograma entonces la probabilidad delintervalo [xm, xm+1) también se podŕıa estimar∫ xm+1
xm
f̂n,H(u)du = fmh,
donde fm es el valor de fn,H en el intervalo [xm, xm+1). Igualandoambas estimaciones obtenemos el valor de fm
fm =1
nh
n∑i=1
I (Xi ∈ [xm, xm+1))
Alberto Rodŕıguez Casal Estimación de la densidad
-
HistogramaEstimador Naive
Histograma: Ejemplo (I)Los datos que vamos a analizar fueron analizados en Azzalini yBowman (1990), (“Applied Smoothing Techniques for DataAnalysis”) quienes registraron el tiempo (en minutos) que dura unaerupción del geyser “Old Faithful” que se encuentra en el parquenacional de Yellowstone (Wyoming, USA). Las medidas (272erupciones en total) fueron tomadas entre el 1 y el 15 de Agostode 1985.
Figura: El geyser ’Old Faith’ en plena erupciónAlberto Rodŕıguez Casal Estimación de la densidad
-
HistogramaEstimador Naive
Histograma: Ejemplo (II)
h= 0.1
x
Den
sity
1 2 3 4 5
0.0
0.5
1.0
1.5
h= 0.5
x
Den
sity
1 2 3 4 5 6
0.0
0.1
0.2
0.3
0.4
0.5
0.6
h= 1
x
Den
sity
1 2 3 4 5 6 7
0.0
0.1
0.2
0.3
0.4
0.5
h= 0.03
x
Den
sity
1 2 3 4 5
01
23
45
6
Figura: Histograma para 4 valores diferentes de h
Alberto Rodŕıguez Casal Estimación de la densidad
-
HistogramaEstimador Naive
Inconvenientes del Histograma: influencia de x0Depende en exceso de x0
Histogram of x
x
Den
sity
0.0 0.2 0.4 0.6 0.8 1.0 1.2
0.0
0.2
0.4
0.6
0.8
1.0
Histogram of x
x
Den
sity
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
Figura: Histograma de una muestra de una población uniforme en 0,1 para dosvalores diferentes de x0
Alberto Rodŕıguez Casal Estimación de la densidad
-
HistogramaEstimador Naive
Inconvenientes del Histograma: influencia de x0Depende en exceso de x0Histogram of x
x
Den
sity
0.0 0.2 0.4 0.6 0.8 1.0 1.2
0.0
0.2
0.4
0.6
0.8
1.0
Histogram of x
x
Den
sity
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
Figura: Histograma de una muestra de una población uniforme en 0,1 para dosvalores diferentes de x0
Alberto Rodŕıguez Casal Estimación de la densidad
-
HistogramaEstimador Naive
Ejercicios
Ejercicio 1
Sea X1, . . . ,Xn una muestra aleatoria de una distribución uniforme0,1. Fijemos h = 0.5 y consideremos dos posibles valores de x0
I x0 = 0
I x0 = −0.25Calcula el sesgo de f̂n,H(0) como estimador de f (0) = 1 para cadavalor propuesto de x0
Ejercicio 2
Calcula la media de una variable X ∗ que tenga por densidad f̂n,H .
Alberto Rodŕıguez Casal Estimación de la densidad
-
HistogramaEstimador Naive
Ejercicios
Ejercicio 1
Sea X1, . . . ,Xn una muestra aleatoria de una distribución uniforme0,1. Fijemos h = 0.5 y consideremos dos posibles valores de x0
I x0 = 0
I x0 = −0.25Calcula el sesgo de f̂n,H(0) como estimador de f (0) = 1 para cadavalor propuesto de x0
Ejercicio 2
Calcula la media de una variable X ∗ que tenga por densidad f̂n,H .
Alberto Rodŕıguez Casal Estimación de la densidad
-
HistogramaEstimador Naive
El estimador Naive: Definición
Una alternativa para evitar la influencia en el estimador de x0 esutilizar una especie de Histograma Móvil de forma que cada x seael centro del intervalo utilizado para construir el estimador.
Ejercicio
Deducir para cada x cómo se debeŕıa definir un Histograma Móvil,f̂n,N(x) si se utilizan intervalos de la forma (x − h, x + h)
Solución
f̂n,N(x) =
∑ni=1 I(x − h < Xi < x + h)
2nh
A este estimador se le denomina Estimador Naive.
Alberto Rodŕıguez Casal Estimación de la densidad
-
HistogramaEstimador Naive
El estimador Naive: Definición
Una alternativa para evitar la influencia en el estimador de x0 esutilizar una especie de Histograma Móvil de forma que cada x seael centro del intervalo utilizado para construir el estimador.
Ejercicio
Deducir para cada x cómo se debeŕıa definir un Histograma Móvil,f̂n,N(x) si se utilizan intervalos de la forma (x − h, x + h)
Solución
f̂n,N(x) =
∑ni=1 I(x − h < Xi < x + h)
2nh
A este estimador se le denomina Estimador Naive.
Alberto Rodŕıguez Casal Estimación de la densidad
-
HistogramaEstimador Naive
Estimador Naive: Motivación
El Estimador Naive también se puede motivar a través de la propiadefinición de la función de densidad. Como f (x) = F ′(x) entonces
f (x) = ĺımh→0+
F (x + h)− F (x)h
, f (x) = ĺımh→0+
F (x)− F (x − h)h
,
y, por tanto,
f (x) = ĺımh→0+
F (x + h)− F (x − h)2h
= ĺımh→0+
P(x − h < X < x + h)2h
.
Eligiendo h pequeño obtenemos el Estimador Naive sustituyendoP(x − h < X < x + h) por su estimación natural
f̂n,N(x) =
∑ni=1 I(x − h < Xi < x + h)
2nh
Alberto Rodŕıguez Casal Estimación de la densidad
-
HistogramaEstimador Naive
Estimador Naive: Interpretación (I)
La definición de f̂n,N(x) es equivalente a colocar cajas de ancho 2hy altura 1/2nh centradas en cada observación muestral Xi yestimar f (x) mediante la suma de las alturas de las cajas quecontienen a x
Alberto Rodŕıguez Casal Estimación de la densidad
-
HistogramaEstimador Naive
Estimador Naive: Interpretación (II)
Ejercicio
Sea I una variable aleatoria uniforme en {1, . . . , n}, es decir,
P(I = i) =1
n, i = 1, . . . , n.
Si Yi tiene distribución uniforme en (Xi − h,Xi + h) demostrar quela densidad de X ∗ = YI es el Estimador Naive, f̂n,N . Calcula lamedia y la varianza de X ∗.
Alberto Rodŕıguez Casal Estimación de la densidad
-
HistogramaEstimador Naive
Estimador Naive: EjemploA continuación se muestra el Estimador Naive para cuatro valoresdiferentes de h para los datos del géiser “Old Faithful” presentadosanteriormente. Nótese que el estimador es discontinuo en lospuntos Xi ± h.
−5 0 5 10
0.00
0.05
0.10
0.15
Estimador Naive, h= 2
N = 299 Bandwidth = 2
Den
sity
0 2 4 6
0.0
0.1
0.2
0.3
Estimador Naive, h= 0.5
N = 299 Bandwidth = 0.5D
ensi
ty
1 2 3 4 5 6
0.0
0.2
0.4
0.6
Estimador Naive, h= 0.15
N = 299 Bandwidth = 0.15
Den
sity
1 2 3 4 5
0.0
0.5
1.0
1.5
Estimador Naive, h= 0.03
N = 299 Bandwidth = 0.03
Den
sity
Alberto Rodŕıguez Casal Estimación de la densidad
-
HistogramaEstimador Naive
El parámetro ventana hEl parámetro h juega un papel clave en el comportamiento delEstimador Naive. A modo de ejemplo mostramos, para dos valoresde h diferentes (h = 1 y h = 0.2), el Estimador Naive construido apartir de 10 muestras diferentes de tamaño 200 de la normalestándar.
−3 −2 −1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
0.5
h= 1
seq(−3, 3, 0.05)
dnor
m(s
eq(−
3, 3
, 0.0
5))
−3 −2 −1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
0.5
h= 0.2
seq(−3, 3, 0.05)
dnor
m(s
eq(−
3, 3
, 0.0
5))
Alberto Rodŕıguez Casal Estimación de la densidad
-
HistogramaEstimador Naive
Estimador Naive: Error Cuadrático Medio
Para un punto x fijo, f̂n,N(x) es una variable aleatoria. Para medirsu calidad como estimador de f (x) podemos utilizar, como eshabitual, el Error Cuadrático Medio
MSE (x) = E(f̂n,N(x)− f (x))2,
que, como sabemos, se puede descomponer en sesgo al cuadradomás varianza
MSE (x) = (E(f̂n,N(x))− f (x))2 + Var f̂n,N(x)
Alberto Rodŕıguez Casal Estimación de la densidad
-
HistogramaEstimador Naive
Estimador Naive: Ejercicios
Ejercicio 1
Supongamos que f es continua en x .
I Prueba que si h→ 0 entonces E(f̂n,N(x))→ f (x).
I Prueba que si nh→∞ entonces Var f̂n,N(x)→ 0
Ejercicio 2
Sea f la densidad de la exponencial de parámetro uno
f (x) =
{e−x si x ≥ 00 en otro caso.
Prueba que
ĺımh→0
E(f̂n,N(0)) =1
2
Alberto Rodŕıguez Casal Estimación de la densidad
-
HistogramaEstimador Naive
Estimador Naive: Ejercicios
Ejercicio 1
Supongamos que f es continua en x .
I Prueba que si h→ 0 entonces E(f̂n,N(x))→ f (x).I Prueba que si nh→∞ entonces Var f̂n,N(x)→ 0
Ejercicio 2
Sea f la densidad de la exponencial de parámetro uno
f (x) =
{e−x si x ≥ 00 en otro caso.
Prueba que
ĺımh→0
E(f̂n,N(0)) =1
2
Alberto Rodŕıguez Casal Estimación de la densidad
-
HistogramaEstimador Naive
Estimador Naive: Ejercicios
Ejercicio 1
Supongamos que f es continua en x .
I Prueba que si h→ 0 entonces E(f̂n,N(x))→ f (x).I Prueba que si nh→∞ entonces Var f̂n,N(x)→ 0
Ejercicio 2
Sea f la densidad de la exponencial de parámetro uno
f (x) =
{e−x si x ≥ 00 en otro caso.
Prueba que
ĺımh→0
E(f̂n,N(0)) =1
2
Alberto Rodŕıguez Casal Estimación de la densidad
-
HistogramaEstimador Naive
Estimador Naive: Ejercicios
Ejercicio 3
Probar que si F es continua en un entorno de x entonces para hsuficientemente pequeño
Ef̂n,N(x) =F (x + h)− F (x − h)
2h
Var f̂n,N(x) =F (x + h)− F (x − h)
4nh2− (F (x + h)− F (x − h))
2
4nh2
Alberto Rodŕıguez Casal Estimación de la densidad
-
HistogramaEstimador Naive
Sesgo asintótico del Estimador Naive (I)Supongamos que
I Existe la derivada segunda de f
I f ′′ es continua
Por el Teorema de Taylor, para h > 0 existe ξh en el intervalo(x , x + h) y γh en (x − h, x) verificando que
F (x + h) = F (x) + hf (x) +h2
2f ′(x) +
h3
3!f ′′(ξh)
F (x − h) = F (x)− hf (x) + h2
2f ′(x)− h
3
3!f ′′(γh),
Aśı
Ef̂n,N(x) =F (x + h)− F (x − h)
2h= f (x) +
h2
3!
(f ′′(ξh) + f
′′(γh)
2
).
Alberto Rodŕıguez Casal Estimación de la densidad
-
HistogramaEstimador Naive
Sesgo asintótico del Estimador Naive (I)Supongamos que
I Existe la derivada segunda de f
I f ′′ es continua
Por el Teorema de Taylor, para h > 0 existe ξh en el intervalo(x , x + h) y γh en (x − h, x) verificando que
F (x + h) = F (x) + hf (x) +h2
2f ′(x) +
h3
3!f ′′(ξh)
F (x − h) = F (x)− hf (x) + h2
2f ′(x)− h
3
3!f ′′(γh),
Aśı
Ef̂n,N(x) =F (x + h)− F (x − h)
2h= f (x) +
h2
3!
(f ′′(ξh) + f
′′(γh)
2
).
Alberto Rodŕıguez Casal Estimación de la densidad
-
HistogramaEstimador Naive
Sesgo asintótico del Estimador Naive (I)Supongamos que
I Existe la derivada segunda de f
I f ′′ es continua
Por el Teorema de Taylor, para h > 0 existe ξh en el intervalo(x , x + h) y γh en (x − h, x) verificando que
F (x + h) = F (x) + hf (x) +h2
2f ′(x) +
h3
3!f ′′(ξh)
F (x − h) = F (x)− hf (x) + h2
2f ′(x)− h
3
3!f ′′(γh),
Aśı
Ef̂n,N(x) =F (x + h)− F (x − h)
2h= f (x) +
h2
3!
(f ′′(ξh) + f
′′(γh)
2
).
Alberto Rodŕıguez Casal Estimación de la densidad
-
HistogramaEstimador Naive
Sesgo asintótico del Estimador Naive (II)Si h→ 0 tendremos que
Ef̂n,N(x) = f (x) +h2f ′′(x)
6+ o(h2).
I En los ḿınimos de f el Estimador Naive tenderá asobreestimar f porque f ′′ > 0.
I En los máximos de f el Estimador Naive tenderá ainfraestimar f porque f ′′ < 0.
−3 −2 −1 0 1 2 3
0.00
0.05
0.10
0.15
0.20
0.25
0.30
h= 0.5
dnorMix(MW.nm6, x)$x
dnorM
ix(MW
.nm6,
x)$y
Media del estimadorDensidad
Alberto Rodŕıguez Casal Estimación de la densidad
-
HistogramaEstimador Naive
Sesgo asintótico del Estimador Naive (II)Si h→ 0 tendremos que
Ef̂n,N(x) = f (x) +h2f ′′(x)
6+ o(h2).
I En los ḿınimos de f el Estimador Naive tenderá asobreestimar f porque f ′′ > 0.
I En los máximos de f el Estimador Naive tenderá ainfraestimar f porque f ′′ < 0.
−3 −2 −1 0 1 2 3
0.00
0.05
0.10
0.15
0.20
0.25
0.30
h= 0.5
dnorMix(MW.nm6, x)$x
dnorM
ix(MW
.nm6,
x)$y
Media del estimadorDensidad
Alberto Rodŕıguez Casal Estimación de la densidad
-
HistogramaEstimador Naive
Error cuadrático medio asintótico del estimador Naive (I)
Ejercicio 1
Demostrar que si nh→∞ entonces
Var f̂n,N(x) =f (x)
2nh+ o
((nh)−1
)
Ejercicio 2
Demostrar que si h→ 0 y nh→∞ entonces
MSE (x) =f (x)
2nh+
h4 (f ′′(x))2
36+ o
(h4 + (nh)−1
)DefiniciónSe define el error cuadrático medio asintótico en el punto x como
AMSE (x) =f (x)
2nh+
h4 (f ′′(x))2
36
Alberto Rodŕıguez Casal Estimación de la densidad
-
HistogramaEstimador Naive
Error cuadrático medio asintótico del estimador Naive (I)
Ejercicio 1
Demostrar que si nh→∞ entonces
Var f̂n,N(x) =f (x)
2nh+ o
((nh)−1
)Ejercicio 2
Demostrar que si h→ 0 y nh→∞ entonces
MSE (x) =f (x)
2nh+
h4 (f ′′(x))2
36+ o
(h4 + (nh)−1
)DefiniciónSe define el error cuadrático medio asintótico en el punto x como
AMSE (x) =f (x)
2nh+
h4 (f ′′(x))2
36Alberto Rodŕıguez Casal Estimación de la densidad
-
HistogramaEstimador Naive
Error cuadrático medio asintótico del estimador Naive (II)
Ejercicio
Demuestra que si f ′′(x) 6= 0 entonces el valor de h que minimiza elAMSE viene dado por la expresión
hAMSE (x) =
(9f (x)
2n(f ′′(x))2
) 15
Ejercicio
Demuestra que si f ′′(x) 6= 0 entonces
ı́nfh>0
AMSE (x) = c(f (x))4/5(f ′′(x))2/5n−4/5,
donde c es una constante que no depende de x ni de n.
Alberto Rodŕıguez Casal Estimación de la densidad
-
HistogramaEstimador Naive
Error cuadrático medio asintótico del estimador Naive (II)
Ejercicio
Demuestra que si f ′′(x) 6= 0 entonces el valor de h que minimiza elAMSE viene dado por la expresión
hAMSE (x) =
(9f (x)
2n(f ′′(x))2
) 15
Ejercicio
Demuestra que si f ′′(x) 6= 0 entonces
ı́nfh>0
AMSE (x) = c(f (x))4/5(f ′′(x))2/5n−4/5,
donde c es una constante que no depende de x ni de n.
Alberto Rodŕıguez Casal Estimación de la densidad
-
HistogramaEstimador Naive
Criterios de error globales: MISETal como muestran los ejercicios anteriores el error cuadráticomedio en cada punto no da un criterio para elegir una ventana hbuena para todos los x . Para ello seŕıa conveniente disponer de uncriterio de error global que mida la calidad de f̂n,N como estimadorf .
Un criterio de error global frecuentemente utilizado es el errorcuadrático medio integrado
MISE (h) = E∫
(fn,N(x)− f (x))2s,
que, intercambiando la esperanza con la integral, no es más que unpromedio de los errores cuadráticos medios en cada punto
MISE (h) =
∫MSE (x)dx .
Alberto Rodŕıguez Casal Estimación de la densidad
-
HistogramaEstimador Naive
Criterios de error globales: MISETal como muestran los ejercicios anteriores el error cuadráticomedio en cada punto no da un criterio para elegir una ventana hbuena para todos los x . Para ello seŕıa conveniente disponer de uncriterio de error global que mida la calidad de f̂n,N como estimadorf .
Un criterio de error global frecuentemente utilizado es el errorcuadrático medio integrado
MISE (h) = E∫
(fn,N(x)− f (x))2s,
que, intercambiando la esperanza con la integral, no es más que unpromedio de los errores cuadráticos medios en cada punto
MISE (h) =
∫MSE (x)dx .
Alberto Rodŕıguez Casal Estimación de la densidad
-
HistogramaEstimador Naive
Criterios de error globales: MIAEEl error cuadrático medio es el criterio de error más utilizado. Sinembargo no es el único criterio de error empleado. Es tanto o másrazonable emplear la distancia L1 para medir la distancia entre f̂n,Ny f . Promediando esta distancia L1 se obtiene el error absolutointegrado medio
MIAE (h) = E∫|f̂n,N(x)− f (x)|dx .
Ejercicio
Sean X e Y dos variables aleatorias con funciones de densidad f yg . Para a > 0 sean fa, ga las densidades de aX y aYrespectivamente. Probar que∫
|fa(x)− ga(x)| =∫|f (x)− g(x)|dx
¿Verifica esta propiedad la distancia L2 entre densidades?
Alberto Rodŕıguez Casal Estimación de la densidad
-
HistogramaEstimador Naive
Criterios de error globales: MIAEEl error cuadrático medio es el criterio de error más utilizado. Sinembargo no es el único criterio de error empleado. Es tanto o másrazonable emplear la distancia L1 para medir la distancia entre f̂n,Ny f . Promediando esta distancia L1 se obtiene el error absolutointegrado medio
MIAE (h) = E∫|f̂n,N(x)− f (x)|dx .
Ejercicio
Sean X e Y dos variables aleatorias con funciones de densidad f yg . Para a > 0 sean fa, ga las densidades de aX y aYrespectivamente. Probar que∫
|fa(x)− ga(x)| =∫|f (x)− g(x)|dx
¿Verifica esta propiedad la distancia L2 entre densidades?Alberto Rodŕıguez Casal Estimación de la densidad
-
HistogramaEstimador Naive
Aproximación asintótica de MISE del Estimador Naive
Si además de suponer que f ′′ existe y es continua suponemos que
R(f ′′) =
∫(f ′′(x))2dx
-
HistogramaEstimador Naive
AMISE del Estimador Naive: Ejercicios (I)
Ejercicios
Prueba que el parámetro que minimiza el AMISE es
hAMISE =
(9
2nR(f ′′)
)1/5,
y que
ı́nfh>0
AMISE (h) =5
4
[R(f ′′)
144
]1/5n−4/5
Ejercicio
Sea X una variable con densidad f . Si hAMISE ,a,c , denota laventana AMISE de fa,c donde fa,c es la densidad de aX + c prueba
hAMISE ,a,c = ahAMISE , a > 0, c ∈ R
donde hAMISE es la ventana AMISE de f .
Alberto Rodŕıguez Casal Estimación de la densidad
-
HistogramaEstimador Naive
AMISE del Estimador Naive: Ejercicios (I)
Ejercicios
Prueba que el parámetro que minimiza el AMISE es
hAMISE =
(9
2nR(f ′′)
)1/5,
y que
ı́nfh>0
AMISE (h) =5
4
[R(f ′′)
144
]1/5n−4/5
Ejercicio
Sea X una variable con densidad f . Si hAMISE ,a,c , denota laventana AMISE de fa,c donde fa,c es la densidad de aX + c prueba
hAMISE ,a,c = ahAMISE , a > 0, c ∈ R
donde hAMISE es la ventana AMISE de f .Alberto Rodŕıguez Casal Estimación de la densidad
-
HistogramaEstimador Naive
AMISE del Estimador Naive: Ejercicios (II)
Ejercicio
Prueba que si f es la densidad de la normal estándar entonces
R(f ′′) =3
8√π
Ejercicio
Prueba que si f es la densidad de la normal estándar entonces
hAMISE =
(12√π
n
)1/5Ejercicio
Prueba que si f es la densidad de una normal con media µ ydesviación t́ıpica σ entonces
hAMISE =
(12√π
n
)1/5σ
¿Cuál es el valor de hAMISE si la media es µ?Alberto Rodŕıguez Casal Estimación de la densidad
HistogramaEstimador Naive