jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · introducción...

76
Estimación Puntual Jaime Vázquez Lizbeth Naranjo Ruth Fuentes Margarita Chávez Proyecto PAPIME UNAM PE107117 “Estadística para estudiantes de ciencias”

Upload: others

Post on 24-Aug-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual

Jaime Vázquez • Lizbeth Naranjo • Ruth Fuentes • Margarita Chávez

Proyecto PAPIME UNAM PE107117“Estadística para estudiantes de ciencias”

Page 2: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Índice general

Índice general 1

Introducción 2

1. Estimación puntual 3

1.1. Métodos de estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.1.1. Método de momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.1.2. Estimadores basados en verosimilitud . . . . . . . . . . . . . . . . . . 91.1.3. Verosimilitud en el enfoque Bayesiano . . . . . . . . . . . . . . . . . . 201.1.4. Otros métodos de estimación . . . . . . . . . . . . . . . . . . . . . . . 27

1.2. Evaluación de estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321.2.1. Error cuadrático medio y estimadores insesgados . . . . . . . . . . . . 331.2.2. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371.2.3. Funciones de pérdida y estimación . . . . . . . . . . . . . . . . . . . 39

1.3. Estimación insesgada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 411.3.1. La propuesta de Cramèr y Rao . . . . . . . . . . . . . . . . . . . . . 421.3.2. El teorema de Rao-Blackwell . . . . . . . . . . . . . . . . . . . . . . . 511.3.3. El teorema de Lehmann-Scheffé . . . . . . . . . . . . . . . . . . . . . 53

1.4. Propiedades asintóticas de los estimadores . . . . . . . . . . . . . . . . . . . 591.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

Bibliografía 74

1

Page 3: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Introducción

La estadística inferencial es una disciplina que se basa en gran medida en la probabilidad yque ayuda a resolver problemas mediante inferencias de alguna característica de la poblaciónusando datos muestrales de la misma.

La estadística involucra conceptos y resultados que pueden resumirse en grandes temas:análisis exploratorio de datos, distribuciones muestrales, estimación puntual, estimación porintervalo y pruebas de hipótesis, los cuales son fundamentales en el estudio y la aplicación deesta disciplina. En esta parte se abordarán los tópicos relacionados con estimación puntual.

Se inicia con la exposición de los métodos de estimación más importantes, tales como el demáxima verosimilitud, el de momentos y otros como el de medianas y percentiles. Asímismo,se da una introducción al método Bayesiano y más adelante al de mínimos cuadrados.

Posteriormente se revisan las propiedades deseables de un estimador puntual como unaforma de analizar su bondad. Se habla del error cuadrático medio, estimadores insesgados yla propiedad de consistencia, para dar lugar al ulterior desarrollo de la teoría para encontrara los mejores estimadores insesgados.

Para la lectura de este documento, es importante contar con conocimientos de teoría dela probabilidad, así como de cálculo diferencial e integral en una y varias variables. Tambiénse recomienda el estudio previo del Capítulo 3 de las notas Introducción a la Estadísticade los mismos autores o algún texto que cubra los temas relacionados con estadísticas ydistribuciones muestrales, así como los de suficiencia y completez.

2

Page 4: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

CAPÍTULO 1

Estimación puntual

Suponga que se dispone de una población en la que se estudia una variable aleatoria Xcon distribución conocida y parámetro (o parámetros) desconocido(s) y se tiene interés endisminuir el grado de desconocimiento de θ en f (x; θ) . De la población se extrae una muestraaleatoria simple de tamaño n: X1,X2, ...,Xn y se trata de calcular, a partir de los valoresmuestrales, una función de los mismos que proporcione una estadística θ = T (X1,X2, ..., Xn)que le asigne un valor al parámetro desconocido de la población, de forma que sean lo máscercanos en algún sentido. A θ se le llama estimador.

El objetivo de la estimación puntual es entonces encontrar un valor para θ, denotadocomo θ, que sea función de la muestra aleatoria y que permita modelar o describir de maneraadecuada el fenómeno aleatorio.

Definición 1.1 Sea X1, . . . , Xn una muestra aleatoria de una distribución con función dedensidad f(x; θ). Un estimador es una estadística T (X) cuyos valores t(x) sirven para aproxi-mar o estimar los valores de θ.

La notación θ = T (X) expresa que el estimador de θ es la estadística T (X). Los valoresdel estimador, o sea t(x), son realizaciones de la variable aleatoria T (X).

Si por ejemplo, se tiene una población N(µ, σ2), un posible estimador para µ es µ = X,es decir, en este caso el estimador de µ sería la estadística X (la media muestral). En lossiguientes párrafos se presentarán los métodos más conocidos para encontrar estimadores.

En ocasiones, en lugar del parámetro θ, se desea estimar una función de dicho parámetro.En general, se denotará como τ (θ) a cualquier función de θ.

3

Page 5: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

1.1. Métodos de estimación

El primero de los métodos que se abordará fue aportación de Karl Pearson (1857-1936)y se conoce como el método de momentos para la estimación de parámetros.

Figura 1.1: Karl Pearson con Francis Galton. Ambos fundaron la revista Biometrika en 1901.Imagen tomada de commons.wikipedia.org (public domain).

Karl Pearson "fue historiador, escribió sobre folklore, fue socialista convencido, abogado,matemático aplicado, biómetra, estadístico, maestro y biógrafo. Sin duda que su contribuciónmás importante es el nacimiento de la estadística aplicada. Es por lo que se le debe mayorcrédito, en frase de él mismo: Hasta que los fenómenos de cualquier rama del conocimientono hayan sido sometidos a medida y número, no se puede decir que se trate de una ciencia.Además del método de momentos para la obtención de estimadores, introdujo el sistema decurvas de frecuencias para disponer de distribuciones que pudieran aplicarse a los distintosfenómenos aleatorios, desarrolló la correlación lineal para aplicarla a la teoría de la herenciay de la evolución. Introdujo el método de la ji cuadrada para dar una medida del ajusteentre datos y distribuciones, para contrastar la homogeneidad entre varias muestras y la in-dependencia entre variables. Fundó los Anales de la Eugenesia y en 1900, junto con Galtony Weldon, fundó la revista Biometrika de la que fue editor hasta su muerte. En una descrip-ción autobiográfica decía: una explicación para mi vida, se debe a una combinación de doscaracterísticas que he heredado: capacidad para trabajar mucho y capacidad para relacionarlas observaciones de los demás"1.

1Gómez Villegas, M.A. (2009). Karl Pearson, el Creador de la Estadística Matemática. Historia de laProbabilidad y la Estadística IV, J. Basulto y J.J. García (eds.). Congreso Internacional de Historia de laEstadística y la Probabilidad, 351-356.

4

Page 6: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

También se introducirá el método de máxima verosimilitud propuesto por Ronald A. Fi-sher en 1922, y que intuitivamente pretende obtener el estimador de un parámetro seleccio-nando el que maximiza la probabilidad de obtener los datos que realmente fueron observados.

Figura 1.2: Placa English Heritage dedicada a Fisher en la casa Inverforth. Imagen tomada decommons.wikipedia.org (public domain). By AnemoneProjectors (talk) (Flickr) (Sir RonaldAylmer Fisher plaque) [CC BY-SA 2.0 (https://creativecommons.org/licenses/by-sa/2.0)],via Wikimedia Commons

Hablar de Fisher, equivale a referirse al desarrollo de la estadística durante el siglo XX.Basta decir que la mayor parte de los términos que se usan en Inferencia Estadística los intro-dujo él, por ejemplo, parámetro, estadística (función de la muestra aleatoria), verosimilitud,score o puntaje, estadística auxiliar, información, hipótesis nula y errores tipo I y II, sólo pormencionar algunos.

Sin duda que el trabajo de Fisher es la piedra angular sobre la que se sustenta la estadísticacomo ciencia. Egon Pearson (1974), hijo de Karl Pearson, habla de las diferencias conceptualesentre su padre y Fisher2: Galton y K. Pearson trabajaron con muestras grandes por suinterés en la reproducción libre de las especies en su medio natural, esto ocurre con humanos,animales y plantas. Por su parte, Fisher trabajó con muestras pequeñas relacionadas condatos experimentales, por lo que era necesario analizar con cuidado las bases de la inferenciaestadística para una adecuada interpretación. Fisher estudió resultados exactos en muestraspequeñas, pero también obtuvo propiedades asintónticas óptimas de los estimadores máximoverosímiles.

En esta parte se hablará además del enfoque Bayesiano en la teoría de la estimaciónpuntual, el cual se basa en el teorema de Bayes.

2Pearson, E. S. (1974). “Memories on the impact of Fisher’s work in the 1920’s”. Int. Stat. Rev. 42 (1)

5

Page 7: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

1.1.1. Método de momentos

SeaX1, . . . , Xn una muestra aleatoria de una distribución con función de densidad f(x; θ).A E(Xr

i ) se le conoce como el r-ésimo momento poblacional y se denota por µr, mientras

que∑n

i=1Xri

nes el r-ésimo momento muestral y se denota por Mr.

El método de estimación por momentos consiste en igualar los momentos muestralescon los momentos poblacionales y resolver para θ (o θ1, ..., θk, si la distribución tiene kparámetros). Esto es, µr = Mr, donde r = 1, ..., k y k representa el número de parámetros aestimar.

De manera general, si X1, X2, . . . , Xn es una muestra aleatoria de una población confunción de densidad f(x; θ1, θ2, ..., θk), en la estimación por momentos se resuelve el siguientesistema de ecuaciones

µ1 = M1, µ2 = M2, . . . , µk = Mk︸ ︷︷ ︸k ecuaciones con k incógnitas

La solución a este sistema θ = (θ1, ...., θk) se conoce como el estimador por el método demomentos.

Ejemplo 1.1 Sea X1, . . . , Xn una muestra aleatoria de una población con distribuciónPoisson(θ). Como

E(X) = θ,

entonces

θ =

∑ni=1Xi

n.

Ejemplo 1.2 SeaX1, . . . , Xn una muestra aleatoria de una población con distribución exp(θ).Como

E(X) =1

θ,

entonces

X =1

θ.

Por lo tanto,θ = 1/X.

Ejemplo 1.3 Sea X1, . . . , Xn una muestra aleatoria de una población con distribuciónN(µ, σ2). Como

E(X) = µ y V ar(X) = σ2,

entoncesE(X2) = µ2 + σ2.

6

Page 8: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

Por lo tanto,

X = µ y X2 + σ2 =1

n

n∑

i=1

X2i .

Es decir,

σ2 =1

n

n∑

i=1

X2i − X2.

Pero note que

n∑

i=1

(Xi − X)2 =n∑

i=1

(X2i − 2XXi + X2)

=n∑

i=1

X2i − 2X

n∑

i=1

Xi + nX2

=n∑

i=1

X2i − 2nX2 + nX2 =

n∑

i=1

X2i − nX2.

∴1

n

n∑

i=1

(Xi − X)2 =1

n

n∑

i=1

X2i − X2.

Entonces los estimadores por momentos para µ y σ2 son

µ = X y σ2 =1

n

n∑

i=1

(Xi − X)2.

Ejemplo 1.4 Suponga que se tiene la siguiente muestra de tamaño 10 :

1, 1, 1, 2, 2, 3, 5, 7, 8, 10.

Estimar los parámetros µ y σ2 usando el método de momentos si la distribución normal seajusta a través de los datos de la muestra.

En este caso, las estadísticas muestrales están dadas por

10∑

i=1

xi = 40 y10∑

i=1

x2i = 258.

Usando el método de momentos y el ejemplo anterior:

µ =40

10= 4

7

Page 9: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

y

σ2 + 42 =258

10.

De dondeσ2 = 9.8.

Ejemplo 1.5 Hallar los estimadores por el método de momentos de la distribución Gammay usar los datos del ejemplo anterior para dar valores numéricos de r y λ. Igualando losprimeros momentos muestrales y poblacionales, se obtiene:

E (X) =r

λ=

40

10= 4. (1.1)

y

E(X2

)=

r (r + 1)

λ2=

258

10= 25.8.

Se tiene un sistema de dos ecuaciones. Para encontrar la solución, se considera el cociente:

E (X2)

[E (X)]2=

r + 1

r=

25.8

42= 1.6125.

y resolviendo para r :r = 1.6327.

Sustituyendo este valor en (1.1) y despejando λ, se obtiene:

λ =1.6327

4= 0.408 2.

El rango del estimador no necesariamente coincide con el espacio del parámetro a estimar.Considere en el siguiente ejemplo una distribución Binomial con k y p desconocidos.

Ejemplo 1.6 Suponga que X ∼Binomial(k, p). Una posible aplicación con esta distribuciónes que se busque estimar las tasas de ocurrencia de un crimen, conociendo que existe unnúmero importante de casos que no se denuncian o reportan, es decir, no se sabe cuál esexactamente el valor de k. Utilizando el método de momentos, se consideran los dos primerosmomentos poblacionales de la distribución binomial, así como los correspondientes momentosmuestrales:

Xn = kp (1.2)

y1

n

n∑

i=1

X2i = kp(1− p) + k2p2. (1.3)

8

Page 10: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

De (1.2) se obtiene

p =Xn

k, (1.4)

sustituyendo este resultado en lugar de p en (1.3):

1

n

n∑

i=1

X2i = Xn(1−

Xn

k) + Xn

2(1.5)

y como1

n

n∑

i=1

(Xi − Xn

)2=

1

n

n∑

i=1

X2i + Xn

2,

(1.5) es equivalente a

1

n

n∑

i=1

(Xi − Xn)2 = Xn(1−

Xn

k)

= Xn −Xn

2

k,

así que despejando el valor de k, se obtiene

Xn2

k= Xn −

1

n

n∑

i=1

(Xi − Xn)2,

k

Xn2 =

1

Xn − 1n

∑ni=1(Xi − Xn)2

,

k =Xn

2

Xn − 1n

∑ni=1(Xi − Xn)2

.

Por lo tanto, el valor estimado de p es

p =Xn

k.

Observe que no se puede garantizar que k será un número entero positivo y que p ∈ [0, 1].Sin embargo, en general el método permite obtener una propuesta para estimar rápidamentelos parámetros desconocidos.

1.1.2. Estimadores basados en verosimilitud

Para introducir este método se presenta primero el siguiente ejemplo, tomado de Mood,Graybill y Boes (1973), el cual considera que se tiene una urna en donde se sabe que hay

9

Page 11: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

bolas negras y blancas, de las cuales se desconoce el número de cada una de ellas, pero setiene el dato de que la razón es de 3 a 1, aunque también se ignora si hay más bolas blancasque negras o viceversa. Se desea estimar la proporción de bolas negras en la urna y para ello,se toma una muestra de tamaño 3 con reemplazo de esta población, X1, X2, X3. Note que Xi

tiene distribución Bernoulli(θ), i = 1, 2, 3.Observe que:

θ es la probabilidad de obtener bola negra, es decir, θ = P(Xi = 1).

θ solo puede tomar los valores 14y 34, debido a que la razón establecida es de 3 a 1.

X :=∑3

i=1Xi es el número de bolas negras en la muestra. Y por lo tanto, X puedetomar los valores x = 0, 1, 2, 3.

X ∼ Bin(n = 3, θ).

En el cuadro 1.1 se presentan las probabilidades de obtener 0, 1, 2 y 3 bolas negras, conambos valores del parámetro. Si en la muestra se obtienen 0 bolas negras, es decir

Valor de θ P (X = 0) P (X = 1) P (X = 2) P (X = 3)θ = 1/4 27/64 27/64 9/64 1/64θ = 3/4 1/64 9/64 27/64 27/64

Cuadro 1.1: Probabilidad de obtener 0, 1, 2 y 3 bolas negras cuando θ = 14y θ = 3

4.

(x1 = 0, x2 = 0, x3 = 0) ,

entonces θ = 1/4 porque es más probable obtener (con este valor de θ) 0 bolas negras quecon θ = 3/4. Ahora, si en la muestra se obtienen 2 bolas negras entonces θ = 3/4, ya quees más probable obtener 2 bolas negras con θ = 3/4 que con θ = 1/4. Es decir, se escoge elvalor de θ que maximiza la probabilidad de obtener una muestra específica (x1, x2, x3).

Esta es la idea subyacente en el método de máxima verosimilitud para estimar paráme-tros. De manera general, es necesario definir una función que represente la "probabilidad"deobtener una cierta muestra de entre todas las posibles en X (el espacio muestral o de lasmuestras). Dicha función, para un valor muestral fijo, depende únicamente de los parámetrosde la distribución en cuestión y el problema es encontrar aquél valor del parámetro o de losparámetros que maximicen esta función para una realización fija de la muestra. En el ejemploanterior, el parámetro sólo puede tomar dos valores, pero en general se estará resolviendo unproblema de optimización sobre el espacio paramétrico correspondiente a la distribución conla que se esté trabajando (una vez que se ha observado una muestra).

Para abordar este tema, se iniciará con la definición de la función de verosimilitud.

10

Page 12: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

Definición 1.2 Sea X1, . . . ,Xn una muestra aleatoria de una población con función de den-sidad f(x; θ). Se define la función de verosimilitud como la función de densidad conjuntade la muestra y se denota como L(θ) o L(θ | x). Es decir:

L(θ) = fX1,...,Xn(x1, ..., xn; θ) =

n∏

i=1

fXi(xi; θ).

Definición 1.3 Sea X1, . . . ,Xn una muestra aleatoria de una población con función de den-sidad f(x; θ) y L(θ) la correspondiente función de verosimilitud. A θ = T (X) se le llamael estimador máximo verosímil de θ, si satisface que para cualquier θ ∈ Θ, se tiene queL(θ) ≥ L(θ).

Método general

Sea f(x; θ1, θ2, . . . , θk) una función de densidad con k parámetros. Si (θ1, ...θk) satisfaceel sistema

∂L(θ1, θ2, ..., θk)

∂θi= 0 i = 1, 2, ..., k;

entonces (θ1, ..., θk) es el estimador máximo verosímil de θ.

Note que

∂θiln(L(θ1, θ2, . . . , θk)) =

1

L(θ1, θ2, . . . , θk)· ∂

∂θiL(θ1, θ2, . . . , θk).

Por lo tanto,

∂θiln(L(θ1, θ2, . . . , θk)) = 0⇔ ∂

∂θiL(θ1, θ2, . . . , θk) = 0.

Es decir, ln(L(θ1, θ2, . . . , θk)) alcanza su máximo en el mismo punto que L(θ1, θ2, . . . , θk).

En virtud de la observación anterior se define la log-verosimilitud de f(x; θ1, θ2, . . . , θk)como

l(θ1, θ2, . . . , θk) = ln(L(θ1, θ2, . . . , θk)).

Frecuentemente, por practicidad, se calcula el máximo de l(θ) en vez del de L(θ).

Ejemplo 1.7 (Distribución Bernoulli). Sea X1, . . . , Xn una muestra aleatoria de una pobla-ción con distribución Bernoulli(θ). Obtener el estimador máximo verosímil de θ.

L(θ) =n∏

i=1

f(xi, θ) =n∏

i=1

θxi(1− θ)1−xi = θ∑n

i=1 xi(1− θ)n−∑n

i=1 xi.

11

Page 13: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

Entonces,

l(θ) = ln(L(θ)) = ln(θ∑ni=1 xi(1− θ)n−

∑ni=1 xi

)

= ln(θ)

n∑

i=1

xi + ln(1− θ)

(n−

n∑

i=1

xi

).

Luego,∂

∂θl(θ) =

∑ni=1 xi

θ− n−∑n

i=1 xi

1− θ.

Por lo tanto,

∂θl(θ) = 0⇔

∑ni=1 xi

θ=

n−∑ni=1 xi

1− θ⇔ 1

θ− 1 =

n∑ni=1 xi

− 1⇔ 1

θ=

1

x,

de donde se concluye queθ = X.

Ahora se verificará que es un máximo

∂2l(θ)

∂θ2|θ= −

∑ni=1 xi

θ2 − n−∑n

i=1 xi

(1− θ)2= −

(∑ni=1 xi

θ2 +

n−∑ni=1 xi

(1− θ)2

)< 0.

∴ El estimador máximo verosímil de θ es θMV = X.

Ejemplo 1.8 (Distribución exp(θ)). Sea X1, . . . , Xn una muestra aleatoria de una poblacióncon distribución exp(θ). Obtener el estimador máximo verosímil de θ.

L(θ) =n∏

i=1

f(xi, θ) =n∏

i=1

θe−θxiI(0,∞)(xi) = θne−θ∑ni=1 xi

n∏

i=1

I(0,∞)(xi).

Entonces,

l(θ) = ln(L(θ)) = ln

(θne−θ

∑ni=1 xi

n∏

i=1

I(0,∞)(xi)

)

= n ln(θ)− θ

n∑

i=1

xi +n∑

i=1

ln(I(0,∞)(xi)).

Luego,∂

∂θl(θ) =

n

θ−

n∑

i=1

xi.

12

Page 14: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

Por lo tanto,∂

∂θl(θ) = 0⇔ n

θ=

n∑

i=1

xi ⇔1

θ=

∑ni=1 xi

n⇔ 1

θ= x,

y así

θ =1

X.

Ahora se verificará que es un máximo

∂2l(θ)

∂θ2|θ= − n

θ2 < 0.

∴ El estimador máximo verosímil de θ es θMV =1

X.

Ejemplo 1.9 (Distribución Poisson(θ)). Sea X1, . . . , Xn una muestra alea-toria de una población con distribución Poisson(θ). Obtener el estimador máximo verosímilde θ.

L(θ) =n∏

i=1

f(xi, θ) =n∏

i=1

e−θθxi

xi!I{0,1,2,...}(xi) = e−nθθ

∑ni=1 xi

n∏

i=1

I{0,1,2,...}(xi)

xi!.

Entonces,

l(θ) = ln(L(θ)) = ln

(e−nθθ

∑ni=1 xi

n∏

i=1

I{0,1,2,...}(xi)

xi!

)

= −nθ + ln(θ)n∑

i=1

xi +n∑

i=1

ln

(I{0,1,2,...}(xi)

xi!

).

Luego,∂

∂θl(θ) = −n+

∑ni=1 xi

θ.

Por lo tanto,∂

∂θl(θ) = 0⇔ n =

∑ni=1 xi

θ⇔ θ =

∑ni=1 xi

n.

De esta manera,θ = X.

Ahora se verificará que es un máximo

∂2l(θ)

∂θ2|θ= −

∑ni=1 xi

θ2 < 0.

∴ El estimador máximo verosímil de θ es θMV = X.

13

Page 15: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

Ejemplo 1.10 (Distribución normal). Sea X1, . . . , Xn una muestra aleatoria de una pobla-ción con distribución N(µ, σ2). Obtener los estimadores máximo-verosímiles de µ y σ2.

Primero se obtiene la función de verosimilitud:

L(µ, σ2

)=

n∏

i=1

1√2πσ2

e−(xi−µ)

2

2σ2

=

[1

2πσ2

]n2

e−12σ2

∑ni=1(xi−µ)2 .

La log-verosimilitud está dada por

l(µ, σ2

)= −n

2ln 2πσ2 − 1

2σ2

n∑

i=1

(xi − µ)2 .

Obteniendo las derivadas con respecto a los parámetros

∂l

∂µ=

1

σ2

n∑

i=1

(xi − µ) ,

∂l

∂σ2= − n

2σ2+

1

2σ4

n∑

i=1

(xi − µ)2 .

Igualando a cero se obtienen∑

i=1

xi − nµ = 0

y

− n

2σ2+

1

2σ4

n∑

i=1

(xi − µ)2 = 0,

de dondeµ = X (1.6)

y

σ2 =

∑ni=1

(Xi −X

)2

n. (1.7)

Las segundas derivadas están dadas por

∂2l

∂µ2= − n

σ2,

∂2l

∂ (σ2)2=

n

2σ4−∑n

i=1 (xi − µ)2

σ6,

∂2l

∂µ∂σ2=

∂2l

∂σ2∂µ= −

∑ni=1 (xi − µ)

σ4.

14

Page 16: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

Sea

H =

(∂2l∂µ2

∂2l∂σ2∂µ

∂2l∂µ∂σ2

∂2l∂(σ2)2

)

la matriz de segundas derivadas. Observe que

∂2l

∂µ2

∣∣∣∣(µ,σ2)

= − n

σ2

∣∣∣σ2

< 0, (1.8)

mientras que

detH|(µ,σ2) = det

(− n

σ2−∑n

i=1(xi−x)

σ4

−∑ni=1(xi−x)

σ4n2σ4−

∑ni=1(xi−x)2

σ6

)

= det

(− n

σ20

0 n2σ4−

∑ni=1(xi−x)2

σ6

)

= − n2

2σ6+

n2∑n

i=1 (xi − x)2

nσ8

= − n2

2σ6+

n2σ2

σ8

= − n2

2σ6+

n2

σ6=

n2

2σ6> 0. (1.9)

Por (1.8) y (1.9), se ve que H es definida negativa y por lo tanto, el óptimo(µ, σ2

)es un

máximo, concluyéndose que (1.6) y (1.7) son los estimadores máximo verosímiles de µ y σ2.

Ejemplo 1.11 (Distribución uniforme). Sea X1, . . . , Xn una muestra aleatoria de una pobla-ción con distribución Uniforme en el intervalo [θ − 1

2, θ + 1

2], es decir,

f(x; θ) = I[θ− 12,θ+ 1

2](x).

Obtener el estimador máximo verosímil de θ.La función de verosimilitud está dada por

L (θ) =n∏

i=1

I[θ− 12,θ+ 1

2](xi) =

{1 si para toda i, xi ∈ [θ − 1

2, θ + 1

2]

0 si para alguna i, xi /∈ [θ − 12, θ + 1

2].

Es decir, el máximo valor de L (θ) es 1 cuando xi ∈ [θ − 12, θ + 1

2] para toda i, lo cual ocurre

si

y1 ≥ θ − 1

2y yn ≤ θ +

1

2,

15

Page 17: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

es decir, si

yn −1

2≤ θ ≤ y1 +

1

2.

Por lo tanto,

L (θ) =

{1 si θ ∈

[yn − 1

2, y1 + 1

2

]

0 en otro caso.

Cualquier valor θ de θ en[Yn − 1

2, Y1 + 1

2

]es un estimador máximo verosímil, por ejemplo,

T (X) = Y1+Yn2

.

Ejemplo 1.12 (Distribución uniforme). Sea X1, . . . , Xn una muestra aleatoria de una pobla-ción con distribución Uniforme en el intervalo [0, θ] . Hallar el estimador máximo verosímilde θ.

La función de densidad está dada por

f (x; θ) =

{1θ, 0 ≤ x ≤ θ,

0 en otro caso.

La función de verosimilitud es

L (θ) =n∏

i=1

f (xi; θ)

=

{1θn

si xi ≤ θ, para toda i0 si al menos una de las xi > θ

=

{1θn

si max {x1, x2, ..., xn} ≤ θ0 en otro caso

=

{1θn

si θ ≥ yn0 si θ < yn,

donde yn = max {x1, x2, ..., xn} . Note que

dL (θ)

dθ= − n

θn+1< 0.

Así, la función de verosimilitud vale cero si θ < yn y 1θn

si θ ≥ yn, siendo en este caso unafunción decreciente, como se muestra en la figura 1.3.

16

Page 18: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

L(

)

Yn

Figura 1.3: Gráfica de la función de verosimilitud para una muestra de tamaño n de ladistribución uniforme continua en el intervalo [0, θ] .

Así, el estimador máximo verosímil de θ es

θ = Yn = max {X1, ..., Xn} .

Propiedad de invarianza de los estimadores máximo-verosimiles

En algunas ocasiones, el objetivo no es estimar un parámetro de la distribución sino unafunción de éste, τ (θ). Por ejemplo, el interés podría ser estimar la desviación estándar de unadistribución normal, σ, en lugar de la varianza σ2; o estimar la trasformación del momio enuna distribución Bernoulli, θ/(1− θ), en lugar de la probabilidad de éxito θ. Por lo tanto, se

busca un estimador de la función τ(θ), es decir, τ(θ).Una propiedad de los estimadores máximo verosímiles es la propiedad de invarianza. Esto

significa que si buscamos un estimador máximo verosímil para una función de θ, denotadapor τ (θ), y si sabemos que el estimador máximo verosímil de θ es θ, entonces el estimador

máximo verosímil de τ (θ), denotado por τ(θ), es τ (θ).Por lo tanto, la propiedad de invarianza de los estimadores máximo verosímiles enuncia

que

τ (θ) = τ (θ),

es decir, que para encontrar el estimador máximo verosímil de una función del parámetrobasta simplemente evaluar la función en el estimador máximo verosímil.

Para esto es necesario tomar en cuenta las características de la función τ(θ), por ejemplo,si la función de τ (θ) es uno-a-uno, entonces la propiedad de invarianza se cumple y existe un

17

Page 19: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

sólo máximo, dado que podemos invertir la función. Esto se puede ver fácilmente considerandoque si η = τ (θ), entonces la función inversa de τ(θ) es τ−1(η) = θ, la cual está bien definidapor ser una función uno-a-uno, y la función de verosimilitud de τ(θ), escrita como una funciónde η, está dada por

L∗(η) =n∏

i=1

f(xi; τ−1(η)) = L(τ−1(η)),

y para obtener el estimador máximo verosímil, basta obtener lo siguiente

supη

L∗(η) = supη

L(τ−1(η)) = supθ

L(θ).

Por tanto, el máximo de L∗(η) se alcanza en η = τ(θ) = τ(θ), mostrando así que el estimadormáximo verosímil de τ (θ) es τ (θ).

En algunos casos, no es posible usar la propiedad de invarianza de los estimadores máximoverosímiles debido a que muchas funciones de interés no son funciones uno-a-uno. Por ejemplo,para estimar µ2, donde µ es la media de una distribución normal, la función τ (µ) = µ2 no esuna función uno-a-uno. Si τ(θ) no es una función uno-a-uno, entonces para algún valor η puedehaber más de un valor de θ que satisfaga que τ(θ) = η. En estos casos, la correspondenciaentre la maximización sobre η y la correspondiente maximización sobre θ deben analizarse.Por ejemplo, si θ es el estimador máximo verosímil de θ, podría existir otro valor de θ,digamos θ0, para el cual también se cumple que τ(θ) = τ(θ0). Así, en el caso de que τ(θ)no sea una función uno-a-uno, no necesariamente existirá una única solución. En estos casosserá necesario usar una definición más general de la función máximo verosímil de τ (θ). Unadefinición de verosimilitud más general para τ (θ) es la siguiente.

Definición 1.4 La función de verosimilitud inducida por τ (θ), denotada por L∗, está dadapor

L∗(η) = sup{θ:τ(θ)=η}

L(θ).

En este caso, el valor η que maximiza a la función L∗(η) es el estimador máximo verosímilde η = τ(θ). Además, puede verse a partir de las igualdades anteriores que el máximo de L∗

y el máximo de L coinciden.

Teorema 1.1 Si θ es el estimador máximo verosímil de θ, entonces para cualquier funciónτ(θ), el estimador máximo verosímil de τ(θ) es τ(θ) 3.

Demostración:

3Esta propiedad fue demostrada por Zehna (1966) en el artículo Invariance of Maximum Likelihood Esti-mators en la revista Annals of Mathematical Statistics.

18

Page 20: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

Sea η el valor que maximiza L∗(η). Es necesario mostrar que L∗(η) = L∗(τ (θ)). Además,como se mencionó anteriormente, el máximo de L y el máximo de L∗ coinciden, así que setiene lo siguiente,

L∗(η) = supη

sup{θ:τ(θ)=η}

L(θ)

= supθ

L(θ)

= L(θ),

donde la primera igualdad se cumple por definición de L∗(η) ya que L∗(η) = sup{θ:τ(θ)=η} L(θ),la segunda igualdad se obtiene debido a que la maximización iterada es igual a la maxi-mización no condicional sobre θ, y la última igualdad se cumple por definición de θ, ya queθ es el estimador máximo verosímil de L(θ). Además,

L(θ) = sup{θ:τ(θ)=τ(θ)}

L(θ)

= L∗(τ(θ)),

donde la primera igualdad se obtiene debido a que θ es el estimador máximo verosímil de θ,y la segunda igualdad se obtiene por la definición de L∗(η).

Por lo tanto, se muestra que L∗(η) = L∗(τ(θ)) y que τ (θ) es el estimador máximo verosímilde τ(θ).

Con este teorema es posible encontrar estimadores máximo verosímiles de funciones deparámetros que no son uno-a-uno, por ejemplo, se puede ver que el estimador máximoverosímil de µ2, donde µ es la media de una distribución normal, es X2.

Observación 1.1 La propiedad de invarianza de los estimadores máximo verosímiles tam-bién se cumple en el caso multivariado. La demostración del teorema anterior es válida aúnsi θ es un vector de parámetros. Si el estimador máximo verosímil de θ = (θ1, . . . , θk) esθ = (θ1, . . . , θk), y si τ (θ) = τ(θ1, . . . , θk) es alguna función de los parámetros, entonces elestimador máximo verosímil de τ (θ1, . . . , θk) es τ(θ1, . . . , θk).

Ejemplo 1.13 Sea X1, . . . ,Xn una muestra aleatoria de una población con distribuciónN(µ, 1), con µ desconocido. Se busca el estimador máximo verosímil de τ(µ) = log(µ). Co-mo µ = X es el estimador máximo verosímil de µ, entonces por la propiedad de invarianzalog(X) es el estimador máximo verosímil de log(µ).

19

Page 21: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

Ejemplo 1.14 Sea X1, . . . , Xn una muestra aleatoria de la distribución normal N(µ, σ2).Se sabe que el estimador máximo verosímil de µ es X. Para encontrar el estimador máximoverosímil de τ(µ) = sen (µ)

τ(µ) = τ(µ) = sen(µ) = sen(X).

Ejemplo 1.15 Sea X1, . . . , Xn una muestra aleatoria de la distribución Bernoulli(θ). Sedesea encontrar el estimador máximo verosimil de τ (θ) = θ(1− θ). Se sabe que el estimadormáximo verosímil de θ es θMV = X. Entonces

τ (θ)MV = τ(θMV ) = τ (X) = X(1− X).

Ejemplo 1.16 Sea X1, . . . ,Xn una muestra aleatoria de una población con distribuciónBernoulli(θ), con θ desconocido. Se busca el estimador máximo verosímil del momio τ (θ) =

θ(1−θ)

. Como θ = X es el estimador máximo verosímil de θ, entonces por la propiedad de

invarianza X(1−X)

es el estimador máximo verosímil de θ(1−θ)

.

1.1.3. Verosimilitud en el enfoque Bayesiano

Considere una muestra aleatoriaX1, . . . ,Xn de una población con distribución gama(µ, s),con media µ. En esta sección se denotará a la función de densidad como fX(x|θ) y a laverosimilitud como L (θ|x1, . . . , xn) , la razón de este cambio se comprenderá más adelante.Así, para el caso de la distribución gama(µ, s), su función de densidad está dada por

fX(x|µ, s) =ss

Γ(s)µsxs−1 exp{−sx/µ},

mientras que la correspondiente función de verosimilitud es

L(µ, s|x1, . . . , xn) =n∏

i=1

ss

Γ(s)µsxs−1i exp{−sxi/µ}

=sns

Γn(s)µnsT s−11 exp{−sT2/µ},

donde T1 =∏n

i=1 xi y T2 =∑n

i=1 xi. Observe que la verosimilitud depende de la muestra sóloa través de estas estadísticas suficientes T1 y T2. Suponga que se desea estimar el parámetroµ. Al otro parámetro que no es el que se está estimando, en este caso s, se le suele llamar unparámetro de ruido.

Utilizando exclusivamente la verosimilitud para proponer un estimador para el parámetrode interés µ y teniendo en cuenta la posibilidad de un muestreo repetido, el estimador máximoverosímil para µ es el valor del parámetro µ ∈ Θ que maximiza la función de verosimilitud;es decir, el valor del parámetro para el cual la muestra observada es más probable.

Por construcción, el rango del estimador coincide con el espacio paramétrico, aunquehereda las dificultades de cualquier problema de optimización, a saber:

20

Page 22: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

Encontrar el máximo global y verificar que lo sea.

Que sea sensible a cambios numéricos.

Ahora, si se consideran dos valores de µ, el cociente de verosimilitudes para el caso de ladistribución gama, estaría dado por:

L(µ1, s|x1, . . . , xn)

L(µ2, s|x1, . . . , xn)=

sns

Γn(s)µns1T s−11 exp{−sT2/µ1}

sns

Γn(s)µns2T s−11 exp{−sT2/µ2}

,

=

(µ1µ2

)ns

exp{−sT2[1/µ1 − 1/µ2]},

el cual depende del valor del parámetro s. En general no es claro cómo tratar el parámetrode ruido, pero desde el enfoque clásico de maximizar la función de verosimilitud como se vioen la sección 1.1.2, simplemente se toma el valor del estimador s.

Existe otro enfoque conocido como Inferencia Bayesiana, en el cual se condiciona com-pletamente en los datos observados y se concluye sobre la población en estudio basándoseen:

1. La verosimilitud L(θ|x), que representa la información que hay en los datosx= (x1, . . . , xn); y

2. π(µ) una distribución de probabilidad que se conoce como distribución inicial oa priori y que describe las ideas subjetivas que se tienen sobre el valor de µ. Estasideas se conciben como externas a los datos y pueden ser deducidas de experienciasprevias o bien de conocimiento experto.

La inferencia se expresa a través de una distribución posterior, final o a posteriori de lospárametros que se denotará como π(θ|x) y que se obtiene a través del teorema de Bayes:

π(θ|x) =L(θ|x)π(θ)∫L(θ|x)π(θ)dθ . (1.10)

La estadística Bayesiana (por Thomas Bayes (1702-1761), matemático del siglo XVIII),representa un enfoque diferente a la estadística inferencial clásica o frecuentista. En el enfoqueBayesiano también se supone que los datos se obtienen de una distribución perteneciente auna familia paramétrica conocida; sin embargo, a diferencia de la estadística clásica, queconsidera que los parámetros son fijos pero desconocidos, aquí se hace el supuesto de que sonvariables aleatorias.

21

Page 23: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

En resumen, el enfoque denominado frecuentista no supone que hay conocimiento previode θ. El enfoque Bayesiano, por el contrario, se basa en el supuesto de que se tiene algunainformación previa acerca de θ. Esta información se expresa por medio de una distribuciónsobre θ, llamada distribución inicial o a priori. Aquí se supondrá que esta distribución a prio-ri tiene una densidad π(θ) y puede tener distintas interpretaciones según el problema que seesté abordando, por ejemplo, que dicha distribución está sustentada en experiencias previassimilares o que expresa una creencia subjetiva.

En ambos casos, la verosimilitud provee la información que hay en las observaciones y quepermite evaluar y elegir un valor del parámetro sobre otros, pues en el proceso inferencialse busca obtener estimadores que concilien de la mejor manera el modelo con los datosobservados. Será entonces de interés examinar la incertidumbre que hay en este proceso paraelegir un buen estimador.

En el contexto Bayesiano se debe considerar la evaluación de la dependencia de las conclu-siones con respecto a las distribuciones iniciales, las cuales se han dado de manera subjetiva.En muchos casos, la selección de la distribución inicial también contempla la posibilidad decalcular de forma cerrada el denominador en (1.10). Un caso particular de esta selección seda con las familias conjugadas.

Definición 1.5 Una distribución inicial π(θ) es conjugada si para π(θ) ∈ P y L(θ|x) ∈ F ,se tiene que π(θ|x) ∈ P, donde P y F son familias de distribuciones.

A continuación se da un primer ejemplo para ilustrar algunas de las funciones que se hanmencionado en el enfoque Bayesiano.

Ejemplo 1.17 Los paquetes de los llamados dulces Smarties vienen con k colores diferentes,los cuales se repiten con la misma frecuencia.

Figura 1.4: Dulces smarties. Tomada de pixabay.com (imágenes gratuitas de alta calidad).

Suponga que no se conoce k y secuencialmente se examinan 3 dulces, resultando un rojo,un verde y un rojo. La densidad para X = el segundo dulce es de diferente color que el

22

Page 24: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

primero, pero el tercero es del mismo color que el primero, está dada por:

f (x | k) = P (el segundo es de diferente color que el primero)××P (el tercero es del mismo color que el primero)

=

(k − 1

k

)(1

k

)=

k − 1

k2.

A la luz de los datos x = rojo, verde, rojo, se tiene entonces que f(x|k) = (k − 1)/k2. Si enlugar de 3 se examinan 4 y resulta que ese cuarto es de color naranja (con los tres primerosrojo, verde, rojo), se tiene que

f (x | k) =(k − 1) (k − 2)

k3.

Ahora suponga que se tiene información a priori o se cree que el número de colores es5,6,7 u 8, con probabilidades iniciales 1

10, 310, 310

y 310, respectivamente.

Para el caso de tres dulces, si k = 5, entonces

f(x|k) = (5− 1)/52 =4

25= 0.16,

f(x|k)π (k) = (0.16)

(1

10

)= 0.016

y

π (k | x) =(0.16)

(110

)

8∑k=5

f(x|k)π (k)

= 0.13.

A continuación se resumen los valores de estas funciones para los distintos valores de k ypara ambos escenarios, es decir, cuando se tiene rojo, verde y rojo (cuadro 1.2) y para cuando

k π(k) f(x|k) π(k)f(x|k) π(k|x)5 .1 .160 .016 .136 .3 .139 .042 .337 .3 .122 .037 .298 .3 .109 .033 .26

Cuadro 1.2: Cálculo de la distribución a posteriori cuando los dulces exami-nados son rojo, verde y rojo.

el cuarto dulce es naranja (cuadro 1.3).Observe que la distribución a posteriori para k es una pequeña modificación de la a priori.

23

Page 25: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

k π(k) f(x|k) π(k)f(x|k) π(k|x)5 .1 .096 .010 .116 .3 .093 .028 .317 .3 .087 .026 .308 .3 .082 .025 .28

Cuadro 1.3: Cálculo de la distribución a posteriori cuando los dulces exami-nados son rojo, verde, rojo y naranja.

La estadística Bayesiana se basa en el cálculo de distribuciones condicionales. Los siguien-tes ejemplos ilustran el uso de la definición de densidades condicionales en términos de lasdensidades conjuntas y marginales.

Ejemplo 1.18 Una moneda cargada se lanza n veces. Suponga que xi vale 1 si se obtienesol y 0 si no, en el i-ésimo lanzamiento. No se tiene idea de qué tan cargada está la moneda,entonces se considera una distribución uniforme a priori para θ, de tal manera que la densidada priori está dada por:

π(θ) = 1, 0 ≤ θ ≤ 1.

Sea t el número de soles. Entonces la distribución a posteriori de θ es:

π(θ|x1, . . . , xn) =θt(1− θ)n−t × 1∫ 1

0φt(1− φ)n−t × 1dφ

π(θ|x) ∝ θt(1− θ)n−t,

de donde se puede ver que si se inserta una constante de proporcionalidad apropiada, entoncesse tiene una densidad Beta(t+ 1, n− t+ 1), que sería la distribución a posteriori de θ dadax.

En el ejemplo anterior se utiliza ∝ para denotar que π(θ|x) es proporcional a θt(1−θ)n−t.En general, ∝ se lee como “es proporcional a”.

Ejemplo 1.19 Suponga que X1, . . . ,Xn es una muestra aleatoria de una población con dis-tribución N(µ, 1) y que π(µ) ∼ N(0, τ−2) para τ−2 conocida. Entonces

π(µ|x1, . . . , xn) ∝ exp

{−1

2

(n∑

i=1

(xi − µ)2 + µ2τ 2

)}

∝ exp

{−1

2(n+ τ 2)

(µ−

∑ni=1 xi

n+ τ 2

)2}.

Así,

µ|x1, . . . , xn ∼ N

(∑ni=1 xi

n+ τ 2,

1

n + τ2

).

24

Page 26: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

Ejemplo 1.20 Sea X1, . . . ,Xn una muestra aleatoria de una población con distribuciónexponencial(λ) y la distribución a priori para el parámetro λ es una exponencial(µ), donde µes fija y conocida. Entonces:

π(λ|x1, . . . , xn) ∝ µe−λµn∏

i=1

λe−λxi = λne−λ(µ+∑n

i=1 xi),

es decir, λ ∼ gama(n+ 1, µ+∑n

i=1 xi).

Ejemplo 1.21 Suponga que se examina una máquina que hace partes de automóviles y sedenota a θ como la proporción de marcas defectuosas. Un día se examinan 10 piezas denotadaspor X1, . . . , X10, donde Xi = 1 indica que la pieza i es defectuosa y Xi = 0 que no tienedefecto. Esto puede verse como una muestra aleatoria con distribución Bernoulli de parámetroθ, cuya función de densidad es fX(x; θ) = θx(1 − θ)1−xI{0,1}(x) para 0 ≤ θ ≤ 1, que indicaque la probabilidad de que una parte sea defectuosa es θ. Así que la densidad conjunta de las10 observaciones es

fX(x; θ) = θ∑10i=1 xi(1− θ)10−

∑10i=1 xi

10∏

i=1

I{0,1}(xi)

= L (θ | x) .

Con el método de máxima verosimilitud el estimador de θ es θ = X. Suponga que el expertotiene información adicional acerca de θ y que él ha observado que a lo largo de los días laproporción de partes defectuosas cambia, es decir, el valor de θ cambia y que este cambio puederepresentarse como una variable aleatoria con función de densidad π(θ) = 6θ(1− θ)I[0,1](θ),esto es, θ tiene una distribución Beta con parámetros 2 y 2, denotada como Beta(2, 2). ¿Cómose puede usar esta información adicional para estimar θ?.

Como ya se ha señalado, en el método Bayesiano se considera que θ es una cantidadcuya variación puede describirse por medio de una distribución de probabilidad (llamadadistribución a priori). La distribución a priori es una distribución subjetiva, basada en lascreencias del experto y se formula antes de obtener los datos. Se selecciona una muestra apartir de una población sujeta al parámetro θ, entonces la distribución a priori se actualizautilizando la información de la muestra y se obtiene la disribución a posteriori. Estaactualización se hace usando la regla de Bayes. La distribución a posteriori es una distribucióncondicional, y es condicional dada la muestra. La distribución a posteriori se usa para hacerinferencia acerca de θ (obtener el estimador puntual, intervalos de credibilidad y pruebas dehipótesis).

25

Page 27: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

La distribución conjunta de X1, . . . , X10 y θ es

g(x, θ) = fX(x; θ)︸ ︷︷ ︸distribución conjunta

× π(θ)︸︷︷︸distribución a priori

= θ∑10

i=1 xi(1− θ)10−∑10

i=1 xi × 6θ(1− θ)

= θy(1− θ)10−y × 6θ(1− θ)

= 6θy+1(1− θ)10−y+1,

donde y =∑10

i=1 xi. Calculando la distribución marginal de la muestra, m(x),

m(x) =

∫fX(x; θ)π(θ)dθ =

∫g(x, θ)dθ

=

∫6θy+1(1− θ)10−y+1dθ

= 6Γ(y + 2)Γ(10− y + 2)

Γ(10 + 2 + 2)

= 6Γ(y + 2)Γ(12− y)

Γ(14).

Así, la distribución a posteriori de θ dada la muestra x es

π(θ|x) =g(x, θ)

m(x)

=6θy+1(1− θ)10−y+1

6Γ(y+2)Γ(12−y)Γ(14)

=Γ(14)

Γ(y + 2)Γ(12− y)θy+1(1− θ)11−y,

que es una distribución Beta(y + 2, 12− y).Un estimador para θ es la media de la distribución a posteriori (ver Sección 1.2.3), la

cual daría el estimador de Bayes de θ,

θ =y + 2

14.

En el cuadro 1.4 se resumen los valores de los estimadores máximo verosímil y de Bayes paradistintos valores de la muestra.

Las gráficas de la figura 1.5 muestran el comportamiento de la distribución a posterioriante la evidencia de los datos y el conocimiento previo del parámetro.

26

Page 28: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

Muestra y 0 1 2 3 4 5 6 7 8 9 10

θ EMV 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

θ Bayes 0.14 0.21 0.29 0.36 0.43 0.5 0.57 0.64 0.71 0.79 0.86

Cuadro 1.4: Valores de los estimadores máximo verosímil y de Bayes para distintos valoresde la muestra.

0.0 0.2 0.4 0.6 0.8 1.0

01

23

45

Y=0

Densid

ad

Prior

Verosimilitud

Posterior

0.0 0.2 0.4 0.6 0.8 1.00

12

34

5

Y=2

Densid

ad

Prior

Verosimilitud

Posterior

0.0 0.2 0.4 0.6 0.8 1.0

01

23

45

Y=5

Densid

ad

Prior

Verosimilitud

Posterior

0.0 0.2 0.4 0.6 0.8 1.0

01

23

45

Y=10

Densid

ad

Prior

Verosimilitud

Posterior

Figura 1.5: Comportamiento de las funciones a priori, a posteriori y de verosimilitud para laproporción de marcas defectuosas y distintos valores de la muestra en el ejemplo 1.21.

En el caso de no utilizar familias conjugadas, la obtención de la constante de normalizaciónpara las distribuciones posteriores no se puede hacer de manera analítica y es necesariorecurrir a métodos de simulación.

1.1.4. Otros métodos de estimación

Además de los métodos de momentos y los basados en verosimilitud, existen alternativaspara encontrar el estimador de un parámetro, por ejemplo, el método de medianas, suextensión, elmétodo de percentiles, y elmétodo de mínimos cuadrados. Los primerosdos se revisan en esta sección, mientras que el último se abordará en la Sección 1.2.1.

27

Page 29: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

El método de medianas únicamente se puede aplicar a modelos dependientes de un sóloparámetro y consiste en lo siguiente: suponga que x0.5 representa a la mediana de la muestramientras que x0.5 denota a la mediana de la distribución. Recuerde que x0.5 es el valor de xpara el cual FX(x0.5) = 1

2, donde FX (x) es la función de distribución de la variable aleatoria

continua X, o alternativamente,

∫ x0.5

−∞f (x; θ) dx =

∫ −∞

x0.5

f (x; θ) dx =1

2.

El método consiste en igualar las medianas y resolver para el parámetro desconocido, el cualestá involucrado en la expresión resultante para x0.5. La extensión de este método para el casode dos o más parámetros puede hacerse a través del método de percentiles que se describe acontinuación.

Método de percentiles

Si xp es el valor de x tal que FX (xp) = p, entonces xp es el p-ésimo(×100) percentil de ladistribución. Para usar este método se calculan los correspondientes percentiles de la muestray se igualan con los de la distribución (los cuales se encuentran en términos de los parámetrosdesconocidos) y se resuelve para cada parámetro. Observe que si p = 1

2, entonces xp es la

mediana, así que el método de las medianas se puede ver como un caso particular.

Ejemplo 1.22 Suponiendo que se tiene una muestra aleatoria de tamaño n de una poblacióncon distribución exponencial, se desea estimar el parámetro θ en f (x; θ) = θ exp (−θx) .Primero se resuelve FX(x0.5) = 1

2o

∫ x0.5

0

θe−θxdx =1

2,

de donde

1− e−θx0.5 =1

2o

e−θx0.5 =1

2,

resultando:

x0.5 = − ln 12

θ. (1.11)

Igualando (1.11) con x0.5, es decir con la mediana muestral, se obtiene que

θ = − ln 12

x0.5.

28

Page 30: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

Ejemplo 1.23 Usando el método de percentiles, estimar los parámetros en una distribuciónWeibull con función de densidad

f (x; θ) = γλxγ−1 exp {−λxγ} .

Dados los percentiles muestrales x0.5 = 10000 y x0.9 = 100000, ¿cuál es el estimador para elparámetro γ?

La función de distribución correspondiente es

FX (x) =

∫ x

0

γλuγ−1 exp {−λuγ} du

= 1−∫ ∞

x

γλuγ−1 exp {−λuγ} du

y

∫ ∞

x

γλuγ−1 exp {−λuγ} du =−γλuγ−1

−γλuγ−1e−λuγ

∣∣∣∣∞

x

= e−λxγ .

Por lo tanto:FX (x) = 1− exp {−λxγ} ,

la cual tiene dos parámetros. Si xp es el valor de x tal que FX (xp) = p, entonces xp es el100p-ésimo percentil de la distribución, que para este caso daría las ecuaciones:

FX (x0.5) = 1− exp {−λxγ0.5} = 0.50

yFX (x0.9) = 1− exp {−λxγ

0.9} = 0.90,

de donde:exp {−λxγ

0.5} = 0.50

yexp {−λxγ

0.9} = 0.10,

que es equivalente aλxγ

0.5 = − ln (0.50) = 0.69315

yλxγ

0.9 = − ln (0.10) = 2.30259.

Es decir:

x0.5 =

(0.69315

λ

) 1γ

29

Page 31: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

y

x0.9 =

(2.30259

λ

) 1γ

.

Igualando con los respectivos percentiles muestrales, se obtiene:

(0.69315

λ

) 1γ

= 10000 (1.12)

y (2.30259

λ

) 1γ

= 100000. (1.13)

Dividiendo (1.13) entre (1.12): (2.30259

0.69315

) 1γ

= 10

o sea,

10γ =2.30259

0.69315= 3.32192.

De donde se obtiene que

γ =ln 3.32192

ln 10= 0.521.

Usando (1.12), se puede obtener el estimador de λ :

0.69315

λ= (10000)0.521 = 121.34.

Así,

λ =0.69315

121.34=

457

80 000.

Si los percentiles muestrales no están dados explícitamente, se puede usar el siguientemétodo para calcularlos: para una muestra de tamaño n, sean x1, x2, ..., xn los valores mues-trales en orden ascendente. Sea k = (n+ 1) p, donde p es el orden del percentil que se busca.Sea l la parte entera de k (l = 1, 2, ..., n− 1) y sea m la parte fraccional de k, 0 ≤ m < 1. Sedefine

xp = (1−m)xl +mxl+1 (1.14)

como el p-ésimo percentil (×100) de la muestra. Observe que xl y xl+1 representan los ele-mentos l-ésimo y (l + 1)-ésimo de la muestra, respectivamente.

30

Page 32: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

Ejemplo 1.24 En una muestra de ratas de laboratorio se obtienen los tiempos de muertedados a continuación: x = 3, 4, 5,7, 7, 8, 10, 10 y 12, donde el tiempo se mide en días. Usandoel método de percentiles, estimar los parámetros B y c del modelo de supervivencia Gompertz,cuya función de distribución está dada por:

FX (x) = 1− exp

[B

ln c(1− cx)

],

con los percentiles 0.25 y 0.65.Los percentiles 0.25 y 0.65 son tales que

1− exp

[B

ln c(1− cx0.25)

]= 0.25

y

1− exp

[B

ln c(1− cx0.65)

]= 0.65

⇔B

ln c(1− cx0.25) = ln 0.75

B

ln c(1− cx0.65) = ln 0.35

⇔cx0.25 = 1− ln 0.75

ln c

B

cx0.65 = 1− ln 0.35ln c

B.

Así,

x0.25 =ln[1− ln 0.75 ln c

B

]

ln c(1.15)

y

x0.65 =ln[1− ln 0.35 ln c

B

]

ln c. (1.16)

Usando (1.14), se tiene que para el percentil 0.25, k = (9 + 1)(0.25) = 2.5, de dondese obtiene x0.25 = (0.5) (x2) + (0.5)(x3) = (0.5) (4) + (0.5)(5) = 4.5. Para el cuantil 0.65,k = (9 + 1)(0.65) = 6. 5, por lo tanto x0.65 = (0.5)x6 + (0.5)x7 = (0.5)8 + (0.5)10 = 9.

Igualando los percentiles obtenidos en (1.15) y (1.16) con los percentiles muestrales, re-sultan las siguientes ecuaciones:

ln[1− ln 0.75 ln c

B

]

ln c= 4.5 (1.17)

31

Page 33: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

yln[1− ln 0.35 ln c

B

]

ln c= 9.

Dividiendo la segunda entre la primera, resulta

ln[1− ln 0.35 ln c

B

]

ln[1− ln 0.75 ln c

B

] = 2

⇒1− ln 0.35

ln c

B=

[1− ln 0.75

ln c

B

]2

⇒ln 0.35

ln c

B= 1−

[1− ln 0.75

ln c

B

]2

⇒ln 0.35z = 1−

(1− 2z ln 0.75 + (ln 0.75)2 z2

),

donde z = ln cB. Simplificando la última expresión se obtiene:

(ln 0.75)2 z2 − z [2 ln 0.75− ln 0.35] = 0,

o0.83z2 − (0.4744) z = 0,

de donde

z =0.4744

0.083= 5.7163.

Es decir, ln cB

= 5.7163, lo que a su vez implica que ln c = 5.7163B. Sustituyendo este últimovalor en (1.17), se tiene:

ln[1− ln 0.755.7163B

B

]

5.7163B= 4.5

y despejando B, se llega al resultado B = 0.03780. Finalmente, c = 1.2412.

Existen diferentes propuestas para obtener estimadores, entonces es necesario establecercriterios para evaluarlos y compararlos. En las siguiente secciones se abordará este tema.

1.2. Evaluación de estimadores

Dado que hay varios métodos para encontrar estimadores, una pregunta natural es, sise pueden tener estimadores distintos para una parámetro, ¿cuál es mejor o cuál se debeelegir?. Es necesario contar con criterios para responder a esta pregunta y poder decidir cuálestimador es mejor en algún sentido.

32

Page 34: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

1.2.1. Error cuadrático medio y estimadores insesgados

El primer criterio que se analizará es el del error cuadrático medio, concepto que seintroduce a continuación.

Definición 1.6 Sea T (X1, . . . , Xn) un estimador de τ (θ). Se define el error cuadrático medio(ECM) de T como

ECMT (θ) = E[(T (X)− τ(θ))2].

Es decir, el error cuadrático medio mide el error cometido al estimar τ(θ) con T (X). Estamedida es un error promedio al considerar los valores que puede tomar la variable aleatoriaT (X) y se calcula como la esperanza de los errores al cuadrado, tomando los errores como ladiferencia entre los valores de la variable aleatoria y el valor del parámetro.

La idea es que si se tienen dos estimadores T1(X) y T2(X) para τ (θ) y ECMT1(θ) <ECMT2(θ), entonces se elige a T1 como estimador para τ(θ).

Si se desarrolla la expresión E[(T (X)− τ (θ))2], se obtiene que

ECMT (θ) = E[T 2 − 2τ(θ)T + (τ(θ))2]

= E(T 2)− 2τ (θ)E(T ) + τ 2(θ)

= E(T 2)− E2(T ) + E2(T )− 2τ (θ)E(T ) + τ2(θ)

= V ar(T ) + [E(T )− τ (θ)︸ ︷︷ ︸sesgo de T

]2

A E(T ) − τ (θ) se le conoce como sesgo de T . Es importante hacer notar que si el sesgode T es cero, entonces ECMT (θ) = V ar(T ).

Definición 1.7 Un estimador T (X) de τ(θ) es insesgado si E [T (X)] = τ(θ) (es decir, enpromedio, el estimador es igual al parámetro).

Nota: Si T es insesgado, entonces ECMT (θ) = V ar(T ).

Observaciones 1.1 1. En el caso continuo, el error cuadrático medio E[(T−τ(θ))2] puedecalcularse como

∫...

∫(t(x1, x2, . . . , xn)− τ (θ))2fX1(x1; θ) . . . fXn

(xn; θ)dx1 . . . dxn.

2. El ECM puede pensarse también como una medida de la dispersión de T alrededor deτ (θ).

33

Page 35: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

3. ECMT1(θ) y ECMT2(θ) pueden cruzarse, es decir, en general no se cumple que paratodo θ ∈ Θ, ECMT1(θ) < ECMT2(θ) (ó ECMT1(θ) > ECMT2(θ) ).

Ejemplo 1.25 Sea X1, . . . , Xn una muestra aleatoria de la distribución N(µ, σ2). Considere

T1(X) = X

un estimador para µ. Sean

T2(X) = S2 =1

n− 1

n∑

i=1

(Xi − X)2

y

T3(X) = σ2MV =1

n

n∑

i=1

(Xi − X)2 =n− 1

nS2,

estimadores para σ2.Para revisar si son insesgados:

Note queE(T1(X)) = E(X) = µ.

Por lo tanto, T1 sí es insesgado.

También note queE [T2(X)] = E(S2) = σ2.

Por lo tanto, T2 sí es insesgado.

Sin embargo,

E(T3(x)) = E

[n− 1

nS2]

=n− 1

nE[S2]=

n− 1

nσ2.

Por lo tanto, T3 no es insesgado.

Para encontrar el error cuadrático medio de T1, T2 y T3:

Como T1 es insesgado, entonces

ECMT1(µ, σ2) = V ar(X) =

σ2

n.

Como T2 es insesgado, entonces

ECMT2(µ, σ2) = V ar(S2) =

2σ4

n− 1.

34

Page 36: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

Sin embargo, como T3 no es insesgado, entonces

ECMT3(µ, σ2) = V ar(T3) + (sesgo2).

Pero

V ar(T3) = V ar

(n− 1

nS2)

=(n− 1)2

n22σ4

n− 1=

2(n− 1)

n2σ4.

Y

(sesgo)2 = (E(T3)− σ2)2 =

(n− 1

nσ2 − σ2

)2

=

(n− 1− n

n

)2σ4 =

σ4

n2.

Por lo tanto,

ECMT3(µ, σ2) =

2(n− 1)

n2σ4 +

σ4

n2=

2n− 1

n2σ4.

Pero note que

2

n<

2

n− 1⇒ 2

n− 1

n2<

2

n− 1⇒ 2n− 1

n2<

2

n− 1

⇒ (2n− 1)σ4

n2<

2σ4

n− 1⇒ ECMT3 < ECMT2.

Con esto se puede observar que aunque T2 es insesgado, T3 tiene un menor ECM, locuál exhibe que no siempre un estimador insesgado tiene el menor ECM.

Ilustración mediante simulación

Se simula un conjunto deM = 1000 muestras de tamaño n = 3 cada una. Los estimadoresT1(X), T2(X) y T3(X) del ejemplo 1.25, se grafican en las figuras 1.6 y 1.7.

35

Page 37: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

0 200 400 600 800 1000-1

.5-0

.50.5

1.5

T1 insesgado

Muestras

Estim

ació

n

Figura 1.6: El estimador T1 = X es insesgado para µ en el ejemplo 1.25.

0 200 400 600 800 1000

02

46

8

T2 insesgado

Muestras

Estim

ació

n

0 200 400 600 800 1000

02

46

8

T3 sesgado

Muestras

Estim

ació

n

Figura 1.7: El estimador T2 = S2 es insesgado para σ2. T3 no es insesgado para σ2, pero tiene

un error cuadrático medio menor que T2 (ejemplo 1.25).

Método de mínimos cuadrados para estimación de parámetros

Existe otro procedimiento de estimación conocido como el método de mínimos cuadrados,el cual se usa en distintas aplicaciones para encontrar los estimadores de los parámetrosrelacionados con modelos de diversa índole. Se ilustrará con un ejemplo en el marco delcriterio del error cuadrático medio.

Ejemplo 1.26 Considere un conjunto de n puntos en el plano

(x1, y1), . . . , (xn, yn)

36

Page 38: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

y el siguiente experimento: se escoge X con P{X = xi} = 1/n, para i = 1, . . . , n; si X = xi

se asigna Y = yi. Suponga que Y tiene la forma aX + b y se desea encontrar un estimadorpara Y , de tal manera que se minimice el error cuadrático medio, el cual es:

E[(Y − (aX + b))2] =1

n

n∑

i=1

[yi − (axi + b)]2.

Para la función S(a, b) =∑n

i=1[yi − (axi + b)]2, los valores que minimizan la expresiónsatisfacen:

∂S(a, b)

∂a= −2

n∑

i=1

yixi + 2n∑

i=1

ax2i + 2bn∑

i=1

xi = 0,

∂S(a, b)

∂b= −2

n∑

i=1

yi + 2n∑

i=1

axi + 2nb = 0,

de donde, las soluciones que minimizan el ECM están dadas por

b =1

n

n∑

i=1

yi − a1

n

n∑

i=1

xi

y

a

(n∑

i=1

x2i −1

n

n∑

i=1

xi

n∑

i=1

xi

)=

n∑

i=1

yixi −1

n

n∑

i=1

yi

n∑

i=1

xi.

A estos estimadores se les conoce como el estimador de mínimos cuadrados para a y b. AY = aX + b se le llama el estimador de mínimos cuadrados de Y .

1.2.2. Consistencia

La consistencia es otra propiedad deseable en un estimador y tiene que ver con tamañosde muestra grandes, es decir, es una propiedad asintótica. Esencialmente, un estimador esconsistente, si para n (el tamaño de muestra) grande, el error cometido al estimar τ(θ) conTn (X) , es pequeño (tiende a cero).

Definición 1.8 (Consistencia en ECM). Sea T1, T2, ..., Tn una sucesión de estimadores deτ(θ), donde Tn está basado en una muestra de tamaño n. Esta sucesión de estimadores deτ(θ) es consistente en error cuadrático medio (ECM) si:

lımn→∞

E[(Tn (X)− τ (θ))2] = 0. (1.18)

Note que (1.18) es una convergencia en media cuadrática, de la sucesión {Tn} a τ(θ).

37

Page 39: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

Ejemplo 1.27 Sea X1, . . . , Xn una muestra aleatoria de la distribución N(µ, σ2). Considerelos estimadores Xn = 1

n

∑ni=1Xi para µ y S2n = 1

n−1∑n

i=1(Xi − X)2 para σ2. Note que

E[(Xn − µ)2] = V ar(Xn) =σ2

nn→∞−→ 0.

Por lo tanto Xn es consistente para µ. También note que

E[(S2n − σ2)2] = V ar(S2n) =2σ4

n− 1n→∞−→ 0.

Por lo tanto S2n es consistente para σ2.

El error cuadrático medio, ECM, es el criterio para medir la bondad de un estimador.Una propiedad desable de un estimador es que proporcione, para muestras grandes, un error(ECM) pequeño en la estimación, es decir, que sea consistente.

Ilustración del concepto de consistencia mediante simulación

Se simula un conjunto de n = 1000 muestras de tamaño i, para i = 2, . . . , n. Los esti-madores Xn y S2n son consistentes, y se pueden observar las gráficas correspondientes en lasfiguras 1.8 y 1.9.

0 200 400 600 800 1000

-0.5

0.0

0.5

1.0

Xbar consistente

Tamaño de muestra

Estim

ació

n

Figura 1.8: Ilustración de la consistencia de X en el contexto del ejemplo 1.27.

38

Page 40: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

0 200 400 600 800 10000.5

1.0

1.5

2.0

S2 consistente

Tamaño de muestra

Estim

ació

n

Figura 1.9: Ilustración de la consistencia de S2 en el contexto del ejemplo 1.27.

Definición 1.9 Se dice que una sucesión de estimadores {Tn}n∈N es consistente simple si ysólo si

∀ǫ > 0 lımn→∞

P(|Tn − τ(θ)| < ǫ) = 1. (1.19)

La consistencia en ECM implica la consistencia simple. Esto se puede analizar desde dosperspectivas: la primera, notando que (1.19) es una convergencia en probabilidad y usandoel hecho de que la convergencia en r-ésima media implica la convergencia en probabilidad; lasegunda, utilizando la desigualdad de Chebyshev:

P(|Tn − τ (θ)| ≥ ǫ) = P([Tn − τ(θ)]2 ≥ ǫ2) ≤ E[(Tn − τ (θ))2]

ǫ2

y la definición de consistencia en ECM.

1.2.3. Funciones de pérdida y estimación

El enfoque Bayesiano al problema de estimación de parámetros es a través de una funciónde pérdida L(θ, a), la cual mide la pérdida en que se incurre cuando se estima el valor deun parámetro mediante a, siendo que el verdadero valor es θ. Entonces θ se selecciona de talmanera que minimice E[L(θ, θ)], donde esta esperanza se toma con respecto a θ usando ladistribución a posteriori π(θ|x).

Definición 1.10 A L(θ, a) = (a − θ)2 se le llama la función de pérdida del error

cuadrático.

39

Page 41: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

Observe que:

E[L(θ, a)] =

∫L(θ, a)π(θ|x1, . . . , xn)dθ =

∫(a− θ)2π(θ|x1, . . . , xn)dθ.

Diferenciando esta expresión con respecto a a, se obtiene:

2

∫(a− θ)π(θ|x1, . . . , xn)dθ = 0 =⇒ a =

∫θπ(θ|x1, . . . , xn)dθ

Por lo tanto, la pérdida del error cuadrático se minimiza en θ, la media o esperanza aposteriori de θ.

Definición 1.11 A L(θ, a) = |a−θ| se le llama la función de pérdida del error absoluto.

En este caso,

E[L(θ, a)] =

∫L(θ, a)π(θ|x1, . . . , xn)dθ

=

∫ a

−∞(a− θ)π(θ|x1, . . . , xn)dθ +

∫ ∞

a

(θ − a)π(θ|x1, . . . , xn)dθ.

Diferenciando con respecto a a, se llega a que el mínimo debe cumplir que:∫ a

θ=−∞π(θ|x1, . . . , xn)dθ −

∫ ∞

a

π(θ|x1, . . . , xn)dθ = 0

Así, ambas integrales deberían ser iguales a 12y θ es la mediana a posteriori.

Ejemplo 1.28 Sea X1, . . . ,Xn una muestra aleatoria de una población con distribuciónPoisson(λ), Suponga que λ ∼exponencial(1), de modo que

π(λ) = e−λ, λ > 0.

La distribución a posteriori es

π(λ|x1, . . . , xn) = e−λ

n∏

i=1

e−λλxi

xi!∝ e−λ(n+1)λ

∑ni=1 xi,

es decir, gamma(∑n

i=1 xi+1, n+1). Entonces, usando la función de pérdida del error cuadráti-co medio:

θ = media a posteriori =

∑ni=1 xi + 1

n + 1.

Y bajo la función de pérdida del error absoluto, θ es la solución a:

∫ θ

0

e−λ(n+1)λ∑ni=1 xi(n+ 1)

∑ni=1 xi+1

(∑n

i=1 xi)!dλ =

1

2.

40

Page 42: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

1.3. Estimación insesgada

En esta sección se hará una restricción considerando únicamente a los estimadores inses-gados, es decir a los estimadores T (X) que pertenecen a la clase:

Cτ(θ) = {T (X) | E [T (X)] = τ (θ)} ,

la clase de estimadores insesgados para τ (θ) .El siguiente ejemplo muestra la idea subyacente en esta sección en cuanto a la estimación

basada en minimizar la varianza de estimadores insesgados.

Ejemplo 1.29 Sea X1, . . . ,Xn una muestra aleatoria de una población con distribuciónPoisson(λ). Primero note que

E(Xi) = λ, V ar(Xi) = λ y E(X2i ) = V ar(Xi) + E2(Xi) = λ+ λ2.

Considerando ahora la estadística G(X1, . . . , Xn) =∑n

i=1Xi, note que G(X) tiene distribu-ción Poisson(nλ); por lo que E(G) = nλ y V ar(G) = nλ. Sean a ∈ (0, 1) una constantey

Ta(X1, . . . ,Xn) = aX + (1− a)S2.

Entonces,

E(X) =1

nE(G) = λ;

V ar(X) =1

n2V ar(G) =

λ

n;

E(X2) = V ar(X) + E2(X) =λ

n+ λ2;

E(S2) =1

n− 1E(

n∑

i=1

X2i − nX2)

=1

n− 1(n(λ+ λ2)− n(

λ

n+ λ2))

=1

n− 1(nλ− λ) = λ, y

E(Ta(X1, . . . ,Xn)) = E(aX + (1− a)S2) = aE(X) + (1− a)E(S2) = λ.

Así, se tiene una familia infinita de estimadores insesgados para λ; entonces se puede optarpor utilizar el estimador que tenga el menor ECM.

Definición 1.12 Un estimador T ∗ (X) insesgado de varianza mínima uniformemente(UMVUE4) para τ (θ) satisface:

4Por Uniformly Minimum Variance Unbiased Estimator.

41

Page 43: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

(a) T ∗ (X) ∈ Cτ(θ), es decir, E [T ∗ (X)] = τ (θ) .

(b) Para todo θ ∈ Θ, V ar (T ∗ (X)) ≤ V ar (T (X)) , donde T (X) es cualquier otro esti-mador en Cτ(θ).

El UMVUE se refiere entonces al mejor estimador insesgado para τ (θ) en el sentido deque tiene el menor error cuadrático medio para toda θ ∈ Θ.

El objetivo de esta sección es encontrar el UMVUE para τ (θ) , para ello se discutirántres resultados en donde se utilizan los conceptos analizados previamente. En primer lugarse analizará el planteamiento que Cramèr y Rao hicieron con base en el cálculo de una cotainferior para la varianza de un estimador insesgado. Esta propuesta tiene ciertas restricciones,como el hecho de que requiere el cumplimiento de ciertas condiciones de regularidad parala densidad, entre otras. Posteriormente se enunciará el teorema de Rao-Blackwell, el cualutiliza la suficiencia de una estadística para la construcción de UMVUEs bajo la idea de queun estimador que se basa en una estadística suficiente será mejor que otro que no lo hace.Finalmente se enuncia el Teorema de Lehmann-Scheffé, el cual, además de la suficiencia,utiliza el concepto de completez y permite encontrar un UMVUE construyendo un estimadorinsesgado a partir de una estadística suficiente y completa, la que a su vez puede hallarseusando los resultados antes vistos o, en su caso, identificando a un miembro de la familiaexponencial.

1.3.1. La propuesta de Cramèr y Rao

En esta sección se estudia un resultado propuesto por Cramèr y Rao, el cual se basa enel hecho de que, para ver qué tan bueno es un estimador insesgado con respecto a otro, esnecesario analizar la varianza de dicho estimador. Así, si la varianza o el error estándar deun estimador es una cantidad de interés para hablar de su bondad, sería deseable contarcon una expresión con la cual pueda compararse esta varianza. Esta expresión será una cotainferior para la varianza, de tal manera que si la varianza de un estimador insesgado es iguala esa cota, se puede afirmar que el estimador es el UMVUE. Antes de presentar el teorema deCramèr y Rao, en donde se da la cota mencionada, es necesario enunciar algunas definicionesy resultados que servirán para la demostración de dicho teorema.

Definición 1.13 Sea X1, . . . , Xn una muestra aleatoria de f(x; θ) y sea T(X) un estimadorinsesgado de τ (θ). Las siguientes se conocen como condiciones de regularidad:

El soporte de f(x; θ) se define como sop(f) = {x : f(x) > 0} y este es el mismo paratoda θ.

Para todo x ∈ sop(f), ∂∂θ

ln f(x; θ) existe.

∂∂θ

∫ ∫...∫T (x)f(x; θ)dx1...dxn =

∫ ∫...∫

∂∂θT (x)f(x; θ)dx1...dxn.

42

Page 44: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

∂∂θ

∫ ∫...∫f(x; θ)dx1...dxn =

∫ ∫...∫

∂∂θf(x; θ)dx1...dxn.

0 < E

[(∂ ln f(x;θ)

∂θ

)2]<∞.

Observe que esta definición establece principalmente la condición que debe cumplir unafunción para que se puedan intercambiar derivadas e integrales, lo cual no siempre se cumple.En general, los miembros de la familia exponencial cumplen las condiciones de regularidad,pero densidades como la uniforme contínua no. Para ver este caso específico de la uniformeconsidere su función de densidad

f (x; θ) =1

θI(0,θ) (x) .

A continuación se obtiene la derivada con respecto a θ de la integral, de la siguiente manera:

∂θ

∫ θ

0

t (x) f(x; θ)dx =∂

∂θ

∫ θ

0

t (x)1

θdx.

Utilizando la regla de Leibnitz, la cual es una aplicación del Teorema Fundamental del Cálculoy de la regla de la cadena, y que establece que si h(x; θ), a (θ) y b (θ) son diferenciables conrespecto a θ, entonces

∂θ

∫ b(θ)

a(θ)

h(x; θ)dx = h (b (θ) , θ)∂

∂θb (θ)− h (a (θ) , θ)

∂θa (θ)

+

∫ b(θ)

a(θ)

∂θh(x; θ)dx.

En el caso que se está analizando, a (θ) = 0, b (θ) = θ y h (x; θ) = t (x) 1θ.

∂θ

∫ θ

0

t (x)1

θdx =

t (θ)

θ+

∫ θ

0

t (x)∂

∂θ

(1

θ

)dx

�=∫ θ

0

t (x)∂

∂θ

(1

θ

)dx,

al menos que t(θ)θ

= 0.Ahora se definirán algunas funciones que están involucradas en la cota inferior para la

varianza propuesta por Cramèr y Rao.

Definición 1.14 La función score o función de puntaje se define como:

Sc(x; θ) =∂

∂θln f(x; θ).

43

Page 45: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

Definición 1.15 La información esperada de Fisher se define como:

IX(θ) = E

[(∂

∂θln f(X; θ)

)2]= E

[(Sc)2

].

Observación 1.2 La función score también puede escribirse como:

Sc(x; θ) =∂

∂θln f(x; θ) =

f ′(x; θ)

f(x; θ)=

∂θln

n∏

i=1

f(xi; θ) =n∑

i=1

∂θln f(xi; θ). (1.20)

Lema 1.2 Si se satisfacen las condiciones de regularidad, entonces:

(a) E(Sc) = 0.

(b) V ar(Sc) = IX(θ).

Demostración:

(a)

E [Sc(x; θ)] =

∫ ∫...

∫ (∂

dθln f(x; θ)

)f(x; θ)dx1...dxn

=

∫ ∫...

∫f ′(x; θ)

f(x; θ)f(x; θ)dx1...dxn

=

∫ ∫...

∫∂

∂θf(x; θ)dx1...dxn

=∂

∂θ

∫ ∫...

∫f(x; θ)dx1...dxn

=∂

∂θ(1) = 0

∴ E(Sc) = 0.

(b)V ar(Sc) = E(Sc2)− E2(Sc) = IX(θ)− 0 = IX(θ).

∴ V ar(Sc) = IX(θ).

44

Page 46: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

Definición 1.16 Si X es una variable aleatoria, entonces a

IX(θ) = E

[(∂

∂θln f(X; θ)

)2]

se le conoce como información esperada de Fisher por unidad muestral.

Es más sencillo calcular la información esperada de Fisher por unidad muestral y elsiguiente resultado la relaciona con la información esperada de Fisher para la muestra, asícomo con otras expresiones.

Lema 1.3 Si se cumplen las condiciones de regularidad, entonces:

(a) IX(θ) = nIX(θ).

(b) IX(θ) = −E[

∂2

∂θ2ln f(X; θ)

].

(c) IX(θ) = −nE[

∂2

∂θ2ln f(X; θ)

].

Demostración:

(a) Como IX(θ) = E(Sc2) y usando (1.20), así como el hecho de que (∑

ai)2 =

∑a2i +∑

i=j aiaj ,

IX(θ) = E

(

n∑

i=1

∂θln f(Xi; θ)

)2

=n∑

i=1

E

[(∂

∂θln f(Xi; θ)

)2]

+∑

i=j

E

[(∂

∂θln f(Xi; θ)

)(∂

∂θln f(Xj; θ)

)].

Como las variables X1, ...,Xn son independientes, se tiene que

(∂

∂θln f(Xi; θ)

)

y (∂

∂θln f(Xj ; θ)

),

45

Page 47: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

también lo son y

E

[(∂

∂θln f(Xi; θ)

)(∂

∂θln f(Xj ; θ)

)]

es igual a

E

(∂

∂θln f(Xi; θ)

)E

(∂

∂θln f(Xj; θ)

),

donde, para el caso continuo, y bajo el supuesto de que se cumplen las condiciones deregularidad:

E

(∂

∂θln f(Xi; θ)

)=

∫ ∞

−∞

∂∂θf(xi; θ)

f(xi; θ)f(xi; θ)dxi

=

∫ ∞

−∞

∂θf(xi; θ)dx

=∂

∂θ

∫ ∞

−∞f(xi; θ)dx =

∂θ(1) = 0.

Así,

IX(θ) =n∑

i=1

E

[(∂

∂θln f(Xi; θ)

)2]

= nE

[(∂

∂θln f(X; θ)

)2],

debido a que las Xi’s son idénticamente distribuidas.

(b) Observe que

∂2

∂θ2ln f (x; θ) =

∂θ

f ′ (x; θ)

f (x; θ)

=f (x; θ) f ′′ (x; θ)− f ′ (x; θ) f ′ (x; θ)

[f (x; θ)]2

=f ′′ (x; θ)

f (x; θ)−[f ′ (x; θ)

f (x; θ)

]2.

Así,

−E[∂2

∂θ2ln f(X; θ)

]= −E

{f ′′ (X; θ)

f (X; θ)−[f ′ (X; θ)

f (X; θ)

]2},

46

Page 48: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

y como

E

[f ′′ (X; θ)

f (X; θ)

]=

∫· · ·

∫f ′′ (x; θ)

f (x; θ)f (x; θ) dx1 · · · dxn

=∂2

∂θ2

∫· · ·

∫f (x; θ) dx1 · · · dxn = 0,

−E[∂2

∂θ2ln f(X; θ)

]= E

[(f ′ (X; θ)

f (X; θ)

)2]

= E

[(∂

∂θln f(X; θ)

)2]

= IX(θ).

(c) Se deduce de los dos resultados anteriores.

Teorema 1.4 (de Cramèr y Rao). Sean X1, . . . , Xn una muestra aleatoria de f(x; θ) yT (X) un estimador insesgado de τ (θ). Si se satisfacen las condiciones de regularidad, en-tonces

V ar(T ) ≥ (τ ′ (θ))2

IX(θ)︸ ︷︷ ︸CICR(τ(θ))

. (1.21)

Esta desigualdad se conoce como la Desigualdad de Cramèr-Rao o desigualdad de la

información y a la cantidad [τ ′(θ)]2

IX(θ)como la Cota Inferior de Cramèr y Rao (CICR).

En (1.21) la igualdad se da si sólo si:

n∑

i=1

∂θln f(xi; θ) = k(θ;n)[T (x)− τ (θ)],

donde k puede depender de θ y de n.

Demostración:Este resultado se deduce de la conocida desigualdad de Cauchy-Schwarz, la cual establece

que si X y Y son variables aleatorias, entonces:

{Cov (X,Y )}2 ≤ V ar (X)V ar (Y ) ,

47

Page 49: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

dándose la igualdad si y sólo si

Y − E (Y ) = k [X − E (X)] (1.22)

Aplicando esta desigualdad a las variables T (X) y Sc(X; θ), se obtiene:

{Cov (T, SC)}2 ≤ V ar (T )V ar (SC) . (1.23)

Usando el Lema 1.2, se tiene que V ar(Sc) = IX(θ), por lo que (1.23) se puede escribir como:

V ar(T ) ≥ {Cov (T, SC)}2IX(θ)

.

Por otro lado,Cov (T, SC) = E (TSC)− E (T )E (SC)

y nuevamente por el Lema 1.2, E (SC) = 0, mientras que:

E (TSC) =

∫· · ·

∫t (x)

∂∂θf (x; θ)

f (x; θ)f (x; θ) dx1 · · · dxn

=∂

∂θ

∫· · ·

∫t (x) f (x; θ) dx1 · · · dxn

=∂

∂θE (T (X)) =

∂θτ (θ) = τ ′ (θ) ,

los pasos anteriores se justifican por la definición de SC , las condiciones de regularidad y elhecho de que T es insesgado para τ (θ) . Así,

V ar(T ) ≥ {τ ′ (θ)}2IX(θ)

.

Para ver la condición en la que se alcanza la cota, es decir, en la que se da la igualdad, seusa (1.22), obteniendo:

SC − E (SC) = k [T − E (T )]

y como E (SC) = 0, SC =∑n

i=1∂∂θ

ln f(xi; θ) y E (T ) = τ (θ) , se comprueba la segunda partedel teorema.

48

Page 50: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

Ejemplo 1.30 Sea X1, . . . , Xn una muestra aleatoria de la distribución N(0, σ2). Para en-contrar IX(σ2):

ln f(x; θ) = ln

(1√2πσ2

e−12σ2

x2)

= −1

2ln(2π)− 1

2ln(σ2)− 1

2σ2x2,

∂σ2ln f(x;σ2) = − 1

2σ2+

x2

2(σ2)2,

∂2

∂(σ2)2ln f(x;σ2) =

1

2(σ2)2− x2

(σ2)3.

Entonces,

IX(σ2) = −nE[

∂2

∂(σ2)2ln f(X; σ2)

]= n

[E(X2)

σ6− 1

2σ4

]

= n

[σ2

σ6− 1

2σ4

]= n

[1

σ4− 1

2σ4

]=

n

2σ4.

Entonces, la CICR para estimadores insesgados de σ2 es 2σ4

n.

Ejemplo 1.31 Sea X1, . . . , Xn una muestra aleatoria de la distribución exp(θ). Para encon-trar IX(θ):

ln f(x; θ) = ln(θe−θx

)= ln(θ)− θx,

de donde∂

∂θln f(x; θ) =

1

θ− x.

Entonces,

IX(θ) = nE

[(∂

∂θln f(X; θ)

)2]= nE

[(1

θ−X

)2]= n V ar(X) =

n

θ2.

Para encontrar la CICR para estimadores insesgados de θ:

τ 1(θ) = θ ⇒ τ ′1(θ) = 1.

Entonces,

CICR(θ) =1

IX(θ)=

θ2

n.

Para encontrar la CICR para estimadores insesgados de τ 2(θ) = 1θ:

τ2(θ) =1

θ⇒ τ ′2(θ) = − 1

θ2.

49

Page 51: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

Entonces,

CICR(τ2(θ)) =1/θ4

IX(θ)=

1/θ4

n/θ2=

1

nθ2.

Observación 1.3 Para responder a la pregunta: ¿existe alguna función de θ, τ (θ) , para lacual hay un estimador insesgado cuya varianza coincide con la CICR?, se usa la segundaparte del teorema, es decir, la condición para la alcanzabilidad de la cota.

Ejemplo 1.32 Para la distribución exponencial, ¿existe alguna función de θ, τ (θ) , para lacual hay un estimador cuya varianza coincide con la CICR?.

Usando la segunda parte del Teorema de Cramèr y Rao, se tiene que

n∑

i=1

∂θln f(xi; θ) =

n∑

i=1

∂θln[θe−θxi

]=

n∑

i=1

∂θ[ln θ − θxi]

=n∑

i=1

[1

θ− xi

]=

n

θ−

n∑

i=1

xi

= −n[∑n

i=1 xi

n− 1

θ

]= −n

[x− 1

θ

].

Así, se puede afirmar que τ (θ) = 1θes una función de θ para la cual existe un estimador

insesgado T (X) = X, cuya varianza coincide con la CICR. En otras palabras, X es elUMVUE de τ (θ) = 1

θ. Aunque en general no es necesario probarlo, es claro que en este caso:

V ar(X)= 1

θ2n= CICR (τ (θ)) .

Observaciones 1.2 1. Si la varianza de un estimador insesgado coincide con la CICR,entonces el estimador es un UMVUE. Pero el UMVUE puede existir sin que su varianzacoincida con la CICR.

2. Si la muestra aleatoria es de algún miembro de la familia exponencial, siempre existeuna función de θ para la cual hay un estimador insesgado cuya varianza coincide conla CICR (basta factorizar

n∑

i=1

∂θln a(θ)b(x) exp{c(θ)d(xi)}

en la forma indicada en la segunda parte del teorema de Cramèr y Rao).

3. Aún cuando la varianza de un estimador insesgado alcance la CICR, esta situación seda para una función específica de θ, que puede no ser la que se esté analizando. En elcaso de la distribución exponencial, en el ejemplo 1.32 se obtuvo que X es el UMVUE

50

Page 52: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

de 1θusando la segunda parte del teorema de Cramèr y Rao; sin embargo, si el objetivo

es encontrar el UMVUE de θ, este resultado no da información adicional (salvo laexpresión correspondiente para la CICR que sirve para compararla con la varianza dealgún estimador que se proponga).

4. La teoría desarrollada por Cramèr y Rao sólo es para densidades que satisfacen lascondiciones de regularidad.

5. Cuando la varianza de un estimador alcanza la CICR también se dice que es eficientey la eficiencia de un estimador insesgado se mide como CICR

V ar(T ), cantidad que es menor

o igual a 1. Por lo que un estimador es eficiente si y sólo si el cociente anterior es 1.

Dadas estas restricciones se analizarán otros resultados que incorporan los conceptos desuficiencia y completez, lo cual se hará en las secciones 1.3.2 y 1.3.3.

Generalización

Aquí se considerarán brevemente la generalización de la teoría de Cramèr y Rao paracuando se tienen distribuciones de dos o más parámetros. En el caso de dos parámetros,la información esperada de Fisher (para una muestra de tamaño n), llamada la matriz deinformación de Fisher, se define como:

IX(θ) = −

E

[∂2

∂θ1ln f(X; θ)

]E[

∂2

∂θ1∂θ2ln f(X; θ)

]

E[

∂2

∂θ2∂θ1ln f(X; θ)

]E[

∂2

∂θ2ln f(X; θ)

] ,

y para el caso de k parámetros IX(θ) toma la forma:

E[

∂2

∂θ21ln f(X; θ)

]E[

∂2

∂θ1∂θ2ln f(X; θ)

]· · · E

[∂2

∂θ1∂θkln f(X; θ)

]

E[

∂2

∂θ2∂θ1ln f(X; θ)

]E[

∂2

∂θ22ln f(X; θ)

]· · · E

[∂2

∂θ2∂θkln f(X; θ)

]

......

. . ....

E[

∂2

∂θk∂θ1ln f(X; θ)

]E[

∂2

∂θk∂θ2ln f(X; θ)

]· · · E

[∂2

∂θ2kln f(X; θ)

]

.

Y la cota inferior de Cramèr y Rao es la inversa de la matriz de información, es decir, I−1X (θ).

1.3.2. El teorema de Rao-Blackwell

Como se ha visto, una estadística suficiente conserva toda la información relevante con-tenida en la muestra acerca del parámetro de interés. Así, los estimadores basados en estadís-ticas suficientes son mejores (que los que no están basados en estadísticas suficientes) comoestablece el siguiente resultado.

51

Page 53: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

Teorema 1.5 (Rao-Blackwell). Sean T (X) un estimador insesgado para τ(θ) y S unaestadística suficiente. Sea T ∗ (X) := E(T |S). Entonces,

(a) T ∗ es una estadistica función de S.

(b) T ∗ es insesgado para τ(θ), es decir, E (T ∗) = τ (θ).

(c) V ar(T ∗) ≤ V ar(T ) para toda θ ∈ Θ.

Demostración.

(a) Usando la definición de la esperanza condicional en el caso continuo,

T ∗ =

∫ ∞

−∞tfT/S (t/s) dt

es una función de S, además fT/S no depende de θ por ser S una estadística suficiente,por lo que T ∗ es una estadística.

(b) Por las propiedades de la esperanza condicional,

E (T ∗) = E (E (T/S)) = E (T ) = τ(θ).

(c) Usando las propiedades de la varianza condicional,

V ar(T ) = V ar (E (T/S)) + E (V ar (T/S)) ,

lo cual implica queV ar(T ) = V ar (T ∗) + E (V ar (T/S)) ,

y como V ar (T/S) ≥ 0, se obtiene el resultado.

Ejemplo 1.33 Sea X1, . . . , Xn una muestra aleatoria de la distribución Bernoulli(θ).S(X) =

∑ni=1Xi es una estadística suficiente para θ, lo cual se ha verificado (basta ver

que la distribución Bernoulli pertenece a la familia exponencial). T (X) = X1 es un esti-mador insesgado de θ (pues E(X1) = θ).

52

Page 54: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

Entonces

T ∗ (X) = E(T |S = s) =E

(X1 |

n∑

i=1

Xi = s

)

=0 · P(X1 = 0|

n∑

i=1

Xi = s

)

+ 1 · P(X1 = 1|

n∑

i=1

Xi = s

)

=P

(X1 = 1 |

n∑

i=1

Xi = s

)

=P (X1 = 1,

∑ni=1Xi = s)

P (∑n

i=1Xi = s).

Donde∑n

i=1Xi ∼ Bin(n, θ). Pero

P(X1 = 1;∑n

i=1Xi = s)

P(∑n

i=1Xi = s)=P(X1 = 1)P (

∑ni=2Xi = s− 1)(

ns

)θs(1− θ)n−s

=θ(n−1s−1

)θs−1(1− θ)n−1−s+1

(ns

)θs(1− θ)n−s

=

(n−1s−1

)(ns

) =

(n−1)!(s−1)!(n−s)!

n!s!(n−s)!

=s

n.

Por lo tanto,

T ∗(X) =

∑ni=1Xi

n= X.

El estimador resultante es insesgado, pues E(X) = θ y tiene varianza menor que X1, ya que

V ar(X) =θ(1− θ)

n≤ θ(1− θ) = V ar(X1),

las cuales son iguales sólo en el caso n = 1.

1.3.3. El teorema de Lehmann-Scheffé

El siguiente resultado muestra que un estimador insesgado función de la estadística sufi-ciente y completa será el UMVUE.

Teorema 1.6 (Lehmann-Scheffé). Sea X1, . . . , Xn una muestra aleatoria de f(x; θ) y seaS una estadística suficiente y completa. Sea T ∗ (X) una función de S tal que E(T ∗) = τ(θ)(T ∗ es insesgado para τ(θ)), entonces T ∗ es el UMVUE de τ(θ).

53

Page 55: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

Demostración:

Sea T ′ (X) , función de S, tal que E(T ′) = τ(θ). Sea g(S) = T ∗ − T ′. Note que

E[g(S)] = E(T ∗ − T ′) = E[T ∗]− E[T ′] = τ (θ)− τ(θ) = 0

∴ E[g(S)] = 0

Entonces, por la completez de S se tiene que P[g(S) = 0] = 1, para toda θ ∈ Θ. De estamanera, P[T ∗ = T ′] = 1 para toda θ ∈ Θ y, por lo tanto, T ∗ es único (c.s.). Es decir, T ∗ esel único estimador insesgado de τ (θ) que es función de S.

Por otro lado, sea T tal que E[T ] = τ(θ). Por el teorema de Rao-Blackwell, E[T |S] esestimador insesgado de τ(θ) y es función de S, lo que implica que T ∗ = E[T |S]. Así, por elteorema de Rao-Blackwell, V ar(T ∗) ≤ V ar(T ), para toda θ ∈ Θ.

Ejemplo 1.34 Sea X1, . . . , Xn una muestra aleatoria de la distribución exp(θ), donde θ > 0.Como f(x; θ) = θe−θx, entonces f(x; θ) es de la familia exponencial con d(x) = x. Entonces,S(X) =

∑ni=1Xi es suficiente y completa. Para encontrar el UMVUE de θ y de τ(θ) = 1

θ, se

obtiene

E(S) = E

(n∑

i=1

Xi

)= nE(Xi) = n

1

θ=

n

θ

y como E[X] = 1θ, entonces X es el UMVUE de 1

θ, pues es función de la estadística suficiente

y completa y además es insesgado para θ (note que este resultado coincide con el obtenidomediante la teoría Cramèr y Rao, ejemplo 1.32).

Para encontrar el UMVUE de θ, éste será de la forma k∑ni=1Xi

, donde S =∑n

i=1Xi tiene

distribución Gama (n, θ) . Entonces, observe que:

E

[k∑n

i=1Xi

]=E

[k

S

]= kE

[1

S

]

=k

∫ ∞

0

1

s

θn

Γ(n)sn−1e−θsds

=k

∫ ∞

0

θn

Γ(n)sn−2e−θsds

=kθn

Γ(n)

Γ(n− 1)

θn−1

∫ ∞

0

θn−1

Γ(n− 1)s(n−1)−1e−θsds

︸ ︷︷ ︸1

=kθnΓ(n− 1)

θn−1Γ(n)= k

Γ(n− 1)

(n− 1)Γ(n− 1)θ−1=

n− 1.

54

Page 56: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

Por lo que, para que k/Y sea insesgado, k debe ser igual a n− 1. Por lo tanto,

T ∗(X) =n− 1∑ni=1Xi

es el UMVUE de θ.

Para encontrar la CICR para estimadores insesgados de θ (ver ejemplo 1.31):

IX(θ) =nE

[(∂

∂θln f(X; θ)

)2]

=nE

[(∂

∂θln θe−θX

)2]

=nE

[(∂

∂θ(ln θ − θX)

)2]

=nE

[(1

θ−X

)2]

=nV ar(X) =n

θ2.

Entonces, la CICR para estimadores insesgados de θ es:

CICR(θ) =1

IX(θ)=

θ2

n.

El segundo momento de T ∗(X) = n−1∑ni=1Xi

está dado por:

E

[(n− 1)2

S2

]= (n− 1)2E

[1

S2

]

= (n− 1)2∫ ∞

0

1

s2θn

Γ(n)sn−1e−θsds

= (n− 1)2θn

Γ(n)

∫ ∞

0

sn−3e−θsds

= (n− 1)2θn

Γ(n)

Γ(n− 2)

θn−2

∫ ∞

0

θn−2

Γ(n− 2)s(n−2)−1e−θsds

︸ ︷︷ ︸1

= (n− 1)2θnΓ(n− 2)

θn−2Γ(n)= (n− 1)2

Γ(n− 2)

(n− 1)(n− 2)Γ(n− 2)θ−2

=(n− 1)θ2

n− 2.

55

Page 57: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

Entonces,

V ar(T ∗(X)) =(n− 1)θ2

n− 2− θ2 =

θ2

n− 2

es la varianza del UMVUE de θ.

Note que

V ar(T ∗(X)) =θ2

n− 2>

θ2

n= CICR(θ).

Ejemplo 1.35 Sea X1, . . . , Xn una muestra aleatoria de la distribución Poisson(θ). Seaτ(θ) = P(X = 0) = e−θ.

(a) Encontrar el estimador máximo verosímil de θ y τ (θ).

(b) Encontrar el estimador por momentos de θ.

(c) ¿Pertenece f (x; θ) a la familia exponencial?

(d) Encontrar una estadística suficiente minimal y completa.

(e) Encontrar la CICR para estimadores insesgados de θ y τ (θ).

(f) ¿Existirá una función de θ, para la cual hay un estimador insesgado cuya varianzacoincide con la CICR? Si es así, encontrarlo.

(g) Encontrar un estimador insesgado de τ (θ) y usar el teorema de Rao-Blackwell parahallar un estimador insesgado función de la estadística suficiente.

(h) Decir cuáles son los UMVUEs de θ y τ (θ), respectivamente.

Solución:

(a)

L(θ) =

n∏

i=1

f(xi; θ) =n∏

i=1

e−θθxi

xi!I(xi){0,1,...} = e−nθθ

∑ni=1 xi

n∏

i=1

I(xi){0,1,...}xi!

y el logaritmo de la verosimilitud es

l(θ) = −nθ + (n∑

i=1

xi) ln θ + ln

(n∏

i=1

I(xi){0,1,...}xi!

),

56

Page 58: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

de donde,∂

∂θl(θ) = −n+

∑ni=1 xi

θ.

Entonces, ∂∂θl(θ) = 0 si y sólo si

−n+

∑ni=1 xi

θ= 0⇔ n =

∑ni=1 xi

θ⇔ θ =

∑ni=1 xi

n.

Por lo tanto θM.V. = 1n

∑ni=1Xi = X. Para τ (θ), aplicando la propiedad de invarianza

de los estimadores máximo verosímiles τ(θM.V.) es estimador máximo versímil de τ(θ).Por lo tanto e−X es estimador máximo verosímil de τ (θ) = e−θ.

(b) Recuerde que E(X) = θ, entonces el estimador por momentos está dado por

θ =1

n

n∑

i=1

Xi = X.

(c) Como

f(x; θ) =e−θθx

x!I(x){0,1,...}

si

a(θ) = e−θ, b(x) =1

x!I(x){0,1,...}, c(θ) = ln(θ), d(x) = x.

Entonces,f(x; θ) = a(θ)b(x)ec(θ)d(x).

Por lo tanto pertenece a la familia exponencial.

(d) Como f(x; θ) pertenece a la familia exponencial entonces T (x) =∑n

i=1 d(Xi) =∑n

i=1Xi

es una estadística suficiente minimal y completa.

57

Page 59: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

(e) La información esperada de Fisher está dada por

IX(θ) =nE

[(∂

∂θln f(X; θ)

)2]

=nE

[(∂

∂θln

(e−θθX

X!

))2]

=nE

[(∂

∂θ(−θ +X ln θ − lnX!)

)2]

=nE

[(−1 +

X

θ

)2]

=nE

[(1

θ(X − θ)

)2]

=n

θ2E[(X − θ)2

]=

n

θ2V ar(X) =

θ2=

n

θ.

Para θ se tiene que

CICR(θ) =θ

n.

Para τ (θ) = e−θ se tiene que

CICR(τ(θ)) =(τ ′ (θ))2

=θe−2θ

n.

(f) Utilizando la segunda parte del teorema de Cramèr-Rao

n∑

i=1

∂θln f(xi; θ) =

n∑

i=1

∂θln

e−θθxi

xi!

=n∑

i=1

∂θ(−θ + xi ln(θ)− ln(xi!))

=n∑

i=1

(−1 +

xi

θ

)

=− n+1

θ

n∑

i=1

xi = −n+n

θx =

n

θ(x− θ).

Por lo tanto, para θ hay un estimador insesgado, T ∗(X) = X, cuya varianza coincidecon la Cota de Cramèr-Rao, es decir, X es el UMVUE de θ.

58

Page 60: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

(g) Considere T (X) = I{0}(X1). Note que E(T (X)) = E(I{0}(X1)) = P(X1 = 0) = e−θ. Portanto T (X) es un estimador insesgado de τ(θ) y ya se vió que S(X) =

∑ni=1Xi es una

estadística suficiente minimal y completa. Entonces,

E(T |S = s) = E(I{0}(X1)|S = s)

= P

(X1 = 0|

n∑

i=1

Xi = s

)

=P(X1 = 0)P(

∑ni=2Xi = s)

P(∑n

i=1Xi = s)

=e−θ e−(n−1)θ((n−1)θ)s

s!e−nθ(nθ)s

s!

=e−θe−(n−1)θ((n− 1)θ)s

e−nθ(nθ)s=

e−θe−nθeθ(n− 1)sθs

e−nθnsθs

=

(n− 1

n

)s

.

Entonces, por el teorema de Rao-Blackwell T ∗(X) =(n−1n

)∑ni=1Xi .

(h) X es el UMVUE de θ, lo cual se justifica utilizando el inciso (f) o bien, notando queX es insesgado para θ y función de la estadística suficiente y completa,

∑ni=1Xi, por

lo que usando el Teorema de Lehmann-Scheffé se llega a la misma conclusión. Además,(n−1n

)∑ni=1Xies el UMVUE de τ(θ) por el inciso (g) y el Teorema de Lehmann-Scheffé.

1.4. Propiedades asintóticas de los estimadores

Hasta ahora se han estudiado distintas propiedades de los estimadores, pero la mayoría,a excepción de la consistencia vista en el apartado 1.2.2, se refiere a tamaños de muestrapequeños. En esta sección se abordarán propiedades que describen el comportamiento de unestimador cuando el tamaño de muestra es grande, es decir, las propiedades asintóticas delos estimadores.

Como ya se señaló, la consistencia tiene que ver con la precisión asintótica de un estimador,esto es, que el error cometido al estimar τ (θ) con Tn (X) es pequeño cuando el tamaño demuestra es grande. Existe otra propiedad que tiene que ver con la varianza asintóntica de unestimador, la cual se conoce como eficiencia.

Ya se ha reiterado que la varianza (de los estimadores) juega un papel importante en laelección del mejor estimador. De hecho en las observaciones 1.2, se menciona la propiedad deeficiencia. A continuación se da una definición formal de eficiencia asintótica.

59

Page 61: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

Definición 1.17 Una sucesión de estimadores {Tn} es asintóticamente eficiente para unparámetro τ(θ) si √

n[Tn − τ (θ)] −→ N [0, CICR(θ)]

en distribución, donde

CICR(θ) =[τ ′(θ)]2

E[( ∂∂θ

ln f(X; θ))2] ;

esto es, la varianza asintótica de Tn alcanza la cota inferior de Cramér-Rao.

Bajo las condiciones de regularidad (Definición 1.13), se puede demostrar que los esti-madores máximo verosímiles cumplen las propiedades de consistencia y eficiencia. Es decir,si la muestra aleatoria proviene de una población con función de densidad que satisface lascondiciones de regularidad, entonces el estimador máximo verosímil del parámetro θ (o deuna función τ (θ)) tiene estas propiedades asintóticas.

Para el caso de la consistencia simple, puede consultarse Stuart, Ord y Arnold (1999). Encuanto a la eficiencia, se utilizará el siguiente resultado conocido como el método delta:

Lema 1.7 si {Xn} es una sucesión de variables aleatorias que satisfacen que√n (Xn − θ)→

N (0, σ2) en distribución, entonces para una función τ y un valor específico de θ, se tiene que

√n [τ (Xn)− τ (θ)]→ N

(0, σ2

(τ ′ (θ)2

))

en distribución.

Demostración.El resultado es consecuencia del Teorema de Slutsky, el cual establece que para dos suce-

siones de variables aleatorias {Xn}n≥1 y {Yn}n≥1, tales que Xn → X en distribución y Yn → cen probabilidad , donde X es una variable aleatoria y c es una constante, se tiene que:

(i) Xn + Yn → X + c, en distribución,

(ii) XnYn → cX, en distribución,

(iii) Si c �= 0 entonces,Xn

Yn→ X

c,

en distribución.

El siguiente resultado se refiere a la eficiencia asintótica de los estimadores máximoverosímiles.

60

Page 62: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

Teorema 1.8 Sea X1, X2, .., Xn una muestra aleatoria de una población con función de den-sidad f(x; θ), sea θ el estimador máximo verosímil de θ, y sea τ (θ) una función continua ydiferenciable de θ. Bajo las condiciones de regularidad sobre f(x; θ) y, por lo tanto de lafunción de verosimilitud L(θ), se tiene que

√n[τ (θ)− τ(θ)] −→ N [0, CICR(τ (θ))],

donde CICR(τ (θ)) es la cota inferior de Cramér-Rao para estimadores insesgados de τ (θ).

Esto es, el estimador máximo verosímil de τ (θ) , τ(θ), es un estimador eficiente de τ (θ).

Demostración.Se demostrará el caso τ(θ) = θ, es decir, que θ es asintóticamente eficiente. Para ello, recuerdeque

l(θ) =

n∑

i=1

ln f(xi; θ)

es la función de log-verosimilitud. Sean l′, l′′, .. las derivadas (con respecto a θ) . Expandiendola primera derivada de la log-verosimilitud alrededor del valor verdadero del parámetro, elcual se denotará por θ0,

l′(θ) = l′(θ0) + (θ − θ0)l′′(θ0) + ...,

donde se ignoran los términos de orden superior.Sustituyendo el estimador máximo verosímil θ en lugar de θ, se tiene que

l′(θ) = l′(θ0) + (θ − θ0)l′′(θ0) + ...,

pero el estimador máximo verosímil es el cero de la función de verosimilitud, por lo que

l′(θ0) + (θ − θ0)l′′(θ0) + ... = 0.

Así que reacomodando los términos y multiplicando por√n, se obtiene que:

√n(θ − θ0) =

√n−l′(θ0)l′′(θ0)

=− 1√

nl′(θ0)

1nl′′(θ0)

.

En 1.3.1 , se vio que

IX(θ) = E

[(∂

∂θln f(X; θ)

)2].

61

Page 63: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

Como

l′(θ) =n∑

i=1

∂θln f(xi; θ),

por (1.20)

IX(θ0) = E{[l′(θ0)]

2}

=1

CICR(θ)

denota la información esperada de Fisher.Ahora observe que

1√nl′(θ0) =

√n

[1

n

i

∂∂θf(xi; θ)

f(xi; θ)

],

donde Sc(x; θ) = f ′(x;θ)f(x;θ)

es tal que E [Sc(X; θ)] = 0 y V ar [Sc(X; θ)] = IX(θ), lo cual se probóen el Lema 1.2. Así, por el Teorema de Límite Central,

1√nl′(θ0) −→ N [0, I(θ0)]

en distribución y

− 1√nl′(θ0) −→ N [0, I(θ0)]

en distribución. Por otro lado,

1

nl′′(θ0) =

1

n

i

[∂∂θf(xi; θ)

f(xi; θ)

]2− 1

n

i

∂2

∂θ2f(xi; θ)

f(xi; θ).

Note que la esperanza del primer sumando es IX(θ0), mientras que la del segundo es cero(ver la demostración del Lema 1.3). Entonces por la Ley Débil de los Grandes Números:

1

nl′′(θ0) −→ I(θ0),

en probabilidad.En consecuencia, si W es una variable aleatoria tal que W ∼ N [0, I(θ0)], entonces

√n(θ − θ0) =

− 1√nl′(θ0)

1nl′′(θ0)

converge en distribución aW/I(θ0) ∼ N [0, 1/IX(θ0)], es decir, a una variable aleatoria normalcon media cero y varianza igual a la Cota Inferior de Cramèr y Rao, lo que demuestra elresultado.

62

Page 64: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

El caso general es consecuencia del método delta. Una forma alternativa para calcular lavarianza del estimador máximo verosímil de τ (θ) es considerando que, debido a la propiedadde invarianza que tiene el método de máxima verosimilitud,

τ (θ) = τ(θ).

Si se aproxima τ(θ)mediante una expansión en series de Taylor alrededor de θ, considerando

solamente la primera derivada, se obtiene:

τ(θ)≈ τ (θ) +

(θ − θ

)τ ′ (θ) .

Tomando la varianza de ambos lados, se llega a

V ar[τ(θ)]≈ (τ ′ (θ))

2V ar

(θ),

debido a que θ es una constante. Como ya se había visto, V ar(θ)está dada por I−1X (θ), asi

que

V ar[τ(θ)]≈ (τ ′ (θ))2

IX(θ),

expresión que corresponde a la Cota Inferior de Cramèr-Rao para estimadores insesgados deτ (θ) , con lo que puede observarse que la varianza del estimador máximo verosímil alcanzadicha cota (al igual que en el caso τ (θ) = θ).

En conclusión: √n[τ (θ)− τ(θ)] −→ N [0, CICR(τ (θ))].

Ejemplo 1.36 Considere una muestra aleatoria, X1, . . . , Xn, de la población con distribu-ción Bernoulli(p); se desea obtener un estimador puntual para el momio, τ (p) = p

(1−p), así

como la varianza de dicho estimador.El estimador máximo versoímil para p es X. Por la propiedad de invarianza de los esti-

madores máximo verosímiles, se tiene que el estimador máximo verosímil para τ (p) es Xn

(1−Xn).

La varianza de este estimador puede aproximarse de la siguiente manera:

V

(p

(1− p)

)=

[ddp

( p(1−p)

)]2

IX(p)

p=p

=

[1

(1−p)2)]2

np(1−p)

p=p

=p

n(1− p)3=

Xn

n(1− Xn)3.

63

Page 65: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

Ejemplo 1.37 Considere una sucesión de variables aleatorias, X1, . . . , Xn, independientese idénticamente distribuidas de una población con distribución F (·) que es diferenciable.Suponga que se satisface que P (Xi ≤ ψ) = 1/2, es decir, ψ es la mediana poblacional. SeaMn la mediana muestral y también suponga que n es impar para simplificar el argumento. Sedesea obtener la distribución asintótica de la mediana muestral.

Se calcularálımn→∞

P (√

(n)(Mn − ψ) ≤ a),

para alguna a. Sean las variables aleatorias Y ′i s definidas como

Yi =

{1 si Xi ≤ ψ + a/

√(n)

0 en otro caso,

se tiene que las Y ′i s son variables aleatorias Bernoulli con probabilidad de éxito

pn = F (ψ + a/√

(n)).

Note que el evento {Mn ≤ ψ + a/√

(n)} es equivalente al evento {∑i Yi ≥ (n+ 1)/2}. Dadoque

pn → p = F (ψ) = 1/2,

se puede utilizar el Teorema de Límite Central, de donde∑

i Yi−npn√(npn(1−pn))

converge a una variable

aleatoria Z con distribución normal estándar. Ahora,

lımn→∞

(n+ 1)/2− npn√(npn(1− pn)

= lımn→∞

(n+ 1)F (ψ)− nF (ψ + a/√n)√

npn(1− pn)

= lımn→∞

n(F (ψ)− F (ψ + a/√n))√

npn(1− pn)

= lımn→∞

an(F (ψ)− F (ψ + a/

√n)

a/√n

1

pn(1− pn)

= −2af(ψ).

Por lo queP (√

(n)(Mn − ψ) ≤ a)→ P (Z ≥ −2afψ).

Así√

(n)(Mn − ψ) tiene una distribución normal con media 0 y varianza 1/[2f(ψ)]2.

1.5. Ejercicios

1. Sea X una variable aleatoria con distribución Gamma(α + 1, β), cuya función de den-sidad es

f(x;α, β) =βα+1

Γ(α + 1)xαe−βx,

64

Page 66: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

con x > 0, α > −1 y β > 0. Obtenga los estimadores de los parámetros α y β por elmétodo de momentos, para una muestra aleatoria de tamaño n.

2. Una urna contiene bolas negras y blancas. Se toma una muestra aleatoria de tamañon con reemplazo. ¿Cuál es el estimador máximo verosímil de la razón, R, de blancas anegras en la urna? Para esto suponga que la bola se obtiene una por una con reemplazohasta que la bola negra aparezca. Sea X el número de bolas requeridas no contandola última obtenida; este procedimiento se repite n veces para una muestra aleatoriaX1, . . . ,Xn.

3. Se toma una observación de una variable aleatoria discreta X con función de densidadf(x; θ) dada en la siguiente tabla, donde θ ∈ {1, 2, 3}.x f(x; 1) f(x; 2) f(x; 3)0 1/3 1/4 01 1/3 1/4 02 0 1/4 1/43 1/6 1/4 1/24 1/6 0 1/4

Encuentre el estimador máximo verosímil de θ.

4. SeaX una variable aleatoria discreta con función de densidad f(x; θ) dada en la siguien-te tabla, donde θ ∈ {1, 2, 3} y X ∈ {0, 1, 2, 3, 4}. Se toma una muestra aleatoria detamaño dos, (X1, X2). Determine el estimador máximo verosímil de θ.

x f(x; 1) f(x; 2) f(x; 3)0 1/3 1/4 01 1/3 1/4 02 0 1/4 1/43 1/6 1/4 1/24 1/6 0 1/4

5. Sea X1, . . . , Xn una muestra aleatoria de una población con función de densidad

f(x; θ) = θx−2I[θ,∞)(x).

Encuentre el estimador máximo verosímil de θ. También encuentre el estimador pormomentos para θ.

6. Sea X1,X2,X3 una muestra aleatoria de la población con distribución U(θ, 2θ), conθ > 0.

(a) Encuentre el estimador de θ por el método de momentos.

65

Page 67: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

(b) Encuentre el estimador máximo verosímil de θ, θMV , y encuentre una constante ktal que E(kθMV ) = θ.

7. Sea X1, . . . , Xn una muestra aleatoria de la población con función de densidad

f(x;µ, σ) =1

σexp

(−(x− µ)

σ

)I(µ,∞)(x),

donde µ ∈ R y σ ∈ R+ son desconocidos.

(a) Demuestre que el estimador máximo verosímil de µ es X(1) (la mínima estadísticade orden) y el estimador máximo verosímil de σ es 1

n

∑ni=1(Xi −X(1)).

(b) ¿Cuáles son los estimadores máximo verosímiles de µσ, µ

σ2y de µ+ σ?.

8. Sea X1, . . . , Xn una muestra aleatoria de la población con función de densidad

f(x; θ) =θ2

θ + 1(x+ 1)e−θx

I(0,∞)(x), θ > 0.

(a) Demuestre que la densidad de X pertenece a la familia exponencial.

(b) Encuentre una estadística suficiente minimal y completa.

(c) Encuentre el estimador por momentos.

(d) Encuentre el estimador máximo verosímil.

9. Sea X1, . . . , Xn una muestra aleatoria de la población con función de densidad

f(x; θ) = θxθ−1I[0,1](x), θ > 0.

(a) Encuentre el estimador por momentos de θ.

(b) Encuentre el estimador máximo verosímil de θ.

(c) Suponga que el verdadero valor de θ es 2. Utilice simulación en R para compararel error cuadrático medio (numéricamente) de los estimadores en los apartadosanteriores en muestras de tamaño n = 30. ¿Qué conclusiones puede extraer?.

10. Sea X1, . . . , Xn una muestra aleatoria de la población con función de densidad

f(x; θ) =1

2e−|x−θ|, −∞ < θ <∞.

(a) Analice la suficiencia en esta densidad.

(b) ¿Pertenece f(x; θ) a la familia exponencial?.

66

Page 68: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

(c) Halle el estimador por el método de momentos para θ.

(d) Halle el estimador máximo verosímil para θ.

11. Sea X1, . . . ,Xn una muestra aleatoria de la población con distribución Poisson(λ), confunción de densidad f(x|λ). Considere que la función de distribución a priori de λ esuna distribución Gamma(α, β), con función de densidad π(λ).

(a) Encuentre la distribución a posteriori de λ.

(b) Encuentre el estimador Bayesiano de λ usando la función de pérdida del errorcuadrático.

12. Sea X1, . . . , Xn una muestra aleatoria de la población con distribución Geométrica(θ).Considere que la función de distribución a priori de θ es una distribución Beta(α, β).

(a) Encuentre la distribución a posteriori de θ.

(b) Encuentre el estimador Bayesiano de θ usando la función de pérdida del errorcuadrático.

13. Sea X1, . . . , Xn una muestra aleatoria de la población con distribución Normal(µ, σ2),donde σ2 es conocida. Considere que la función de distribución a priori de µ es unadistribución Normal(η, λ2).

(a) Encuentre la distribución a posteriori de µ.

(b) Encuentre el estimador Bayesiano de µ usando la función de pérdida del errorcuadrático.

14. Suponga que ciertas pérdidas siguen una distribución Weibull con parámetros θ y τ .Se tiene la siguiente muestra de 16 pérdidas: 54, 70, 75, 81, 84, 88, 97, 105, 109, 114,122, 125, 128, 139, 146, 153. Estime los parámetros utilizando el método de percentiles,usando los percentiles 20th y 70th.

15. Se practican n mediciones del radio de un círculo. Si las mediciones son independientesentre sí y los errores se distribuyen N(0, σ2) con σ2 desconocida, proponer un estimadorinsesgado para el perímetro del círculo y otro para el área.

16. Sea X1, X2, X3,X4 una muestra aleatoria de tamaño cuatro de una población condistribución N(0, σ2), donde σ es desconocida. Considere los siguientes estimadoresT1 = X2

1 −X2 + X4, T2 = 13(X2

1 +X22 + X2

4 ), T3 = 14

∑4i=1X

2i , T4 = 1

3

∑4i=1(Xi − X)2

y T5 = 12|X1 −X2|.

(a) ¿T1, T2, T3, T4 son insesgados?

67

Page 69: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

(b) De entre T1, T2, T3, T4, ¿cuál tiene el menor error cuadrático medio?

(c) ¿T5 es un estimador insesgado para σ?. Si no lo es, encuentre un múltiplo de T5que lo sea. Calcule el error cuadrático medio de T5.

17. Sea X1, . . . , Xn una muestra aleatoria de una población con función de densidad conmedia µ y varianza σ2.

(a) Pruebe que∑n

i=1 aiXi es un estimador insesgado para µ para cualquier valor delas constantes a1, a2, . . . , an que satisfagan que

∑ni=1 ai = 1.

(b) Si∑n

i=1 ai = 1, prueba que V ar [∑n

i=1 aiXi] se minimiza cuando ai = 1/n, parai = 1, . . . , n.

18. Sea X1, . . . , Xn una muestra aleatoria de la población con función de densidad

f(x; θ) =2x

θ2I(0,θ)(x), θ > 0.

(a) Estime θ por el método de momentos. Llame a este estimador T1. Encuentre sumedia y su ECM.

(b) Encuentre el estimador máximo verosímil de θ. Llame a este estimador T2. En-cuentre su media y su ECM.

(c) De entre todos los estimadores de la forma aYn, donde Yn = max{X1, . . . , Xn}y a es un valor constante que depende de n, encuentre un estimador para θ conerror cuadrático medio uniformemente más pequeño. Llame a este estimador T3.Encuentre su media y su ECM de T3.

(d) Encuentre un UMVUE de θ. Nombre a este estimador T4. Encuentre su media ysu ECM.

(e) Define T5 = (Y1 + Yn)/2, donde Y1 = mın{X1, . . . , Xn} y Yn = max{X1, . . . , Xn}.Encuentre su media y su ECM. ¿Qué estimador de θ preferiría y por qué?.

19. Sea X1, . . . , Xn una muestra aleatoria de la población con distribución Weibull(α, β),cuya función de densidad es

fX(x;α) =1

αβxβ−1 exp

(−xβ

α

)I(0,∞)(x),

donde α > 0 es un parámetro desconocido, pero β > 0 se supone conocido. Encuentrelos estimadores máximo verosímiles de α, α2 y 1

αy demuestre que son consistentes en

ECM.

68

Page 70: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

20. Sea X1, . . . , Xn una muestra aleatoria de la población con distribución tal que

E (Xi) = θ + b, V ar (Xi) = σ2,

donde b �= 0, es una constante conocida. Pruebe que X no es un estimador consistenteen error cuadrático medio para θ. Construya un estimador insesgado para θ que seaconsistente.

21. Sea X1, . . . , Xn una muestra aleatoria de la población con distribución Pareto(α, θ),cuya función de densidad es

f(x; θ) =αθα

xα+1, x > θ, θ > 0,

con α conocida.

(a) Encuentre el estimador máximo verosímil para θ. ¿Es este un estimador insesgadopara θ?. Si la respuesta es negativa, encontrar el estimador insesgado.

(b) Encuentre el estimador por el método de momentos para θ. Nuevamente verifiquesi el estimador es insesgado; en caso contrario, obtenga el estimador insesgado.

(c) ¿Son consistentes los estimadores obtenidos en los incisos anterio-res?.

22. Sea X1, . . . , Xn una muestra aleatoria de la población con distribución Bernoulli(θ),donde x ∈ {0, 1} y 0 ≤ θ ≤ 1

2. Note que el espacio paramétrico es Θ = {θ : 0 ≤ θ ≤ 1

2}.

(a) Encuentre el estimador de θ por medio del método de momentos. Calcule su mediay su ECM.

(b) Encuentre el estimador máximo verosímil de θ. Calcule su media y su ECM.

(c) ¿Los estimadores son consistentes en ECM?.

(d) ¿Qué estimador es más eficiente en ECM?.

23. Sea X1, . . . , Xn una muestra aleatoria discreta de la población con distribuciónPoisson(λ), donde x ∈ {0, 1, 2, . . .} y 0 < λ ≤ 2. Note que el espacio paramétricoes Θ = {λ : 0 < λ ≤ 2}.

(a) Encuentre el estimador de λ por el método de momentos. Calcule su media y suECM.

(b) Encuentre el estimador máximo verosímil de λ. Calcule su media y su ECM.

(c) ¿Los estimadores son consistentes en ECM?.

69

Page 71: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

24. Considere las siguientes funciones de densidad:

f1(x; p) = px(1− p)1−xI{0,1}(x) donde 0 < p < 1,

f2(x; θ) = θxlog(θ)

θ − 1I(0,1)(x) donde θ > 1.

En cada caso, para una muestra aleatoria de tamaño n, ¿existirán estadísticas T1(X) yT2(X) para ciertas funciones τ1(p) y τ2(θ), para las cuales la varianza de Ti(X), i = 1, 2,coincidan con la CICR?.

25. Sea X1, . . . , Xn una muestra aleatoria de la población con distribución N(θ, 1).

(a) Encuentre la CICR para la varianza de los estimadores insesgados de τ 1(θ) = θ,τ 2(θ) = θ2 y τ 3(θ) = P(X > 0).

(b) ¿Existe un estimador insesgado para τ 2(θ) = θ2?. Si es así, encuéntrelo.

(c) ¿Existe un estimador insesgado para τ 3(θ) = P(X > 0)?. Si es así, encuéntrelo.

(d) Encuentre el UMVUE para τ 2(θ) = θ2.

26. SeaX1, . . . , Xn una muestra aleatoria de la población con distribuciónBeta(θ, 1), dondeθ > 0, es decir, con función de densidad

f(x; θ) = θxθ−1I(0,1)(x).

(a) Encuentre el estimador máximo verosímil de τ (θ) = θ/(1 + θ).

(b) Encuentre una estadística suficiente, y compruebe si es completa.

(c) ¿Es S =∑n

i=1Xi una estadística suficiente?. ¿Es S =∑n

i=1Xi una estadísticacompleta?.

(d) ¿Existe una función de θ, τ(θ), para el cual exista una estimador insesgado cuyavarianza coincida con la CICR?. Justifique.

(e) Encuentre un UMVUE para las siguientes funciones de θ:

(i) τ (θ) = θ

(ii) τ (θ) = 1/θ

(iii) τ (θ) = θ/(1 + θ)

27. Sea X1, . . . , Xn una muestra aleatoria de la población con distribución Bernoulli(p),con p ∈ (0, 1) con n ≥ 3.

(a) Sea U =∑n

i=1Xi. Calcule E(X1|U = u) y obtenga E(X1|U).

70

Page 72: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

(b) Use el teorema de Rao-Blackwell para mejorar el estimador T1(X) de τ1(p) = p2,dado por

T1(X) = X1X2.

(c) Use el teorema de Rao-Blackwell para mejorar el estimador T2(X) de τ 2(p) =p2 (1− p) , dado por

T2(X) = X1X2(1−X3).

28. Sea X1, . . . , Xn una muestra aleatoria de distribución Poisson(λ), con λ > 0 y n ≥ 2.

(a) Use el teorema de Rao-Blackwell para mejorar el estimador T1(X) de τ1(λ) = λ,dado por

T1(X) =1

2(X1 +X2).

(b) Use el teorema de Rao-Blackwell para mejorar el estimador T2(X) de τ 2(λ) = e−λ,dado por

T2(X) = I{0}(X1),

(llegará a(1− 1

n

)∑ni=1Xi).

(c) Use el teorema de Rao-Blackwell para mejorar el estimador T3(X) de τ 3(λ) = λe−λ,dado por

T3(X) = I{1}(X1).

29. Sea X1, . . . , Xn una muestra aleatoria de una población con función de densidad

f(x; θ) =1

2θI(−θ,θ)(x), θ > 0.

Encuentre, si existe, el UMVUE para θ.

30. Sea X1, . . . , Xn una muestra aleatoria de la población con distribución U(0, θ). Sean Y1y Yn la mínima y máxima estadísticas de orden, respectivamente.

(a) Encuentre el estimador por momentos para θ. Llame T1 a dicho estimador y en-cuentre su media y error cuadrático medio.

(b) Encuentre el estimador máximo verosímil de θ. Llame T2 a dicho estimador yencuentre su media y error cuadrático medio.

(c) De entre todos los estimadores de la forma aYn, donde a es una constante quepodría depender de n. Encuentre un estimador para θ que tenga el error cuadráticomedio uniformente más pequeño. Llame T3 a dicho estimador y encuentre su mediay error cuadrático medio.

71

Page 73: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

(d) Encuentre el UMVUE de θ. Llame T4 a dicho estimador y encuentre su media yerror cuadrático medio.

(e) Sea T5 = Y1 + Yn. Encuentre su media y error cuadrático medio.

(f) Diga ventajas y desventajas de los estimadores T1, . . . , T5.

31. Sea X1, . . . , Xn una muestra aleatoria de la población con función de densidad

f(x; θ) =θ

(1 + x)1+θI(0,∞)(x), θ > 0

(a) Encuentre el estimador por momentos para θ suponiendo que θ > 1.

(b) Encuentre el estimador máximo verosímil de τ (θ) = 1/θ.

(c) Encuentre una estadística suficiente y completa (si es que existe).

(d) Encuentre la CICR para los estimadores insesgado de τ(θ) = 1/θ.

(e) ¿Existe el UMVUE de τ(θ)?. Si es así, encuéntrelo.

(f) ¿Existe el UMVUE de θ?. Si es así, encuéntrelo.

32. Sea X1, . . . , Xn una muestra aleatoria de la población con función de densidad

f(x;µ) = e−(x−µ)I(µ,∞)(x), µ ∈ R.

(a) Demuestre que T (X) = X(1) = mın {X1, . . . ,Xn} es una estadística suficiente ycompleta.

(b) Encuentre la única función de X(1) que sea el UMVUE de µ.

33. Sea X1, . . . , Xn una muestra aleatoria de la distribución Exp(λ). Demuestre que

T (X) =n− 1∑ni=1Xi

es el UMVUE de λ.

34. Sea X1, . . . ,Xn una muestra aleatoria de la población con distribución Poisson(λ). Seaτ (λ) = (1 + λ)e−λ.

(a) Obtenga el estimador máximo verosímil para τ (λ).

(b) Obtenga un estimador insesgado para τ (λ).

(b) Obtenga un UMVUE para τ (λ). Sugerencia: Encuentre un estimador insesgado deτ (λ) y utilice el teorema de Rao-Blackwell para mejorarlo.

72

Page 74: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

35. Sea X1, . . . , Xn una muestra aleatoria de la población con distribución Geométrica(θ)con función de densidad

P(X = x) = θ(1− θ)x, x = 0, 1, 2, . . . , 0 < θ < 1.

(a) Obtenga el estimador por el método de momentos para θ .

(b) Obtenga el estimador máximo verosímil para θ.

(c) Calcule la CICR para la varianza de los estimadores insesgados de θ.

(d) Encuentre un UMVUE para θ.

36. Sea X1, . . . , Xn una muestra aleatoria de la población con distribución N(θ, θ2), θ ∈ R.

(a) ¿Existe una estadística suficiente unidimensional para θ?

(b) Encuentra una estadística suficiente bidimensional para θ.

(c) ¿Es X un UMVUE para θ?.

(d) ¿θ es un parámetro de localización o escala?.

73

Page 75: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Bibliografía

[1] Casella, G. y Berger, R. L. (2002). Statistical Inference. Duxbury Advanced Series. 2nd.ed.

[2] Gómez V., M.A. (2009). “Karl Pearson, el Creador de la Estadística Matemática”. His-toria de la Probabilidad y la Estadística IV, J. Basulto y J.J. García (eds.). CongresoInternacional de Historia de la Estadística y la Probabilidad, 351-356.

[3] Hogg, R.V., McKean, J. W., Craig, A. T. (2014). Introduction to Mathe-matical Statistics. Pearson Education International. 7th. ed.

[4] Kapadia, A.S., Chan, W. y Moyé, L. (2005). Mathematical Statistics with Applications.Chapman & Hall, Inc./CRC Press.

[5] Kellison, S.G. y London, R.L. (2011). Risk Models and Their Estimation. Actex Publi-cations, Inc.

[6] Lindgren, B.W. (1993). Statistical Theory. Chapman & Hall, Inc. 4th ed.

[7] Mood, A. M., Graybill, F. A. y Boes, D. C. (1974). Introduction to the theory of stastis-tics. Mc Graw-Hill, Inc. 3rd. ed.

[8] Pearson, E. S. (1974). “Memories on the impact of Fisher’s work in the 1920’s”. Int.Stat. Rev. 42 (1).

74

Page 76: jaimevazquezalamilla.comjaimevazquezalamilla.com/wp-content/uploads/2018/... · Introducción Laestadísticainferencialesunadisciplinaquesebasaengranmedidaenlaprobabilidady

Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez

[9] Stuart, A., Ord, J. K. y Arnold, S. (1999). Advanced Theory of Statistics, 2A: ClasicalInference and the Linear Model. London: Oxford University Press, 6th ed.

[10] Zehna, P.W. (1966). Invariance of Maximum Likelihood Estimators. Annals of Mathe-matical Statistics 37 744.

[11] http://www.dm.uba.ar/materias/estadistica_M/

[12] http://www.statslab.cam.ac.uk/~rrw1/

75