tema 3: estimación puntual -...

22
Tema 3: Estimaci´ on puntual Estad´ ıstica Aplicada (Bioqu´ ımica). Profesora: Amparo Ba´ ıllo Tema 3: Estimaci´ on puntual 1

Upload: doantu

Post on 03-May-2018

221 views

Category:

Documents


5 download

TRANSCRIPT

Tema 3: Estimacion puntual

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 3: Estimacion puntual 1

Muestra aleatoria y estadısticos

Objetivo: Estudiar una v.a. numerica X en una poblacion a partirde la informacion contenida en una muestra aleatoria de individuosde esa poblacion.

Una muestra aleatoria (simple) de tamano n de X es una coleccionX1, . . . ,Xn tal que

• cada Xi tiene la misma distribucion de probabilidad que X ;

• las v.a. X1, . . . ,Xn son independientes entre sı.

Extraeremos informacion acerca de la distribucion de probabilidadde X , que es desconocida, a partir de la muestra X1, . . . ,Xn de X .

Si X es una v.a. discreta, la funcion de masa de la muestra esP(x1, . . . , xn) = P{X1 = x1, . . . ,Xn = xn} = P(x1) · · ·P(xn).Si X es continua con densidad f , la funcion de densidad de lamuestra es f (x1, . . . , xn) = f (x1) · · · f (xn).

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 3: Estimacion puntual 2

Un primer paso para analizar la muestra aleatoria suele sersimplificar la informacion contenida en ella.

Un estadıstico es una funcion real T = T (X1, . . . ,Xn) de lamuestra X1, . . . ,Xn.

Un estadıstico es una variable aleatoria porque depende de lamuestra aleatoria. Por tanto, podemos estudiar su esperanzaE (T ), su varianza V (T ) y, en general, su distribucion deprobabilidad (que dependera de la de X ).

Por ejemplo,

• T (X1, . . . ,Xn) = max(X1, . . . ,Xn)

• T (X1, . . . ,Xn) =1

n

n∑i=1

Xi = X

• T (X1, . . . ,Xn) =

1 si mas de la mitad de los Xi es mayor que 1000

−1 si mas de la mitad de los Xi es menor que 500

0 en cualquier otro caso

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 3: Estimacion puntual 3

Algunos estadısticos muy utilizados:

• Media muestral X =1

n

n∑i=1

Xi

Es una medida de centralizacion, localizacion o posicion de lamuestra, es decir, da una idea del valor central alrededor delcual se reparten los valores X1, . . . ,Xn.

• Varianza muestral S2 =1

n − 1

n∑i=1

(Xi − X )2 Es una medida

de la dispersion o variabilidad de la muestra respecto a lamedia X .

• Estadısticos de orden X(1),X(2), . . . ,X(n), resultantes deordenar la muestra X1, . . . ,Xn de menor a mayor.

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 3: Estimacion puntual 4

Antes de la observacion:

X1, . . . ,Xn −→

XS2

T = T (X1, . . . ,Xn)son v.a.’s

Si tomo observaciones concretas de la poblacion:

x1, . . . , xn −→

xs2

t = T (x1, . . . , xn)son numeros.

Si tomo nuevas observaciones de la poblacion:

x1, . . . , xn −→

¯xs2

t = T (x1, . . . , xn)son otros numeros.

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 3: Estimacion puntual 5

Ejemplo 3.1: Se sabe que una solucion estandar de glucosa es5.05 mM. Cinco estudiantes de un grupo de practicas deBioquımica la analizan mediante el metodo de la glucosa oxidasaobteniendo

5.12 4.96 5.21 5.18 5.26 .

Otros cinco estudiantes del otro grupo de practicas obtienen

5.17 5.23 4.95 4.99 5.03 .

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 3: Estimacion puntual 6

Propiedades:

Sea X1, . . . ,Xn una muestra aleatoria de una v.a. X con E (X ) = µy V (X ) = σ2. Entonces

• E (X ) = µ (la media muestral es un estimador insesgado de la

media poblacional) y V (X ) =σ2

n.

La desviacion tıpica de X , σ/√n, o su estimacion, s/

√n, reciben

el nombre de error tıpico (standard error) de la media muestral.

• E (S2) = σ2.

• Si X ∼ N(µ, σ), entonces X ∼ N

(µ,

σ√n

).

• Para una v.a. X con cualquier distribucion de probabilidad, µ <∞y σ <∞, el Teorema Central del Lımite (TCL) establece que X

sigue aproximadamente una N

(µ,

σ√n

).

La aproximacion de X a la normal se considera valida para n ≥ 30y es tanto mejor cuanto mayor es n.

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 3: Estimacion puntual 7

Ejemplo 3.2: Tomo 50 muestras de tamano n = 10 cada una deuna N(3,1). Calculo las 50 medias muestrales correspondientes yobtengo

3.17 3.24 3.11 3.16 2.60 2.99 2.61 2.72 2.86 3.582.18 3.38 2.48 3.47 3.07 2.62 3.13 2.83 3.20 3.123.17 3.21 2.80 2.93 2.97 3.06 2.81 2.78 2.97 3.213.27 2.86 2.89 2.95 2.72 3.64 3.05 3.28 2.64 2.913.08 3.10 2.49 3.31 2.85 3.16 3.22 2.89 3.00 3.17

1.5 2 2.5 3 3.5 4 4.50

0.5

1

1.5

2

Promedio = 2.99 Desviacion tıpica = 0.28

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 3: Estimacion puntual 8

Ejemplo 3.2 (cont.): Tomo 50 muestras de tamano n = 30 cadauna de una exp(1/2). Calculo las 50 medias muestralescorrespondientes y obtengo

2.34 2.12 1.74 2.68 2.77 1.72 1.93 2.51 2.00 1.361.75 1.63 2.00 1.54 1.99 2.16 2.03 2.00 1.81 2.361.50 2.30 3.06 1.95 1.91 1.81 2.33 1.92 2.05 1.522.34 1.76 1.72 2.43 2.08 2.21 2.63 2.32 1.76 2.741.90 1.67 2.05 1.81 2.01 2.18 1.38 2.34 1.72 2.28

1 1.5 2 2.5 3 3.50

0.2

0.4

0.6

0.8

1

1.2

1.4

Promedio = 2.04 Desviacion tıpica = 0.37

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 3: Estimacion puntual 9

Codigo para comprobar el TCL (muestras de una exponencial): (no es necesariomirarlo)

IlustracionTCLexp.R

# Distribucion de la media muestral (comprobacion del TCL)

N = 20 # Numero de muestras aleatorias

n = 30 # Tama~no de cada muestra aleatoria

# Generacion de N muestras de tama~no n.

# Muestras de exponenciales de parametro lambda

lambda = 1

X = rexp(N*n,rate = lambda)

X = matrix(X,nrow=N,ncol=n) # Ordeno las observaciones en una matriz N*n

m = rowMeans(X) # Calculo las medias muestrales por filas. Obtengo N medias

t = seq(1/lambda-5/sqrt(n*lambda),1/lambda+5/sqrt(n*lambda),0.01)

d = dnorm(t,mean=1/lambda,sd=1/sqrt(n*lambda))

H = hist(m,freq=FALSE)

hist(m,freq=FALSE,cex.axis=1.5,xaxs="i",main="",xlab="",ylab="",

xlim=c(min(t),max(t)),ylim=c(0,max(c(d,H$intensities))))

lines(t,d,type="l",lwd=3,col="red",xlab="",ylab="")

title(main=paste("Histograma de medias para N=",bquote(.(N)),

"\n muestras de tama~no n=",bquote(.(n))," de una

exp(",bquote(.(lambda)),")"),font.main=1,cex.main=1.5)

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 3: Estimacion puntual 10

Inferencia parametrica

La distribucion de la v.a. X de interes no suele ser conocida. Peroes habitual suponer que pertenece a una familia parametrica dedistribuciones (Poisson, normal, . . . ). En ese caso, para determinartotalmente la distribucion de X basta especificar el valor de uno ovarios parametros (λ para la Poisson, µ y σ para la normal).

Notacion en inferencia parametrica:

Parametro: θEspacio parametrico: Θ, conjunto de posibles valores del parametroSi X es discreta: funcion de masa Pθ.Si X es continua: funcion de densidad fθ.

Partes de la inferencia parametrica:

• Estimacion puntual• Estimacion por intervalos de confianza• Contrastes de hipotesis parametricas

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 3: Estimacion puntual 11

Estimacion puntual de parametros

Sea X1, . . . ,Xn una muestra aleatoria de una v.a. X con funcion dedistribucion Fθ, donde θ es un parametro desconocido que tomavalores en el espacio parametrico Θ.

La estimacion puntual consiste en decidir cual es el valor de θ ∈ Θmas plausible teniendo en cuenta el modelo parametrico dedistribucion supuesto para X y los valores observados x1, . . . , xn dela muestra.

Un estimador puntual de una funcion g(θ) es un estadısticoT = T (X1, . . . ,Xn) que, a cada observacion x1, . . . , xn de lamuestra, le asigna una estimacion T (x1, . . . , xn) de g(θ).

El estimador puntual del parametro θ se denota frecuentementecon θ.

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 3: Estimacion puntual 12

Ejemplo 3.3: Un metodo para estudiar las sustancias que causanmutaciones consiste en matar a ratones hembra 17 dıas despues deaparearse y examinar sus uteros en busca de embriones muertos.La tabla que sigue proporciona datos de 309 hembras.

No embriones Recuentomuertos de hembras

0 1251 1132 523 134 45 16 1

7 o mas 0Total 309

No embriones Frecuencia Probabilidadmuertos relativa Poisson

0 0.405 eλ

1 0.366 eλλ

2 0.168 eλλ2/2

3 0.042 eλλ3/3!

4 0.013 eλλ4/4!

5 0.003 eλλ5/5!

6 0.003 eλλ6/6!

7 o mas 0 eλλ7/7!

0 1 2 3 4 5 6 7 8 9

0.0

0.1

0.2

0.3

0.4

Frecuencia relativa

Distribución de Poisson

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 3: Estimacion puntual 13

Estimacion por el metodo de maxima verosimilitud

Sea X1, . . . ,Xn una muestra aleatoria de una poblacion X cuyadistribucion de probabilidad depende del parametro desconocidoθ = (θ1, . . . , θk). Si X es discreta su funcion de masa se denotapor Pθ y, si es continua, su densidad es fθ.

La funcion de verosimilitud L expresa lo verosımil que es el valor deun parametro θ en base a la muestra observada x1, . . . , xn

L(θ) = L(θ; x1, . . . , xn) =

{Pθ(x1) · · ·Pθ(xn) si X es discretafθ(x1) · · · fθ(xn) si X es continua

La estimacion de maxima verosimilitud (EMV) de θ = (θ1, . . . , θk)es θ = (θ1, . . . , θk), los valores de θ ∈ Θ que maximizan L(θ).

Es el metodo mas habitual para estimar parametros de un modelode probabilidad.

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 3: Estimacion puntual 14

Distribucion EMVX ∼ Bernoulli(p) p = x

X ∼ Poisson(λ) λ = x

X ∼ exp(λ) λ = 1/xX ∼ N(µ, σ) µ = x , σ2 = s2(n − 1)/n(X1, . . . ,Xk) ∼ M(n, p1, . . . , pk) p1 = x1, . . . , pk = xk

Observacion: Si θ es el EMV de θ entonces g(θ) es el EMV deg(θ) para cualquier funcion g .

Ejemplo 3.3 (cont.): λ = x = 0.91586

No embriones Frecuencia Probabilidadmuertos relativa Poisson

0 0.405 0.4001 0.366 0.3672 0.168 0.1693 0.042 0.0514 0.013 0.0125 0.003 0.0026 0.003 0.000

7 o mas 0 0.000

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 3: Estimacion puntual 15

EmbrionesRaton.R (no es necesario mirarlo)

Valores = seq(0,9)

Frec = c(125,113,52,13,4,1,1,0,0,0)

n = sum(Frec)

m = sum(Valores*Frec)/n

barplot(Frec/n,names=Valores,space=0)

MasaPoisson= dpois(Valores,m)

lines(Valores+0.5,MasaPoisson,type="l",col="red",lwd=2)

points(Valores+0.5,MasaPoisson,pch=19,col="red",cex=2)

legend(x=4.5,y=0.35,c(paste("Frecuencia\n relativa\n"),

paste("Distribucion\n de Poisson")),

col=c("grey","red"),cex=1.2, bty="n",lty=c(1,1),

lwd=c(10,2),text.font=1)

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 3: Estimacion puntual 16

Ejemplo 2.17 (cont.): Una genetista peso 28 corderos hembra alnacer. Todos los corderos nacieron en abril, todos eran de la mismaraza (Rambouillet) y todos fueron nacimientos de un solo cordero(no habıa gemelos). La dieta y otras condiciones experimentalesfueron las mismas para todos los progenitores. Los pesos fueron:

4.3 5.2 6.2 6.7 5.3 4.9 4.75.5 5.3 4.0 4.9 5.2 4.9 5.35.4 5.5 3.6 5.8 5.6 5.0 5.25.8 6.1 4.9 4.5 4.8 5.4 4.7

Si suponemos que X = peso deun cordero al nacer sigue unadistribucion N(µ,σ), los e.m.v.de los parametros son µ = x =5.168 y σ2 = 0.413.

Pesos de corderos al nacer

3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0

0.0

0.2

0.4

0.6 Frecuencia

relativa

Distribución normal

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 3: Estimacion puntual 17

PesoCordero.R (no es necesario mirarlo)

# Pesos de corderos Rambouillet al nacer:

Pesos = c(4.3,5.2,6.2,6.7,5.3,4.9,4.7,

5.5,5.3,4.0,4.9,5.2,4.9,5.3,

5.4,5.5,3.6,5.8,5.6,5.0,5.2,

5.8,6.1,4.9,4.5,4.8,5.4,4.7)

n = length(Pesos) # Tama~no muestral

m = mean(Pesos) # Media muestral

v = (n-1)*var(Pesos)/n # Varianza muestral

t = seq(m-5*v,m+5*v,0.1)

d = dnorm(t,m,sqrt(v))

hist(Pesos,freq=FALSE,col="skyblue",cex.axis=1.5,xaxs="i",xlab="",ylab

="",

main="Pesos de corderos al nacer",cex.main=1.5,font.main=1)

lines(t,d,type="l",col="red",lwd=2)

legend(x=5.7,y=0.65,c(paste("Frecuencia \n relativa\n"),

paste("Distribucion \n normal")),

col=c("skyblue","red"),cex=1.2, bty="n",lty=c(1,1),

lwd=c(10,2),text.font=1)

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 3: Estimacion puntual 18

Ejemplo 2.18 (cont.): El 18 de diciembre de 1997 nacieron 44bebes en un hospital de Brisbane, Australia. Las horas denacimiento de los 44 bebes aparecieron en el periodico local.Consideramos los tiempos (en minutos) entre un nacimiento y elsiguiente.

Tiempos entre nacimientos

0 50 100 1500.0

00

0.0

10

0.0

20

Frecuencia relativa

Distribución exponencial

Si suponemos que X = “tiem-po entre un nacimiento y elsiguiente” sigue una distribu-cion exp(λ), el e.m.v. de λ esλ = 1/x = 1/32.49 = 0.03.

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 3: Estimacion puntual 19

Babyboom.R (no es necesario mirarlo)

Datos = read.table("Datos_babyboom.txt",header=F)

# Tiempos de los nacimientos en minutos contados desde la medianoche:

T = Datos$V4

n = length(T)

# Tiempos ENTRE los nacimientos (tiempo entre un nacimiento y el

siguiente):

X = T[seq(2,n)]-T[seq(1,n-1)]

m = mean(X) # Media muestral

hist(X,freq=FALSE,col="skyblue",cex.axis=1.5,xaxs="i",xlab="",ylab="",

main="Tiempos entre nacimientos",cex.main=1.5,font.main=1)

t = seq(0,170,1)

d = dexp(t,rate=1/m)

lines(t,d,type="l",col="red",lwd=3)

legend(x=50,y=0.02,c(paste("Frecuencia \n relativa\n"),

paste("Distribucion \n exponencial")),

col=c("skyblue","red"),cex=1.2, bty="n",lty=c(1,1),

lwd=c(10,3),text.font=1)

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 3: Estimacion puntual 20

Ejemplo 3.4: En una muestra de 96 personas se ha observado sucolor de ojos:

Color ojos Frecuencia

Marron 46Azul 22Verde 26Otro 2

Total 96

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 3: Estimacion puntual 21

Ejemplo 3.5: Dos rasgos de la mosca de la fruta son “vestigial”(vg) y “ebano” (e). Las moscas “vestigiales” tienen alas pequenasy el animal no puede volar, mientras que las moscas “ebano”tienen un color muy oscuro. Se cruzan los dos tipos de rasgos (quese suponen independientes) obteniendose una progenie de 465moscas. Las frecuencias de los cuatro tipos resultantes (denotados+, vg, e, vge) son 268, 94, 79 y 24 respectivamente. Obtener lose.m.v de p = P(vg) y q = P(e).

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 3: Estimacion puntual 22