tema 5: contraste de hipótesis - sistemas de información...
Post on 18-Oct-2018
241 Views
Preview:
TRANSCRIPT
ESTADISTICA ITema 5: Contraste de hipotesis
I Planteamiento del problema
I Conceptos basicos: hipotesis nula y alternativa, tipos de errores,nivel de significacion, region crıtica o de rechazo, tamano del test,potencia
I Contrastes para la media de una distribucion
I Consistencia de tests. Tests insesgados y UMP
I p-valor
I Contrastes para dos muestras. Distribucion F de Fisher-Snedecor
I Lema de Neyman-Pearson. Tests optimos
I Construccion de tests: test de razon de verosimilitudes, testbayesiano.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 1
Planteamiento del problema. Conceptos basicos
El objetivo de la teorıa de contraste de hipotesis es elegir entre dosposibilidades excluyentes (hipotesis nula e hipotesis alternativa)relativas al valor de un parametro poblacional, a partir de lainformacion proporcionada por los datos muestrales.
Sea X1, . . . ,Xn una muestra aleatoria de una v.a. X con funcionde distribucion Fθ, donde θ ∈ Θ.
Objetivo: Dada una particion del espacio parametricoΘ = Θ0 ∪Θ1, deseamos decidir, en base a la muestra obtenida, siθ ∈ Θ0 o si θ ∈ Θ1. Queremos contrastar
H0 : θ ∈ Θ0 (hipotesis nula)
H1 : θ ∈ Θ1 (hipotesis alternativa)
Un test para contrastar estas dos hipotesis consiste en proporcionaruna regla de decision que, a cada posible observacion de la muestra(x1, . . . , xn), le asigne una decision: aceptar o rechazar H0.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 2
Los contrastes habituales (no aleatorizados) se definen medianteuna region crıtica o region de rechazo R ⊂ Rn, de tal manera que,cuando (x1, . . . , xn) ∈ R, se rechaza la hipotesis nula.
Espacio muestral
(x1,...,x
n)
(x1,...,x
n)
Región críticao de rechazoR
Región deaceptación A
Rechazo H0
Acepto H0
TEST
Decisión
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 3
Es importante destacar que la metodologıa de contraste dehipotesis no ”demuestra” la validez de la hipotesis que se aceptaen cada caso (en el sentido en el que se demuestra algo medianteun metodo deductivo, por ejemplo).
La manera correcta de interpretar los resultados es decir que “losdatos disponibles proporcionan (o no proporcionan) evidenciaestadıstica suficiente en contra de la hipotesis nula”. En todo caso,la conclusion depende de informacion incompleta y aleatoria,procedente de una o varias muestras, y siempre existe la posibilidadde cometer un error aceptando una hipotesis equivocada.
Los procedimientos que se utilizan habitualmente se suelendenominar “contrastes o tests de hipotesis”.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 4
Posibles errores de un test:
I Error de tipo I: Rechazar H0 cuando H0 es cierta.
I Error de tipo II: Aceptar H0 cuando H0 es falsa.
La funcion de potencia de un test con region de rechazo R paracontrastar H0 : θ ∈ Θ0 frente a H1 : θ ∈ Θ1 es la funcion
βn : Θ −→ [0, 1]θ 7−→ βn(θ) = Pθ{(X1, . . . ,Xn) ∈ R}
Lo que nos gustarıa:
ΘΘ
0Θ
1
θ
Potencia = 1Potencia = 1
Potencia = 0
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 5
Lo que en realidad se suele hacer (teorıa de Neyman-Pearson):
1. Acotar la maxima probabilidad de error de tipo I.
• Se fija un nivel de significacion α ∈ (0, 1). Tıpicamenteα = 0, 05.• Se define el tamano de un test como la maxima probabilidad
de error de tipo I: maxθ∈Θ0
Pθ(R) = maxθ∈Θ0
βn(θ).
• Se busca una region de rechazo R tal que maxθ∈Θ0
Pθ(R) ≤ α.
2. Minimizar la probabilidad de error de tipo II. Se intentabuscar una region de rechazo R que maximice la funcion depotencia cuando θ ∈ Θ1.
Las hipotesis H0 y H1 no son simetricas.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 6
Como vemos, los test de hipotesis estan disenados para controlar laprobabilidad maxima de rechazar H0 cuando es cierta. Enconsecuencia, suelen ser “conservadores” con la hipotesis nula:hace falta mucha evidencia muestral para rechazar H0.
Observemos que es posible que, con los mismos datos, H0 serechace para un nivel de significacion α = 0.05 y se acepte paraα = 0.01.
En una primera aproximacion, los problemas de contraste dehipotesis pueden clasificarse en problemas de una muestra (cuandohay una sola poblacion de interes) y problemas de dos muestras(cuando se quiere comparar dos poblaciones y se dispone de unamuestra de cada una de ellas). Presentaremos las ideas basicas enel caso de los problemas de una muestra pero pueden extendersede modo analogo a los de dos muestras.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 7
Un ejemplo ilustrativo y sus consecuencias
Ejemplo: Se analiza un envıo de botellas de aceite envasado conun mecanismo del que se afirma que, en media, rellena las botellascon 100 cl. de aceite. Examinada una muestra de 5 botellas seobtiene que el promedio es 95 cl. y la cuasivarianza es 1.1.Suponemos que la v.a. X = “contenido de aceite (en cl.) en unabotella” sigue una distribucion N(µ, σ). ¿Hay suficiente evidenciaempırica para afirmar que el contenido medio de las botellas no es100 cl.?Queremos contrastar
H0 : µ = 100, frente a H1 : µ 6= 100.
Otra posibilidad serıa preguntarse si existe evidencia empıricasuficiente para afirmar que el consumidor recibe, en promedio,menos cantidad de la que indica la etiqueta. En ese caso, elplanteamiento correcto serıa contrastar
H0 : µ ≥ 100, frente a H1 : µ < 100.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 8
Ejemplo (cont.): Tenemos, por tanto, un problema del tipo:
contrastar H0 : µ = µ0 frente a H1 : µ 6= µ0
(siendo µ0 un valor prefijado) a partir de una muestra X1, . . . ,Xn
extraıda de N(µ, σ).
Para ello prefijamos el nivel de significacion del test α ∈ (0, 1) (porejemplo, α = 0.05) y observamos que, si H0 fuera cierta,
X − µ0
s/√
n∼ tn−1. (1)
Por otra parte, esta claro que deberıamos sospechar que H0 es falsa(y, por tanto, H1 es cierta) cuando x resulte estar “suficientementealejada” de µ0. El resultado (1) nos ayuda a decidir, de un modoracional, que es lo que significa “suficientemente alejada”.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 9
Ejemplo (cont.): En efecto, dada una muestra x1, . . . , xn, parecemuy natural decidir que H0 es falsa cuando tengamos∣∣∣∣ x − µ0
s/√
n
∣∣∣∣ > tn−1;α/2. (2)
ya que, en este caso, tenemos una muestra que serıa “muy rara” sirealmente H0 fuera cierta.Observese que, de todos modos, hay una probabilidad α, prefijada,de cometer un error de tipo I (rechazar H0 siendo cierta).Analogamente, si el problema hubiera sido contrastar
H0 : µ ≥ µ0 frente a H1 : µ < µ0,
un criterio razonable para rechazar H0 con un nivel de significacionα serıa
x − µ0
s/√
n< −tn−1;α. (3)
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 10
Ejemplo (cont.): En el ejemplo del envasado de aceite x = 95,s2 = 1.1, n = 5. Por tanto,∣∣∣∣ x − µ0
s/√
n
∣∣∣∣ = 10.66
y como 10.66 > t4;0.025 = 2.776445, H0 : µ = 100 se rechaza alnivel de significacion α = 0.05 y, dado que10.66 > t4;0.005 = 4.604095, tambien se rechaza al nivel 0.01.
Sin embargo, supongamos que hubieramos obtenido x = 98,s2 = 1.1, n = 5. Entonces∣∣∣∣ x − µ0
s/√
n
∣∣∣∣ = 4.264014
y la hipotesis H0 se rechazarıa al nivel α = 0.05 pero NO serechazarıa al nivel 0.01.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 11
Ejemplo (cont.): En el ejemplo de las botellas, supongamos quequeremos contrastar
H0 : µ ≥ 100 frente a H1 : µ < 100.
Entonces el criterio para rechazar H0 con un nivel de significacionα serıa
x − 100
s/√
5< −t4;α.
Supongamos que hubieramos obtenido x = 98. Entoncesx − 100
s/√
5= −4.2640. Como −t4;0.01 = −3.7469, la hipotesis nula
H0 : µ ≥ 100 se rechaza al nivel 0.01 (y tambien por supuesto, alnivel 0.05, ya que −t4;0.05 = −2.1318).
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 12
Algunas consecuencias y observaciones:
El anterior ejemplo es un solo un caso particular de contraste dehipotesis, pero nos permite extraer algunas consecuencias y daralgunas definiciones generales sobre la metodologıa del contrastede hipotesis.
I Asimetrıa de las hipotesis: H0 se acepta a menos que “se hayaobtenido suficiente evidencia estadıstica en contra de ella”. Poresta razon, cuando H0 se acepta no debe pensarse que “se hademostrado su validez”. H0 representa la hipotesis que estamosdispuestos a aceptar a menos que se obtengan fuertes indiciosen contra.
I Errores de tipo I y II: En todo caso siempre hay unaprobabilidad positiva de cometer uno de los dos posibles errores:rechazar H0 cuando es cierta (error de tipo I) o aceptar H0
cuando es falsa (error de tipo II).
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 13
I El nivel de significacion: Los tests usuales estan construidos demodo que la maxima probabilidad de cometer el error de tipo Iesta acotada por un valor prefijado α, el nivel de significacion(no confundir con el nivel de confianza de los intervalos).
I La decision de rechazar o aceptar H0 depende del nivel designificacion elegido. Cuanto mas pequeno es α mas“conservador” se hace el test a favor de H0, es decir, que paraaceptar H1 cuando α es muy pequeno, debemos tener “muchaevidencia estadıstica”.
I Cuando se toma una decision (aceptar o rechazar H0) debeindicarse siempre el nivel de significacion del test que se hautilizado.
I Cuando se acepta H0 no debe pensarse que se ha demostradoH0 sino que “no se ha encontrado suficiente evidencia empırica(al nivel prefijado α) en contra de H0”.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 14
I Cuando se acepta H1 debe recordarse tambien que lainterpretacion correcta es que “los datos obtenidosproporcionan suficiente evidencia estadıstica al nivel α paraaceptar H1”. Una muestra diferente (o un nivel de significacionmas bajo) podrıan haber llevado a conclusiones distintas.
I Dualidad con los intervalos de confianza: en algunos casos dehipotesis nula simple (i.e. del tipo H0 : θ = θ0) el test usualrechaza H0 (al nivel de significacion α) si y solo si el intervalode nivel de confianza 1− α no contiene al valor θ0.Ejemplo: Si X ∼ N(µ, σ) la region de rechazo
R =
{(x1, . . . , xn) : |x − µ0| ≥ tn−1;α/2
s√n
}del contraste
H0 : µ = µ0α
H1 : µ 6= µ0equivale a
R = {(x1, . . . , xn) : µ0 /∈ IC1−α(µ)} .
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 15
Contrastes para la media de una distribucion
En cada caso se rechaza H0 cuando (x1, . . . , xn) ∈ R.
• Distribucion normal con varianza conocida: Sea X1, . . . ,Xn
una muestra aleatoria de X ∼ N(µ, σ) con σ conocido.
H0 : µ = µ0 R =
{(x1, . . . , xn) : |x − µ0| ≥ zα/2
σ√n
}H0 : µ ≤ µ0 R =
{(x1, . . . , xn) : x − µ0 ≥ zα
σ√n
}H0 : µ ≥ µ0 R =
{(x1, . . . , xn) : x − µ0 ≤ z1−α
σ√n
}donde zβ es tal que Φ(zβ) = 1− β siendo Φ la funcion dedistribucion de la N(0, 1).
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 16
• Distribucion normal con varianza desconocida: SeaX1, . . . ,Xn una muestra aleatoria de X ∼ N(µ, σ) con σdesconocido.
H0 : µ = µ0 R =
{(x1, . . . , xn) : |x − µ0| ≥ tn−1;α/2
s√n
}H0 : µ ≤ µ0 R =
{(x1, . . . , xn) : x − µ0 ≥ tn−1;α
s√n
}H0 : µ ≥ µ0 R =
{(x1, . . . , xn) : x − µ0 ≤ tn−1;1−α
s√n
}
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 17
• Tests de nivel aproximado α (muestras grandes) para lamedia de cualquier distribucion: Sea X1, . . . ,Xn una muestraaleatoria de X con E(X ) = µ <∞.
H0 : µ = µ0, frente a H1 : µ 6= µ0
R =
{(x1, . . . , xn) :
∣∣∣∣ x − µ0
s/√
n
∣∣∣∣ > zα/2
}H0 : µ ≤ µ0, frente a H1 : µ > µ0
R =
{(x1, . . . , xn) :
x − µ0
s/√
n> zα
}H0 : µ ≥ µ0, frente a H1 : µ < µ0
R =
{(x1, . . . , xn) :
x − µ0
s/√
n< −zα
}
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 18
• Tests de nivel aproximado α (muestras grandes) para elparametro p en una Bernoulli: Sea X1, . . . ,Xn una muestraaleatoria de X ∼ Bernoulli(p).
H0 : p = p0, frente a H1 : p 6= p0.
El criterio de rechazo es (x1, . . . , xn) ∈ R, siendo
R =
(x1, . . . , xn) :
∣∣∣∣∣∣ x − p0√p0(1−p0)
n
∣∣∣∣∣∣ > zα/2
y analogamente para los tests con hipotesis H1 unilaterales.
En el formulario que se puede descargar de la pagina webhay una lista de las regiones crıticas correspondientes alos contrastes de uso mas frecuente.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 19
Contrastes para la varianza de una normal
Sea X1, . . . ,Xn una muestra aleatoria de X ∼ N(µ, σ) con σdesconocido.
H0 : σ = σ0 R =
{(n − 1)s2
σ20
/∈ (χ2n−1;1−α/2 , χ
2n−1;α/2)
}= {σ2
0 /∈ IC1−α(σ2)}
H0 : σ ≤ σ0 R =
{(n − 1)s2
σ20
≥ χ2n−1;α
}H0 : σ ≥ σ0 R =
{(n − 1)s2
σ20
≤ χ2n−1;1−α
}
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 20
El concepto de p-valor
Dado un test, definido para todos los niveles de significacionposibles, se define el p-valor, para unos datos prefijados, como elınfimo de los valores α para los cuales se rechaza la hipotesis nulaa un nivel de significacion α.
P(x1, . . . , xn) = inf{α : H0 es rechazada al nivel α}.
Cuanto mas pequeno es el p-valor, mas evidencia estadısticaaportan los datos a favor de H1.
El p-valor se puede interpretar como la probabilidad de obtener unvalor “al menos tan raro” como el que se ha obtenido cuando H0
es cierta.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 21
Ejemplo: Los lagartos del desierto se esconden del calor en veranopara evitar que su temperatura corporal interna llegue al nivel letalde 45oC. Se ha tomado una muestra para estudiar el tiempo X (enminutos) requerido para que la temperatura de un lagarto alcancelos 45oC, partiendo de su temperatura normal mientras estaban enla sombra. Se han obtenido los siguientes datos:
10,1 12,5 12,2 10,2 12,8 12,111,2 11,4 10,7 14,9 13,9 13,3
Suponiendo que X sigue una distribucion N(µ, σ) y, en base aestos datos, ¿puede concluirse que el tiempo medio requerido paraalcanzar la temperatura letal es menor que 13 minutos?
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 22
Contrastes para dos muestras
Caso de muestras independientes:
Se tienen dos muestras X1, . . . ,Xn1 e Y1, . . . ,Yn2 de dos v.a. X eY . Ambas muestras se suponen independientes entre sı. Se deseacontrastar hipotesis del tipo
H0 : µ1 = µ2
H0 : µ1 ≤ µ2
H0 : σ1 = σ2
En los ejercicios propuestos se pueden encontrar varios ejemplos.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 23
Uno de los tests mas usuales es el de igualdad de medias para dospoblaciones normales “homocedasticas”, es decir, con σ1 = σ2:Se puede probar que, bajo H0 : µ1 = µ2,
X − Y
sp
√1n1
+ 1n2
∼ tn1+n2−2
y, por tanto, una region crıtica al nivel α es
R =
{|x − y | > tn1+n2−2;α/2 sp
√1
n1+
1
n2
}siendo
s2p =
(n1 − 1)s21 + (n2 − 1)s2
2
n1 + n2 − 2
la varianza combinada (pooled variance).
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 24
Para contrastar la hipotesis de homocedasticidad (igualdad devarianzas) de dos poblaciones normales presentamos una nuevadistribucion auxiliar.
Sean Q1 y Q2 v.a. independientes con distribuciones χ2n1
y χ2n2
,
respectivamente. La distribucion deQ1/n1
Q2/n2se denomina F de
Fisher-Snedecor con n1 y n2 grados de libertad, Fn1,n2 .
0 1 2 3 4 5
0.00.5
1.01.5
2.0
range(x)
c(0, 2
)
n1=1, n2=1
n1=2, n2=1
n1=5, n2=2
n1=100, n2=1
n1=100, n2=100
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 25
Si s21 , s2
2 son la cuasi-varianzas de dos muestras independientes detamano n1 y n2 extraıdas, respectivamente, de dos poblacionesN(µ1, σ1) y N(µ2, σ2), se tiene
(n1 − 1)s21
σ21
∼ χ2n1−1,
(n2 − 1)s22
σ22
∼ χ2n2−1,
Por tanto, bajo H0 : σ1 = σ2,
s21
s22
∼ Fn1−1,n2−1.
De este resultado se derivan los tests para comparar σ1 y σ2.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 26
H0 : σ1 = σ2 R =
{s2
1
s22
/∈ (Fn1−1;n2−1;1−α/2,Fn1−1;n2−1;α/2)
}=
{1 /∈ IC1−α
(σ2
1
σ22
)}H0 : σ1 ≤ σ2 R =
{s2
1
s22
> Fn1−1;n2−1;α
}H0 : σ1 ≥ σ2 R =
{s2
1
s22
< Fn1−1;n2−1;1−α
}
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 27
Caso de muestras emparejadas:
Surge en aquellas situaciones con n1 = n2 en que Xi e Yi no sonindependientes (porque corresponden, por ejemplo, a medicionessobre el mismo individuo antes y despues de un tratamiento).
Se reducen a problemas de una muestra para la muestra dediferencias Di = Xi − Yi .
Puede verse un ejemplo en los problemas de la Relacion 5.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 28
Consistencia de tests. Tests insesgados y UMP
Se dice que una sucesion de tests con un nivel prefijado α esconsistente cuando
limn→∞
βn(θ) = 1, ∀θ ∈ Θ1 = Θ \Θ0.
Se dice que un test es insesgado cuando
βn(θ) ≤ α ∀θ ∈ Θ0 y βn(θ) ≥ α ∀θ ∈ Θ1.
Se dice que un test con funcion de potencia βn es uniformementemas potente (UMP) dentro de una clase Bn,α de tests de nivel αbasados en muestras de tamano n cuando
βn(θ) ≥ βn(θ), ∀θ ∈ Θ1
siendo βn la funcion de potencia de cualquier otro test de la claseBn,α.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 29
El lema de Neyman-Pearson
Se considera el problema de hipotesis simple y alternativa simple
H0 : θ = θ0 frente a H1 : θ = θ1.
Denotemos fn(x1, . . . , xn; θ) =∏n
i=1 f (xi ; θ).Dado α ∈ (0, 1), supongamos que la region
R∗ =
{(x1, . . . , xn) :
fn(x1, . . . , xn; θ1)
fn(x1, . . . , xn; θ0)> k
}verifica Pθ0(R∗) = α. Entonces
Pθ1(R∗) ≥ Pθ1(R),
siendo R la region crıtica de cualquier otro test tal que Pθ0(R) ≤ α.En otras palabras, R∗ es el test optimo de nivel α para el problemaconsiderado.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 30
Demostracion del lema de Neyman-Pearson: Denotemosx = (x1, . . . , xn)
Pθ1(R∗)− Pθ1(R) =
∫R∗∩Rc
fn(x; θ1)dx−∫R∗c∩R
fn(x; θ1)dx,
pero, por definicion de R∗,∫R∗∩Rc
fn(x; θ1)dx ≥ k
∫R∗∩Rc
fn(x; θ0)dx
y tambien ∫R∗c∩R
fn(x; θ1)dx ≤ k
∫R∗c∩R
fn(x; θ0)dx.
Por lo tanto
Pθ1(R∗)− Pθ1(R) ≥ k
[∫R∗∩Rc
fn(x; θ0)dx−∫R∗c∩R
f (x; θ0)dx
]= k
[∫R∗
fn(x; θ0)dx−∫R
fn(x; θ0)dx
]= k [Pθ0(R∗)− Pθ0(R)] ≥ 0. �
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 31
Familias parametricas con cociente de verosimilitudesmonotono y tests optimos
I ¿Como construir tests optimos en problemas que no sean de hipotesissimple y alternativa simple?
I Consideremos el caso en que el modelo es de la forma f (·; θ), siendoθ ∈ Θ, donde Θ ⊂ R es un intervalo.
I Sea fn(x1, . . . , xn; θ) =∏n
i=1 f (xi ; θ).
I Supongamos que queremos contrastar H0 : θ ≤ θ0 frente a H1 : θ > θ0.
Definicion.- Se dice que f (·|θ) es una familia parametrica concociente de verosimilitudes monotono (CVM) si existe unestadıstico Tn(x1, . . . , xn) tal que, para todo θ1, θ2, con θ1 < θ2, larazon de verosimilitudes
fn(x1, . . . , xn; θ2)
fn(x1, . . . , xn; θ1)
es una funcion monotona no decreciente de Tn(x1, . . . , xn).
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 32
Como consecuencia directa del Lema de Neyman-Pearson y de laanterior definicion se tiene
Teorema.- Supongamos que f (·; θ) cumple la propiedad CVM yque kα es tal que
Pθ0{Tn > kα} = α.
Supongamos ademas que Pθ{Tn = c} = 0, para todo θ y c.Entonces, R = {(x1, . . . , xn) : Tn(x1, . . . , xn) > kα} es la regioncrıtica de un test optimo (uniformemente mas potente) de nivel αpara contrastar H0 : θ ≤ θ0 frente a H1 : θ > θ0.
Un resultado analogo es valido para H0 : θ ≥ θ0 frente aH1 : θ < θ0 aunque en este caso la propiedad CVM debe cumplirsecambiando “no decreciente” por “no creciente”.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 33
Ejemplo: Sea f (·; θ) una uniforme en (0, θ). La propiedad CVM secumple con Tn(x1, . . . , xn) = max{x1, . . . , xn}. Por tanto, el testoptimo de nivel α para H0 : θ ≤ θ0 frente a H1 : θ > θ0 es
R = {(x1, . . . , xn) : max{x1, . . . , xn} > kα}, donde 1−(
kαθ0
)n
= α
es decir, kα = exp(
1n log(1− α) + log(θ0)
).
Ejemplo: Si f (x ; θ) = θe−θx1[0,∞)(x), la propiedad CVM secumple con Tn(x1, . . . , xn) = 1/
∑ni=1 xi .
Por tanto, el test optimo de nivel α para H0 : θ ≤ θ0 frente aH1 : θ > θ0 es
R = {(x1, . . . , xn) :1∑ni=1 xi
> kα} donde Pθ0{n∑
i=1
Xi <1
kα} = α.
El valor kα se puede calcular teniendo en cuenta que, si θ = θ0,entonces
∑ni=1 Xi ∼ γ(θ0, n) porque X ∼ exp(θ0) = γ(θ0, 1).
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 34
Construccion de tests. Test de cociente deverosimilitudes
Sea f (·;θ) donde θ = (θ1, . . . , θk) ∈ Θ ⊂ Rk , siendo Θ un“intervalo” de Rk .
Dada una muestra x = (x1, . . . , xn), sea fn(x;θ) =∏n
i=1 f (xi ;θ).
Consideremos el problema de contrastar
H0 : θi = ci , para i = 1, . . . , r (con r ≤ k)H1 : θi 6= ci para algun i = 1, . . . , r
El estadıstico del contraste de razon de verosimilitudes es
Λn =supθ∈Θ0
fn(x;θ)
supθ∈Θ fn(x;θ),
donde Θ0 = {θ ∈ Θ : θ = (c1, . . . , cr , θr+1, . . . , θk)}.El contraste de razon de verosimilitudes tiene como region derechazo R = {(x1, . . . , xn) : Λn(x1, . . . , xn) ≤ kα}.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 35
Teorema.- Supongamos que
(i) El emv θn es estimador consistente (en probabilidad) delparametro θ.
(ii) Para todo x, la funcion log f (x ;θ) tiene derivadas parcialesterceras (respecto a las componentes θj de θ) continuas.
(iii) En las integrales que involucran a la funcion f (x ;θ) sepueden permutar las derivadas con el signo integral.
(iv) La matriz de informacion de Fisher
I(θ) =(
∂2
∂θi∂θjlog f (X ;θ)
)1≤i ,j≤k
es invertible para cada θ.
Entonces, bajo H0,
−2 log Λnd−→ χ2
r . (4)
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 36
Aplicacion a tests de bondad de ajuste
Sea X una v.a. discreta que toma los valores a1, . . . , ak .Denotemos pi = P(X = ai ). Supongamos que se desea contrastar
H0 : pi = pi0, i = 1, . . . , k
basado en una muestra x1, . . . , xn. Observese que, en este caso,con la notacion del teorema, r = k − 1 porque cuando se fijank − 1 probabilidades pi queda fijada la probabilidad restante.
Por tanto, H0 se rechaza al nivel α cuando
−2 log Λn > χ2k−1;α,
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 37
Aquı el numerador de Λn es
n!
O1! . . .Ok !pO1
10 . . . pOk
k0 ,
siendo Oj = #{i : xi = aj} las “frecuencias observadas” de los distintosvalores de la variable [notese que, bajo H0, (O1, . . . ,Ok) tienedistribucion multinomial M(n; p10, . . . , pk0)]. El denominador de Λn es
n!
O1! . . .Ok !
(O1
n
)O1
. . .
(Ok
n
)Ok
.
Sustituyendo en Λn es inmediato ver que el estadıstico de contraste sepuede expresar en la forma
−2 log Λn = 2k∑
i=1
Oi log
(Oi
ei
),
donde ei = npi0, i = 1, . . . , k son las “frecuencias esperadas (bajo H0)”
de los distintos valores de la variable en una muestra de tamano n.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 38
Un ejemplo clasico: el experimento de Mendel
En el famoso experimento de Mendel secruzaron plantas de guisantes con fenotiporugoso-amarillo con otras de fenotipo liso-verde. En la segunda generacion se podıanobservar cuatro fenotipos (liso-amarillo,rugoso-amarillo, liso-verde, rugoso-verde)cuyas respectivas probabilidades, segun lateorıa de la herencia mendeliana, debıan ser
p10 =9
16, p20 =
3
16, p30 =
3
16, p40 =
1
16.
Observados n = 556 guisantes en la segundageneracion del experimento se obtuvieron lossiguientes numeros de guisantes con estosfenotipos:
O1 = 315,O2 = 101,O3 = 108,O4 = 32.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 39
¿Proporcionan estos resultados alguna evidencia en contra de lateorıa mendeliana?
Aplicamos el test para contrastar H0 : p1 = 916 , . . . , p4 = 1
16 :
e1 = 556· 9
16= 312.75, e2 = e3 = 556· 3
16= 104.25, e4 = 556· 1
16= 34.75
En definitiva, el test de cociente de verosimilitudes compara las Oi
con las ei y rechaza la hipotesis nula cuando hay “demasiadasdiferencias” entre ellas. Esto se hace formalmente mediante elestadıstico
−2 log Λn = 2k∑
i=1
Oi log
(Oi
ei
)= 0.4754
El p-valor (calculado a partir de la distribucion χ23) es 0.9281 lo
que, por supuesto, no indica ninguna evidencia estadıstica encontra de H0.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 40
Hay una controversia clasica en la historia de la ciencia en elsentido de que los resultados de Mendel eran “demasiado buenos”,es decir, habıa demasiada concordancia entre las Oi y las ei (porejemplo, R.A. Fisher era de esta opinion; ver su artıculo de 1936,“Has Mendel’s work been rediscovered?”, en The Annals ofScience).
Se ha sugerido que este supuesto “exceso de concordancia” podıadeberse a un “sesgo de repeticion” (confirmation bias) producidopor la repeticion de los resultados hasta que las Oi concordasenfuertemente con las ei . Tambien se ha conjeturado que algunayudante de Mendel pudo actuar con “exceso de celo”manipulando los resultados. En todo caso, las ideas basicas deMendel eran acertadas y han tenido una influencia decisiva.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 41
Construccion de tests. Test bayesianos
Se desea contrastar
H0 : θ ∈ Θ0 frente a H1 : θ ∈ Θ \Θ0.
Como siempre, la informacion procede de una muestra x1, . . . , xn.
La metodologıa bayesiana supone que la densidad que ha generadolos datos es f (·|θ) y que el parametro θ puede considerarse comouna v.a. con distribucion a priori π(θ). A partir de aquı se calculanla distribucion a posteriori π(θ|x1, . . . , xn) dada por
π(θ|x1, . . . , xn) =fn(x1, . . . , xn|θ)π(θ)∫
Θ fn(x1, . . . , xn|θ)π(θ)dθ,
donde fn(x1, . . . , xn|θ) =∏n
i=1 f (xi ; θ).
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 42
El elemento fundamental en la inferencia bayesiana es siempre ladistribucion a posteriori. A partir de ella se pueden calcular lasprobabilidades a posteriori de ambas hipotesis
P{θ ∈ Θ0|x1, . . . , xn} = π(H0|x1, . . . , xn) =
∫Θ0
π(θ|x1, . . . , xn)dθ,
P{θ ∈ Θ1|x1, . . . , xn} = π(H1|x1, . . . , xn) = 1− π(H0|x1, . . . , xn),
y decidir dependiendo de sus valores. Tıpicamente se optara porH1 cuando
π(H1|x1, . . . , xn) ≥ β,
donde β ∈ (0, 1) es un valor que se fija dependiendo de la gravedadque se atribuya al error de tipo I (rechazar H0 cuando es cierta).
Observemos que la metodologıa bayesiana de contraste de hipotesisdepende fuertemente de la eleccion de la distribucion a priori π.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 5: Contraste de hipotesis 43
top related