contraste de hipotesis1 tema de clase
TRANSCRIPT
INFERENCIA ESTADISTICA
Estimación puntual de parámetros
Un estimador puntual es simplemente un estadístico (media aritmética, varianza, etc.) que se emplea para estimar parámetros (media poblacional, varianza poblacional, etc.).
Es decir, cuando obtenemos una media aritmética a partir de una muestra, tal valor puede ser empleado como un estimador para el valor de la media poblacional.
(Algunos autores comparan los estimadores con los lanzamientos en el juego de tiro al blanco; el círculo central sería el valor real del parámetro.)
Estimación PuntualUn estimador puntual permite hacer una inferencia acerca de una población estimando el valor de un parámetro desconocido usando un solo valor o punto obtenido de una muestra.
Distribución poblacional Parámetro
?
Distribución muestral
Estimador puntual
DefiniciónContrastar una Hipótesis Estadísticamente o realizar una prueba de hipótesis es juzgar si cierta propiedad supuesta para una población es compatible con lo observado en una muestra de ella. En otras palabras, el objetivo de la estimación de parámetros es proveer de métodos que permitan determinar con cierta precisión, el valor de los parámetros desconocidos de un modelo estadístico a partir de una muestra extraída al azar de una Población.
¿Qué es una hipótesis estadística?
• Una creencia sobre un valor de un parámetro:– Media– Varianza– Proporción/Tasa
• Es un valor que se supone verdadero y se pone a prueba a través de la evidencia
• Si queremos contrastarla, debe establecerse antes del análisis. Después se utilizan los datos de las muestras para obtener evidencias que confirmen o no la hipótesis propuesta.
Las hipótesis se plantean como:
• De existencia del EFECTO (de una variable).
• De una DIFERENCIA (de las medias observadas entre dos poblaciones ó las proporciones observadas entre dos poblaciones).
• De la ASOCIACIÓN (entre el tipo de construcción de las casas y la distribución del Dengue).
Procedimientos para Pruebas de Hipótesis Evaluar los datos
Revisar las suposiciones
Formular la hipótesis
Seleccionar el nivel de significancia y el estadístico de prueba
Determinar la distribución del estadístico de prueba
Formular la región de decisión
Calcular la estadística de prueba
Formular la decisión
Estadística
No rechazar Ho
Concluir que Ho puede ser verdadera
Rechazar Ho
Concluir que Ha es verdadera
Formulación de las Hipótesis
La hipótesis que será sometida a prueba se suele designar por Ho y
se llama Hipótesis nula o Hipótesis de no diferencia, porque parte del supuesto que la diferencias entre el valor verdadero del parámetro y su valor hipotético es debida al azar, es decir no hay diferencia. Se establece con el propósito de ser rechazada.
La hipótesis contraria se designa por H1 y se llama Hipótesis
alternativa. También se le conoce como hipótesis del investigador o de la investigación. Describe lo que ha de considerarse si la hipótesis nula es rechazada.
Los contrastes de hipótesis pueden ser unilaterales o bilaterales (también llamados de una o dos colas) según establezcamos las hipótesis, si las definimos en términos de igual y distinto (= ó ≠) estamos ante una hipótesis unilateral, si suponemos una dirección (en términos de mayor o menor que el valor del parámetro) estamos ante uno unilateral.
Formulación de las Hipótesis
Reglas para decidir qué proposición se utiliza como hipótesis nula y cuál como alternativa
a. La conclusión a la que se desea o esperar llegar como resultado de la prueba se usa como hipótesis alternativa
b. La hipótesis debe contener una proposición de igualdad, ya sea =, , .
c. La hipótesis nula es la que debe ser comprobada.
d. Ambas son complementarias. Es decir, las dos contemplan de manera exhaustiva todos los valores posibles que los parámetros de suposición pueden asumir
Estadístico de PruebaEs un número, obtenido a través de los valores de una muestra. Este número, al compararse con el valor critico (Número que es el punto divisorio entre la región de aceptación y la región de rechazo), es utilizado para tomar la decisión de no rechazar o rechazar la hipótesis nula.
Nivel de significación: αNúmero pequeño: 1% , 5%Es la probabilidad de rechazar Ho cuando es cierta.Es un valor arbitrario seleccionado a priori por el investigador de acuerdo a su experiencia y deseo.
Valores del nivel de significación
Nivel de Confianza
/2 Z/2
0,90 0,10 0,05 1,645
0,95 0,05 0,025 1,96
0,98 0,02 0,01 2,33
0,99 0,01 0,005 2,575
Región critica o de DecisiónRegión critica: Conjunto de valores del estadístico de prueba que causa el rechazo de la hipótesis nula. Es conocida también como región de rechazo. El conjunto de valores que no esta dentro de la región critica, se conoce como región de aceptación.
Prueba bilateral o de dos colas
Ho: = o Ha: o
Prueba unilateral de cola izquierda o inferior
Ho: o Ha: o
Prueba unilateral de cola derecha o superior
Ho: o Ha: o
Regla de Decisión y Conclusión
Regla de decisión:o decisión estadística: Si el valor calculado del estadístico de prueba queda localizado dentro de la región critica, se rechazará Ho. De lo contrario no se podrá rechazar Ho.
Conclusión:
Si se rechaza Ho se concluye: “Existe suficiente evidencia para indicar que ...(el enunciado de la Ha), a un nivel del % de nivel de confianza”.
Si se acepta Ho se concluye: “Existe suficiente evidencia para indicar que ...(el enunciado de la Ha), a un nivel del % de nivel de confianza”.
Prueba bilateral o de dos colas: Ho: = o Ha: o
Prueba unilateral de cola izquierda o inferior: Ho: o Ha: o
Prueba unilateral de cola derecha o superior: Ho: o Ha: o
Valor de p
Valor de p: Es la probabilidad de obtener, cuando Ho es verdadera, un valor de la estadística de prueba tan extremo o más (en la dirección adecuada para Ha) que el valor calculado en realidad. En otras palabras PP es la probabilidad es la probabilidad de que la Hipótesis nula sea cierta.de que la Hipótesis nula sea cierta.Si p es menor de 0,05 (0,01), se admite que la probabilidad de que las diferencias encontradas se deban al azar son demasiado pequeñas, por lo que rechazaremos la hipótesis nula y aceptaremos la alternativa.Si p es mayor o igual a 0,05, la probabilidad de que las diferencias encontradas se deban al azar son demasiado grandes para aceptar la hipótesis alternativa y, por tanto, se acepta la hipótesis nula: las diferencias encontradas están dentro de las que consideramos debidas al azar.
Acción Posible
Condición de la Hipótesis Nula (Ho)
Verdadera Falsa
Aceptar Ho
Acción correcta
Error Tipo II Menos
grave
Rechazar Ho
Error Tipo I Muy grave
Acción correcta
Minimizar los errores no es una cuestión sencilla, un tipo suele ser más grave que otro y los intentos de disminuir uno suelen producir el aumento del otro. La única forma de disminuir ambos a la vez es aumentar el tamaño de la muestra.
PRUEBA SIGNIFICATIVAHabitualmente (Tradicionalmente) se especifica a priori un Habitualmente (Tradicionalmente) se especifica a priori un punto de corte (punto de corte () de 0.05 ó 0,01. Esto trasladado a nuestra ) de 0.05 ó 0,01. Esto trasladado a nuestra regla de decisión, significa que el Error tipo I de la prueba regla de decisión, significa que el Error tipo I de la prueba estadística será del 5% ó 1%.estadística será del 5% ó 1%.Una vez especificado el valor de Una vez especificado el valor de , tenemos controlada la , tenemos controlada la magnitud del Error tipo I. El Error tipo II (magnitud del Error tipo I. El Error tipo II () se controla ) se controla modificando el tamaño de la muestra.modificando el tamaño de la muestra. En general En general y y se minimizan se minimizan con tamaños de muestra con tamaños de muestra grandesgrandesLas probabilidades de cometer errores de tipo I y II se consideran los "riesgos" de decisiones incorrectas. Al realizar la prueba se toma en cuenta el error de tipo I. Por lo tanto, la prueba es significativa si se rechaza la hipótesis nula, pues en este caso se conoce la probabilidad de haber cometido un error.
..
Diagrama de flujo para decidir entre utilizar z y t cuando se hagan inferencias respecto a las medias de la
poblaciónLa población tiene una
distribución normal
¿La muestra es grande?
¿Se conoce la varianza
de la población?
Si
¿Se conoce la varianza
de la población?
Si
¿Se conoce la varianza
de la población?
¿Se conoce la varianza
de la población?
NoNo SiNo SiNo
Si NoSi ¿La muestra es grande?
NoSi
z t z t z z . .
z
o
Si No
Se aplica el Teorema del Límite Central
Pruebas para la media de una población
Ejemplo1: Prueba de Hipótesis cuando n es grande y se conoce la δ
8,7x
Un fabricante ha desarrollado un nueva fibra sintética que se considera tiene una resistencia a la ruptura de 8 Kg, con una desviación típica de 0,5 Kg. Queremos probar, a nivel α = 0,01, la hipótesis de que μ = 8 Kg frente la alternativa de que μ≠ 8 Kg, sabiendo que en una muestra aleatoria simple de 50 trozos de la fibra la resistencia a la ruptura media es 7,8 Kg.
Solución:
Calculando p:
Se observa que este valor menor al del valor del nivel de significancia (0.01) concordando con los resultados
n = 500,01 0,5 8
La regla de decisión dice que Ho se rechaza si -2,58<z<2,58.Como z = -2,83 cae en la región de rechazo por lo que Ho es rechazada. Concluimos que la resistencia a la ruptura media no es igual a 8 Kg. Parece que es, en realidad, menor que 8 Kg. (Utilizando el valor P, observamos que es posible rechazar la hipótesis nula al nivel 0,0047, un nivel mucho menor que 0,01.)
8 :Ha 8:Ho
83,2
505,0
88,7
n
xz
Ejemplo 2: Prueba de Hipótesis cuando n es pequeño y se desconoce la δ
6 s 256x
La tasa actual para producir fusibles de 5 amp en Neary Electric Co. es 250 por hora. Se compró e instaló una máquina nueva que, según el proveedor, aumentará la tasa de producción. Una muestra de 10 horas seleccionadas al azar el mes pasado indica que la producción media por hora en la nueva máquina es 256, con desviación estándar muestral de 6 por hora. Con 0.05 de nivel de significancia, ¿puede Neary concluir que la nueva máquina es más rápida?
Solución:
Calculando p:
Se observa que este valor NO excede al del valor del nivel de significancia (0.05) concordando con los resultados
n = 100,05 250
Ho se rechaza si t > 1,833. Como t = 3,16 cae en la región de rechazo entonces Ho es rechazada. Por lo que se puede concluir que la nueva maquina es mas rápida y que es posible rechazar la hipótesis nula al nivel 0,006, un nivel mucho menor que 0,05.
250 :Ha 250:Ho
16,3
106
250256
nsx
t
0,006
0,9942 -1
)16,3(P1)16,3t(P
Pruebas para la diferencia de medias de dos poblacionesPrueba Hipótesis Supuesto Estadígrafo Región critica
Diferencia de medias
Ho: 1 - 2= 0 Ha: 1 - 2= 0 Ho: 1 - 2 0 Ha: 1 - 2 < 0 Ho: 1 - 2 0 Ha: 1 - 2 > 0
conocido
2
22
1
21
02121 )()(
nn
xxz
Diferencia de medias
Ho: 1 - 2= 0 Ha: 1 - 2= 0 Ho: 1 - 2 0 Ha: 1 - 2 < 0 Ho: 1 - 2 0 Ha: 1 - 2 > 0
desconocido
y varianzas
iguales
2
)1()1(
,)()(
21
222
2112
2
2
1
2
02121
nn
snsns
donde
n
s
n
s
xxz
p
pp
Diferencia de
medias Ho: 1 - 2= 0 Ha: 1 - 2= 0 Ho: 1 - 2 0 Ha: 1 - 2 < 0 Ho: 1 - 2 0 Ha: 1 - 2 > 0
desconocido
y varianzas diferentes
1n:gl,tt
1n:gltt
,nsw,n
sw
donde,ww
twtwt
ticoelvalorcri
n
s
n
s
)()xx(z
2)2(12
1)2(11
2
22
21
21
1
21
2211")2(1
2
2p
1
2p
02121
Diferencia de medias
Ho: 1 - 2= 0 Ha: 1 - 2= 0 Ho: 1 - 2 0 Ha: 1 - 2 < 0 Ho: 1 - 2 0 Ha: 1 - 2 > 0
Muestras dependientes o apareadas ns
Dt
D
o
Ejemplo 3: Prueba de Hipótesis para Diferencias de Medias
Se seleccionan dos muestras aleatorias e independientes del número de puestos de trabajo creados en los últimos seis mes por dos empresas constructoras. Con el fin de conocer el impacto de las nuevas modalidades de contratación en ambos empresas y suponiendo que el número de empleos creados siguiera en ambos empresas distribuciones normales con varianzas iguales: ¿Podríamos afirmar con un 99% de confianza, que ambas empresas son similares en cuanto al número medio de empleos creados en los últimos seis mes?
BABA
BABA
:Ho 0Ha
:Ho 0Ho
Ho se rechaza si t > 3,16. Como t = -2,71 cae en la región de aceptación entonces Ho es aceptada. Por lo que se puede concluir que ambas empresas son similares en cuanto al número medio de empleos creados.
Calculando p:
Se observa que este valor es mayor que del nivel de significancia (0.01) concordando con los resultados. Admitiéndose la similaridad en la creación de empleos de ambas empresas.
0,022
)71,2t(P12)71,2t(P
Empresa A Empresa B Prueba t para dos muestras suponiendo varianzas iguales13 1814 19 Sector A Sector B21 20 Media 16,1666667 22,666666719 22 Varianza 9,76666667 24,666666715 31 Observaciones 6 615 26 Varianza agrupada 17,2166667
Diferencia hipotética de las medias 0Grados de libertad 10Estadístico t -2,71331021P(T<=t) una cola 0,01090467Valor crítico de t (una cola) 2,76376946P(T<=t) dos colas 0,02180934Valor crítico de t (dos colas) 3,16927267
Ejemplo 4: Prueba de Hipótesis para Diferencias de Medias
Se seleccionan dos muestras aleatorias e independientes del número de puestos de trabajo creados en los últimos seis mes por dos empresas constructoras. Con el fin de conocer el impacto de las nuevas modalidades de contratación en ambos empresas y suponiendo que el número de empleos creados siguiera en ambos empresas distribuciones normales con varianzas diferentes: ¿Podríamos afirmar con un 99% de confianza, que ambas empresas son similares en cuanto al número medio de empleos creados en los últimos seis mes?
BABA
BABA
:Ho 0Ha
:Ho 0Ho
Ho se rechaza si t > 3,36. Como t = -2,71 cae en la región de aceptación entonces Ho es aceptada. Por lo que se puede concluir que ambas empresas son similares en cuanto al número medio de empleos creados.
Calculando p:
Se observa que este valor es mayor que del nivel de significancia (0.01) concordando con los resultados. Admitiéndose la similaridad en la creación de empleos de ambas empresas.
0,022
)71,2t(P12)71,2t(P
Empresa A Empresa B Prueba t para dos muestras suponiendo varianzas desiguales13 1814 19 Sector A Sector B21 20 Media 16,1666667 22,666666719 22 Varianza 9,76666667 24,666666715 31 Observaciones 6 615 26 Diferencia hipotética de las medias 0
Grados de libertad 8Estadístico t -2,71331021P(T<=t) una cola 0,01326093Valor crítico de t (una cola) 2,89645945P(T<=t) dos colas 0,02652186Valor crítico de t (dos colas) 3,35538733
Ejemplo 5: Prueba de Hipótesis para Diferencias de Medias con Muestras Dependientes
Un fabricante desea comparar la resistencia al desgaste de dos tipos distintos de llantas A y B. Para hacer la comparación, asigno al azar una llanta A y una B a las ruedas posteriores de cinco automóviles. Los automóviles recorrieron un número especifico de kilómetros y se observó el desgaste de cada llanta. Brindan estos datos suficiente evidencia para encontrar que existen diferencias significativas entre el desgaste medio de los dos tipos de llantas con un α = 0,05?
BABA
BABA
:Ho 0Ha
:Ho 0Ho
Ho se rechaza si t > 2,78 Como t = 12,83 cae en la región de rechazo entonces Ho es rechazada. Por lo que se puede concluir que hay diferencias significativas en el desgaste medio de los dos tipos de llantas
Calculando p:
Se observa que este valor es menor que del nivel de significancia (0.05) concordando con los resultados, acerca de que existen diferencias entre el desgaste medio de los dos tipos de llantas.
0,0002
2(0,0001)
0,9999-12
)83,12t(P12)83,12t(P
Llanta A Llanta B Prueba t para medias de dos muestras emparejadas10,6 10,29,8 9,4 Llanta A Llanta B
12,3 11,8 Media 10,24 9,769,7 9,1 Varianza 1,733 1,7638,8 8,3 Observaciones 5 5
Coeficiente de correlación de Pearson 0,99803Diferencia hipotética de las medias 0Grados de libertad 4Estadístico t 12,8285P(T<=t) una cola 0,00011Valor crítico de t (una cola) 2,13185P(T<=t) dos colas 0,00021Valor crítico de t (dos colas) 2,77645
Pruebas para la proporciónPrueba Hipótesis Supuesto Estadígrafo Región critica
Proporción de una población
Ho: p = po Ha: p po
Ho: p po Ha: p po
Ho: p po Ha: p po
n
qp
ppz
oo
o
Diferencia de proporciones
Ho: p1 - p2= 0 Ha: p1 - p2= 0
Ho: p1 - p2 0 Ha: p1 - p2 < 0
Ho: p1 - p2 0 Ha: p1 - p2 > 0
21
21
nn
xxp
2i2p1p n
p1(p
n
)p1(p
2p1p
o2121 )pp()pp(z
Ejemplo 6. Prueba de hipótesis para la proporción de una población
0.9p :Ha 9.0p:Ho 41,1
200
10,0*90,0
90,087,0
n
qp
ppz
Ho*Ho
Ho
87,0200174p
En un estudio diseñado para investigar si ciertos detonadores empleados con explosivos en una mina de carbón cumplen con los requerimientos de que al menos 90% encenderá el explosivo al ser detonado, se encontró que 174 de 200 detonadores funcionaron adecuadamente. Compruebe esta hipótesis con un nivel de significancia de 0.05.
H0 se rechaza si z < -1,645
Dado que z = -1,41, no es menor que -1,645, H0 no puede ser rechazada. En otras palabras, no hay suficiente evidencia para afirmar que la clase determinada de detonador no cumple con las normas. Calculando p: Se observa que este valor es mayor que del nivel de significancia (0.05) por lo que no es posible rechazar la hipótesis nula.
0793,0)41,1z(P
41,1
200
10,0*90,0
90,087,0
n
qp
ppz
Ho*Ho
Ho
0.9p :Ha 9.0p:Ho
87,0200
174p
Ejemplo 7. Prueba de hipótesis para la diferencia entre dos proporciones
2121 pp:Ha pp:Ho
035,040014p
08,020016p
2
1
05,04002001416
p
Un estudio señala que 16 de 200 tractores producidos en una línea de ensamblado requieren ajustes minuciosos antes de ser embarcados, y lo mismo sucede con 14 de 400 tractores producidos en otra línea de ensamblado. Con un nivel de significancia de 0,01, ¿apoya esto la afirmación de que la segunda línea de producción efectúa un trabajo mejor?
38,2
)40012001*)95,0*05,0(
040014
20016
z
Ho se rechaza si z > 2,33, y como z = 2,38 cae en la región de rechazo. Se concluye que la proporción real de tractores que requieren ajustes minuciosos es mayor en la primera línea de ensamblado que en la segunda.
Calculando p:
Se observa que este valor es menor que del nivel de significancia (0.01) por lo que no es posible rechazar la hipótesis nula.
009,09913,01
)38,2z(P1)38,2z(P
Pruebas para la varianzaPrueba Hipótesis Supuesto Estadígrafo Región critica
Varianza de una población
Ho: δ2 = δ2o
Ha: δ2 δ2o
Ho: δ2 δ2o
Ha: δ2 δ2o
Ho: δ2 δ2o
Ha: δ2 δ2o
2
22 s)1n(
con n-1 gl
22
222-1
2 y
22-1
2 2
22
Varianza de dos poblaciones
0:Ho 22
21
0:Ho 22
21
0:Ho 22
21
0:Ho 22
21
0:Ho 22
21
0:Ho 22
21
22
21RV
)2V,1v)(2(
)2V,1v)(21(
FFy
FF
FF)2V,1V)(21(
)2V,1V)(2(FF
Ejemplo 8. Prueba de hipótesis para la varianza de una población
81,0:Ha 81,0:Ho 22
0,16
81,0)44,1*9(s)1n(
2o
22
Un fabricante de baterías para automóviles afirma que la vida de sus baterías está aproximadamente distribuidas en forma normal con una desviación estándar de 0,9 años. Si una muestra aleatoria de 10 de estas baterías tiene una desviación estándar de 1,2 años, ¿con un nivel de confianza de 0,05, se puede pensar que δ > 0,9 años?
Ho se rechaza si λ² > 16,919, y como λ² = 16,0 cae en la región de aceptación. Se concluye que no hay razones suficientes para dudar que la desviación estándar es 0,9 años
Calculando p:
Se observa que este valor es mayor que del nivel de significancia (0.05) por lo que no es posible rechazar la hipótesis nula.
07,0)0,16(P 2
0,05 ,2,1s ,10n
Ejemplo 9. Prueba de hipótesis para la diferencia entre dos varianzas
22
21
22
21 :Ha :Ho
64,025
16
s
sf
22
21
Se realizó una prueba de la diferencia que puede darse entre la resistencia abrasiva de dos materiales laminados, para ello se supuso que las varianzas de las dos poblaciones eran desconocidas pero iguales. Con un nivel de significancia de 0,05, ¿había razón para hacer esta suposición?. Los datos del problema son:
La hipótesis nula es rechazada cuando f < 0,34 ó f > 3,10
Dado que f = 0,64 se encuentra en la región de aceptación, se acepta la hipótesis de suponer que las varianzas de las poblaciones eran iguales.
Cálculo de P
47,0
)2393,0(2
)7607,01(2
)34,0f(P12)34,0f(P
10n 5s 81x
12n 4s 85x
222
111
El valor p es mucho mayor que el nivel de confianza 0,05 lo que nos indica que la probabilidad de que las diferencias encontradas se deban al azar son demasiado grandes para aceptar la hipótesis alternativa