intro. a la probabilidad_iv parte

15
TEST DE HIPÓTESIS Docente: Paolo Castillo Rubio

Upload: paolo-castillo

Post on 07-Jun-2015

1.430 views

Category:

Technology


0 download

TRANSCRIPT

Page 1: Intro. a la Probabilidad_IV parte

TEST DE HIPÓTESIS

Docente: Paolo Castillo Rubio

Page 2: Intro. a la Probabilidad_IV parte

El contraste de hipótesis o test de hipótesis es una herramienta ampliamente utilizada para comparar mediciones y tomar decisiones basadas en una probabilidad.

Los pasos a seguir para aplicar esta metodología son: • Plantear unas hipótesis.• Escoger un estadístico concreto.

• Conocer la distribución del estadístico.

Y, a partir de ahí, decidir si, con los datos que poseemos de la muestra, tenemos caracterizada a la población.

Page 3: Intro. a la Probabilidad_IV parte

Herramientas para contrastar hipótesis

Los dos tipos de distribuciones más importantes, aunque no únicos, para el contraste de hipótesis, son las distribuciones Normal y T-Student, que hemos visto en el capítulo anterior.

El contraste de hipótesis es un conjunto de reglas que nos permiten decidir cuál de entre dos hipótesis debe ser aceptada como cierta en base a los resultados obtenidos en una observación muestral. Se conocen como hipótesis nula (Ho) e hipótesis alternativa (Ha).

La hipótesis nula puede mantenerse mientras los datos no indiquen su falsedad; la hipótesis nula nunca se puede afirmar , sólo podremos aceptarla o rechazarla. Por lo tanto, trataremos de decidir si la información muestral que poseemos está en consonancia con Ho, o bien nos permite rechazar esa creencia con lo que aceptaremos Ha.

Podemos distinguir entre dos tipos de hipótesis: • Paramétricas que se refieren a conjeturas sobre el parámetro

de una distribución.• No paramétricas que responden a afirmaciones acerca de la

naturaleza de la distribución.

Page 4: Intro. a la Probabilidad_IV parte

Región crítica. Tipos de errores

En la práctica el Contraste de Hipótesis consiste en estudiar si un estadístico que es función de las observaciones de la muestra está dentro de una región llamada de aceptación, o se encuentra en la región de rechazo o región crítica, de tal forma que si el estadístico se encuentra en la región de aceptación se aceptará la hipótesis nula y si cae en la región de rechazo se rechazará dicha hipótesis.El estadístico muestral es un fenómeno aleatorio, por lo que pudiera pasar que aunque la Ho fuera cierta, el estadístico se encontrara en la región de rechazo, en esta situación estaríamos cometiendo un Error de Tipo I (). Otra posible situación sería encontrar el estadístico en la región de aceptación siendo la Ho falsa, con lo que cometeríamos un Error Tipo II (). La forma de minimizar este problema es empleando muestras de tamaño grande. Generalmente se procede fijando una probabilidad de error . Al valor se le denomina nivel de significación y habitualmente es del 5%.Aunque existen diversos tipos de contrastes de hipótesis, únicamente explicaremos y pondremos ejemplo de dos de ellos, que son el contraste de medias y el contraste de diferencias de medias.

Page 5: Intro. a la Probabilidad_IV parte

Contraste de medias

Con la notación que habitualmente se utiliza en el contraste de hipótesis tendremos que es la media de la población, la desviación típica de la población, s la desviación típica de la muestra, n es el tamaño de muestra, X la media de la muestra, y Z o t es el estadístico.

Con relación al contraste de medias, suelen emplearse dos tipos de pruebas, los tests unilaterales o los tests bilaterales, que tienen, respectivamente, las siguientes estructuras.

Page 6: Intro. a la Probabilidad_IV parte

Ejemplo 1. Un laboratorio farmacéutico afirma que el antiinflamatorio fabricado por ellos elimina la inflamación en 14 minutos en los casos corrientes.

Con el objeto de comprobar estadísticamente esta afirmación, eligimos al azar 18 pacientes con inflamaciones varias y tomamos como variable de respuesta el tiempo transcurrido entre la administración del antiinflamatorio y el momento en que desaparece la inflamación. Además, nos dicen que la variable tiempo transcurrido entre la administración del antiinflamatorio y el momento en que desaparece la inflamación sigue una distribución normal de media 14 y desviación 7. El tiempo medio de respuesta de la muestra fue de 19 minutos.Se pide comprobar la afirmación del laboratorio a un nivel de significación de 0.05.

Page 7: Intro. a la Probabilidad_IV parte

Solución.

Primero consideremos los datos que tenemos. X = 19, = 14, = 7, n = 18 Planteemos ahora las hipótesis de este test. Queremos

contrastar la hipótesis nula a partir de la afirmación de la empresa que dice que la inflamación desaparece en 14 minutos; así pues, tendremos:

Hipótesis nula Ho : = 14 La hipótesis alternativa será el caso desfavorable, en

esta ocasión para la empresa, y puede escribirse: Hipótesis alternativa Ha : > 14 Procederemos aceptando de entrada la hipótesis nula ( = 14), calculando el estadístico y observando si se sitúa

en la región crítica. Si así sucediera, rechazaríamos la creencia inicial de aceptación de la hipótesis nula.

Page 8: Intro. a la Probabilidad_IV parte

Sustituyendo los parámetros de la población y de la muestra en el estadístico tenemos :

Con lo que podemos observar que el estadístico se sitúa en la región crítica y ,por lo tanto no sigue el criterio de aceptación de la hipótesis nula.

De ese modo, rechazaríamos la hipótesis Ho de que = 14 y concluimos que a un nivel 0.05 el tiempo medio

de eliminar la inflamación por este antiinflamatorio es superior a 14 minutos.

Page 9: Intro. a la Probabilidad_IV parte

Contraste de diferencia de medias

Sean X1 y X2 dos medias muestrales de dos poblaciones. Los tamaños de cada una de estas muestras son n1 y n2 respectivamente. Queremos observar si la diferencia entre las medias es significativa o no, es decir, comprobar si podemos aceptar que 1 = 2. Tenemos:

Si las desviaciones de las poblaciones son desconocidas y sólo conocemos las desviaciones muestrales, tendremos que considerar la distribución t de Student en vez de la normal.

Page 10: Intro. a la Probabilidad_IV parte

Ejemplo 2. Se conocen los datos de dos muestras de dos poblaciones, que son los siguientes:

Se pide contrastar estadísticamente si hay diferencia entre las dos poblaciones, a un nivel de significación del 0.05.

Las dos poblaciones siguen una distribución Normal

N(1, 1) y N(2, 2)

Page 11: Intro. a la Probabilidad_IV parte

Solución.

Sabemos que las distribuciones de las dos poblaciones son Normales, pero desconocemos el valor de su desviación, sólo conocemos el valor de la desviación típica de las muestras. Por ahora, planteemos las hipótesis:

Hipótesis nula Ho : 1 - 2 = 0, es decir, 1 = 2

Hipótesis alternativa Ha : 1 - 2 ≠ 0, es decir, 1 ≠ 2

Aunque el estadístico que correspondería a este test es el asociado a una distribución T-Student, por ser las desviaciones de las poblaciones desconocidas, como el tamaño de las muestras es elevado y sabemos que una distribución T-Student con muchos grados de libertad se aproximaba mucho a una Normal, utilizaremos el siguiente estadístico:

Page 12: Intro. a la Probabilidad_IV parte

Estadístico con distribución N(0,1) Con los datos de la población y de la muestra, calculamos el

estadístico, aceptando, por ahora, la hipótesis nula (1 = 2), y observemos en que región se sitúa el estadístico.

Como podemos ver, el estadístico se sitúa en la región de aceptación de la hipótesis nula, con lo que aceptaríamos la Ho (1 = 2), y podríamos concluir que, a un nivel de significación de 0.05, las dos poblaciones se pueden considerar iguales estadísticamente.

Page 13: Intro. a la Probabilidad_IV parte

Comprobación de la normalidad de una muestra.

Muchas pruebas estadísticas están basadas en el supuesto de que el universo del que se saca la muestra está normalmente distribuido. Por tanto, es prudente cuando sea posible, comprobar este supuesto de normalidad. Son varios los procedimientos disponibles para realizar la prueba. El método más utilizado es la prueba 2.Una prueba 2 es aquella que compara un conjunto de frecuencias de muestras con el conjunto de frecuencias que cabría esperar basadas en alguna hipótesis. Si los dos grupos se comparan bien, la hipótesis se rechaza. Como la distribución en la cual se basa la decisión de aceptar o rechazar se funda en la distribución 2, esta prueba se denomina prueba 2. Se puede utilizar para comprobar la adecuación de cualquier curva de frecuencia. En nuestro caso la hipótesis es que la distribución de frecuencias sigue una distribución Normal

Page 14: Intro. a la Probabilidad_IV parte

La formulación precisa de una prueba 2 es la siguiente; supongamos que F1, F2,…, Fk sean las frecuencias de muestra de k clases y f1, f2, …; fk las frecuencias que se esperarían con base en la hipótesis de normalidad.

En tal caso, si Ho es cierto, los valores de muestra de la cantidad

tenderán a formar una distribución 2, de parámetro “v”.

Al aplicar una prueba 2 para determinar la normalidad de una distribución, las frecuencias reales de un histograma se comparan con las frecuencias teóricas obtenidas, suponiendo que el universo está normalmente distribuido. Se “adapta” la curva normal dándole las mismas medias y desviación estándar del histograma de la muestra. Las frecuencias teóricas y reales se comparan en la forma que se describe mediante la fórmula anterior, y la tabla 2 se utiliza entrando con v = k-3, siendo k el número de intervalos elegidos en el diagrama de frecuencias.

Page 15: Intro. a la Probabilidad_IV parte

El proceso de adaptación impone a continuación las tres condiciones siguientes:

Utilizando la nomenclatura usada en estadística matemática, decimos que estas tres condiciones ocasionan una pérdida de tres “grados de libertad”.