objetivos - unc

25
Cátedra I Estadística II Autor I Hebe Goldenhersch 81 CON TRASTE, PRUEBA, TEST O DOCI MASTA DE HIPÓTESIS I Objetivos Comprender los fundamentos teóricos y la lógica subyacente de la metodología de pruebas de hipótesis estadísticas. Aplicar los procedimientos de pruebas de hipótesis estadísticas para dife- rentes parámetros poblacionales. Conocer acerca de los errores que se pueden cometer en el proceso de decisión basado en muestras. Aplicar conceptos y procedimientos de la metodología en la resolución de problemas. Introducir los conceptos del diseño experimental mediante el desarrollo del modelo de diseño completamente aleatorizado de un factor. Comprender la metodología de análisis de la varianza como procedimiento que posibilita la comparación de promedios de dos o más poblaciones. Identificar las distintas fuentes de variación de un conjunto de datos. Conocer los procedimientos de comparaciones múltiples para identificar las poblaciones con promedios diferentes. Contenidos 1. Introducción. 2. Procedimiento para la prueba de hipótesis; pruebas de una y dos colas. 3. Errores tipo I y tipo II. 4. Pruebas de hipótesis para la media, proporción, varianza, diferencia de medias, diferencia de proporciones, cociente de varianzas. 4.1. Pruebas de hipótesis referida al parámetro media poblacional. 4.1.1. Varianza poblacional conocida, poblaciones normales o muestra mayores que 30 (cualquier distribución poblacional). 4.1.2. Varianza poblacional desconocida, poblaciones normales y no normales. 4.2. Pruebas de hipótesis referida al parámetro proporción poblacional (muestras grandes- np y nq > 5). 4.3. Pruebas de hipótesis referida al parámetro varianza poblacional σ 2 . 4.4. Pruebas estadísticas para comparación de parámetros de dos poblaciones. 4.4.1. Muestras independientes: comparación de medias y varianzas. 4.4.2. Comparación de medias: muestras dependientes. 4.4.3. Comparación de dos proporciones, muestras independientes. 5. Vinculación entre pruebas de hipótesis e intervalos de confianza. 6. Función de potencia. Curva O. C. 7. Determinación del tamaño muestral cuando se fijan α y β. 8. Pruebas de hipótesis para las medias de K poblaciones. 8.1. Introducción. 8.2. Análisis de la varianza de un factor. 9. Tabla de Análisis de varianza. Variación entre y dentro de grupos. Comparaciones múltiples. 9.1. Variación entre y dentro de grupos. 9.2. Tabla de ANAVA. 9.3. Modelo estadístico y supuestos del ANAVA. 9.4. Supuestos del modelo. 9.4.1. Supuesto de normalidad de errores. 9.4.2. Supuesto de independencia de errores. 9.4.3. Independencia entre residuos y variable de respuesta. 9.4.4. Supuesto de varianza constante para todos los grupos. 9.5. Comparaciones múltiples.

Upload: others

Post on 16-Oct-2021

8 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Objetivos - UNC

Cátedra I Estadística II Autor I Hebe Goldenhersch

81

CONTRASTE, PRUEBA, TEST O DOCIMASTA DE HIPÓTESIS I

Objetivos

Comprender los fundamentos teóricos y la lógica subyacente de la metodología de pruebas de hipótesis estadísticas.

Aplicar los procedimientos de pruebas de hipótesis estadísticas para dife- rentes parámetros poblacionales.

Conocer acerca de los errores que se pueden cometer en el proceso de decisión basado en muestras.

Aplicar conceptos y procedimientos de la metodología en la resolución de problemas.

Introducir los conceptos del diseño experimental mediante el desarrollo del modelo de diseño completamente aleatorizado de un factor.

Comprender la metodología de análisis de la varianza como procedimiento que posibilita la comparación de promedios de dos o más poblaciones.

Identificar las distintas fuentes de variación de un conjunto de datos. Conocer los procedimientos de comparaciones múltiples para identificar las poblaciones con promedios diferentes.

Contenidos

1. Introducción. 2. Procedimiento para la prueba de hipótesis; pruebas de una y dos colas. 3. Errores tipo I y tipo II. 4. Pruebas de hipótesis para la media, proporción, varianza, diferencia de

medias, diferencia de proporciones, cociente de varianzas. 4.1. Pruebas de hipótesis referida al parámetro media poblacional.

4.1.1. Varianza poblacional conocida, poblaciones normales o muestra mayores que 30 (cualquier distribución poblacional).

4.1.2. Varianza poblacional desconocida, poblaciones normales y no normales.

4.2. Pruebas de hipótesis referida al parámetro proporción poblacional (muestras grandes- np y nq > 5).

4.3. Pruebas de hipótesis referida al parámetro varianza poblacional σ2. 4.4. Pruebas estadísticas para comparación de parámetros de dos

poblaciones. 4.4.1. Muestras independientes: comparación de medias y varianzas. 4.4.2. Comparación de medias: muestras dependientes. 4.4.3. Comparación de dos proporciones, muestras independientes.

5. Vinculación entre pruebas de hipótesis e intervalos de confianza. 6. Función de potencia. Curva O. C. 7. Determinación del tamaño muestral cuando se fijan α y β. 8. Pruebas de hipótesis para las medias de K poblaciones.

8.1. Introducción. 8.2. Análisis de la varianza de un factor.

9. Tabla de Análisis de varianza. Variación entre y dentro de grupos. Comparaciones múltiples. 9.1. Variación entre y dentro de grupos. 9.2. Tabla de ANAVA. 9.3. Modelo estadístico y supuestos del ANAVA. 9.4. Supuestos del modelo.

9.4.1. Supuesto de normalidad de errores. 9.4.2. Supuesto de independencia de errores. 9.4.3. Independencia entre residuos y variable de respuesta. 9.4.4. Supuesto de varianza constante para todos los grupos.

9.5. Comparaciones múltiples.

Page 2: Objetivos - UNC

82

Page 3: Objetivos - UNC

Cátedra I Estadística II Autor I Hebe Goldenhersch

83

1. Introducción

Tal como lo planteamos en el capítulo anterior, abordamos ahora el segundo de los tipos de procedimiento, de la Inferencia Estadística: la prueba de hipótesis estadística. En inglés se denomina “test” y en su traducción al español se han utilizado varios vocablos, que a los efectos estadísticos consideramos equivalentes: prueba de hipótesis, contraste de hipótesis o docimasia de hipótesis (este último suena algo extraño porque es un término muy específico utilizado en geología para pruebas que se realizan con ciertos minerales); a veces también se utiliza en castellano la palabra test. En este capítulo nos referiremos a la cuestión de la prueba de hipótesis utilizando indistintamente cualquiera de esas formas.

Una vez realizada esta aclaración, comenzaremos a considerar situaciones donde se aplica esta metodología.

En muchas oportunidades, durante el proceso de investigación científica se generan propuestas denominadas hipótesis de trabajo.

Por ejemplo, un educador puede sospechar que “la política económica aplicada en los últimos 10 años ha aumentado la deserción de los alumnos que concurrían al nivel medio de enseñanza” y vinculado a esta hipótesis de trabajo, teniendo en cuenta otros aspectos de la realidad social puede plantear la siguiente deducción:

La deserción debe haber sido mayor entre los alumnos que concurren a las escuelas públicas.

El solo enunciado de esta deducción no agrega mucho al conocimiento. Será necesario efectuar un enunciado conjetural capaz de ser confrontado con datos observados de la realidad, es decir, formular lo que denominaremos una hipótesis estadística.

Una hipótesis estadística es un enunciado provisional con respecto a una situación del mundo real, generalmente expresada a través de relaciones particulares de ciertas variables en estudio.

Podemos decir también que las hipótesis estadísticas son aquéllas que pueden contrastarse con datos observados de la realidad.

En el ejemplo, se puede establecer la siguiente hipótesis estadística: en la Provincia de Córdoba, en los últimos años, la proporción de alumnos que ha desertado en las escuelas públicas es mayor que la proporción de alumnos que ha desertado en las escuelas privadas.

La esencia de la comprobación de una hipótesis estriba en verificar la relación expresada por ella a través de la experimentación u observación de hechos de la vida real. ¿Cuál seria el camino a seguir para verificar la hipótesis planteada?

Se debería contar con un listado de todas las escuelas públicas y privadas de nivel medio de la provincia de Córdoba; de cada listado seleccionar una muestra aleatoria de escuelas e ir a las escuelas seleccionadas para tomar datos referidos a la deserción de alumnos en los últimos 10 años. Una vez que se cuenta con los datos, se debe aplicar alguna metodología estadística conveniente para verificar si la tasa de deserción escolar ha sido diferente o similar en los tipos de escuelas establecidos, o sea, “contrastar” la hipótesis estadística planteada.

Si la realidad no se ajusta a la hipótesis planteada, se deberá repensar el problema y tal vez modificar la hipótesis inicial y comenzar un nuevo ciclo en la investigación. Por medio de este procedimiento, se habrá producido un avance científico a través del razonamiento estadístico. Otro ejemplo simple nos llevará a clarificar la idea de efectuar una prueba de hipótesis.

Page 4: Objetivos - UNC

84

Supongamos que establecemos la siguiente hipótesis y su correspondiente deduc- ción con respecto a un aula de la Facultad que está con las puertas cerradas con llave (por ahora no se trata de una hipótesis formulada estadísticamente).

A: la habitación esta vacía (hipótesis) B: como la puerta no se puede abrir, si se mira por el ojo de la cerradura no se verá a nadie (deducción).

Si procedemos a mirar por el ojo de la cerradura y vemos un alumno sentado en un banco, podemos estar seguros al decir que la hipótesis A es falsa.

Deducción no se cumple ⇒ Hipótesis falsa

Si en cambio, miramos por el ojo de la cerradura y no vemos a nadie en el aula, no podremos decir que la hipótesis es verdadera, porque no vimos sino una parte del aula; pero como no hemos visto a nadie, no estamos en condiciones de “rechazar la hipótesis”; entonces diríamos:

Deducción se cumple ⇒ No podemos rechazar la hipótesis

El hecho de mirar por el ojo de la cerradura equivale a “tomar una muestra” (observar sólo una parte del aula). Podemos asimilar esta situación con la inferencia estadística por cuanto debemos tomar una decisión en base a una información limitada (la muestra) respecto de la totalidad del aula (la población).

Generalmente, en una investigación, se trabaja con muestras obtenidas a partir de una cierta población: en el ejemplo de las escuelas, se ha tomado sólo una muestra aleatoria de las mismas. Por ello se debe tener mucho cuidado al establecer conclusiones a partir de muestras. Si la evidencia de la muestra lleva a la decisión de rechazar la hipótesis planteada estaremos mucho más seguros de nuestra determinación que cuando no existan evidencias para su rechazo.

Pasaremos ahora a comentar el razonamiento que se sigue al efectuar una prueba de hipótesis. Este razonamiento es muy similar al que se utiliza en una corte de justicia cuando se debe tomar la decisión de declarar culpable o no culpable a una persona acusada de haber cometido un delito.

Los actores de un juicio pueden resumirse en un acusado, un fiscal y un juez que es quien debe tomar la decisión de declarar o no culpable al acusado.

El acusado será considerado inocente hasta tanto las pruebas presentadas por el fiscal demuestren lo contrario.

Haciendo una analogía con el procedimiento de prueba de hipótesis, la hipótesis que considera que el acusado es inocente, se suele denominar hipótesis nula en el lenguaje del test de hipótesis.

Una hipótesis nula es un supuesto acerca de uno o más parámetros u otras características de la población, que puede ser rechazado o no en base a la evidencia muestral.

La hipótesis nula se suele simbolizar con H0.

En general, como explicáramos más arriba, la hipótesis nula no se “acepta” sino que “se rechaza” o “no se rechaza”. Su rechazo implica la “aceptación” de la alternativa (en el caso del juicio, el rechazo de la inocencia implica aceptación de la culpabilidad, en el caso del aula vacía, el rechazo implica que en el aula hay alguien). Es por ello que suele colocarse como hipótesis nula, la situación que el investigador piensa será rechazada.

Para explicarnos mejor: si un acusado es sometido a un juicio, es porque se sospecha de su culpabilidad, el fiscal sospecha que es culpable, por eso lo somete a juicio; aunque no puede ser condenado hasta no probar su culpabilidad. El rechazo de la hipótesis nula implica la aceptación de la culpabilidad, su no rechazo implica que no se pudo probar esa culpabilidad.

Page 5: Objetivos - UNC

Cátedra I Estadística II Autor I Hebe Goldenhersch

85

Si se hace una prueba estadística para determinar quién tiene razón en el caso del aula vacía, es porque se sospecha que hay alguien; no sería razonable mirar porque sí por el ojo de la cerradura en todas las aulas para ver si hay alguien; cuando este procedimiento se lleva a cabo, es porque se sospecha en ese caso particular que hay alguna persona, y el procedimiento estadístico la confirma (rechazando la hipótesis nula) o no la confirma (no rechazándola).

Una hipótesis se denomina nula en el sentido que se supone que no existe una diferencia importante entre el verdadero valor del parámetro de la población y el valor del parámetro especificado en la hipótesis nula (supuesto de inocencia, igualdad de tasas de deserción entre escuelas públicas y privadas). La hipótesis nula suele expresarse con la igualdad del parámetro a cierto valor de referencia. Cuando se tienen dos o más poblaciones, suele establecer la igualdad de los parámetros que se quieren comparar.

En el estudio acerca de la deserción escolar la hipótesis nula establecida sería que no existen diferencias en las proporciones de alumnos que desertaron en las escuelas públicas y privadas, en símbolos:

H0) P1 = P2 donde P1 = proporción de alumnos que desertaron en la población de escuelas publicas y P2 = proporción de alumnos que desertaron en la población de escuelas privadas.

Si la hipótesis nula es falsa, deberá existir otra hipótesis que sea verdadera. Esta hipótesis recibe el nombre de hipótesis alternativa. La hipótesis alternativa se simboliza como H1.

En el ejemplo:

H1) P1 > P2

Veamos otro ejemplo. El Instituto Pasteur de París y el Laboratorio Merieux bajo la rectoría de la Agencia Nacional de Investigación contra el SIDA han elaborado una vacuna contra tal enfermedad. En una primera etapa esta vacuna se probó en chimpancés y, como los resultados fueron buenos, se decidió probar la misma en seres humanos. Se seleccionaron 50 voluntarios de entre 18 y 55 años de ambos sexos. Los voluntarios debían ser todos no infectados con el virus del SIDA y con un alto riesgo de contraer la enfermedad (prácticamente se sabe que todos van a enfermarse a causa de su situación de alto riesgo). Previamente a esta experiencia, el grupo francés ensayó la inmunidad lograda en chimpancés inoculados con la vacuna, obteniendo una respuesta favorable en un 75% de los casos. Por este motivo se decidió que la vacuna podrá ser considerada efectiva en seres humanos cuando ella prevenga de la enfermedad a más del 80% de los pacientes tratados. Como dijimos que la hipótesis nula asume el rol del acusado y que este es inocente (no efectiva) hasta que se demuestre su culpabilidad (es efectiva), la hipótesis nula deberá expresar:

H0) P ≤ 0.80 donde P es el parámetro proporción poblacional, es decir, el parámetro del cual hacemos un juicio provisorio. (La vacuna no es efectiva en más del 80% de los casos).

Page 6: Objetivos - UNC

86

Los 50 voluntarios de la muestra serán inoculados con la vacuna y se les efectuará el seguimiento durante un año luego del cual se obtendrán las primeras conclusiones. La muestra de personas a las que se les dio la vacuna será la evidencia de que el equipo de investigación llevará ante la Agencia Nacional de Investigación contra el SIDA. También dijimos que en el procedimiento de prueba de una hipótesis nula debe existir lo que se denomina una hipótesis alternativa. La hipótesis alternativa será:

H1) P > 0.80 (La vacuna es efectiva en más del 80% de los casos).

Hasta aquí hemos resuelto el primer paso a seguir en el planteamiento de hipótesis, o sea, el establecimiento de la hipótesis nula y de la hipótesis alternativa. Recordemos que en general, la hipótesis alternativa es la que expresa lo que el investigador está sospechando ocurrirá (el acusado será declarado culpable, la habitación no está vacía, le proporción de deserción en las escuelas públicas es mayor que en las privadas, la vacuna es efectiva en más del 80% de los casos…). Para poder tomar una decisión con respecto a rechazar o no la hipótesis nula planteada, hay que establecer ciertas reglas de decisión.

Ahora bien, si en la muestra considerada, el 15% de las personas no contrae la enfermedad, es muy probable que la vacuna sea declarada como no efectiva (la proporción de efectividad es mucho menor al 80%). Por el contrario, si el 95% de las personas no contrae la enfermedad, con seguridad ella será considerada efectiva. Pero, ¿qué decisión se tomará si, por ejemplo, el porcentaje de personas que no se enferman oscila entre el 70 y el 85%?

Evidentemente, debería establecerse un criterio estadístico que especificará de manera

objetiva, a partir de qué valor de p̂ (proporción muestral), se tomará la decisión de

rechazar o no la hipótesis nula. Este criterio, conocido como medida de discrepancia o criterio de test, se calcula sobre la base de la información aportada por la muestra.

Como consecuencia de este criterio de test adoptado se podrá establecer un valor crítico que determinará una región de rechazo y una región de no rechazo de la hipótesis nula. Este criterio tendrá que ver con un estimador del parámetro objeto del test, y con un estadístico cuya distribución de probabilidad sea conocido en caso de cumplimiento de la hipótesis nula. En general, los estimadores son los mismos que se usaron en el Capítulo I para construir los intervalos de confianza y los estadísticos serán muy parecidos a los utilizados en esa oportunidad; sólo que en lugar de contener un parámetro desconocido, contendrán el valor que asume el parámetro si se cumple la hipótesis nula.

En el ejemplo de la vacuna, el estimador para efectuar el test será la proporción

muestral p̂ de personas que quedaron inmunizadas por su acción (recordando que

p̂ , con tamaños de muestra adecuados, tiene distribución normal) y las reglas de

decisión determinarán en cuál de las dos regiones se posiciona el valor muestral, con el auxilio del estadístico adecuado.

Page 7: Objetivos - UNC

Cátedra I Estadística II Autor I Hebe Goldenhersch

87

Tipos de hipótesis A lo largo de la materia estableceremos básicamente cuatro tipos de hipótesis: a) Hipótesis que especifiquen un valor o un intervalo de valores para algún parámetro

de una distribución poblacional. b) Hipótesis que comparen valores de parámetros de dos o más distribuciones

poblacionales. c) Hipótesis que determinen la forma de la distribución de la variable en una

población. d) Hipótesis que se refieran a relaciones existentes entre variables (por ejemplo si

son o no independientes, si existe entre ellas una relación funcional, etc.). En este capítulo estudiaremos las hipótesis de los tipos indicados en los apartados a) y b); las indicadas en los apartados c) y d) se estudian en otros capítulos; se trata en general de pruebas llamadas no paramétricas o de regresión, que implican métodos diferentes a los estudiados en este capítulo.

A continuación veremos un procedimiento estandarizado para realizar pruebas de hipótesis estadísticas. Este procedimiento para llevar a cabo una prueba de hipótesis es el resultado de los trabajos de R. A. Fisher, J. Neyman y E. S. Pearson entre los años 1920 y 1933. En la mayoría de los casos, los pasos siguientes resultan adecuados: a) Se define la hipótesis nula a probar y la correspondiente hipótesis alternativa. b) Se define una medida de discrepancia (también denominada criterio de test) entre

los datos aportados por la o las muestras obtenidas y la hipótesis nula. Esta medida se expresa como función del parámetro especificado en H0 y su correspon- diente estimador en la muestra. De acuerdo a la terminología que definimos en el Capítulo I, esta función es un estadístico (función de un parámetro y de su estimador, sólo que en los estadísticos para realizar estimación por intervalos el parámetro era desconocido y en el caso que estudiamos ahora se trata del valor del parámetro cuando se cumple la hipótesis nula). La medida de discrepancia debe seguir una distribución de probabilidad conocida cuando se cumple la hipótesis nula. Esta discrepancia será grande cuando tiene asociada una probabi-

Page 8: Objetivos - UNC

88

lidad muy pequeña de ocurrir si la hipótesis nula es cierta y será pequeña cuando la probabilidad de ocurrir en caso que la hipótesis nula sea cierta es elevada. Es decir, el criterio de test permitirá discernir cuando la diferencia entre el estimador y el parámetro establecido en la hipótesis nula es demasiado grande para atribuirse meramente al azar.

c) Se toma la muestra, se calcula el estimador correspondiente y la medida de discrepancia elegida. Si esta es pequeña, no se rechaza la hipótesis nula (recordemos que la hipótesis nula no se “acepta” sino que “se rechaza” o “no se rechaza) y si es grande, se rechazará la hipótesis nula.

Resumiendo, para decidir con respecto a la veracidad o no de la hipótesis nula se debe elegir una medida de discrepancia y una regla para juzgar cuándo la discrepancia es suficientemente grande como para rechazarla. Pruebas de una y dos colas La formulación de las hipótesis puede ser de dos tipos según cómo se exprese la alternativa: a) Se desconoce la dirección en que se sospecha la falsedad de la hipótesis nula y se

especifica la hipótesis alternativa como P1 ≠ P2 Se dice entonces que la prueba de hipótesis es bilateral.

b) Se conoce de antemano que la hipótesis nula, si se rechaza, tiene una dirección determinada y, en ese caso se plantea que P1 > P2 o que P1 < P2. La prueba es entonces unilateral (derecha en el primer caso, izquierda en el segundo).

Es decir: a) Si las hipótesis planteadas son H0: θ = θ0 H1 θ ≠ θ0 donde θ simboliza cualquier

parámetro de la población se trata de una prueba de hipótesis bilateral. La hipótesis nula será rechazada cuando se obtengan tanto valores muy grandes como muy pequeños del estadístico obtenido en la muestra. El investigador desea rechazar la hipótesis nula cuando la evidencia indique diferencias con el valor de la hipótesis nula en cualquier sentido.

b) Si las hipótesis planteadas son H0: θ ≤ θ0 H1: θ > θ, se está en presencia de una prueba de hipótesis unilateral derecha. La hipótesis nula será rechazada para valores grandes del estadístico obtenido en la muestra. Este planteo se realiza cuando el investigador desea rechazar la hipótesis sólo cuando la evidencia indica que el valor del parámetro es mayor que el establecido por la hipótesis nula. Si, en cambio las hipótesis planteadas son H0: θ ≥ θ0 H1: θ < θ0 se trata de una prueba de hipótesis unilateral izquierda. La hipótesis nula será rechazada para valores chicos del estadístico obtenido en la muestra. Es el caso opuesto al anterior, el investigador desea rechazar la hipótesis nula solamente si la evidencia le indica que el valor del parámetro es inferior al planteado en la hipótesis nula1/.

3. Errores tipo I y tipo II

Al llegar a este punto, siguiendo con el ejemplo de la vacuna planteado más arriba, debemos recordar que se está decidiendo con respecto al parámetro proporción poblacional P a partir de la información brindada por una muestra. En realidad, estamos “mirando por el ojo de la cerradura” y, en consecuencia, el investigador podrá acertar o cometer un error. En realidad, los errores que pueden

1/ En algunos textos se encuentra en la hipótesis nula sólo el signo igual, en lugar de “mayor o

igual” o “menor o igual”. El razonamiento es exactamente el mismo y los resultados no difieren. Preferimos poner el “mayor o igual” o “menor o igual” para que entre la hipótesis nula y la alternativa se contemplen todos los valores posibles del parámetro.

Page 9: Objetivos - UNC

Cátedra I Estadística II Autor I Hebe Goldenhersch

89

cometerse son de dos tipos: podría rechazar la hipótesis nula diciendo que la vacuna es efectiva cuando en realidad no lo es (es fácil imaginarse la peligrosidad de esta aseveración en cuanto a la salud de los pacientes que creen estar inmunizados y no toman las precauciones necesarias para no contraer la enfermedad); o bien podría no rechazar la hipótesis nula cuando en realidad es falsa (estaría diciendo que la vacuna no es efectiva cuando en realidad lo es. La ciencia médica perdería la posibilidad de erradicar el SIDA cuando tenía todo a su alcance para hacerlo).

Estos dos tipos de errores se conocen como: Error de tipo I y error de tipo II, y es necesario que el investigador plantee la prueba de hipótesis previendo que las probabilidades de cometer cualquiera de estos errores sean lo más bajas posibles. El error de tipo I es aquel que se comete al rechazar una hipótesis nula cuando ella es verdadera. La probabilidad de cometer un error de tipo I se simboliza con la letra griega α; se conoce también como nivel de significación de un test.

α = P (rechazar H0 / H0 es verdadera) El error de tipo II es aquel que se comete al no rechazar una hipótesis nula cuando en realidad es falsa. La probabilidad de cometer un error de tipo II se simboliza con la letra griega β.

β = P (no rechazar H0 / H0 es falsa) El siguiente cuadro resume todas las acciones que se pueden llevar a cabo en un procedimiento de prueba de hipótesis, y cuáles serán sus consecuencias según la hipótesis nula sea verdadera o falsa:

Decisión Hipótesis nula verdadera Hipótesis nula falsa

Rechazar H0 Error tipo I P(EI) = α

Decisión correcta P(DC)= 1 - β

No rechazar H0 Decisión correcta

P(DC)= 1 - α Error tipo II P(EII) = β

En lo que sigue, aprenderemos a calcular las probabilidades especificadas en esta tabla, referidas tanto a las decisiones correctas como a los dos tipos de errores. Se desarrollan los procedimientos para efectuar pruebas de hipótesis en diversos casos particulares, referidos a parámetros o comparación de parámetros.

4.1. Prueba de hipótesis referida al parámetro media poblacional Nos ocuparemos en este punto de la prueba de hipótesis referida al parámetro media poblacional µ . El procedimiento a seguir es básicamente el mismo para todos los demás parámetros estudiados hasta ahora (principalmente varianza poblacional σ2 y proporción poblacional P). Las diferencias sólo se refieren a la elección del “estadístico de prueba” bajo diferentes condiciones tales como distribución de la población, conocimiento de varianzas, tamaños de muestra, etc. Tal como mencionáramos más arriba, los estadísticos son muy parecidos a los utilizados en el Capítulo I para estimación por intervalos de los parámetros.

Page 10: Objetivos - UNC

90

4.1.1. Varianza poblacional conocida, poblaciones normales o muestra mayo- res que 30 (cualquier distribución poblacional)

Introduciremos el tema por medio de un ejemplo. De acuerdo con ciertos informes de un organismo encargado del estudio del medio ambiente, la lluvia ácida, causada por la reacción de ciertos contaminantes del aire con el agua de lluvia, disminuye la acidez del aire, afectando las tierras de cultivo y causando corrosión en los metales expuestos. La lluvia pura que cae a través del aire limpio registra un valor de pH (el pH es una medida de la acidez) de 5.7. La sospecha que la instalación masiva de fábricas en un parque industrial cercano a un radio urbano puede estar contaminando el ambiente, llevó a este organismo a iniciar una investigación sobre la contaminación ambiental. Los investigadores formularon la hipótesis que el ambiente estaba contaminado por el aumento de la actividad fabril en la zona. En otras palabras, pensaban que el pH de la lluvia que cae en la zona era inferior a 5.7. Se establecieron las siguientes hipótesis:

H0) µ ≥ 5.7 H1) µ < 5.7

siendo µ el promedio de pH de la lluvia caída en la totalidad de las precipitaciones que se dan en el lugar. (Hacemos la aclaración de que a menor pH, mayor acidez).

Ya dijimos que en el procedimiento de pruebas de hipótesis, es lógico pensar que la evidencia para rechazar o no la hipótesis nula será proporcionada por una muestra aleatoria extraída de la población de interés.

Como estamos tratando de probar una hipótesis referida al parámetro media poblacional, utilizaremos como estimador para tomar la decisión a su contrapartida

en la muestra, la media muestral x .

Ya hemos visto que la media muestral es un estimador insesgado, de mínima varianza y que tiende a distribuirse normalmente a medida que se incrementa el tamaño de la muestra.

Gráficamente, se tiene:

µ0 = 5.7 x

Como la muestra es mayor que 30 y la varianza poblacional se supone conocida, la distribución de la media muestral es normal.

En este caso particular, como se trata con test de hipótesis unilateral izquierdo tal como está expresada la hipótesis alternativa, la hipótesis nula se rechazará

cuando el estimador puntual x tome valores más pequeños que 5.7. Cuanto más

alejado esté de ese valor, con mayor razón vamos a rechazar H0.

Page 11: Objetivos - UNC

Cátedra I Estadística II Autor I Hebe Goldenhersch

91

La región de rechazo de la hipótesis nula estará a la izquierda de la distribución tal como se observa en la siguiente figura:

Existirá un valor de x , que denominaremos valor crítico y simbolizaremos con *x

que separará la región de rechazo de H0 de la región de no rechazo.

La probabilidad de rechazar la hipótesis nula cuando es verdadera será el área

sombreada a la izquierda de *x bajo la curva normal. Esta es la probabilidad de

cometer el error de tipo I que hemos llamado α.

A continuación calculamos el valor crítico que separará las zonas de rechazo y no rechazo de la hipótesis nula.

Como estas zonas son áreas de la distribución normal, debemos estandarizar el

valor crítico *x que establece el límite entre las dos zonas, de acuerdo con la

probabilidad de cometer el error de tipo I que se ha fijado.

En el caso como el del ejemplo, que se trata de un test unilateral izquierdo, con las siguientes hipótesis:

H0) µ ≥ µ0 H1) µ < µ0

la región de rechazo de la hipótesis nula estará a la izquierda de la distribución. Estandarizando el punto crítico, bajo el supuesto que la hipótesis nula es verdadera, se tiene:

0**

xz

n

µσ−=

De esta expresión se puede despejar el valor del estimador *x que separará

las zonas de aceptación y rechazo de la hipótesis nula:

0* *.x zn

σ µ= +

Conocido el valor critico, se pueden establecer las siguientes reglas de decisión:

0

0

*

*

Si x x

Si x x

>

se rechaza H

no se rechaza H

Page 12: Objetivos - UNC

92

Cuando se elige una determinada prueba para una hipótesis estadística, las reglas de decisión deben ser formuladas de manera tal que indiquen claramente cuándo los datos experimentales son consistentes con la hipótesis nula y cuándo no lo son.

En este caso particular, donde se está hablando de probar hipótesis con respecto al parámetro media poblacional µ, las reglas de decisión deben señalar un rango de valores para x (media muestral) para los cuales la decisión sea rechazar H0.

La hipótesis alternativa determina la localización de la región de rechazo de H0 y el nivel de significación α el tamaño de dicha región.

En nuestro ejemplo, para poder calcular el valor crítico, el organismo a cargo de la investigación decide tomar una muestra de n = 40 precipitaciones. En cada una

mide el pH y obtiene un promedio x = 3.7. Supongamos, a efectos del desarrollo

de este ejemplo, que se conoce la desviación estándar poblacional y que ésta es igual a 0.5.

Si el investigador decide aceptar equivocarse en no más del 5% de las veces al tomar una decisión de rechazar la hipótesis nula cuando es cierta, α = 0.05. Para determinar el valor crítico que separa las zonas de rechazo y no rechazo de H0 se debe encontrar el valor de z que acumula el 0.05 de probabilidad. Si vamos a la tabla de probabilidades normales, encontraremos que ese valor de z es – 1.645. Entonces:

0.5* 1.645. 5.7 0.13 5.7 5.57

40x = − + = − + =

Conocido este valor crítico, se pueden establecer las siguientes reglas de decisión:

0

0

x 5.57 H

x > 5.57 H

Si

Si

≤ se rechaza

no se rechaza

Como el valor de la media muestral x = 3.7 cae en la zona de rechazo de H0, el

organismo encargado de la investigación decidirá rechazar la hipótesis nula a favor de la hipótesis alternativa. Se concluye que el ambiente presenta un contaminante producido por la lluvia ácida. Existe otra manera de determinar las zonas de rechazo y de no rechazo de la hipótesis nula, consistente en comparar directamente los valores estandarizados con el z crítico. Por ejemplo, se tiene el valor de z* = -1.645 como z crítico. Si

llamamos z “observado” al valor de x estandarizado, las reglas de decisión serán:

Si z ≤ z* se rechaza H0

Si z > z* no se rechaza H0

El valor de z observado es:

0 3.7 5.725

0.5

40

xz

n

µσ− −= = = −

Como -25 < -1.645, la decisión en este caso es obviamente la misma que resultó con el método planteado anteriormente: rechazar H0.

Page 13: Objetivos - UNC

Cátedra I Estadística II Autor I Hebe Goldenhersch

93

Antes de continuar con los diversos casos de pruebas de hipótesis, comenta- mos un elemento que se utiliza cuando los problemas se resuelven utilizando un paquete estadístico (con la computadora) y resulta muy útil para tomar las decisiones en las pruebas de hipótesis, nos referimos al uso del nivel crítico, “valor p” o “valor de significación”. A partir de las posibilidades que brinda la utilización de los paquetes estadísticos, suele utilizarse el llamado nivel crítico “p”, que proporciona una información interesante acerca de la verdadera probabilidad de cometer el error de tipo I cuando se realiza una prueba de hipótesis. Su cálculo exacto es complicado y a veces imposible de realizar “a mano”, ya que no se dispone en general de las tablas necesarias, pero los programas de los paquetes estadísticos tienen incluidas las posibilidades de calcular las integrales de las funciones en todos los casos, y por ello proporcionan este valor exacto. ¿De qué se trata? El valor “p” se define como la probabilidad de obtener una discrepancia mayor o igual que la observada en la muestra cuando se cumple H0. Esta medida de discrepancia, en general puede definirse como:

ˆ

ˆid

θ

θ θσ−=

Es decir, se trata del cálculo del “valor observado” del estadístico para una muestra en particular, y tiene una distribución de probabilidad conocida2/. La medida de discrepancia depende de la dirección de la hipótesis alternativa. Si la prueba de hipótesis es bilateral, no se considera el signo de la desviación que se produce entre el estimador y el parámetro especificado en la hipótesis nula. Si la prueba es unilateral se debe tener en cuenta si la dirección de la hipótesis nula es hacia la izquierda o hacia la derecha de la distribución de probabilidad utilizada.

Si denominamos d̂ al valor observado de la discrepancia, se tiene:

0ˆ( / )p P d d H= ≥

Es decir, p es la probabilidad de obtener una discrepancia igual o mayor a la observada en la muestra. Se trata de la probabilidad de las “colas” (si la prueba es bilateral); o la “cola” (si es unilateral) que ocurran valores iguales o superiores al observado. Este valor de p debe compararse con el α que el investigador está dispuesto a aceptar. Si p es menor que α , entonces debemos rechazar la H0., de lo contrario no

podemos rechazarla. Dicho de otro modo, cuanto menor sea p, menor es la probabilidad de aparición de una discrepancia como la observada y menor será la credibilidad de H0.

En el ejemplo que estamos desarrollando, como se trata de un estadístico con distribución normal, sería posible calcular el valor exacto de p (“valor de signifi- cación”). Este es:

P(z < -25) = 1 – F(25) = 1 – 1= 0

2/ Si la distribución del estadístico es normal, es posible calcular las probabilidades de cualquier

discrepancia observada, pero si tiene otra distribución, no existen tablas completas para

hacerlo. Se sugiere que usted revise las tablas de la t, la F o 2χ y advertirá que no puede

calcular las probabilidades para cualquier valor, sino sólo para los que están tabulados.

Page 14: Objetivos - UNC

94

Ello significa que hay una probabilidad prácticamente nula de obtener una

discrepancia como la observada (o mayor), si la 0H fuera verdadera, esto es si el

nivel de pH fuera 5,7. Al llegar a la conclusión que el pH no es 5.7, el investigador puede efectuar una estimación por intervalos para averiguar cuál es el verdadero pH en la población total de precipitaciones. Si se construye este intervalo, se tiene:

0.5 0.5(3.7 1.96 3.7 1.96 ) 0.95

40 40P µ− ≤ ≤ + =

Realizando los cálculos, encontramos que el valor promedio del pH en la población es un valor comprendido entre 3.55 y 3.85 con un 95% de confianza. El valor del pH estimado es muy inferior al planteado en la hipótesis nula por lo que puede concluirse que la contaminación por lluvia ácida es muy importante. Si hubiéramos tenido en test unilateral derecho, las hipótesis planteadas habrían sido:

H0) µ ≤ µ0 H1) µ > µ0 En esta situación, la región de rechazo de la hipótesis nula estará a la derecha de la distribución. También se puede plantear una hipótesis bilateral de la siguiente manera:

H0) µ = µ0 H1) µ ≠ µ0 En este caso se tienen dos zonas de rechazo de la hipótesis nula, una a la izquierda y otra a la derecha de la distribución, cada una con una probabilidad α /2. Las reglas de decisión para una prueba bilateral serían:

1 2 0

1 2 0

x x * o x x * H

x * x < x * H

Si

Si

≤ ≥

<

se rechaza

no se rechaza

El tamaño de cada cola de la distribución (zonas de rechazo de la hipótesis nula), es igual a la mitad del nivel de significación α.

4.1.2. Varianza poblacional desconocida, poblaciones normales y no normales

Cuando la varianza poblacional es desconocida, como se explicó en el Capítulo I, el estadístico con distribución normal no puede usarse. Ese caso es el más frecuente en las aplicaciones prácticas, ya que resulta casi imposible suponer que se conoce la varianza poblacional cuando se desconoce la media.

Si la población es normal, el estadístico adecuado para probar hipótesis acerca de la media poblacional es:

01n

X

S nt

µ−

−� (1)

Page 15: Objetivos - UNC

Cátedra I Estadística II Autor I Hebe Goldenhersch

95

Si la población no es normal, ese estadístico no podría ser utilizado, ya que la t requiere que la población sea normal. Pero, empíricamente puede comprobarse que para muestras de tamaño 100 o mayor, si la población no es normal, la aproximación del estadístico a la normal es buena.

Resumiendo: si la varianza poblacional es desconocida, y

• la población es normal, se utiliza el estadístico t para cualquier tamaño de muestra (por la aproximación de la t a la normal, cuando los grados de libertad son mayores a 40 puede recurrirse a aproximaciones, interpolaciones, o a la tabla de la normal),

• la población no es normal, puede usarse el estadístico (1) con distribución normal sólo si n > 100. De lo contrario hay que recurrir a pruebas no paramétricas, que se presentan en otro capítulo de esta materia.

Actualmente, en la mayoría de las situaciones que el investigador debe enfrentar, resuelve los problemas de pruebas de hipótesis con el auxilio de programas específicos de computación. Para que Uds. se habitúen a la lectura de los resultados que proporcionan estos programas, desarrollamos un problema donde se efectúa el test de hipótesis para la media utilizando un programa de computación pertinente. Veamos ahora algunos casos en que se supone población normal; no importa cuál sea el tamaño muestral, se utiliza la distribución t (estadístico 1).

Los siguientes datos se refieren a salarios de 36 empleados de una fábrica seleccionados aleatoriamente del archivo de empleados:

Empleado Salario Empleado Salario Empleado Salario

1 735 13 694 25 594

2 550 14 482 26 839

3 590 15 456 27 604

4 892 16 419 28 454

5 398 17 671 29 441

6 493 18 983 30 513

7 458 19 659 31 801

8 684 20 534 32 895

9 781 21 419 33 945

10 644 22 532 34 617

11 526 23 507 35 539

12 578 24 592 36 407

De acuerdo con informaciones del INDEC (Instituto Nacional de Estadística y Censos), el salario promedio en la ciudad de Córdoba es de 490$. ¿Se puede pensar que esta hipótesis es consistente con el salario recibido por los empleados de esta fábrica?

Las hipótesis planteadas son:

H0) µ = 490 H1) µ ≠ 490

En la siguiente salida de computación se observa una estadística descriptiva de la variable en estudio donde se presenta el tamaño de la muestra n, la media

muestral, la desviación estándar muestral y el error estándar de la media ( / ).s n

Estadísticos para una muestra

36 609,0556 160,73384 26,78897Salario

n MediaDesviación

estandarError estandarde la media

Page 16: Objetivos - UNC

96

En la siguiente salida, el valor de prueba es el valor establecido para el parámetro salario promedio poblacional en la hipótesis nula, o sea µ0. También se da el valor

de t observado calculado como 0 609.06 4904.444

26.79/

xt

s n

µ− −= = = .

A continuación se da el valor de significación exacto p = 0,044. Este valor es inferior al 0,05. Como se puede observar, la probabilidad de obtener un promedio en la muestra de $ 609 tiene una muy baja probabilidad de ocurrir si en realidad la hipótesis nula es verdadera. Por lo tanto, se decide rechazar la hipótesis nula. Los empleados de esta fábrica ganan en promedio más que la media establecida para toda la provincia de Córdoba.

A continuación se ve un gráfico de probabilidad normal, (ya estudiado en Estadística I), por medio del cual se puede visualizar si la distribución de la variable salarios es normal. Existen algunos valores atípicos de salarios bajos pero podemos ver que la distribución es bastante normal. Si la distribución es normal, entonces podemos utilizar el estadístico (1) con cualquier tamaño muestral

Grafico de normalidad de la

variable salario

Valor observado

1000800600400200

Val

or N

orm

al e

sper

ado 1000

900

800

700

600

500

400

300

200

Esta “visualización” de la distribución de frecuencias, para saber si la población es o no es normal se completa con un test de hipótesis denominado de normalidad y que se debe a Kolmogorov y Smirnov. Este test pertenece a los denominados tests no paramétricos que se estudiarán en el Capítulo VI.

Prueba para una muestra

4.444 35 ,044Salario

t gl Sig. (bilateral)

Valor de prueba = 490

Page 17: Objetivos - UNC

Cátedra I Estadística II Autor I Hebe Goldenhersch

97

Las hipótesis que se plantean en esta prueba son:

H0) La distribución de los salarios es normal.

H1) La distribución de los salarios no es normal.

Los resultados de la aplicación de este test son los siguientes:

Prueba de Kolmogorov-Smirnov para una muestra

36

609,0556

160,73384

,124

,124

-,095

,742

,641

n

Media

Desviación típica

Parámetros normalesa,b

Absoluta

Positiva

Negativa

Diferencias más extremas

Z de Kolmogorov-Smirnov

Sig. asintót. (bilateral)

Salario

La distribución de contraste es la Normal.a.

Se han calculado a partir de los datos.b.

La medida de discrepancia en este test es de 0.742 con un valor de significa- ción p = 0.641. Como este valor p es muy elevado, (mayor que cualquier α que

tengamos en mente, existe una alta probabilidad que esta medida de discre- pancia ocurra cuando se cumple la hipótesis nula; por lo cual no la rechaza, con- cluyendo que la distribución de los salarios en la población puede considerarse normal.

Para determinar el verdadero valor del salario promedio de empleados de esta fábrica se estimó el mismo por medio de un intervalo de confianza: (utilizamos el valor z en lugar de t porque los grados de libertad son mayores que 30; hay poca diferencia entre uno y otro, y además no se encuentran tabulados todos los valores de t para más de 30 grados de libertad; también podría utilizarse algún t cercano a 35 grados de libertad).

[ ]

609.06 1.96 26.79

609.06 52.5

556.56 ; 661.52

x±±

El verdadero valor del salario promedio de los empleados de esta fábrica es un valor comprendido en el intervalo establecido, con una confianza del 95%.

Veamos ahora otros ejemplos, también usando el estadístico (1)

Supongamos que el Departamento de Control de Calidad de una fábrica de televisores asegura que, de acuerdo al plan implementado, los televisores no deben fallar hasta los tres años de uso.

El Departamento de Comercialización, con el objetivo de corroborar esta afirma- ción, lleva a cabo una encuesta dirigida a compradores del producto con más de 3 años de antigüedad. Una de las preguntas estaba referida a cuándo requirió por primera vez asistencia técnica por falla del aparato.

Page 18: Objetivos - UNC

98

Las respuestas obtenidas (tiempo desde que compró el aparato hasta que registró la primera asistencia técnica en años), en una muestra de 20 compradores, fueron las siguientes:

2.5 3.1 2.8 3.5 4.8 3.9 2.6 4.0 3.8 3.2 3.8 2.3 3.1 4.1 3.8 3.0 3.4 4.1 2.6 3.0

En base a esta evidencia proporcionada por la muestra, el Departamento de Comercialización desea saber si es lícito seguir publicitando que los aparatos no registran fallas hasta después de 3 años de ser utilizados. Las hipótesis planteadas fueron:

H0) µ ≤ 3 años

H1) µ > 3 años El estimador adecuado para efectuar el correspondiente test de hipótesis es también la media de la muestra que en este caso es:

3.37x años=

La varianza del tiempo transcurrido hasta la primera asistencia técnica fue s2 = 0.4327 y la correspondiente desviación estándar muestral es de 0.66 años. Como ocurre generalmente en la práctica, es imposible calcular la varianza del tiempo transcurrido entre la compra del televisor y su primer pedido de asistencia en la población de televisores vendidos por la empresa. Por este motivo, la única medida de variabilidad es la correspondiente a la muestra de 20 televisores. También en este caso nos encontramos con el problema que, en lugar de aparecer la desviación estándar poblacional σ, nos encontramos con su estimador muestral insesgado s. Como ya hemos visto, este estadístico se distribuye como una t de Student con n – 1 grados de libertad. En nuestro ejemplo, la hipótesis alternativa establecida determina una prueba unilateral derecha por lo cual la zona de rechazo de la hipótesis nula estará en la cola derecha de la distribución t de Student. Gráficamente, tendremos:

El paso siguiente consiste en determinar un nivel de significación αααα que podría ser 0.05.

Page 19: Objetivos - UNC

Cátedra I Estadística II Autor I Hebe Goldenhersch

99

Estableciendo el criterio de test como:

01

( * )n

xt t

s

n

µ−

−= �

De aquí se puede despejar el valor de *x que es:

0*s

x tn

µ= +

La regla de decisión será, entonces:

Si el promedio de tiempo transcurrido desde la compra del televisor hasta que se produce su primera asistencia técnica, calculado en la muestra de 20 televisores

es mayor a *x , se rechazará la hipótesis nula; en caso contrario se concluirá que

no existe una evidencia muestral contundente para rechazarla.

En el ejemplo, se tiene una variable t con 19 grados de libertad cuyo valor que es el que acumula el 0.95 de probabilidad, es t19;0.95 = 1.729.

Calculamos, entonces, el valor crítico:

0.663 1.729 3 0.26 3.26

20*x = + = + =

La media en la muestra de televisores fue de 3.37 años. Como este valor es superior a 3.26, se rechaza la hipótesis nula.

El valor de la media muestral cae en la zona de rechazo de la hipótesis nula por lo cual llegamos a la conclusión de que el tiempo promedio hasta que solicita asistencia técnica por primera vez, es superior a 3 años. Por ello, el Departamento de Comercialización podrá seguir publicitando la duración de los productos de la fábrica.

Cuando se rechaza la hipótesis nula, se puede estar interesado en estimar el verdadero valor del parámetro poblacional, en este caso µ = tiempo promedio hasta que se solicita asistencia técnica por primera vez.

Para ello se efectúa una estimación por intervalos que, en este caso, será:

0.95s s

P x t x tn n

µ − ≤ ≤ + =

0 .6 6 0 .6 6

3 .3 7 2 .0 9 3 3 .3 7 2 .0 9 3 0 .9 54 .4 7 4 .4 7

P µ − ≤ ≤ + =

El valor de t es ahora el que acumula el 0.975 de probabilidad.

Efectuando convenientemente los cálculos, se tiene:

P(3.37 – 0.31 ≤ µ ≤ 3.37 + 0.31) = 0.95

3.06 ≤ µ ≤ 3.68

De acuerdo a la información proporcionada por la muestra, el tiempo promedio hasta que se requiere asistencia técnica es un valor comprendido en este intervalo

y esto se dice con un 95% de confianza.

Page 20: Objetivos - UNC

100

A continuación damos un ejemplo que ha sido resuelto por medio del programa de computación (SPSS). Los siguientes datos se refieren a la antigüedad (en años), los salarios mensuales percibidos y el sexo de empleados de una empresa:

Antigüedad Salario Sexo 40.00 585.00 1.00

35.00 2066.00 1.00 20.00 838.00 1.00 30.00 502.00 2.00 31.00 269.00 2.00

41.00 537.00 2.00 22.00 1279.00 1.00 10.00 470.00 1.00 14.00 475.00 1.00 20.00 568.00 2.00 39.00 549.00 2.00 14.00 541.00 2.00 20.00 739.00 1.00 33.00 1007.00 1.00 39.00 857.00 2.00

Sexo: 1.- Varón 2.- Mujer

Estadistica descriptiva calculada en la muestra

15 23.600000 8.575713215 2.2142396Antiguedad

n Media Desviación típ.Error típ.

de la media

En esta tabla aparece la media muestral ( x ), la desviación estándar muestral (s)

y el error estándar muestral ( / )s n .

Las hipótesis planteadas para el parámetro promedio de antigüedad son las siguientes:

H0) µ = 25 H1) µ ≠ 25 El resultado de la prueba se presenta en la siguiente tabla:

Prueba para una muestra

,803 14 ,435Antiguedad

t gl Sig. (bilateral)

Valor de prueba = 25

El valor de p es 0.435. Si lo comparamos con α = 0.05, estamos en la situación de que p > 0.05, por lo cual se toma la decisión de no rechazar la hipótesis nula. La antigüedad promedio de todos los empleados de esa empresa es de 25 años.

Page 21: Objetivos - UNC

Cátedra I Estadística II Autor I Hebe Goldenhersch

101

Plot normal de la variable antiguedad

Valor observado

50403020100V

alor

Nor

mal

esp

erad

o 40

30

20

10

0

Prueba de Kolmogorov-Smirnov para una muestra

15

23.60000000

8.575713215

.174

.174

-.106

.674

.754

n

Media

Desviación típica

Parámetros normales

Absoluta

Positiva

Negativa

Diferencias más extremas

Z de Kolmogorov-Smirnov

Sig. asintót. (bilateral)

ANTIGUED

Analizando el normal plot, se observa que los valores del gráficos oscilan bastante cerca de la línea trazada por lo cual se puede pensar que la variable antigüedad se distribuye normalmente. Esta situación es luego corroborada por el test de normalidad de Kolmogorov para una muestra (p = 0.745), también mayor que 0.05.

15N =

Ant

igue

dad 50

40

30

20

10

0

En el correspondiente box plot no se observa la presencia de valores atípicos.

Page 22: Objetivos - UNC

102

A continuación realizamos una prueba de hipótesis para el parámetro salario promedio. Las hipótesis planteadas son:

H0) µ = 500 H1) µ ≠ 500

Estadísticos para una muestra

15 752,1333 441,88571 114,09440Salario

N Media Desviación típ.Error típ.

de la media

En este caso, se observa un valor de p = 0.04 que si lo comparamos con α = 0.05, al ser este menor, se toma la decisión de rechazar la hipótesis nula. El salario promedio de los empleados de la empresa no es 500$. En este caso se debe calcular una estimación por intervalos para ver por dónde anda el valor del salario promedio en la población.

Normal plot para la variable salario

Valor observado

3000200010000-1000

Val

or N

orm

al e

sper

ado 1600

1400

1200

1000

800

600

400

200

0

-200

En el normal plot pareciera que la distribución se alejan de la normal pero si se observa la prueba de Kolmogorov que se presenta a continuación, aparece un p = 0.318 > 0.05, por lo cual no se rechaza la normalidad de la variable en estudio.

Prueba para una muestra

2,210 14 ,044Salario

t gl Sig. (bilateral)

Valor de prueba = 500

Page 23: Objetivos - UNC

Cátedra I Estadística II Autor I Hebe Goldenhersch

103

Prueba de Kolmogorov-Smirnov para una muestra

15

752,1333

441,88571

,247

,247

-,195

,958

,318

n

Media

Desviación típica

Parámetros normales

Absoluta

Positiva

Negativa

Diferencias más extremas

Z de Kolmogorov-Smirnov

Sig. asintót. (bilateral)

VAR00002

Existe un valor atípico para la variable salario: una persona que gana 2066$.

A continuación se presentan algunas actividades para que practiquen los conceptos aprendidos.

Actividad 1: El gerente de un Banco local ha informado al Directorio que las últimas medidas económicas implementadas, que restringen el retiro de fondos de los bancos, ha generado un movimiento mayor en los cajeros automáticos. Hasta ahora sus clientes utilizaban los mismos a un promedio de 6 operaciones mensuales. Seleccionando a 130 clientes de su base de datos se encontró:

Estadística descriptiva

N 130

x 8.68

Varianza 4.12

Error estándar de la media 0.18

Valor mínimo 4

Valor máximo 14

Mediana 9

Suma 1129

a) ¿Es razonable lo informado por el gerente? Trabaje con α = 0,01. b) ¿Cuál es la verdadera cantidad promedio de extracciones mensuales que

ahora realizan sus clientes? Trabaje con (1-α) = 0,99. Actividad 2: La Facultad de Ciencias Económicas viene afirmando que la duración de la carrera de Contador Público es de 8.5 años con una desviación estándar de 2.6 años. Luego de haber implementado distintas medidas a fin de mejorar este valor, decide evaluarlas. Para ello selecciona aleatoriamente 40 legajos de egresados en la última colación encontrando los siguientes datos:

Actividades de Aprendizaje

Page 24: Objetivos - UNC

104

Duración

Media 7,007

Error típico 0,242

Mediana 6,940

Desviación estándar 1,534

Varianza de la muestra 2,352

Curtosis -0,622

Coeficiente de asimetría 0,391

Rango 5,990

Mínimo 4,480

Máximo 10,470

Suma 280,260

N 40,000

¿Puede la Facultad decir que las medidas implementadas han sido efectivas a un nivel de 10%?

Actividad 3: Los mosaicos producidos por una fábrica de la ciudad de Córdoba poseen una resistencia media a la ruptura de 80 Kg. con una desviación estándar de 15 Kg. El gerente de producción propone un nuevo método para fabricar los mosaicos, sosteniendo que el mismo aumenta la resistencia a la ruptura.

Para evaluar esta afirmación se someten a prueba de resistencia mosaicos fabricados con el nuevo método, con el siguiente resultado:

Estadística descriptiva

Resumen Resistencia N 32

Media 107,22 Var(n-1) 223,66 E.E. 2,64

Mín. 68,12 Máx. 131,30 Mediana 107,51

a) ¿Es correcta la afirmación del gerente a un nivel del 1%?

Actividad 4: El Balance General de una S.A., que posee 200 deudores, arroja para el rubro Otros Créditos un total de $ 3.500.000. El directorio contrata un auditor externo ya que considera que el saldo promedio de dicha cuenta no es el que refleja la contabilidad. Se envían circulares a 49 deudores elegidos aleatoria- mente, los cuales confirmaron adeudar un total de $ 870.000. Se conoce que la varianza poblacional es 300.000 pesos2. A un nivel del 5%, ¿es confiable la cifra que muestra el balance?

Actividad 5: Un envasador de gaseosas dice que la cantidad promedio de bebida en sus botellas de 1 litro es de 1.08. La Oficina de Defensa al Consumidor ha recibido numerosos reclamos de clientes que afirman que el contenido es menor que 1 litro. Para poder responder a estas quejas, la Oficina Estatal decide llevar a cabo una prueba de hipótesis. Explique el significado del error tipo I, eligiendo una de las siguientes alternativas:

1. Concluir que µ = 1 litro cuando realmente µ ≥ 1 2. Concluir que µ < 1 litro cuando en realidad µ ≥ 1 3. Concluir que µ = 1 litro cuando realmente µ < 1 4. Concluir que µ < 1 litro cuando en realidad µ < 1

Page 25: Objetivos - UNC

Cátedra I Estadística II Autor I Hebe Goldenhersch

105