tallerdeinvestigacio.weebly.com · web viewcalcular el tamaño de muestra para pruebas de...

15
B. pruebas de hipótesis 1. Terminología Definir e interpretar el nivel de significancia, potencia, errores tipo I y tipo II de pruebas estadísticas. Una prueba de hipótesis examina dos hipótesis opuestas sobre una población: la hipótesis nula y la hipótesis alternativa. La hipótesis nula es el enunciado que se probará. Por lo general, la hipótesis nula es un enunciado de que "no hay efecto" o "no hay diferencia". La hipótesis alternativa es el enunciado que se desea poder concluir que es verdadero. Con base en los datos de la muestra, la prueba determina si se debe rechazar la hipótesis nula. Para tomar la decisión se utiliza un valor p. Si el valor p es menor que o igual al nivel de significancia, que es un punto de corte que usted define, entonces puede rechazar la hipótesis nula. Un error común de percepción es que las pruebas estadísticas de hipótesis están diseñadas para seleccionar la más probable de dos hipótesis. En realidad, una prueba mantendrá la validez de la hipótesis nula hasta que haya suficiente evidencia (datos) en favor de la hipótesis alternativa. Entre las preguntas que se pueden contestar con una prueba de hipótesis están las siguientes: ¿Tienen las estudiantes de pregrado una estatura media diferente de 66 pulgadas? ¿Es la desviación estándar de su estatura igual a o menor que 5 pulgadas? ¿Es diferente la estatura de las estudiantes y los estudiantes de pregrado? 2. Estadística vs. Importancia práctica Definir, comparar e interpretar la significancia estadística y práctica.

Upload: others

Post on 03-Oct-2020

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: tallerdeinvestigacio.weebly.com · Web viewCalcular el tamaño de muestra para pruebas de hipótesis comunes (por ejemplo, igualdad de medios), la igualdad de proporciones, etc. Determinar

B. pruebas de hipótesis

1. TerminologíaDefinir e interpretar el nivel de significancia, potencia, errores tipo I y tipo II de pruebas estadísticas. 

Una prueba de hipótesis examina dos hipótesis opuestas sobre una población: la hipótesis nula y la hipótesis alternativa. La hipótesis nula es el enunciado que se probará. Por lo general, la hipótesis nula es un enunciado de que "no hay efecto" o "no hay diferencia". La hipótesis alternativa es el enunciado que se desea poder concluir que es verdadero.

Con base en los datos de la muestra, la prueba determina si se debe rechazar la hipótesis nula. Para tomar la decisión se utiliza un valor p. Si el valor p es menor que o igual al nivel de significancia, que es un punto de corte que usted define, entonces puede rechazar la hipótesis nula.

Un error común de percepción es que las pruebas estadísticas de hipótesis están diseñadas para seleccionar la más probable de dos hipótesis. En realidad, una prueba mantendrá la validez de la hipótesis nula hasta que haya suficiente evidencia (datos) en favor de la hipótesis alternativa.Entre las preguntas que se pueden contestar con una prueba de hipótesis están las siguientes:

¿Tienen las estudiantes de pregrado una estatura media diferente de 66 pulgadas?¿Es la desviación estándar de su estatura igual a o menor que 5 pulgadas?¿Es diferente la estatura de las estudiantes y los estudiantes de pregrado?

2. Estadística vs. Importancia prácticaDefinir, comparar e interpretar la significancia estadística y práctica. 

La diferencia entre un estadístico de muestra y un valor hipotético es estadísticamente significativo si una prueba de hipótesis indica que es muy poco probable que haya ocurrido en virtud de las probabilidades. Para evaluar la significancia estadística, examine el valor p de la prueba. Si el valor p está por debajo de un nivel de significancia (α) especificado (generalmente 0.10, 0.05 ó 0.01), usted puede decir que la diferencia es estadísticamente significativa y rechazar la hipótesis nula de la prueba.

Por ejemplo, supongamos que usted desea determinar si el grosor de unos parabrisas de vehículo supera los 4 mm, tal como lo exigen las normas de seguridad. Usted toma una muestra de parabrisas y realiza una prueba t de 1 muestra con un nivel de significancia (α) de 0.05 y plantea las hipótesis siguientes:

H0: μ = 4H1: μ > 4

Page 2: tallerdeinvestigacio.weebly.com · Web viewCalcular el tamaño de muestra para pruebas de hipótesis comunes (por ejemplo, igualdad de medios), la igualdad de proporciones, etc. Determinar

Si la prueba produce un valor p de 0.001, usted declara significancia estadística y rechaza la hipótesis nula, porque el valor p es menor que el nivel de significancia (α). Usted concluye a favor de la hipótesis alternativa: que el grosor de los parabrisas es mayor de 4 mm.Sin embargo, si el valor p es igual a 0.50, usted no puede declarar significancia estadística. No tiene suficiente evidencia para afirmar que el grosor promedio de los parabrisas es mayor de 4 mm.

3. Tamaño de la muestraCalcular el tamaño de muestra para pruebas de hipótesis comunes (por ejemplo, igualdad de medios), la igualdad de proporciones, etc. 

Determinar el tamaño de la muestra que se va a seleccionar es un paso importante en cualquier estudio de investigación de mercados, se debe justificar convenientemente de acuerdo al planteamiento del problema, la población, los objetivos y el propósito de la investigación.

¿De qué depende el tamaño muestral?El tamaño muestral dependerá de decisiones estadísticas y no estadísticas, pueden incluir por ejemplo la disponibilidad de los recursos, el presupuesto o el equipo que estará en campo.Antes de calcular el tamaño de la muestra necesitamos determinar varias cosas:

a) Tamaño de la población. Una población es una colección bien definida de objetos o individuos que tienen características similares. Hablamos de dos tipos: población objetivo, que suele tiene diversas características y también es conocida como la población teórica. La población accesible es la población sobre la que los investigadores aplicaran sus conclusiones.

b) Margen de error (intervalo de confianza). El margen de error es una estadística que expresa la cantidad de error de muestreo aleatorio en los resultados de una encuesta, es decir, es la medida estadística del número de veces de cada 100 que se espera que los resultados se encuentren dentro de un rango específico.

c) Nivel de confianza. Son intervalos aleatorios que se usan para acotar un valor con una determinada probabilidad alta. Por ejemplo, un intervalo de confianza de 95% significa que los resultados de una acción probablemente cubrirán las expectativas el 95% de las veces.

d) La desviación estándar. Es un índice numérico de la dispersión de un conjunto de datos (o población). Mientras mayor es la desviación estándar, mayor es la dispersión de la población.

Cálculo del tamaño de la muestra desconociendo el tamaño de la poblaciónLa fórmula para calcular el tamaño de muestra cuando se desconoce el tamaño de la población es la siguiente:

Page 3: tallerdeinvestigacio.weebly.com · Web viewCalcular el tamaño de muestra para pruebas de hipótesis comunes (por ejemplo, igualdad de medios), la igualdad de proporciones, etc. Determinar

En dondeZ = nivel de confianza,P = probabilidad de éxito, o proporción esperada Q = probabilidad de fracaso D = precisión (error máximo admisible en términos de proporción)

4. El punto y estimaciones de intervaloDefinir y distinguir entre intervalos de confianza y predicción. Definir e interpretar la eficacia y el sesgo de los estimadores. Calcular la tolerancia e intervalos de confianza.

¿Qué es una estimación? Cuando queremos realizar un estudio de una población cualquiera de la que desconocemos sus parámetros, por ejemplo su media poblacional o la probabilidad de éxito si la población sigue una distribución binomial, debemos tomar una muestra aleatoria de dicha población a través de la cual calcular una aproximación a dichos parámetros que desconocemos y queremos estimar. Bien, pues esa aproximación se llama estimación.

Además, junto a esa estimación, y dado que muy probablemente no coincida con el valor real del parámetro, acompañaremos el error aproximado que se comete al realizarla.

Estimación puntual Una estimación puntual del valor de un parámetro poblacional desconocido (como puede ser la media µ , o la desviación estándar σ ), es un número que se utiliza para aproximar el verdadero valor de dicho parámetro poblacional. A fin de realizar tal estimación, tomaremos una muestra de la población y calcularemos el parámetro muestral asociado ( x para la media, s para la desviación estándar, etc.). El valor de este parámetro muestral será la estimación puntual del parámetro poblacional. Por ejemplo, supongamos que la compañía Sonytron desea estimar la edad media de los compradores de equipos de alta fidelidad. Seleccionan una muestra de 100 compradores y calculan la media de esta muestra, este valor será un estimador puntual de la media de la población.

Estimación por intervalo Dada una población X, que sigue una distribución cualquiera con media µ y desviación estándar σ.

Sabemos (por el TCL) que, para valores grandes de n , la media muestral x sigue una distribución aproximadamente normal con media µ x = µ y desviación estándar.

Page 4: tallerdeinvestigacio.weebly.com · Web viewCalcular el tamaño de muestra para pruebas de hipótesis comunes (por ejemplo, igualdad de medios), la igualdad de proporciones, etc. Determinar

Por otra parte, el Teorema de Chebyshev nos dice que, en una distribución normal, aproximadamente un 95% de los datos estaban situados a una distancia inferior a dos desviaciones estándar de la media.

Por tanto, ésta última fórmula nos da un intervalo de valores tal que la probabilidad de que la media de la población µ esté contenida en él es de 0,95. Este tipo de intervalos se llaman intervalos de confianza de un parámetro poblacional. El nivel de confianza (1 - α) del intervalo es la probabilidad de que éste contenga al parámetro poblacional. En el ejemplo anterior, el nivel de confianza era del 95% (α = 0,05).5. Pruebas para medias, varianzas y proporcionesUtilizar e interpretar los resultados de las pruebas de hipótesis para medias, varianzas y proporciones. 

Estimación de la Diferencia entre dos MediasSi se tienen dos poblaciones con medias  1 y  2 y varianzas  1

2 y  22,

respectivamente, un estimador puntual de la diferencia entre  1 y  2 está dado por la estadística  . Por tanto. Para obtener una estimación puntual de 

1-  2, se seleccionan dos muestras aleatorias independientes, una de cada población, de tamaño n1 y n2, se calcula la diferencia  , de las medias muestrales.Recordando a la distribución muestral de diferencia de medias:

Al despejar de esta ecuación  1-  2 se tiene:

En el caso en que se desconozcan las varianzas de la población y los tamaños de muestra sean mayores a 30 se podrá utilizar la varianza de la muestra como una estimación puntual.Prueba de hipótesis para la varianzaLa varianza como medida de dispersión es importante dado que nos ofrece una mejor visión de dispersión de datos.Paso 1. Determinar la hipótesis Nula “Ho” y Alternativa “Ha”. Ho: La varianza poblacional es igual a 15. (Algunos autores colocarían “La varianza poblacional es igual o menor a

Page 5: tallerdeinvestigacio.weebly.com · Web viewCalcular el tamaño de muestra para pruebas de hipótesis comunes (por ejemplo, igualdad de medios), la igualdad de proporciones, etc. Determinar

15”). Ha: ___________________________________ Es decir: Ho: σ2 ≤ 15 Ha: σ2 > 15 (prueba de una cola) Paso 2. Determinar el nivel de significancia. Definido por el analista, en este caso se desea usar α = 0.05Esta es la forma gráfica de ji cuadrada

El área sombreada representa alfa o la fracción de error. Nótese que es prueba de una cola por lo que alfa no se divide en dos.Paso 3. Calcular los intervalos o valores críticos que implican ese nivel de significancia. 2 2 0.05 19 2 0.05 19 χ Usamos 0.05 y (grados de libertad)=20-1=19 χ Leemos en la tabla: χ 30.143 v v α α = = Gráficamente queda de la siguiente forma:

gl = n -1 Donde:gl = Grados de libertad n = número de elementos en la muestra s^2 =varianza muestral σ^2 =varianza considerada por la hipótesis nula χ^2 = ji- cuadrada (también conocido como chi-cuadrada). Paso 5. Determinar si el estadístico cae dentro de la región que hace la Hipótesis nula verdadera.

Paso 6. Aceptar o rechazar la hipótesis nula. Se acepta que la varianza poblacional es igual a 15 como hipótesis nula.

Page 6: tallerdeinvestigacio.weebly.com · Web viewCalcular el tamaño de muestra para pruebas de hipótesis comunes (por ejemplo, igualdad de medios), la igualdad de proporciones, etc. Determinar

Estimación de una ProporciónUn estimador puntual de la proporción P en un experimento binomial está dado por la estadística P=X/N, donde x representa el número de éxitos en n pruebas. Por tanto, la proporción de la muestra p =x/n se utiuñlizará como estimador puntual del parámetro P.Si no se espera que la proporción P desconocida esté demasiado cerca de 0 ó de 1, se puede establecer un intervalo de confianza para P al considerar la distribución muestral de proporciones.

Al despejar P de esta ecuación nos queda:

En este despeje podemos observar que se necesita el valor del parámetro P y es precisamente lo que queremos estimar, por lo que lo sustituiremos por la proporción de la muestra p siempre y cuando el tamaño de muestra no sea pequeño.

Cuando n es pequeña y la proporción desconocida P se considera cercana a 0 ó a 1, el procedimiento del intervalo de confianza que se establece aquí no es confiable, por tanto, no se debe utilizar. Para estar seguro, se debe requerir que np ó nq sea mayor o igual a 5.El error de estimación será la diferencia absoluta entre p y P, y podemos tener el nivel de confianza de que esta diferencia no excederá .

.

6. Análisis de varianza (ANOVA)Seleccionar, calcular e interpretar los resultados de los ANOVAs. 

Un análisis de varianza (ANOVA) prueba la hipótesis de que las medias de dos o más poblaciones son iguales. Los ANOVA evalúan la importancia de uno o más factores al comparar las medias de la variable de respuesta en los diferentes niveles de los factores. La hipótesis nula establece que todas las medias de la población (medias de los niveles de los factores) son iguales mientras que la hipótesis alternativa establece que al menos una es diferente.

Para ejecutar un ANOVA, debe tener una variable de respuesta continua y al menos un factor categórico con dos o más niveles. Los análisis ANOVA requieren datos de poblaciones que sigan una distribución aproximadamente normal con varianzas iguales entre los niveles de factores. Sin embargo, los procedimientos de ANOVA funcionan bastante bien incluso cuando se viola el supuesto de normalidad, a menos que una o más de las distribuciones sean muy asimétricas o si las varianzas son bastante diferentes. Las transformaciones del conjunto de datos original pueden corregir estas violaciones.

Page 7: tallerdeinvestigacio.weebly.com · Web viewCalcular el tamaño de muestra para pruebas de hipótesis comunes (por ejemplo, igualdad de medios), la igualdad de proporciones, etc. Determinar

Tipo de ANOVA Modelo y propiedades del diseñoDe un solo factor Un factor fijo (niveles establecidos por el

investigador) que puede tener un número desigual (no balanceado) o igual (balanceado) de observaciones por tratamiento.

BalanceadoEl modelo puede contener cualquier número de factores aleatorios y fijos (los niveles se seleccionan de manera aleatoria) y factores anidados y cruzados, pero requiere un diseño balanceado.

Modelo lineal general Expande los ANOVA balanceados al permitir diseños no balanceados y covariables (variables continuas).

7. Pruebas de Bondad de ajuste (chi cuadrado) Definir, seleccionar e interpretar los resultados de estas pruebas. 

La prueba Ji cuadrada hace uso de la distribución del mismo nombre para probar la bondad del ajuste al comparar el estadístico de prueba Xo2 con el valor en tablas de la mencionada distribución Ji cuadrada con v grados de libertad y un nivel de significancia alfa. En la siguiente sección aplicaremos esta prueba para probar la hipótesis nula de que los números aleatorios (provenientes de un generador) se ajustan a la distribución teórica uniforme continua.

Sea X una variable aleatoria discreta con valores x1, x2,......., xn Se propone la hipótesis nula H0, de que la distribución de donde proviene la muestra se comporta según un modelo teórico específico tal como la uniforme, la exponencial, la normal, etc. Entonces FOi, representa el número de veces que ocurre el valor xi mientras que FEi, es la frecuencia esperada proporcionada por el modelo teórico propuesto. A menudo ocurre que muchas de las frecuencias FEi, (y también las FOi) son muy pequeñas, entonces, como regla práctica adoptamos el criterio de agrupar los valores consecutivos de estas frecuencias esperadas hasta que su suma sea de al menos cinco. La medida estadística de prueba para la hipótesis nula es

Para n grande este estadístico de prueba tiene una distribución X2 aproximada con V grados de libertad dados porV = (k –1) – (número de parámetros estimados)así, si se estiman dos parámetros como la media y la varianza, la medida estadística tendrá (k – 3) grados de libertad.

Page 8: tallerdeinvestigacio.weebly.com · Web viewCalcular el tamaño de muestra para pruebas de hipótesis comunes (por ejemplo, igualdad de medios), la igualdad de proporciones, etc. Determinar

Se puede aplicar esta prueba a variables continuas agrupando adecuadamente los valores en un número adecuado de subintervalos o clases k. Una regla empírica para seleccionar el número de clases es:

8. Las tablas de contingenciaSeleccionar, desarrollar y utilizar tablas de contingencia para determinar la significación estadística. 

Una tabla de contingencia es una tabla que cuenta las observaciones por múltiples variables categóricas. Las filas y columnas de las tablas corresponden a estas variables categóricas.Por ejemplo, después de una elección reciente entre dos candidatos, una encuesta de salida registró el sexo y el voto de 100 electores seleccionados de manera aleatoria y los datos se tabularon de la siguiente manera:

Candidato A Candidato B TodoHombre 28 20 48Mujer 39 13 52Todo 67 33 100

Esta tabla de contingencia cuenta las respuestas según sexo y voto. El conteo en la intersección de la fila i y la columna j se denota como nij, y representa el número de observaciones que muestra esa combinación de niveles. Por ejemplo, n1,2 muestra el número de encuestados masculinos que votaron por el Candidato B.La tabla también incluye los totales marginales para cada nivel de las variables. Los totales marginales para las filas muestran que 52 de los encuestados fueron mujeres. Los totales marginales para las columnas muestran que 67 de los encuestados votaron por el Candidato A. Además, la suma total muestra que el tamaño de la muestra es 100.Las tablas de contingencia también pueden revelar asociaciones entre las dos variables. Utilice una prueba de chi-cuadrado o una prueba exacta de Fisher para determinar si los conteos observados difieren significativamente de los conteos esperados bajo la hipótesis nula de que no existe asociación. Por ejemplo, usted podría probar si existe una asociación entre sexo y voto.

9. Pruebas no paramétricasSeleccionar, desarrollar y utilizar varias pruebas no paramétricas, incluyendo la mediana de Mood, prueba de Levene, Kruskal-Wallis, Mann-Whitney, etc.

Una prueba no paramétrica es una prueba de hipótesis que no requiere que la distribución de la población se caracterice en función de determinados parámetros. Por ejemplo, numerosas hipótesis se basan en el supuesto de que la población sigue una distribución normal con los parámetros μ y σ. Las pruebas no paramétricas no tienen este supuesto, de modo que son útiles cuando sus datos sean firmemente no normales y resistentes a transformaciones.

Page 9: tallerdeinvestigacio.weebly.com · Web viewCalcular el tamaño de muestra para pruebas de hipótesis comunes (por ejemplo, igualdad de medios), la igualdad de proporciones, etc. Determinar

Sin embargo, las pruebas no paramétricas no están completamente exentas de supuestos sobre los datos. Por ejemplo, las pruebas no paramétricas requieren que los datos sean una muestra aleatoria independiente.Por ejemplo, los datos sobre salarios son altamente asimétricos a la derecha, debido a que muchas personas devengan salarios modestos y pocas personas devengan salarios más cuantiosos. Usted puede utilizar pruebas no paramétricas en estos datos para responder a preguntas como las siguientes:

¿Es la mediana de los salarios de su compañía igual a un determinado valor? Utilice la prueba de los signos de 1 muestra.¿Es la mediana de los salarios de una sucursal bancaria urbana mayor que la mediana de los salarios de una sucursal bancaria rural? Utilice la prueba de Mann-Whitney o la prueba de Kruskal-Wallis.¿Son las medianas de los salarios diferentes según si la sucursal bancaria es rural, urbana y suburbana? Utilice la prueba de la mediana de Mood.¿Cómo el nivel de educación afecta los salarios en la sucursal rural y urbana? Utilice la prueba de Friedman.

Limitaciones de las pruebas no paramétricasLas pruebas no paramétricas tienen las siguientes limitaciones:Las pruebas no paramétricas son generalmente menos potentes que las pruebas correspondientes diseñadas para utilizarse con datos que provengan de una distribución específica. Por lo tanto, la probabilidad de que usted rechace la hipótesis nula cuando sea falsa es menor.Las pruebas no paramétricas con frecuencia requieren que usted modifique las hipótesis. Por ejemplo, la mayoría de las pruebas no paramétricas sobre el centro de la población son pruebas sobre la mediana y no sobre la media. La prueba no responde a la misma pregunta del mismo modo que el procedimiento paramétrico análogo.

Pruebas paramétricas alternativasCuando sea posible elegir entre el uso de un procedimiento paramétrico o no paramétrico, y usted está relativamente seguro de que se cumplen los supuestos para el procedimiento paramétrico, entonces utilice el procedimiento paramétrico.La siguiente lista muestra las pruebas no paramétricas junto con sus alternativas paramétricas.

Prueba no paramétrica Prueba paramétrica alternativaPrueba de los signos de 1 muestra Prueba Z de 1 muestra, prueba t de 1 muestraPrueba de Wilcoxon de 1 muestra Prueba Z de 1 muestra, prueba t de 1 muestraPrueba de Mann-Whitney Prueba t de 2 muestrasPrueba de Kruskal-Wallis ANOVA de un solo factorPrueba de la mediana de Mood ANOVA de un solo factorPrueba de Friedman ANOVA de dos factores

Page 10: tallerdeinvestigacio.weebly.com · Web viewCalcular el tamaño de muestra para pruebas de hipótesis comunes (por ejemplo, igualdad de medios), la igualdad de proporciones, etc. Determinar

C. Análisis de modo y efectos de falla (Failure mode and effects analysis “FMEA”)Describir el propósito y elementos del AMEF, incluyendo número de prioridad de riesgo (RPN) y evaluar los resultados del AMEF de procesos, productos y servicios. Distinguir entre diseño AMEF (DFMEA) y proceso de FMEA (PFMEA) e interpretar resultados de cada uno.

Tomado de las sectores que apuestan alto como la industria aeroespacial y defensa, el Análisis de Modo y Efecto de Fallos (AMEF) es un conjunto de directrices, un método y una forma de identificar problemas potenciales (errores) y sus posibles efectos en un SISTEMA para priorizarlos y poder concentrar los recursos en planes de prevención, supervisión y respuesta.Los Beneficios de implantación de AMEF en un sistema son: •Identifica fallas o defectos antes de que estos ocurran•Reducir los costos de garantías•Incrementar la confiabilidad de los productos/servicios (reduce los tiempos de desperdicios y re-trabajos)•Procesos de desarrollo más cortos•Documenta los conocimientos sobre los procesos•Incrementa la satisfacción del cliente•Mantiene el Know-How en la compañía  

Pasos para hacer un AMEF 1)  Determine el producto o proceso a analizar2)  Determinar los posibles modos de falla3)  Listar los efectos de cada potencial modo de falla4)  Asignar el grado de severidad de cada efecto  Severidad à La consecuencia de que la falla ocurra 5)  Asignar el grado de ocurrencia de cada modo de falla  Ocurrencia à la probabilidad de que la falla ocurra

Page 11: tallerdeinvestigacio.weebly.com · Web viewCalcular el tamaño de muestra para pruebas de hipótesis comunes (por ejemplo, igualdad de medios), la igualdad de proporciones, etc. Determinar

 6)  Asignar el grado de detección de cada modo de falla  Detección à la probabilidad de que la falla se detectada antes de que llegue al cliente 7)  Calcular el NPR (Numero Prioritario de Riesgo) de cada efecto  NPR =Severidad*Ocurrencia*detección 8)  Priorizar los modos de falla 9)  Tomar acciones para eliminar o reducir el riesgo del modo de falla 10)  Calcular el nuevo resultado del NPR para revisar si el riesgo ha sido eliminado o reducido