pruebas no paramétricas

ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA INEI

TEST DE HIPÓTESIS NO PARAMÉTRICOS

En las clases previas se han estudiado una serie de procedimientos estadísticos diseñados para

analizar variables cuantitativas: la prueba T para contrastar hipótesis sobre medias, el

estadístico Fdel análisis de varianza y de la prueba de Levene, etc. Todos ellos coinciden en

una serie de características:

1. Permiten contrastar hipótesis referidas a algún parámetro ( μ , σ2 , ρ , etc . ).2. Exigen el cumplimiento de determinados supuestos sobre las poblaciones originales de

las que se extraen los datos (generalmente normalidad y homocedasticidad).

3. Analizan datos obtenidos con una escala de medida de intervalo o razón.

Estas tres características combinadas permiten agrupar estos procedimientos estadísticos en una

gran familia de técnicas de análisis denominada contrastes paramétricos. Son, sin duda, las

técnicas estadísticas más frecuentemente utilizadas por analistas e investigadores en todo tipo de

áreas científicas, pero su utilidad se ve reducida, fundamentalmente, por dos razones: por un

lado exigen el cumplimiento de algunos supuestos que en ocasiones pueden resultar demasiado

exigentes; por otro, obligan a trabajar con unos niveles de medida que, especialmente en las

ciencias sociales y de la salud, no siempre resulta fácil de alcanzar.

Afortunadamente, los contrastes paramétricos no son los únicos disponibles. Existen contrastes

que permiten poner a prueba hipótesis no referidas a parámetros poblacionales, existen también

contrastes que no necesitan establecer supuestos exigentes sobre las poblaciones de donde se

extraen las muestras; y existen, por último, contrastes que no necesitan trabajar con datos

obtenidos con una escala de medida de intervalo o de razón. Esta otra familia de contraste se

conoce con el nombre de contrastes no paramétricos (o pruebas no paramétricas).

PRUEBAS PARA UNA MUESTRA

1. PRUEBA DE RACHAS

La prueba de rachas sirve para evaluar si una determinada secuencia de observaciones

es aleatoria, es decir, para estudiar si las observaciones de una determinada muestra son

independientes entre sí.

El concepto de racha hace referencia a una secuencia de observaciones de un mismo

tipo. Supongamos que se lanza una moneda al aire 10 veces y se obtiene el siguiente

Prof. david chanduvi puicon 1


resultado: CCCXCCXXXC. En este resultado hay 5 rachas: CCC, X, CC, XXX y C. a

simple vista el resultado obtenido es aleatorio.

Pues bien, la prueba de las rachas permite determinar si el número de rachas observado

en una determinada muestra de tamaño n es lo suficientemente grande o lo

suficientemente pequeño como para poder rechazar la hipótesis de independencia (o

aleatoriedad) entre las observaciones.

Si tenemos observaciones positivas y negativas ordenadas secuencialmente según el

tiempo, podríamos preguntarnos si tienen algún patrón particular o si se presentan en

forma aleatoria. Por ejemplo: si tuviéramos la sucesión de residuos siguiente:

Con n1=8 residuos positivos, n2=6 residuos negativos, n=14 residuos en total y u=7

rachas, ¿hemos observado algo muy poco probable bajo el supuesto de aleatoriedad?

¿Podría haber alguna variable oculta que justifique esto?

El estadístico de prueba que se utiliza será:

Z=u−μ ± 1

2σ

μ=2 n1 n2

n1+n2+1

σ=2n1n2 (2 n1n2−n1−n2 )

(n1+n2 )2 ( n1+n2−1 )Las pruebas de rachas pueden ser:

o Prueba de dos colas.

H0 :La secuencia de datos es aleatoria.

H1:La secuencia de datos no es aleatoria.

o Prueba de cola a la derecha.

H0 :La secuencia de datos es aleatoria.

H1:La secuencia muestra tendencia a la mezcla.



o Prueba de cola a la izquierda.

H 0 :La secuencia de datos es aleatoria.

H 1:La secuencia muestra tendencia a formar grupos.

Ejemplo 1:

Una empresa pretende enviar 58 empleados a realizar una capacitación de formación en

el extranjero, para ello elige entre sus trabajadores a 58 empleados de ambos sexos.

Siendo la sucesión de sexos la siguiente:

H H H H M M H M H M H H M M M H H M M M M H M M M H H M M H M H

M H H H M M M M M H H H H M M H M H H H H H M M M M

Verificar si el procedimiento ha sido aleatorio. Utilice un nivel de significancia de 0,05.

Planteamiento de Hipótesis:

La secuencia de observaciones es aleatoria

La secuencia de observaciones no es aleatoria

Procedimiento a seguir con el STATA

El comando que nos ofrece la prueba de rachas es runtest.

Decisión: No se rechaza la hipótesis nula (p=0.29)

Conclusión: La secuencia es aleatoria.

Ejemplo 2:

En una línea de producción industrial, los artículos se inspeccionan periódicamente para

verificar sus defectos. La siguiente es una secuencia de artículos defectuosos, D, y no

defectuosos, N, producidos en esta línea de producción:

D D N N N D N N D D N N N N

N D D D N N D N N N N D N D



Ejemplo 3:

En un aula la capacidad es para 39 alumnos. Se desea saber si el orden de entrada en

que entran los varones y las mujeres tienen tendencia a formar conglomerados (grupos

del mismo sexo)

Los datos se presentan a continuación:

M V M M M M V M M MM V V V M M M M M VV M M M M M V V V VV V V V M V V V V

Utilice un nivel de significancia de 0.05

Planteamiento de Hipótesis Estadísticas

La secuencia de observaciones es aleatoria

La secuencia de observaciones tiene tendencia a formar grupos.

Para el stata el comando es runtest

Decisión: Como el p valor es 0.01 se rechaza la hipótesis nula

Conclusión: Se concluye que el orden de entrada (por sexo) de los 39 alumnos tienen

tendencia a formar grupos, a un nivel de significancia de 0.05

Ejemplo 4:

En una siembra de maíz se desea determinar si el ataque por parte del “gusano

cogollero” en una hilera de plantas muestra una tendencia a la mezcla. Utilice un nivel

de significancia de 0.05. A continuación, se presentan los datos donde G significa que la

planta ha sido atacada por el gusano y S que la planta no ha sido atacada por el gusano

cogollero.

G S G G G S G G S GG S G G S G G S G GS G S G G

Con el stata el comando es runtest

Hipótesis Estadísticas

H 0 :La secuencia de datos es aleatoria.

H 1:La secuencia muestra tendencia a la mezcla.



Decisión: Como el p valor (0.02) es menor que el nivel de significancia 0.05 se rechaza

la hipótesis nula.

Conclusión: Se concluye que el orden de ataque a las plantas en una hilera de plantas de

maíz por parte del “gusano cogollero”, muestra tendencia a la mezcla (alternabilidad)

PRUEBA PARA DOS MUESTRAS INDEPENDIENTES

PRUEBA U DE MANN WHITNEY

La prueba U de Mann Whitney es una buena alternativa a la prueba t sobre diferencia de medias

cuando no se cumplen los supuestos en los que se basa la prueba t (normalidad y

homocedasticidad), o cuando no es apropiado utilizar la prueba t porque el nivel de medida de

los datos es ordinal.

La distribución del estadístico U de Mann Whitney se aproxima a la distribución normal a un

ritmo bastante rápido a medida que aumenta el número de observaciones muestrales. La

aproximación es adecuada si cada muestra contiene al menos 10 observaciones. Por lo tanto, de

preferencia considerar sólo aquellas muestras en las que n1 ≥10 y n2 ≥10 Para contrastar la

hipótesis nula de que la posición central de las dos distribuciones poblacionales es igual.,

suponemos que, aparte de la existencia de cualquier posible diferencia entre las posiciones

centrales, las dos distribuciones poblacionales son idénticas.

Supongamos que, aparte de la existencia de posibles diferencias entre las posiciones centrales,

las dos distribuciones poblacionales son idénticas. Supongamos que se dispone de n1

observaciones de la primera población y n2observaciones de la segunda. Se juntan las dos

muestras y se ordenan las observaciones en forma ascendente, asignando, en caso de empate, la

media de los puestos correspondientes. Sea R1 la suma de los puestos de las observaciones de la

primera población. En este caso, el estadístico U de Mann Whitney se define de la siguiente

forma:

U=n1 n2+n1 (n1+1 )

2−R1



Ejemplo 1:

A continuación, se presentan los datos acerca del número de horas semanales que los

estudiantes afirman que dedican a estudiar las asignaturas de Introducción a la economía

financiera y a la contabilidad. Estos datos provienen de muestras aleatorias de 10 estudiantes de

economía financiera y 12 de contabilidad. ¿Indican estos datos la existencia de una diferencia en

el número mediano de horas semanales que dedican los estudiantes a estudiar las asignaturas

anteriormente mencionadas?

10 136 178 1410 1212 1013 911 159 165 1111 8

97

Economía Financiera

Contabilidad


H 0 : Mediana (1) = Mediana (2)

H 1: Mediana (1) ≠ Mediana (2)

H 0 : Los estudiantes dedican la misma cantidad de tiempo a estudiar las asignaturas de

economía financiera y de contabilidad.

H 1: Los estudiantes no dedican la misma cantidad de tiempo a estudiar las asignaturas de

economía financiera y de contabilidad.

Elegimos un nivel de significancia del 0,05,

Con el STATA tenemos que la sintaxis es ranksum var1, by (var2)

Ejemplo 2:



A continuación vemos unas muestras de sueldos anuales iniciales, para quienes se inician en las

profesiones de contador público y de planificador financiero. Los sueldos anuales están

expresados en miles de dólares.

ContadorPlanificado

r

Público financiero

25.2 24

33.8 24.2

31.3 28.1

33.2 30.9

29.2 26.9

30 28.6

25.9 24.7

34.5 28.9

31.7 26.8

26.9 23.9

Con un nivel de significancia igual a 0.05 compruebe el supuesto de que no hay diferencia entre

los sueldos anuales iniciales de contadores públicos y de planificadores financieros. ¿Cuál es su

conclusión?

Ejemplo 3:

Se investigó el precio de cierta marca de horno microondas en 10 tiendas de Dallas y 13 de San

Antonio. Los resultados obtenidos aparecen a continuación. Use un nivel de significancia igual

a 0.05 y pruebe si los precios son iguales en las dos ciudades.

DallasSan

Antonio

445 460

489 451

405 435

485 479



439 475

449 445

436 429

420 434

430 410

405 422

425

459

430

PRUEBA PARA VARIAS MUESTRAS INDEPENDIENTES

PRUEBA H DE KRUSKAL WALLIS

La prueba de Mann Whitney para dos muestras independientes fue extendida al caso de más de

dos muestras por Kruskal Wallis. Teniendo en cuenta que en muchas situaciones reales resulta

demasiado arriesgado suponer normalidad y homocedasticidad (especialmente si las muestras

son pequeñas y/o los tamaños muestrales desiguales), y considerando además que en otras

situaciones el nivel de medida de los datos puede no ir más allá del ordinal, la prueba Kruskal

Wallis representa una excelente alternativa al ANOVA de un factor completamente

aleatorizado.

El estadístico de contraste se calcula como sigue:

KW=( 12N ( N+1 ) ∑ nR2)−3 (N+1 )

Donde:

N : Número total de casos.

n : Número de casos de cada grupo.

R : Promedio de rangos de cada grupo.

Cuando se hace la asignación de rangos hay observaciones empatadas, se debe de hacer una

corrección a la expresión anterior tal como sigue:



KW=( 12

N ( N+1 ) ∑ n R2)−3 ( N+1 )

1− ∑TN3−N

Donde:

T=t 3−t , y t representa el número de empates en cada conjunto de rangos repetidos.

Ejemplo.

En un hospital se desea verificar si existen diferencias o no en el nivel de estrés entre las

enfermeras de terapia intensiva, las de cirugía y las de urgencias; para ello se aplicó una escala

de 0= nada, 1= bajo, 2= medio, 3= alto, 4= muy alto, las calificaciones se muestran a

continuación:

3 3 42 3 31 4 21 4 40 2 32 2 41 1

Terapia Intensiva

Cirugía Urgencias


El nivel de estrés es igual entre las enfermeras de terapia intensiva, las de cirugía y las de

urgencias.

El nivel de estrés es diferente entre las enfermeras de terapia intensiva, las de cirugía y

las de urgencias.


Para la Prueba de Kruskal Wallis el comando es el siguiente: kwallis var1, by(var2)



Decisión: Como el p valor (0,0173) es menor al nivel de significancia (0,05), se rechaza la

hipótesis nula.

Conclusión: El nivel de estrés es diferente entre las enfermeras de terapia intensiva, las de

cirugía y las de urgencias.

Ejemplo 2:

Una psicóloga, empleada por una gran compañía, quiere evaluar dos programas para la

reducción de peso que piensa utilizar con los trabajadores de su corporación. Esta psicóloga

realiza un experimento en donde 18 empleados obesos se asignan de manera aleatoria a tres

condiciones, con 6 sujetos por condición. Los individuos bajo la condición 1 reciben una dieta

que reduce su ingesta diaria en 500 calorías. Los sujetos bajo la condición 2 reciben la misma

dieta, pero además deben caminar 2 millas por día. La condición 3 es de control, en la cual se

pide a los sujetos que continúen con su consumo normal de alimentos y con sus hábitos de

ejercicio. Los datos de la tabla representan el número de libras perdidas por cada sujeto durante

un periodo de 6 meses. Un número positivo indica una pérdida de peso y un número negativo

una ganancia de ésta. Utilizar

Dieta más Ejercicio

2 12 815 9 37 20 -16 17 -310 28 -214 30 -8

Dieta Control

Libras Perdidas

Ejemplo 3:

Con 40 minutos de practicar natación, tenis o ciclismo tres veces por semana, se consigue

perder peso. Los siguientes datos muestran la cantidad de calorías quemadas durante una

práctica de 40 minutos en tres actividades. ¿Indican estos datos que hay diferencias en la

cantidad de calorías quemadas en cada actividad? Use un nivel de confianza de 0,05.

Natación Tenis Ciclismo

408 415 385



380 485 250

425 450 295

400 420 402

427 530 268

Ejemplo 4:

Los siguientes datos representan los tiempos de operación, en horas, de tres tipos de

calculadoras científicas de bolsillo hasta antes de que requieran cargarlas.

Calculadora

A B C

4.9 5.5 6.4

6.1 5.4 6.8

4.3 6.2 5.6

4.6 5.8 6.5

5.3 5.5 6.3

5.2 6.6

4.8

¿Serán los tiempos de operación para las tres calculadoras iguales? Utilice un nivel de

significancia de 0.05.

PRUEBA PARA DOS MUESTRAS RELACIONADAS

PRUEBA DE LOS SIGNOS

Este contraste es el más sencillo. Se utiliza principalmente para contrastar hipótesis sobre la

posición central (mediana) de una distribución poblacional o para analizar datos de una muestra

pareada.

Supongamos que se toman muestras aleatorias pareadas de una población, descartando las

diferencias iguales a cero. Calculamos la diferencia para cada par de observaciones y anotamos

el signo de esta diferencia. El contraste de signos se utiliza para contrastar



H 0 : p=0,5

Donde pes la proporción de observaciones no nulas en la población que son positivas. El

estadístico del contraste S para la comparación de dos muestras pareadas es simplemente:

S=¿ Número de pares que tienen una diferencia positiva.

Donde S sigue una distribución binomial, donde p=0,5 y n representa el número de diferencias

no nulas.

Ejemplo:

Un restaurante italiano cercano a un campus universitario está considerando la posibilidad de

utilizar una nueva receta para hacer la salsa que hecha a las pizzas. Se elige una muestra

aleatoria de 8 estudiantes y se pide a cada uno que valore en una escala del 1 al 10 su opinión

sobre la salsa original y sobre la salsa propuesta. La tabla siguiente muestra las valoraciones

obtenidas en la comparación; los números más altos indican que gusta más el producto. ¿Indican

los datos una tendencia general a preferir la nueva salsa a la original?

1 6 82 4 93 5 44 8 75 3 96 6 97 7 78 5 9

EstudianteProducto original

Producto nuevo


H 0 : p=0,5 No hay una tendencia general a preferir uno de los productos al otro.

H 1: p<0,5 La mayoría prefiere el nuevo producto (o menos del 50% prefiere el producto

original)




El comando a utilizar es: signtest var1=var2

Decisión: Como el p valor (0,2266) es mayor que el nivel de significancia (0,05) No se rechaza

la hipótesis nula.

Conclusión: No existe suficiente evidencia para afirmar que la mayoría prefiere el nuevo

producto o menos del 50% prefiere el producto original, ni tampoco lo contrario, a un nivel de

significancia de 0.05

PRUEBA DE WILCOXON

Uno de los inconvenientes de la prueba del signo es que sólo tiene en cuenta una cantidad muy

reducida de información, a saber, los signos de las diferencias. Cuando el tamaño de muestra es

muy pequeño, es de esperar, pues, que el contraste no sea muy poderoso. La prueba de

Wilcoxon basado en el ordenamiento de las diferencias es un método que incorpora información

acerca de la magnitud de las diferencias de pares enlazados.

Este contraste puede emplearse cuando se dispone de una muestra aleatoria de pares enlazados

de observaciones. Supongamos que la distribución poblacional de las diferencias en estas

muestras pareadas es simétrica y que se quiere contrastar la hipótesis nula de que esta

distribución es centrada en cero. Descartando los pares en que las diferencias son cero,

ordenamos las observaciones absolutas restantes en sentido ascendente; en caso de empate, el

puesto asignado a la media de los puestos que ocupan en la ordenación. Se calculan la suma de

los puestos correspondientes a las diferencias positivas y negativas y la menor de estas sumas es

el estadístico de Wilcoxon, es decir,

T=min ¿

Donde

T +¿: ¿ Suma de los puestos correspondientes a diferencias positivas.

T−¿ :¿ Suma de los puestos correspondientes a diferencias negativas.

n : Número de diferencias no nulas.

Ejemplo 1:



Se realizó un experimento psicológico para comparar los tiempos de reacción (en segundos)

para dos estímulos diferentes. Con el objeto de eliminar la variabilidad natural de persona a

persona en las respuestas, se aplicaron en ambos estímulos a cada uno de 9 individuos, lo que

permite realizar un análisis de la diferencia entre los estímulos para cada persona.

Individuo : 1 2 3 4 5 6 7 8 9

Estímulo 1: 9.4 7.8 5.6 12.1 6.9 4.2 8.8 7.7 6.4

Estímulo 2: 10.3 8.9 4.1 14.7 8.7 7.1 11.3 5.2 7.8

Contrastar la hipótesis de que no hay diferencia en las respuestas



El comando a utilizar es: signrank var1=var2

Decisión: Como el p valor () es mayor que el nivel de significancia (0,05) No se rechaza la

hipótesis nula.

Conclusión: No existe suficiente evidencia para afirmar que la mayoría prefiere el nuevo

producto o menos del 50% prefiere el producto original, ni tampoco lo contrario, a un nivel de

significancia de 0.05

Ejemplo 2:

Para probar los efectos de un relajante en cuanto al tiempo necesario para que los adultos

hombres se duerman, se usó una muestra de 10 hombres. A continuación vemos los datos de esa

muestra, donde se aprecian los minutos necesarios para dormirse con y sin el relajante. Use un



nivel de significancia igual a 0.05 para determinar si el calmante reduce el tiempo requerido

para dormir. ¿Cuál es su conclusión?

PersonaSin Con

Relajante Relajante

1 15 10

2 12 10

3 22 12

4 8 11

5 10 9

6 7 5

7 8 10

8 10 7

9 14 11

10 9 6

Ejemplo 3:

Se llevó a cabo una prueba con dos empresas de mensajería y paquetería. Se prepararon dos

muestras de paquetes idénticos y simultáneamente se requirieron los servicios de mensajería

para su entrega. Las horas requeridas para cada entrega aparecen a continuación. ¿Indican los

datos que hay una diferencia entre los tiempos de entrega de las dos empresas? Utilice un nivel

de significancia de 0.05.

Empresapaquete

1 2

1 24.5 28

2 26 25.5

3 28 32

4 21 20

5 18 19.5

6 36 28

7 25 29

8 21 22



9 24 23.5

10 26 29.5

11 31 30

PRUEBA PARA VARIAS MUESTRAS RELACIONADAS

PRUEBA DE FRIEDMAN

Esta prueba sirve para comparar J promedios poblacionales cuando se trabaja con muestras

relacionadas. Como en el caso de la prueba de Kruskal Wallis, para esta prueba tampoco es

necesario establecer los supuestos de normalidad y heterocedasticidad y permite trabajar con

datos ordinales, por tanto, esta prueba constituye una alternativa al estadístico F cuando no se

cumplen los supuestos ya señalados del ANOVA o el nivel de medida de los datos es ordinal.

El estadístico de prueba se calcula mediante la siguiente expresión:

F r=( 12Nk (k+1)∑ R2)−3 N (k+1)

Donde:

N : Número total de casos.

k : Número de mediciones.

R : Suma de rangos de cada medición.

Sin embargo si se hace la asignación de rangos hay observaciones empatadas, se debe de hacer

una corrección a la expresión anterior tal como sigue:

F r=12∑ R2−3 N 2 k ( k+1 )2

Nk ( k+1 )+Nk−∑ t 3

k−1

Donde t representa el número de empates en cada conjunto de rangos iguales por cada sujeto, se

incluyen los conjuntos con rangos únicos (empates=1).

Ejemplo 1:



Se desea verificar si existen o no diferencias en el nivel de estrés laboral en trabajadores de una

empresa antes y después de un taller sobre manejo del estrés en el trabajo, además se realizó la

mediación de seguimiento un mes después de finalizado el taller; el nivel de estrés se midió en

una escala de 0=nada, 1= bajo, 2= medio, 3= alto, 4= Muy alto, las calificaciones se muestran a

continuación:

3 2 33 1 22 1 14 2 23 1 23 0 11 2 4

Antes del Taller

Después del Taller

Seguimiento

H 0 : El nivel de estrés laboral en trabajadores es igual entes del taller para el manejo del estrés

en el trabajo, después del taller y en el seguimiento.

H 1: El nivel de estrés laboral en trabajadores es diferente, entes del taller para el manejo del

estrés en el trabajo, después del taller y en el seguimiento.

Ejemplo 2.

Se realizó un experimento para investigar los efectos tóxicos de tres productos químicos A, B,

C, en la piel de ratas. Se marcan tres cuadrados adyacentes de una pulgada sobre el lomo de 8

ratas y se aplica cada uno de los productos químicos a cada rata. Los cuadrados de piel se

califican de 0 a 10, según el grado de irritación. Los datos se muestran en la tabla siguiente:

Producto Químico

Rata A B C

1

2

3

4

6

9

6

5

5

8

9

8

3

4

3

6



5

6

7

8

7

5

6

6

8

7

7

5

9

6

5

7

¿Hay evidencia suficiente para apoyar la hipótesis de investigación de que la distribución de

probabilidad de los resultados de la irritación en la piel que corresponde a los tres productos

químicos difiere en ubicación?

Planteamiento de hipótesis

Ejemplo 2:

Un fisioterapeuta realizó un estudio para comparar tres modelos diferentes de estimuladores

eléctricos de bajo voltaje. A nueve fisioterapeutas se les pidió que clasificaran en orden de

preferencia a esos tres generadores. Una jerarquía de 1 indica la primera preferencia. Los

resultados se muestran a continuación. Se pretende saber si es posible concluir que los modelos

no tienen igualdad de preferencia.

TerapeutaModelo

A B C

1 2 3 1

2 2 3 1

3 2 3 1

4 1 3 2

5 3 2 1

6 1 2 3

7 2 3 1

8 1 3 2

9 1 3 2

Ejemplo 3:



La siguiente tabla indica las calificaciones obtenidas por nueve estudiantes de enfermería

seleccionados al azar en los exámenes finales de tres materias distintas. ¿Tendrán los

estudiantes un aprovechamiento igual en las tres materias? Use α= 0.05.

EstudianteÁrea de estudio

Básica Fisiología Anatomía

1 98 95 77

2 95 71 79

3 76 80 911

4 95 81 84

5 83 77 80

6 99 70 93

7 82 80 87

8 75 72 81

9 88 81 83


pruebas no paramétricas

Documents