bi o e s ta d í s t i c a

302

Upload: others

Post on 11-Jul-2022

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Bi o e s ta d í s t i c a
Page 2: Bi o e s ta d í s t i c a

Bioestadística cualitativa

Bioestadística cualitativa.indd 1 25/06/2010 12:19:36 p.m.

Page 3: Bi o e s ta d í s t i c a

Bioestadística cualitativa

M. Sc. Esteban Egaña MoralesProfesor de Bioestadística del Instituto de Ciencias Básicas

y Preclínicas Victoria de Girón

Bioestadística cualitativa.indd 3 25/06/2010 12:19:36 p.m.

Page 4: Bi o e s ta d í s t i c a

Edición, composición e ilustraciones: Ing. José Quesada PantojaDiseño: Yisleidy Llufrío

© Esteban Egaña Morales, 2010© Sobre la presente edición: Editorial Ciencias Médicas, 2010

ISBN 978-959-212-617-6

Editorial Ciencias MédicasCentro Nacional de Información de Ciencias MédicasCalle 23, No. 117 e/ N y O, Edificio Soto, El Vedado,Ciudad de La Habana, CP 10400, Cuba.http:///www.sld.cu/sitios/ecimed/Correo electrónico: [email protected]éfonos: 838 3375 / 832 5338

Catalogación Editorial Ciencias Médicas

Egaña Morales, Esteban Bioestadística cualitativa. —La Habana: Editorial Ciencias Médicas, 2010. 294 p.: il., tab.

WA 950

Bioestadística, interpretación estadística de datos, estadística como asunto

Bioestadística cualitativa.indd 4 25/06/2010 12:19:36 p.m.

Page 5: Bi o e s ta d í s t i c a

A mi esposa, Olga Fernández Alonso, estadística también, que con amor me ha ayudado mucho, y a mi hijo Giani, que ha seguido nuestros pasos en la matemática y ya comienza a superarnos, lo que nos reconforta.

Bioestadística cualitativa.indd 5 25/06/2010 12:19:36 p.m.

Page 6: Bi o e s ta d í s t i c a

Prefacio

Las pruebas de hipótesis estadísticas que no exigen el conocimiento previo de la distribución poblacional se denominan no paramétricas o de libre distribución, en contraposición a las más conocidas pruebas paramétricas, que si lo exigen. En este libro solo se tratarán pruebas de hipótesis para datos en escalas nominales y ordinales que constituyen la gran mayoría de las no paramétricas, además de elementos de la estadística descriptiva, correspondientes a estos datos, a esto se debe la denominación de estadística cualitativa, teniendo en cuenta la clasi-ficación, poco precisa, de las variables en cualitativas y cuantitativas, así como la reciente proliferación del término investigación cualitativa, que se escucha frecuentemente en los medios sociales.

A causa del desconocimiento de las pruebas no paramétricas, en las ciencias sociales y otras afines han aparecido artículos, libros, po-nencias y cursos de la llamada investigación cualitativa y metodología de la investigación, que por lo común niegan el uso de la estadística en la investigación. Las investigaciones se dividen al efecto en dos grandes grupos: las experimentales, que se basan en la realización de experimentos con objetos y procesos de la realidad objetiva que generan datos, que es necesario cuantificar y procesar estadísticamente, y las teóricas que no necesitan realizar experimentos en la realidad objetiva porque por ser teóricas solo trabajan con sus modelos teóricos y el ra-zonamiento lógico y matemático a partir de axiomas y proposiciones. Pero estas investigaciones teóricas son mucho menos frecuentes que las experimentales y es por eso que los métodos estadísticos se usan en la mayoría de las investigaciones, es decir, en las experimentales.

Lo que sucede es que hay gran desconocimiento de los métodos estadísticos en general y de los no paramétricos en particular. Muchas personas no saben que las variables cualitativas también se cuantifican, mediante las frecuencias las nominales y por el orden y el rangueo las ordinales, en este libro se ofrecen más de 40 procedimientos estadísticos de esta índole. Las pruebas de hipótesis no paramétricas son menos po-tentes que las paramétricas por utilizar menos información de los datos,

Bioestadística cualitativa.indd 7 25/06/2010 12:19:37 p.m.

Page 7: Bi o e s ta d í s t i c a

solo la nominal unas, otras la nominal y ordinal, pero ninguna la métrica, o sea se utilizan sólo cuando las variables están en escalas nominal u ordinal o cuando están en escala de intervalo o razón y no cumplen las condiciones que exigen las pruebas paramétricas correspondientes, algo muy corriente. Lo de menor potencia se puede resolver aumentando un poco el tamaño de las muestras.

En la investigación médica y biológica aparecen con frecuencia datos en escalas nominales y ordinales, es decir, cualitativas, pero hay que tener cuidado con esta última denominación, porque un número n es también una cualidad, la común a todos los conjuntos de n elementos. Este libro está orientado a superar el desconocimiento acerca de gran cantidad de métodos estadísticos ampliamente aplicables en esta y otras ciencias y tecnologías, de las que la investigación médica se nutre y a las que también tributa. La introducción de conocimientos debe empezar por la enseñanza en los centros académicos y de investigación médica, por lo que este texto es para los estudiantes, incluidos los residentes y demás cursos de superación, así como de consulta para los profesionales que investigan, principalmente.

La necesidad obligó a las investigaciones biológicas y médicas a utilizar la estadística y a reconocerla como una especialidad propia, la bioestadística, que no es más que la estadística aplicada en la biología y la medicina, o sea, la que abarca los métodos estadísticos más aplicados en estas, aunque, ¿cuáles métodos estadísticos no se usan en ellas? Algu-nos matemáticos y estadísticos desdeñan los métodos no paramétricos, incluidos los aplicables a variables en escalas nominales y ordinales, por ser menos potentes, pero, ¿qué hacer si se presentan en la realidad datos en estas escalas o no se cumplen las condiciones que exigen los correspondientes métodos paramétricos que son bastante restrictivos?, ¿aplicárselos indebidamente como hacen algunos por desconocimiento o comodidad? Desde todos los puntos de vista, resulta más apropiado y beneficioso aplicar rigurosamente los métodos no paramétricos y utilizar en cada caso el más apropiado y el que más información pueda extraer de los datos.

La tecnología estadística, basada fundamentalmente en la teoría de las probabilidades y la matemática en general, ofrece métodos y procedi-mientos para estudiar la realidad objetiva, ya hace algún tiempo el gran Laplace afirmaba que: “en el fondo la teoría de probabilidades es apenas el sentido común expresado en números”. Pero las teorías, incluida la de probabilidades, por su naturaleza, trabajan con entes y procesos ideales, así como con sus relaciones. Para el tratamiento de los entes y procesos de la realidad objetiva, y por tanto no ideales, están las tecnologías, como es el caso de la estadística.

Bioestadística cualitativa.indd 8 25/06/2010 12:19:37 p.m.

Page 8: Bi o e s ta d í s t i c a

Ambas, la teoría de probabilidades y la estadística, permiten una mejor y mayor comprensión del mundo, mediante el estudio de los fenómenos aleatorios que constituyen la inmensa mayoría de los exis-tentes y permiten orientarse mejor en ellos, a no aceptar afirmaciones a priori, sin fundamentación, al menos estadística, e interpretar con mayor conciencia la confiabilidad de una estimación y la significación o no de una diferencia o una asociación, la probabilidad de equivocación en una decisión, así como diferenciar el procesamiento estadístico, cons-ciente y riguroso, de los datos de la manipulación con mala intención o errónea por desconocimiento o a propósito. Esto nos situará en mejores condiciones de argumentar nuestras propias afirmaciones.

La mayoría de los fenómenos de la naturaleza y la sociedad son aleatorios, algunos evidentemente y otros se revelan como tales al afinar la medición y tratarlos multilateralmente en la madeja de los múltiples factores que sobre ellos influyen. Para su estudio, a menudo todos o una buena parte de ellos, juntos se consideran un único factor aleatorio.

De modo que los profesionales de la medicina como los de la biología, armados de al menos algunos conocimientos de esta teoría y su aplicación a la realidad, estarán más capacitados para interpretar y transformar, en beneficio de la sociedad, los fenómenos de nuestro mundo y habrán abierto la puerta de acceso al conocimiento de las leyes probabilísticas que gobiernan una buena parte de él, en fin tendrán una mejor concepción del mundo.

La tecnología informática ha aportado y aporta la posibilidad de sua-vizar extraordinariamente la aplicación de los métodos probabilístico-estadísticos, de modo que ya no se requiere, necesariamente, dominar el aparato de cálculo y procesamiento numérico, sino solamente interpretar los resultados del método estadístico aplicado y claro está, conocer algún manejo de los datos en algún software estadístico actual; esto es muy conveniente para la difusión de la estadística entre los profesionales y estudiantes no matemáticos.

La medicina, inmersa en este mundo no es ajena a este proceso universal y por tanto tampoco debe ser ajena al estudio y dominio de una buena parte de los métodos estadísticos menos conocidos como los no paramétricos.

No obstante estar dedicado este libro al procesamiento estadístico de datos en escalas nominales y ordinales, se han incluido como modelos para introducir los métodos no paramétricos unos pocos y básicos mé-todos paramétricos como los de correlación lineal, así como pruebas de hipótesis para la media de una población, como punto de partida para las correspondientes pruebas para las variables nominales y ordinales. El resto es estadística descriptiva y pruebas de hipótesis para variables en

Bioestadística cualitativa.indd 9 25/06/2010 12:19:37 p.m.

Page 9: Bi o e s ta d í s t i c a

escalas nominales y ordinales ordenadas por escalas de cuantificación y número de poblaciones.

La clasificación en escalas nominales, ordinales, de intervalo y de razón es más amplia y por tanto más discriminatoria que la clasificación en solo dos clases como son las discretas y continuas, cualitativas y cuantitativas, categóricas y numéricas. Los métodos o procedimientos estadísticos se ajustan mejor a esta clasificación, por la necesidad de diferenciar entre la escala nominal y la ordinal y, claro está, la de in-tervalo y razón, cuyos métodos o procedimientos estadísticos no trata, teniendo en cuenta que la mayoría de los textos se limitan a estos, que son más conocidos y si acaso mencionan unos pocos métodos no paramétricos.

En realidad se escribió este libro como complemento al tomo 2 de Informática médica, o Bioestadística, de un colectivo de autores encabezado por José A. Torres Delgado, que solo trata los métodos paramétricos, elementos de metodología de la investigación y de esta-dísticas de salud y de los no paramétricos solo la prueba ji cuadrado y una prueba de proporciones muy limitadas.

También se incluye en este libro, como complementos, además de cuestiones de interés de la estadística, algunos elementos del procesa-miento de datos con las facilidades que proporciona la hoja de cálculos de Microsoft Excel, muy útiles para conformar los archivos o matrices de datos en la forma que lo requieren los distintos métodos estadísticos y calcular los estadígrafos y probabilidades que no aparecen programados en el software estadístico actual.

Bioestadística cualitativa.indd 10 25/06/2010 12:19:37 p.m.

Page 10: Bi o e s ta d í s t i c a

Contenido

Introducción / 1

Capítulo 1. Estadística descriptiva / 51.1. Escalas de cuantificación / 51.2. Distribuciones de frecuencias según las escalas de cuantificación / 71.3. Representaciones gráficas de las distribuciones de frecuencias / 131.4. Distribuciones de frecuencias por intervalos de clase y bivariada / 181.5. Indicadores de tendencia central / 241.6. Indicadores de posición / 281.7. Indicadores de dispersión / 301.8. Conjuntos, matrices, ficheros o archivos de datos en las diferentes

escalas / 331.9. Indicadores de correlación / 351.10. Coeficientes de correlación de Spearman, punto biserial

y V de Cramér / 391.11. Coeficientes de correlación de Kendall / 541.12. Valores críticos de los coeficientes de correlación / 601.13. Diseño de experimentos / 65

Capítulo 2. Pruebas de hipótesis / 682.1. Conceptos básicos de pruebas de hipótesis / 682.2. Algoritmo general para realizar una dócima de hipótesis / 702.3. Dócimas para la media de una población / 712.4. Decisión sobre la base de una probabilidad / 77

Capítulo 3. Dócimas para muestrasen escalas nominales / 793.1. Dócimas para una población / 793.2. Dócimas para dos poblaciones / 963.3. Dócimas para más de dos poblaciones / 116

Capítulo 4. Dócimas para muestras en escalas ordinales / 1214.1. Dócimas para una población / 1214.2. Dócimas para dos poblaciones / 1344.3. Dócimas para más de dos poblaciones / 167

Bioestadística cualitativa.indd 11 25/06/2010 12:19:37 p.m.

Page 11: Bi o e s ta d í s t i c a

Capítulo 5. Problemas y suplementos / 1755.1. Opciones de Excel para el procesamiento estadístico / 1755.2. Problemas resueltos y propuestos / 2225.3. Distribución de las pruebas (dócimas o test) de hipótesis por escala

de cuantificación de las variables, el número de poblaciones y el tipo de muestras / 240

5.4. Ejemplo de cómo informar el resultado de la aplicación de una prueba de hipótesis con un software estadístico / 242

5.5. Elementos de regresión logística / 2435.6. Registro de la información observada como variables / 2535.7. Hacer comparables las variables mediante rangueo, estandarización

y recodificación / 2615.8. Proporciones y algunas de sus aplicaciones en medicina / 2645.9. Estimación puntual y por intervalo de una proporción / 2665.10. Media, varianza y coeficiente de correlaciónde las variables

dicotómica / 2695.11. Confiabilidad y validez / 2715.12. Transformación de una tabla de contingencia en matriz de datos / 2735.13. Demostración de la relación entre los coeficientes de correlación

rangos de Spearman y lineal de Pearson / 2755.14. Deducción de la fórmula del estadígrafo ji cuadrado de la dócima

de independencia en tablas de contingencia de dos por dos / 2765.15. ¿Son cualitativas las “investigaciones cualitativas”? / 278

Bibliografía / 289

Índice de materias / 291

Bioestadística cualitativa.indd 12 25/06/2010 12:19:38 p.m.

Page 12: Bi o e s ta d í s t i c a

1

Introducción

En toda investigación experimental se requiere cuantificar la infor-mación obtenida del experimento para registrarla en un medio en que se pueda anotar, generalmente en forma de una matriz de datos o base de datos en una simple hoja de papel o un archivo de algún software de computadora tabulado habitualmente en columnas encabezadas por los nombres de las variables (campos) y filas en que aparecen los valores de las variables (registros de los individuos). Salvo por un objetivo es-pecífico que recomiende otra cosa, se debe registrar lo observado en la escala de cuantificación superior, para obtener la máxima información posible en lo registrado y poder discriminar adecuadamente el tipo de procesamiento estadístico a utilizar.

Por esta razón y por el hecho de que el método estadístico a aplicar depende de la escala de cuantificación en que se encuentren los datos es que lo primero que se tratará son las escalas de cuantificación con la máxima capacidad discriminadora posible que es la que considera cuatro escalas: nominal, ordinal, de intervalo y de razón.

Inmediatamente después se aborda el problema de las distribuciones de frecuencias según las escalas de cuantificación:

– Si la escala es nominal solamente se pueden construir con ellas distribuciones de frecuencias absolutas y relativas.

– Si la escala es ordinal se pueden construir, además, distribuciones acumulativas absolutas y relativas y aplicar métodos estadísticos basados en el orden o los rangos de los puntajes.

El primer procedimiento estadístico empleado en las investigaciones experimentales son las distribuciones de frecuencias, que sirven para explorar los datos y descubrir sus primeras regularidades. Muchos trabajos investigativos experimentales aplican estas distribuciones, comentando separadamente una frecuencia absoluta o porcentual aquí y otra más adelante aisladamente, es preferible situarlas todas en una tabla de frecuencias que puede, además, representarse gráficamente con varios tipos de gráficas estadísticas que permitirán evidenciar regulari-dades en el conjunto de datos muestrales.

Bioestadística cualitativa.indd 1 25/06/2010 12:19:38 p.m.

Page 13: Bi o e s ta d í s t i c a

2

Una distribución de frecuencia no es más que una agrupación de los datos para simplificar su interpretación inicial. A menudo hay que llegar a un máximo agrupamiento y simplificación de los datos al calcular con ellos indicadores de tendencia central, posición, dispersión, asociación y correlación, consistentes en un único puntaje que describe e identifica a todo un conjunto de datos. Tanto las distribuciones de frecuencias como estos indicadores describen conjuntos de datos, valores de una variable, o la relación de una variable con otra u otras. Es objetivo de la estadística describir, estimar parámetros, decidir acerca de las distribuciones o parámetros poblacionales a partir de datos muestrales consistentes en conjuntos de datos o de observaciones de un grupo de individuos o repetidas de un único individuo.

Pero los datos son “tercos”, para aplicar los métodos estadísticos se requiere, además, un manejo eficiente de los datos, que incluye la creación de archivos, bases o matrices de datos, su transformación o recodificación por fila o columna, su transposición, su división para crear subconjuntos de datos, la mezcla de dos o más filas o columnas de una matriz de datos o de dos matrices de datos en una sola. También es conveniente saber identificar cuando las variables son independientes y cuando apareadas o igualadas, la escala de cuantificación en que están y como están dispuestas. En general se trata de acomodar los datos al procedimiento estadístico que se desea aplicar o a como lo exige el software estadístico a utilizar, pero todo eso sin perder de vista el no alterar la información que los datos originales contienen. Todas estas situaciones se pueden observar en los ejemplos que acompañan a cada procedimiento, que se pide repetir creadoramente en los problemas propuestos para que el lector adquiera habilidad en ello. Para el proce-samiento requerido son muy útiles los software estadísticos, las hojas de cálculo como el Microsoft Excel y los procesadores de texto, así como la vinculación creadora entre ellos.

Un curso de estadística moderno es inconcebible sin el uso de un conjunto de computadoras personales y software estadísticos y de uso general como apoyo, es muy conveniente que el profesor cree previa-mente un archivo o matriz de datos con unas 11 variables de todas las escalas: tres en escalas nominales comparables, tres en escalas ordinales con seis o siete valores comparables entre sí, tres en escalas de intervalo o razón también comparables y dos para facilitar la formación de grupos o muestras independientes, una con dos valores y la otra con tres. Al menos dos de estas variables deben tener distribución normal y corre-lación alta entre varios pares de variables. Las parejas y ternas tanto de las variables en una misma escala representarán variables apareadas o igualadas y las que tienen pocos valores servirán para dividir los datos

Bioestadística cualitativa.indd 2 25/06/2010 12:19:38 p.m.

Page 14: Bi o e s ta d í s t i c a

3

en grupos o muestras independientes. El total de datos se sugiere que sea de 50 como mínimo, para que cuando se subdividan en grupos estos sean de un tamaño no muy pequeño. Se debe tener en cuenta, además, que el estudiante debe saber trabajar con un número grande de elementos, lo que se acerca más a la realidad.

Con esta tabla o archivo de datos, de 11 columnas por 50 filas o más, se podrán resolver prácticamente todos los problemas de apli-cación de los distintos métodos estadísticos básicos que incluyan los programas, en particular los de pruebas de hipótesis. Con este archivo de datos habrá la posibilidad de aplicar pruebas de dos, tres y más variables independientes o igualadas, así como de construir tablas de frecuencias bivariadas con dos, tres y más categorías, pero este archivo necesariamente tendría que ser de datos ficticios en mayor o menor grado, salvo que se tenga mucha experiencia en la especialidad hacia la cual va dirigido, para lograr que sea representativo de muchas situa-ciones que se dan en la realidad relacionadas con ellas. Dos modelos de estos archivos son el denominado DatosM2 elaborado con registros de psiquiatría y dirigido hacia la docencia en las distintas carreras de ciencias médicas, y DatosMT para la evaluación de los estudiantes, que se incluyen en el libro.

Bioestadística cualitativa.indd 3 25/06/2010 12:19:38 p.m.

Page 15: Bi o e s ta d í s t i c a

5

Capítulo 1

Estadística descriptiva

Se tratarán procedimientos estadísticos que permitirán descubrir regula-ridades en los conjuntos de datos, reduciendo las variables a un conjunto de clases o categorías acompañadas de sus frecuencias llamadas distribuciones de frecuencias univariadas y bivariadas, así como sus representaciones gráficas, indicadores numéricos de tendencia central, posición, dispersión y correlación, que incluyen elementos descriptivos de regresión lineal y cuatro coeficientes de correlación que cubren prácticamente todos los casos que se dan en una matriz de datos.

1.1. Escalas de cuantificación

De forma general una medición consiste en establecer una correspondencia entre un conjunto de manifestaciones de una propiedad a medir y un conjunto de entes que se asumen como los valores de la medición.

Si a este conjunto de elementos se le provee de una estructura, es decir, se define en él una o más relaciones entre sus elementos de forma tal que reflejen las relaciones existentes entre la forma de manifestación de la propiedad que se mide, entonces este conjunto provisto de esa estructura pasa a ser un modelo por medio del cual es posible el estudio de esa propiedad, es decir, a partir de este momento se sustituye la investigación directa sobre los objetos y fenómenos que la poseen por el estudio de esa estructura.

Este modelo por medio del cual se concreta el proceso de medición, que determina qué procesamiento estadístico puede realizarse, posteriormente, con esa información recopilada se denomina escala de medición o mejor de cuantificación.

Hay cuatro escalas de cuantificación: nominal, ordinal, intervalo y razón o proporción.

Se parte de un conjunto A. Se dirá que sus elementos están en:

– Escala nominal: cuando se define una relación de equivalencia entre ellos; esto es, se establece un número determinado de clases o categorías tales que cada elemento pertenezca a una y solo una clase.

Bioestadística cualitativa.indd 5 25/06/2010 12:19:38 p.m.

Page 16: Bi o e s ta d í s t i c a

6

– Escala ordinal: si están en una escala nominal entre cuyas clases está definido un orden de modo que cualesquiera que sean dos de ellas una será mayor o superior, en algún sentido, que la otra. Esta estructura satisface las exigencias de una relación de orden. A partir de esta escala las clases se denominan puntajes.

– Escala de intervalo: si están en una escala ordinal en que se ha definido una métrica esto es una unidad de medida, una distancia entre sus puntajes consecutivos de modo tal que la proporción o razón entre las longitudes de dos intervalos cualesquiera permanece invariable ante toda transformación de la escala en otra escala de intervalo, o sea. ante toda transformación del tipo y = ax + b.

– Escala de razón: si están en una escala de intervalo que posee un cero absoluto, en ella la razón entre dos puntajes cualesquiera permanece invariable ante toda transformación de la escala en otra escala de razón, o sea, ante toda transformación del tipo y = ax.

Por ejemplo, la clasificación de las personas que van a una consulta médica puede incluir:

– Si presentan o no una patología y se obtiene una variable dicotómica o binaria.

− El tipo de patología que presenta (variable en escala nominal).− El grado en que presentan la patología principal (variable en escala

ordinal).− Su temperatura corporal en grados Celsius (variable en escala de

intervalo).− Su peso en kilogramos (variable en escala de razón).

Esta clasificación en cuatro escalas permite una mayor y mejor discrimina-ción de los métodos estadísticos que las que se mencionarán a continuación.

1.1.1. Otras clasificaciones de las variables

Una variable es un ente que puede tomar los distintos valores de un conjunto determinado, se denotan habitualmente con letras mayúsculas X, Y, Z y sus po-sibles valores forman el conjunto que se ha denominado conjunto de datos.

– Variable discreta: la que solo puede tomar un conjunto a lo sumo numerable de valores (sus valores pueden representarse por letras subindizadas con los números naturales, en forma de una sucesión: X1, X2, X3,..., por ejemplo, la cantidad de hijos de un matrimonio, el puntaje obtenido en una prueba, el color del pelo, el número de días transcurridos desde el nacimiento, entre otros.

– Variable continua: la que puede tomar todos los valores de un intervalo de números reales no reducido a un punto ni vacío, por ejemplo, el tiempo de reacción ante un estímulo y el peso de un conjunto de personas.

Bioestadística cualitativa.indd 6 25/06/2010 12:19:38 p.m.

Page 17: Bi o e s ta d í s t i c a

7

– Variable de conteo: la variable discreta y en escala ordinal, que cuenta unidades. En ocasiones, y cuando el número de sus valores posibles distintos es grande, puede considerarse en escala de intervalo o razón e incluso, por aproximación, una variable continúa.

– Variable dicotómica o binaria: la que tiene solo dos valores posibles distintos cualesquiera, los más simples son 0 y 1, y pueden interpretarse como ausencia y presencia, respectivamente, de una propiedad o cualidad. La variable dicotómica, independientemente de los valores que tome se considerará, a los efectos estadísticos, en escala nominal.

También suelen clasificarse como variables cualitativas o categóricas a las no numéricas en escalas nominales y ordinales, y como cuantitativas a todas las numéricas. Por esta razón dentro de las cualitativas hay que distinguir adicionalmente los casos de escala nominal y ordinal y dentro de las cuantita-tivas también las variables en escalas ordinales y las en escalas de intervalo y razón, todo esto hace a esta clasificación compleja y no discrimina más que la clasificación en continua y discreta, por lo que es más práctico no utilizar, por lo menos en la clasificación de los métodos estadísticos, esta clasificación de variables cualitativas y cuantitativas y utilizar las cuatro escalas de cuantificación directamente para describir las variables.

Una vez discutidos y precisados los tipos de variables y sus escalas se está en condiciones de abordar las distribuciones de frecuencias, el cálculo de algunos indicadores numéricos de tendencia central, dispersión y asociación, así como las pruebas de hipótesis, diferenciando siempre, su comportamiento, según la escala de cuantificación al aplicarlas. Su necesidad se comenzará a ver de inmediato.

1.2. Distribuciones de frecuencias según las escalas de cuantificación

Ejemplo 1.1:

En un análisis realizado se registraron 48 pacientes femeninos con valores de la hemoglobina por debajo de 120 g/L y se anotó su municipio de residencia: Marianao (M), Cerro (C), Playa (P) y Guanabacoa (G) obteniéndose:

M G P P C G M P M G P C P G M P M G P P C G M P

M G P C P G M P M G P P C G M P M G P C P G M P

Se puede observar a simple vista que son cuatro los municipios de residencia de los 48 pacientes, que cada paciente reside en uno y solo un municipio y que entre estos municipios no hay definido un orden ni unidad de medida, por lo que se puede afirmar que los datos anteriores están en escala nominal.

Bioestadística cualitativa.indd 7 25/06/2010 12:19:38 p.m.

Page 18: Bi o e s ta d í s t i c a

8

En la tabla 1.1 se muestra lo que se denomina una distribución de frecuencias de estos 48 datos en cuatro clases.

Tabla 1.1. Distribución de frecuencias

Municipio Frecuencia Marianao 12Playa 18Cerro 6Guanabacoa 12Total 48

Se puede observar, además, que Playa tiene la mayor frecuencia (18), Cerro tiene la menor (6), y Marianao y Guanabacoa tienen la misma (12).

Una distribución de frecuencias es todo agrupamiento de los datos en clases o categorías acompañadas de las frecuencias de clase.

La utilidad de la misma radica en que permite descubrir regularidades en un conjunto de datos.

La distribución de frecuencias de la tabla 1.1 recibe el nombre de distribu-ción por conteo de valores distintos, porque para construirlas se toman como clases los valores distintos del conjunto de datos, de la variable en cuestión y luego se contabiliza cuantos valores del conjunto coinciden con cada clase y esta cantidad será la frecuencia de la clase en cuestión. Así se procede con cada una de las clases restantes para completar la distribución de frecuencias. Esta distribución se utiliza cuando el número de clases distintas es pequeño.

Una distribución de frecuencias, de datos en escala nominal como estos, puede contener cualquiera de los tipos de frecuencias que aparecen en la tabla 1.2.

Tabla 1.2. Tipos de frecuencias variables en escalas nominales

FrecuenciaMunicipio Absoluta Relativa Porcentual Tasa por 10 000Marianao 12 0,250 25,0 2 500Playa 18 0,375 37,5 3 750Cerro 6 0,125 12,5 1 250Guanabacoa 12 0,250 25,0 2 500Total 48 1,000 100,0 10 000

La tabla 1.2 constituye un ejemplo de distribución de frecuencias de datos en escala nominal en que las clases son los municipios de residencia que aparecen representados por la letra inicial de su nombre.

– La frecuencia absoluta de una clase es igual al número de observaciones que pertenecen a esta clase. La suma de las frecuencias absolutas de

Bioestadística cualitativa.indd 8 25/06/2010 12:19:39 p.m.

Page 19: Bi o e s ta d í s t i c a

9

todas las clases de una distribución de frecuencias es igual al número total de observaciones.

– La frecuencia relativa de una clase es igual a su frecuencia absoluta dividida entre la suma de las frecuencias absolutas de todas las clases.

La suma de las frecuencias relativas de todas las clases de una distribución de frecuencias es igual a 1, salvo por cuestiones de aproximación. La frecuencia relativa de una clase coincide además con la proporción de individuos que caen en esa clase

– La frecuencia porcentual de una clase es igual a su frecuencia relativa multiplicada por 100.

– La tasa por 10000 de una clase es igual a su frecuencia relativa multiplicada por 10 000.

Se denomina tasa a la frecuencia relativa multiplicada por un múltiplo k de 10, así la taza por 10k es igual a la frecuencia relativa multiplicada por 10k, para k = 2 se tiene la frecuencia porcentual que es igual a la relativa multiplicada por 102, por ejemplo, para k = 4 será taza por 10 000, ya que 104 = 10 000. Las tasas se utilizan para evitar dar porcentajes con muchos decimales o fracciones de unidades, que no son asequibles a una amplia población y pueden crear problemas de interpretación como, por ejemplo, cuando se dice que la taza de mortalidad infantil es de 4,7 por 1000 nacidos vivos, de expresarse en porcen-taje sería 0,047 % además de la dificultad propia de los decimales y algunos podrían interpretar que se muere 4 niños y algo más de la mitad de otro niño por cada mil. En este caso es más apropiado decir 47 por 10 000 para que no se hagan semejantes interpretaciones. Otro ejemplo, la frecuencia relativa de de siameses unidos por la cabeza en un lugar es de 0,00000002 (2 x 10–8), la taza porcentual es del 0,000002 % (2 x 10–6 %) y la tasa por 10 000 es 0,0002 (2 x 10–4) , pero mejor se expresa diciendo que es de 2 por 10 000.

Problema propuesto 1.1:

Construya distribuciones de frecuencias absolutas, relativas, porcentuales y acumulativas de las tres variables: sexo, raza y grado de retrazo mental de la tabla 1.3, matriz de datos DatosM2.

Tabla 1.3. Matriz de datos DatosM2

Idvd Sexo Raza GRM EV1 EV2 EV3 EdC CI1 CI2 CI3

1 M N L 3 2 2 9,88 67,1 69,2 29,52 F O M 6 2 3 7,31 70,5 70,1 39,13 M N L 3 5 3 3,04 50,8 41,8 354 F O M 4 5 3 12,8 53,1 47,6 35,4

Bioestadística cualitativa.indd 9 25/06/2010 12:19:39 p.m.

Page 20: Bi o e s ta d í s t i c a

10

Idvd Sexo Raza GRM EV1 EV2 EV3 EdC CI1 CI2 CI3

5 F N G 5 3 6 7,23 63,2 63,6 60,46 F B M 5 2 4 14,67 57,1 51,9 47,77 M B G 3 2 2 7,33 73 71,3 53,48 F N S 3 4 5 17,45 32,5 27,1 52,99 F N L 3 3 2 16,26 63,8 67,5 23,910 F O L 2 5 2 6,08 43,1 34,8 33,811 M O M 6 3 3 7,02 43 31,6 36,112 M O S 6 1 5 7,61 46,3 37,7 53,313 M O M 6 6 3 10,35 57,9 52,5 37,114 M B G 3 4 6 7,8 57,3 52,2 75,515 F B L 5 2 3 8,33 52,4 46 34,716 M O M 2 6 4 9,16 28,9 22,7 46,717 M B M 5 5 3 5,13 40,2 28,8 39,418 M N M 2 3 3 11,81 60,2 59,2 42,719 M B S 5 4 4 6,37 23,8 17,3 49,520 M N M 4 5 3 20,51 45,2 37,2 39,421 M O M 6 6 3 13,34 28,6 21,6 40,822 F O S 4 2 4 12,28 51,9 45,8 5123 F B M 5 6 3 9,19 37,8 28,5 39,924 F O M 2 2 3 13,94 52,5 46,3 40,225 M O G 3 3 2 8,69 17 15,2 53,926 F N G 5 4 5 18,12 61,2 62,5 56,427 F N L 5 5 2 9,33 73,1 75,3 23,628 M N L 4 3 2 19,63 60,1 59 30,1

29 F N M 3 3 3 Au-sente 58,6 55,9 42,5

30 F O M 4 4 3 4,75 55 49,4 40,931 M B S 5 2 4 12,37 54,7 49,1 48,632 M O G 3 5 2 7,96 37,6 28,3 55,333 M O G 4 3 4 9,38 56,3 49,9 55,534 F B M 5 5 3 9,75 50,2 40,8 39,835 M B L 6 4 2 5,8 55,6 49,6 2436 M O S 1 6 4 12,22 31,3 26,8 47,737 M B S 2 5 4 12,11 51,8 44,3 49,938 M B S 2 6 4 12,06 49,7 40,5 52,639 M O M 4 6 3 3,7 79,3 75,7 45,240 M O S 6 3 4 8,82 53,5 48,5 48,241 M B L 6 3 2 5,42 34,7 28,1 30,6

Bioestadística cualitativa.indd 10 25/06/2010 12:19:39 p.m.

Page 21: Bi o e s ta d í s t i c a

11

42 F B L 3 3 2 12,12 42 28,9 28,443 F N L 5 2 2 13,75 28,7 22,4 24,444 F O M 2 5 3 11,11 43,4 36,4 40,845 M N L 4 2 2 1 47,6 38,6 28,846 M N M 4 3 4 11,56 48,9 38,6 47,547 F O M 6 2 3 11,01 61 60,6 43,948 M O S 1 6 4 7,27 38,8 28,6 48,549 M O G 3 2 6 4,09 30,3 26,7 57,350 M O M 2 4 3 7,52 56,9 50,2 45,3

Leyenda:GRM: grado de retraso mental.EV1, EV2 y EV3: representan las escalas de Mad Vinelad en que valores más altos más grave el retraso mental. CI1, CI2 y CI3: representan los coeficientes de inteligencia registrados en tres momentos distintos de la vida de los individuos. EdC: representa la edad cronológica.

Observación: Hay paquetes estadísticos modernos que asignan números a los valores de las variables no numéricas para poder procesarlas como numé-ricas, esto trae como consecuencia que realice operaciones con ellas que no proceden, que no se corresponden, como por ejemplo, ofrecen como resultado las distribuciones de frecuencias acumulativas de sexo y raza, que no es posible obtener a menos que se defina un orden entre sus valores.

Ejemplo 1.2:

Se observan 300 personas y se clasifican según su aspecto físico o peso en obe-sa (O), gruesa (G), buen peso (B), delgada (D) y muy delgada (M) (tabla 1.4)

Tabla 1.4. Resultados de la clasificación según aspecto físico y peso

M G B D G B O B O M D D G B D G D O O O O D M D GO M G D B D G B D O B M D B G B B G O B B M D G BO O D O B O B O D M B B G B B O O B M O O O B D GM B O O M D O B G M D D B D O G B M G D G G D B BG D O O M B B D G M M M D G G G B D D G D B O M BB D B D D G D M M B B D D B B G B G D B D O B M GD D O D D B B G B B B G D D M M G G B B B G B B BB B D G G G M D D D O B B D G O G D G M D G O B OO G D B B G M D M B D D D B G D G B M G B B G G OG O D B G D G O O B G G O G O G B B B B O D M B BD M O M D O B B B D G B M M O D B B M B B B D D BM M O M B O O G O D M D G B B D O B G D D D D M D

Bioestadística cualitativa.indd 11 25/06/2010 12:19:40 p.m.

Page 22: Bi o e s ta d í s t i c a

12

Se ejemplifica con 300 datos a propósito para que ver que no es un proble-ma grave procesar tantos datos con el software estadístico y para que quede en evidencia la necesidad de construir distribuciones de frecuencia para descubrir regularidades en el conjunto de datos.

Observando detenidamente en estos datos se registran solo cinco clases distintas, cada individuo pertenece a una y solo una clase, entre estas clases está definido un orden, que va de menor a mayor: muy delgado, delgado, buen peso, grueso y obeso, pero no existe una unidad de medida que permita saber cuanto más pesado es el obeso que el grueso o el buen peso que el delgado, por lo que se puede afirmar que estos datos están en escala ordinal, aunque provengan de una variable continua.

Se puede construir con ellos una distribución de frecuencias con los distintos tipos de frecuencias (tabla 1.5).

Tabla 1.5. Distribución de frecuencias del aspecto físico del grupo 1

Aspecto físicoFrecuencias

Absolutas Relativas Acumulativas Acumulativas relativas

Muy delgado 38 0,127 38 0,127

Delgado 71 0,237 109 0,363

Buen Peso 86 0,287 195 0,650

Obeso 48 0,160 243 0,810

Grueso 57 0,190 300 1,000

Suma 300 1,001

La suma de las frecuencias relativas no da 1,000 por error de redondeo de los números a tres cifras decimales.

– La frecuencia acumulativa de una clase es igual a la suma de las frecuencias absolutas de esta clase y de las clases anteriores. Puede ser relativa, porcentual, acumulativa. Solo tiene sentido para datos en escalas ordinales o superior.

Observaciones:

1. En el caso de las variables en escalas nominales no se pueden construir frecuencias acumulativas porque entre sus clases no hay orden, en ellas no está definido el concepto de clase anterior a otra.

2. Las clases de esta distribución de frecuencias están ordenadas de menor a mayor peso. También se podrían ordenar de mayor a menor peso o sencillamente considerarlas ordenadas de mayor a menor delgadez. De menor a mayor es el ordenamiento que se considera en lo ulterior, salvo que se diga lo contrario.

Bioestadística cualitativa.indd 12 25/06/2010 12:19:40 p.m.

Page 23: Bi o e s ta d í s t i c a

13

3. Si en la distribución de frecuencias de la tabla 1.1 se eliminan las clases y se quedan solo las cuatro frecuencias, estos números que representarán las cuatro clases distintas y no se habrá perdido información relevante para el procesamiento estadístico de estos datos. De modo que las frecuencias han cuantificado el conjunto de datos en escala nominal o cualitativos.

1.3. Representaciones gráficas de las distribuciones de frecuencias

1.3.1. Histograma de frecuencias

Es una gráfica de barras, generalmente verticales, cuyas alturas son pro-porcionales a las frecuencias y cuyo ancho es común. Se traza sobre un eje horizontal, donde se marcan las clases, y sobre ellas las barras correspondientes, y se consideran en un eje vertical, las frecuencias. Por ejemplo para los datos del ejemplo 1.2, se tienen las figuras 1.1 y 1.2.

Figura 1.1. Histograma de frecuencias o gráfica de barras en el plano.

Figura 1.2. Histograma de frecuencias tridimensional.

Bioestadística cualitativa.indd 13 25/06/2010 12:19:41 p.m.

Page 24: Bi o e s ta d í s t i c a

14

1.3.2. Gráfica circular o de pastel

Consiste en un círculo (pastel) dividido en tantos sectores (tajadas del pas-tel) como clases haya y cuyas áreas (ángulos o arcos) son proporcionales a las frecuencias de las correspondientes clases (figuras 1.3 y 1.4).

Figura 1.3. Gráfica circular o de pastel en el plano.

Figura 1.4. Gráfica circular o de pastel tridimensional.

1.3.3. Polígono de frecuencias

También llamada gráfica de líneas o poligonal es una gráfica en que sobre un eje de coordenadas se trazan, sobre las marcas de clase, puntos a alturas proporcionales a las frecuencias de cada clase que luego se unen con segmentos de rectas, que pueden no trazarse, para formar la línea poligonal, a veces se trazan segmentos de rectas adicionales desde la última y la primera clase hasta el eje horizontal para cerrar el polígono. Por ejemplo, para los datos del ejemplo 1.2, se tienen las figuras 1.5, 1.6 y 1.7.

Ejemplo 1.3

En la tabla 1.6 aparece la distribución de frecuencias del aspecto físico de otro grupo de 300 individuos cuya distribución se compara con la de la tabla 1.5 en las figuras 1.8 y 1.9.

Bioestadística cualitativa.indd 14 25/06/2010 12:19:41 p.m.

Page 25: Bi o e s ta d í s t i c a

15

Figura 1.5. Polígono de frecuencias o gráfica de líneas.

Figura 1.6. Histograma y polígono de frecuencias del aspecto físico.

Figura 1.7. Histograma y polígono acumulativo de la distribución de aspecto físico.

Tabla 1.6. Distribución de frecuencias del aspecto físico del grupo 2

Aspecto físico Frecuencia absolutaObeso 50Grueso 70Buen peso 90Delgado 60Muy delgado 30Suma 300

Bioestadística cualitativa.indd 15 25/06/2010 12:19:41 p.m.

Page 26: Bi o e s ta d í s t i c a

16

Figura 1.8. Histograma comparativo de los dos grupos.

Figura 1.9. Polígono comparativo de los dos grupos.

Para comparar mediante gráficas de pastel se requiere construir, por separa-do, un pastel de cada variable. Existen, además, otros muchos tipos de gráficas de distribuciones de frecuencias que en general son combinaciones o variantes de los descritos.

Problema propuesto 1.2:

Construya el histograma, el polígono y la gráfica circular de la variable del ejemplo 1.3, así como las gráficas de pastel comparativas de los grupos 1 y 2.

Las gráficas estudiadas pueden tener distintos usos, por lo general:

– La gráfica de pastel se usa preferentemente para datos en escala nominal, pues no se puede definir en ella un orden preciso

– El polígono, gráfica poligonal o de líneas da idea de continuidad en la variable en cuestión y, por tanto, es apropiada preferentemente para datos que provengan de variables continuas.

Bioestadística cualitativa.indd 16 25/06/2010 12:19:41 p.m.

Page 27: Bi o e s ta d í s t i c a

17

– La gráfica de barras o histograma en el caso de barras separadas es apropiada para datos de variables discretas y, en el caso de barras pegadas una a continuación de la otra para variables continuas.

Observaciones:1. En la actualidad, como se pueden construir las gráficas fácilmente con

un software, habitualmente se hacen los distintos tipos de gráficas que más gusten y se observan para escoger luego de compararlas, la más apropiada para la distribución o la que mejor refleje lo que se desea representar o simplemente la que más le guste al investigador.

2. En los histogramas se pueden sustituir las barras por figuras convenientes. La gráfica de pastel solo es apropiada para una sola variable, pero se pueden presentar varios pasteles comparativos de varias variables, en este caso pueden graficarse mejor mediante una barra o figura divididas en partes con áreas correspondientes a las distintas variables. Las gráficas poligonales se pueden trazar con cintas u otros elementos similares.

Ejemplo 1.4:

Se registra el estado de salud de 40 niños como mal (M), regular (R), bien (B) y excelente (E) y se obtiene la lista:

R, M, E, E, M, M, R, B, M, M, B, B, B, B, B, E, B, B, R, R,R, E, B, B, B, R, B, B, R, M, E, B, B, R, R, B, B, R, R, R

En las tablas 1.7 y 1.8 se muestra la construcción de una distribución de frecuencias con las frecuencias relativas y acumulativas y su representación gráfica elemental mediante un histograma en posición horizontal.

Con un determinado objetivo se decide agrupar los excelentes y bien en la categoría satisfactorio y regular y mal en la categoría no satisfactorio, entonces se obtiene la tabla 1.9 con otra distribución de frecuencias del estado de salud de los 40 niños, agrupados en solo dos clases. Se han reagrupado las clases y reducido a dos valores solamente.

Tablas 1.7. Distribución de frecuencias e histograma

ClasesFrecuencia

HistogramaAbsoluta

Mal 6 ▄▄▄▄▄▄

Regular 12 ▄▄▄▄▄▄▄▄▄▄▄▄

Bien 17 ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄

Excelente 5 ▄▄▄▄▄

Total 40

Bioestadística cualitativa.indd 17 25/06/2010 12:19:42 p.m.

Page 28: Bi o e s ta d í s t i c a

18

Tabla 1.8. Distribución de frecuencias relativas y acumulativas

Clases

Frecuencia acumulativaRelativa Absoluta Relativa

Mal 0,150 6 0,150Regular 0,300 18 0,450Bien 0,425 35 0,875Excelente 0,125 40 1,000Total 1,000

Tabla 1.9. Distribución de frecuencias con dos clases

Clases FrecuenciaSatisfactorio 22No satisfactorio 18Total 40

1.4. Distribuciones de frecuencias por intervalos de clase y bivariada

1. 4.1. Distribución de frecuencias por intervalos de clase

Las distribuciones de frecuencias pueden ser:

– Por conteo de valores distintos como las de las tablas 1.1 a la 1.9, se aplica cuando el número de valores distintos de la variable es muy escaso y entonces se toman estos valores como clases, esto es común en el caso de variables en escalas nominales y ordinales.

– Por intervalos de clase como las que se verán en las tablas 1.10 y 1.11, y se aplica cuando el número de valores distintos de la variable es muy numeroso y no conviene construir un número muy grande de clases, que por lo general es el caso de las variables en escalas de intervalos y razón.

De modo que lo que decide es que si la variable tiene muchos valores distintos la distribución debe ser por intervalos y si tiene pocos o muy pocos valores distintos la distribución debe ser por conteo de valores distintos. No se excluye el uso de distribuciones por intervalos de algunas variables en escalas nominal y ordinal, que en realidad no son verdaderos intervalos sino más bien agrupaciones de clases. Un ejemplo de lo expresado son las distribuciones de las tablas 1.8 y 1.9 en que los valores de la variable peso están agrupados. En las nominales, en ocasiones, se pueden encontrar agrupamientos de clases, como por ejemplo si se trata de datos de colores se pudieran agrupar, por ejemplo, en muy oscuros, oscuros, claros y muy claros.

Bioestadística cualitativa.indd 18 25/06/2010 12:19:42 p.m.

Page 29: Bi o e s ta d í s t i c a

19

1.4.2. Algoritmo para construirlas

Si los las variables están al menos en escala de intervalo se procede así:

1. Se halla el recorrido: R = dato mayor – dato menor, en el ejemplo.2. Se fija el número k de intervalos de clases. Se recomienda no menos de

cinco ni más de veinte. 3. Se halla la longitud o amplitud común de los intervalos L.

k

RL = siempre aproximada por exceso.

También se puede fijar primero la longitud de intervalo L y hallar después

el número de intervalos k por la fórmula kR

L= .

4. El dato menor o un número menor suficientemente cercano será el límite inferior d del primer intervalo de clase y a partir de él se hallan los demás límites o extremos de los intervalos de clase sumando L sucesivamente de modo que los k intervalos serán: ]d , d + L]; ]d + L, d + 2L]; ]d + 2L, d + 3L];...; ]d + (k – 1)L, (d + kL)], si d + kL supera al máximo.

Donde d es el mínimo o un número menor suficientemente cercano y k el número de clases propuesto.

Estos intervalos son abiertos por la izquierda, por lo que no incluyen los extremos inferiores, que se incluyen en el intervalo de clase anterior, y cerrados por la derecha que si incluyen el extremo superior.

5. Una vez construidos los intervalos de clase se procede a calcular las frecuencias de cada clase.

El ejemplo 1.5 muestra el cumplimiento de estos pasos.

Ejemplo 1.5:

Los datos de la tabla 1.10 corresponden a la cantidad de veces, en 1 año, que han asistido a la consulta 50 niños asmáticos de un área de salud de Marianao. Las observaciones se han ordenando previamente para facilitar el trabajo.

Tabla 1.10. Veces que asistieron a consulta 50 niños asmáticos de Marianao

31 36 36 37 39 41 41 42 42 4242 43 44 44 44 44 44 44 44 4545 45 45 45 46 46 46 46 46 4747 47 48 48 48 48 49 49 50 5051 52 52 53 53 55 55 56 57 59

El número de veces que ha asistido a consulta es una variable de conteo, en escala ordi-nal. El máximo, 59 y el mínimo, 31 del conjunto se han destacado.

Bioestadística cualitativa.indd 19 25/06/2010 12:19:42 p.m.

Page 30: Bi o e s ta d í s t i c a

20

– Paso 1: R = 59 – 31 = 28.– Pasos 2 y 3: fijando k = 6 se tiene que .

– Paso 4: comenzando por el número 30, menor y no muy distante del mínimo 31 y sumando la longitud calculada a 30 sucesivamente se obtienen 35, 40, 45, 50, 55 y 60, se para en 60 porque es el primer resultado que supera el máximo valor de los datos, que es 59 y también igual a 30 + 6(5). Se obtendrán los seis intervalos: ]30; 35], ]35; 40 ], ]40; 45 ], ]45; 50 ], ]50; 55], ]55; 60]. Estos intervalos son abiertos por la izquierda, por lo que no se incluyen en los intervalos sus extremos inferiores y cerrados por la derecha, si se incluyen los extremos superiores en cada uno de ellos.

– Paso 5: para el cálculo manual de las frecuencias de cada clase se ofrece en la tabla 1.11 el llamado tarjado, que consiste en revisar cada dato original y anotar una rayita vertical en el intervalo de la distribución que le corresponde, se marcarán de alguna manera los números ya revisados para evitar equivocaciones posteriores que provocan tener que empezar de nuevo. Al final, la suma de las rayitas verticales de una celda será su frecuencia absoluta. Las rayitas verticales se agrupan en mazos de 5 o 10 si conviene para facilitar el cómputo.

Tabla 1.11. Cálculo manual de la distribución de frecuencias

Intervalo de clase Tarjado Frecuencia30-35 | 135-40 |||| 440-45 ||||| ||||| ||||| |||| 1945-50 ||||| ||||| ||||| | 1650-55 ||||| || 755-60 |||| 3

En la tabla 1.11 se ha incluido, además del tarjado, las frecuencias absolutas, y por último, la tabla 1.12 muestra las distribuciones de frecuencia absoluta, relativa y acumulativa del número de asistencias a la consulta, se ha utilizado una notación más precisa para los intervalos.

Tabla 1.12. Distribución con distintos tipos de frecuencias y clases.

Número de asistencias a consulta en 5 años Marca de clase

FrecuenciaAbsoluta Relativa Acumulativa

30 < x ≤ 35 35 1 0,02 135 < x ≤ 40 40 4 0,08 540 < x ≤ 45 45 19 0,38 2445 < x ≤ 50 50 16 0,32 4050 < x ≤ 55 55 7 0,14 4755 < x ≤ 60 60 3 0,06 50

Bioestadística cualitativa.indd 20 25/06/2010 12:19:42 p.m.

Page 31: Bi o e s ta d í s t i c a

21

La marca de clase de un intervalo puede ser un representante cualquiera del intervalo, pero habitualmente se toma el punto medio del intervalo. Pero como por lo general las variables en escala ordinal no tienen media, no se pueden sumar y dividir entre 2, se tomará según el caso uno u otro representante como marca de clase, se tomó el extremo superior de cada clase

En distintos textos se consideran los intervalos abiertos por la derecha, abiertos o cerrados por ambos extremos, en otros se definen intervalos de clase reales, teniendo en cuenta la corrección por continuidad (el redondeo); todas estas variantes tienen sus ventajas y desventajas, la del redondeo proporciona precisión en el cálculo. Se prefirió la de intervalos múltiplos de 5 o 10 que re-sulta más asequible a un amplio público, que se ajusta bastante bien al caso de las variables en escala ordinal. El elegir una u otra depende del objetivo, y en última instancia, todo depende de la naturaleza de los datos y del objetivo de la distribución en la construcción de distribuciones de frecuencias.

Como las distribuciones univariadas, las distribuciones bivariadas de fre-cuencia permiten descubrir también regularidades, pero entre sus regularidades están también las de asociación o relación entre las dos variables en cuestión.

1.4.3. Gráfica piramidal de frecuencias

Es una gráfica muy usual en demografía es la llamada piramidal, utilizada fundamentalmente para comparar la distribución de dos variables.

Consiste en dos histogramas o gráficas de barras horizontales con las mismas clases, que se colocan uno con las barras hacia la izquierda del eje vertical y el otro con las barras hacia la derecha de modo que en el eje vertical coincidan los pares de barras izquierdas y derechas de las dos distribuciones. Para lograr esto, en la distribución de frecuencias conjunta se cambian los signos de las frecuencias de la variable que se desea que sus barras queden hacia la izquierda.

Se pueden construir con el software Microsoft Excel, por ejemplo, si se desea construir la gráfica piramidal de frecuencias de la distribución por sexo de variable EV1 de la matriz de datos DatosM2 de la tabla 1.3:

1. Se construyen las distribuciones de frecuencias de EV1 de los varones y la de las hembras.

2. Se le ponen signos menos (–) delante a las frecuencias de los varones3. Se colocan las dos columnas (o filas) de frecuencias una al lado de la

otra.4. Se selecciona la distribución de frecuencias, si las clases son numéricas

es preferible seleccionar solo las dos columnas de frecuencias. 5. Se selecciona el asistente para gráficas y se escoge en él la grafica de

barra horizontal apilada, preferiblemente tridimensional o cilíndrica apilada y se hace clic en Siguiente.

Bioestadística cualitativa.indd 21 25/06/2010 12:19:42 p.m.

Page 32: Bi o e s ta d í s t i c a

22

6. Si es necesario se selecciona la pestaña Líneas de división y se deseleccionan las líneas de división que aparezcan seleccionadas y se hace clic en Siguiente.

O bien, en lugar de 6 seleccione en el asistente para gráficos la opción Gráfico piramidal tipo barra apilada con forma piramidal y Finalizar. Haga, a continuación, clic derecho en alguna barra para obtener el cuadro de diálogos Formato de serie de datos en que se seleccionará la pestaña Formas y de ellas la 1, la cilíndrica o rectangular y en la pestaña Opciones o en Ancho de rango, para unir las barras o cilindros.

En la tabla 1.13 aparece la distribución final de la variable EV1 de la matriz de datos DatosM2 con los las frecuencias del sexo con signos cambiados y la gráfica pirámidal en tercera dimensión (figura 1.10).

Tabla 1.13. Distribución de la variable EV1 agrupada por sexos

Sexo EV11 2 3 4 5 6

Femenino 0 –3 –4 –3 –8 –2Masculino 2 5 7 6 3 7

Figura 1.10. Gráfica piramidal de la variable EV1 agrupada por sexos.

Se observa lo diferentes que son las distribuciones de los dos sexos, aunque en los valores 2, 3 y 4 se comportan de modo casi proporcional, más bajo en los del sexo femenino y para los 5 y la 6 aproximadamente se invierten sus frecuencias. La interpretación y el nombre de piramidal depende de los datos, se realizaron de estos pocos datos para simplificar, pero deben construirse a partir de muchos datos para que se aprecien bien las regularidades.

1.4.4. Distribuciones bivariadas de frecuencia

Es una distribución de frecuencias de un vector de dos variables, en que las clases de una encabezan columnas y los de la otra las filas, la intersec-ción de filas y columnas determina celdas en que se ponen las frecuencias conjuntas.

Bioestadística cualitativa.indd 22 25/06/2010 12:19:43 p.m.

Page 33: Bi o e s ta d í s t i c a

23

Ejemplo 1.6:

Las distribuciones de las tablas 1.13 y 1.14 son bivariadas, a partir de esta última se construirán las distribuciones marginales y una distribución con la variable día del mes agrupada por intervalos de clase.

Tabla 1.14. Frecuencia de visitas al médico por día del mes, sexo y total

DíaSexo

SumaM F

1 3 5 82 2 4 63 5 4 94 8 10 185 10 14 246 1 6 77 12 18 308 15 25 409 9 7 1610 5 9 1411 13 17 3012 16 23 3913 5 7 1214 17 22 3915 2 8 1016 6 14 2017 4 11 1518 21 23 4419 4 10 1420 21 19 4021 11 9 2022 13 11 2423 14 11 2524 11 16 2725 11 18 2926 6 11 1727 9 14 2328 9 12 2129 17 12 2930 19 13 32

Bioestadística cualitativa.indd 23 25/06/2010 12:19:43 p.m.

Page 34: Bi o e s ta d í s t i c a

24

Las distribución de la variable sexo, llamada marginal, se obtiene en la tabla 1.15 sumando las columnas de ambos sexos de la tabla 1.14.

Tablas 1.15. Distribución marginal de la variable sexo

Clases Frecuencia

Masculino 299

Femenino 383

La distribución marginal de la variable día del mes la constituyen la primera y la última columna de la tabla 1.14. En la tabla 1.16 se ofrece la distribución bivariada de la tabla 1.14, pero con los días del mes agrupados por intervalos de clase ya que sus valores distintos son bastantes; los intervalos son de longitud 5, y, por ejemplo, 0 < x ≤ 5 significa entre los días primero y quinto del mes, incluyendo el 5 pero no el 0, entonces muestra las cantidades personas por sexo y por intervalo de días a diferencia de la tabla 1.14, la distribución de los días es por conteo de valores distintos.

Tabla 1.16. Cantidades personas por sexo y por intervalo de días

Clase M F Total0 < x ≤ 5 28 37 655 < x ≤ 10 42 65 10710 < x ≤ 15 53 77 13015 < x ≤ 20 56 77 13320 < x ≤ 25 60 65 12525 < x ≤ 30 60 62 122

Total 299 383 682

1.5. Indicadores de tendencia central

1.5.1. La moda

En un conjunto de datos es el dato más frecuente, es decir, el que más se repite.

Ejemplo 1.7:

En el ejemplo 1.1 la moda es Playa (P), en el ejemplo 1.2 la clase buen peso (B) y en el ejemplo 1.4 bien (B).

A veces en lugar de la moda se define el concepto de clase modal, que es la clase con mayor frecuencia de una distribución.

Bioestadística cualitativa.indd 24 25/06/2010 12:19:43 p.m.

Page 35: Bi o e s ta d í s t i c a

25

En el ejemplo 1.5 la clase modal es el intervalo de 40 a 45 y la moda es 44 que se repite siete veces.

Problema propuesto 1.3:

Diga cuáles son las modas de los siguientes conjuntos de datos:1. A, A, B, C, A, B.2. D, E, F, F, G, D, E.3. A, B, C, D, E, F.4. A, B, C, A, B, C, A, B, C.

Respuestas:

1. A.2. D, E y F.3. No hay (o las seis letras). 4. No hay (o las tres letras A, B y C).

1.5.2. La mediana

En un conjunto es el elemento que ocupa la posición central en la lista de los elementos ordenados. Pero la mediana se define para variables continuas, solo en este caso es única y exacta. Implica que por debajo de ella hay un 50 % de los datos y por encima de ella otro 50 %, porque ella es un punto y, por tanto no cuenta, porque no tiene dimensiones o porque entre la mediana y otro punto cualquiera hay infinitos puntos tan cercanos a ella como se quiera. Para distribuciones discretas la definición es solo aproximada, y puede darse el caso de que más de un elemento aparezca como mediana, porque su valor es uno del conjunto de datos y cada valor representa un porcentaje, que influye y por tanto la suma de los porcentajes de datos por encima o por debajo de las mediana no será nunca igual a 100 % si no se incluye en ellos la mediana. Cuando más de un elemento aparezca como mediana se escogerá uno y, si los datos son numéricos y admiten promedio, se tomará el promedio de todas las posibles medianas, si no se tomará uno de los dos como mediana, pero mencionando que hay otro que también cumple.

En el ejemplo 1.4, de los 300 datos de la variable aspecto, la mediana es la clase buen peso (B) y tiene frecuencia 86. En el ejemplo 1.5 la mediana es 46.

A veces en lugar de la mediana se define el concepto de clase de la mediana, que es la clase que contiene la mediana de una distribución, este es el caso de las distribuciones por intervalos, en las que es mucho más fácil de calcular y la única forma si solo se cuenta con la distribución de frecuencia y no con los datos originales.

En el ejemplo 1.5 la mediana es el intervalo de 40 a 45.

Bioestadística cualitativa.indd 25 25/06/2010 12:19:44 p.m.

Page 36: Bi o e s ta d í s t i c a

26

A continuación se exponen, en dos filas, 40 datos ordenados de menor a mayor:1 2 2 3 4 4 4 4 5 5 5 5 6 6 7 7 8 8 8 9

10 11 11 11 12 13 14 14 15 16 16 17 17 18 21 22 23 23 24 25

Se tiene que la clase de la mediana está entre 9 y 10, porque el número total de datos es 40 y ser ellos los de órdenes 20 y 21; pero si es posible se toma como mediana que tiene el 50 % de los 40 datos por debajo

de él y el otro 50 % por encima, pero pudiera ser que el 9,5 no se admitiera como dato en esta lista y entonces ocurriría que no se sabe cual es la mediana porque el 9 tiene por debajo el 48 % de los datos y por encima el 50 % y el 10 tiene por debajo el 50 % y por encima el 48 % de los datos. Ninguno de los dos es mediana de acuerdo con la definición, porque, además, ninguno está en el centro de la lista ordenada. De modo que se tiene que cambiar la definición de mediana para poder calcular la mediana de datos discretos.

Una caracterización que mejora el cálculo de la mediana de un conjunto de datos en el caso de variables discretas plantea que:

La mediana es un número mayor y también menor que a lo sumo el 50 % de los datos del conjunto. Esta caracterización garantiza que al menos haya una mediana, porque con la definición original a menudo ninguno de los elementos del conjunto cumple con la definición de mediana. No excluye que haya más de un elemento que cumpla estas condiciones, y si lo hay se acostumbra a tomar el promedio de ellos como mediana, si tiene sentido, si no uno cualquiera de ellos.

Problema propuesto 1.4:

Diga cuáles son las medianas de los siguientes conjuntos de datos:

1. 1, 2, 5, 7, 9.2. 1, 2, 5, 7.3. Considerando el orden alfabético:

a) A, B, C, D, E.b) A, B, C, D, E, F.

Respuestas:1. 5.

2. Está entre 2 y 5, es

; 2 o 5.

3. a) C. b) Está entre C y D, es C o D.

Las clases modal y de la mediana son aproximaciones de la moda y la me-diana, respectivamente, que se usan cuando se tiene solamente una distribución de frecuencias y no los datos originales.

Bioestadística cualitativa.indd 26 25/06/2010 12:19:44 p.m.

Page 37: Bi o e s ta d í s t i c a

27

Para datos en escala nominal, sin orden entre las clases, no tienen sentido los conceptos de mediana porque no lo tiene ordenar las clases, ni el de punto central ni el de por debajo ni el por encima ni a la izquierda ni a la derecha de un puntaje.

1.5.3. La media

Es el indicador de tendencia central más usual, pero solo cuando la variable está en escala de intervalo o razón, no obstante, es tan buen indicador que a ve-ces se usa incorrectamente con datos numéricos en escala ordinal, cuando esta proviene de variables que admiten la media, porque ofrece más información que la mediana. Además, muchos indicadores o medidas que se conocen y se utilizan frecuentemente en realidad son medias, por ejemplo, la velocidad de un móvil, el peso de una persona, la cantidad de sangre en el cuerpo de una persona, la distancia hasta un punto, entre otras, comúnmente son medias; por esto y por su uso como referencia en la estadística no paramétrica se ofrece su definición.

Si la variable se denota por X la media se denotará y se definirá entonces mediante:

n

XXXX n+++= ···21

Y se denota por:

∑=

=n

iiX

nX

1

1

Donde el símbolo ∑=

n

iiX

1

indica la suma de los valores Xi que tienen subíndice

comprendido entre 1 y n, ambos inclusive. Por ejemplo la media de 2, –4, 0, 8 es igual a 5,1

48042 =++− .

1.5.4. La media ponderada

Considere los datos 5, 9, 8, 5, 8, 9, 6, 5, 6, 7, 8, 6, 6, 6, 8. Su suma se cal-culará de manera más fácil así:

En este caso k = 5 es el número de valores distintos: 5, 6, 7, 8 y 9, del total de n = 15 valores.

En el caso de una distribución de frecuencias con marcas de clase x1, x2,…, xk con frecuencias respectivas f1, f2,..., fk, entonces:

∑=

=k

iii xf

nX

1

1

Bioestadística cualitativa.indd 27 25/06/2010 12:19:44 p.m.

Page 38: Bi o e s ta d í s t i c a

28

Donde f1, f2,..., fk son las frecuencias absolutas y ∑=

=k

iifn

1

.

Por ejemplo, para hallar la media de la distribución de frecuencias, de la tabla 1.12, teniendo en cuenta que lo que se registró cada día fue si asistió o no, que tiene sentido la media y que daría un valor más próximo al verdadero de 46,18, el valor aproximado de:

1(32,5) + 4(37,5) + 19(42,5) + 16(47,5) + 7(52,5) + 3(57,5) = 2 290 divi-diendo entre 50

Tomando como marcas de clase los puntos medios de los intervalos, que deben brindar el valor más aproximado, en este caso la media es igual a

.

Sean w1, w2,..., wk las frecuencias relativas de la distribución n

fw i

i = , en-tonces:

y i

k

ii xw

nX ∑

==

1

1

Esta última fórmula es la de la media ponderada y a las wi se les denomina ponderaciones de los puntos xi.

Por ejemplo, si las ponderaciones de –3, 0, 5, 7 son 0,2; 0,4; 0,3 y 0,1, entonces su media ponderada es igual a 0,2(–3) + 0,4(0) + 0,3(5) + 0,1(7) = –0,6 + 0 + 1,5 + 0,7 =1,6.

La media ponderada es un buen indicador cuando se tienen varias columnas de datos con valores similares comparables y que admitan medias o sumas, puede ser conveniente promediar esos valores por fila y si las columnas tienen distintas ponderaciones, es decir, los valores de una tiene mayor peso que los de otra, entonces el promedio o la suma deben ser ponderado y estos promedios constituirán una variable cuyos valores representan los valores promedios o sumas de las filas. Algo análogo puede hacerse con las columnas.

1.6. Indicadores de posición

1.6.1. Percentil de orden p

Sea P un porcentaje, el percentil de orden P de la variable X es el puntaje xP tal que por debajo de él se halla el P % de la distribución de X. Pero el percentil de orden P es único y exacto solo para variables continuas y en tal caso por encima de él se halla el (100 − P) % de los valores de la variable. Para utilizarlo en el caso de variables discretas hay que hacer aproximaciones y estimaciones para tratar de precisarlo.

Bioestadística cualitativa.indd 28 25/06/2010 12:19:44 p.m.

Page 39: Bi o e s ta d í s t i c a

29

Por ejemplo, el percentil de orden 80 de los puntos del segmento de la figura 1.11, comprendido entre los números reales 0 y 5, es el punto correspondiente al número 4, por debajo de él se halla el 80 % de los puntos del segmento y por encima el 20 %. El percentil de orden 50 o mediana es igual a 2,5, que si está entre los valores posibles de la variable, aunque no coincida con ningún valor entero. En este caso si se quitara el punto cuyo valor es 2,5, la mediana seguiría siendo 2,5 o un número tan próximo a él como se quiera, porque entre ellos hay infinitos números.

Figura 1.11. Segmento de recta.

A menudo resulta más práctico usar una caracterización similar a la usada en la definición de la mediana, para abordar en particular los casos discretos en que no es aplicable la definición.

El percentil de orden P de una variable X es el puntaje xP tal que por debajo de él se halla a lo sumo el P% y por encima de él a lo sumo el (100 – P)% de los valores de X.

Observaciones:

1. Los percentiles se denominan también cuantiles.2. La mediana coincide con el percentil de orden 50. 3. Se denominan cuartiles los percentiles de órdenes múltiplos de 25.4. Se denominan deciles los percentiles de órdenes múltiplos de 10. En los casos, 3 y 4, se incluyen los percentiles de órdenes extremos 0

y 100, pero se acostumbra a llamar primer cuartil o cuartil inferior al percentil de orden 25 y tercer cuartil o cuartil superior al percentil de orden 75, por su amplio uso, ignorando los cuartiles de orden 0 y 100. En este caso la mediana constituye el segundo cuartil.

5. En la teoría de probabilidades se considera la proporción o probabilidad p (minúscula) comprendida entre 0 y 1 y se habla entonces del percentil de orden p que concide con el definido respecto al porcentaje P pues se tiene que P = np. Por ejemplo el percentil de orden 0,95 será igual a nuestro percentil de orden 95.

Ejemplo 1.8:

Con los datos de la tabla 1.10 del ejemplo 1.5, ordenados por fila y acom-pañados del porcentaje que acumula cada uno, se obtiene:

312% 364% 366% 378% 3910% 4112% 4114% 4216% 4218% 4220%

4222% 4324% 4426% 4428% 4430% 4432% 4434% 4436% 4438% 4540%

4542% 4544% 4546% 4548% 4650% 4652% 4654% 4656% 4658% 4760%

Bioestadística cualitativa.indd 29 25/06/2010 12:19:45 p.m.

Page 40: Bi o e s ta d í s t i c a

30

472% 474% 4866% 4868% 4870% 4872% 4974% 4976%$

5078% 5080%

5182% 5284% 5286% 5388% 5390% 5592% 5594% 5696% 5798% 59100%

Por ser 50 números cada número de ellos acumula un 2 % del total de nú-meros, por tanto, el percentil de orden 80 está entre los números 50 y 51, que ocupan las posiciones 39 y 40 los dos 50 y la posición 41 el 51.

El 50 tiene por debajo 38 números que representan el 76 % del total, y por encima 10 números, que representan el 20 % del total.

El 51 tiene por debajo 40 números que representan el 80 % del total, pero por encima tiene 9 números que representa el 18 % del total 50.

Luego, según la definición ninguno es el percentil de orden 80. Para resolver el problema se utiliza la caracterización dada después de la definición, y según ella ambos números 50 y 51 son percentiles de orden 80 porque cada uno tiene por debajo a lo sumo el 80 % y por encima a lo sumo el 20 % de los datos. Si tuviera sentido promediarlos se obtendría una solución mejor diciendo que el

percentil de orden 80 es , pero no necesariamente 50,5 es

admisible, pues no es un número de la lista.

Problema propuesto 1.5:

Diga cuáles son los percentiles de órdenes 0,50; 0,90 y 0,25 de los siguientes conjuntos de datos:

1. Los puntos del segmento de recta de la figura 1.11. 2. 2, 4, 7, 9, 11. 3. A, B, C, D, E, E, F, F, F, G, asumiendo el orden alfabético.

Respuestas:

1. X50 = 2,5; X90 = 4,5; X25 = 1,25 (exactos por ser continuo el conjunto de datos).

2. X50 = 7; X90 = 11; X25 = 4.3. X50 = E; X90 está entre F y G (es F o G); X25 = C.

1.7. Indicadores de dispersión

1.7.1. Recorrido o amplitud

En un conjunto de datos numéricos es igual a la diferencia entre su valor máximo y su valor mínimo, por ejemplo, el recorrido de los 50 números de la va-riable EdC de la matriz DatosM2 de la tabla 1.3 es igual a 20,51 – 1 = 19,51.

Bioestadística cualitativa.indd 30 25/06/2010 12:19:45 p.m.

Page 41: Bi o e s ta d í s t i c a

31

1.7.2. Recorrido intercuartílico

En un conjunto de datos numéricos es igual a la diferencia entre su percentil de orden 75 y su percentil de orden 25, es decir, entre el sus cuartiles tercero y primero. Por ejemplo, el recorrido intercuartílico de los la variable EdC de la ma-triz DatosM2 de la tabla 1.3 es igual a la diferencia entre 12,22 − 7,27 = 4,95.

1.7.3. La varianza

Es igual a la media de las diferencias cuadráticas de cada dato respecto a la media del conjunto, o sea:

∑=

−=n

ii XX

nS

1

22 )(1

1.7.4. Desviación estándar

Es igual a la raíz cuadrada de la varianza.La varianza y la desviación estándar exigen escalas de cuantificación de

intervalo o razón. Son los mejores indicadores de dispersión pero para varia-bles en estas escalas. De ella dependen el coeficiente de variación y el error estándar de la media. La varianza se denota por S2 o por V(X) y se tiene que la desviación estándar:

∑=

−=n

ii XX

nS

1

2)(1

Donde S y S2 son indicadores de dispersión absolutos.

1.7.5. Coeficiente de variación

Es igual a la desviación estándar entre la media, o sea: X

S , es un indicador relativo

de dispersión, se acostumbra a multiplicarlo por 100 y expresarlo como porcentaje.

1.7.6. Gráficas de cajas y bigotes

También conocidos como de cajas y alambres, reflejan la distribución de los cuartiles mínimo y máximo en los extremos de los bigotes, los percentiles de órdenes 25 y 75 en los extremos de la caja y la mediana dentro de la caja. Se usa también con los indicadores media dentro de la caja, y la media más y menos funciones de la desviación estándar en los extremos de la caja y de los bigotes. También se puede construir con la media más y menos desviación estándar (SD) y más y menos 1,96SD y con la media más y menos el error estándar (EE) y la media más y menos 1,96EE.

Bioestadística cualitativa.indd 31 25/06/2010 12:19:45 p.m.

Page 42: Bi o e s ta d í s t i c a

32

Por ejemplo, para las variables EV1, EV2, EV3, CI1, CI2 y CI3 de la matriz DatosM2 de la tabla 1.3, se pueden construir estas gráficas individuales, como las de la figura 1.12, de las tres variables en escalas ordinales comparables EV1, EV2, EV3 con la mediana, la diferencia entre los percentiles de órdenes 75 y 25 y el recorrido, o sea, la diferencia del máximo y el mínimo o percentiles de orden 100 menos el de orden 0.

Figura 1.12. Gráfica de cajas y bigotes de EV1, EV2 y EV3.

En la figura 1.12 se observa en EV3 que el mínimo coincide con el percen-til 25 y que EV2 es simétricas respecto a la mediana, no así EV1 que está un poco desplazada hacia los valores altos. Los valores de EV2 entre los cuartiles inferior y superior están bastante dispersos, al igual que los valores de EV1 comprendidos entre el mínimo y el primer cuartil y los de EV3 comprendidos entre el tercer cuartil y el máximo.

Para las tres variables en escalas de intervalo o razón CI1, CI2 y CI3 cada gráfica de la figura 1.13 muestra la media y la media más menos el error estándar de la media, media ± SE, y la media más menos el producto de 1,96 por el errror estándar de la media, media ± 1,96SE. También se observan distintos recorridos de las tres variables, en particular los valores de CI1 difieren notablemente de los de CI2 y de CI3. Se puede decir que las tres son simétricas. La de menor dispersión es CI3 y la de mayor dispersión CI2.

Problema propuesto 1.6:

Construya las gráficas de cajas y bigotes apropiadas para la variable GRM y EdC de la matriz de DatosM2 (tabla 1.3).

Bioestadística cualitativa.indd 32 25/06/2010 12:19:45 p.m.

Page 43: Bi o e s ta d í s t i c a

33

Figura 1.13. Gráfica de cajas y bigotes de CI1, CI2 y CI3.

1.8. Conjuntos, matrices, ficheros o archivos de datos en las diferentes escalas

Es costumbre presentar los conjuntos de datos, obtenidos en las investiga-ciones en forma tabular o matricial por columnas y filas, y en la terminología computacional llamarles ficheros, archivos de datos y bases de datos. Un ejemplo de tal matriz de datos es la tabla 1.3 con el nombre de DatosM2, aunque también se mostrará otro que se utilizará fundamentalmente para problemas propuestos y evaluaciones. Se trata de modelos de matrices de datos de investigaciones experimentales donde se presentan variables medidas en los cuatro tipos de escalas, variables de conteo y variables discretas y continuas. Tales matrices prestan un gran servicio puesto que representan un resumen, relativamente fácil de manipular, de una gran cantidad de puntajes de mediciones y registros de observaciones con muy poca o ninguna pérdida de información. Estas matrices de datos prestan una gran ayuda en la preparación de la clase porque el maestro no tiene necesariamente que buscar datos apropiados para ejemplificar, con estos se pueden ejemplificar casi todos los casos de una, dos y más de dos poblaciones, en los casos de muestras independientes e igualadas en cada una de las escalas de cuantificación.

Las variables repetidas terminadas en números distintos corresponden a registros efectuados en distintos momentos o a muestras apareadas o igua-ladas.

Bioestadística cualitativa.indd 33 25/06/2010 12:19:45 p.m.

Page 44: Bi o e s ta d í s t i c a

34

Observación: Para cerrar el estudio de las característica o indicadores numé-ricos de una variable, un ejemplo de otro aspecto de mucho interés, que debemos tomar en cuenta, relacionado con la forma o el procedimiento necesario, para obtener semejantes matrices de datos, se puede consultar en el epígrafe 5.7.

La tabla 1.17, denominada matriz de DatosMT, contiene los datos de una muestra aleatoria de 50 pacientes de un área de salud.

P1, P2 y P3 indican las tres patologías sufridas en tres distintos momentos de su vida.

G1, G2 y G3 indican el grado correspondiente de cada una de ellas. T1, T2 y T3 el tiempo de recuperación en horas expresados con dos decimales.

Tabla 1.17. Matriz de datos DatosMT

Grupo Sexo P1 P2 P3 G1 G2 G3 T1 T2 T3

B M E D D B RB R 84,19 93,25 84,59

A F F D E RB B MB 72,67 68,35 72,67

B M E E E MB MB MB 86,89 86,89 86,89

A F F E E MB MB R 88,97 69,33 78,97

A F D D D RB RB RB 71,45 71,45 71,45

B M D E E R E B 68,55 74,58 70,01

B M F F E MB MB RB 76,28 75,86 76,28

A F F F E B B B 72,56 72,56 65,89

B M E E E B B B 72,45 72,45 72,45

A F F F E E E E 75,88 75,88 75,88

A F D D D E R RB 84,41 90,51 84,41

B M F F D B E RB 90,96 75,6 90,96

B M E E E MB MB MB 75,46 75,46 75,46

B M D D D E M MB 77,88 75,92 78,87

B M E D E RB MB RB 79,81 76,81 79,81

C M F F E E RB R 72,84 86,43 72,84

C M D D E MM MM MM 70,76 70,76 70,76

A F F D E MB R RB 81,92 79,43 81,92

A F F E E RB RB R 76,78 87,06 76,78

C M E E E MB MB MB 86,91 86,91 86,91

C M E E E MB MB MB 86,96 86,96 80,96

C M D E E E B R 83,16 80,94 83,16

C M D D E M E B 72,48 74,86 72,48

A F D E E MB B MB 85,23 79,86 85,23

Bioestadística cualitativa.indd 34 25/06/2010 12:19:46 p.m.

Page 45: Bi o e s ta d í s t i c a

35

A F E F D MB R R 68,43 82,3 68,43

C M F D D M E B 75,86 83,05 75,86

C M E E D R MB B 79,83 73,53 79,83

A F D D D MB MB MB 86,73 86,73 86,73

A F F F D E R RB 87,66 86,82 87,66

A F D D E MB RB E 85,67 71,79 85,67

A F F F D MB R B 83,55 81,8 84,45

C M E F E B MB RB 77,59 96,01 77,59

A F F F E B B B 72,56 72,56 72,56

C M D F D E RB RB 77,1 76,36 77,1

C M F F E MB B B 66,29 75,59 66,29

A F D D E R R R 76,76 76,76 76,76

B F D E D RB RB R 86,6 77,27 86,6

B F F F E R R RB 82,08 75,35 82,08

C M F E E B RB B 83,27 82,83 83,27

C M D D D MB R B 82,57 70,77 82,57

C M D D D RB MB R 73,96 74,07 74,44

B F E E E MB MB MB 75,46 75,46 75,46

C M E E E MB MB MB 75,88 75,88 75,88

B F D D D RB RB RB 71,45 71,45 71,45

B F D D D MB MB MB 86,74 86,74 86,74

C M F F E E RB B 82,53 90,12 82,53

B F F F E B B B 86,62 86,62 86,62

C M E E E R RB RB 84,29 86,99 84,29

B F D E D B B RB 83,15 88,78 83,15

B F F F E E E E 75,88 75,88 75,88

1.9. Indicadores de correlación

Hasta ahora se han introducido indicadores de una variable, pero cuando se tienen dos variables, además, de los indicadores de ambas por separado, aparecen nuevos indicadores como son los que miden el grado de variación conjunta, relación o asociación entre ellas. Las distribuciones de frecuencia bivariada, entre las regularidades que descubren están las de asociación o correlación entre las dos variables en cuestión. Ahora se introducirán tales indicadores de asociación o correlación pero primero se precisarán las notaciones.

Bioestadística cualitativa.indd 35 25/06/2010 12:19:46 p.m.

Page 46: Bi o e s ta d í s t i c a

36

Sean (x1, y1), (x2, y2)..., (xn, yn) los valores observados del vector (X, Y), o sea, los valores de las variables X e Y apareados.

Se denotarán por X la media de los valores de X, por Y la media de los valores de Y, y por SX y SY, respectivamente, sus desviaciones estándar.

1.9.1. Covarianza y coeficiente de correlación lineal de Pearson

Si dos variables X e Y están en escalas de intervalo o razón se puede cal-cular la covarianza entre X e Y que se denota por SXY o Cov(X, Y) y se define como:

( )( )yyxxS i

n

iinXY −−= ∑

=1

1

Y también se puede expresar como yxyxSn

iiinXY −= ∑

=1

1 .

O sea, se puede expresar como la media de los productos menos el producto de las medias y es un indicador de variación conjunta de los dos conjuntos de valores en escala de intervalo o razón, pero su valor es absoluto, no es relativo, lo que dificulta su interpretación.

El coeficiente de correlación lineal de Pearson r es igual al cociente de la covarianza de las dos variables entre el producto de las dos desviaciones es-tándares. Mide lo mismo que la covarianza, pero carece de unidad de medida, es un índice relativo, por lo que su interpretación es más simple, sus valores están comprendidos entre –1 y 1 y solo es aplicable, al igual que la covarianza, cuando ambas variables están al menos en escala de intervalo:

YX

XY

SS

Sr =

Su fórmula de cálculo es:

∑ ∑∑ ∑

∑ ∑ ∑

= == =

= = =

−=

n

i

n

iii

n

i

n

iii

n

i

n

i

n

iiiii

yynxxn

yxyxn

r

1

2

1

2

1

2

1

2

1 1 1

Aparentemente más compleja, pero que como se puede ver se compone solo de las sumas de las columnas de la tabla 1.18, de modo que si se tiene que calcular a mano r basta solo con disponer los datos en una tabla como esta, apropiada incluso para verificaciones posteriores.

La tabla 1.18 consta de una columna para cada variable x e y, una para el producto xy de ellas y dos más para los cuadrados de x e y.

Bioestadística cualitativa.indd 36 25/06/2010 12:19:47 p.m.

Page 47: Bi o e s ta d í s t i c a

37

Tabla 1.18. Datos para el cálculo del coeficiente de correlación lineal

x Y xy x2 y2

1 7 7 1 49–2 –4 8 4 16 2 0 0 4 0 3 9 27 9 814 12 42 18 146

Interpretación del valor de r:Si Entre las variables x e y correlación linealr = 0 No hay. r = 1 Hay directa perfecta.r = –1 Hay inversa perfecta.0 < r < 1 Hay directa tanto mayor cuanto más cerca de 1 esté el valor

de r.–1 < r < 0 Hay inversa tanto mayor cuanto más cerca de –1 esté el

valor de r

Correlación inversa significa que cuando una variable crece la otra decrece y correlación directa indica que ambas crecen o ambas decrecen juntas.

Cuando se tienen varias variables y se calculan los coeficientes de corre-lación de cada par de ellas, se obtiene la llamada matriz de correlaciones. Por ejemplo, en la tabla 1.19 se muestra la matriz de correlaciones lineales de Pearson de las cuatro variables cuantificadas en escala de intervalo de la matriz de datos DatosM2 de la tabla 1.3. Observe que las correlaciones de la diagonal, las de cada variable consigo misma son iguales a 1, como es natural.

Tabla 1.19. Matriz de los coeficientes de correlación lineal de Pearson

EdC CI1 CI2 CI3

EdC 1,000000 0,018913 0,072709 –0,028053

CI1 0,018913 1,000000 0,978092 –0,091867

CI2 0,072709 0,978092 1,000000 –0,080511

CI3 –0,028053 –0,091867 –0,080511 1,000000

Si se observa detenidamente la matriz DatosM2 de la tabla 1.3, se nota que EdC tiene un valor ausente. La matriz de la tabla 1.19, fue obtenida con un software estadístico, para incluirla tuvo que eliminar la fila 29 que contiene el

Bioestadística cualitativa.indd 37 25/06/2010 12:19:47 p.m.

Page 48: Bi o e s ta d í s t i c a

38

dato ausente y calcularla solo con los restantes puntajes de los 49 individuos. Los coeficientes en que no participa la variable EdC se pueden calcular aparte con la totalidad de los 50 valores y situarlos como en la tabla 1.20, con los co-eficientes en que participa esta variable, calculados con 49 valores y los demás con 50 valores. Por otra parte, como la matriz de correlaciones es simétrica respecto a la diagonal principal solo se escribirá en lo adelante la matriz trian-gular inferior, que incluye todos los posibles coeficientes de correlación entre las variables en cuestión y tiene la diagonal llena de unos.

Tabla 1.20. Matriz triangular de correlaciones lineales de Pearson de DatosM2

EdC CI1 CI2 CI3

EdC 1,000000CI1 0,018913 1,000000CI2 0,072709 0,978250 1,000000CI3 –0,028053 –0,092008 –0,080678 1,000000

En la tabla 1.20 se observa una alta correlación lineal de 0,97825 entre CI1 y CI2, lo que indica que a mayor coeficiente de inteligencia 1, mayor el coefi-ciente de inteligencia 2. En cuanto a correlación, también es interesante que no hay otros coeficientes ni moderadamente altos, además del hecho de que las correlaciones entre CI3 y las otras tres variables son todas inversas, además, el resto de las correlaciones directas.

Un criterio que permitirá mejorar la interpretación el valor del coeficiente de correlación lineal de Pearson consiste en que su cuadrado r2 coincide con el llamado coeficiente de determinación de la regresión múltiple cuyo valor representa la proporción de la variación de Y explicada por X.

Entonces si r2 = 0,50 se podrá interpretar como que X explica un 50 % de la variación de Y. Si se conviene en considerar altas las correlaciones para las que r2 > 0,50 eso equivaldrá aproximadamente a que r > 7,07106781, de modo que se podrán considerar altas las correlaciones de los coeficientes r algo ma-yores que 0,7.

1.9.2. Coeficientes de correlación parciales

A menudo se presenta la necesidad de considerar coeficientes de correlación parcial que describen la correlación que puede haber entre dos variables X1 y X2 independientemente de otras variables X3,..., Xk con k > 3 que puedan estar influyendo en la correlación. Así, por ejemplo:

Bioestadística cualitativa.indd 38 25/06/2010 12:19:47 p.m.

Page 49: Bi o e s ta d í s t i c a

39

Describe el grado de correlación entre X1 y X2 independientemente de, manteniendo constante a X3 o eliminando el posible efecto de X3 y se expresa en función de los coeficientes de correlación simples entre dos variables:

Describe el grado de correlación entre X1 y X2 independientemente de, o sea manteniendo constante a X3 y X4 o eliminando sus posibles efectos. Por ejem-plo, el valor del coeficiente de correlación parcial entre CI1 y CI2 de la matriz DatosM2, eliminando el posible efecto de la variable EdC es 0,979484, ligera-mente más pequeño que incluyendo el efecto de EdC, de modo que la presencia de EdC aumenta la correlación entre CI1 y CI2 pero en poca magnitud.

Estas fórmulas de coeficientes parciales son válidas, teniendo en cuenta las diferencias, tanto para los coeficientes de correlación lineal de Pearson como para los de rangos de Kendall.

1.10. Coeficientes de correlación de Spearman, punto biserial y V de Cramér

El coeficiente de correlación lineal de Pearson solo es admisible para las escalas que admiten medias y varianzas, las de intervalo y las de razón. La nece-sidad hizo que se fueran introduciendo en la estadística índices de correlación, o mejor llamados de asociación, válidos para las escalas ordinal y nominal. No se puede usar un coeficiente correspondiente a una escala superior si al menos una variable está en una escala inferior. Tampoco es conveniente usar uno corres- pondiente a una escala inferior cuando se puede utilizar uno correspondiente a una escala superior, puesto que en este caso se desaprovechará información contenida en los datos. En la tabla 1.21 se ofrecen los nombres de otros coefi-cientes de correlación con la indicación de la escala que exigen.

Tabla 1.21. Coeficientes de correlación de Spearman, punto biserial y V de Cramér

Coeficiente de correlación Escala que exigeDe rangos de Spearman Ambas ordinalesDe rangos de Kendall Ambas ordinalesPunto biserial: Una dicotómica y otra de intervaloV de Cramér Ambas nominalesφ (caso particular de V) Ambas dicotómicas

Donde solo una de las dos variables puede estar en una escala superior.

Bioestadística cualitativa.indd 39 25/06/2010 12:19:47 p.m.

Page 50: Bi o e s ta d í s t i c a

40

1.10.1. Coeficiente de correlación de rangos de Spearman

La obtención de los rangos o rangueo de los valores de una variable consiste en asignar el rango 1 al menor valor de la variable, el rango 2 al menor valor de los restantes valores de la variable, el 3 al menor de los restantes y así sucesiva-mente hasta que quede un único valor restante, al que se le asignará el rango n. Por ejemplo, en la tabla 1.22 aparecen rangueadas en las columnas encabezadas por rg los rangos de las variables X e Y de cuatro valores cada una:

Tabla 1.22. Rangueo de las variables X e Y

X rg(X) Y rg(Y) 2id

1 2 7 3 1

–2 1 –4 1 0

2 3 0 2 1

3 4 9 4 0

Suma de cuadrados 2

Por rg(x) y rg(y) se han denotado los rangos de x y de y respectivamente.Definición: se dice que existen ligaduras o ligas entre los valores de una o

dos variables si algunos de sus rangos se repiten (son iguales) y en tal caso los valores repetidos se dice que están ligados.

En la tabla 1.23 aparecen elementos del cálculo del coeficiente de correlación de rangos de Spearman entre las variables x e y de la tabla 1.22.

Tabla 1.23. Cálculos previos para obtener el coeficiente de rangos de Spearman

rg(x) rg(y) 2id

2 3 1

1 1 0

3 2 1

4 4 0

Suma de cuadrados 2

El coeficiente de correlación de rangos de Spearman entre dos variables X e Y es un índice de asociación aplicable a variables en escala ordinal. Se define por:

nn

drg

n

ii

−−=

∑=3

1

261

Bioestadística cualitativa.indd 40 25/06/2010 12:19:48 p.m.

Page 51: Bi o e s ta d í s t i c a

41

Donde:

di = rg(xi) – rg(yi), para i = 1, 2,..., n.xi: representa el valor i-ésimo de la variable X y rg(xi) su rango. yi: representa el valor i-ésimo de la variable Y y rg(yi) su rango.

Para ello se ranguean inicialmente cada una de las variables para obtener, en la tabla 1.23, los rangos rg(x) y rg(y) y los cuadrados de sus diferencias para sumar estos y sustituir la suma en la fórmula del coeficiente de correlación de rangos de Spearman:

Calculando el coeficiente de correlación de Pearson para estos dos conjuntos de cuatro datos rangueados se obtiene también r = 0,80, gracias a que no hay ligaduras.

Se podría interpretar que la correlación entre x e y es directa y alta, por ser el valor del coeficiente 0,8, bastante cercano a 1, pero cuatro es un tamaño muestral muy pequeño.

El cálculo del coeficiente de correlación de rangos de Spearman como se vio en este ejemplo y se puede ver demostrado en el epígrafe 5.13 de este libro coincide con la fórmula del coeficiente de correlación lineal de Pearson apli-cado a ambas variables rangueadas, siempre y cuando no haya ligaduras en los rangos de las variables. En este caso también se puede calcular por la fórmula del coeficiente de correlación lineal de Pearson sustituyendo en la misma xi e yi por sus rangos rg(xi) y rg(yi) respectivos. Con un software estadístico es muy sencillo porque consiste en calcular el coeficiente para las variables rg(xi) y rg(yi) en lugar de para xi e yi.

Ejemplo 1.9:

En la tabla 1.24 se han calculado los coeficientes de correlación de rangos de Spearman entre las variables GRM, EV1, EV2 y EV3 y entre ellas y cada una de las cuatro variables en escala de intervalo y por tanto ordinales también de la tabla 1.17.

Tabla 1.24. Matriz de correlaciones de rangos de Spearman

GRM EV1 EV2 EV3 EdC CI1 CI2 CI3

GRM 1,0000 0,0917 –0,1760 –0,1768 0,8806

EV1 –0,1422 1,0000 –0,1041 0,1230 0,1230 –0,2024

EV2 0,0792 –0,2480 1,0000 –0,0317 –0,2454 –0,2460 –0,0175

EV3 0,7428 –0,0324 0,0500 1,0000 0,0919 –0,0789 –0,0805 0,7348

Bioestadística cualitativa.indd 41 25/06/2010 12:19:48 p.m.

Page 52: Bi o e s ta d í s t i c a

42

Se destacan en negrita el valor 0,8806 de la correlación entre GRM y CI3, 0,7428 entre GRM y EV3 y 0,7348 entre EV3 y CI3, el resto de las correlaciones son bastante pequeñas.

Agregando estos coeficientes a la tabla 1.20, de la matriz de correlaciones lineales de Pearson, esta se ampliará a seis variables con lo que se obtendrá la matriz de correlaciones lineales de Pearson y de rangos de Spearman de la tabla 1.25 con toda la información posible de la muestra. Los coeficientes de correlación entre cualquier otra variable y EdC se calcula solo con 49 datos, debido al valor ausente de EdC.

Tabla 1.25. Matriz de correlaciones lineales de Pearson y de rangos de Spearman

Sexo Raza GRM EV1 EV2 EV3 EdC CI1CI2 CI3

Sexo 1,00

Raza - 1,00

GRM - - 1,00

EV1 - - –0,14 –0,25

EV2 - - 0,08 –0,03 1,00

EV3 - - 0,74 –0,10 0,05 1,00

EdC - - 0,09 0,12 –0,03 0,09 1,00

CI1 - - –0,18 0,12 –0,25 –0,08 0,02 1,00

CI2 - - –0,18 –0,20 –0,25 –0,08 0,07 0,98 1,00

CI3 - - 0,88 –0,25 –0,02 0,73 –0,03 –0,09 –0,08 1,00

Los coeficientes de correlación lineal de Pearson son los que aparecen en negrita y los demás son de rangos de Spearman. Los de la variable EdC con las demás variables se calcularon con solo 49 valores de las mismas por tener EdC un valor ausente.

Observe que faltan aún para completar la matriz de correlaciones los coefi-cientes de correlación de sexo y raza con todas las demás 10 variables.

Coeficiente de correlación de rangos de Spearman corregido por ligaduras

En el caso de que hayan ligaduras en las variables X, Y o ambas, de modo que los rangos no sean exactamente 1, 2, 3,..., n, sin repeticiones, la fórmula dada inicialmente del coeficiente de correlación de rangos de Spearman calcu-lado por la fórmula dada no proporciona el verdadero valor de este coeficiente (la fórmula del coeficiente de correlación lineal de Pearson aplicada a los datos rangueados mejora la situación), y para corregir esta situación se introduce su fórmula corregida por ligaduras, que resulta algo más compleja de calcular, con la que se logra obtener el verdadero valor del coeficiente:

Bioestadística cualitativa.indd 42 25/06/2010 12:19:48 p.m.

Page 53: Bi o e s ta d í s t i c a

43

YX

YXs TT

dTTr

2

222 ∑−+=

Donde:

y

Además, t es el número de observaciones ligadas de un rango r de la variable x, en el primer caso y de la variables Y, en el segundo, para todo rango con ligas r. La suma se extiende a todos los rangos ligados r distintos de x en la primera suma y de Y en la segunda.

La corrección no aporta diferencias sustanciales entre los valores obtenidos por las dos fórmulas si las ligaduras son pocas.

Un criterio muy común en el rangueo, en presencia de ligaduras en los valores de una variable, recomienda, hacerle corresponder a los valores liga-dos el promedio de sus posibles rangos, suponiendo que no hubiese ligadura alguna, claro, esto no elimina sino que mantiene las ligaduras pero con valores más adecuados.

Ejemplo 1.10:

En la tabla 1.26 se ofrecen los resultados del cálculo del coeficiente de correlación de rangos de Spearman entre las variables X e Y con la corrección por ligaduras.

Tabla 1.26. Elementos para el calculo del coeficiente de Spearman corregido por ligaduras

X Y rg(X) rg(Y) 2id

1 7 2 4 4 –2 –4 1 1,5 0,25 2 0 4 3 1 3 9 6 5,5 0,25 2 –4 4 1,5 6,25 2 9 4 5,5 2,25

Suma de cuadrados 14,00

para el rango 4 de X.

Para los rangos 1,5 y 5,5 de y que se repiten dos veces cada uno:

Bioestadística cualitativa.indd 43 25/06/2010 12:19:49 p.m.

Page 54: Bi o e s ta d í s t i c a

44

Aplicando la fórmula del coeficiente de correlación lineal de Pearson a los datos rangueados se obtiene también 0,5628.

En las tablas 1.24 y 1.25 los coeficientes de rangos de Spearman se calcu-laron teniendo en cuenta la corrección por ligaduras, porque en los datos había gran número de ligaduras.

Coeficiente de correlación múltiple de rangos de Spearman

El coeficiente de correlación múltiple de Spearman de k variables es igual al promedio de todos los posibles coeficientes de correlación entre las variables en

cuestión. Lo constituye la media de los valores absolutos de las

posibles combinaciones de los pares de variables que se pueden formar con las

k variables. En el caso de nuestro ejemplo se tienen posibles

coeficientes de correlación de rangos de Spearman de entre las cuatro variables GRM, EV1, EV2 y EV3 en escala ordinal de la matriz DatosM2. Su valor en este caso es 0,075, que es muy bajo. Lo de múltiple se refiere a que es un indicador de asociación entre más de dos variables. Por ejemplo, el promedio de los coefi-cientes de rangos de Spearman, de las ocho variables en escala al menos ordinal de la matriz DatosM2 de la tabla 1.3, es igual a 0,191472 y se halla promediando los 28 coeficientes de correlación de rangos de Spearman entre ellas.

Problema propuesto 1.7:

Construya la matriz de correlaciones de las cinco variables de la matriz de datos que se ofrece en la tabla 1.27. La primera variable ID representa la identificación de los individuos y sus valores van del 1 al 45.

Tabla 1.27. Matriz de datos para el problema propuesto 1.7

ID Sexo GRM EdC CI EV1 M Ligero 2,5 60 32 F Moderado 6 42 43 M Grave 8,5 27 54 F Severo 8,5 –20 65 F Ligero 14 60 5

Bioestadística cualitativa.indd 44 25/06/2010 12:19:49 p.m.

Page 55: Bi o e s ta d í s t i c a

45

6 F Ligero 6 60 47 M Moderado 8,5 42 38 F Moderado 19 42 69 F Ligero 14 60 510 F Ligero 6 60 411 M Moderado 8,5 42 312 M Moderado 19 42 613 M Ligero 2,5 60 314 M Moderado 6 42 415 F Grave 8,5 27 516 M Severo 8,5 -20 617 M Ligero 2,5 60 318 M Moderado 6 42 419 M Grave 8,5 27 520 M Severo 8,5 -20 621 M Ligero 14 60 522 F Ligero 6 60 423 F Moderado 8,5 42 324 F Moderado 19 42 625 M Ligero 2,5 60 326 F Moderado 6 42 427 F Grave 8,5 27 528 M Severo 8,5 –20 629 F Ligero 14 60 530 F Ligero 6 60 431 M Moderado 8,5 42 332 M Moderado 19 42 633 M Ligero 2,5 60 334 F Moderado 6 42 435 M Grave 8,5 27 536 M Severo 8,5 –20 637 M Ligero 14 60 538 M Ligero 6 60 439 M Moderado 8,5 42 340 M Moderado 19 42 641 M Ligero 2,5 60 342 F Ligero 14 60 543 F Moderado 6 42 444 F Ligero 6 60 445 M Grave 8,5 27 5

Bioestadística cualitativa.indd 45 25/06/2010 12:19:49 p.m.

Page 56: Bi o e s ta d í s t i c a

46

1.10.2. Coeficiente de correlación punto biserial

El coeficiente de correlación punto biserial es una índice de asociación aplicable a dos variables de las cuales una es dicotómica y la otra está en escala de intervalo. Viene definido por:

Donde: Y: representa la variable en escala de intervalo.P: es la proporción de uno de los valores en la variable dicotómica X.Q: es la proporción del otro valor en la variable dicotómica X, q = 1 – p.

pY : representa la media de los valores de Y correspondientes a los valores de X cuya proporción es p en la variable dicotómica X.

qY : representa la media de los valores de Y correspondientes a los valores de X cuya proporción es q en la variable dicotómica X.

Ejemplo 1.11:

Para los cuatro pares de puntos siguientes:x 0 1 0 1y 15 12 13 12

Se tiene que p es la proporción de pares con x = 0 y por tanto 5,042 ==p

y q es la proporción de pares con x = 1 y por tanto 5,042 ==q .

Sy ≈ 1,22

Lo que indica una correlación bastante alta, pero cuidado que los datos son solo cuatro y para pocos datos la correlación debe ser muy alta para la estimación en base a ella de la correlación poblacional sea confiable.

Ejemplo 1.12:

Con más datos, he aquí el cálculo del coeficiente de correlación punto biserial entre el sexo y EdC para los datos de la matriz de DatosM2 de la tabla 1.3.

Bioestadística cualitativa.indd 46 25/06/2010 12:19:50 p.m.

Page 57: Bi o e s ta d í s t i c a

47

Para ver como se facilita el cálculo de este coeficiente con Microsoft Excel consulte el coeficiente de correlación punto biserial en el epígrafe 5.1.5.

Problema propuesto 1.8:

Calcule el coeficiente de correlación de la variable sexo con la variable CI1 de la tabla 1.3, archivo DatosM2.

1.10.3. Coeficiente de correlación V de Cramér

Para calcular este coeficiente se requiere previamente construir una tabla de frecuencias bivariadas de un vector (A, B), como la tabla 1.28 en que los C niveles B1, B2,..., BC del factor B (valores de la variable B) encabezan las columnas y los r niveles A1, A2,..., Ar del factor A (valores de la variable A) encabezan las filas.

Tabla 1.28. Distribución bivariada de frecuencias del vector (A, B)

A\B B1 B2 ··· Bc n·j

A1 o11 o21 ··· oc1 n·1A2 o12 o22 ··· oc2 n·2... ... ... ... ... ...

Ar o1r o2r ··· ocr n·rni· n1· n2· ··· nc· n··

Donde:oij: es la frecuencia absoluta de la celda ij-ésima que a partir de ahora se

denominará frecuencia observada de individuos clasificados en el nivel i-ésimo del factor A y el nivel j-ésimo del factor B, o sea, en celda (i, j)-ésima de la tabla (para i = 1, 2,..., c; j = 1, 2,..., r).

∑=

• =r

jiji on

1: representa la suma de la fila i-ésima y la frecuencia absoluta de Ai.

∑=

• =c

iijj on

1: representa la suma de la columna j-ésima y la frecuencia abso-

luta de Bj.

∑∑=

•=

••• ===c

ii

r

jj nnnn

11

Representa la suma de las frecuencias de todas las celdas de la tabla.Para el cálculo del coeficiente de correlación V de Cramér y para otros

métodos inferenciales se estiman, si no se conocen, las llamadas frecuencias esperadas eij por la fórmula

nnn

e jiij

••= , frecuencia esperada de la celda (i, j),

para i = 1, 2,..., c y j = 1, 2,..., r.

Bioestadística cualitativa.indd 47 25/06/2010 12:19:50 p.m.

Page 58: Bi o e s ta d í s t i c a

48

De las fórmulas anteriores se tiene que:

∑∑∑∑==

••

=•

•••

======

r

jij

r

j

jir

jj

iii

c

jij e

nnn

nn

nnn

nnor1111

es la suma de la fila

i-ésima de eij.

∑∑∑∑==

••

=•

•••

======

c

iij

c

i

jic

ii

jjj

c

iij e

nnn

nn

nn

nn

no1111

es la suma de la columna

j-ésima de eij.O sea, que las sumas de las frecuencias observadas y esperadas tanto de

filas como de columnas filas son iguales. Entonces, de la distribución de frecuencias bivariada del vector (A, B) se

pueden obtener, en las tablas 1.29 y 1.30, las distribuciones de cada una de las variables A y B, llamadas, entonces distribuciones marginales de (A, B).

Tabla 1.29. Distribución de frecuencias de A

A A1 A2 ··· Arn·j n·1 n·2 ··· n·r

Tabla 1.30. Distribución de frecuencias de B

B B1 B2 ··· Bcni· n1· n2· ··· nc·

El coeficiente de correlación V de Cramér es un índice de asociación entre dos variables en escalas nominales. Se define por:

)1(

2

−χ=kn

V

Donde:

: es el llamado estadígrafo ji cuadrado (ji es el nombre

de la letra griega χ, que algunos llaman también chi y porque en otros idiomas se escribe chi).

k: representa el mínimo entre el número de filas y el número de co-lumnas de la tabla de contingencia de donde se calculó el valor de 2χ .

El coeficiente V de Cramér toma valores comprendidos entre 0 y 1, por lo que resulta fácil su interpretación, análoga a las de los otros coeficientes estudiados.

Se puede probar, a partir de que las sumas de las frecuencias tanto observadas como esperadas son iguales y utilizando las propiedades de la suma que:

Bioestadística cualitativa.indd 48 25/06/2010 12:19:50 p.m.

Page 59: Bi o e s ta d í s t i c a

49

Ejemplo 1.13:

En la tabla 1.31 se ofrecen las frecuencias observadas y esperadas nece-sarias para el cálculo del valor de ji cuadrado entre las variables sexo y grado de retrazo mental agrupada esta última en solo dos clases: ligero o moderado una y severo o grave la otra, para los 50 individuos de la tabla 1.3.

Tablas 1.31. Frecuencias observadas para el problema del ejemplo 1.15

GRMFrecuencias observadas

Masculino Femenino TotalL o M 16 16 32S o G 14 4 18Total 30 20 50

GRM: grado de retaso mental. L o M: ligero o moderado. S o G: severo o grave.

Para empezar a resolver el problema en la tabla 1.32 se calculan las fre-cuencias esperadas.

Tabla 1.32. Frecuencias esperadas para la solución del ejemplo 1.15

GRMFrecuencias esperadas

Masculino Femenino TotalL o M 19,2 12,8 32,0S o G 10,8 7,2 18,0Total 30,0 20,0 50,0

Por la fórmula más sencilla se tiene que:

= 13,3333 + 20 + 18,1481 + 2,2222 – 50 = 53,7037 – 50 ≈ 3,7037

Es baja la correlación entre estas dos variables. Los valores de V están comprendidos entre 0 y 1, ambos inclusive. Esta es la ventaja que tiene este coeficiente respecto a otros más conocidos como el llamado coeficiente de contingencia, que no alcanza nunca el valor 1.

Bioestadística cualitativa.indd 49 25/06/2010 12:19:51 p.m.

Page 60: Bi o e s ta d í s t i c a

50

Ejemplo 1.14:

Para calcular el coeficiente V de Cramér de las variables grado de retrazo mental y sexo de los 50 individuos de la tabla 1.3 que aparecen tabuladas en de la tabla 1.33.

Tablas 1.33. Frecuencias observadas de los datos del ejemplo 1.14

GRMFrecuencias observadas

Masculino Femenino TotalL 6 6 12M 10 10 20

S o G 14 4 18Total 30 20 50

Primeramente se calculan, en la tabla 1.34, las frecuencias esperadas.

Tabla 1.34. Frecuencias esperadas correspondientes a las frecuencias observadas de la tabla 1.33

GRMFrecuencias observadas

Masculino Femenino TotalL 7,2 4,8 12,0M 12,0 8,0 20,0

S o G 10,8 7,2 18,0Total 30,0 20,0 50,0

Para finalmente obtener:

704,32 ≈χ ,

Como V ≈ 0,272, resulta bastante baja la correlación entre el sexo y el grado de retrazo mental. Resulta notable la coincidencia entre estos dos valores con los dos anteriores, pero es muy probable que se deba a la aproximación de los cálculos o la casualidad.

El caso más simple del coeficiente V, es aquel en que ambas variables son dicotómicas y la tabla de distribución de frecuencias bivariadas es, entonces, una tabla de dos filas por dos columnas como la 1.31. En este caso el coeficiente de correlación V de Cramér se denomina coeficiente también φ.

1.10.4. Coeficiente φ

Se denomina así al caso particular del coeficiente V de Cramér para dos variables dicotómicas o binarias, es decir, aplicado a tablas de dimensión 2 x 2, o sea, del tipo:

Bioestadística cualitativa.indd 50 25/06/2010 12:19:51 p.m.

Page 61: Bi o e s ta d í s t i c a

51

A B

C D

φ es la letra griega llamada fi, su expresión, como coeficiente de correlación, se obtiene a partir de la siguiente expresión de ji cuadrado:

Y como k es igual a 2 y por tanto k – 1 = 1 en la fórmula del coeficiente V de Cramér se tiene que:

nV

2χ= y

Ejemplo 1.15:

Cálculo del coeficiente de correlación φ entre la variable grado de retrazo mental recodificada a 0 para leve o moderada y 1 para severa o grave, y la variable sexo de la tabla 1.31.

Entonces la tabla obtenida es:

16 14

16 4

Donde A = 16, B = 14, C = 16 y D = 4, AD – BC = 64 – 224 = –160n(AD – BC)2 = 50(–160)2 = 1 692 800 (A + B)(C + D)(A + C)(B + D) = 30(20)32(18) = 345 600De modo que:

3,7037345600

12800002 ≈=χ

Que coincide con el obtenido por la fórmula original de V.

Observaciones:

1. En el caso de variables dicotómicas numéricas el coeficiente φ, coincide con el valor absoluto del coeficiente de correlación lineal de Pearson aplicado a los valores de las dos variables. Así, por ejemplo, poniendo femenino igual a 0 y masculino igual a 1, ligero o moderado igual a 0 y severo o grave igual a 1 y calculando φ mediante la fórmula del coeficiente de correlación lineal de Pearson, se obtiene el mismo valor 0,2722 para φ.

Bioestadística cualitativa.indd 51 25/06/2010 12:19:51 p.m.

Page 62: Bi o e s ta d í s t i c a

52

2. Para el cálculo de χ2 existe también la llamada corrección por continuidad o de Yates que se aplica por lo general cuando se utiliza una distribución continua como aproximación en el caso de datos discretos y consiste en usar el estadígrafo χ2 corregido. En muestras grandes no habrá gran diferencia entre los valores del estadígrafo corregido y no corregido. La mayor utilidad de la corrección está en los casos en que el valor de V está muy próximo al límites de ser significativo (epígrafe 1.11) y en las tablas de contingencia de 2 x 2.

Un criterio más práctico consiste en aplicarla cuando la tabla contiene solo frecuencias observadas pequeñas, de modo que algunas frecuencias esperadas resultan menor que 10. He aquí su expresión:

para el caso general.

, para el caso de 2 x 2.

Por ejemplo, para los datos de las tablas 1.31 y 1.33 se obtienen, respecti-vamente, aplicando esta corrección χ2 ≈ 3,6806 y V ≈ 2,3264, valores próximos a los obtenidos sin las correcciones de Yates, como era de esperar.

Problema propuesto 1.9:

Calcule los coeficientes de correlación entre la variable sexo y la variable EV1 recodificando esta última a solo tres valores representando tanto al 1 como al 2 por A, el 3 y el 4 por B y el 5 y el 6 por C o en lugar de A, B y C se pueden usar cualesquiera otros tres símbolos. Los resultados se referirán a la muestra del la matriz DatosM2 de la tabla 1.3.

Después de estudiar estos cuatro coeficientes de correlación se está en condiciones de calcular en la tabla 1.35 la matriz de correlaciones de todas las 10 variables de la matriz DatosM2.

Tabla 1.35. Matriz de correlaciones de las 11 variables de la matriz DatosM2

Sexo Raza GRM EV1 EV2 EV3 EdC CI1 CI2 CI3Sexo 1,00Raza 0,13 1,00GRM 0,27 0,31 1,00EV1 0,39 0,54 –0,14 1,00EV2 0,33 0,37 0,08 –0,14 –0,25EV3 0,31 0,31 0,74 0,08 –0,03 1,00EdC 0,32 0,46 0,10 0,74 –0,10 0,05 1,00

Bioestadística cualitativa.indd 52 25/06/2010 12:19:52 p.m.

Page 63: Bi o e s ta d í s t i c a

53

CI1 0,28 0,63 –0,18 0,09 0,12 –0,03 0,09 1,00CI2 0,30 0,62 –0,18 –0,18 0,12 –0,25 –0,08 0,02 1,00CI3 –0,42 0,67 0,88 –0,18 –0,20 –0,25 –0,08 0,07 0,98 1,00

Como se obtiene:1. Los coeficientes entre las variables EdC, CI1, CI2 y CI3 son lineales de

Pearson por estar en escala de intervalo ambas.2. Los coeficientes entre las variables GRM, EV1, EV2 y EV3 y entre estas y

EdC, CI1, CI2 y CI3 son de rangos de Speraman por estar una en escala ordinal y la otra en escala igual o superior.

3. Los coeficientes entre las variables sexo, GRM, EV1, EV2 y EV3 y entre raza, sexo, GRM, EV1, EV2, EV3, EdC, CI1, CI2 y CI3 son V de Cramér por haber entre ellas una variable en escala nominal. Los coeficientes entre raza y EdC, CI1, CI2 y CI3 presentan una dificultad adicional que consiste en que hay que recodificar estas últimas variables de modo que se reduzcan notablemente sus valores distintos, porque no es buena una tabla de dos o tres filas por 47 o 50 columnas. Para sexo contra CI1, CI2 y CI3 a continuación se ofrece otra solución mejor.

4. Los coeficientes entre las variables sexo y EdC, CI1, CI2 y CI3 son punto biserial por ser entre una variable en escala dicotómica y la otra de intervalo o razón. Los coeficientes punto biserial se pueden calcular en el Excel bastante fácilmente, como se orienta en el epígrafe 5.1.5. Para el cálculo de los cuatro coeficientes V de Cramér de la variable raza con las variables EdC, CI1, CI2 y CI3 se aplicaron las recodificaciones que aparecen en la tabla 1.36.

Tabla 1.36. Recodificación de las variables EdC y CI1, CI2 y CI3

EdCde: Recodificado a CI1, CI2 y CI3

de: Recodificado a

1 a 5 1 10 a 20,5 15,01 a 10 2 20,51 a 30,5 210,01 a 15 3 30,51 a 40,5 315,01 al 20 4 40,51 a 50,5 420,01 al 25 5 50,51 a 60,5 5

60,51 a 70,5 670,51 a 80,5 780,51 a 90,5 8

Para construir esta matriz de correlaciones más rápidamente se calcula pri-mero con un software estadístico las matriz de correlaciones lineales de Pearson de todas las variables, y se le eliminan todos los valores repetidos que quedan

Bioestadística cualitativa.indd 53 25/06/2010 12:19:52 p.m.

Page 64: Bi o e s ta d í s t i c a

54

por encima de la diagonal de 1, a continuación se sustituyen los coeficientes de correlación lineales de Pearson entre las variables sexo, raza, GRM, EV1, EV2 y EV3 dejando de ellas solo los 1 de la diagonal situando los coeficientes de rangos de Spearman en las celdas correspondientes a las correlaciones entre GRM, EV1, EV2 y EV3 y entre estas y EdC, CI1, CI2 y CI3. Luego se recodifican EdC, CI1, CI2 y CI3 a pocos valores y se hallan los coeficientes de correlación V de Cramér de raza con todas las demás variables y de sexo con GRM, EV1, EV2 y EV3 y se colocan los coeficientes obtenidos en sus respectivas celdas de la matriz original de las 11 variables.

1.11. Coeficientes de correlación de Kendall

Se presentarán tres coeficientes de correlación de Kendall, el primero constituye una alternativa del coeficiente de rangos de Spearman, el segundo un coeficiente de correlación parcial y el tercero un coeficiente de correlación múltiple o de concordancia para variables en escalas ordinales.

1.11.1. Coeficiente de correlación de rangos de Kendall

Este coeficiente constituye un índice de asociación entre dos variables X e Y en escalas al menos ordinal similar al de Spearman pero no igual. Se define como:

)1(2

−=

nn

SrK

Donde n representa el tamaño muestral y el valor de S se obtiene de la forma siguiente:

1. Se ranguean las variables X e Y por separado, manteniendo los pares (x, y), y luego se ordenan estos pares por los rangos de X.

2. Para cada rango de Y se consideran los rangos situados a su derecha y:a) S1 denotará el número de ellos que sean mayores que el rango de Y. b) S2 denotará el número de ellos que sean menores que el rango de Y.

3. Se obtiene S = S1 – S2 correspondientes a los n rangos de Y.4. Los rangos situados a la derecha de un rango, que no sean ni menores

ni mayores, es decir, que sean iguales al rango en cuestión, se desechan, no se cuentan.

El coeficiente de rangos de Kendall es tan bueno como el de Spearman para medir el grado de asociación entre dos variables en escalas ordinales. Muchas veces se prefiere este último por simplicidad del cálculo. Se incluye

Bioestadística cualitativa.indd 54 25/06/2010 12:19:52 p.m.

Page 65: Bi o e s ta d í s t i c a

55

ahora el coeficiente de Kendall para tener una alternativa y fundamentalmente porque existe una variante de él que permite medir la correlación parcial y otra la correlación múltiple.

Ejemplo 1.16:

Para calcular el coeficiente de rangos de Kendall de los datos de las variables X e Y de la tabla 1.37.

Tablas 1.37. Datos del ejemplo 1.16

Datos originales

X 1 –2 2 3

Y 7 –4 0 9

Se obtienen los rangos de estos valores o las variables X e Y en la tabla 1.38.

Tabla 1.38. Rangos de las variables X e Y de la tabla 1.37.

Rangos

X 2 1 3 4

Y 3 1 2 4

Se ordenan los pares de rangos, según los valores de los rangos de X y se obtiene (1, 1), (2, 3), (3, 2) y (4, 4) lo que tubularmente se representa así:

X: 1 2 3 4Y: 1 3 2 4

Se observa que a la derecha del rango:1 de Y hay 3 rangos mayores que 1 (el 3, el 2 y el 4) y 0 rangos menores que 1: 3 03 de Y hay 1 rango mayor que 3 (el 4) y 1 rango menor que 3 (el 2): 1 12 de Y hay 1 rango mayor que 2 (el 4) y 0 rangos menores que 2: 1 04 de Y hay 0 rangos mayores que 4 y 0 rangos menores que 4: 0 0Sumas 5 1S, la diferencia de las sumas de las dos columnas sumas: 4

Bioestadística cualitativa.indd 55 25/06/2010 12:19:53 p.m.

Page 66: Bi o e s ta d í s t i c a

56

Para estos mismos datos el coeficiente de Spearman resultó igual a 0,8, las diferencias se deben a que utilizan diferente tipo de información de los datos.

En caso de que se presenten ligaduras en una de las variables ofrece mejores resultados la fórmula rKc corregida de rK. Pero si en ambas variables se presentan ligaduras no se garantiza obtener un valor único de S y por tanto de rKc:

Para cada rango ligado de X:

∑ −= )1(ttTX , donde t es su número de observaciones ligadas.

Y para cada rango ligado de Y:

∑ −= )1(ttTY , donde t es su número de observaciones ligadas.

Ejemplo 1.17:

Cálculo del coeficiente de correlación de rangos de Kendall con esta corrección por ligaduras a partir de los datos de la tablas 1.39.

Tabla 1.39. Datos para el ejemplo 1.17

Datos originales

X 1 –2 2 9 6 7

Y 7 –4 0 9 –4 9

Se hallan, en la tabla 1.40, los rangos de las variables X e Y.

Tabla 1.40. Rangos de las variables X e Y de la tabla 1.39

Rangos

X 2 1 3 6 4 5

Y 4 1,5 3 5,5 1,5 5,5

Y ordenando por los rangos de X se obtiene la tabla 1.41.

Tabla 1.41. Rangos de Y ordenados por los rangos de X

Orden por rangos de X

X 1 2 3 4 5 6

Y 1,5 4 3 1,5 5,5 5,5

Bioestadística cualitativa.indd 56 25/06/2010 12:19:53 p.m.

Page 67: Bi o e s ta d í s t i c a

57

S = (4 + 0) + (2 − 2) + (2 − 1) + (2 − 0) + (0 − 0) + ( 0 − 0) = 7TX = 0 TY = 2(2 – 1) + 2(2 – 1) = 4

1.11.2. Coeficiente de correlación parcial de rangos de Kendall

A veces se requiere calcular el grado de correlación entre dos variables en escala ordinal y se sabe que están, o que es posible que estén, a su vez correlacionadas con una tercera variable Z, que pudiera haber influido en el valor obtenido del coeficiente de correlación entre X e Y. Entonces puede ser provechoso librarlo de su influencia,es decir, eliminar su efecto.

El coeficiente de correlación parcial de Kendall se define, al igual que el correspondiente coeficiente de correlación lineal parcial de Pearson por la relación:

Donde los coeficientes r que componen la fórmula son los correspondientes coeficientes de correlación de rangos de Kendall.

1.11.3. Coeficiente de concordancia de rangos de Kendall

Ya se ha tratado el problema de la relación entre dos variables en distintas escalas de cuantificación. También se mencionó el promedio de los valores absolutos de los posibles coeficientes de correlación de Spearman como ín-dice de asociación o concordancia entre k variables. Ahora se va a considerar otro índice de correlación, asociación o concordancia entre k variables (k ≥ 2) relacionada con él.

Se trata del coeficiente de concordancia de rangos de Kendall, aplicable a variables en escalas ordinales y, en particular, en problemas de concordancia entre calificadores. Para k conjuntos de datos, el coeficiente de concordancia de rangos de Kendall, que se denota por rCK, es un índice de la divergencia de su concordancia con la concordancia perfecta, la máxima posible entre los calificadores. Un valor de rCK cercano a 1 indicará, entonces, alta concordancia y poca divergencia.

El coeficiente rCK se aplica a los datos que se puedan disponer en una distri-bución bivariada de frecuencias como la de la tabla 1.42, en que las columnas están encabezadas por las variables (tratamientos, ítems) y las filas (rangueadas) por los calificadores.

Bioestadística cualitativa.indd 57 25/06/2010 12:19:53 p.m.

Page 68: Bi o e s ta d í s t i c a

58

Tabla 1.42. Distribución bivariada de frecuencias de k columnas-tratamientos y filas rangueadas

CalificadoresTratamientos

T1 T2 ··· Tk

C1 rgf(x11) rgf(x21) ··· rgf(xk1)C2 rgf(x12) rgf(x22) ··· rgf(xk2)

···

··· ··· ···

···Cn rgf(x1n) rgf(x2n) ··· rgf(xkn)

Sumas de rangos R1 R2 ··· Rk

Donde rgf(xij) indica rango por fila y representa el rango asignado por el calificador j al tratamiento i, para i = 1, 2,..., k y j = 1, 2,..., n.

∑=

=n

iiji xrgfR

1)( para i = 1, 2,..., n es la suma de la columna j-ésima columna

después de rangueadas las filas.rCK se basa en la comparación de las sumas Ri de los rangos de las columnas

i = 1, 2,..., k, si varias de ellas son iguales o muy semejantes esto indicará falta de concordancia entre los conjuntos rangueados, esto, es entre los calificadores.

Se define por:

Donde:k: es el número de (tratamientos).n: el número de los calificadores.R : la media de las k columnas de rangos R1 , R2 , ..., Rk, después de ran-

guear las filas.S²: la varianza de las sumas de las columnas Ri después de ranguear las filas.

Ejemplo 1.18:

Tres ejecutivos de un hospital tienen la tarea de calificar, independiente-mente, a seis solicitantes de trabajo sometidos a una prueba, asignándole un rango de 1 a 6. Los resultados aparecen en la tabla 1.43.

Tabla 1.43. Datos del ejemplo 1.18

Solicitante A B C D E FEjecutivo 1 1 6 3 2 5 4Ejecutivo 2 1 5 6 4 2 3Ejecutivo 3 6 3 2 5 4 1

Suma 8 14 11 11 11 8

Bioestadística cualitativa.indd 58 25/06/2010 12:19:54 p.m.

Page 69: Bi o e s ta d í s t i c a

59

Entonces:

Este número expresa el grado de concordancia entre las calificaciones de los tres ejecutivos y resulta bastante baja la concordancia entre las calificaciones o clasificaciones de los tres ejecutivos.

Observaciones:

1. El promedio rSp, de los valores absolutos de todos los posibles coeficientes de correlación de rangos de Spearman, se puede considerar también un coeficiente de concordancia, está relacionado con rCK por la ecuación:

De donde se puede obtener una fórmula para rCK en función de rSm:

2. En caso de que se presenten ligas en los rangos de un mismo calificador

el valor de rCK resultará disminuido, por lo que, en el caso de que el número de ligas sea considerable se requiere una corrección por ligadura. Esta es la fórmula corregida:

Donde tj representa la cantidad de observaciones muestrales de la j-ésima

ligadura del calificador i-ésimo para i = 1, 2,.. , k; j = 1, 2,..., n.

Bioestadística cualitativa.indd 59 25/06/2010 12:19:54 p.m.

Page 70: Bi o e s ta d í s t i c a

60

Problema propuesto 1.10:

Calcule los coeficientes de correlación de Kendall entre las variables en escala ordinal EV1, EV2 y EV3 del archivo DatosM2 de la tabla 1.3. Calcule también el coeficiente de correlación parcial de Kendall entre EV3 y EV2 eli-minando el posible efecto de EV1 y el coeficiente de concordancia de Kendall de EV1, EV2 y EV3.

1.12. Valores críticos de los coeficientes de correlación

Algo que tiene interés por lo que aporta en la interpretación de los co-eficientes de correlación son las pruebas de hipótesis de significación de los coeficientes de correlación que permiten decidir si en la población de donde procede la muestra en que se calculó el coeficiente de correlación hay o no correlación.

Estas pruebas se estudiarán, pues ellas en algunos casos permiten, además, deducir valores críticos, de un coeficiente de correlación tales que si un valor muestral del coeficiente lo supera en valor absoluto se podrá decir entonces que se rechaza la hipótesis de que en la población de donde procede la muestra no hay correlación, lo que algunos expresan diciendo que la correlación o el valor del coeficiente de correlación es significativo.

Esta expresión de significativo, si se dice con conocimiento de causa no está del todo mal, pero si no se sabe que viene de una prueba de esta hipótesis no se debe decir y menos aún interpretar de otra manera.

1. Para el coeficiente de correlación lineal de Pearson, la prueba de sig-nificación utiliza un estadígrafo con distribución t de Student que se tratará en el epígrafe 4.2.5 y es válida también para el coeficiente de correlación de rangos de Spearman.

2. Para el coeficiente de correlación de rangos de Spearman se ofrece la tabla 1.44 de valores críticos para varios valores de n y de α y también es válida la prueba t de Student anterior.

3. Para el coeficiente de correlación punto biserial se ofrece la tabla 1.45 de valores críticos.

Tabla 1.44. Valores críticos del coeficiente de correlación de rangos de Spearman

Valores de α n 0,001 0,005 0,010 0,025 0,050 0,100 4 - - - - 0,8000 0,8000 5 - - 0,9000 0,9000 0,8000 0,7000

Bioestadística cualitativa.indd 60 25/06/2010 12:19:54 p.m.

Page 71: Bi o e s ta d í s t i c a

61

6 - 0,9429 0,8857 0,8286 0,7714 0,6000 7 0,9643 0,8929 0,8571 0,7450 0,6786 0,5357 8 0,9286 0,8571 0,8095 0,7143 0,6180 0,5000 9 0,9000 0,8167 0,7667 0,6833 0,5833 0,466710 0,8667 0,7818 0,7333 0,6364 0,5515 0,442411 0,8364 0,7545 0,7000 0,6091 0,5273 0,418212 0,8182 0,7273 0,6713 0,5804 0,4965 0,398613 0,7912 0,6978 0,6429 0,5549 0,4780 0,379114 0,7670 0,6747 0,6220 0,5341 0,4593 0,362615 0,7464 0,6536 0,6000 0,5179 0,4429 0,350016 0,7265 0,6324 0,5824 0,5000 0,4265 0,338217 0,7083 0,6152 0,5637 0,4853 0,4118 0,326018 0,6904 0,5975 0,5480 0,4716 0,3994 0,314819 0,6737 0,5825 0,5333 0,4579 0,3895 0,307020 0,6586 0,5684 0,5203 0,4451 0,3789 0,297721 0,6455 0,5545 0,5078 0,4351 0,3688 0,290922 0,6318 0,5426 0,4963 0,4241 0,3597 0,282923 0,6186 0,5306 0,4852 0,4150 0,3518 0,276724 0,6070 0,5200 0,4748 0,4061 0,3435 0,270425 0,5962 0,5100 0,4654 0,3977 0,3362 0,264626 0,5856 0,5002 0,4564 0,3894 0,3299 0,258827 0,5757 0,4915 0,4481 0,3822 0,3236 0,254028 0,5660 0,4828 0,4001 0,3749 0,3175 0,249029 0,5567 0,4744 0,4320 0,3685 0,3113 0,244330 0,5479 0,4665 0,4251 0,3620 0,3059 0,2400

Tabla 1.45. Tablas de valores críticos para el coeficiente de correlación punto biserial

gl α gl αn – 2 0,05 0,01 n – 2 0,05 0,01

1 0,997 1,00 24 0,388 0,496 2 0,950 0,990 25 0,381 0,487 3 0,878 0,959 26 0,374 0,478 4 0,811 0,917 27 0,367 0,470 5 0,754 0,874 28 0,361 0,463 6 0,707 0,834 29 0,355 0,456 7 0,666 0,798 30 0,349 0,449 8 0,632 0,756 35 0,325 0,418 9 0,576 0,708 40 0,304 0,393

Bioestadística cualitativa.indd 61 25/06/2010 12:19:55 p.m.

Page 72: Bi o e s ta d í s t i c a

62

gl α gl α10 0,576 0,708 45 0,288 0,37211 0,553 0,684 50 0,273 0,35412 0,532 0,661 60 0,250 0,32513 0,514 0,641 70 0,232 0,30214 0,497 0,623 80 0,217 0,28315 0,482 0,606 90 0,205 0,26716 0,468 0,590 100 0,195 0,25417 0,456 0,575 125 0,174 0,22818 0,444 0,561 150 0,159 0,20819 0,433 0,549 200 0,138 0,18120 0,423 0,537 300 0,113 0,14821 0,413 0,526 400 0,098 0,12822 0,404 0,515 500 0,088 0,11523 0,396 0,505 1000 0,062 0,081

Ejemplo 1.19:

Verifique si hay correlación entre las variables sexo y CI1 en la población de donde procede la muestra aleatoria de la matriz DatosM2 de la tabla 1.3.

Solución: Como sexo está en escala nominal dicotómica y CI1, coeficiente de inteligencia 1 está en escala de intervalo la correlación adecuada es la de punto biserial.

r·bis = 0,1803 n = 50 n – 2 = 48Región crítica: r·bis > 0,273, valor crítico obtenido en la tabla 1.44, de valo-

res críticos para el coeficiente de correlación punto biserial, y como 0,1803 no supera a 0,273, no se puede afirmar que haya correlación entre estas variables en la población (0,1803 no es significativo).

Observación:

1. Para el coeficiente V de Cramér no existen tablas de valores críticos, pero existe la prueba ji cuadrado de independencia en tablas de contingencia, que se tratará en el epígrafe 3.2.2 y que si en ella se rechaza la hipótesis de independencia entonces se podrá afirmar que hay correlación en la población de donde proviene la muestra.

2. Para el coeficiente de correlación de rangos de Kendall se ofrece la tabla 1.46 de niveles de significación para los valores de las sumas de rangos S para n < 10.

3. Para el coeficiente de concordancia de rangos de Kendall para n < 8, se ofrece la tabla 1.47 de valores críticos de las varianzas de las sumas de rangos S2 para decidir si se puede afirmar que en la población hay

Bioestadística cualitativa.indd 62 25/06/2010 12:19:55 p.m.

Page 73: Bi o e s ta d í s t i c a

63

correlación. Se decidirá esto si )(21

2 nSS α−> donde este último es el valor que ofrece la tabla.

Para n > 7 sirve como prueba de significación de rCK la prueba de rangos de Friedman del epígrafe 4.3.2, en el sentido de que si se rechaza la hipótesis nula de que no hay diferencia entre las sumas de rangos de las poblaciones, entonces se decidirá que en la población hay concordancia.

Tabla 1.46. Valores de P{S > s}, para la S del coeficiente de correlación de rangos de Kendall

SValores de n

SValores de n

4 5 8 9 6 7 100 0,625 0,592 0,548 0,540 1 0,500 0,500 0,500

2 0,375 0,408 0,452 0,460 3 0,360 0,386 0,431

4 0,167 0,242 0,360 0,381 5 0,235 0,281 0,364

6 0,042 0,117 0,274 0,306 7 0,136 0,191 0,300

8 0,042 0,199 0,238 9 0,068 0,119 0,242

10 0,0083 0,138 0,179 11 0,028 0,068 0,190

12 0,089 0,130 13 0,0083 0,035 0,146

14 0,054 0,090 15 0,0014 0,015 0,108

16 0,031 0,060 17 0,0054 0,078

18 0,016 0,038 19 0,0014 0,054

20 0,0071 0,022 21 0,00020 0,036

22 0,0028 0,012 23 0,023

24 0,00087 0,0063 25 0,014

26 0,00019 0,0029 27 0,0083

28 0,000025 0,0012 29 0,0046

30 0,00043 31 0,0023

S representa el coeficiente de correlación de rangos de Kendall y s un valor particular.

Tabla 1.47. Valores críticos de S2 para en el coeficiente de concordancia de rangos de Kendall

Valores de S2 Valores de S2 adicionales para n = 3

k n = 3 4 5 6 7 k S2 1 – α 3 12,9 17,3 22,5 9 18,0 0,95

15,1 20,5 26,5 9 25,3 0,99 4 12,4 17,7 23,9 31,0 12 24,0 0,95

Bioestadística cualitativa.indd 63 25/06/2010 12:19:56 p.m.

Page 74: Bi o e s ta d í s t i c a

64

Valores de S2 Valores de S2 adicionales para n = 3

k n = 3 4 5 6 7 k S2 1 – α15,4 21,9 29,4 37,9 12 34,5 0,99

5 15,7 22,1 30,4 39,5 14 27,9 0,9520,1 28,5 38,2 49,1 14 40,6 0,99

6 18,9 27,2 36,9 47,9 16 31,9 0,9524,6 35,2 47,1 60,4 16 46,7 0,91

8 16,0 25,4 36,7 49,8 64,7 18 35,9 0,9522,3 34,3 48,5 64,7 82,8 18 52,9 0,99

10 20,0 32,0 46,2 62,8 81,6 0,9528,4 43,8 61,8 82,3 105,3

15 29,9 48,2 70,0 95,1 123,643,7 67,5 95,4 126,4 161,4

20 39,9 64,5 93,7 127,4 165,559,0 91,5 128,2 170,4 217,4

Para cada valor de k, en la tabla se consideran los valores de arriba con nivel de significación de 0,05 y los de abajo con nivel significación de 0,01.

Ejemplo 1.20:

En el ejemplo desarrollado de rCK, se calcula S² = 4,25 y como k = 3, n = 6, en la tabla 1.47 se encuentra el valor 17,3 para un nivel de significación de 0,05, y entonces como el valor 4,25 de S2 no supera este valor en la población no hay concordancia entre tres los ejecutivos.

Muchos paquetes estadísticos ofrecen o destacan los coeficientes de corre-lación significativos, es decir, para los cuales se rechaza la hipótesis de que en la población no hay correlación.

Observación: se reitera que afirmar que un coeficiente de correlación mues-tral sea significativo expresa única y exclusivamente haber tomado la decisión de rechazar la hipótesis de que en la población de donde provino la muestra a partir de la cual se calculó, hay correlación y al hacer la afirmación, como en toda decisión estadística, se corre el riesgo de equivocarse.

La medición de este riesgo es un problema probabilístico. En la estadística inferencial se hacen estimaciones de parámetros con un nivel de confianza (probabilidad) dado y se tomarán decisiones acerca de la población sobre la base de la información muestral, acompañándola de la probabilidad de equivo-carse al tomarla, De modo que una buena comprensión de esas estimaciones y decisiones requieren un conocimiento lo más completo posible de las teoría de probabilidades y de la teoría del muestreo.

Por lo pronto se tiene la definición:

Bioestadística cualitativa.indd 64 25/06/2010 12:19:56 p.m.

Page 75: Bi o e s ta d í s t i c a

65

La probabilidad de un suceso A es una medida de la posibilidad de su realización.

Problema propuesto 1.11:

Diga si puede afirmarse que los coeficientes de correlación calculados en los problemas propuestos anteriores, en los casos posibles, son significativamente diferentes de 0.

1.13. Diseño de experimentos

Consiste en general en describir el experimento y en particular las condicio-nes que se exigen y las que se preparan para observar y hacer posible la aplica-ción de los métodos estadísticos y el procesamiento de los datos y en particular las pruebas de hipótesis en cuestión. En la estadística no paramétrica con más razón hay que tener en cuenta el diseño del experimento, por la influencia de la escala de cuantificación de los datos.

La fuente fundamental de obtención de datos es la observación, que incluye la observación de experimentos diseñados o no y las respuestas a cuestionarios. En ellas se incluyen los registros de la observación del experimento, los que las distintas empresas llevan de sus trabajadores, medios materiales y servicios, así como con el propósito de adquirir información sobre algún asunto determinado y conlleva la planificación previa de la observación.

El diseño de experimentos se refiere al planeamiento del experimento y su control, definiendo todas sus condiciones, tomando en cuenta los factores que pueden influir o confundir los resultados para eliminar su posible efecto. Parte de la observación, cuantificación, calidad de los datos y su procesamiento estadístico para las restantes fuentes mencionadas.

El diseño de experimentos tiene su terminología propia y en él es común el uso de algunos conceptos de partida tradicionales, muy relacionados con lo que debe hacerse en toda investigación experimental al diseñarla.

– Experimento: es un conjunto de condiciones bien definidas en que se observa el comportamiento de al menos una variable independiente.

– Variable: se considera un ente que puede tomar los distintos valores de un conjunto determinado no reducido a un elemento ni vacío. En los experimentos se requiere registrar lo que se cuantifica o mide y lo más común y sensato es registrarlo mediante variables. Si la variable es simple, no depende de los valores de otra variable entonces se denomina variable independiente, en caso contrario, si su valor depende de los de una o más variables se denomina entonces variable dependiente. Por ejemplo, la presión arterial de una persona se describe mediante dos variables, la

Bioestadística cualitativa.indd 65 25/06/2010 12:19:56 p.m.

Page 76: Bi o e s ta d í s t i c a

66

que registra la presión sistólica y la que registra la diastólica, el estado de salud de un paciente se describe generalmente mediante varias variables independientes o dependientes, que se le registran y que pueden incluir o no la presión arterial, de modo que el estado de salud es una variable dependiente. En algunos casos la variable dependiente se denomina también variable respuesta.

Existen también variables llamadas exógenas o confusoras que son aquellas que se piensa que pueden causar algún efecto que puede hacer variar en alguna medida los valores de otras variables, como, por ejemplo, el momento del día en que se le suministra un medicamento a los pacientes. Incluyéndolas en diseño del experimento se pueden controlar, para eliminar su efecto.

– Tratamiento: se refiere a la variable cuyo efecto se desea medir. La palabra tratamiento es común en el trabajo académico, investigativo médico, agrícola y de otras especialidades. A menudo se presentan en varios niveles en cualquier escala de cuantificación, por ejemplo, distintas cantidades o dosis de un medicamento a aplicar (variable en escala ordinal, de intervalo o de razón, distintos medicamentos a aplicar (escala nominal) que pueden constituir los tratamientos.

– Unidad experimental: es la unidad menor a la que se le puede aplicar un tratamiento, por ejemplo una persona, una muestra (porción de tejido), un ratón, una colonia de bacterias, un objeto a la cual se le registra un valor de una variable.

– Rendimiento: es una variable mediante la cual se determina el efecto del tratamiento sobre la unidad experimental, por ejemplo el grado de recuperación o mejoría experimentado por un paciente después de recibir un tratamiento. En otros textos al rendimiento se le denomina medida u observación.

– Error experimental: se presenta debido a dos fuentes principales: las diferencias individuales o inherentes a las unidades experimentales y la ausencia de uniformidad entre los tratamientos, que se puede presentar en el experimento. Se puede encontrar uno entre individuos u objetos y otro entre grupos.

– Repetición: se denomina también reiteración o réplica cuando un nivel de tratamiento se aplica a más de una unidad experimental. Se dice que es completa o total cuando se repiten todos los niveles del tratamiento y parcial cuando solo se repiten algunos niveles. Permite verificar interacciones, hacer estimaciones y tomar decisiones en general y respecto al error experimental en particular.

– Aleatorización: consiste en la asignación aleatoria de las unidades experimentales a los niveles del tratamiento. Debe hacerse siempre que

Bioestadística cualitativa.indd 66 25/06/2010 12:19:56 p.m.

Page 77: Bi o e s ta d í s t i c a

67

se pueda tanto en la selección inicial de las unidades experimentales como en la selección de los tratamientos. Garantiza la representatividad e independencia de las observaciones.

También son importantes en el diseño y las condiciones, la cantidad de variables, los métodos para reducir su número si es necesario y los métodos estadísticos a aplicarles.

Respecto a la validez y confiabilidad, se dice que la medición:

– Es válida: cuando cada puntaje individual realmente registra la aptitud o capacidad que supuestamente mide. De modo que cualesquiera dos individuos de la población con igual magnitud de la característica o la respuesta en cuestión registrarán el mismo puntaje.

– Es confiable: cuando se puede tener un alto grado de confianza en el puntaje registrado por cada individuo, de modo que si se pudiera registrar de nuevo el puntaje en las mismas condiciones a los mismos individuos los resultados serían los mismos.

– Muestras independientes: son aquellas en que los valores de una no dependen de los valores de la otra o no influyen en los valores de la otra.

– Muestras igualadas: son aquellas en que se forman k-uplas, conjunto ordenado de k, individuos o unidades experimentales que se igualan en cuanto a los factores o variables que pudieran influir en el resultado buscando que los k individuos de cada k-upla (no difieran en las características que puedan influir, al menos notablemente, en la que se observa. Un caso muy común de igualamiento se tiene cuando se aparea cada individuo de la muestra consigo mismo en las observaciones repetidas al cabo de un tiempo a la misma muestra.

– Las muestras apareadas: son un caso particular de las igualadas cuando k = 2, es decir, cuando se comparan parejas de individuos.

Bioestadística cualitativa.indd 67 25/06/2010 12:19:57 p.m.

Page 78: Bi o e s ta d í s t i c a

68

Capítulo 2

Pruebas de hipótesis

Uno de los llamados métodos estadísticos más utilizados son los relacionados con la toma de decisiones acerca de los parámetros de de la distribución de una población sobre la base de la información de una o varias de sus muestras. Por lo general proporcionan un algoritmo para realizarla utilizando los medios de cómputo o no. En la actualidad se ha puesto al alcance de muchos profesionales, por contarse con la informática y el software estadístico que lo facilita extraor-dinariamente. En este capítulo se hará una introducción intuitiva que abarcará la terminología general y el desarrollo del modelo de prueba de hipótesis y particularmente el tratamiento de estas con el moderno software estadístico en el que se decide según el valor de una probabilidad muy relacionada con el nivel de significación, que se denominará probabilidad crítica, para simplificar.

2.1. Conceptos básicos de pruebas de hipótesis

Para diferenciar las pruebas de hipótesis de las otras pruebas se denominan dócimas de hipótesis o simplemente dócimas y a su estudio se le denomina docimasia de hipótesis como es habitual en términos matemáticos.

− Hipótesis estadísticas: son supuestos acerca de los parámetros de la distribución de probabilidades de variables aleatorias o de las propias distribuciones. Generalmente se plantean dos: • La hipótesis nula que se denotará por H0: θ ∈ Θ0. • La hipótesis alternativa, que se denotará por H1: θ ∈ Θ1.

Donde Θ0 y Θ1 son mutuamente excluyentes y generadores del espacio paramétrico Θ, de donde H1 niega H0.

− Prueba o dócima de hipótesis: es un procedimiento estadístico para decidir si se rechaza o no una hipótesis sobre la población en base de la información contenida en una muestra seleccionada aleatoriamente de ella.

− Errores posibles: son dos:• El de tipo I: rechazar H0 siendo cierta.• El de tipo II: aceptar H0 siendo falsa.

Bioestadística cualitativa.indd 68 25/06/2010 12:19:57 p.m.

Page 79: Bi o e s ta d í s t i c a

69

En la tabla 2.1 se muestra la situación general, relativa a estos posibles errores.

Tabla 2.1. Posibles errores al rechazar o aceptar una hipótesis

DecisiónRealidad

H0 cierta H0 falsaRechazo H0 Error de tipo I Decisión acertadaAcepto H0 Decisión acertada Error de tipo II

Medida del riesgo que se corre:P{rechazar H0 / H0 cierta} = α es la probabilidad de cometer el error de tipo I.P{aceptar H0 / H0 falsa} = β es la probabilidad de cometer el error de tipo II.Donde el símbolo / significa dado que o condicionado por.Lo ideal sería que estas dos probabilidades se pudiesen hacer muy peque-ñas, pero no se puede disminuir una de ellas sin que aumente inmediata-mente la otra. La solución consiste en fijar el valor de α suficientemente pequeño y tratar de hacer mínimo el valor de β, fijado el valor de α. Como la probabilidad de equivocación β no se controla se fija, entonces, el contenido de las hipótesis de modo que el error de tipo I sea el de consecuencias más graves, así la probabilidad de cometerlo quedará convenientemente fijada. Un criterio generalmente equivalente al anterior es el de poner en la hipótesis alternativa lo que se quiere probar.Hay que señalar que por sobre todo esto prima el hecho de que en H0 siempre debe ir la igualdad, menor o igual o mayor o igual.Un estudio más riguroso de las probabilidades de cometer estos errores, en particular el de tipo II, a partir de una muestra aleatoria X = (X1, X2,..., Xn), de la población en cuestión, se puede hacer a través de la llamada función de potencia que se define, para todo θ ∈ Θ como la probabilidad Pθ(X) de rechazar H0 siendo θ el verdadero valor del parámetro.

− Nivel de significación: es la probabilidad máxima de cometer el error de tipo I.

Se denota por α y sus valores de uso más común son 0,05; 0,01 y 0,10. Se tiene entonces que:

P{rechazar H0 / H0 cierta} ≤ α

Ahora conviene precisar la terminología:

− Estadígrafo: es una función de la muestra, su valor se obtiene de la muestra, por ejemplo, la media, la moda, los percentiles, la desviación estándar, el coeficiente de correlación, el máximo y el mínimo

Bioestadística cualitativa.indd 69 25/06/2010 12:19:57 p.m.

Page 80: Bi o e s ta d í s t i c a

70

muestrales. El estadígrafo es la fuente de información muestral en las pruebas de hipótesis.

− Parámetro: es un indicador numérico de la población como, por ejemplo, la media, la moda, la mediana, los percentiles, la desviación estándar, el coeficiente de correlación, el máximo, el mínimo poblacionales.

− Estimador: es un estadígrafo bueno para estimar, esto es, debe cumplir las propiedades que se exigen para ser un buen estimador.

Entre estas propiedades está la de ser insesgado, o sea, tal que su valor esperado coincida con el parámetro que estima y otra propiedad es que sea de varianza mínima en el conjunto de todos los estimadores insesgados del parámetro en cuestión. El concepto de valor esperado es similar al de media de la variable ealeatoria en cuestión.

− Decisión: consiste en rechazar o no la hipótesis H0 sobre la base de la información muestral.

Para tomarla se utiliza un estadígrafo en que se resuma la información de la muestra acerca del parámetro, que dependa de un buen estimador del parámetro y que tenga una distribución conocida.

− Región crítica: es la región de rechazo de H0, es el conjunto de los valores del estadígrafo que conducen a rechazar la hipótesis H0.

− Probabilidad crítica: es la probabilidad de que el estadígrafo caiga en la región crítica.

2.2. Algoritmo general para realizar una dócima de hipótesis

Se incluyen las dos versiones: la tradicional determinando la región crítica y la probabilidad crítica (de que el valor del estadígrafo caiga en la región crítica).

1. Plantear las hipótesis y fijar el nivel de significación, lo que incluye seleccionar los datos del problema y verificar si se cumplen las condiciones que exige la dócima a aplicar.

2. Seleccionar y evaluar el estadígrafo adecuado o la dócima adecuada en el software.

3. Determinar la región crítica o la probabilidad crítica (pc) y tomar la decisión de rechazar H0 si el valor del estadígrafo cae en ella o pc es menor que α, cerciorándose si pc corresponde a una región crítica de una o de dos colas, y no rechazarla en caso contrario.

Se dice no rechazo la hipótesis nula, en lugar de acepto la hipótesis nula, como argumento semántico, para no cometer el error de tipo II.

Si se calcula el valor del estadígrafo y la región crítica, y se puede calcular tam-bién la probabilidad crítica, debe hacerse, pues está brinda más información.

Bioestadística cualitativa.indd 70 25/06/2010 12:19:57 p.m.

Page 81: Bi o e s ta d í s t i c a

71

Se estudiará primeramente la prueba de hipótesis paramétrica para la media de una población con distribución normal con varianza conocida, porque es el modelo típico teórico en que se puede deducir, al menos intuitivamente, utilizan-do las propiedades más comunes de las probabilidades y la distribución normal de una complejidad aceptable. Por analogía con ella posteriormente se tratarán numerosas pruebas de hipótesis no paramétricas clasificadas por la escala de cuantificación en que estén los puntajes muestrales y dentro de cada escala por el número de poblaciones y la independencia o no de las muestras.

2.3. Dócimas para la media de una población

En este libro se considerarán solo dos, que no obstante ser paramétricas se incluyen como modelos porque dan pautas para las demás pruebas de hi-pótesis.

2.3.1. Caso de una población con distribución normal con varianza σ² conocida

Conociendo que la media muestral X es el mejor estimador de la media poblacional µ entonces para las hipótesis:

H0: µ = µ0 contra H1: µ ≠ µ0Tiene sentido rechazar H0 si el valor de X difiere considerablemente de µ0,

o sea, si 0µ−X es significativamente grande.

O mejor aún si:

n

XZ

σµ−= 0 supera cierto valor crítico ZC significativa-

mente grande.Pero este estadígrafo Z depende de X , cuya distribución tiene media

µ y desviación estándar n

σ y aparece estandarizado y, puesto que X tiene

distribución normal con media µ y varianza σ2, la distribución muestral de Z es normal estándar y además resulta un estadígrafo apropiado para tomar la decisión. Para hallar ZC, utilizando las propiedades de las probabilidades y la distribución normal, se partirá de este hecho y de la definición del nivel de significación, utilizando en la igualdad:

α = P{rechazar H0 / H0 cierta} = P{|Z| > ZC}Y se tiene que (⇔significa es equivalente a):

α = P{|Z| > ZC} ⇔ 1 – α = P{|Z| ≤ ZC} porque ( ) )(1 APAP −= para todo suceso A, donde A es el suceso que ocurre cuando no ocurre A.

Bioestadística cualitativa.indd 71 25/06/2010 12:19:57 p.m.

Page 82: Bi o e s ta d í s t i c a

72

⇔ 1 – α = P{–ZC < Z < ZC} = Φ(ZC) – Φ(–ZC) por propiedades del valor absoluto y de la distribución normal estándar Φ.

⇔ 1 – α = Φ(ZC) – 1 + Φ(ZC), por la propiedad Φ(–t) = 1 – Φ(t) de Φ.⇔ 1 – α = 2 Φ(ZC) – 1, por una propiedad aritmetica. ⇔ , por una propiedad aritmetica.

⇔ 2

1α−

= ZZc, percentil de orden

21

α− de la distribución N(0, 1), por

propiedad de Φ y la definición de percentil de la variable Z.

De modo que el valor crítico ZC de Z es el percentil de orden 2

1α− de la

distribución normal estándar, que se denota habitualmente por 2

1α−

Z y cuyos

valores más usuales Z0,90; Z0,95; Z0,975; Z0,99 y Z0,995, aparecen en la tabla 2.2 de percentiles de la distribución normal estándar. Los valores de las probabilidades Φ(z), se hallan en la tabla 2.3 de la distribución normal estándar.

Esta demostración intuitiva constituye un modelo a seguir para las co-rrespondientes demostraciones de los otros casos en las futuras dócimas, solo cambiando la distribución del estadígrafo.

Observe, además, que en esta deducción se ha utilizado la distribución del estadígrafo bajo H0, o sea, con la condición de que se cumpla H0. Esto es común en todas las dócimas, por la relación del nivel de significación con la probabilidad condicional P{rechazar H0 / H0 cierta}. Esto justifica también lo planteado de que en H0 se debe poner siempre la igualdad, lo que permitió utilizar la distribución nomal con media µ0 y no otra.

Tabla 2.2. Percentiles más usuales de la distribución normal estándar

β 0,90 0,95 0,975 0,99 0,995

Zβ 1,28 1,645 1,96 2,33 2,58

Tabla 2.3. Distribución normal (de Gauss) estándar acumulativa

tCentésimas de t

0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0,0 0,500 0,503 0,507 0,511 0,515 0,519 0,523 0,527 0,531 0,535

0,1 0,539 0,543 0,547 0,551 0,555 0,559 0,563 0,567 0,571 0,575

0,2 0,579 0,583 0,587 0,591 0,594 0,598 0,602 0,606 0,61 0,614

0,3 0,618 0,622 0,625 0,629 0,633 0,636 0,64 0,644 0,648 0,652

0,4 0,655 0,659 0,662 0,666 0,670 0,673 0,677 0,68 0,684 0,687

0,5 0,691 0,694 0,698 0,702 0,705 0,708 0,712 0,715 0,719 0,722

Bioestadística cualitativa.indd 72 25/06/2010 12:19:58 p.m.

Page 83: Bi o e s ta d í s t i c a

73

0,6 0,725 0,729 0,732 0,735 0,738 0,742 0,745 0,748 0,751 0,754

0,7 0,758 0,761 0,764 0,767 0,770 0,773 0,776 0,779 0,782 0,785

0,8 0,788 0,791 0,793 0,796 0,799 0,802 0,805 0,807 0,810 0,813

0,9 0,815 0,818 0,821 0,823 0,826 0,829 0,831 0,834 0,836 0,839

1,0 0,841 0,843 0,846 0,848 0,850 0,853 0,855 0,857 0,859 0,862

1,1 0,864 0,866 0,868 0,870 0,872 0,874 0,876 0,879 0,881 0,883

1,2 0,884 0,886 0,888 0,890 0,892 0,894 0,896 0,898 0,899 0,901

1,3 0,903 0,905 0,906 0,908 0,909 0,911 0,913 0,914 0,916 0,917

1,4 0,919 0,920 0,922 0,923 0,925 0,926 0,927 0,929 0,930 0,931

1,5 0,933 0,934 0,936 0,936 0,938 0,939 0,940 0,941 0,942 0,944

1,6 0,945 0,946 0,947 0,948 0,949 0,950 0,951 0,952 0,953 0,954

1,7 0,955 0,956 0,957 0,958 0,959 0,959 0,960 0,961 0,962 0,963

1,8 0,964 0,964 0,965 0,966 0,967 0,967 0,968 0,968 0,969 0,970

1,9 0,971 0,971 0,972 0,973 0,973 0,974 0,975 0,975 0,976 0,976

2,0 0,977 0,977 0,978 0,978 0,979 0,979 0,980 0,980 0,981 0,981

2,1 0,982 0,982 0,982 0,983 0,983 0,984 0,984 0,984 0,985 0,985

2,2 0,986 0,986 0,986 0,987 0,987 0,987 0,988 0,988 0,988 0,988

2,3 0,989 0,989 0,989 0,990 0,990 0,990 0,990 0,991 0,991 0,991

2,4 0,991 0,992 0,992 0,992 0,992 0,992 0,993 0,993 0,993 0,993

2,5 0,993 0,993 0,994 0,994 0,994 0,994 0,994 0,994 0,995 0,995

2,6 0,995 0,995 0,995 0,995 0,995 0,995 0,996 0,996 0,996 0,996

2,7 0,996 0,996 0,996 0,996 0,996 0,997 0,997 0,997 0,997 0,997

2,8 0,997 0,997 0,997 0,997 0,997 0,997 0,997 0,997 0,998 0,998

2,9 0,998 0,998 0,998 0,998 0,998 0,998 0,998 0,998 0,998 0,998

3,0 0,998 0,999 0,999 0,999 0,999 0,999 0,999 0,999 0,999 0,999

Los decimales de los encabezamientos de las columnas completan los de-cimales de las t de la primera columna.

En la tabla 2.4 se ofrece un resumen de los demás casos de hipótesis para la media de una población con distribución normal con varianza σ² conocida.

Tabla 2.4. Resumen de la dócima

Hipótesis Estadígrafo Región crítica

H0: µ = µ0 contra H1: µ ≠ µ0

nX

µ−=

21

α−> ZZ

H0: µ ≤ µ0 contra H1: µ > µ0 Z > Z1 – α

H0: µ ≥ µ0 contra H1: µ < µ0 Z < −Z1 – α

Bioestadística cualitativa.indd 73 25/06/2010 12:19:58 p.m.

Page 84: Bi o e s ta d í s t i c a

74

Respecto a lo planteado, observe como el parámetro es µ, su valor hipotético es µ0, el estadígrafo es Z y los percentiles que determinan las regiones críticas son

21

α−Z y α−1Z .

Por otra parte la región crítica 2

1α−

> ZZ es equivalente a 2

1α−

−< ZZ

o 2

1α−

> ZZ y por esta razón se denomina región crítica bilateral o de

dos colas para diferenciarla de las otras dos regiones críticas de la tabla que se denominarán unilaterales o de una cola. Estas denominaciones se acostumbran extenderlas a toda la dócima y entonces se habla de dócimas unilaterales o de una cola y dócimas bilaterales o de dos colas, más bien refiriéndose a sus regiones críticas.

Ejemplo 2.1:

Una muestra aleatoria de tamaño 25 de una población con distribución normal con varianza igual a 16 arrojó una media de 35. Utilizando un nivel de significa-ción de 0,05. ¿Se podrá afirmar que la media poblacional es inferior a 38?

Están dadas las condiciones de muestra aleatoria y distribución poblacional normal con varianza conocida y, por ello, se puede aplicar la dócima que se acaba de estudiar.

1. Datos: n = 25, σ² = 16, σ = 4, , µo = 38 y α= 0,05. Hipótesis: H0: µ ≥ 38 contra H1: µ < 38 (lo que se quiere probar en H1).

2. El estadígrafo: ( )σ

µ−= nXZ 0 cuyo valor en la muestra es:

3. Región crítica: Z < −Z1 – α , esto es, Z < −1,645, puesto que Z1 − α = Z0,95 = 1,645, y como el valor del estadígrafo cae en la región crítica, ya que −3,75 < −1,645, se rechaza H0 con un nivel de significación de 0,05. Sobre la base de estos datos se puede hacer la afirmación.

En un software estadístico se hallaría P{Z < –3,75} ≈ 0,000088 < 0,05 y en consecuencia se rechazaría H0 con nivel de significación de 0,05 (y de 0,000089 también, precisión que no se puede lograr utilizando los valores de los percentiles de las tablas o calculados aproximadamente).

Observación: salvo este último párrafo, este es el modo tradicional de solución de una dócima, cuando no se cuenta con un software que la tenga programada. Por otra parte, hay dos posibles errores al tomar una decisión en una dócima, pero una vez que se toma la decisión, de los dos errores quedará solamente uno, en este caso es el de tipo I, rechazar H0 siendo cierta, cuya probabilidad está acotada por 0,05 y por 0,000089 también.

Bioestadística cualitativa.indd 74 25/06/2010 12:19:59 p.m.

Page 85: Bi o e s ta d í s t i c a

75

2.3.2. Caso de una población con distribución normal con varianza σ² desconocida

Esta prueba paramétrica se incluye como modelo para el análisis de la probabilidad crítica, porque dará la pauta para su análisis en las demás pruebas de hipótesis.

La utilización del estadígrafo t se justifica análogamente al caso del estadí-grafo Z de la dócima anterior, teniendo en cuenta que en este caso la distribución de t es t de Student con n – 1 grados de libertad.

En la tabla 2.5 se presenta el resumen de la dócima para la media de una población con distribución normal con varianza σ2 desconocida.

Tabla 2.5. Resumen de la dócima

Hipótesis Estadígrafo Región crítica

H0: µ = µ0 contra H1: µ ≠ µ0

ns

Xt 0µ−=

)1(2

1−> α−

ntt

H0: µ ≤ µ0 contra H1: µ > µ0 t > t1 – α(n – 1)

H0: µ ≥ µ0 contra H1: µ < µ0 t < –t1 – α(n – 1)

Ejemplo 2.2:

¿Se podrá afirmar que la media de la población de donde procede esta muestra aleatoria {38, 51, 51, 38, 47, 50, 44, 48, 42, 48} es mayor que 43? Use un nivel de significación igual a 0,05.

La dócima a aplicar es la que acabamos de estudiar. La condición de muestra aleatoria viene dada en el problema y la de distribución normal poblacional la supondremos para poder resolverlo (los métodos para verificarlo ceden en confiabilidad por el poco tamaño de la muestra, se requerirían más datos, en tal caso mejor resultaría aplicar alguna otra prueba alternativa que no exija esta condición). El problema proporciona la muestra y por tanto todos los datos que se necesiten calcular con ella como son la media muestral (45,7) y la varianza muestral (24,6677).

Hipótesis: H0: µ ≤ 43 contra H1: µ > 43, α = 0,05.

Estadígrafo: 718742,10 ≈µ−= ns

Xt

Los grados de libertad son 10 – 1 = 9 y en la tabla de la distribución t de Student encontramos que y como 1,718742 no es mayor que 1,83 no se rechaza H0 con nivel de significación de 0,05.

Con un un software estadístico se obtiene:

P{T > 1,718742} ≈ 0,059891 Donde T es la variable con distribución t de Student con nueve grados de

libertad, igual a la del estadígrafo.

Bioestadística cualitativa.indd 75 25/06/2010 12:19:59 p.m.

Page 86: Bi o e s ta d í s t i c a

76

Decisión: Como 0,059891 no es menor que 0,05 no se rechaza H0 con nivel de significación de 0,05. Sobre la base de estos datos no se puede afirmar que la media de la población es mayor 43.

Observación: El único error posiblemente cometido con esta decisión es el de tipo II, aceptar H0 siendo falsa, que no se controla, por lo que no se afirma que se acepta H0 sino que solo se concluye que no hay elementos suficientes para hacer la afirmación de que la media de la población es mayor 43. Además, por esta razón se utiliza, preferentemente, α = 0,05, y no uno menor para que la probabilidad de equivocación no sea muy grande.

La tabla 2.6 de percentiles de la distribución t de Student permite realizar las pruebas mediante el método tradicional de determinar la región crítica buscando el valor crítico que es el utilizado en ausencia de otras opciones de cálculo.

Tabla 2.6. Percentiles más usuales de la distribución t de Student

gl 0,995 0,99 0,975 0,95 0,901 63,66 31,32 12,71 6,31 3,082 9,92 6,96 4,30 2,92 1,893 5,84 4,54 3,18 2,35 1,644 4,60 3,75 2,78 2,13 1,535 4,03 3,36 2,57 2,02 1,486 3,71 3,14 2,45 1,94 1,447 3,50 3,00 2,36 1,90 1,428 3,36 2,90 2,31 1,86 1,409 3,25 2,82 2,26 1,83 1,38

10 3,17 2,76 2,23 1,81 1,3711 3,11 2,72 2,20 1,80 1,3612 3,06 2,68 2,18 1,78 1,3613 3,01 2,65 2,16 1,77 1,3514 2,98 2,62 2,14 1,76 1,3415 2,95 2,60 2,13 1,75 1,3416 2,92 2,58 2,12 1,75 1,3417 2,90 2,57 2,11 1,74 1,3318 2,88 2,55 2,10 1,73 1,3319 2,86 2,54 2,09 1,73 1,3320 2,84 2,53 2,09 1,72 1,3221 2,83 2,52 2,08 1,72 1,3222 2,82 2,51 2,07 1,72 1,3223 2,81 2,50 2,07 1,71 1,3224 2,80 2,49 2,06 1,71 1,3225 2,79 2,48 2,06 1,71 1,3226 2,78 2,48 2,06 1,71 1,32

Bioestadística cualitativa.indd 76 25/06/2010 12:19:59 p.m.

Page 87: Bi o e s ta d í s t i c a

77

27 2,77 2,47 2,05 1,70 1,3128 2,76 2,47 2,05 1,70 1,3129 2,76 2,46 2,04 1,70 1,3130 2,75 2,46 2,04 1,70 1,3131 2,70 2,42 2,02 1,68 1,30

Para gl > 30 los percentiles de la distribución t de Student se aproximan a los de la distribución normal estándar.

2.4. Decisión sobre la base de una probabilidad

Sea Y el estadígrafo, bajo el supuesto de que se cumple lo planteado en H0:

1. Si la región crítica está determinada por Y > YC: P{Y > y} < α ⇒ y cayó en la región crítica, donde y representa el valor

del estadígrafo. Y también se podrá decir, bajo H0, que la región crítica la constituyen

los valores posibles del estadígrafo Y tales que P{Y > y} < α, o tales que la probabilidad crítica o probabilidad asociada con la ocurrencia, conforme a H0, de un valor de Y, más extremo que y, en el sentido de mayor que el observado, es menor que α.

2. Si la región crítica está determinada por Y < YC: P{Y < y} < α ⇒ y cayó en la región crítica3. Si la región crítica está determinada por:

2α< YY o

21

α−> YY (es de dos colas)

{ }2

α<< yYP o { }2

α<> yYP ⇒ y cayó en la región crítica

Esto se puede expresar también así:{ } α<< yYP2 o { } α<> yYP2 ⇒ y cayó en la región crítica

Y en el caso de distribuciones simétricas se puede resumir esto último con{ } α<> yYP .

El software estadístico a menudo ofrece las probabilidades críticas de uno de los tres casos anteriores. Si se determina cuál es la que ofrecen, ella se puede utilizar para tomar la decisión de rechazar H0 si resulta menor que el nivel de significación α en los casos 1 y 2 (y que

2α en el caso 3) y de no rechazar H0

si resulta lo contrario. Con esto se evita tener que buscar el valor crítico del estadígrafo en la tabla

o en el software y se logra, en general, mayor precisión en el nivel de signifi-cación. Vea más información sobre como se obtienen estas probabilidades con Microsoft Excel en el epígrafe 5.1.

Bioestadística cualitativa.indd 77 25/06/2010 12:20:00 p.m.

Page 88: Bi o e s ta d í s t i c a

78

Por sencillez, siempre que se pueda calcular P{Y > y}, P{Y < y} o P{Y > y} según el caso, por contar con tablas adecuadas o medios de cálculo, se tomará la decisión con ellas fundamentalmente, porque ofrecen mayor información que la que puede proporcionar la región crítica. Las propiedades anteriores también permiten aprovechar mejor los medios de cálculo ya que si se rechaza H0 en el caso P{Y > y} < α y se cumple además que 2P{Y > y} < α entonces se podrá rechazar H0 también en el caso de región crítica de dos colas, si ocurre a la inversa que el software ofrece el resultado solo para dos colas habrá que dividir la probabilidad crítica entre dos para aplicarla en el caso de región de una cola. Pero cuidado, a menudo esto se justifica con la simetría de la distribución y hay distribuciones que no son simétricas.

Ejemplo 2.3:

En los ejemplos 2.1 y 2.2 se calculó con software las probabilidades P{Z < 3,75} ≈ 0,000088 y P{T > 1,718742} ≈ 0,05989 que condujeron a rechazar H0 en el primer caso y a no rechazarla en el segundo con nivel de significación de 0,05. Además, en el primer caso se pudo reducir el valor α de 0,05 a 0,000089.

Entonces para las hipótesis H0: µ = 43 contra H1: µ ≠ 43 y α = 0,05:

La probabilidad crítica será igual a 2(0,059891) = 0,119782 y la decisión será no rechazar H0 con nivel de significación de 0,05.

Por otra parte, si para las hipótesis: H0: µ = 40 contra H1: µ ≠ 40 se obtiene con un software P{T> 3,628456} ≈ 0,005499.

Entonces para las hipótesis: H0: µ ≤ 40 contra H1: µ > 40 y α = 0,05 la

probabilidad crítica será igual a 0,00274952

0,005499 = .

Y la decisión será rechazar H0 con nivel de significación de 0,05 (y también de 0,0027496).

Si en el ejemplo 2.1 las hipótesis fueran H0: μ = 38 contra H1: μ ≠ 38, se rechazaría también H0, con nivel de significación de 0,05 por ser 2(0,000088) = 0,000176 menor que 0,05.

Bioestadística cualitativa.indd 78 25/06/2010 12:20:00 p.m.

Page 89: Bi o e s ta d í s t i c a

79

Capítulo 3

Dócimas para muestras en escalas nominales

La escala nominal se procesa estadísticamente por medio de las frecuencias. En las investigaciones sociales, humanísticas y artísticas abundan los datos en estas escalas, En las de otras disciplinas como la medicina existen datos en todas las escalas y en otras no abundan, pero también están presentes. En este capítulo se tratarán más de 15 pruebas de hipótesis aplicables a variables en esta escala de cuantificación

3.1. Dócimas para una población

Esta prueba para una proporción exige condiciones mínimas, solo la de muestra grande. Para muestras pequeñas se ofrecen alternativas en los epígrafes 3.1.2 y 3.1.5.

3.1.1. Dócima para la proporción de una población en caso de muestras grandes

La tabla 3.1 muestra un resumen de esta dócima.

Tabla 3.1. Resumen de la dócima

Hipótesis Estadígrafo Región crítica

H0: P = P0 contra H1: P ≠ P0

nQP

PpZ

00

0−=2

1áZZ

−>

H0: P ≤ P0 contra H1: P > P0 Z > α−1Z

H0: P ≥ P0 contra H1: P < P0 Z < − α−1Z

Donde p y P representan las proporciones muestral y poblacional, respec-tivamente, P0 es un valor supuesto de P, Q0 = 1 – P0, Z es un estadígrafo con distribución aproximadamente normal estándar y Zβ es el percentil de orden β de esta distribución para todo β comprendido entre 0 y 1.

Bioestadística cualitativa.indd 79 25/06/2010 12:20:01 p.m.

Page 90: Bi o e s ta d í s t i c a

80

Para muestras grandes se acostumbra a entender n > 30, pero el asunto de-pende también de P y por esta razón se tomará el criterio algo menos exigente: nP0 > 5 y nQ0 > 5.

Esta dócima no exige distribución normal, se basa en la distribución binomial con parámetros n y P, exige una muestra grande para garantizar, bajo H0, la condición de aproximación a la distribución normal con parámetros µ = nP0 y varianza σ² = nP0Q0 que estandarizada será la distribución del estadígrafo Z.

El estadígrafo se obtiene del correspondiente de la dócima para la media de una población con distribución normal a partir de que si X1, X2,..., Xn es una muestra en que cada Xi es igual a 0 o 1, entonces:

∑=

n

iiX

1

es igual al total de unos en la muestra.

es igual a la proporción de unos en la muestra.

porque los sumandos no nulos son iguales a sus cua-

drados e iguales a 1.

Y, considerando la distribución de probabilidades de ∑=

=n

iiXX

1

se llega

a que el estadígrafo Z de la tabla 3.1 se obtiene del de la dócima de la media de una población con distribución normal de la tabla 3.2, sustituyendo allí X por p, y σ por 00QP .

Ejemplo 3.1:

Una muestra aleatoria de tamaño 53 arrojó una proporción de alumnos excelentes en Bioestadística igual a 0,25. ¿Con un nivel de significación α = 0,05 podrá afirmarse que el porcentaje poblacional es mayor que 20?

Las condiciones de muestra aleatoria de tamaño n grande se cumplen: n = 53, p = 0,25, α = 0.05, P0 = 0,20, Q0 = 1−P0 = 0,80, nP0 = 10,6 > 5 y nQ0 = 42,4 > 5. Por tanto se cumplen las condiciones de muestra grande.

H0: P ≤ 0,20 contra H1: P > 0,20 (lo que se desea docimar).

910,000

0 ≈−=

nQP

PpZ P {Z ≥ 0,910} ≈ 0,1814

Decisión: Como 0,1814 no es menor que 0,05 no se rechaza H0 con nivel de significación de 0,05. Sobre la base de estos datos no se puede afirmar que el porcentaje poblacional es mayor que 20.

Bioestadística cualitativa.indd 80 25/06/2010 12:20:01 p.m.

Page 91: Bi o e s ta d í s t i c a

81

Utilizando la región crítica: Z > Z1 – α = Z0,95 = 1,645, como Z ≈ 0,910 no es mayor que 1,645 el estadígrafo no cae en la región crítica y por tanto no se rechaza H0 con α = 0,05.

Más detalles realcionados con la dócima de la proporción, en particular el caso de muestras pequeñas en la dócima binomial se obtendrán a continuación en el epígrafe 3.1.2 y también una alternativa en la dócima F para proporciones en el 3.1.5.

3.1.2. Dócimas binomial para la proporción de una población

Es útil para decidir si la proporción poblacional toma un valor dado o no. Solo exige una muestra aleatoria en escala nominal.

Constituye la dócima exacta para cualquier p y cualquier n, la del epígrafe 3.1.1 es un caso particular de aproximación, pero por ser la distribución original discreta, por lo general con pocos valores posibles, presenta poca precisión el cálculo de los valores críticos, por lo que su uso es limitado.

Sea P la proporción poblacional de individuos con determinada característica A, p la proporción muestral correspondiente y P0 un valor hipotético de P.

La variable aleatoria X que registra el número de veces que ocurre un suceso A en n repeticiones de un experimento, en que p = P(A) (probabilidad de A), es una variable aleatoria con distribución binomial con parámetros n y p con n = 0, 1, 2,... y 0 ≤ p ≤ 1. Su distribución de probabilidades viene dada por:

{ } knk qpk

nkXP −

== para k = 0, 1, 2,..., n y vale cero en otros valores de k.

Donde k es el número de veces que ocurre A, q = 1 – p.

)!(!!

knk

nk

n

−=

donde k! = k (k −1)( k – 2)... 1 para k = 1, 2,... n y 0! = 1.

Entonces el estadígrafo es X = np y representa la cantidad de individuos en la muestra que poseen la característica A.

Considerando los n individuos de la muestra como n repeticiones del ex-perimento consistente en observar en cada individuo de la muestra si posee o no la característica A. la distribución de X, en caso de una muestra aleatoria y bajo la hipótesis H0: P = P0, es binomial con parámetros n y P0.

La región crítica la constituirán los valores x de X tales que, para las hi-pótesis:

H0: P ≥ P0 contra H1: P < P0, cumplan que P{X < x} < α.H0: P ≤ P0 contra H1: P > P0, cumplan que P{X > x} < α.H0: P = P0 contra H1: P ≠ P0, cumplan que:

{ }2

α<< xXP en el caso de x < nP0.

Bioestadística cualitativa.indd 81 25/06/2010 12:20:01 p.m.

Page 92: Bi o e s ta d í s t i c a

82

{ }2

α<> xXP en el caso de x > nP0.

Si se cumple la condición enunciada para x, en cualquiera de estos tres casos se rechazará H0 y en caso contrario no se rechazará, con nivel de signi-ficación α.

Observación: El otro modo de determinar la región crítica buscando el percentil crítico para decidir si el estadígrafo lo supera o no en este caso es mucho más complejo e impreciso y por eso no se expondrá.

Ejemplo 3.2:

En un una facultad de medicina se desea saber si los varones constituyen o no el 50 % de los estudiantes. Para decidir acerca de esto seleccionan una muestra aleatoria de 12 estudiantes de la facultad y se encuentran 4 varones. ¿Qué decisión se podrá tomar?

Considerando los 12 estudiantes como 12 repeticiones del experimento consistente en en observar si es varon o no, la variable X, que registra el número de varones tendrá, bajo H0, distribución binomial con parámetros n = 12 y p = 0,5.

La hipótesis se puede escribir así: H0: P = 0,5 contra H1: P ≠ 0,5

Se tiene que n = 12 y una proporción muestral , y se adopta un

nivel de significación de 0,05. Se calculan los primeros valores de la distribución binomial con parámetros n = 12 y p = P0 = 0,5 (tabla 3.2).

Tabla 3.2. Cálculo de los primeros valores de la distribución

k P{ X = k } P{ X < k }0 0,00024 0,000001 0,00293 0,000242 0,01611 0,003173 0,05371 0,019294 0,12085 0,07300

En esta tabla 3.2 se ofrecen las probabilidades puntuales y las acumuladas hasta el puntaje anterior a k.

Como = 4 y nP0 = 12(0,5) = 6, se tiene que x < nP0 y entonces,

según la regla de decisión descrita, se rechazará H0 si P{X < x} < 0,025, puesto que α = 0,05 y la región crítica es de dos colas.

Decisión: Como x = 4, ob-

tenido de la tabla 3.2, que no es menor que 025,02

=α y por tanto no se rechaza

Bioestadística cualitativa.indd 82 25/06/2010 12:20:02 p.m.

Page 93: Bi o e s ta d í s t i c a

83

H0 con nivel de significación de 0,05. Sobre la base de estos datos no se puede afirmar que la proporción poblacional difiere de 0,5.

La distribución del estadígrafo X, bajo H0, esto es, bajo la suposición de que sea cierta H0 y n grande, se aproxima, aceptablemente, a la distribución normal con media µ = nP0 y varianza σ² = nP0Q0 y la aproximación será mejor si se tiene en cuenta, además, la llamada corrección por continuidad, que se utiliza habitualmente al pasar de una distribución discreta a una continua.

Entonces como np = 6 > 5 y nq = 6 > 5, bajo H0, se podrá usar la distribu-ción normal estándar (de la variable Z) y la corrección por continuidad para calcular estas probabilidades y se podrá tomar la decisión de rechazar H0 con nivel de significación de 0,05:

1. Si { } α<> zZP con donde Q0 = 1 – P0, en el caso de

H1: P > P0.

2. Si { } α<< zZP con donde Q0 = 1 – P0, en el caso de

H1: P < P0.3. En el caso de las hipótesis H0: P = P0 contra H1: P ≠ P0 se procederá:

a) Como en el caso 1 si x > nP0. Si P{Z > z}< α/2.b) Como en el caso 2 si x < nP0.Si P{Z < z}< α/2.

Ejemplo 3.3:En el ejemplo 3.2, puesto que nP0 = nQ0 = 6 > 5, x = 4, nP0 = 6 y por tanto

x < nP0, se puede aplicar esta aproximación normal y se tiene que:

y P{Z < −1,45} = 0,0735

Y como 0,0735 no es menor que 0,05 no se rechaza H0, con nivel de signifi-cación de 0,05. Estas probabilidades se buscan en la tabla 2.2 de la distribución normal estándar o en un software estadístico que las calcule.

Problema propuesto 3.1:Verifique si la proporción de niños con retraso mental severo o grave en la

población de donde proviene la muestra del archivo DatosM2 es menor que 0,33. Verifique también si entre los que tienen retraso mental grave la proporción de varo-nes es mayor que 0,5. Si por el tamaño muestral no se cumplieron las condiciones, más adelante podrá resolverlo con las dócimas de los epígrafes 2.1.2 y 2.1.3.

3.1.3. Dócima ji cuadrado de bondad de ajuste para una población

Sean A1, A2,..., Ar, r sucesos mutuamente excluyentes que pueden ocurrir como resultado de un experimento aleatorio.

Bioestadística cualitativa.indd 83 25/06/2010 12:20:02 p.m.

Page 94: Bi o e s ta d í s t i c a

84

Si el experimento se repite n veces se podrán calcular sus respectivas frecuencias absolutas, llamadas frecuencias observadas y denotadas por o1, o2,..., or.

Sea fi la frecuencia relativa de Ai y pi = P(Ai) para todo i = 1, 2,..., r se pueden plantear las hipótesis:

− H0: pi = pio para todo i = 1, 2,..., r (la distribución poblacional es la supuesta).

− H1: pi ≠ pio para algún i = 1, 2,..., r (la distribución poblacional no es la supuesta).

Donde, para i = 1, 2,..., r, pio es un valor supuesto de pi en el experimento, que podría ser, por ejemplo, el valor de P(Ai) según una distribución de pro-babilidades dada.

Teniendo en cuenta que la probabilidad de un suceso es aproximadamente igual a su frecuencia relativa y que esta aproximación es mejor cuanto mayor sea n, sería razonable rechazar H0 si las diferencias cuadráticas (fi – pio)² fuesen significativamente grandes o, equivalentemente, si las (oi – ei)² resultan signi-

ficativamente grandes, puesto que n

of ii = y .

Donde las frecuencias esperadas ei, si no se dan, son estimadas por ei = npi0 para i = 1, 2,..., r bajo la hipótesis H0.

Se tiene que ∑=

=r

iion

1

suma de las frecuencias observadas de los r sucesos.

Entonces tiene sentido utilizar como estadígrafo:

( )∑=

−=χr

i i

ii

e

eo

1

22 y rechazar H0 si resulta significativamente grande..

El estadígrafo se denomina ji cuadrado por el nombre de su distribución de probabilidades, que, bajo H0, y para n suficientemente grande, tiene aproxi-madamente, distribución ji cuadrado con r – 1 – m grados de libertad, donde m es igual al número de parámetros que es necesario estimar para obtener la estimación de las frecuencias esperadas ei.

Una condición para que la afirmación anterior sea válida es que las frecuen-cias esperadas ei sean tales que:

− Ninguna sea menor que 1.− No más del 20 % sea menor que 5.

Una solución para el caso en que no se cumplan estas condiciones consiste en unir dos o más clases o sucesos contiguos con poca frecuencia esperada para que el nuevo suceso o clase unión tenga mayor frecuencia esperada, pero teniendo en cuenta que después de esto la distribución de frecuencias no será la misma.

Bioestadística cualitativa.indd 84 25/06/2010 12:20:02 p.m.

Page 95: Bi o e s ta d í s t i c a

85

Esta condición introduce una considerable limitación en el empleo de esta dócima que a primera vista parece universal por su exigencia mínima en cuanto a escala: la nominal. En algunos casos una alternativa a su uso es una prueba de proporciones como las tratadas en los epígrafes 3.2.1 y 3.2.2.

Tomando todo esto en cuenta, se tenderá a rechazar H0 si el valor del estadígrafo χ2 es significativamente grande, esto es si cae en la región crítica determinada por:

)1(21

2 mr −−χ>χ α−

Los datos para esta dócima generalmente vienen dados en forma tabular (tabla 3.3).

Tabla 3.3. Tabla modelo para la prueba de bondad de ajuste

Suceso A1 A2 ··· Ar

Frecuencia observada o1 o2 ··· or

Frecuencia esperada e1 e2 ··· er

En los problemas prácticos las frecuencias esperadas a menudo no aparecen dadas en forma explícita.

Observación: El nombre de ji cuadrado y el símbolo χ2 provienen de que χ representa la letra griega ji elevada al cuadrado, equivalente a la j castiza. Algunas personas le dicen chi cuadrado, lo cual se justifica por la expresión inglesa chi square, que los hipanoparlantes leen por lo regular chi cuadrada o chi cuadrado.

Ejemplo 3.4:

En un área de salud se clasifican a los que asisten a la consulta con asma en las categorías A, B, C y D para determinada actividad. Un investigador de-sea saber si la distribución por categorías es homogénea, para ello selecciona al azar una muestra de 54 asistentes asmáticos del área de salud y obtiene los resultados que aparecen en la tabla 3.4.

Tabla 3.4. Datos del ejemplo 3.4

Categoría A B C D

Número de asmáticos 12 17 15 10

En estas dócimas, para simplificar, se acostumbra a escribir las hipótesis con palabras, y a menudo solo se plantea la hipótesis nula H0, sobrentendiéndose la alternativa H1, que consiste en la negación de H0 con o sin restricciones, según el caso. Así, por ejemplo, en este caso se puede escribir:

Bioestadística cualitativa.indd 85 25/06/2010 12:20:03 p.m.

Page 96: Bi o e s ta d í s t i c a

86

− H0: En el área de salud las proporciones de asmáticos de las 4 categorías no difieren.

− H1: En el área de salud las proporciones de asmáticos de las distintas categorías difieren.

Como r = 4 y n = 54, estas no son más que una expresión equivalente de las hipótesis:

H0: 41=ip para i = 1, 2, 3, 4 contra H1: 4

1≠ip para algún i = 1, 2, 3, 4.

Las frecuencias esperadas, bajo H0, son todas iguales a , por

tanto, se cumplen las condiciones y se hace posible aplicar la dócima.

Las probabilidades o frecuencias relativas esperadas son, bajo H0, iguales a 4

1 , o sea, 0,25. En la tabla 3.5 aparece un resumen de todo el cálculo, donde se incluyen, además de las frecuencias absolutas, las relativas o proporciones.

Tabla 3.5. Cálculo de las frecuencias y proporciones observadas y esperadas

Frecuencia ProporciónCategoría Observada Esperada Observada Esperada

A 12 13,5 0,2222 0,25B 17 13,5 0,3148 0,25C 15 13,5 0,2778 0,25D 10 13,5 0,1852 0,25

Total 54 54,0 1,0000 1,00

χ² ≈ 2,148, gl = 3, P{χ² > 2,148} = 0,5423

Decisión: Como 0,5423 no es menor que 0,05 no se rechaza H0 con nivel de significación α = 0,05. Sobre la base de estos datos, no hay elementos su-ficientes para afirmar que en el área de salud de donde proviene la muestra, la distribución de los asmáticos por categorías sea heterogénea.

También se puede hallar en la tabla 3.6, y, por tanto, la región crítica es: χ² > 7,81, y como 2,147 no cae en ella la decisión es la misma: No rechazar H0 con nivel de significación de 0,05.

Tabla 3.6. Percentiles más usuales de la distribución ji cuadrado

Orden del percentilgl 0,99 0,99 0,97 0,95 0,90 0,10 0,05 0,025 0,01 0,0051 7,88 6,63 5,02 3,84 2,71 0,0158 0,0039 0,0018 0,0002 0,00002 10,6 9,21 7,38 5,99 4,61 0,211 0,103 0,0506 0,0201 0,0100

Bioestadística cualitativa.indd 86 25/06/2010 12:20:03 p.m.

Page 97: Bi o e s ta d í s t i c a

87

3 12,8 11,3 9,35 7,81 6,25 0,584 0,352 0,216 0,115 0,0714 14,9 13,3 11,1 9,49 7,78 1,06 0,711 0,484 0,297 0,2075 16,7 15,1 12,8 11,1 9,24 1,61 1,15 0,831 0,554 0,4126 18,9 16,8 14,6 12,6 10,6 2,60 1,64 1,24 0,872 0,6767 20,3 18,5 16,0 14,1 12,0 2,83 2,17 1,69 1,24 0,9868 22,0 20,1 17,5 15,5 13,4 3,49 2,73 2,18 1,65 1,349 23,6 21,7 19,0 16,9 14,7 4,17 3,33 2,70 2,09 1,73

10 25,2 23,2 20,5 18,0 16,0 4,87 3,94 3,21 2,56 2,1611 26,8 24,7 21,9 19,7 17,3 5,58 4,57 3,82 3,05 2,6012 28,3 26,2 23,3 21,0 18,5 6,30 5,23 4,40 3,57 3,0713 29,8 27,7 24,7 22,4 19,8 7,04 5,89 5,01 4,11 3,5514 31,3 29,1 26,1 23,7 21,1 7,79 6,57 5,63 4,66 4,0715 32,6 30,6 27,5 25,0 22,3 8,55 7,26 6,26 5,23 4,6016 34,3 32,0 28,8 26,3 23,5 9,31 7,96 6,91 5,81 5,1417 35,7 33,4 30,2 27,6 24,8 10,1 8,67 7,56 6,41 5,7018 37,2 34,8 31,5 28,9 26,0 10,9 9,39 8,23 7,01 6,2619 38,6 36,2 32,9 30,1 27,2 11,7 10,1 8,91 7,63 6,8420 40,0 37,6 34,2 31,4 28,4 12,4 10,9 9,59 8,26 7,4321 41,4 38,9 35,5 32,7 29,6 13,2 11,6 10,3 8,90 8,0322 42,8 40,3 36,8 33,9 30,8 14,0 12,3 11,0 9,54 8,6423 42,2 41,6 38,1 35,2 32,0 14,8 13,1 11,7 10,2 9,2624 45,6 43,0 39,4 36,4 33,2 15,7 15,8 12,2 10,9 9,8925 46,9 44,3 40,6 37,7 34,4 16,5 16,4 13,1 11,5 10,526 48,3 45,6 41,9 38,9 35,6 17,3 15,4 13,8 12,2 11,227 49,6 47,0 43,2 40,1 36,7 18,1 16,2 14,6 12,9 11,828 51,0 48,3 44,5 41,3 37,9 18,9 16,9 15,3 13,6 12,529 52,3 49,6 45,7 42,6 39,1 19,8 17,7 16,0 14,3 13,130 53,7 50,9 47,0 43,8 40,3 20,6 18,5 16,8 15,0 13,1

Para m = gl > 30 se tiene que .

Observaciones:

1. A menudo, los sucesos Ai vienen representados como las clases de una distribución de frecuencias a la que se desea ajustar una distribución de probabilidades dada. En estos casos los sucesos son del tipo {X ∈ Ai }, sus probabilidades pi y X es la variable aleatoria cuya distribución queremos ajustar. También, a menudo, las frecuencias esperadas ei no se dan tan explícitamente, por ejemplo, si se conocen las probabilidades pi, entonces ei = npi, si no se dan, tendrán que haber elementos para estimarlas.

Bioestadística cualitativa.indd 87 25/06/2010 12:20:04 p.m.

Page 98: Bi o e s ta d í s t i c a

88

2. Existe la corrección por continuidad de Yates para el estadígrafo, se aplica cuando se utiliza una distribución continua (la ji cuadrado) como aproxi-mación en el caso de datos discretos que consiste en usar el estadígrafo ji cuadrados corregido:

En muestras grandes no habrá gran diferencia entre los valores de los estadí-grafos corregido y no corregido. La mayor utilidad de la corrección está en los casos en que el valor del estadígrafo está en los límites de la región crítica.

En el ejemplo anterior, utilizando la corrección de Yates se obtiene χ2 ≈ 2,2222 y P{χ² > 2,2222} = 0,527628, por lo que la decisión no cambia.

Problema propuesto 3.2:

Se realizar un cruce de con una muestra aleatoria de 64 individuos y se obtiene una relación de 33:13:15:3 y se desea saber si se puede afirmar que la relación poblacional sigue la distribución de Mendel: 9:3:3:1.

3.1.4. Dócima de las rachas de Wald‑Wolfowitz para una población

Permite docimar la hipótesis de que los puntajes de una población se pre-sentan aleatoriamente. Exige escala nominal dicotómica.

En una secuencia de dos puntajes en que cada uno se repite varias veces se le llama racha a la secuencia de todos los puntajes de un mismo tipo antecedida por a puntajes y precedida por b puntajes del otro tipo, donde a y b números naturales no nulos cualesquiera, excepto en el caso de rachas de los extremos de la secuencia, en que uno de ellos debe ser 0 necesariamente.

Ejemplo 3.5:En la siguiente secuencia de 17 puntajes F y M se observan nueve rachas

(cinco de F y cuatro de M).

987654321

FFFMMMFMMFFMFFMFF

Los dos casos más extremos de rachas se ofrecen en la tabla 3.7.

Tabla 3.7. Casos de números de rachas extremos

(I) F F F F F F F F F F M M M M M M M1 2

(II) F M F M F M F M F M F M F M F F F1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Bioestadística cualitativa.indd 88 25/06/2010 12:20:04 p.m.

Page 99: Bi o e s ta d í s t i c a

89

En el caso (I) se observan un mínimo de dos rachas, una de M y la otra de F, y en el caso (II) un máximo de 15 rachas, siete de M y ocho de F.

La aleatoriedad de una secuencia como esta significa que cada una de las 17 letras tiene la misma probabilidad de ocupar cualquiera de las 17 posiciones posibles en la secuencia. Muy pocas rachas, como en el caso (I), y otros no tan extremos, está claro que indican falta de aleatoriedad, pero un número muy grande de ellas como en el caso (II) y otros no tan extremos también, porque, por ejemplo, si fuera el resultado del lanzamiento al azar de una moneda bien balanceada, de caras F y M, está claro que parecería poco probable y en vez de aleatoriedad podrían indicar existencia de fluctuaciones cíclicas de periodo corto. Entonces se puede utilizar como criterio para que una secuencia sea aleatoria que en ella se presenten ni pocas ni muchas rachas. Pero cuan pocas y cuan muchas rachas constituirán los límites para la decisión.

Estadígrafo: r: número de rachas.Región crítica:

2

α< rr o 2

1α−

> rr .

Estos valores críticos, aparecen en la tabla 3.8 de esta dócima para k y m comprendidos entre 2 y 20, donde k es el número de puntajes de un tipo y m, el del otro tipo.

Ejemplo 3.6:

Se observan 17 personas en fila esperando para acceder a la consulta de Cardiología de un policlínico A y se registra su sexo (F significa femenino y M, masculino):

F F M F F M F F M M F M M M F F F

¿Es aleatoria la secuencia de los dos sexos a la entrada de la consulta de Cardiología?

Hipótesis:H0: La secuencia de los dos sexos a la entrada de la de la consulta de Car-

diología es aleatoria.H1: No lo es.

Estadígrafo:Se observan r = 9 rachas: cinco de F y cuatro de M.

El número de individuos del sexo femenino es k = 10 y el del sexo mascu-lino es m = 7. Para estos dos valores, en cualquier orden, y para α = 0,05, en la tabla 3.8 se halla:

5025,0

2

==α rr y

Bioestadística cualitativa.indd 89 25/06/2010 12:20:05 p.m.

Page 100: Bi o e s ta d í s t i c a

90

Tabla 3.8. Percentiles r de órdenes 0,025 y 0,975 (filas sombreadas) para la dócima de las rachas de Wald-Wolfowitz

m 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20k2 2 2 2 2 2 2 2 2 2

3 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3

4 2 2 2 3 3 3 3 3 3 3 3 4 4 4 4 4 9 9

5 2 2 3 3 3 3 3 4 4 4 4 4 4 4 5 5 59 10 10 11 11

6 2 2 3 3 3 3 4 4 4 4 5 5 5 5 5 5 6 69 10 11 12 12 13 13 13 13

7 2 2 3 3 3 4 4 5 5 5 5 5 6 6 6 6 6 611 12 13 13 14 14 14 14 15 15 15

8 2 3 3 3 4 4 5 5 5 6 6 6 6 6 7 7 7 711 12 13 14 14 15 15 16 16 16 16 17 17 17 17 17

9 2 3 3 4 4 5 5 5 6 6 6 7 7 7 7 8 8 813 14 14 15 16 16 16 17 17 18 18 18 18 18 18

10 2 3 3 4 5 5 5 6 6 7 7 7 7 8 8 8 8 913 14 15 16 16 17 17 18 18 18 19 19 19 20 20

11 2 3 4 4 5 5 6 6 7 7 7 8 8 8 9 9 9 913 14 15 16 16 17 17 18 18 18 19 19 19 20 20

12 2 2 3 4 4 5 6 6 7 7 7 8 8 8 9 9 9 10 1013 14 16 16 17 18 19 19 20 20 21 21 21 22 22

13 2 2 3 4 5 5 6 6 7 7 8 8 9 9 9 10 10 10 1015 16 17 18 19 19 20 20 21 21 22 22 23 23

14 2 2 3 4 5 5 6 7 7 8 8 9 9 9 10 10 10 11 1115 16 17 18 19 20 20 21 22 22 23 23 23 24

15 2 3 3 4 5 6 6 7 7 8 8 9 9 10 10 11 11 11 1215 16 18 18 19 20 21 22 22 23 23 24 24 25

16 2 3 4 4 5 6 6 7 8 8 9 9 10 10 11 11 11 12 1217 18 19 20 21 21 22 22 23 24 25 25 25

17 2 3 4 4 5 6 7 7 8 9 9 10 10 11 11 11 12 12 1317 18 19 20 21 22 23 23 24 25 25 26 26

18 2 3 4 5 5 6 7 8 8 9 9 10 10 11 11 12 12 13 1317 18 19 20 21 22 23 24 25 25 26 26 27

19 2 3 4 5 6 6 7 8 8 9 10 10 11 11 12 12 13 13 1317 18 20 21 22 23 23 24 25 26 26 27 27

20 2 3 4 5 6 6 7 8 9 9 10 10 11 12 12 13 13 13 1417 18 20 21 22 23 24 25 25 26 27 27 28

Bioestadística cualitativa.indd 90 25/06/2010 12:20:06 p.m.

Page 101: Bi o e s ta d í s t i c a

91

Región crítica: r < 5 o r > 14.Y como el valor de r = 9 no cae en la región crítica, no se rechaza H0 con

nivel de significación α = 0,05. Sobre la base de estos datos no se puede afirmar que la secuencia no es aleatoria.

Una aproximación para el caso de muestras grandes: para k > 20 o m > 20 se utiliza el estadígrafo:

∼ N(0, 1) aproximadamente bajo H0.

Ejemplo 3.7:

Una muestra de información digitalizada arrojó la siguiente secuencia:

0 0 0 0 0 1 1 0 0 1 1 1 1 1 0 0 1 0 0 0 0 0 0 0 0 10 1 0 1 0 1 1 1 1 1 1 0 0 0 0 1 0 0 0 0 0 1 1 1 1

¿Podrá considerarse aleatoria la disposición de los 0 y los 1 en la informa-ción digitalizada?

Hipótesis:H0: La secuencia de 0 y 1 en la información es aleatoria.H1: No lo es.Estadígrafo: r: total de rachas: 18Número de ceros: 29.Número de unos: 22.Rachas de ceros: 9.Rachas de unos: 9.Evaluando el estadígrafo para muestras grandes Z se tiene:Z = –2,313 P{|Z| > 2,313} ≈ 0,0104Decisión: Como 0,0104 < 0,05 se rechaza H0 con nivel de significación de

0,05. Sobre la base de estos datos se puede afirmar que la secuencia de ceros y unos en la información no es aleatoria.

Corrección por continuidad

En el caso de k o m mayor que 20 con k + m suficientemente grande se puede mejorar la aproximación del estadígrafo Z a la distribución normal, utili-zando la corrección por continuidad, al pasar de una distribución discreta a una continua, que en este caso consiste simplemente en restar 0,5 al valor absoluto del numerador de Z y utilizar el estadígrafo corregido:

Bioestadística cualitativa.indd 91 25/06/2010 12:20:06 p.m.

Page 102: Bi o e s ta d í s t i c a

92

El software estadístico más moderno aplica también estas correcciones, y brinda también el valor ajustando del estadígrafo.

Problema propuesto 3.3:

Verifique si la secuencia de F y M en la variable sexo de la matriz DatosM2 de la tabla 1.3 es aleatoria.

3.1.5. Dócimas exacta F para la proporción de una población

Constituye una alternativa para las pruebas, tratadas antes, relativas a la proporción de una población, en particular en el caso de muestras pequeñas, que es el más complejo.

Se fundamenta en que si X es una variable aleatoria con distribución binomial con parámetros n y p, se puede probar que P{X < k} = P{F < F0}.

Donde F representa una variable aleatoria con distribución F de Fisher con m y r grados de libertad, k es el número de veces que ocurre A.

m = 2(n – k + 1), r = 2k y .

Pero, teniendo en cuenta que se está aproximando una distribución discreta, como la binomial por una continua, como la F de Fisher se utilizará la corrección por continuidad en todos los casos que se presenten en lo adelante, en particular en los de la tabla 3.9, donde se exponen resumidos dos casos importantes que pueden presentarse.

Tabla 3.9. Resumen de la dócima exacta F para un a proporción

Hipótesis Estadígrafo Región crítica

H0: P = P0 H1: P > P0

m = 2(k + 0,5) y r = 2(n – k + 0,5) ),(1 rmFF α−>

H0: P = P0 H1: P < P0

m = 2(n – k + 0,5) y r = 2(k + 0,5) ),( rmFF α<

H0: P = P0 H1: P ≠ P0

Si p < P0 el caso se tratará como el caso (1)Si p > P0 el caso se tratará como el caso (2)Si p = P0 no se rechazará H0.

),(2

rmFF α<

o

),(2

1rmFF α−

>

Bioestadística cualitativa.indd 92 25/06/2010 12:20:07 p.m.

Page 103: Bi o e s ta d í s t i c a

93

Ejemplo 3.8:

La probabilidad de encontrar un nebulizador de salbutamol defectuoso, en un lote de los que se sirven en la farmacia A, ha sido hasta el momento 0,05. Se revisan 10 lotes, seleccionados al azar, y se encuentra solo un artículo defec-tuoso. ¿Habrá aumentado la probabilidad de encontrar un artículo defectuoso en esos lotes?

En la tabla 3.10 aparecen los percentiles de la distribución F de Fisher-Snedecor.

Hipótesis: H0: P = 0,05 contra H1: P > 0,05Datos: n = 10, k = 1, P0 = 0,05, Q0 = 0,95 m = 2(k + 0,5) = 3 r = 2(n – k + 0,5) = 19, α = 0,05

, F0,95 (3,19) ≈ 3,10

Región crítica: F > 3,10Decisión: Como F = 0,33 no cae en la región crítica, no supera a 3,10, no se

rechaza H0 con nivel de significación de 0,05. Sobre la base de estos datos no se puede afirmar que la probabilidad de encontrar un nebulizador de salbutamol defectuoso en la población de los lotes considerados es mayor que 0,05.

Ejemplo 3.9:

Se quiere verificar si la probabilidad de que salga el 6 en el lanzamiento de un dado es menor que 1/6 o no. Para ello se lanza el dado 12 veces y se observa que la cara con el 6 aparece 1 vez.

Hipótesis: H0: 6

1=P contra H1: 61<P

Datos: n = 12, k = 1, ,61

0 =P 6

50 =Q

m = 2(n – k + 0,5) = 2(12 – 1 + 0,5) = 23, r = 2(k + 0,5) = 3

Región crítica: F < 0,33Decisión: Como F = 0,65 no cae en la región crítica, no es menor que 0,33, no

se rechaza H0 con nivel de significación de 0,05. Sobre la base de estos datos no se puede afirmar que la probabilidad de obtener la cara 6 es menor que 1/6.

Bioestadística cualitativa.indd 93 25/06/2010 12:20:07 p.m.

Page 104: Bi o e s ta d í s t i c a

94

Tabl

a 3.

10. T

abla

de

perc

entil

es d

e la

dis

tribu

ción

F d

e Fi

sher

-Sne

deco

r

GL

Den

Num

erad

or o

rden

12

34

56

78

910

10,

9039

,949

,553

,655

,857

,258

,258

,959

,459

,960

,2

0,95

161

200

216

225

230

234

237

239

241

242

0,97

564

880

086

490

092

293

794

895

796

396

9

0,99

4050

5000

5400

5620

5760

5860

5930

5980

6020

6060

0,99

516

200

2000

021

600

2250

023

100

2340

023

700

2390

024

100

2420

0

20,

908,

539,

079,

169,

249,

299,

339,

359,

379,

389,

39

0,95

18,5

1919

,219

,219

,319

,319

,419

,419

,419

,4

0,97

538

,539

39,2

39,2

39,3

39,3

39,4

39,4

39,4

39,4

0,99

98,5

99,7

99,2

99,2

99,3

99,3

99,4

99,4

99,4

99,4

0,99

519

819

919

919

919

919

919

919

919

919

9

30,

905,

545,

465,

395,

345,

315,

285,

275,

255,

245,

23

0,95

10,1

9,55

9,28

9,12

9,01

8,94

8,89

8,85

8,81

8,79

0,97

517

,416

15,4

15,1

14,9

14,7

14,6

14,5

14,5

14,4

0,99

34,1

30,8

29,5

28,7

28,2

27,9

27,7

27,5

27,3

27,2

0,99

555

,649

,847

,546

,245

,444

,844

,444

,143

,943

,7

40,

904,

544,

324,

194,

114,

054,

013,

983,

953,

943,

92

0,95

7,71

6,94

6,59

6,39

6,26

6,16

6,09

6,04

65,

96

Bioestadística cualitativa.indd 94 25/06/2010 12:20:08 p.m.

Page 105: Bi o e s ta d í s t i c a

95

0,97

512

,212

,110

,69,

989,

69,

369,

29,

078,

988,

9

0,99

21,2

1816

,716

15,5

15,2

1514

,814

,714

,5

0,99

531

,326

,324

,323

,222

,522

21,6

21,4

21,1

21

50,

904,

063,

783,

623,

523,

453,

43,

373,

343,

323,

30

0,95

6,61

5,79

5,41

5,19

5,05

4,95

4,88

4,82

4,77

4,74

0,97

510

8,43

7,76

7,39

7,15

6,98

6,85

6,76

6,68

6,62

0,99

16,3

13,3

12,1

11,4

1110

,710

,510

,310

,210

,1

0,99

522

,818

,316

,515

,514

,914

,514

,214

13,8

13,6

60,

903,

783,

463,

293,

183,

113,

053,

012,

982,

962,

94

0,95

5,99

5,14

4,76

4,53

4,39

4,28

4,21

4,15

4,1

4,06

0,97

58,

817,

266,

66,

235,

995,

825,

75,

65,

525,

46

0,99

13,7

10,9

9,78

9,15

8,75

8,47

8,26

8,1

7,98

7,87

0,99

518

,614

,512

,912

11,5

11,1

10,8

10,6

10,4

10,2

70,

903,

593,

263,

072,

962,

882,

832,

782,

752,

722,

7

0,95

5,59

4,74

4,35

4,12

3,97

3,87

3,79

3,73

3,68

3,64

0,97

58,

076,

545,

895,

525,

295,

124,

994,

94,

824,

76

0,99

12,2

9,55

8,45

7,85

7,46

7,19

6,99

6,84

6,72

6,62

0,99

516

,212

,410

,910

9,52

9,16

8,89

8,68

8,51

8,38

Bioestadística cualitativa.indd 95 25/06/2010 12:20:08 p.m.

Page 106: Bi o e s ta d í s t i c a

96

Ejemplo 3.10:

Se considera que el 30 % de los estudiantes de un grupo de enfermería tienen una opinión positiva ante cierto asunto de atención al paciente. Se entrevistan cinco estudiantes del grupo seleccionados al azar y se encuentran dos con la opinión positiva. ¿Habrá variado el porcentaje de opinión positiva de los estu-diantes ante el asunto? Utilice un nivel de significación de 0,01.

Hipótesis: H0: P = 0,30 contra H1: P ≠ 0,30

Datos: n = 5, k = 2, P0 = 0,30, Q0 = 0,70, α = 0,01 y como 52=p = 0,40 > 0,30,

se utiliza el primer caso de la tabla resumen 3.9, como se recomienda al final de ella, con 005,0

2=α en lugar de α = 0,01.

m = 2(2 + 0,5) = 5, r = 2(n – 2 + 0,5) = 2(5 – 2 + 0,5) = 7

F0,995 (5,7) ≈ 9,52

Región crítica: F > 9,52 Probabilidad crítica: P{X > 0,6} ≈ 0,70324701, donde X es una variable

aleatoria con distribución F de Fisher con 5 y 7 grados de libertad. Decisión: Como 0,70324701 no es menor que 0,01, o como F = 0,6 no cae en

la región critica, no se rechaza H0 con nivel de significación de 0,01. Sobre la base de estos datos no se puede afirmar que ha variado, en la población, la proporción de opiniones positivas sobre el asunto de atención al paciente en cuestión.

Problema propuesto 3.4:

Un sitio actualizado de internet considera que el 80 % de los pacientes de una enfermedad cancerígena aumenta notablemente su expectativa de vida con el tratamiento actual. Se someten al tratamiento siete pacientes aquejados de la enfermedad seleccionados al azar y se encuentran seis que han aumentado notablemente su expectativa de vida. ¿Habrá variado el porcentaje de pacientes que han aumentado notablemente su expectativa de vida? Utilice α = 0,05.

3.2. Dócimas para dos poblaciones

Sean, respectivamente:

− X1, X2,...,, Xm y Y1, Y2, ..., Yn dos muestras aleatorias de las poblaciones X e Y.

− P1, p1, P2, p2 las respectivas proporciones poblacionales y muestrales de X e Y.

− R, r los respectivos coeficientes de correlación poblacional y muestral entre X e Y.

Bioestadística cualitativa.indd 96 25/06/2010 12:20:09 p.m.

Page 107: Bi o e s ta d í s t i c a

97

En el caso de la dócimas de dos poblaciones se presentan dos casos: el de muestras independientes, que son en las que los valores de una no dependen de los valores de la otra, y el de muestras apareadas, que es el caso en que los individuos de ambas muestras se aparean buscando que los dos individuos de cada pareja no difieran en las características que puedan influir en la que se observa, un caso muy común de apareamiento se tiene cuando se aparea cada individuo de la muestra consigo mismo en las observaciones repetidas al cabo de un tiempo.

3.2.1. Dócimas para las proporciones de dos poblaciones en caso de muestras grandes

Esta dócima, al igual que la de la proporción de una población sólo exige muestras aleatorias grandes en escalas nominales dicotómicas Por la poca exi-gencia respecto a la escala de cuantificación es de amplio uso en los trabajos investigativos pedagógicos, psicológicos y humanísticos en general. Las hipó-tesis y regiones críticas se ofrecen resumidas en la tabla 3.11 y el estadígrafo cambiará según el caso, pero siempre tendrá distribución aproximadamente normal estándar.

Tabla 3.11. Resumen de lo común en las pruebas de dos proporciones

Hipótesis Región crítica

H0: p1 = p2 contra H1: p1 ≠ p2

H0: p1 ≤ p2 contra H1: p1 > p2 Z > Z1 – α

H0: p1 ≥ p2 contra H1: p1 < p2 Z < –Z1 – α

La exigencia de muestras grandes se puede reducir a que np y nq, mp1, mq1, nq1 y nq2 sean todas mayores que 5, siendo q1 = 1 – p1 y p2 = 1 – q2 y n y m los tamaños muestrales según el caso.

1. Caso de muestras independientes

con

y q = 1 – p

Ejemplo 3.11:

¿Puede afirmarse que hay diferencia entre las proporciones de alumnas en las poblaciones? Utilice un nivel de significación de 0,05.

Datos: n1 = 25, n2 = 50, p1 = 0,56 y p2 = 0,60.

Bioestadística cualitativa.indd 97 25/06/2010 12:20:09 p.m.

Page 108: Bi o e s ta d í s t i c a

98

Hipótesis: H0: P1 = P2 contra H1: P1 ≠ P2 Z = −0,332 P{|Z| > 0,332} ≈ 0,7398Decisión: Como 0,7398 no es menor que 0,05, no se rechaza H0 con

nivel de significación 0,05. Sobre la base de estos datos no se puede afirmar que difieran las proporciones de alumnas en las dos poblacionnes.

También se tiene que Z0,975 ≈ 1,96 y por tanto la región crítica viene deter-minada por |Z| > 1,96 y el valor del estadígrafo Z no cae en ella.

2. Caso de muestras apareadas o dos proporciones en una población con las características mutuamente excluyentes

Estadígrafo:

Donde p1es la proporción de individuos con una de las características o con

la característica en cuestión en una de las muestras y p2 es la proporción de individuos con la otra característica o con la característica en la otra muestra.

Ejemplo 3.12:

¿Puede afirmarse que hay diferencia entre las proporciones de matriculados en los institutos 1 y 2 de la población de la matriz de DatosE3 de tabla 1.30?

Suponiendo que la matrícula en el institutos 1 excluye la matrícula en el instituto 2 y viceversa.

Hipótesis: H0: P1 = P2 contra H1: P1 ≠ P2

Datos:

,

y m + n = 50

Z = –0,851 P {Z < −0,851} = 0,1973 Decisión: Como 2(0,1973) = 0,3946 no es menor que 0,05 no se rechaza

H0 con nivel de significación de 0,05. Sobre la base de estos datos no puede hacerse la afirmación.

También se tiene que Z0,975 ≈ 1,96 y por tanto la región crítica casos viene determinada por |Z| > 1,96.

3. Caso de muestras apareadas o dos proporciones en una población con las características no excluyentes

Estadígrafo:

Bioestadística cualitativa.indd 98 25/06/2010 12:20:09 p.m.

Page 109: Bi o e s ta d í s t i c a

99

Donde p12 representa la proporción muestral de individuos que poseen la característica cuya proporción es p1 y además poseen también la característica cuya proporción es p2, siendo p1 y p2 definidas como en el caso anterior.

Ejemplo 3.13:

¿Puede afirmarse que hay diferencia entre las proporciones de alumnos con grado de habilidad entre 1 y 6 y de alumnos con grado de habilidad entre 6 y 10?

Datos: ,

y

Ya que de un total de 50, hay 34 con grado de habilidad entre 1 y 6, hay 24 con grado de habilidad entre 6 y 10, y hay 8 con grado de habilidad igual a 6. Utilice un nivel de significación de 0,05.

Hipótesis: H0: P1 = P2 contra H1: P1 ≠ P2 Z = 1,581 P {Z > 1,581} = 0,0569Decisión: Como 2(0,0569) = 0,1138 no es menor que 0,5 no se rechaza

H0 con nivel de significación de 0,05. Sobre la base de estos datos no puede hacerse la afirmación.

También se tiene que Z0,975 ≈ 1,96 y por tanto la región crítica viene determinada por |Z| > 1,96 y 1,581 no cae en ella, por tanto la decisión es la misma.

Problema propuesto 3.5:

Verifique en la población de donde procede la matriz de DatosM2 de la tabla 1.3 si hay o no diferencia entre las proporciones:

− De niños clasificados con retraso mental ligero y los clasificados con retraso mental grave.

− De niñas y niños clasificados con retraso mental moderado.− De niños clasificados de ligeros a moderados y los clasificados de

moderado a grave.

3.2.2. Dócimas de independencia y homogeneidad ji cuadrado en tablas de contingencia

Estas dócimas se pueden considerar una extensión de las de bondad de ajuste y como aquella requiere un procesamiento previo de los datos originales que consistente en construir con los datos originales una tabla de contingencia. Es una dócima muy utilizada por su poca exigencia: escala al menos nominal en las dos variables en cuestión, que casi siempre se cumple, pero exige otras condiciones que le impiden ser universal.

Bioestadística cualitativa.indd 99 25/06/2010 12:20:10 p.m.

Page 110: Bi o e s ta d í s t i c a

100

1. Dócima de independencia

Una tabla de contingencia como se trató en el epígrafe 1.4 y en el análisis del coeficiente de correlación V de Cramér, no es más que una distribución biva-riada de frecuencias como la de la tabla 1.28. Allí se definieron las frecuencias observadas oij, y las esperadas eij, estas últimas vendrán dadas, y en caso de que no se den, que es lo más común, se estimarán por la fórmula:

n

nne ji

ij••= , para i = 1, 2,..., r y j = 1, 2,..., c

Sean A y B los factores fila y columna de la tabla bivariada de frecuencias. Sean A1, A2,..., Ar y B1, B2,..., Bc un total de r + c sucesos de un experimento aleatorio, donde tanto A1, A2,..., Ar como B1, B2,..., Bc son mutuamente exclu-yentes y tales que para todo i = 1, 2,..., c y j = 1, 2,..., r, un suceso Ai ocurre solo conjuntamente con algún suceso Bj.

Sea pij = P(Ai ∩ Bj), pi. = P(Ai) y p.j = P (B) para i = 1, 2,..., c y j = 1, 2,..., r.

En la teoría de probabilidades se dice que dos sucesos Ai y Bj son indepen-dientes si P(Ai ∩ Bj) = P(Ai) P(Bj), o sea si pij = pi. p.j.

Entonces se podrá plantear la hipótesis de independencia de los factores A y B con los niveles A1, A2,..., Ar y B1, B2,..., Bc , respectivamente, así:

H0: pij = pi. ·p.j para todo i = 1, 2,..., c; j = 1, 2,..., r.H1: pij ≠ pi. ·p.j para algún i = 1, 2,..., c; j = 1, 2,..., r.Teniendo en cuenta que una tabla de contingencia de r filas y c columnas

es una extensión de la tabla de frecuencias observadas de una fila de rc ele-mentos o una columna de rc elementos, frecuencias observadas, de la dócima de bondad de ajuste de 3.1.3, por analogía con lo tratado en esta se tenderá a rechazar H0 si (oij − eij)2 es significativamente grande, donde oij = n fi j y eij = n pi. ·p.j bajo H0 (1).

Entonces un estadígrafo razonable para docimar las hipótesis planteadas es:

Que registra cualquier desviación de las frecuencias observadas oij respecto a las frecuencias esperadas eij, o lo que es equivalente, de las frecuencias relativas fij respecto a las correspondientes probabilidades pij, que, bajo H0 son iguales a los productos de pi. por p.j. Entonces, si se cumplen las condiciones de que ninguna de las frecuencias esperadas sea menor que 1 y no más del 20 % menor que 5, este estadígrafo χ2 tendrá aproximadamente una distribución ji cuadrado con cr – 1 – m grados de libertad, donde m era igual al número de parámetros que hay que estimar para obtener las frecuencias esperadas eij.

Los cr – 1 – m grados de libertad representan el total de celdas menos 1 y menos m, como se trató en el caso de bondad de ajuste.

Bioestadística cualitativa.indd 100 25/06/2010 12:20:10 p.m.

Page 111: Bi o e s ta d í s t i c a

101

Si no se cumplan las condiciones referentes a las frecuencias esperadas, una solución consiste en agrupar filas o columnas contiguas para que el valor de las frecuencias esperadas en las nuevas filas o columnas sea mayor. Pero hay que tener en cuenta que el valor del estadígrafo depende de la tabla de contingencia, cambia con ella, y de ella depende la decisión.

Existe otra expresión, quizás más sencilla para el cálculo manual, de este estadígrafo:

Que se obtiene desarrollando el cuadrado en la fórmula original y aplicando las propiedades de las frecuencias observadas y esperadas.

Un caso muy común, de la prueba de independencia es aquel en que hay que estimar todos los parámetros, los r − 1 de pi. y los c − 1 de p.j , porque una vez estimados estos, el r-ésimo y el c-ésimo no hay que estimarlos, se obtienen, respectivamente, de las sumas:

11

=∑=

r

iip y 1

1

=∑=

c

jjp

Entonces se estiman en total r – 1 + c – 1 = r + c – 2 parámetros y los grados de libertad serán:

cr – 1– m = cr – 1– (r + c – 2) = (r – 1)(c – 1)En este caso, estimando las probabilidades marginales •ˆ ip y jp•ˆ por sus

correspondientes frecuencias relativas n

ni• y n

n j• que son las estimaciones de

las probabilidades marginales correspondientes, se tiene que:

n

nn

n

n

n

nnppne jiji

jiij••••

•• ˆˆˆ === para i = 1, 2,..., c j = 1, 2,..., r.

Resumiendo, para docimar la hipótesis H0: hay independencia entre los fac-tores fila y columna de la tabla de contingencia, un estadígrafo adecuado es χ2

y su región crítica viene dada por , en general, o, en particular, cuando se estiman todas las frecuencias esperadas ( )( )[ ]112

12 −−χ>χ α− cr .

Ejemplo 3.14:

Con los datos de los 50 niños y niñas clasificados con retraso ligero, mode-rado y severo o grave de la matriz de DatosM2 se obtiene la tabla 3.12.

Para comprobar si se cumplen las condiciones se calculan, en la tabla 3.13, las frecuencias esperadas por la fórmula

n

nne ji

ij••= , o sea, la suma de la fila i

por la suma de la columna j dividida entre el total general n.. = n.

Bioestadística cualitativa.indd 101 25/06/2010 12:20:11 p.m.

Page 112: Bi o e s ta d í s t i c a

102

Tabla 3.12. Datos del ejemplo 3.14

Frecuencias observadasMasculino Femenino Total

L 6 6 12M 10 10 20

S o G 14 4 18Total 30 20 50

Tabla 3.13. Frecuencias esperadas

Frecuencias esperadasMasculino Femenino Total

L 7,20 4,80 12M 12,00 8,00 20

S y G 10,80 7,20 18Total 30 20 50

En la tabla 3.13 se satisfacen las condiciones, hay una frecuencias esperada igual a 4,80 menor que 5, pero 1 de 6 solo representa el 16,7 % menor que 20 %, entonces tiene sentido aplicar esta dócima para la hipótesis.

H0: Hay independencia entre el sexo y el tipo de retraso mental en la po-blación de donde proviene la muestra de la tabla 3.12.

Las frecuencias esperadas y demás cálculos se obtuvieron en el ejemplo 1.16, en el cálculo del del coeficiente V de Cramér.

χ2 ≈ 3,704, gl = (3 – 1)(2 – 1) = 2, P{χ2 > 3,704} ≈ 0,1569Decisión: Como 0,1569 no es menor que 0,05 no rechazamos H0 con un

nivel de significación de 0,05. Sobre la base de estos datos no se puede afirmar que el tipo de retraso mental según las tres clasificaciones de la tabla 3.13 depende del sexo.

Además, y por tanto la región crítica vendrá dada por χ2 > 5,99 y como 3,704 no es mayor que 5,99 no se rechaza H0 con nivel de significación de 0,05.

En el caso particular de tablas de contingencia de dos filas por dos columnas como esta:

A B

C D

Como se vio al tratar el coeficiente de correlación V de Cramér, el estadígra-fo ji cuadrado se puede expresar en función de las frecuencias A, B, C y D:

Bioestadística cualitativa.indd 102 25/06/2010 12:20:11 p.m.

Page 113: Bi o e s ta d í s t i c a

103

Ejemplo 3.15:

Agrupando los clasificados con retraso ligero y moderado se obtiene de la tabla 3.12 la tabla 3.14. Veerifique si hay independencia entre el sexo y la clasificación según el grado de retraso mental en la población de donde pro-vienen estos datos.

Tabla 3.14. Datos del ejemplo 3.15

Frecuencias observadas

masculino femenino Total

L y M 16 16 32

S y G 14 4 8

Total 30 20 50

Hipótesis:H0: Hay independencia entre el sexo y el tipo de retraso mental en la po-

blación de donde proviene la muestra de la tabla 3.15. Solución: A = 16, B = 16, C = 14 y D = 4 entonces n = A + B + C + D = 50,

y por tanto: (AD – BC)2 = (64 – 224) =1602 = 25 600 (A + B)(A + C)(C + D)(B + D) = 32(30)18(20) = 345 600

gl = (2 – 1)(2 – 1) = 1, P{χ2 > 3,70} ≈ 0,054412

Desición: Como 0,054412 no es menor que 0,05 no se rechaza la hipótesis H0 con nivel de significación de 0,05. Sobre la base de estos datos no se puede afirmar que no hay ndependencia entre el sexo y la clasificación según el tipo de retraso mental en severo o grave y ligero o moderado.

Corrección por continuidad de Yates

Para esta dócima también es válida la corrección por continuidad de Yates, explicada en la dócima ji cuadrado de bondad de ajuste, y en particular es útil en las tablas de contingencia de 2 x 2, en los casos en que el valor de el estadígrafo está muy próximo a la región crítica o la probabilidad crítica muy próxima al nivel de significación. La fórmula de χ2 corregida viene dada por:

Los software estadísticos actuales a menudo brindan esta corrección.

Bioestadística cualitativa.indd 103 25/06/2010 12:20:11 p.m.

Page 114: Bi o e s ta d í s t i c a

104

2. Dócima ji cuadrado de homogeneidad

La dócima de independencia se puede utilizar también, con las mismas notaciones, para decidir acerca de la homogeneidad o igualdad de c proporcio-nes o frecuencias en r clasificaciones, esto es si hay homogeneidad entre las filas o entre las columnas de la tabla. Los cálculos son los mismos, aunque las hipótesis son otras. Vea la observación que aparece después del ejemplo 3.15.

Ejemplo 3.16:

En una prueba realizada al final de un experimento a tres grupos (mues-tras) de alumnos de medicina en el cual se evaluaron los estudiantes en cinco asignaturas del semestre. Los resultados muestran las cantidades de aprobados en las distintas asignaturas y aparecen en la tabla 3.15. Se desea saber si hay homogeneidad entre las poblaciones de donde provienen los grupos en cuanto a las cantidades de aprobados en las distintas asignaturas.

Tabla 3.15. Datos del ejemplo 3.15

AsignaturaNúmero de aprobados

TotalGrupo 1 Grupo 2 Grupo 3

1 20 18 20 582 17 16 14 473 13 12 8 334 11 9 7 275 11 10 15 36

Total 72 65 64 201

Para resolver el problema, inicicialmente se plantean las hipótesis:H0: No hay diferencia entre las poblaciones de donde provienen las muestras

aleatorias de los grupos en cuanto a las cantidades de aprobados en las cinco asignaturas

H1: Si la hay.En la tabla 3.16 se ofrecen las frecuencias esperadas necesarias para evaluar

el estadígrafo.

Tabla 3.16. Frecuencias esperadas

Asignatura Grupo 1 Grupo 2 Grupo 2 Total1 20,78 18,76 18,47 582 16,84 15,20 14,97 473 11,82 10,67 10,51 334 9,67 8,73 8,60 275 12,90 11,64 11,46 36

Total 72 65 64 201

Bioestadística cualitativa.indd 104 25/06/2010 12:20:11 p.m.

Page 115: Bi o e s ta d í s t i c a

105

χ2 = 3,263 gl = 8, P{χ2 > 3,263} ≈ 0,9168Decisión: Como 0,9168 no es menor que 0,05, no se rechaza H0 con nivel

de significación de 0,05. Sobre la base de estos datos no se puede afirmar que hay diferencia entre las poblaciones en las evaluaciones de las cinco asignaturas.

Además, y entonces la región críticas viene dada por: χ2 > 15,5, y como 3,263 no es mayor que 15,5 no se rechaza H0 con nivel de significación de 0,05.

Alternativas de estas dócimas ji cuadrado son las de proporciones ya estu-diadas y la de probabilidad exacta de Fisher.

Observación: La dócima de homogeneidad no es exactamente igual a la de independencia, aunque la tabla de contingencia, los cálculos necesarios para obtener el estadígrafo y la región crítica sean los mismos, como se ha podido apreciar en el ejemplo. Se diferencian en las suposiciones de partida y en lo siguiente:

1. En la dócima de independencia se consideran dos variables (poblaciones) fila y columna representando cada una un factor con r y c niveles respectivamente, y en la de homogeneidad r poblaciones (variables X1, X2,..., Xr) de donde proceden las distintas filas de la tabla, cada una de las cuales representa una muestra aleatoria (o bien c poblaciones, variables X1, X2,..., Xc, de donde proceden las distintas columnas de la tabla, cada una de las cuales representa una muestra aleatoria

2. Las hipótesis en la de independencia son H0: hay independencia entre los niveles de los factores y en la de homogeneidad; H0: las r proporciones poblaciones de donde proceden las muestras-filas son homogéneas, o bien, H0: las c proporciones poblaciones de donde proceden las muestras-columnas son homogéneas.

3. Las estimaciones de las frecuencias esperadas para el cálculo del estadígrafo dependen de las hipótesis que como se verá a continuación, son diferentes. En la de independencia son las descritas anterirmente, al tratar esta dócima, y en la de homogeneidad de las columnas se parte de que la estimación de las proporciones poblacionales son las frecuencias marginales de la variable fila divididas por el total general de la tabla, que multiplicadas por el total de columna correspondiente proporciona, en cada caso, como se verá más adelante, el mismo estimador

n

nn ji •• que en la de dócima de independencia.

Por ejemplo en la tabla 3.16, bajo la hipótesis H0: las poblaciones de donde proceden las muestras de los grupos experimentales son homogéneas y consi-derando las tres columnas tres muestras aleatorias de la misma población o de poblaciones homogéneas, bajo H0, la mejor estimación de la proporción pobla-

Bioestadística cualitativa.indd 105 25/06/2010 12:20:12 p.m.

Page 116: Bi o e s ta d í s t i c a

106

cional combinada de los aprobados en la asignatura 1 (fila 1) es y,

puesto que las tres poblaciones son homogéneas, esta proporción se puede in-terpretar como si se aplicara a cada una de las tres poblaciones individualmente. Así, bajo H0, es la mejor estimación de la probabilidad de que un estudiante

elegido aleatoriamente de entre los que se han evaluado en las cinco asignaturas

haya aprobado la asignatura 1, y se esperaría encontrar que

del grupo 1 aprobaron la asignatura 1. Análogamente se puede esperar que

alumnos del grupo 2 y del grupo 3

aprueben la asignatura 1. Con lo anterior se llena la primera fila de la tabla de frecuencias esperadas,

repitiendo el proceso con la mejor estimación de la proporción poblacional

combinada de los aprobados en la asignatura 2 que, bajo H0, es ,

se obtendría la segunda fila y luego la tercera, cuarta y quinta hasta completar la tabla 3.16, final de frecuencias esperadas.

Como se habrá podido observar, este razonamiento difiere, en cuanto al procedimiento de obtención de las frecuencias esperadas aplicado en la dócima ji cuadrado de independencia.

Problema propuesto 3.6:

Construya una tabla de frecuencias observadas con tres categorías, digamos la 1-2, la 3-4 y la 5-6 para la variable EV1 y analice la posibilidad de probar la independencia del sexo con la clasificación de EV1 en esa forma y también verifique la hipótesis de homogeneidad entre los dos sexos. Calcule además el coeficiente V de Cramér entre estas dos variables y decida si hay o no correla-ción entre ellas en la población.

3.2.3. Dócima de significación para el coeficiente de correlación V de Cramér

La dócima ji cuadrado de independencia en tablas de contingencia tratada antes representa una prueba de significación para el coeficiente de correlación V de Cramér.

Hipótesis: H0: son independientes las dos variables en escalas nominales X e Y.

La decisión será la de:

Bioestadística cualitativa.indd 106 25/06/2010 12:20:12 p.m.

Page 117: Bi o e s ta d í s t i c a

107

1. Rechazar la hipótesis H0: V = 0 si en la dócima χ2 se rechaza la hipótesis de independencia.

2. No rechazar H0: V = 0 si en la dócima χ2 no se rechaza la hipótesis de independencia.

Ejemplo 3.17:

Decida si hay correlación según el coeficiente V de Cramér entre el sexo y la variable EV1 con los valores A, B y C (haciendole corresponder a los valores 1 y 2 de EV1 la A, al 3 y 4 la B y al 5 y 6 la C) en la población los 50 individuos de la matriz de DatosM2 de la tabla 1.3. En distribución bivariada de frecuencias de la tabla 3.17 se brindan los datos necesarios.

Tabla 3. 17. Datos del ejemplo 3.17

Frecuencias observadas

Masculino Femenino Total

A 3 7 10

B 7 13 20

C 10 10 20

Total 20 30 50

Primeramente se plantean las hipótesis:

H0: No hay correlación poblacional entre el sexo y el grado de retraso mental recodificado a tres valores.

H1: Hay correlación poblacional entre el sexo y el grado de retraso mental recodificado a tres valores.

El estadígrafo es el ji cuadrado de independencias en tablas de contingencia, que se requiere también para el cálculo de V.

Para que tenga sentido aplicar la dócima ji cuadrado de independencia en tablas de contingencia, primeramente hay que comprobar las condiciones y para ello se calculan, en la tabla 3.18, las frecuencias esperadas.

Tabla 3.18. Frecuencias esperadas

EV1 Masculino Femenino TotalA 4 6 10B 8 12 20C 8 12 20

Total 20 30 50

Para finalmente obtener:

Bioestadística cualitativa.indd 107 25/06/2010 12:20:12 p.m.

Page 118: Bi o e s ta d í s t i c a

108

χ2 ≈ 1,4583,

P{χ2 > 1,4583} ≈ 0,48231 Como 0,48231 no es menor que 0,05 no se rechaza la hipótesis de inde-

pendencia de la dócima ji cuadrado y como consecuencia de esto también H0 con nivel de significación de 0,05, por tanto, sobre la base de estos datos no se puede afirmar que haya correlación (V de Cramér), en la población, entre el sexo y el EV1 recodificado a los tres valores A, B y C.

Problema propuesto 3.7:

Resuelva el ejemplo 3.17 con la escala de variable EV2 de la matriz de DatosM2 de la tabla 1.3.

3.2.4. Dócima de la probabilidad exacta de Fisher

Es útil para docimar independencia u homogeneidad en tablas de contin-gencia de 2 x 2. Las hipótesis son las mismas de las correspondientes dócimas ji cuadrado.

Constituye una alternativa de la dócima ji cuadrado de tablas de contingencia cuando las frecuencias esperadas no cumplen las condiciones de ser ninguna menor que 1 y no más del 20 % menores que 5.

En la tabla 3.19 se muestra un modelo de tabla de contingencia de 2 x 2.

Tabla 3.19. Tabla de bivariada de frecuencias de 2 x 2

Columna 1 Columna 2 TotalFila 1 A B A + BFila 2 C D C + D

A + C B + D N

La probabilidad de observar esta distribución de entre todas las posibles distribuciones de A, B, C y D con los totales marginales (A + C, B + D, A + B y C + D) fijos se puede considerar igual a P{X = A} donde X es una la variable aleatoria que registra la frecuencia absoluta o número de individuos en la celda de la intersección de la columna 1 con la fila 1 de la tabla.

Se interpretará que los individuos A + B de la fila 1 constituyen la mues-tra aleatoria, sin reposición, de tamaño n = A + B de la población de tamaño N = A + B + C + D. La columna 1 la constituirán los A + C individuos de la población que poseen la característica T, en cuestión, su número es M = A + C que, que en ocasiones se denomina número de posibles de ocurrencias. A será, entonces, igual al número de individuos de la muestra que poseen la característica T.

Bioestadística cualitativa.indd 108 25/06/2010 12:20:12 p.m.

Page 119: Bi o e s ta d í s t i c a

109

El experimento modelo de la variable aleatoria X es el de extraer una muestra simple aleatoria de tamaño n de una población de tamaño N en que M elementos poseen la característica T, el resto N – M = B + D no la poseen, y nos interesa la probabilidad de que A elementos de la muestra la posean. Semejante variable aleatoria posee una distribución de probabilidades llamada hipergeométrica con parámetros N, M y n. En tal caso se tiene que:

{ } ( ) ( ) ( )( )N!A!B!C!D!

!DB!CA!DC!BA

BA

N

AN

MN

A

M

AXP++++=

+

−−

==

Donde , k! = k(k – 1)(k – 2) ... 1 y 0! = 1, para todo

par de números naturales n y k.En las dócimas de independencia y homogeneidad ji cuadrado, bajo la

hipótesis nula H0, los totales marginales permanecen invariables, con ellos se calculan las frecuencias esperadas. Entonces para la prueba de Fisher bastará intercambiar filas, columnas o realizar ambas operaciones hasta lograr hacer coincidir la menor de las frecuencias de las cuatro celdas con A. sin que se altere el contenido total de la tabla, y entonces calcular P{X < A} utilizando la distribución hipergeométrica de X, y si resulta menor que α se rechazará H0 con nivel de confianza igual a α.

De modo que la tabla final para realizar la prueba será:

A B

C D

Y los valores de A, B, C y D son los finalmente obtenidos, o sea, tales que A es la menor de las cuatro frecuencias A, B, C y D. Los clasificacion según los encabezamientos de filas y columnas originales deben quedar inalteradas con estos intercambios de filas y columna2s, se intercambiarán las filas y columnas junto con sus encabezamientos y se mantendran las sumas marginales.

Entonces la regla de decisión será rechazar H0 si: P{X ≤ A} < α en dócimas de una cola. P{X ≤ A} < en dócimas de dos colas.

Ejemplo 3.18:

Se quiere verificar si en una población de personal médico los dos sexos di-fieren en cuanto al modo de enfrentar la gripe (racionalmente e irracionalmente)

Bioestadística cualitativa.indd 109 25/06/2010 12:20:13 p.m.

Page 120: Bi o e s ta d í s t i c a

110

cuando la padecen ellos mismos, o bien si hay o no independencia entre el sexo y el modo de enfrentar la gripe cuando ellos mismos la padecen. Se cuenta con las frecuencias de los modos de abordar la gripe en la muestra aleatoria de la población que se muestran en la tabla 3.20.

Tabla 3.20. Datos del ejemplo 3.18

Masculino FemeninoRacionalmente 4 8

Irracionalmente 6 2

H0: Hay independencia entre el sexo y el modo de enfrentar la gripe en la población de personal médico de donde procede la muestra.

Intercambiando primero las filas y después las columnas, obtenemos la tabla 3.21, con la menor frecuencia (2) en la celda superior izquierda.

Tabla 3.21. Frecuencia menor en la primera celda

Femenino MasculinoIrracionalmente 2 6Racionalmente 8 4

Utilizando un nivel de significación α = 0,05 y A = 2:

P{X < A} ≈ 0,00988 según la tabla 3.22.

Tabla 3.22. Distribución de probabilidades hipergeométricas con parámetros 20, 10 y 8

k P{Y=k} P{Y ≤ k}0 0,000357 0,000361 0,009526 0,0098862 0,075018 0,0849043 0,240057 0,3249614 0,350083 0,6750445 0,240057 0,9151016 0,075018 0,9901197 0,009526 0,9996458 0,000357 1,000002

Como P{X < 2} ≈ 0,00988 < 0,025 se rechaza H0 con nivel de significación de 0,05. Sobre la base de estos datos se puede afirmar que no hay independen-cia entre el sexo y el modo de enfrentar la gripe cuando ellos la sufren en la población de donde procede la muestra.

En la tabla 3.22 aparece la distribución de probabilidades (de una variable aleatoria Y con distribución hipergeométrica con parámetros

Bioestadística cualitativa.indd 110 25/06/2010 12:20:13 p.m.

Page 121: Bi o e s ta d í s t i c a

111

N = A + B + C + D = 20, M = A + C = 10 y n = A + B = 8, con los casos de interés indicados.

Decisión: Como para dócimas de una cola P{X < 2} ≈ 0,009886 < 0,05 (tabla 3.22), se rechazaría H0 con nivel de significación de 0,05.

El valor observado de P{X < 8} ≈ 1,000002 en la tabla 3.22 se debe a las aproximaciones de los acumulados anteriores de la columna.

Problema propuesto 3.8:

Decida si el modo en que realizan una actividad laboral es independiente en los enfermeros y las enfermeras a partir de muestras aleatorias de 10 enfer-meros y 11 enfermeras con los que se construye la distribución de frecuencias bivariadas y la tabla de contingencia (tabla 3.23).

Tabla 3.23. Datos del problema propuesto 3.8

Satisfactoriamente No satisfactoriamenteEnfermeros 3 7Enfermeras 2 9

3.2.5. Dócimas de McNemar

Esta es una dócima ji cuadrado apropiada para decidir si hay o no diferencia entre dos poblaciones a partir de dos muestras apareadas en escalas dicotómicas (que incluyen el caso de los experimentos de antes y después en los que cada individuo o elemento de la muestra está apareado consigo mismo, o sea, es usado como su propio control). Se utilizará para verificar si hay o no cambios después, respecto a lo acontecido antes.

Exige construir con los datos una tabla de contingencia de 2 x 2 con el formato de la tabla 3.24.

Las celdas de cambio, de 0 a 1 y de 1 a 0 se van a considerar las de la dia-gonal principal, estas seran A y D. Las hipótesis a docimar son las siguientes:

H0: P10 = P01 contra H1: P10 ≠ P01

Tabla 3.24. Formato de una tabla de contingencia 2 x 2

Después1 0

Antes0 A B1 C D

Significa que la probabilidad de 0 antes y 1 después es igual a la de 1 antes y 0 después, o también que la proporción de los que cambiaron en un sentido es la misma que los que cambiaron en el otro sentido.

Bioestadística cualitativa.indd 111 25/06/2010 12:20:13 p.m.

Page 122: Bi o e s ta d í s t i c a

112

El estadígrafo utilizado es:

DA

DA

+−=χ

22 )(

Bajo H0, este estadígrafo tiene aproximadamente distribución ji cuadrado

con 1 grado de libertad y se obtiene del estadígrafo χ2 de la dócima de indepen-dencia en tablas de contingencia de 2 x 2 con la suma extendida a sólo las dos celdas diagonales, las de cambio, cuyas frecuencias se denotaron por A y D.

Según lo planteado, para las tablas de contingencia de 2 x 2, por lo general se obtienen mejores resultados utilizando la corrección por continuidad de Yates, con la cual la expresión del estadígrafo resulta igual a:

Ejemplo 3.19:

Un psiquiatra ha observado el comportamiento de los niños con retraso mental antes y después de la realización de un conjunto de actividades que él supone que los hará cambiar. Con la finalidad de comprobar su hipótesis, se escogen aleatoriamente 29 de los niños con retraso mental, se someten a este tratamiento y se clasifican, de acuerdo con su comportamiento en malo y aceptable tanto antes como después de realizar el conjunto de actividades. Los resultados aparecen en la tabla 3.25.

Tabla 3.25. Datos del ejemplo 3.19

Después

AntesAceptable Malo

Malo 5 13Aceptable 4 7

Hipótesis: H0: La realización del conjunto de actividades no los hará cambiar.H1: La realización del conjunto de actividades los hará cambiar.Estadígrafo:

P{χ2 > 0,75} ≈ 0,38648

Además, y por tanto la región crítica vendrá dada por χ2 > 3,84.Decisión: Como 0,38648 no es menor que 0,05 (también por no ser 0,75

mayor que 3,84) no se rechaza H0 con nivel de significación de 0,05. Sobre la base de estos datos no se puede afirmar que la realización del conjunto de actividades los hará cambiar.

Bioestadística cualitativa.indd 112 25/06/2010 12:20:13 p.m.

Page 123: Bi o e s ta d í s t i c a

113

Observaciones:1. Si la disposición de las frecuencias A, B, C y D no es la indicada no habrá

lugar a dudas siempre que A y D indiquen las frecuencias de cambio de 0 antes a 1 después y de 1 antes a 0 después, respectivamente. En algún software se admite que las celdas de cambio sean las de la otra diagonal, la de las celdas B y C.

2. Para garantizar una buena aproximación de la distribución del estadígrafo a la distribución ji cuadrado, son válidos los requisitos de las anteriores dócimas ji cuadrado respecto a la frecuencia esperada

2

DA + , que es la

única. Una alternativa cuando esta sea menor que cinco está en utilizar la dócima binomial, planteando las hipótesis:

H0: P = 0,5 contra H1: P ≠ 0,5 siendo

DA

Ap

+= la proporción muestral y n = A + D.

En el ejemplo anterior 5 + 7 = 12 y .

3. Una demostración de la analogía de este estadígrafo con el de las dócimas de independencia y homogeneidad se obtiene expresándolo en función de las frecuencias observadas oij y las esperadas eij:

( ) ( ) ( )22

22222

11

21111

22

2

2

2

2

2

e

eo

e

eoDA

DAD

DA

DAA

DA

DA −+

−=

+

+−

++

+−

=+

Que es la suma de los cuadrados de las diferencias entre las frecuencias observadas y esperadas de las celdas correspondientes a A y D divididas entre las correspondientes frecuencias esperadas, a semejanza del anterior estadígrafo ji cuadrado de la tabla de contingencia.

Problema propuesto 3.9:

Se desea saber si hay cambios en el coeficiente de inteligencia CI por encima de 50 en la segunda medición respecto a la primera (variables CI2 y CI1) de los niños de la población de donde proviene la matriz de DatosM2 de la tabla 1.3. La tabla 3.26 se conformó con los datos originales.

Tabla 3.26. Datos del problema propuesto 3.9

Después

Antes ≤ 50 >50

> 50 22 6

≤ 50 12 10

Bioestadística cualitativa.indd 113 25/06/2010 12:20:14 p.m.

Page 124: Bi o e s ta d í s t i c a

114

3.2.6. Extensión de la dócima de McNemar

La dócima de McNemar que se acaba de estudiar se puede extender a tablas de k por k para las hipótesis:

H0: Pij = Pji para i, j = 1, 2,..., k

O sea, las frecuencias poblacionales son iguales en las celdas situadas simétricamente.

El estadígrafo para este caso es:

aproximadamente bajo H0.

Ejemplo 3.20:

Se observan las calificaciones de una muestra aleatoria de 127 residentes de un área de salud antes y después de una serie de conferencias sobre su es-pecialidad médica y se obtienen los resultados de la tabla 3.27.

Tabla 3.27. Calificaciones de los residentes del ejemplo 3.20

DespuésAntes Mal Regular Bien ExcelenteMal 10 13 15 4

Regular 9 12 10 5Bien 6 9 6 3

Excelente 7 10 5 3

¿Se puede afirmar que en esta universidad el número de residentes que cambian de una calificación (celda) i, antes de la serie de conferencias, para otra calificación j de la tabla, después de la serie de conferencias, es igual al de los que cambian de la calificación j para la calificación i, y esto es válido para todo i = 1, 2, 3, 4 y j = 1, 2, 3, 4.

Para resolver este problema se plantean las hipótesis:

H0: El número de estudiantes que cambian de una calificación i para otra calificación j es igual al de los que cambian de j para i, siendo i = 1, 2, 3, 4 y j = 1, 2, 3, 4.

H1: No se cumple H0.

Estadígrafo:

Bioestadística cualitativa.indd 114 25/06/2010 12:20:14 p.m.

Page 125: Bi o e s ta d í s t i c a

115

Región crítica:

Decisión: Como 4,16 no es mayor que 7,81 no se rechaza H0 con nivel de significación 0,05. Sobre la base de estos datos muestrales no se puede afir-mar que haya cambios en la población de residentes con motivo de la serie de conferencias.

Calculando P{χ2 > 4,16} ≈ 0,2447 por lo que el resultado es el mismo, no se rechazará H0 con nivel de significación de 0,05.

Dócima para el coeficiente de correlación punto biserial

El coeficiente punto biserial es preferible al V de Cramér porque aprovecha mayor información de la variable en escala de intervalo o razón. Por esto se brinda una tabla de significación para él, que permite conformar una dócima.

Ejemplo 3.21:

Verifique si hay correlación entre las variables sexo y el coeficiente de inteligencia (CI3) en la población de donde procede la muestra aleatoria de la tabla 1.3, matriz de DatosM2.

Solución: Como sexo es una variable dicotómica y CI3, coeficiente de inteligencia 3, está en escala de intervalo la correlación apropiada en cuestión es la punto biserial.

Hipótesis: H0: R·bis = 0 contra H1: R·bis ≠ 0 Estadígrafo:

Proporciones de los varones y las hembras p = 0,6 y q = 0,4, respectiva-mente.

Medias de los varones y las hembras: 44,913 y 39,985, respectivamente.Desviación estándar de Y: 10,796; r.bis = –0,224; n = 50.Región crítica: r·bis > 0,273, valor crítico obtenido para α = 0,05, en la

tabla 1.45. Decisión: Como –0,224 no es mayor que 0,273 no se rechaza H0 con

nivel de significación de 0,05. Sobre la base de estos datos no puede afirmar-se que haya correlación entre el sexo y la el coeficiente de inteligencia (CI3) poblacionales.

Problema propuesto 3.10:

Verifique si hay correlación entre las variables sexo y CI2 en la población de donde proviene la matriz de DatosM2 de la tabla 1.3.

Bioestadística cualitativa.indd 115 25/06/2010 12:20:14 p.m.

Page 126: Bi o e s ta d í s t i c a

116

3.3. Dócimas para más de dos poblaciones

Las pruebas de más de dos poblaciones tres o más medias por analogía con la correspondiente prueba de más de dos medias llamadas análisis de varianza (ANOVA), también en cierta medida se han apropiado de este término y se oye a menudo hablar de los ANOVA de Friedman, Kruskal-Wallis. Pero cuando se habla de ANOVA sin apellido se refiere al ANOVA paramétrico, cuya deno-minación proviene del estadígrafo que se obtiene de la descomposición de la varianza en varianza entre grupos y dentro de los grupos.

3.3.1. El ANOVA de razón de varianza

Permite decidir si las proporciones de tres o más poblaciones son iguales o no. Exige muestras aleatorias independientes en escala nominal.

Sea k el número de poblaciones y P1, P2,..., Pk las proporciones poblacio-nales de individuos que poseen la característica A.

Hipótesis: H0: P1 = P2 = ... = Pk contra H1: Al menos dos de estas propor-ciones difieren.

Estadígrafo:

Donde:n1, n2,..., nk: son los tamaños de las k muestras.mi: la frecuencia de individuos con la característica A en la muestra de

tamaño ni, para i = 1, 2,..., k.

∑=

=k

iinn

1, ∑

==

k

iimm

1,

n

mp = y pq −= 1

Donde p es la proporción de la muestra conjunta.Región crítica: V > V1 – α (k – 1)En en la tabla 3.28 se ofrecen los valores de V1 – α (k – 1), para algunos

valores comunes de k y de 1– α.

Tabla 3.28. Percentiles de V

k – 1 0,95 0,99 k – 1 0,95 0,99 k – 1 0,95 0,991 3,84 6,63 8 1,94 2,51 40 1,46 1,70

2 3,00 4,60 10 1,88 2,41 50 1,39 1,59

3 2,60 3,78 12 1,83 2,32 60 1,35 1,52

4 2,37 3,32 16 1,75 2,18 70 1,32 1,47

Bioestadística cualitativa.indd 116 25/06/2010 12:20:15 p.m.

Page 127: Bi o e s ta d í s t i c a

117

5 2,21 3,02 20 1,64 1,99 75 1,28 1,41

6 2,09 2,80 24 1,57 1,88 100 1,24 1,36

7 2,01 2,64 30 1,52 1,79 ∞ 1,00 1,00

Las columnas de la tabla aparecen encabezadas por el número de muestras menos uno (k – 1) y los números con decimales que corresponden a los valores de 1 – α.

Ejemplo 3.22:

Entre los 14 niños de la raza blanca de la matriz de DatosM2 de la tabla 1.3 hay 9 varones, entre los 14 de la raza negra hay 7 y entre los 22 de otras razas hay 14 y se desea verificar si hay o no diferencias entre las proporciones de varones en estas tres razas. Utilice un nivel de significación de 0,01.

Hipótesis: H0: p1 = p2 = ... = pk. H1: Algún par de proporciones difiere.n1 = 14, n2 = 14, n3 = 22, m1 = 9, m2 = 7, m3 = 14, n = 50, m = 30

Región crítica: V > V1 – α (k – 1) = V0,99(3) ≈ 3,78Decisión: Como 0,4058 no es menor que 3,78, no cae en la región crítica no

se rechaza H0 con nivel de significación de 0,01. Sobre la base de estos datos no se puede afirmar que haya diferencia entre las proporciones de varones en los niños de las tres razas consideradas.

Para muestras grandes, en los casos que no pueda utilizarse la tabla 3.28, puede aplicarse el estadígrafo transformado con distribución aproximadamente ji cuadrado con k – 1 grados de libertad:

21

0

2menteaproximada

bajo)1( −χ−=χ k

HVk ~

Donde V es el estadígrafo del ejemplo 3.22.Bajo H0 la distribución de este estadígrafo es ji cuadrado con k – 1 grados

de libertad y por tanto la región crítica vendrá dada por )1(21

2 −χ>χ α− k .Para los datos del ejemplo anterior, suponiendo que se cumplen las con-

diciones 99,5)1(21

2 ≈−χ>χ α− k , χ2 = 2(0,4058) = 0,8116 que no es mayor que 5,99, P{χ2 > 0,8116} ≈ 0,666443 y por tanto la decisión es la misma, no se rechaza la hipótesis nula con nivel de significación de 0,05. Sobre la base de estos datos no hay elementos suficientes para afirmar que haya diferencias en las proporciones poblacionales. Se aplico esta transformación como ejemplo para simplificar los cálculos pero siempre que se pueda aplicar el ANOVA

Bioestadística cualitativa.indd 117 25/06/2010 12:20:15 p.m.

Page 128: Bi o e s ta d í s t i c a

118

de razón de varianzas de la tabla 3.28 no se utilizará esta aproximación para muestras grandes.

Problema propuesto 3.11:

Verifique si hay diferencias entre las proporciones de niños con retrazo mental de cada una de las categorías ligera, moderada, severa y grave de la matriz de DatosM2 de la tabla 1.3.

3.3.2. El análisis de varianza Q de Cochran

Permite comparar tres o más proporciones poblacionales a partir de muestras igualadas y en escalas dicotómicas.

Hipótesis: H0: Las k proporciones son iguales.H1: Al menos dos proporciones difieren.

Estadígrafo:

( )2

1

0

1

2

1

2

11

2

menteaproximada

bajo

1

==

==χ

−−

=∑∑

∑∑kn

jj

n

jj

k

ii

k

ii

HFFk

cckk

Q ~

Se obtiene disponiendo los datos en una tabla con k columnas y n filas, tal que en la intersección de la fila j con la columna i se encuentra el j-ésimo puntaje de la i-ésima muestra.

Para i = 1, 2,..., k y j = 1, 2,..., nCi: es la suma de los puntajes de la i-ésima columna de la tabla.Fj: es la suma de los puntajes de la j-ésima fila de la tabla. Región crítica: ( )12

1 −χ> α− kQ percentil de orden 1 – α de la distribución ji cuadrado con k – 1 grados de libertad.

Ejemplo 3.23:

Se desea tomar una decisión respecto a si hay diferencias o no entre los resultados de la aplicación de tres tratamientos contra el dengue hemorrágico, para lo cual se cuenta con tres muestras aleatorias igualadas, una para cada tratamiento, obtenidas después de seleccionar 20 ternas igualadas de pacientes, asignando aleatoriamente cada uno de los tres pacientes de una terna a uno de los tres tratamientos. Luego se registraron los efectos de cada tratamiento con la notación siguiente:

Notación: T1: indica el tratamiento 1.

Bioestadística cualitativa.indd 118 25/06/2010 12:20:15 p.m.

Page 129: Bi o e s ta d í s t i c a

119

T2: indica el tratamiento 2. T3: indica el tratamiento 3.1: indica de se recuperó en una semana. 0: no se recuperó en una semana.

En la tabla 3.29 aparecen los datos.

Tabla 3.29. Modelo de disposición de los datos para la prueba Q de Cochran

Terna T1 T2 T3 F F2

1 1 1 1 3 92 0 1 1 2 43 0 0 0 0 04 1 1 0 2 45 0 1 0 1 16 0 0 0 0 07 1 0 0 1 18 1 1 0 2 49 1 1 0 2 4

10 0 1 0 1 111 1 0 0 1 112 0 0 0 0 013 1 1 1 3 914 1 1 1 3 915 1 1 0 2 416 1 1 0 2 417 1 1 0 2 418 1 1 1 3 919 1 1 0 2 420 1 1 0 2 4C 14 15 5 34 76C2 196 225 25 446

Para resolverlo se plantean primeramente las hipótesis:H0: No hay diferencia entre las probabilidades de restablecimiento al cabo

de una semana entre las poblaciones de donde proceden las tres muestras.H1: Estas probabilidades difieren.

tomando α = 0,05

P{χ2 > 14} ≈ 0,000913

Bioestadística cualitativa.indd 119 25/06/2010 12:20:15 p.m.

Page 130: Bi o e s ta d í s t i c a

120

Decisión: Como 0,000913 < 0,05 se rechaza H0 con nivel de significación de 0,05 (y también de 0,000914). Sobre la base de estos datos se puede afirmar que las probabilidades restablecimiento al cabo de una semana difieren en los pacientes tratados con los tres distintos tratamientos.

Además, y por tanto: Región crítica: χ2 > 5,99 y como el valor 14, del estadígrafo, cae en esta

región crítica la decisión es la de rechazar H0 con nivel de significación de 0,05, la obtenida antes.

Problema propuesto 3.12:

Considere las poblaciones de niños clasificados según la escala de Vineland como normales (valores 1 y 2) con el valor 0 y los clasificados con valores pa-tológicos (3, 4, 5 y 6) con el valor 1 y verifique si no hay diferencias entre los clasificados con valores patológicos en las poblaciones de donde proceden las tres muestras representadas por los valores de las variables EV1, EV2 y EV3.

Bioestadística cualitativa.indd 120 25/06/2010 12:20:15 p.m.

Page 131: Bi o e s ta d í s t i c a

121

Capítulo 4

Dócimas para muestras en escalas ordinales

4.1. Dócimas para una población

4.1.1. Dócima de bondad de ajuste de Kolmogórov‑Smírnov

Permite decidir si la distribución de una población es una distribución su-puesta hipotéticamente a partir de una muestra aleatoria en escala ordinal.

Hipótesis:H0: La distribución poblacional es la supuesta.H1: La distribución poblacional no es la supuesta.

Estadígrafo:D: diferencia máxima absoluta entre las frecuencias acumulativas relativas

observadas y esperadas.Región crítica: D > D1 – α(n)El valor crítico D1 – α(n) se encuentra a en la tabla 4.1.Esta dócima utiliza más información que la ji cuadrado correspondiente y

no presenta exigencias a las frecuencias esperadas, pero exige más respecto a las diferencias admisibles que la dócima ji cuadrado de bondad de ajuste.

Tabla 4.1. Percentiles del estadígrafo D de la prueba de una población de Kolmogórov-Smírnov

n 0,90 0,95 0,99 n 0,90 0,95 0,993 0,636 0,708 0,829 12 0,338 0,375 0,4494 0,565 0,624 0,734 13 0,325 0,361 0,4325 0,509 0,563 0,669 14 0,314 0,349 0,4186 0,468 0,519 0,617 15 0,304 0,338 0,4047 0,436 0,483 0,576 16 0,295 0,327 0,3928 0,410 0,454 0,542 17 0,286 0,318 0,3819 0,378 0,430 0,513 18 0,279 0,309 0,37110 0,369 0,457 0,486 19 0,271 0,301 0,36111 0,352 0,391 0,468 20 0,265 0,294 0,352

Bioestadística cualitativa.indd 121 25/06/2010 12:20:16 p.m.

Page 132: Bi o e s ta d í s t i c a

122

21 0,259 0,287 0,344 50 0,170 0,188 0,226

22 0,253 0,281 0,337 55 0,162 0,180 0,216

23 0,247 0,275 0,307 60 0,155 0,172 0,207

24 0,242 0,269 0,323 65 0,149 0,166 0,199

25 0,238 0,264 0,317 70 0,144 0,160 0,192

26 0,233 0,259 0,311 75 0,139 0,154 0,185

27 0,229 0,254 0,305 80 0,135 0,150 0,179

28 0,225 0,250 0,300 85 0,131 0,145 0,174

29 0,221 0,246 0,295 90 0,127 0,141 0169

30 0,218 0,242 0,290 95 0,124 0,137 0165

35 0,202 0,224 0,269 100 0,121 0,134 0161

40 0,189 0,210 0,252 n másgrande n

22,1

45 0,179 0,198 0,238

Ejemplo 4.1:

Se desea saber si ha variado la distribución de la escala de Vineland EV1 de los niños de población de donde procede la muestra aleatoria de la matriz de DatosM2 de la tabla 1.3 respecto a la distribución dada por las frecuencias hipotéticas EV0 que se ofrece en la tabla 4.2 junto a la construida con los datos de EV1.

Tabla 4.2. Distribuciones de frecuencia de EV1 e hipotética

Clases Frecuenciaobservada

Frecuenciahipotética

1 2 3

2 8 9

3 11 14

4 9 10

5 11 8

6 9 6

La variable EV1 está en escala ordinal y para resolver el problema se pue-de utilizar entonces la dócima de Kolmogórov-Smírnov para una población. También se podría aplicar la dócima ji cuadrado de bondad de ajuste, pero ella solo utilizaría la información de las frecuencias y no la del orden, que sí utiliza esta.

Primeramente se calculan ambas distribuciones de frecuencias acumu-lativas relativas y a continuación se halla la clase con mayor diferencia D (tabla 4.3).

Bioestadística cualitativa.indd 122 25/06/2010 12:20:16 p.m.

Page 133: Bi o e s ta d í s t i c a

123

Tabla 4.3. Distribuciones acumulativas relativas observada e hipotética

ClasesFrecuencia acumulativa

relativa observada de EV1

Frecuencia acumulativarelativa esperada

de EV0

Diferencia

1 0,04 0,06 –0,02

2 0,20 0,24 –0,04

3 0,42 0,52 –0,10

4 0,60 0,72 –0,12

5 0,82 0,88 –0,06

6 0,04 0,06 –0,02

D = 0,12 (valor absoluto) y en la tabla de percentiles de esta dócima halla-mos D1 – α(n) = D0,95(50) = 0,188.

Decisión: Como D = 0,12 no es mayor que 0,188 (no cae en la región crítica) no se rechaza H0 con nivel de significación de 0,05. Sobre la base de estos datos no se puede afirmar que la distribución observada difiere de lahipotética de V0.

Problema propuesto 4.1:

Resuelva el ejemplo 4.1, pero con EV2 en lugar de EV1.

4.1.2. Dócimas de las rachas por encima y por debajo de la mediana

Las dócimas de las rachas de Wald-Wolfowitz se trataron en el epígrafe 3.1.4 para una variable en escala nominal. Ahora se tratarán de varias dócimas más específicas de rachas para una variable en escala ordinal.

En general la hipótesis nula en las dócimas de las rachas puede expresarse de la manera siguiente:

H0: Todas las posibles disposiciones de los puntajes en la secuencia consi-derada son igualmente probables.

Sus posibles alternativas son:1. H1: Presencia de cambios en la secuencia. 2. H1: Presencia de tendencia en la secuencia.3. H1: Presencia de movimientos cíclicos en la secuencia.4. H1: Alternativas paramétricas específicas.

Se llaman rachas por encima y por debajo de la mediana las dócimas en que se consideran las rachas de los puntajes muestrales que quedan por encima y las de los puntajes que quedan por debajo de la mediana de la muestra en la secuencia original de los datos.

Bioestadística cualitativa.indd 123 25/06/2010 12:20:16 p.m.

Page 134: Bi o e s ta d í s t i c a

124

Para simplificar se representarán los puntajes que son menores que la media-na por a y los mayores que la mediana por b,en una nueva variable dicotómica indicadora en al cual se encontraran las rachas de a y de b.

1. Dócima basada en el número total de rachas de los símbolos a y b

Permite docimar la hipótesis nula de que todas las posibles disposiciones de los puntajes en la secuencia original de los datos son igualmente probables en la población. Exige escala ordinal

Se puede considerar, también, en dependencia de la hipótesis alternativa, como caso particular la dócima de las rachas de Wald-Wolfowitz.

Hipótesis: H0: Todas las posibles disposiciones en la secuencia son igualmente pro-

bables.H1: Presencia de cambio, tendencia o ambos.

Estadígrafo: r : número total de rachas.Región crítica: r < rαLos valores de rα se hallan en la tabla 4.4.

Tabla 4.4. Obtención de r para la dócima basada en el total de rachas de símbolos a, b

n α = 0,01 0,05 0,103 ‑ ‑ 3(0,10 )4 3(0,028) ‑ 4(0,11 )5 3(0,008) 4(0,040) ‑6 4(0,013) 5(0,067) ‑7 5(0,025) ‑ 6(0,078)8 5(0,009) 6(0,031) 7(0,10 )9 6(0,012) 7(0,044) 8(0,11 )10 7(0,019) 8(0,051) 9(0,13 )11 7(0,007) 9(0,063) 10(0,13 )12 8(0,009) 10(0,070) 11(0,15 )13 9(0,013) 10(0,034) 11(0,081)14 10(0,015) 11(0,041) 12(0,087)15 10(0,007) 12(0,046) 13(0,097)16 11(0,009) 13(0,053) 14(0,10 )17 12(0,011) 14(0,057) 15(0,11 )18 13(0,013) 15(0,064) 16(0,12 )19 13(0,006) 15(0,034) 17(0,13 )20 14(0,007) 16(0,038) 17(0,075)

Bioestadística cualitativa.indd 124 25/06/2010 12:20:17 p.m.

Page 135: Bi o e s ta d í s t i c a

125

Ejemplo 4.2:

Verifique si la secuencia de puntajes de EdC de las niñas de la matriz de DatosM2 de la tabla 1.3, eliminando o ignorando los puntajes intermedios de los varones, como se presenta a continuación, es aleatoria.

14 16 12 7 1 14 9 15 11 618 10 5 12 9 17 13 11 7 8Según el enunciado se desea saber si esta secuencia es aleatoria o presenta

tendencia al agrupamiento.Para resolverlo primero se plantean las hipótesis:H0: Los puntajes se presentan aleatoriamente.H1: En la secuencia hay cambios o tendencia al agrupamiento.A continuación se ordenan los puntajes y se halla la mediana:1 5 6 7 7 8 9 9 10 1111 12 12 13 14 14 15 16 17 18La mediana es igual a 11. Se compara ahora cada puntaje original con la

mediana y se le hace corresponder a o b como se puede apreciar en la variable Asignación del listado siguiente, según sea menor o mayor, respectivamente que 11. Optamos por ignorar los iguales a 11, con lo que se reduce la muestra en dos unidades y entonces n = 18.

Dato original Asignación No. de racha14 b16 b 112 b7 a 21 a14 b 39 a 415 b 5116 a 618 b 710 a 85 a12 b 99 a 1017 b 1113 b117 a 128 a

Bioestadística cualitativa.indd 125 25/06/2010 12:20:17 p.m.

Page 136: Bi o e s ta d í s t i c a

126

Estadígrafo: r = 12 Región crítica: r < rαEn la tabla 4.4, para n = 18 se encuentra que 0,013 < α < 0,064 que cor-

responden a los valores de r de 13 y 15 respectivamente, que acompañan a los valores 0,01 y 0,05 de α. Teniendo en cuenta todo esto se toma el valor intermedio r0,05 ≈ 14,5 (interpolando aproximadamente).

Decisión: Como r = 12 cae en la región crítica r < rα, por ser menor que 14,5, se rechaza H0 con nivel de significación de 0,05 (y de 0,01 también, por ser 12 menor que 13). Sobre la base de estos datos se puede afirmar que hay cambios o tendencia al agrupamiento en la secuencia de las puntuaciones de la edad cronológica de las niñas de la población de donde procede la muestra DatosM2 de la tabla 1.3.

En el caso de n > 20 y n

án 4

11

41 −≤≤ α

n 41

141 −≤≤ el valor del estadígrafo se

puede hallar tomando uno de los enteros más próximos que proporciona la fórmula:

1223 2

1 −−−+= α−α n

nnZnr

Ejemplo 4.3:

Al considerar una muestra de tamaño 21, por ejemplo, la siguiente:4 1 5 6 3 2 5 1 7 8 6 4 1 9 11 7 12 6 15 17 13

Se ordena para hallar la mediana:1 1 1 2 3 4 4 5 5 6 6 6 7 7 8 9 11 12 13 15 17

La mediana es igual a 6. Se compara ahora cada puntaje original con la mediana y se le hace corresponder a o b según sea menor o mayor, respecti-vamente que 6.

Se ha considerado, el rango ligado 6, repetido tres veces, alternativamente como mayor y como menor que la mediana, empezando por mayor, seleccio-nado aleatoriamente de entre menor y mayor en el primer caso, por menor en el segundo caso y otra vez mayor en el tercer caso. Este es un artificio posible ante la alternativa de reducir la muestra en tres individuos.

Se tiene que r = 6 y α = 0,05.

, 988,0012,014

11 =−≈−

n luego

nn 41

141 −≤α≤

Bioestadística cualitativa.indd 126 25/06/2010 12:20:17 p.m.

Page 137: Bi o e s ta d í s t i c a

127

Región crítica: r < rαDecisión: Como r = 6 cae en la región crítica, puesto que es menor que

17,24 se rechaza H0 con nivel de significación de 0,05. Sobre la base de estos datos se puede afirmar que los puntajes no se presentan aleatoriamente.

Eliminando los puntajes iguales a la mediana 6 se obtiene:

Que parece conducir también a rechazar H0, puesto que entonces n = 18 y el valor crítico, según la tabla 4.4, estaría entre 13 y 15, con probabilidades 0,013 y 0,064 respectivamente, entonces la probabilidad 0,05 corresponde a un valor comprendido entre 13 y 15, sea este el valor intermedio r0,05 ≈ 14,5 (interpolando aproximadamente).

Como r = 4 y la región crítica viene dada por r < 14,5, se rechazará H0 con nivel de significación de 0,05 (y mucho menor también).

2. Dócima basada en la longitud de la racha más larga de símbolos a o b

Permite docimar la hipótesis H0 de que todas las posibles disposiciones de los puntajes en la secuencia definida son igualmente probables en la población. Exige escala ordinal.

Hipótesis: H0: Todas las posibles disposiciones de los puntajes en la secuencia son

igualmente probables.H1: Hay presencia de cambio, tendencia o ambos.Estadígrafo: L: longitud de la racha más larga de cualquiera de los símbolos

a y b.Región crítica: L > Lα.Para 5 ≤ n ≤ 20 y 0,01 ≤ α ≤ 0,36 Lα se halla en la tabla 4.5.

Para n > 20 y nn1

11 −≤α≤ se puede usar el valor crítico:

O uno de los enteros más próximos conveniente, usando la aproximación

de Poisson.

Bioestadística cualitativa.indd 127 25/06/2010 12:20:17 p.m.

Page 138: Bi o e s ta d í s t i c a

128

Tabla 4.5. Valores de Lα para un n dado

n Lα 4 5 6 7 8 9 105 0,23 0,046 0,36 0,107 0,16 0,018 0,21 0,059 0,26 0,08 0,0110 0,29 0,11 0,03 0,0111 0,14 0,05 0,0212 0,17 0,07 0,02513 0,20 0,09 0,0314 0,22 0,10 0,035 0,0115 0,25 0,11 0,040 0,0116 0,27 0,12 0,045 0,01517 0,29 0,13 0,050 0,01518 0,31 0,14 0,055 0,02019 0,33 0,15 0,060 0,02020 0,35 0,16 0,065 0,025 0,01

Ejemplo 4.4:Aplique esta dócima basada en la longitud de la racha más larga de los

símbolos a o b a los datos del ejemplo 4.2:14 16 12 7 1 14 9 15 11 618 10 5 12 9 17 13 11 7 8Hipótesis:H0: Todas las posibles disposiciones de los puntajes en la secuencia son

igualmente probables.H1: Hay presencia de cambio, tendencia o ambos.La longitud de la racha más larga es L = 3.n = 20, α = 0,05 ⇒ 8 < Lα < 9, según la tabla 4.5.Región crítica: L > Lα.Y como L = 3 no es mayor que 8 no cae en la región crítica, se rechaza H0

con nivel de significación de 0,05. Sobre la base de estos datos no se puede afirmar que haya cambios, tendencia o ambos en la secuencia de datos.

Ejemplo 4.5:Aplique la misma dócima basada en la longitud de la racha más larga de

los símbolos a o b a los datos del ejemplo 4.3: Hipótesis:H0: Todas las posibles disposiciones de los puntajes en la secuencia son

igualmente probables.

Bioestadística cualitativa.indd 128 25/06/2010 12:20:18 p.m.

Page 139: Bi o e s ta d í s t i c a

129

H1: Hay presencia de cambio, tendencia o ambos.

n = 21, α = 0,05La longitud de la racha más larga es L = 8.La región crítica viene dada por L > Lα donde:

Decisión: Como L = 8 no cae en la región crítica L > Lα, no se rechaza H0 con nivel de significación de 0,05. Sobre la base e estos datos no se puede afirmar que haya cambios, tendencia o ambos en la secuencia de datos.

4.1.3. Dócimas de las rachas hacia arriba y hacia abajo

Reciben este nombre las dócimas en que se consideran las diferencias de un puntaje y el puntaje anterior Xi – Xi – 1 para i = 2, 3,..., n y la sucesión de sus signos, eliminando los ceros. Las rachas de estos signos son las llamadas hacia arriba y hacia abajo. Exigen muestra aleatoria en escala ordinal en la que estén definidas las diferencias Xi – Xi – 1.

Todas las hipótesis citadas en el epígrafe 4.1.2 son válidas también. A continuación se estudiarán tres dócimas basadas en este criterio.

1. Dócima Moore-Wallis, basada en el número de rachas de signos +

Permite docimar la hipótesis H0 de que todas las posibles disposiciones de los puntajes en la secuencia definida son igualmente probables en la población Exige escala ordinal con la operación sustracción definida. Vea resumen en la tabla 4.6.

Tabla 4.6. Resumen de lo fundamental de esta dócima

Hipótesis alternativa posibles Estadígrafo Región crítica

H11: hay tendencia(ascendente o descendente)

X es el número de rachas de signos + obtenidos de Xi – Xi – 1

2α< XX

o 2

α′> XX

H12: hay tendencia ascendente α′> XX

H13: hay tendencia descendente α< XX

Para valores de n ≤ 12 se usa la tabla 4.7 para hallar los valores críticos.

Bioestadística cualitativa.indd 129 25/06/2010 12:20:18 p.m.

Page 140: Bi o e s ta d í s t i c a

130

Tabla 4.7. Valores de xα según los valores de α y n

n 3 4 5 6 7 8 9 10 11 12xα Valores de α0 0,167 0,042 0,008 - - - - - - -1 - - 0,225 0,081 0,024 0,006 - - - -2 - - - - 0,260 0,113 0,042 0,013 0,004 -3 - - - - - - 0,265 0,135 0,049 0,0224 - - - - - - - - 0,303 0,161

Primero se plantean las hipótesis:

H0: Todas las posibles disposiciones de los puntajes en la secuencia son igualmente probables.

H1: Hay presencia de cambio, tendencia o ambos.

A continuación se calculan los valores de α para X α(n) y para n ≤ 12 tales que:

−−+−= αα 2

12

2 nx

nX y

−−−= αα 2

12

'n

xn

X

Donde xα, con x minúscula, es el valor que da la tabla 4.7 y se usa para determinar Xα y 'αX .

Para dócimas de dos colas la región crítica es: 2α< XX o

2α′> XX

Para dócimas de una cola la región crítica es: α< XX o bien α′> XX .

Ejemplo 4.6:

Se aplica un test psicológico a 12 pacientes que se van presentando y se obtiene la secuencia de sus puntajes xi de la tabla 4.8:

Tabla 4.8. Datos del ejemplo 4.6

xi 4 1 5 6 3 2 5 1 7 8 6 4

xi – xi – 1 −3 4 −1 −3 −1 3 −4 6 1 −2 −2

Rachas de signo + + 1 2 3

Estadígrafo: X (número de rachas de signos +) = 3, n = 12, α = 0,05.Puesto que para n = 12 y α = 0,05 los valores más aproximados en la tabla

4.7 son 0,161 y 0,022, que corresponden, respectivamente, a los valores 4 y 3 de xα. Se analizarán los dos valores buscando mayor precisión.

Para xα = 3 y

Bioestadística cualitativa.indd 130 25/06/2010 12:20:18 p.m.

Page 141: Bi o e s ta d í s t i c a

131

Para xα = 4 y

En la dócima de dos colas, para 025,02

=α el valor más cercano es 0,022

que corresponden a 32

=αx y los valores críticos son entonces 8,5 y 2,5.

Por tanto X = 3 no cae en la región crítica X < 2,5 o X > 8,5 y por tanto no se rechaza la hipótesis H0 de que no hay tendencia. Todo esto con nivel de significación de 0,05.

En el caso de una hipótesis unilateral, por ejemplo: H0: No hay tendencia descendente contra. H1: Sí la hay.

Para nn 31

131 −≤α≤ se tiene que la región crítica viene dada por los valores

críticos:

Y puesto que para α = 0,05 se tiene que 0,028 ≤ α ≤ 0,972 obtenido de

n31

≤ α ≤ n311− .

Y la región crítica viene dada por: X < Xα.Como X = 3 es menor que 4,288 cae en la región crítica y por tanto se

rechaza H0 con nivel de significación de 0,05. Sobre la base de estos datos se puede afirmar que hay tendencia descendente en la secuencia.

Ejemplo 4.7:

En el caso de la secuencia del ejemplo 4.3, que se ofrece en la tabla 4.9.

Tabla 4.9. Secuencia y sus rachas de signos + y – obtenidos de Xi – Xi – 1

4 1 5 6 3 2 5 1 7 8 6 4 1 9 11 7 12 6 15 17 13− + + − − + − + + − − − + + − + − + + −

1 2 3 4 5 6

Con n = 21 y α = 0,05, para las hipótesis:H0: No hay tendencia ascendente ni descendente. H1: Sí la hay.

El estadígrafo X = 6 rachas de signos + y los valores críticos:

Bioestadística cualitativa.indd 131 25/06/2010 12:20:19 p.m.

Page 142: Bi o e s ta d í s t i c a

132

2α< XX o

2

α′> XX

85712229611050

121

21

21

21

1,,, ≈−+≈+−−+≈ α−α

nZnX

151312229611050

121

21

21

21

2,,, ≈++≈+−−+≈′ α−α

nZnX

La región crítica viene dada por 2α< XX o

2

α′> XX , o sea por

X < 7,85 o X > 13,5.Como el valor 6 del estadígrafo cae en la región crítica, por ser 6 < 7,85 se

rechaza H0 con nivel de significación de 0,05.

2. Dócima basada en el número total de rachas

Permite docimar la hipótesis H0 de que todas las posibles disposiciones de los puntajes en la secuencia definida son igualmente probables en la población. Exige escala ordinal en que esté permitida la operación sustracción.

La tabla 4.10 resume en lo fundamental esta dócima.

Tabla 4.10. Resumen de la dócima basada en el total de rachas

Hipótesis alternativa posibles Estadígrafo Región crítica

H11: hay tendencia Y es el número total de rachasde signos + y de signos –obtenidos de Xi – Xi – 1

2α< YY

o 2

α′> YY

H12: hay ciclos 'α> YY

H13: hay tendencia o ciclos α< YY

Para, el único caso, n ≥ 20 y nn 3

11

3

1 −≤α≤

Utilice uno de los enteros más próximos, en cada caso.

Ejemplo 4.8:

Resuelva el ejemplo 4.7 mediante esta dócima.

Primeramente se plantean las hipótesis:H0: Todas las posibles disposiciones de los puntajes en la secuencia son

igualmente probables.H1: Hay presencia de cambio, tendencia o ciclos.

Bioestadística cualitativa.indd 132 25/06/2010 12:20:19 p.m.

Page 143: Bi o e s ta d í s t i c a

133

En la secuencia de la tabla 4.11 se puede ver que:Y = 13, total de rachas de signos + y de signos –, n = 21 y α = 0,05.Región crítica: '

2α< YY o

2

α> YY

.

Tabla 4.11. Secuencia y sus rachas de signos + y – obtenidos de Xi – Xi – 1

4 1 5 6 3 2 5 1 7 8 6 4 1 9 11 7 12 6 15 17 13− + + − − + − + + − − − + + − + − + + −

Por tanto como Y = 13 no cae en la región crítica Y < 9,56 o Y > 16,769 no se rechaza H0 con nivel de significación de 0,05. Sobre la base de estos datos no hay elementos suficientes para afirmar que hay presencia de cambio, tendencia o ciclos en la secuencia de puntajes.

3. Dócima basada en la racha más larga

Permite docimar la hipótesis H0 de que todas las posibles disposiciones de los puntajes en la secuencia definida son igualmente probables en la población. Exige escala ordinal en que esté permitida la operación sustracción.

La tabla 4.12 resume los aspectos generales de esta de la dócima

Tabla 4.12. Resumen de la dócima basada en la racha más larga

Hipótesis alternativa posibles Estadígrafos Región críticaH11: hay tendencia ascendente Z es el tamaño de la racha

más larga de signos +Z´es el tamaño de la racha

más larga de signos –

α> ZZ

H12: hay tendencia descendente α> ZZ 'H13: hay tendencia (ascendente o descendente) 2

α> ZZ o 2

' α> ZZ

Para n ≤ 14 se usa la tabla 4.13.

Tabla 4.13. Valores de

>′>=α αα22

ZZoZZP

2

αZ 3 4 5

n4 0,0835 0,150 0,0176 0,217 0,0317 0,275 0,044

Bioestadística cualitativa.indd 133 25/06/2010 12:20:19 p.m.

Page 144: Bi o e s ta d í s t i c a

134

2

αZ 3 4 5

8 0,0589 0,071 0,01010 0,085 0,01211 0,098 0,01512 0,111 0,01713 0,124 0,01914 0,137 0,022

Ejemplo 4.9:

Resuelva el ejemplo 4.7 mediante esta dócima (tabla 4.14).

Tabla 4.14. Secuencia y sus rachas más largas de signos + y – obtenidos de Xi – Xi – 1

4 1 5 6 3 2 5 1 7 8 6 4 1 9 11 7 12 6 15 17 13− + + − − + − + + − − − + + − + − + + −

Z = 2 Z´= 3

Z = 2 y Z’ = 3, n = 12 y α = 0,05.

Hipótesis:H0: No hay tendencia.H1: Hay tendencia (ascendente o descendente). Región crítica:

2α> ZZ o

2

' α> ZZ y en la tabla 4.13 se encuentra 42

=αZ y

5´2

=αZ que corresponden a 0,111 y 0,017 entre los cuales está 0,05.

Decisión: Como ni Z > 4 ni Z’ > 5, puesto que Z = 2 y Z’ = 3, no caen en la región crítica y por tanto no se rechaza H0 con nivel de significación de 0,05. Sobre la base de estos datos no hay elementos suficientes para afirmar que hay presencia de tendencia en la secuencia de puntajes.

4.2. Dócimas para dos poblaciones

4.2.1. Dócimas de Kolmogórov‑Smírnov para dos poblaciones

Bajo esta denominación se tratarán tres dócimas de Kolmogorov-Smírnov que permiten decidir si las distribuciones de dos poblaciones son iguales o no a partir las distribuciones de frecuencias acumulativas relativas de una muestra aleatoria de cada una de ellas. Exigen muestras independientes y estar, al menos, en escalas ordinales.

Bioestadística cualitativa.indd 134 25/06/2010 12:20:20 p.m.

Page 145: Bi o e s ta d í s t i c a

135

Hipótesis: H0: Las dos poblaciones tienen la misma distribución.H1: Las dos distribuciones poblacionales difieren.

Estadígrafo: )()( knkmk

xGxFMáxD −=Para calcularlo se construyen las distribuciones de frecuencias acumulativas

relativas de las dos muestras con los mismos intervalos de clase. Se denotarán por Fm y Gn las funciones de distribución acumulativas empíricas de las mues-tras de tamaños m y n, respectivamente y xk representará el extremo superior del k-ésimo intervalo de clase.

También se podrían considerar hipótesis alternativas de una cola, tomando en cuenta las diferencias observadas entre las distribuciones de frecuencias acumulativas.

La región crítica se determina con los percentiles correspondientes que ofrece la tabla 4.15.

Tabla 4.15. Percentiles de la distribución de D para la prueba de dos poblaciones de Kolmogórov-Smírnov

Órdenesn 0,95 0,975 0,99 0,9953 1,00000 - - -4 1,00000 1,00000 - -5 0,80000 1,00000 1,00000 1,000006 0,83333 0,83333 1,00000 1,000007 0,71429 0,85714 0,85714 0,857148 0,62500 0,75000 0,75000 0,875009 0,66667 0,66667 0,77778 0,7777810 0,60000 0,70000 0,70000 0,8000011 0,54545 0,63636 0,72727 0,7272712 0,50000 0,58333 0,66667 0,6666713 0,53846 0,53846 0,61538 0,6923114 0,50000 0,57143 0,57143 0,6428615 0,46667 0,53333 0,60000 0,6000016 0,43750 0,50000 0,56250 0,6250017 0,41176 0,47059 0,52941 0,5882418 0,44444 0,50000 0,55556 0,5555619 0,42105 0,47368 0,52632 0,5263220 0,40000 0,45000 0,50000 0,5500021 0,38095 0,42857 0,47619 0,5238122 0,40909 0,40909 0,50000 0,5000023 0,39130 0,43478 0,47826 0,47826

Bioestadística cualitativa.indd 135 25/06/2010 12:20:20 p.m.

Page 146: Bi o e s ta d í s t i c a

136

Órdenesn 0,95 0,975 0,99 0,99524 0,37500 0,41667 0,45833 0,5000025 0,36000 0,40000 0,44000 0,4800026 0,34615 0,38462 0,42308 0,4615427 0,33333 0,37037 0,44444 0,4444428 0,35714 0,39286 0,42857 0,4642929 0,34483 0,37931 0,41379 0,4482830 0,33333 0,36667 0,40000 0,4333335 0,31429 0,34286 0,37143 -40 0,27500 0,32500 0,35000 -

A continuación se ofrecen los tres casos de esta dócima.

1. De dos colas en el caso de muestras pequeñas, ambas del mismo tamaño n

Permite decidir si hay o no diferencias entre dos poblaciones a partir de muestras aleatorias del mismo tamaño, independientes y en escalas ordinales.

Región crítica: )(2

1nDD α−

> donde n es el tamaño de la muestra.

Siendo D el estadígrafo y )(2

1nD α−

el percentil que se halla en la tabla 4.15.

Ejemplo 4.10:

Utilizando los datos muestrales de los niños y las niñas de la variable EV1 y los 10 primeros puntajes de las niñas de EV2 de la matriz DatosM2 de la tabla 1.3 para igualar a 30 los tamaños muestrales de niños y niñas en una nueva variable EV1A con ellos formada y suponiendo las muestras independientes. Aplique esta dócima para verificar si hay diferencia entre las distribuciones de los puntajes de EV1A de los niños y las niñas procedentes respectivamente de las poblaciones de donde provinieron las muestras. Para ello se decidió aplicar esta dócima de Kolmogórov-Smírnov para dos poblaciones y con este fin se construyeron las dos distribuciones de frecuencias acumulativas relativas que se muestran en la tabla 4.16.

Tabla 4.16. Distribuciones de frecuencias acumulativas relativas

EV1A Niños Niñas Diferencia absoluta1 0,0667 0,0000 0,06672 0,2333 0,2000 0,03333 0,4667 0,4667 0,00004 0,6667 0,5667 0,10005 0,7667 0,9000 0,13336 1,0000 1,0000 0,0000

Bioestadística cualitativa.indd 136 25/06/2010 12:20:20 p.m.

Page 147: Bi o e s ta d í s t i c a

137

Hipótesis:H0: Las distribuciones de de los niños y las niñas en EV1A no difieren.H1: Las distribuciones de los niños y las niñas en EV1A difieren.Estadígrafo: D = 0,1333Región crítica: )(

21

nDD α−>

Según la tabla 4.15, para n = 30 y α = 0,05:

Decisión: Como D = 0,1333 no cae en la región crítica, puesto que no supera a 0,36667, no se rechaza H0 con nivel de significación de 0,05. Sobre la base de estos datos no se puede afirmar que haya diferencia entre los puntajes de los niños y las niñas en la variable EV1A.

Problema propuesto 4.2:

Resuelva el ejemplo 4.10 con la variable EV2 ampliada con los 10 primeros puntajes femeninos de EV3.

2. De dos colas en el caso de muestra grandes

Representa una variante de la dócima de Kolmogórov-Smírnov anterior que permite comparar las distribuciones de dos poblaciones a partir de muestras aleatorias independientes de tamaños mayores que 30 en escalas ordinales.

El estadígrafo: D del epígrafe 4.3.1.

La región crítica viene dada por: nm

SD11 +>

Donde m y n son los tamaños muestrales y S se halla en la tabla 4.17.

Tabla 4.17. Valores críticos de S

α 0,10 0,05 0,025 0,01 0,005 0,001S 1,22 1,36 1,48 1,63 1,73 1,95

Ejemplo 4.11:

Aplique esta dócima para verificar si hay diferencia entre las distribuciones de las variables G1 y B1 de las poblaciones de donde proviene las muestras de tamaño 50 de las matrices de datos DatosMT de la tabla 1.17 y DatosMPR de la tabla 5.42 (tabla 4.18).

Tabla 4.18. Datos del ejemplo 4.11

MM M R RB B MB EB1 0,02 0,06 0,16 0,30 0,50 0,78 1,00G1 0,02 0,06 0,16 0,30 0,48 0,82 1,00

Bioestadística cualitativa.indd 137 25/06/2010 12:20:20 p.m.

Page 148: Bi o e s ta d í s t i c a

138

H0: No hay diferencia entre las distribuciones de B1 y G1 de las poblaciones de donde provienen las muestras.

H1: Hay diferencia entre las distribuciones de B1 y G1 de las poblaciones de donde provienen las muestras.

Región crítica: nm

SD11 +>

D = 0,0833, m = n = 50 y en la tabla 4.15 se halla S = 1,36 para un nivel de significación de 0,05.

Decisión: Como D = 0,04 no es mayor que 0,272 no se rechaza H0 con nivel de significación de 0,05. Sobre la base de estos datos no se puede afirmar hay diferencia entre los puntajes de G1 y B1 de las poblaciones de donde proceden las muestras.

3. De una cola en el caso de muestras grandesRepresenta una variante de la dócima de Kolmogórov-Smírnov anterior que

permite comparar las distribuciones de dos poblaciones a partir de muestras aleatorias independientes en escalas ordinales.

Estadígrafo:

Donde D es el estadígrafo del epígrafe 4.2.1.Su distribución es aproximadamente ji cuadrado con dos grados de libertad. m y n son los tamaños muestrales.La región crítica esta determinada por ( )22

12

α−χ>χ o, expresada en función de D, despejando D2 en la expresión de χ2 se obtiene:

o

Ejemplo 4.12:

Con los datos del ejemplo 4.11, se desea verificar las hipótesis: H0: Las probabilidades de la distribución poblacional de G1 predominan

en valores sobre las de B1.Estadígrafo: D = 0,04 como fue calculado en el ejemplo 4.11.Región crítica:

Bioestadística cualitativa.indd 138 25/06/2010 12:20:21 p.m.

Page 149: Bi o e s ta d í s t i c a

139

Donde:

para m = n = 50

Decisión: Como el valor 0,04, del estadígrafo, no es mayor que 12,24 no se rechaza H0 con nivel de significación de 0,05. Sobre la base de estos datos no se puede afirmar que la distribución poblacional de G1 predomina en valores sobre la de B1.

Problema propuesto 4.3:

Decida si hay o no diferencia entre las distribuciones de grado de retaso mental de las poblaciones de donde proviene la matriz de DatosM2 de la tabla 1.3 y la siguiente muestra de la tabla 4.19. Decida también si las frecuencias de una distribución superan a la otra.

Tabla 4.19. Datos del problema propuesto 4.3

S G M S L L M M L M M S M M M M M S S M S M G S M

S L M S M G L S S L L S S M G L M G G G L G S L L

4.2.2. Dócimas de Wilcoxon para dos muestras independientes y apareadas

1. Dócima U de Mann-Whitney o de suma de rangos de Wilcoxon

Esta dócima puede utilizarse para verificar la hipótesis nula de que no hay diferencia en cuanto los rangos o posiciones que ocupan los puntajes de dos poblaciones a partir de muestras independientes en escalas ordinales, lo que se expresará simplificadamente por H0: µ1 = µ2.

Esta notación se adopta con el objetivo único de resumir, no trata necesa-riamente de comparación de medias. Proporciona una buena alternativa de la prueba t de Student para dos poblaciones independientes cuando alguno de los supuestos de esta no se cumplen. Además se supone que las medidas provienen de variables aleatorias continuas y que han sido registradas al menos en una escala ordinal.

Sean x1, x2,..., xn y y1, y2,..., ym muestras aleatorias de las poblaciones 1 y 2 representadas por las variables aleatorias X e Y.

En la tabla 4.20 se ofrece un resumen de esta dócima.

Bioestadística cualitativa.indd 139 25/06/2010 12:20:21 p.m.

Page 150: Bi o e s ta d í s t i c a

140

Tabla 4.20. Resumen de la dócima U de Mann-Whitney

Hipótesis Estadígrafo Región crítica

H0: µ1 = µ2 vs H1: µ1 ≠ µ2

R es suma de los rangos de las xi

2α< UU o 2

1α−

> UU

H0: µ1 ≤ µ2 vs H1: µ1 > µ2 U > U1 – α

H0: µ1 ≥ µ2 vs H1: µ1 < µ2 U < Uα

Para n > 20 o m > 20 se puede utilizar como aproximación el estadígrafo:

Se recomienda denotar por X la variable con menor suma de rangos para unificar y simplificar el cálculo.

R es igual a la suma de los rangos correspondientes a X en esta muestra conjunta rangueada.

Para hallar su valor primero se pone una muestra a continuación de la otra para crear la muestra conjunta de los valores de X e Y, y después se ranguea esta muestra conjunta, manteniendo identificados los puntajes que pertenecen a una y otra muestra original, lo que puede hacerse definiendo una variable identificadora que tome un valor constante cualquiera para los valores de X y otro para los valores de Y.

En la tabla 4.21 aparecen los valores de Uβ para distintos valores de β y de m y n. Se tiene además que:

U1 – β = nm – Uβ

Para todo β ∈ [0, 1] y todo par de números naturales m y n.

Ejemplo 4.13:

Se desea saber si los niños con retraso mental ligero difieren de los niños con retraso mental severo en cuanto a la escala EV1 en la población de donde procede la muestra de la matriz de DatosM2 de la tabla 1.3. Los datos muestrales se brindan en la tabla 4.22.

Primeramente se plantean las hipótesis:H0: Las distribuciones de las dos poblaciones no difieren. H1: Las distribuciones de las dos poblaciones difieren.

Se tiene además que n = 12 y m = 10.Se asignan los rangos al conjunto después de ordenar los puntajes de las

dos muestras combinadas como en la tabla 4.23.

Bioestadística cualitativa.indd 140 25/06/2010 12:20:21 p.m.

Page 151: Bi o e s ta d í s t i c a

141

Tabl

a 4.

21. V

alor

es c

rític

os u

β par

a la

dóc

ima

U d

e M

ann-

Whi

tney

np

m2

34

56

78

910

1112

1314

1516

1718

1920

20,

005

00

00

00

00

00

00

00

00

01

10,

010

00

00

00

00

00

11

11

11

22

0,02

50

00

00

01

11

12

22

22

33

33

0,05

00

01

11

22

22

33

44

44

55

50,

100

11

22

23

34

45

55

66

77

88

30,

005

00

00

00

01

11

22

23

33

34

40,

010

00

01

11

22

23

33

44

55

56

0,02

50

00

12

23

34

45

56

67

78

89

0,05

01

12

33

45

56

67

88

910

1011

120,

101

22

34

56

67

89

1011

1112

1314

1516

40,

005

00

00

11

22

33

44

56

67

78

90,

010

00

12

23

44

56

67

98

90

011

0,02

50

01

23

45

56

78

910

1112

1213

1415

0,05

01

23

45

67

89

1011

1213

1516

1718

190,

101

24

56

78

1011

1213

1416

1718

1921

2223

50,

005

00

01

22

34

56

78

89

1011

1213

140,

010

01

23

45

67

89

1011

1213

1415

1617

0,02

50

12

34

67

89

1012

1314

1516

1819

2021

0,05

12

35

67

910

1213

1416

1719

2021

2324

260,

102

35

68

911

1314

1618

1921

2324

2628

2931

60,

005

00

12

34

56

78

1011

1213

1416

1718

190,

010

02

34

57

89

1012

1314

1617

1920

2123

Bioestadística cualitativa.indd 141 25/06/2010 12:20:22 p.m.

Page 152: Bi o e s ta d í s t i c a

142

np

m2

34

56

78

910

1112

1314

1516

1718

1920

0,02

50

23

46

79

1112

1415

1718

2022

2325

2628

0,05

13

46

89

1113

1517

1820

2224

2627

2931

330,

102

46

810

1214

1618

2022

2426

2830

3235

3739

70,

005

00

12

45

78

1011

1314

1617

1920

2223

250,

010

12

45

78

1012

1315

1718

2022

2425

2729

0,02

50

24

67

911

1315

1719

2123

2527

2931

3335

0,05

13

57

912

1416

1820

2225

2729

3134

3638

400,

102

57

912

1417

1922

2427

2932

3437

3942

4447

80,

005

00

23

57

810

1214

1618

1921

2325

2729

310,

010

13

57

810

1214

1618

2123

2527

2931

3335

0,02

51

35

79

1114

1618

2023

2527

3032

3537

3942

0,05

24

69

1114

1619

2124

2729

3234

3740

4245

480,

103

68

1114

1720

2325

2831

3437

4043

4649

5255

90,

005

01

24

68

1012

1417

1921

2325

2830

3234

370,

010

24

68

1012

1517

1922

2427

2932

3437

3941

0,02

51

35

811

1316

1821

2427

2932

3538

4043

4649

0,05

25

710

1316

1922

2528

3134

3740

4346

4952

560,

103

610

1316

1923

2629

3236

3942

4649

5356

5963

100,

005

01

35

710

1214

1719

2225

2730

3235

3840

430,

010

24

79

1214

1720

2325

2831

3437

3942

4548

Bioestadística cualitativa.indd 142 25/06/2010 12:20:23 p.m.

Page 153: Bi o e s ta d í s t i c a

143

0,02

51

46

912

1518

2124

2730

3437

4043

4649

5356

0,05

25

812

1518

2125

2832

3538

4245

4952

5659

630,

104

711

1418

2225

2933

3740

4448

5255

5963

6771

110,

005

01

36

811

1417

1922

2528

3134

3740

4346

490,

010

25

810

1316

1923

2629

3235

3842

4548

5154

0,02

51

47

1014

1720

2427

3134

3841

4548

5256

5963

0,05

26

913

1720

2428

3235

3943

4751

5558

6266

700,

104

812

1620

2428

3237

4145

4953

5862

6670

7479

120,

005

02

47

1013

1619

2225

2832

3538

4245

4852

550,

010

36

912

1518

2225

2932

3639

4347

5054

5761

0,02

52

58

1215

1923

2730

3438

4246

5054

5862

6670

0,05

36

1014

1822

2731

3539

4348

5256

6165

6973

780,

105

913

1822

2731

3640

4550

5459

6468

7378

8287

130,

005

02

48

1114

1821

2528

3235

3943

4650

5458

610,

011

36

1013

1721

2428

3236

4044

4852

5660

6468

0,02

52

59

1317

2125

2934

3842

4651

5560

6468

7377

0,05

37

1116

2025

2934

3843

4852

5762

6671

7681

850,

105

1014

1924

2934

3944

4954

5964

6975

8085

9095

140,

005

02

58

1216

1923

2731

3539

4347

5155

5964

680,

011

37

1114

1823

2731

3539

4448

5257

6166

7074

0,02

52

610

1418

2327

3237

4146

5156

6065

7075

7984

0,05

48

1217

2227

3237

4247

5257

6267

7278

8388

93

Bioestadística cualitativa.indd 143 25/06/2010 12:20:24 p.m.

Page 154: Bi o e s ta d í s t i c a

144

np

m2

34

56

78

910

1112

1314

1516

1718

1920

0,10

511

1621

2632

3742

4853

5964

7075

8186

9298

103

15 0

,005

03

69

1317

2125

3034

3843

4752

5661

6570

74 0

,01

14

812

1620

2529

3438

4348

5257

6267

7176

81 0

,025

26

1115

2025

3035

4045

5055

6065

7176

8186

91 0

,05

48

1319

2429

3440

4551

5662

6773

7884

8995

101

0,1

0 6

1117

2328

3440

4652

5864

6975

8187

9399

105

111

16 0

,005

03

610

1419

2328

3237

4246

5156

6166

7175

80 0

,01

14

813

1722

2732

3742

4752

5762

6772

7783

88 0

,025

27

1216

2227

3238

4348

5460

6571

7682

8793

99 0

,05

49

1520

2631

3743

4955

6166

7278

8490

9610

210

8 0

,10

612

1824

3037

4349

5562

6875

8187

9410

010

711

312

0

17 0

,005

03

711

1620

2530

3540

4550

5561

6671

7682

87 0

,01

15

914

1924

2934

3945

5056

6167

7278

8389

94 0

,025

37

1218

2329

3540

4652

5864

7076

8288

9410

010

6 0

,05

410

1621

2734

4046

5258

6571

7884

9097

103

110

116

15 0

,005

03

69

1317

2125

3034

3843

4752

5661

6570

74 0

,01

14

812

1620

2529

3438

4348

5257

6267

7176

81 0

,025

26

1115

2025

3035

4045

5055

6065

7176

8186

91 0

,05

48

1319

2429

3440

4551

5662

6773

7884

8995

101

0,1

0 6

1117

2328

3440

4652

5864

6975

8187

9399

105

111

16 0

,005

03

610

1419

2328

3237

4246

5156

6166

7175

80

Bioestadística cualitativa.indd 144 25/06/2010 12:20:24 p.m.

Page 155: Bi o e s ta d í s t i c a

145

0,0

1 1

48

1317

2227

3237

4247

5257

6267

7277

8388

0,0

252

712

1622

2732

3843

4854

6065

7176

8287

9399

0,0

5 4

915

2026

3137

4349

5561

6672

7884

9096

102

108

0,1

0 6

1218

2430

3743

4955

6268

7581

8794

100

107

113

120

17 0

,005

03

711

1620

2530

3540

4550

5561

6671

7682

87 0

,01

15

914

1924

2934

3945

5056

6167

7278

8389

94 0

,025

37

1218

2329

3540

4652

5864

7076

8288

9410

010

6 0

,05

410

1621

2734

4046

5258

6571

7884

9097

103

110

116

0,0

54

1016

2127

3440

4652

5865

7178

8490

9710

311

011

6 0

,10

713

1926

3239

4653

5966

7380

8693

100

107

114

121

128

18 0

,005

03

712

1722

2732

3843

4854

5965

7176

8288

93 0

,01

15

1015

2025

3137

4248

5460

6671

7783

8995

101

0,0

253

813

1925

3137

4349

5662

6875

8187

9410

010

711

3 0

,05

510

1723

2936

4249

5662

6976

8389

9610

311

011

712

4 0

,10

714

2128

3542

4956

6370

7885

9299

107

114

121

129

136

19 0

,005

14

813

1823

2934

4046

5258

6470

7582

8884

100

0,0

1 2

510

1621

2733

3945

5157

6470

7683

8995

102

108

0,0

253

814

2026

3339

4653

5966

7379

8693

100

107

114

120

0,0

5 5

1118

2431

3845

5259

6673

8188

9510

211

011

712

413

1 0

,10

815

2229

3744

5259

6774

8290

9810

511

312

112

913

614

4

200,

005

14

914

1925

3137

4349

5561

6874

8087

9310

010

60,

01

26

1117

2329

3541

4854

6168

7481

8894

101

108

1 15

0,02

53

915

2128

3542

4956

6370

7784

9199

106

113

120

128

0,05

5

1219

2633

4048

5563

7078

8593

101

108

116

124

131

139

0,10

8

1623

3139

4755

6371

7987

9510

311

112

012

813

614

415

2

Bioestadística cualitativa.indd 145 25/06/2010 12:20:25 p.m.

Page 156: Bi o e s ta d í s t i c a

146

Tabla 4.22. Datos del ejemplo 4.13

Escala de Vineland (EV1)

Retraso mental ligero 5 3 3 4 6 2 3 5 3 4 6 5

Retraso mental severo 2 6 5 1 5 6 4 3 1 2

Tabla 4.23. Rangueo de la muestra conjunta e identificación de las muestras

Puntaje 1 1 2 2 2 3 3 3 3 3 4Muestra S S L S S L L L L S LRango 1,5 1,5 4 4 4 8 8 8 8 8 12

Puntaje 4 4 5 5 5 5 5 6 6 6 6Muestra L S L L L S S L L S SRango 12 12 16 16 16 16 16 20,5 20,5 20,5 20,5

R = 2(1,5) + 2(4) + 8 + 12 +2(16) + 2(20,5) = 104

Región crítica: 2

α< UU o 2

−> UU

En la tabla 4.21 se encuentra que el valor crítico para esta dócima bilateral es: para n = 12, m = 10 y .

Por tanto:U0,025 = 30 y, utilizando la propiedad U1 – β = nm – Uβ para todo β tal que

0 < β < 1 se llega a que:U0,975 = 12(10) −30 = 90 y con un software estadístico se obtiene la pro-

babilidad crítica 0,496507.Decisión: Como U = 49 no es menor que 30 ni mayor que 90, no cae en la

región crítica y por tanto no se rechaza H0 con nivel de significación de 0,05 (también como 0,496507 no es menor que 0,05). Sobre la base de estos datos no se puede afirmar que los niños con retraso mental ligero difieren de los niños con retraso mental severo en cuanto a EV1 en la población de donde procede la muestra.

Ejemplo 4.14:

Se desea decidir si dos municipios A y B difieren en la cantidad mensual de embarazadas diabéticas en un periodo de 24 meses, para ello se selecciona una muestra aleatoria de cada municipio, en este periodo, de las que se obtuvieron

Bioestadística cualitativa.indd 146 25/06/2010 12:20:26 p.m.

Page 157: Bi o e s ta d í s t i c a

147

los datos de las dos primeras columnas de la tabla 4.24. Utilice un nivel de significación de 0,10.

Para dar solución a este problema primeramente se plantean las hipótesis:H0: No hay diferencia entre las poblaciones.H1: Sí la hay.

Tabla 4.24. Datos y rangueo de la muestra conjunta

A B Muestra conjunta Municipio Rango

32 7 0 B 114 27 4 B 210 18 5 B 330 22 6 B 410 40 7 B 748 42 7 B 757 18 7 B 77 7 7 B 736 25 7 A 728 19 8 B 1031 6 10 A 11,536 13 10 A 11,5

15 13 B 1322 14 A 144 15 B 157 18 B 16,536 18 B 16,55 19 B 18,519 19 B 18,57 22 B 20,531 22 B 20,525 25 B 22,50 25 B 22.58 27 B 2442 28 A 25

30 A 2631 A 27,531 B 27,532 A 2936 A 3136 A 3136 B 3140 B 33

Bioestadística cualitativa.indd 147 25/06/2010 12:20:26 p.m.

Page 158: Bi o e s ta d í s t i c a

148

A B Muestra conjunta Municipio Rango

42 B 34,542 B 34,548 A 3657 A 37

Las muestras aleatorias son de tamaños 13 y 24. Se juntan las dos muestras teniendo en cuenta la identificación de los puntajes de cada una, se ordena la muestra conjunta y se procede al rangueo en la propia tabla 4.24.

R = 7 + 2(11,5) + 14 + 25 + 26 + 27,5 + 29 + 2(31) + 36 +3 7 = 286,5 para el municipio A.

Tomando en cuenta que al menos una de las dos muestras tiene un tamaño 24, mayor que 20 y la otra de tamaño 13 se utilizará la aproximación normal de la distribución del estadígrafo:

Que evaluándolo en la muestra arroja un valor de:

P{χ2 > 1,26} ≈ 0,1030

Decisión: Como 0,1038 no es menor que 0,10 no se rechaza H0 con nivel de significación de 0,10. Sobre la base de estos datos no se puede afirmar que existe diferencia entre los dos municipios respecto a la cantidad mensual de embarazadas diabéticas en ese período.

Si se procediera determinando la región crítica se obtendría:

Y por tanto la región crítica vendrá dada por |Z| > 1,645 y la decisión sería la misma por ser 1,26 menor que 1,65.

Tratamiento de ligaduras

Para aplicar la dócima U de Mann-Whitney, se supone que las variables alea-torias originales son continuas, sin embargo debido a que todo instrumento de me-dición proporciona valores discretos, las muestras pueden tener valores repetidos, ligados. Las observaciones ligadas son en realidad diferentes, pero en una magnitud tan pequeña que no puede detectarse mediante el proceso de medición.

Bioestadística cualitativa.indd 148 25/06/2010 12:20:26 p.m.

Page 159: Bi o e s ta d í s t i c a

149

Si las ligaduras se dan entre los valores de una sola muestra, el valor de U no se altera, pero éste sí varía al ocurrir ligaduras entre valores de las dos muestras. Todas las ligas alteran la desviación estándar de U, que aparece en el denominador de la fórmula del estadígrafo Z y esto provoca que la decisión de rechazar H0 sea menos probable de lo que es en realidad. La alteración puede ser considerable cuando hay muchas ligas o cuando las ligas son muy grandes (se repita mucho una misma liga). Hay una corrección que permite eliminar el efecto pernicioso de las ligaduras, que consiste en utilizar ZC en lugar de Z siendo:

Donde: N = n + mk: es la cantidad de ligaduras.tj: cantidad de observaciones muestrales de la j-ésima ligadura para j =1,

2,..., k.

Ejemplo 4.15:

Resolución del ejemplo 4.14 utilizando el estadígrafo corregido ZC.

Primeramente se calcula la suma adicional: t1 = 5 para el rango 7 que se repite 5 vecest2 = 2 para el rango 11,5 que se repite 2 vecest3 = 2 para el rango 16,5 que se repite 2 vecest4 = 2 para el rango 18,5 que se repite 2 vecest5 = 2 para el rango 20,5 que se repite 2 vecest6 = 2 para el rango 22,5 que se repite 2 vecest7 = 2 para el rango 27,5 que se repite 2 vecest8 = 3 para el rango 31 que se repite 3 vecest9 = 2 para el rango 34,5 que se repite 2 veces

k = 9 N = n + m = 37 nm = 312 N(N – 1) = 1332

∑=

−k

jjj tt

1

3 )( = 53 – 5 + 7(23 – 2) + 33−3 = 125 – 5 + 7(8 – 2) + (27 – 3) = 186

Bioestadística cualitativa.indd 149 25/06/2010 12:20:26 p.m.

Page 160: Bi o e s ta d í s t i c a

150

P{χ2 > 1,26} ≈ 0,1038Decisión: Como 0,1038 no es menor que 0,10 no se rechaza H0. Sobre la

base de estos datos no puede afirmarse que en las poblaciones de donde proceden las muestras exista diferencia entre los dos municipios respecto a la cantidad mensual de embarazadas diabéticas en ese periodo.

No hay diferencia, respecto al problema anterior, en que no se tuvo en cuenta la corrección por ligaduras. Esta, generalmente, se hace necesaria solo en muestras grandes y cuando las tj toman valores grandes.

Problema propuesto 4.4:

a) Verifique si hay diferencia entre los niños clasificados con grado de retaso mental ligero y grave en cuanto a la EV1 en la población de donde procede la muestra de la matriz de DatosM2 de la tabla 1.3.

b) Verifique si hay diferencia entre los niños y las niñas en cuanto a EV1 en la población de donde procede la muestra de la matriz de DatosM2 de la tabla 1.3.

2. Dócima de rangos con signos de Wilcoxon

Permite decidir si se rechaza o no la hipótesis nula de que no hay diferencia entre dos poblaciones a partir de muestras apareadas en escalas ordinales que admiten la operación diferencia entre sus puntajes, lo que se expresará simpli-ficadamente por diferencia entre µ1 y µ2 en la tabla 4.25.

Proporciona una alternativa no paramétrica de la prueba t de Student para dos muestras apareadas cuando algunos de sus supuestos no se cumplen. Se supone que las medidas provienen de variables aleatorias continuas que han sido registradas al menos en una escala ordinal y que la escala de las diferencias es también ordinal.

Tabla 4.25. Resumen de la dócima de rangos con signos de Wilcoxon

Hipótesis Estadígrafo Región crítica

H0: µ1 = µ2 vs H1: µ1 ≠ µ2 V es la suma de los rangos posi-tivos de los valores absolutos de

las diferencias no nulas de las componentes de los pares.

2α< VV o 2

−> VV

H0: µ1 ≤ µ2 vs H1: µ1 > µ2 V > V1 – α

H0: µ1 ≥ µ2 vs H1: µ1 < µ2 V < V1 – α

Sea (x1, y1); (x2, y2);...; (xn, yn) una muestra aleatoria bivariada de las po-blaciones 1 y 2 representadas pos las variables aleatorias X e Y.

Bioestadística cualitativa.indd 150 25/06/2010 12:20:27 p.m.

Page 161: Bi o e s ta d í s t i c a

151

Las hipótesis y las regiones críticas se expresan como en la dócima U de Mann-Whitney o de suma de rangos de Wilcoxon, pero con V en lugar de la U.

H0: No hay diferencia en cuanto al orden de los puntajes de las dos pobla-ciones.

H1: Hay diferencia en cuanto al orden de los puntajes de las dos poblaciones.

La tabla 4.26 ofrece los valores críticos Vβ para n comprendido entre 4 y 20 y para β igual a 0,005; 0,01; 0,025; 0,05 y 0,10. Los valores críticos V1 – β correspondientes a 0,995; 0,99; 0,975; 0,95 y 0,90 se obtendrán por la fórmula:

ββ− −+= Vnn

V2

)1(1

Donde 2

)1( +nn se frece también en la tabla 4.26.

Tabla 4.26. Percentiles de V para de la dócima de rangos con signo de Wilcoxon

n 0,005 0,010 0,025 0,050 0,1002

)1( +nn

4 0 0 0 0 1 105 0 0 0 1 3 156 0 0 1 3 4 217 0 1 3 4 6 288 1 2 4 6 9 369 2 4 6 9 11 4510 4 6 9 11 15 5511 6 8 11 14 18 6612 8 10 14 18 22 7813 10 13 18 22 27 9114 13 16 22 26 32 10515 16 20 26 31 37 12016 20 24 30 36 43 13617 24 28 35 42 49 15318 28 33 41 48 56 17119 33 38 47 54 63 19020 38 44 53 61 70 210

El valor del estadígrafo V es la suma de los rangos positivos (o negativos) de los valores absolutos de las diferencias no nulas de las componentes de los pares.

Para obtener su valor: a) Se calculan las diferencias di = xi – yi.b) Se eliminan los pares cuyas diferencias di son nulas.

Bioestadística cualitativa.indd 151 25/06/2010 12:20:27 p.m.

Page 162: Bi o e s ta d í s t i c a

152

c) Se calculan los valores absolutos |di | de las diferencias di restantes.d) Se ranguean estos valores absolutos.e) Se asignan, a estos rangos de los valores absolutos, los signos de las di f) Se suman solo los rangos que tengan signos positivos (o solo los que

tengan signos negativos).

Observación: hay paquetes estadísticos que requieren que las variables estén ya transformadas y en tal caso habría que realizar las transformaciones previamente, otros, más modernos, realizan internamente todas estas transfor-maciones.

Para n grande (n > 20) se tiene:

, aproximadamente.

Ejemplo 4.16:

Para un estudio acerca del estado de salud mental de niños clasificados con retraso mental ligero o moderado se seleccionó una muestra aleatoria de 15 niños de estos y se les midió el estado de salud mental antes y después de someterse a un nuevo tratamiento. ¿Puede concluirse que el estado de salud mental de los niños con retraso mental ligero o moderado mejora después de cumplido el tratamiento? Los datos aparecen a continuación:

Antes 70 75 84 90 81 95 87 72 92 85 88 76 85 81 84Después 76 80 86 87 85 95 97 75 87 96 98 77 80 87 89

Hipótesis:H0: El estado general de salud mental de los niños con retraso mental ligero

o moderado no mejora con el nuevo tratamiento.H1: El estado general de salud mental de los niños con retraso mental ligero

o moderado mejora con el nuevo tratamiento.

La tabla 4.27 contiene los datos y sus transformaciones para el cálculo del valor del estadígrafo.

Tabla 4.27. Datos y transformaciones que requiere la dócima de Wilcoxon

Antes Después D ABS(D) rgABSd rgABSdCS

70 76 6 6 10,5 10,5

75 80 5 5 7,5 7,5

84 86 2 2 2,0 2,0

Bioestadística cualitativa.indd 152 25/06/2010 12:20:27 p.m.

Page 163: Bi o e s ta d í s t i c a

153

90 87 –3 3 3,5 –3,5

81 85 4 4 5,0 5,0

95 95 0 Ausente Ausente Ausente

87 97 10 10 12,5 12,5

72 75 3 3 3,5 3,5

92 87 –5 5 7,5 –7,5

85 96 11 11 14,0 14,0

88 98 10 10 12,5 12,5

76 77 1 1 1,0 1,0

85 80 –5 5 7,5 –7,5

81 87 6 6 10,5 10,5

84 89 5 5 7,5 7,5

Suma 86,5

Resulta más cómodo sumar los rangos negativos que son menos, pero se sumarán los positivos. Se tiene que V = 86,5.

Y tomando α = 0,05 con n = 15 – 1 = 14 por haber un dato ausente.Vα = V0,05 = 26

Región crítica: V > V1 – α.Decisión: Puesto que 86,5 > 79, el valor de V cae en la región crítica y, por

tanto, se rechaza H0 con un nivel de significación de 0,05. Sobre la base de estos datos se puede afirmar que el estado de salud mental de los niños con retraso mental ligero o moderado mejora con el nuevo tratamiento medicamentoso.

Observación: También se pueden sumar los rangos de las diferencias ab-solutas no nulas con signos negativos y se obtendría, en lugar de 86,5, la suma 18,5, que cae en la región crítica V < 26 por ser menor que 26 y por tanto, la decisión es la misma en regiones críticas de dos colas.

Ejemplo 4.17:

Un psicólogo de salud desea comprobar si la realización de un conjunto de actividades tiene algún efecto en la capacidad de asociación para niños con retraso mental ligero. Para verificarlo se tomaron 26 pares de niños con retraso mental ligero de forma tal que cada par estaba formado por niños con carac-terísticas similares. Se seleccionó al azar un niño de cada par y se realizó con ellos las actividades, mientras que el otro niño del par no las realizó. Al final se aplicó a cada niño una prueba de asociación y se obtuvieron los resultados de la tabla 4.28.

Bioestadística cualitativa.indd 153 25/06/2010 12:20:28 p.m.

Page 164: Bi o e s ta d í s t i c a

154

Tabla 4.28. Datos del ejemplo 4.17

Sí No7 71

59 6649 5155 6078 5982 6369 4273 7485 8543 3758 5156 4376 8072 7265 6283 8389 8053 5175 7570 7288 8577 7576 7380 7982 8379 75

¿Puede afirmarse, con un nivel de significación de 0,05, que la capacidad de percepción social es mayor en los niños que realizaron las actividades?

Solución: Considerando los 26 pares una muestra aleatoria bivariada de pun-tajes en una escala al menos ordinal y suponiendo que se trata de una evaluación común de 0 a 100 puntos o similar, se puede considerar la escala proveniente de una escala continua y darle sentido a las diferencias, sus valores absolutos y rangos. Asumiendo todo esto se tienen las condiciones para aplicar la dócima que se acaba de estudiar y no todas para aplicar la t de Student.

Hipótesis:H0: La realización de un conjunto de actividades no tiene efecto en la ca-

pacidad de asociación para niños con retraso mental ligero. H1: La realización de un conjunto de actividades tiene efecto en la capacidad

de asociación para niños con retraso mental ligero.

Bioestadística cualitativa.indd 154 25/06/2010 12:20:28 p.m.

Page 165: Bi o e s ta d í s t i c a

155

El resultado obtenido con un software estadístico, teniendo en cuenta que el tamaño muestral es 22 > 20, puesto que de 26 se reduce en 4 por haber cuatro pares con diferencia nula que se eliminan es:

V = 55,50 y Z ≈ 2,3051P{|Z| > 2,3051} ≈ 0,02116Decisión: Como 0,02116 < 0,05, se rechaza H0 con nivel de significación

de 0,05. Sobre la base de estos datos, se puede afirmar que la realización del conjunto de actividades tiene efecto en la capacidad de asociación para niños con retraso mental ligero

Observación: Debe tenerse muy en cuenta que la presencia de ligaduras debe disminuir la probabilidad de rechazar H0 y nunca lo contrario. Una so-lución puede consistir en disminuir o aumentar, según el caso, el valor crítico proporcionalmente al porcentaje de ligas.

Problema propuesto 4.5:

Decida si hay o no diferencia entre los puntajes de las variables EV1 y EV2 y entre los varones y las hembras en cuanto a EV2, de las poblaciones de donde proviene la matriz de DatosM2 de la tabla 1.3.

4.2.3. Dócima de las rachas de Wald‑Wolfowitz para dos poblaciones a partir de muestras independientes

Permite docimar la hipótesis nula de que no hay diferencia entre las pobla-ciones de donde proceden las muestras independientes en escalas ordinales que provienen de distribuciones continuas.

El estadígrafo es el mismo de la correspondiente dócima de una población del epígrafe 3.1.4: r es el número total de rachas.

Sus valores críticos se hallan en la tabla 3.8 y la variante de estadígrafo para muestras grandes (k o m mayor que 20), con distribución normal estándar es también el mismo de este epígrafe.

aproximadamente bajo H0.

Para aplicar esta dócima se mezclan las dos muestras para constituir los valores de una variable Y con los valores A y B y se define una variable identificadora X, dicotómica que toma un valor si el correspondiente valor de Y pertenece a la muestra de A y otro valor si pertenece a la muestra de B. Además, r se obtiene ordenando la muestra conjunta de las dos variables por la variable Y y contando el número total de rachas que se proporcionan en la variable identificadora X.

Bioestadística cualitativa.indd 155 25/06/2010 12:20:28 p.m.

Page 166: Bi o e s ta d í s t i c a

156

Ejemplo 4.18:

En una muestra A se tienen los cuatro puntajes 12, 13, 9, 7 y en otra, B se tienen los cinco puntajes 10, 9, 9, 8, 8. Se podrá afirmar que hay diferencia entre los puntajes de A y de B.

Hipótesis:H0: No hay diferencia entre las poblaciones A y BH1: Hay diferencia entre las poblaciones A y B

Para aplicar la dócima se siguen los pasos necesarios en la tabla 4.29 con Y y con los valores de las muestras de A y B y se define X la variable identificadora o grupal con el valor A si el valor correspondiente de Y pertenece a la muestra de A, o sea si es igual a 12, 13, 9 o 7 y el valor B si pertenece a la muestra de B o sea si es igual a 10, 9, 9, 8 u 8.

Tabla 4.29. Cálculo del número de rachas

Muestra conjunta (variable Y) 12 13 9 7 10 9 9 8 8

Variable X A A A A B B B B B

Muestra conjunta (de Y) ordenada: 7 8 8 9 9 9 10 12 13

Variable X después de ordenar por Y A B B A B B B A A

Rachas en la secuencia creada de A y B 1 2 3 4 5

Otras posibles secuencias de A y B son: A BBBB A B AA y A BBB A BB AADecisión: Puesto que el 9 de A puede cubrir 3 posiciones, todas estas secuen-

cias proporcionan el mismo total de 5 rachas por lo que no hay contradicción y se puede tomar la decisión:

En la tabla 3.8 se obtienen r0,025 = 2 y r0,975 = 9 que determinan la región crítica r < 2 o r > 9 y como r = 5 no cae en ella, no se rechaza H0 con nivel de significación igual a 0,05. Sobre la base de estos datos no se puede afirmar que hay diferencia entre las poblaciones A y B.

Tratamiento de ligaduras

Si existen ligaduras entre los valores de una misma muestra no se altera el número de rachas r, pero si se dan ligaduras entre valores presentes en las dos muestras y como consecuencia se obtienen distintas secuencias de los dos símbolos A y B, tales que al menos dos de ellas tienen números totales de rachas diferentes, que conducen a decisiones contradictorias, entonces esta dócima no se podrá aplicar. Habrá que buscar una solución, que pudiera ser el rompimiento de las ligaduras que involucran a las dos muestras. En el ejemplo 4.18 no hubo problemas por no presentarse contradicción.

Bioestadística cualitativa.indd 156 25/06/2010 12:20:28 p.m.

Page 167: Bi o e s ta d í s t i c a

157

Ejemplo 4.19:

Consideremos los siguientes puntajes de dos muestras A y B, formando la muestra conjunta ordenada de la tabla 4.30 junto a la variable identificadora de valores A y B.

Tabla 4.30. Datos del ejemplo 4.19

4 5 5 6 6 6 6 6 9 9 9 9 10 13 13 15 15 16 18 18A A A A A A B B B A A A A A B B B B B A

Resultaría difícil construir todas las posibles disposiciones de las A y las B por haber muchas ligaduras entre sus valores. En esta hay en total cinco rachas. Una solución podría consistir en romper las ligaduras adicionando una cantidad positiva a los valores ligados de una de las muestras seleccionada al azar de entre las dos. La cantidad debe ser lo suficientemente pequeña como para que no se rompa el orden de la muestra conjunta, por ejemplo 0,5, en este caso, para completar el procedimiento se lanza una moneda no trucada y se decide que si sale cara se agrega 0,5 a los 6 de A y que si cae escudo entonces se agrega 0,5 a ambos 6 de B. Análogamente se procede con las ligaduras 9, 13 y 18, lanzando cada vez la moneda nuevamente. Este procedimiento es discutible porque el aumento que se logra contribuye a la aleatoriedad. Uno de los resultados posibles se ofrece en la tabla 4.31.

Tabla 4.31. Resultado con nueve rachas teniendo en cuenta el rompimiento de las ligaduras

4 5 6 6 6 7 7 9 9 9 10 10 13 14 14 15 15 16 18 19A A A A A B B A A A B A A B A B B B B A

Este resultado se tiene si salió escudo, escudo, cara, cara, por ser las liga-duras 6, 9, 13 y 18 las únicas que hay entre los puntajes de ambas muestras. El número de rachas es entonces igual a 9 y como los valores críticos, según la tabla 3.8 son 6 y 16, con un nivel de significación de 0.05, no se rechaza la hipótesis de que la secuencia es aleatoria. Hay que tener siempre mucho cui-dado en la forma en que se rompen las ligaduras garantizando que no alteren la información original de modo sustancial.

Con la disposición original anterior a esta, en que hay 5 rachas la decisión tendría que ser la de rechazar H0, pero hay otras posibles disposiciones que pro-porcionan más de 6 y menos de 16, como esta de la tabla 4.28 en que hay 8.

Tabla 4.28. Resultado con ocho rachas

4 5 5 6 6 6 6 6 9 9 9 9 10 13 13 15 15 16 18 18A A A B B A A A B A A A A A B B B B A B

Bioestadística cualitativa.indd 157 25/06/2010 12:20:29 p.m.

Page 168: Bi o e s ta d í s t i c a

158

En este caso no se rechazaría H0, pero, puesto que el problema admite de-cisiones contradictorias con esta dócima, entonces no tiene solución con ella.

Ejemplo 4.20:

Se observó el número de ensayos requeridos para la adquisición de un determinado grado de habilidad en la operación de un equipo nuevo por dos grupos de técnicos de salud: el E de 9 personas y el C de 21, cuyos resultados aparecen en la tabla 4.29.

Tabla 4.29. Datos del ejemplo 4.19

E 19 49 31 30 66 42 71 50 33 48C 23 8 30 15 8 6 15 15 21 23 16 15 30 15 21 15 18 14 22 15 14

¿Existen diferencias en el logro de la habilidad en los grupos E y C?Hipótesis: H0: No hay diferencia entre las poblaciones de donde provienen las mues-

tras aleatorias de los grupos en cuanto a la rapidez en la adquisición del grado de habilidad.

H1: Hay diferencia entre las poblaciones de donde provienen las muestras aleatorias de los grupos en cuanto a la rapidez en la adquisición del grado de habilidad.

Como uno de los tamaños muestrales es mayor que 20 se puede aplicar el estadígrafo Z y aprovechar el resultado de un software estadístico. Para esto una vía consiste en crear una variable Y con los 9 puntajes de E, primero y los 21 de C a continuación, y utilizar una variable auxiliar, identificadora de la muestra, X cuyos 9 primeros valores son iguales a E y los 21 siguientes iguales a C, luego se ordena la matriz obtenida que las contiene a ambas por la varia-ble Y y se cuenta el número de rachas en la variable X. Se utilizará, además, la fórmula corregida del estadígrafo Z para muestras grandes. Hay que destacar que la dócima se aplica a la variable auxiliar dicotómica X, pero la decisión se refieren a la variable Y. Se dan dos casos de interés:

a) El 30 de E se sitúa en la última posición de los 30 y se produce un total de 4 rachas como se puede apreciar en la tabla 4.30.

Tabla 4.30. Resultado con cuatro rachas

6 8 8 14 14 15 15 15 15 15 15 16 18 19 21C C C C C C C C C C C C C E C21 22 23 23 30 30 30 31 33 42 48 49 50 66 71C C C C C C E E E E E E E E E

ZC = 4,221038, P{|Z| > 4,221038} ≈ 0,000009

Bioestadística cualitativa.indd 158 25/06/2010 12:20:29 p.m.

Page 169: Bi o e s ta d í s t i c a

159

Como 0,000009 < 0,05 se rechaza H0 con α = 0,05 (y también de 0,00001).

b) El 30 de E se sitúa en la cualquiera de las otras dos posiciones posibles y se produce un total de cuatro rachas (tabla 4.31).

Tabla 4.31. Otra disposición con cuatro rachas

6 8 8 14 14 15 15 15 15 15 15 16 18 19 21C C C C C C C C C C C C C E C21 22 23 23 30 30 30 31 33 42 48 49 50 66 71C C C C E C C E E E E E E E E

ZC = 3,49177, P{|Z| >3,864} ≈ 0,000480Como 0,000480 < 0,05 rechaza H0 con α = 0,05 (y también de 0,0005).Decisión: Como en ambos casos la decisión es la misma: se rechaza H0 con

nivel de significación de 0,05 y también de 0,0005. Sobre la base de estos datos se puede afirmar que hay diferencia entre las poblaciones de donde provienen las muestras aleatorias de los grupos en cuanto a la rapidez en la adquisición del grado de habilidad.

Problema propuesto 4.6:

Verifique si hay diferencia entre los niños de la raza negra y las otras razas en cuanto a los puntajes de EV2 en la población de donde procede la muestra de de los niños de la matriz de DatosM2 de la tabla 1.3.

4.2.4. Dócima de los signos

Es útil para decidir si los puntajes de una población difieren o no de los puntajes de otra. Exige muestras aleatorias apareadas en escalas ordinales.

Hipótesis:H0: No hay diferencias en los puntajes de las poblaciones.H1: Hay diferencias en los puntajes de las poblaciones, los puntajes de una

población son mayores o menores que los de la otra.Estadígrafo X: número de signos +Se obtiene contando los signos + obtenidos después de asignar a cada par

de observaciones (a, b) de la muestra bivariada el signo más (+) si a > b y el signo menos (−) si a < b.

X se puede considerar una variable aleatoria con distribución binomial con parámetros n (tamaño de la muestra menos el número de ceros obtenido) y p = 0,5 bajo H0, ya que bajo H0 la probabilidad P0 de obtener un signo + en un par (a, b) debe ser igual a la probabilidad Q0 de obtener un signo –, para todo par (a, b) de la muestra bivariada tal que a ≠ b.

Bioestadística cualitativa.indd 159 25/06/2010 12:20:29 p.m.

Page 170: Bi o e s ta d í s t i c a

160

Entonces todo el problema se reduce a aplicar la dócima binomial, teniendo en cuenta que la hipótesis H0: no hay diferencias en las poblaciones es equi-valente a H0’: P = 0,5.

En el sentido de que la cantidad de signos + en la población es igual a la de signos –, o que la probabilidad de obtener un signo es igual a la de obtener el otro signo e igual a 0,5.

Ejemplo 4.21:

Verifique si hay diferencia entre los resultados de las evaluaciones en una escala de A, B, C, D, E, de los alumnos de una escuela en el primero y el segundo semestre si una muestra aleatoria de 12 de estos alumnos arrojó los resultados de la tabla 4.32. Utilice un nivel de significación de 0,05.

Tabla 4.32. Datos del ejemplo 4.21

Alumno 1 2 3 4 5 6 7 8 9 10 11 12Primer semestre A B A C D B A C D E B E

Segundo semestre B D E A C A B D E B E E

Siendo A < B < C < D < E y se asignan los signos + y – según lo conveni-do y se obtiene la tabla 4.33, donde se consideraron los pares (a, b) en que a representa el puntaje del primer semestre y b el del segundo.

Tabla 4.33. Resultados del cálculo de los signos

Alumno 1 2 3 4 5 6 7 8 9 10 11 12Signos − − − + + + − − − + − 0

Consideremos la proporción de signos + y las hipótesis:H0: P = 0,5 contra H1: P ≠ 0,5Estadígrafo: X = 4 (número de signos +)Decisión: Aplicando la dócima binomial con n = 11, teniendo en cuenta que

hay un 0, el del alumno número 12, y p = 0,5 se pueden calcular los valores de la distribución binomial con parámetros n = 11 y p = 0,5 (tabla 4.34).

P{X < 4} = P{ X ≤ 3 } ≈ 0,11328125 > 0,025 y P{ X > 4} ≈ 0,7256 de modo que P{|X| > 4} ≈ 0,8389

Decisión: Como 0,8389 no es menor que 0,025, no se rechaza H0 con nivel de significación de 0,05. Sobre la base de estos datos, no se puede afirmar que haya diferencia entre los resultados de las evaluaciones de los alumnos de la escuela en el primero y el segundo semestre.

Si aplicamos la aproximación normal, ya que x = 4 es menor que np0 = 11(0,5) = 5,5 y además nq0 = 11(0,5) = 5,5 obtendremos:

y P{|Z| > 0,603} = 0,546

Bioestadística cualitativa.indd 160 25/06/2010 12:20:29 p.m.

Page 171: Bi o e s ta d í s t i c a

161

Decisión: Como 0,546 no es menor que 0,05 no se rechaza H0 con nivel de significación de 0,05, que coincide con la tomada utilizando la distribución binomial.

Tabla 4.34. Distribución binomial con parámetros n = 11 y p = 0,5

k P{X= k} P{ X ≤ k }0 0,000488281 0,000488281 0,005371094 0,005859382 0,026855469 0,032714843 0,080566406 0,113281254 0,161132813 0,274414065 0,225585938 0,500000006 0,225585938 0,725585947 0,161132813 0,886718758 0,080566406 0,967285169 0,026855469 0,9941406310 0,005371094 0,9995117211 0,000488281 1

Tratamiento de ligaduras

En caso de ligaduras, en que resulta a = b se eliminan los individuos liga-dos y, por tanto, el tamaño n de la muestra se reducirá en una cantidad igual al número de ligaduras. Si no es aceptable la disminución del tamaño muestral se podría utilizar un rompimiento de las ligaduras semejante al realizado antes.

Problema propuesto 4.7:

Decida si hay diferencia entre los resultados de las clasificaciones de EV1 y EV2 en la población de las niñas procedentes de la muestra de la matriz de DatosM2 de la tabla 1.3. Utilice un nivel de significación de 0,05. En la tabla 4.35, se ofrecen los datos de las niñas.

Tabla 4.35. Datos del problema propuesto 4.8

EV1 6 4 5 5 3 3 2 5 4 5 2 5 5 3 4 5 3 5 2 6EV2 2 5 3 2 4 3 5 2 2 6 2 4 5 3 4 5 3 2 5 2

4.2.5. Dócima de la mediana

Es útil para decidir si dos muestras aleatorias independientes provienen de poblaciones con igual mediana. Exige escalas ordinales. Para aplicarla se determina la mediana de la muestra conjunta formada por las dos muestras originales y luego se cuentan los totales de puntajes mayores de cada muestra

Bioestadística cualitativa.indd 161 25/06/2010 12:20:30 p.m.

Page 172: Bi o e s ta d í s t i c a

162

y los totales de puntajes menores que esta mediana para conformar con ellos una tabla de contingencia (tabla 4.36).

Tabla 4.36. Tabla de contingencia de la prueba de la mediana

Frecuencia de puntajes Menores que la mediana Mayores que la medianaMuestra 1 A BMuestra 2 C D

A esta tabla se aplicará la dócima de homogeneidad ji cuadrado en tablas de contingencia o sus alternativas en el caso de que no se cumplan las condiciones exigidas a las frecuencias esperadas.

Tratamiento de ligadurasLos puntajes iguales a la mediana se eliminan de ambas muestras y por ello

provocan la reducción de los tamaños muestrales. En los casos de hipótesis unilaterales pudieran incluirse en una de las dos categorías de las columnas a criterio del investigador que aplica la dócima.

Ejemplo 4.22:

Se desea decidir si hay diferencia entre los niños respecto a las niñas en cuanto EV1 en la población de donde procede la matriz de DatosM2 de la tabla 1.3.

Primeramente se plantean las hipótesis:H0: En la población de donde procede la muestra no hay diferencia entre

los dos sexos en cuanto a EV1. H1: En la población de donde procede la muestra hay diferencia entre los

dos sexos en cuanto a EV1. Datos originales por sexo ordenados: F 2 2 2 3 3 3 3 4 4 4 5 5 5 5 5 5 5 5 6 6M 1 1 2 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 4 4 5 5 5 6 6 6 6 6 6 6

La mediana de la muestra conjunta es igual a 4 y se construye la tabla 4.37 a la que se le aplica la dócima ji cuadrado de homogeneidad de las filas.

Tabla 4.37. Frecuencias observadas del ejemplo 4.21

SexoFrecuencias observadas

TotalMenor que 4 Mayor que 4

M 14 10 24F 7 10 17

Total 20 21 41

Hay solo 50 – 9 = 41 niños en la tabla porque faltan los 9 que se perdieron por ser iguales a la mediana 4.

Bioestadística cualitativa.indd 162 25/06/2010 12:20:30 p.m.

Page 173: Bi o e s ta d í s t i c a

163

Se calculan las frecuencias esperadas para verificar las condiciones de la prueba ji cuadrado y se observa en la tabla 4.38 que se cumplen las condiciones para aplicar la dócima ji cuadrado con un grado de libertad.

Tabla 4.38. Frecuencias esperadas

SexoFrecuencias esperadas

Menor que 4 Mayor que 4M 11,71 12,29F 8,29 8,71

χ2 = 0,586 aplicando el factor de corrección P{χ2 > 0,589} = 0,4439.χ2 = 1,172 sin aplicar el factor de corrección P{χ2 > 1,172}= 0,2789.Decisión: Como 0,4439 y 0,2789 no son menores que 0,05, no se rechaza

H0 con nivel de significación de 0,05. Sobre la base de estos datos no se puede afirmar que haya diferencia respecto a EV1entre las poblaciones de niños y niñas de donde proceden estas muestras.

Problema propuesto 4.8:

Se desea decidir si hay diferencia entre los niños respecto a las niñas en cuanto a EV2 en la población de donde procede la muestra de la matriz de Da-tosM2 de la tabla 1.3.

4.2.6. Dócimas de significación para el coeficiente de rangos de Spearman

Ahora que se conocen las pruebas de hipótesis no resultará difícil compren-der que el problema la significación de un coeficiente de correlación y de sus valores críticos no es más que un problema de prueba de hipótesis. La prueba de significación para el coeficiente de correlación lineal de Pearson es la misma que la del coeficiente de correlación de rangos de Spearman, por ser este un caso particular, resumida en la tabla 4.39, donde si ambas poblaciones tienen distribuciones normales el estadígrafo t, como se enuncia con el símbolo ~ tn – 2 tiene, bajo H0, distribución t de Student con n – 2 grados de libertad.

Tabla 4.39. Resumen de la dócima de los coeficientes de correlación de Pearson y Spearman

Hipótesis Estadígrafo Región crítica

H0: R = 0 vs H1: R ≠ 0

22~

1

2−−

−= ntr

nrtH0: R ≤ 0 vs H1: R > 0 )2(1 −> α− ntt

H0: R ≥ 0 vs H1: R < 0 )2(1 −−< α− ntt

Bioestadística cualitativa.indd 163 25/06/2010 12:20:30 p.m.

Page 174: Bi o e s ta d í s t i c a

164

Ejemplo 4.23:

Decida si hay correlación entre EV1 y EV2, en la población de donde procede la matriz de DatosM2 de la tabla 1.3. Utilice un nivel de significación de 0,01.

Hipótesis: H0: RS = 0 contra H1: RS ≠ 0.Datos: n = 50, r = –0,247976. Estadígrafo:

P{|t| > 1,733920422} ≈ 0,089351509Decisión: Como 0,089351509 no es menor que 0,01 no se rechaza H0 con

nivel de significación de 0,01. Sobre la base de estos datos no se puede afirmar que hay correlación de rangos de Spearman entre los puntajes de EV1 y EV2 en la población de donde procede la muestra de la matriz de DatosM2 de la tabla 1.3. (Esto también a veces se expresa diciendo que la correlación entre las dos variables no es significativa al 99 %).

Además, utilizando la vía de la región crítica:

El valor del estadígrafo –1,773419, no cae en ella por tanto no se rechaza

H0 con nivel de significación de 0,01. Sobre la base de estos datos no se puede afirmar que haya correlación entre las dos variables (poblaciones) en cuanto a las escalas de EV1 y EV2.

También se pueden plantear las hipótesis unilaterales, así en el ejemplo 4.23 podríamos plantearnos:

H0: R ≥ 0 contra H1: R < 0 para un nivel de significación de 0,01

La región crítica vendrá dada por:

Por tanto como –1,773419 no es menor que –2,40 no se rechaza H0 con nivel de significación de 0,01. Sobre la base de estos datos no se puede afirmar que hay correlación inversa, negativa, entre las dos variables en cuanto a EV1 y EV2 en la población.

Para el coeficiente de correlación de rangos de Spearman, la tabla 1.44 brinda valores críticos para n ≤ 30.

Después de aplicar esta dócima y haber aumentado el conocimiento sobre las dócimas de hipótesis, es necesario recalcar que al afirmar que una correlación es significativa o que un coeficiente de correlación es significativo solamente significa que se ha rechazado la hipótesis referente a que entre las poblaciones de donde provienen las muestras aleatorias no hay correlación.

Bioestadística cualitativa.indd 164 25/06/2010 12:20:30 p.m.

Page 175: Bi o e s ta d í s t i c a

165

Problema propuesto 4.9:

Decida si hay correlación entre el grado de retraso mental y EV3 en la población de donde procede la muestra de la matriz de DatosM2 de la tabla 1.3.

4.2.7. Dócima para el coeficiente de correlación de rangos de Kendall

Se basa en el hecho de que para n > 10 la distribución del coeficiente de correlación de rangos de Kendall se aproxima a la normal con media 0 y va-rianza , de modo que:

Tendrá entonces distribución normal estándar.Para la hipótesis:H0: No hay correlación de rangos de Kendall (RK = 0).H1: Hay correlación de rangos de Kendall (RK ≠ 0).

Un estadígrafo adecuado es:

Y la región crítica vendrá dada entonces por:

21

α−> ZZ

Para dócimas de una cola se procederá como en las dócimas anteriores en

que el estadígrafo tenía distribución normal estándar.

Ejemplo 4.24:

Decida si hay correlación entre variables EV1 y EV2 en la población de donde procede la matriz de DatosM2 de la tabla 1.3, usando ahora el coeficiente de correlación de rangos de Kendall. Utilice un nivel de significación de 0,05.

Hipótesis: H0: RK = 0 contra H1: RK ≠ 0, rK ≈ –0,206662 y n = 50. Estadígrafo:

, P{|Z| > 2,1177} ≈ 0,034

Región crítica: |Z| > Z0,975 ≈ 1,96.

Bioestadística cualitativa.indd 165 25/06/2010 12:20:31 p.m.

Page 176: Bi o e s ta d í s t i c a

166

Decisión: Como 0,017 es menor que 0,05 (también como 2,1177 es mayor que 1,96) se rechaza H0 con nivel de significación de 0,01. Sobre la base de estos datos se puede afirmar que hay correlación de Kendall entre las variables.

Problema propuesto 4.10:

Decida si hay correlación entre las variables grado de retraso mental y EV3, en la población de donde procede la muestra de la matriz de DatosM2 de tabla 1.3, cuyo coeficiente de correlación de rangos de Kendall tiene un valor de 0,65223.

4.2.8. Dócima para el coeficiente de concordancia de rangos de Kendall

Se basa en que el estadígrafo χ2= k(n – 1)rCK donde k es igual al número de tratamientos y de muestras, n el tamaño de cada muestra y rCK el coeficiente de concordancia de Kendall, que tiene aproximadamente distribución ji cuadrado con k – 1 grados de libertad y la aproximación es aceptable para n > 7.

La hipótesis H0 de que no hay concordancia entre los resultados de los k tratamientos se rechazará, con nivel de significación igual a α si k(n – 1)rCK > )1()1( 2

1 −χ>− α− krnk Ck .

Ejemplo 4.25:

Decida si hay o no concordancia entre los puntajes de las variables EV1, EV2 y EV3 a partir de muestras de la matriz de DatosM2 de la tabla 1.3.

Hipótesis: H0: RCK = 0 o sea no hay concordancia entre las tres poblaciones.H1: RCK ≠ 0 o sea hay concordancia entre las tres poblaciones.Datos y cálculos: k = 3, n = 50, α = 0,05; rCK = 0,07156.Estadígrafo: χ2 = k(n – 1) rCK = 3(49)0,07156 = 10,5193.Región crítica:

991465,5)1(21

2 ≈−χ>χ α− k

P{χ2 > 105193} ≈ 0,02793Decisión: Puesto que 10,5193 supera a 5,991465 y más aún como 0,002793

es menor que 0,05, se rechaza la hipótesis H0 con nivel de significación de 0,05. Sobre la base de estos datos se puede afirmar que hay concordancia entre las tres variables.

Problemas propuestos 4.11:

a) Para n < 8, consulte, en el capítulo 1, la dócima de significación de este coeficiente de concordancia y precísela, acorde con los nuevos conocimientos de pruebas de hipótesis.

b) Decida si hay o no concordancia entre los coeficientes de inteligencia de las tres poblaciones correspondientes a las los individuos del sexo

Bioestadística cualitativa.indd 166 25/06/2010 12:20:31 p.m.

Page 177: Bi o e s ta d í s t i c a

167

masculino de las tres muestras aleatorias de CI1, CI2 y CI3 de la tabla matriz de DatosM2 de la tabla 1.3.

4.3. Dócimas para más de dos poblaciones

4.3.1. El análisis de varianza de Kruskal‑Wallis

Permite decidir si k muestras independientes en escalas ordinales proceden de la misma población o de poblaciones con iguales en sumas de rangos. Exige escala ordinal proveniente de una distribución continua.

Estadígrafo:

Donde, para i = 1, 2,..., k:k: representa el número de muestras.

ni: es el tamaño de la muestra i-ésima, ∑=

=k

iinn

1

.

El valor de H se obtiene después de ranguear la muestra conjunta de las k muestras que consiste en la reunión de las muestras de los k tratamientos, una a continuación de la otra, para obtener una columna única donde se puedan identificar los puntajes correspondientes a cada tratamiento y sumarlos para obtener los valores de las Ri.

Bajo H0, el estadígrafo H tiene aproximadamente distribución 21−χk , esto es

ji cuadrado con k –1 grados de libertad, si las nj no son muy pequeñas.Región crítica: ( )H k> −−χ α1

2 1 (si las ni no son muy pequeñas, para i = 1, 2,..., k).

Si se presentan más de un 25 % de ligas resulta conveniente utilizar el estadígrafo corregido:

Donde m es igual al número total de rangos distintos ligados de la muestra conjunta ragueada y tj es la cantidad de rangos ligados (iguales) de la j-ésima ligadura, para j =1, 2,..., m.

Ejemplo 4.26:

Decida si hay o no diferencias entre los grados de retrazo mental de los niños de las tres razas de población de donde proviene la muestra de la matriz de DatosM2 de la tabla 1.3, que se ofrecen a continuación en la tabla 4.40.

Bioestadística cualitativa.indd 167 25/06/2010 12:20:31 p.m.

Page 178: Bi o e s ta d í s t i c a

168

Tabla 4.40. Datos del ejemplo 4.25

B N OM L MG L MG G LL S MM L SS M MM M MS G MM L SL L MS M GS L ML L GL M G

SMSMMSGM

H0: No hay diferencias entre las tres razas en cuanto a retrazo mental.H0: Hay diferencias entre la tres razas en cuanto a retrazo mental.Con un software estadístico a partir de la muestra conjunta rangueada se

obtiene la tabla 4.41.

Tabla 4.41. Total y sumas de rangos por muestra

Raza ni Ri

B 14 411N 14 378O 22 486

H = 2,331611917 gl = 2 P{χ2 > 2,331611917} ≈ 0,311671367Decisión: Como 0,311671367 no es menor que 0,05 no se rechaza H0 con un

nivel de significación de 0,05. Sobre la base de estos datos no se puede afirmar que haya diferencia entre las tres razas en cuanto al grado de retraso mental en los niños de donde procede la muestra de la matriz de DatosM2 de la tabla 1.3.

En el caso de que existan ligaduras se recomienda utilizar el estadígrafo H corregido por ligaduras.

Bioestadística cualitativa.indd 168 25/06/2010 12:20:32 p.m.

Page 179: Bi o e s ta d í s t i c a

169

Ejemplo 4.27:

Se desea docimar la hipótesis de que no hay diferencias entre los niveles de popularidad de los profesores de tres grupos de primer año de Medicina a partir de las muestras de puntajes de popularidad de la tabla 4.42.

Hipótesis: H0: Los profesores de tres grupos de primer año de Medicina tienen igual

nivel de popularidad.H1: Los profesores de tres grupos de primer año de Medicina difieren en

el nivel de popularidad.

Tabla 4.42. Puntajes de los niveles de popularidad de los profesores

Grupo A Grupo B Grupo C96 82 115128 124 13282 132 16661 132 132101 109 11596 115 -

Se ranguea la muestra conjunta en la tabla 4.43, manteniendo identificados los grupos.

Tabla 4.43. Rangueo de la muestra conjunta

Valor Rango Grupo61 1 A82 2,5 B82 2,5 A96 4,5 A96 4,5 A

101 6 A109 7 B115 9 B115 9 C115 9 C124 10 B128 11 A132 14,5 B132 14,5 B132 14,5 C132 14,5 C166 17 C

Bioestadística cualitativa.indd 169 25/06/2010 12:20:32 p.m.

Page 180: Bi o e s ta d í s t i c a

170

De donde se obtienen en la tabla 4.44 las tres sumas de rangos R1, R2 y R3 para luego calcular el valor del estadígrafo.

Tabla 4.44. Total y sumas de rangos por muestra

A B C

n 6 6 5

Ri 29,5 57,5 64

Como se puede observar hay cuatro rangos distintos ligados 82, 96, 115, 132. Ahora se calculará el valor del estadígrafo HC.

∑=

−im

iii tt

1

2 )1( = 2(22 – 1) + 2(22 – 1) + 3(32 + 1) + 4(42 + 1)

= 6 + 6 + 24 + 60 = 96n(n2 –1) = 17(172 – 1) = 4 896

≈ 13,027 P{χ2 > 13,027} ≈ 0,001483.

Decisión: Como 0,001483 es menor que 0,05 se rechaza H0 con nivel de significación de 0,05 (y de 0,001484). Sobre la base de estos datos se puede afirmar que hay diferencia entre los niveles de popularidad de los profesores de los grupos A, B y C de primer año de Medicina.

Realizándola sin tener en cuenta la corrección por ligaduras se obtiene:

H ≈ 12,77 P{χ2 > 12,77} ≈ 0,001687Muy similar a la lograda con la corrección.

Problema propuesto 4.12:

Resuelva el ejemplo 4.27 con la variable EV3 de la matriz de DatosM2 de la tabla 1.3 en lugar de grado de retraso mental.

4.3.2. El ANOVA de Friedman

Permite docimar la hipótesis de que k muestras aleatorias igualadas en escalas ordinales provienen de la misma población, en el sentido de que las poblaciones de procedencia tienen iguales sumas de rangos.

Bioestadística cualitativa.indd 170 25/06/2010 12:20:32 p.m.

Page 181: Bi o e s ta d í s t i c a

171

En la matriz de datos utilizada en esta dócima, las columnas representan las muestras (denominadas también tratamientos) y las filas los individuos (denominados también jueces o calificadores).

Los datos para esta dócima se disponen formando una matriz de k colum-nas por n filas, las columnas las encabezan la identificación del tratamiento y las n filas los calificadores o jueces, de modo que las filas de datos se pueden interpretar como k-úplas de individuos igualados en cuanto a las variables pertinentes. Un modelo de esta interpretación de la disposición de los datos y el rangueo por fila se ofrece en las tablas 4.45 y 4.46.

Tabla 4.45. Distribución bivariada de frecuencias modelo para la prueba de Friedman

JuezTratamiento

T1 T2 ··· Tk

J1 X11 X21 ··· Xk1

J2 X12 x22 ··· Xk2

… … … …Jn X1n X2n ··· Xkn

Un estadígrafo apropiado es:

Que, bajo H0 tiene aproximadamente distribución ji cuadrado con k – 1 grados de libertad.

Para calcular su valor se ranguean las filas de los datos de la tabla 4.45 para obtener la tabla 4.46, en la cual se suman los rangos correspondientes a cada columna de esta nueva tabla y se denotan por R1, R2,..., Rk.

Tabla 4.46. Modelo de rangueo por filas y sumas de rangos de las columnas

JuezTratamiento

T1 T2 ··· Tn

J1 rgf(x11) rgf(x21) ··· rgf(xk1)

J2 rgf(x12) rgf(x22) ··· rgf(xk2)

… … … … …

Jn rgf(x1n) rgf(x2n) ··· rgf(xkn)

Sumas de rangos R1 R2 Rk

Bioestadística cualitativa.indd 171 25/06/2010 12:20:32 p.m.

Page 182: Bi o e s ta d í s t i c a

172

Donde rgf(xij) indica rango por fila y representa el rango asignado por el juez j-ésimo al tratamiento i-ésimo, para i = 1, 2,..., k y j = 1, 2,..., n.

representa la suma de los rangos de la columna i de la tabla

4.45, para i = 1, 2,..., k.La máxima diferencia entre los tratamientos se dará cuando todos los rangos

de cada columna sean iguales y por tanto las sumas de cada columna serán muy diferentes y habrá una concordancia perfecta entre los jueces. Pero si las sumas de las columnas, Ri, resultan aproximadamente iguales, esto podrá interpretarse como que no hay diferencia notable entre los tratamientos y si discordancia entre los jueces.

Región crítica: ( )121

2 −χ>χ α− k .Para k < 3 o n < 2 no hay tablas.

Ejemplo 4.28:

Se desea saber si cuatro tratamientos contra la influenza producen iguales resultados en los pacientes aquejados de esa enfermedad. Para decidir se obtu-vieron unos puntajes entre 1 y 10 que indican el nivel de restablecimiento de los pacientes al cabo del segundo día con el correspondiente tratamiento. Los cuatro tratamientos fueron aplicados a una muestra de tres grupos de cuatro pacientes igualados y los resultados se brindan en la tabla 4.47.

Tabla 4.47. Distribución bivariada con los datos del ejemplo 4.28

Grupo TratamientosI II III IV

1 6 3 1 52 7 5 3 93 7 2 3 4

Hipótesis: H0: Los cuatro tratamientos producen iguales resultados.H1: Los cuatro tratamientos no producen iguales resultados.La tabla 4.48 se obtiene rangueando cada fila de la tabla 4.47.

Tabla 4.48. Rangueo por fila y suma de rangos por columnas de la tabla 4.47

Grupo MétodosI II III IV

1 4 2 1 32 3 2 1 43 4 1 2 3

Suma de rangos 11 5 4 10

Bioestadística cualitativa.indd 172 25/06/2010 12:20:33 p.m.

Page 183: Bi o e s ta d í s t i c a

173

gl = 4 – 1 = 3 P{χ2 > 7,4} ≈ 0,0602 Decisión: Como 0,0602 no es menor que 0,05 no se rechaza H0 con

nivel de significación de 0,05. Sobre la base de estos datos no se puede afir-mar que los cuatro tratamientos producen diferentes resultados. Además,

.Región crítica: χ2 > 7,81.Con lo que la decisión resulta la misma obtenida con la probabilidad.Observación: Esta dócima de Friedman constituye también una prueba de

significación para el coeficiente de concordancia de Kendall entre k variables. Habrá concordancia entre las variables si se rechaza H0 y no habrá concordancia en caso contrario Aplicándola en este ejemplo 4.27 se podría decir que no hay concordancia entre las muestras.

Problema propuesto 4.13:

Decida si hay diferencia o no entre las poblaciones correspondientes a las muestras de EV1, EV2 y EV3 de la población de donde procede la matriz de DatosM2 de la tabla 1.3. Decida además si hay o no concordancia entre los puntajes de estás tres variables en las poblaciones.

4.3.3. ANOVA de la mediana

Permite decidir acerca de si k muestras aleatorias independientes en escalas ordinales provienen de poblaciones con igual mediana.

Para aplicarla se determina la mediana de la muestra conjunta formada por las k muestras originales y, después de ordenarla, se cuentan los totales de puntajes de cada muestra mayores, así como los totales de puntajes menores que esta mediana para conformar con ellos una tabla de contingencia (tabla 4.49).

Tabla 4.49. Total de puntajes por encima y por debajo de la mediana

Puntajes Muestra 1 Muestra 2 ··· Muestra kMenores que la mediana O11 O21 ··· Ok1

Mayores que la mediana O12 O22 ··· Ok2

A continuación se aplicará a esta tabla la dócima de independencia o de homogeneidad ji cuadrado en tablas de contingencia o sus alternativas en el caso de que no se cumplan las condiciones exigidas a las frecuencias esperadas.

Tratamiento de ligaduras

Los puntajes iguales a la mediana se eliminan de las k muestras y por ello, provocan la reducción de los tamaños muestrales. En general, y en particular en los casos de hipótesis unilaterales, pudieran incluirse en una de las dos catego-rías de las columnas a criterio del investigador que aplica la dócima, o decidir

Bioestadística cualitativa.indd 173 25/06/2010 12:20:33 p.m.

Page 184: Bi o e s ta d í s t i c a

174

aleatoriamente a qué categoría asignar cada una, pero siempre mucho cuidado en que estas inclusiones no vayan a desvirtuar el resultado.

Ejemplo 4.29:

Decida si hay o no diferencia entre los niños de las tres razas (blanca, negra y otras) de la población de donde proceden las muestras de la matriz de DatosM2 de la tabla 1.3 en cuanto a la escala de Vineland EV2. En la tabla 4.50 se ofrecen los datos.

Tabla 4.50. Distribuciones de frecuencias observadas y esperadas obtenidas

Frecuencias observadasTotal

Frecuencias esperadasN O B N O B

Menor que la mediana 9 10 6 25 7 11 7Menor que la mediana 5 12 8 25 7 11 7

Total 14 22 14 50 14 22 14

B: blanca. N: negra. O: otras.

Hipótesis: H0: No hay diferencia entre las tres razas respecto a EV2 en la población de

donde proviene la muestra de la matriz de DatosM2 de la tabla 1.3.H1: hay diferencia entre las tres razas respecto a EV2 en la población de

donde proviene la muestra de la matriz de DatosM2 de la tabla 1.3.

Como se cumple que la condición de que no más del 20 % de las frecuencias esperadas sea menor que 5 y ninguna menor que 1, necesaria para aplicar la dócima de independencia u homogeneidad en tablas de contingencia, se puede aplicar la dócima.

Mediana = 3,5; χ2 ≈ 1,610390 gl = 2 p = 0,4470Decisión: Como 0,4470 no es menor que 0,05 no se rechaza H0 con nivel

de significación de 0,05. Sobre la base de estos datos no se puede afirmar que haya diferencias entre las tres razas en cuanto a la EV2 en la población de donde proviene la muestra aleatoria de la matriz de DatosM2 de la tabla 1.3.

Problema propuesto 4.14:

Decida si hay o no diferencias entre las razas (blanca, negra y otras) en cuanto a EV1 entre los niños de la muestra de la matriz de DatosM2 de la tabla 1.3, utilizando las pruebas de Friedman y de la mediana y compare sus resul-tados y las pruebas.

Bioestadística cualitativa.indd 174 25/06/2010 12:20:34 p.m.

Page 185: Bi o e s ta d í s t i c a

175

Capítulo 5

Problemas y suplementos

Este capítulo comienza con una muestra amplia de explicación de las opciones y otras posibilidades que ofrece Microsoft Excel en el tratamiento estadístico de los datos y el procesamiento matemático estadístico, continúa con problemas resueltos con Excel y además variados problemas de estadística y la mayoría con sus respuestas, también tablas de distribución de las pruebas de hipótesis según la escala, el número de poblaciones y el tipo de muestra, además de suplementos y tópicos de interés para las investigaciones experimentales.

5.1. Opciones de Excel para el procesamiento estadístico

Excel es una hoja de cálculo muy popular, presente en el paquete de Mi-crosoft Office, que ofrece bastantes posibilidades de procesamiento de datos estadísticos desde su versión de 1995. El se encuentra instalado en casi todas computadoras personales (PC) con que se cuenta, y esa realidad lo hace atractivo para usarlo siempre que se pueda y resuelva el procesamiento que se desee, porque la alternativa que constituyen los paquetes estadísticos profesionales no siempre están al alcance de los estudiantes e investigadores que a menudo pueden acceder a una PC, pero no a instalarle un software estadístico, que muchas veces ni poseen. Además, la mayoría de los paquetes estadísticos mo-dernos aceptan los archivos de extensión xls de Excel, lo que lo convierte en un buen intermediario y utilitario. También Excel exporta los datos a muchos formatos de gestores de bases de datos y paquetes estadísticos viejos y nuevos. El software libre como la Hoja de cálculo de OpenOffice, el Gnumeric y otros similares también pueden prestar este servicio.

En particular contribuye a la solución de múltiples problemas que no vienen programados habitualmente en los paquetes estadísticos. Los paquetes estadísticos tiene grandes ventajas para el procesamiento y aplicación de los métodos con muchas variables y muchos valores, pero tienen la desventaja de estar a menudo en idioma inglés y los que están en español son pocos, además, su terminología y gran cantidad de procedimientos llega a agobiar a los que no dominan los métodos estadísticos, sin embargo Excel es lo habitual y a los

Bioestadística cualitativa.indd 175 25/06/2010 12:20:34 p.m.

Page 186: Bi o e s ta d í s t i c a

176

estudiantes e investigadores le es menos ajeno. Es una gran calculadora, una valiosa herramienta utilitaria para la manipulación de los datos, la graficación y para el procesamiento estadístico complejo, pero no ya porque tenga progra-mados los procedimientos, sino porque se pueden programar muchos de ellos, al menos parcialmente y esto constituye una gran ayuda para los estadísticos, los estudiantes y los investigadores. Esta programación no es compleja, se trata solamente de la conformación de los cálculos.

Con Excel se pueden calcular casi todos los estadígrafos de las pruebas de hipótesis y las probabilidades y percentiles que se deseen de las distribuciones normal, t de Student, ji cuadrado, F de Fisher y otras, los intervalos de confianza, las distribuciones de frecuencia y su graficación, ordenar, transponer y realizar otros tipos de manipulación de los datos. Además los paquetes estadísticos modernos permiten abrir archivos de Excel o intercambiar matrices de datos, resultados y gráficos al menos cortando y pegando. Otra cualidad buena de Excel es que permite comprobar los cálculos realizados con los paquetes esta-dísticos actuando como criterio de la verdad en los casos de diferencias entre dos resultados de paquetes distintos que debían coincidir en los cálculos.

Se describirán cálculos y procesamientos de los métodos estadísticos in-cluidos en el libro y las opciones y fórmulas de Excel para obtenerlos.

Si Microsoft Office está bien instalado, la opción Análisis de Datos del menú Herramientas con los métodos estadísticos completamente programados se instalan en Excel de la manera siguiente.

− Haciendo clic en el menú Herramientas seleccione la opción Complementos− En el cuadro obtenido seleccione la opción Herramientas para análisis

y Aceptar.− Haga clic de nuevo en el menú Herramientas y se verá en la lista

desplegable una nueva opción llamada Análisis de datos que ofrece 19 procedimientos estadísticos matemáticos tales que al efectuar cada uno de ellos se obtendrá una hoja de resultados con todos los detalles del método aplicado como lo hace habitualmente un software estadístico profesional.

En el Excel 95 en lugar de Complementos la opción para instalar Análisis de Datos se denomina Macros Automáticas. En Office 2007 y 2010, como muchas otras cosas se ha modificado el procedimiento para instalar Análisis de Datos. En ellos aparece en la cinta de opciones Data y para instalarlos si no está se procede así:

1. Se hace clic en el botón del símbolo de Microsoft Office en 2007 o Archivo en 2010 y se selecciona Opciones de Excel o solo Opciones.

2007 2010

Bioestadística cualitativa.indd 176 25/06/2010 12:20:37 p.m.

Page 187: Bi o e s ta d í s t i c a

177

2. Haga clic en Complementos o Complementos de Excel en el cuadro Administrar y a continuación Ir.

3. En el cuadro de diálogos Complementos disponibles se activa la casilla de verificación Herramientas para análisis y Aceptar.

4. Comprobar que al final de la cinta del menú Datos está la opción Análisis de datos.

Observaciones:

1. Si Herramientas para análisis no aparece en la lista del cuadro Complementos disponibles, haga clic en Examinar para buscarlo.

2. Si se le indica que Herramientas para análisis no está instalado actualmente en el equipo, haga clic en Sí para instalarlo.

3. Una vez cargado Herramientas para análisis, el comando Análisis de datos estará disponible en el grupo Análisis de la cinta Datos.

En Análisis de datos se ofrecen 19 procedimientos o métodos estadísticos cuyo resultado es toda una hoja de resultados como lo hace habitualmente un software estadístico.

5.1.1. Notación de probabilidades

Antes de analizar los métodos y funciones estadísticas de Excel se debe precisar la notación de probabilidades.

Se defina la función de distribución F de una variable aleatoria X así: F(t)= P{X < t} para todo número real t y será la única que se denominará fun-ción de distribución, llamada generalmente acumulativa, y en cuyo caso t es el percentil de orden p = F(t), sea cual sea la distribución F. Por esta razón en toda otra función o método relacionado con ella se harán los ajustes para expresar en esta notación lo que ofrezcan. Por ejemplo, en el caso en que se defina como P{X ≤ t} coincidirá con F(t) en el caso de las distribuciones continuas, no así en el caso de las discretas y en el caso que se defina como P{X ≥ t} será igual a 1 – F(t). Excel en el caso de la distribución normal si ofrece F(t) = P{X < t}, pero en el caso de las distribuciones t de Student, ji cuadrado y F de Fisher utiliza P{X > t} o P{|X| ≥ t} = 2 – F(t) + F(–t).

5.1.2. El complemento Análisis de datos de Excel

El lenguaje de Excel no es muy riguroso, por eso a continuación de cada opción se describirá la denominación rigurosa y alguna explicación si se re-quiere.

1. Análisis de varianza de un factor: permite realizar un ANOVA de efectos fijos y clasificación simple.

Bioestadística cualitativa.indd 177 25/06/2010 12:20:38 p.m.

Page 188: Bi o e s ta d í s t i c a

178

2. Análisis de varianza de dos factores con una sola muestra por grupo: permite realizar un ANOVA efectos fijos y clasificación doble con una observación por celda (diseño en bloques aleatorizados).

3. Análisis de varianza de dos factores con varias muestras por grupo: permite realizar un ANOVA de efectos fijos y clasificación doble con más de una observación por celda.

4. Coeficiente de correlación: permite calcular la matriz de correlaciones lineales de Pearson de varias variables incluidas en el rango especificado.

5. Covarianza: permite calcular la matriz de covarianza de varias variables del rango especificado.

6. Estadística descriptiva: permite calcular error típico o estándar de la media, mediana, moda, desviación estándar, varianza de la muestra, curtosis, coeficiente de asimetría, rango, mínimo, máximo, k-ésimo menor, k-ésimo mayor, suma, cuenta y el error estándar de la media multiplicado por el percentil de la distribución normal de orden dado por el nivel de confianza 1 – α, en forma de porcentaje, que se introduzca.

7. Suavización exponencial: permite realizar un pronóstico fijando el factor de suavización exponencial

8. Prueba F para varianzas de dos poblaciones: permite realizar la prueba F de comparación de dos varianzas poblacionales para muestras independientes en el caso de regiones críticas de una cola.

9. Análisis de Fourier: permite realizar la transformación rápida de Fourier y la trasformación inversa, de los datos originales.

10. Histograma: permite construir una distribución de frecuencias a partir de los datos numéricos y las clases dadas por sus extremos superiores, así como graficarla. En la distribución por intervalos estos son abiertos por la izquierda y cerrados por la derecha y ofrece sólo los extremos superiores

11. Media móvil: para un intervalo k permite calcular los promedios de los k números siguientes a partir del primero, después los k números siguientes a partir del segundo, y así sucesivamente.

12. Generación de números aleatorios: permite generar tantas columnas de tantos números como escriba en Número de variables y Cantidad de números aleatorios como filas, con distribuciones a escoger: uniforme, normal, Bernoulli, binomial, de Poisson, de frecuencia relativa y discreta, esta última dada.

13. Jerarquía y percentil: permite ordenar los datos de mayor a menor asignándole a cada dato su posición en este ordenamiento; su jerarquía, orden que ocupa en este ordenamiento y su porcentaje acumulado a partir del mínimo. La jerarquía se da de mayor a menor y coincide con el rango de mayor a menor si no hay ligaduras.

Bioestadística cualitativa.indd 178 25/06/2010 12:20:38 p.m.

Page 189: Bi o e s ta d í s t i c a

179

14. Regresión: realiza los análisis de regresión lineal simple y múltiple.15. Muestra: permite seleccionar una muestra aleatoria del tamaño indicado

por Número de muestras o una muestra periódica (sistemática) de periodo k tomando el k-ésimo elemento a partir del primero y luego el k-ésimo a partir del siguiente hasta agotarlos datos. Para seleccionar una muestra aleatoria teniendo sólo el tamaño poblacional N escriba los números 1, 2, 3,..., N y aplique la opción Muestra al rango que ellos cubren.

16. Prueba t para medias de dos muestras emparejadas: permite aplicar la prueba de hipótesis para las medias de dos poblaciones con distribuciones normales a partir de muestras aleatorias apareadas en los caso de regiones críticas de una y dos colas.

17. Prueba t para dos muestras suponiendo varianzas iguales: permite aplicar la prueba de hipótesis para las medias de dos poblaciones con distribuciones normales a partir de muestras aleatorias independientes con varianzas iguales en los caso de regiones críticas de una y dos colas.

18. Prueba t para dos muestras suponiendo varianzas desiguales: permite aplicar la prueba de hipótesis para las medias de dos poblaciones con distribuciones normales a partir de muestras aleatorias independientes con varianzas desiguales en los caso de regiones críticas de una y dos colas.

19. Prueba Z para medias de dos muestras: permite aplicar la prueba de hipótesis Z para las medias de dos poblaciones con distribuciones normales con varianzas conocidas a partir de muestras aleatorias independientes en los casos de regiones críticas de una y dos colas

En el epígrafe 5.4.12 se ofrecen ejemplos de aplicación de estas pruebas de Análisis de datos.

5.1.3. Funciones estadísticas de Excel

Tenga presente, antes de pasar a tratar la barra de funciones que siempre que haya un método estadístico en Análisis de datos del menú Herramientas se debe preferir, pues aporta mucha más información que el de una función de la barra de funciones que también lo realice. El Análisis de datos proporciona más o menos una hoja de resultados, como los paquetes estadísticos, pero las funciones por lo general ofrecen el resultado en una celda.

Además de estos 19 métodos de Análisis de datos, entre las funciones de Excel, que aparecen al hacer clic en el icono con forma de fx, de la barra de fórmulas, llamado Insertar función, que también aparece en el menú Insertar de la hoja de Excel, están, entre otras, la opción funciones estadísticas, que presenta más de 80 funciones que apoyadas con las matemáticas, las lógicas y otras, facilitan notablemente el cálculo y permiten ampliar enormemente las posibilidades de procesamiento estadístico. Además el asistente para gráficos es

Bioestadística cualitativa.indd 179 25/06/2010 12:20:38 p.m.

Page 190: Bi o e s ta d í s t i c a

180

especializado en gráficas de distribuciones de frecuencias, que son muy buenas y extraordinariamente sencillas de construir.

Además de las funciones estadísticas Excel ofrece:

− Financieras.− Texto.− Fecha y hora. − Lógicas. − Matemáticas y trigonométricas.− Información.− Base de datos.− Ingeniería.

Todas de una manera u otra, hacen su contribución en mayor o menor me-dida al trabajo estadístico.

Descripción de las funciones estadísticas

1. BINOM.CRIT: permite calcular k tal que P{X < k} = alfa, donde alfa es el tercer parámetro que pide, o sea, el percentil de orden alfa de la distribución binomial con parámetros n = ensayos y p = prob_éxito.

2. COEFICIENTE.ASIMETRIA: permite calcular el coeficiente de asimetría de una distribución.

3. COEF.DE.CORREL: permite calcular el coeficiente de correlación lineal de Pearson de dos variables.

4. COEFICIENTE.R2: permite calcular el coeficiente de determinación, cuadrado del coeficiente de correlación lineal de Pearson en el caso de la regresión simple.

5. CONTAR: permite contar cuántos números hay en el rango de celdas seleccionado desechando otros símbolos y celdas vacías.

6. CONTARA: permite contar el número de celdas que no están vacías y los valores que hay en el rango de celdas seleccionado.

7. CONTAR.BLANCO: permite contar el número de celdas en blanco de un rango.

8. CONTAR.SI: permite contar el número de celdas, dentro del rango, que cumplen la condición especificada.

9. CONTAR SIS: como el anterior, pero para múltiples condiciones (solo en Excel 2010).

10. CONTAR.SI.CONJUNTO: permite contar el número de celdas, dentro del rango, que cumplen varias condiciones. Está presente solo en Excel 2007.

11. COVAR: permite calcular la covarianza de las dos variables especificadas.

12. CRECIMIENTO: permite calcular valores en una tendencia exponencial dados los valores de x.

Bioestadística cualitativa.indd 180 25/06/2010 12:20:38 p.m.

Page 191: Bi o e s ta d í s t i c a

181

13. CUARTIL: permite calcular el cuartil de un conjunto de datos.14. CURTOSIS: permite calcular el coeficiente de curtosis de un conjunto

de datos.15. DESVIA2: permite calcular la suma de los cuadrados de las desviaciones

respecto a la media.16. DESVEST: permite calcular la desviación estándar muestral (cuyo

denominador es raíz de n – 1) del rango seleccionado. 17. DESVESTA: permite calcular la desviación estándar muestral de un

rango de valores que incluyen en el cálculo los valores de texto y lógicos como verdadero con valor 1 y falso con valor 0.

18. DESVESTP: permite calcular la desviación estándar poblacional (cuyo denominador es raíz de n) del rango seleccionado.

19. DESVESTPA: permite calcular la desviación estándar poblacional del rango de valores, que incluyen en el cálculo los valores de texto y lógicos como verdadero con valor 1 y falso con valor 0.

20. DISTR.T: permite calcular P{X > t} y P{|X| > t}.21. DISTR.T.INV: permite calcular la función inversa de la función

DISTR.T.22. DIST.WEIBULL: permite calcular las funciones distribución y de

densidad de Weibull.23. DESVPROM: permite calcular la desviación media o promedio de las

desviaciones absolutas de la media respecto a los datos.24. DISTR.BETA: permite calcular P{X > t} siendo X la variable aleatoria

con distribución beta y t un número real.25. DISTR.BETA.INV: permite calcular la función inversa de la función

DISTR.BETA.26. DISTR.BINOM: permite calcular la probabilidad de que una variable

aleatoria discreta con distribución binomial tome un valor determinado y el acumulado hasta él incluido.

27. DISTR.CHI: permite calcular la probabilidad de que una variable con una distribución ji cuadrado tome un valor mayor que el punto t introducido, esto es P{X > t}.

28. DISTR.EXP: permite calcular los valores de las funciones de densidad y de distribución exponencial

29. DISTR.F: permite calcular las funciones de distribución F(t) = P{X > t} y de densidad F de Fisher con los grados de libertad que se introduzcan.

30. DISTR.F.INV: permite calcular, dada la probabilidad p, el valor t tal que P{X > t} = p si X tiene distribución F de Fisher con los grados de libertad introducidos.

31. DISTR.GAMMA: permite calcular las funciones de distribución y densidad gamma.

32. DISTR.GAMMA.INV: permite calcular la función inversa de la distribución gamma acumulativa.

Bioestadística cualitativa.indd 181 25/06/2010 12:20:39 p.m.

Page 192: Bi o e s ta d í s t i c a

182

33. DISTR.HIPERGEOM: permite calcular la probabilidad de que una variable aleatoria discreta con distribución hipergeométrica tome un valor dado.

34. DISTR.LOG.INV: corresponde a la función DISTR.LOG.NORM.INV. Permite calcular la función inversa de la distribución log-normal.

35. DISTR.LOG.NORM: permite calcular la distribución log-normal acumulativa con media y desviación estándar dadas.

36. DISTR.NORM: permite calcular los valores de la función de distribución normal acumulativa, F(t) = P{X < t} dadas la media y la desvición estándar.

37. DISTR.NORM.ESTAND: permite calcular los valores de la función de distribución normal estándar acumulativa.

38. DISTR.NORM.ESTAND.INV: permite calcular el percentil de orden introducido de la distribución normal estándar.

39. DISTR.NORM.INV: permite calcular el percentil de orden introducido de la distribución normal con media y desviación estándar dadas.

40. ERROR.TIPICO.XY: permite calcular el error estándar de la regresión de y en x, o sea:

41. ESTIMACION.LINEAL: permite estimar los parámetros de una

tendencia lineal, es decir, los coeficientes de las variables independientes y el intersecto en la ecuación de regresión simple y múltiple, así como las estadísticas corrientes de la regresión Y = b0 + b1X1 + ... + bnXn.

41. ESTIMACION.LOGARITMICA: permite estimar los parámetros de una tendencia exponencial, o sea los coeficientes de las variables independientes y el intersecto en la ecuación de regresión Y = b0b1X1b2X2 … bnXn y las estadísticas asociadas con la regresión logaritmica ln(Y) = ln(b0) + ln(b1)X1 + … + ln(bn)Xn

42. FRECUENCIA: permite calcular una distribución de frecuencia como una matriz vertical.

43. FISHER: permite calcular la transformación Fisher o coeficiente z dada por

.

44. PRUEBA.FISHER.INV: permite calcular la función inversa de la transformación de Fisher, si y = FISHER (x) entonces PRUEBA.FISHER.INV(y) = x.

45. GAMMA.LN: permite calcular el logaritmo natural de la función gamma.

Bioestadística cualitativa.indd 182 25/06/2010 12:20:39 p.m.

Page 193: Bi o e s ta d í s t i c a

183

46. INTERSECCION.EJE: permite calcular la intersección de la línea de regresión lineal con el eje Y, o sea, el valor del intercepto b0 en la ecuación de regresión Y = b0 + b1X.

47. INTERVALO DE CONFIANZA: permite calcular dados

s, n y α (los valores de α son habitualmente 0,05; 0,01 y 0,10) que es el valor que se suma y se resta a la media para obtener el intervalo de confianza para la media de una población con distribución normal con varianza conocida utilizando como tal la desviación estándar estimada en la muestra. Si se divide entre el percentil correspondiente de la normal y se multiplica por el correspondiente de la t de Student se logra el valor que se le suma y resta a la media muestral para obtener el intervalo correspondiente para la media con varianza poblacional desconocida que si es el calculado en estadística descriptiva de Análisis de datos.

48. JERARQUIA: determina el lugar que ocupa un valor en un ordenamiento de mayor a menor de la lista de valores. Así el mayor número tendrá la jerarquía 1 y el valor menor tendrá la jerarquía n.

49. K.ESIMO.MAYOR: permite calcular el k-ésimo mayor valor de un conjunto de datos.

50. K.ESIMO.MENOR: permite calcular el k-ésimo menor valor de un conjunto de datos.

51. NORMALIZACION: permite normalizar o estandarizar un valor de un conjunto restándole la media y dividiendo la diferencia entre la desviación estándar del conjunto.

52. MAX: permite calcular el valor máximo del rango seleccionado.53. MAXA: permite calcular el valor máximo de una lista de argumentos,

incluidos números, texto y valores lógicos54. MEDIA.ACOTADA: permite calcular la parte de los datos de un

conjunto al que se le elimina un porcentaje de los datos más extremos (menores y mayores en la misma proporción).

55. MEDIA.GEOM: permite calcular la media geométrica.56. MEDIA.ARMO: permite calcular la media armónica.57. MEDIANA: permite calcular la mediana de los números dados.58. MIN: permite calcular el valor mínimo del rango seleccionado.59. MINA: permite calcular el valor mínimo de una lista de argumentos,

incluidos números, texto y valores lógicos.60. MODA: permite calcular el valor más frecuente de un conjunto de datos.60. NEGBINOMDIST: permite calcular la probabilidad de que una variable

aleatoria discreta con distribución binomial negativa tome un valor determinado.

61. PEARSON: permite calcular el coeficiente de correlación lineal de Pearson.

Bioestadística cualitativa.indd 183 25/06/2010 12:20:39 p.m.

Page 194: Bi o e s ta d í s t i c a

184

62. PENDIENTE: permite calcular la pendiente de la línea de regresión lineal o sea el coeficiente b1 de la ecuación de regresión Y = b0 + b1X.

63. PERCENTIL: permite calcular cualquier percentil de los valores de un rango.

64. PERMUTACIONES (n, k): permite calcular el número de variaciones sin repetición de n en k, es decir, el número de conjuntos ordenados de k elementos tomados de un conjunto de n elementos.

65. PROMEDIO: permite calcular el promedio (media aritmética) de los argumentos seleccionados.

66. PROMEDIOA: permite calcular el promedio de los argumentos seleccionados, incluidos números, texto y valores lógicos.

67. PROMEDIO.SI: permite calcular el promedio de todas las celdas del rango seleccionado que cumplen las condiciones fijadas.

68. PROMEDIO SIS: como el anterior, pero con condiciones múltiples (solo en Excel 2007 y 2010)

69. PROMEDIO.SI.CONJUNTO: permite calcular el promedio de todas las celdas del rango seleccionado que cumplen varias condiciones. Está presente solo en Excel 2007.

70. PRONOSTICO: permite calcular un valor específico de y para un valor de x dado evaluando la ecuación de regresión lineal de Y en X.

71. POISSON: permite calcular los valores de P{X ≤ k} y P{X = k} siendo X una variable aleatoria con distribución de Poisson con parámetro igual a la media introducida.

72. PROBABILIDAD: permite calcular la probabilidad de en un valor k o un intervalo de valores de k en una tabla distribución de probabilidades dadas P(X = k).

73. PRUEBA.CHI: permite calcular la probabilidad de que el estadígrafo ji cuadrado caiga en la región de rechazo de la hipótesis nula de independencia u homogeneidad, así como en la de bondad de ajuste. Vea su aplicación más abajo. Requiere introducir las tanto las frecuencias observadas como las esperadas.

74. PRUEBA.CHI.INV: permite calcular la función inversa de la función DISTR.CHI.

75. PRUEBA.F: permite calcular la probabilidad de rechazar la hipótesis de varianzas poblacionales iguales en el caso de regiones críticas de una cola dadas las dos muestras independientes.

76. PRUEBA.T: permite calcular la probabilidad asociada a las pruebas t de Student para las medias de dos poblaciones con varianzas iguales y la con varianzas desiguales para regiones críticas de una y dos colas en el caso de muestras independientes.

Bioestadística cualitativa.indd 184 25/06/2010 12:20:40 p.m.

Page 195: Bi o e s ta d í s t i c a

185

77. PRUEBA.Z: permite calcular el valor de la probabilidad de que el estadígrafo Z caiga en la región crítica de una cola en prueba z para la media de una población con varianza conocida.

78. RANGO.PERCENTIL: Permite calcular P{X < t} siendo t el percentil en cuestión.

79. TENDENCIA: permite calcular valores en una tendencia lineal.80. TRIMMEDIA: permite calcular la media del interior de un conjunto de

datos (solo en Excel 2010).81. VAR: calcula la varianza muestral (cuyo denominador n – 1) del rango

de valores seleccionado.82. VARA: permite calcular la varianza muestral, incluidos números, texto

y valores lógicos del rango de valores seleccionado.83. VARP: Permite calcular la varianza poblacional (cuyo denominador es

n) del rango de valores seleccionado.84. VARPA: permite calcular la varianza poblacional del rango de valores

seleccionado, que incluye números, texto y valores lógicos.

5.1.4. Distribuciones de frecuencias

Las distribuciones de frecuencias por conteo de valores individuales se pueden efectuar con el Excel, pero no opera matemáticamente con valores no numéricos. Para superar esta limitante basta con recodificar los datos a núme-ros e introducir estos números en una columna de Excel en lugar de los datos no numéricos y situar a su lado en otra columna las clases también en forma numérica, finalmente seleccionar la opción Histograma de Análisis de datos del menú Herramientas. También puede situar los datos en filas en lugar de en columnas.

Por ejemplo, la distribución de la variable grado de retraso mental, de la matriz de datos DatosM2 de la tabla 1.3, cuyos puntajes son:

G G G G G G G G L L L L L L L L L L L L M M M M MM M M M M M M M M M M M M M M S S S S S S S S S S

Se pueden recodificar así, manteniendo el orden:4 4 4 4 4 4 4 4 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 22 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3

Y poniendo, por ejemplo, estos 50 datos numéricos en una sola fila, la fila 1 de una hoja de Excel y los números 1, 2, 3 y 4 como clases en la fila 2 de una hoja de Excel e introduciéndolas convenientemente en el cuadro de diálogo de la opción Histograma se obtiene la tabla de 5.1.

Las clases no numéricas se agregan a posteriori. Debe tenerse cuidado de que las clases literales y los números mantengan el orden original de los datos. Otra

Bioestadística cualitativa.indd 185 25/06/2010 12:20:40 p.m.

Page 196: Bi o e s ta d í s t i c a

186

forma de hacerlo es utilizando la función frecuencia en la celda C2, después de haber dispuesto los datos previamente en una sola columna, en el rango A2:A51 con el encabezamiento Datos en A1 y las clases 1, 2, 3 y 4 en el rango B2:B5 con el encabezamiento Grupos, de modo que los argumentos de la función fre-cuencia sean A2:A51 y B2:B5. En B1 se escribe la palabra frecuencias. Ahora en D2 se inserta la función =FRECUENCIA(A2:A51;B2:B5). Por último se selecciona el rango C2:C5, se oprime F2 y la combinación de Ctrl+Shift+Enter (Ctrl+Mayúsculas+Entrar) para obtener las frecuencias deseadas en C2:C5, que son las mismas obtenidas en la tabla 5.1.

Tabla 5.1. Distribución de frecuencias con clases numéricas de la variable grado de retraso mental

A Clases B Clases numéricas C FrecuenciaLigero 1 12

Moderado 2 20Severo 3 10Grave 4 8

Si se desea se sustituyen los números 1, 2, 3 y 4 por ligero, moderado, severo y grave en la primera columna por las clases originales y, eliminando lo superfluo, se obtiene la tabla 5.2.

Tabla 5.2. Distribución de frecuencias con las clases originales

Grado de retraso mental FrecuenciaLigero 12

Moderado 20Severo 10Grave 8

Aunque aun no se han empleado números con decimales, hay que tener en cuenta que en Windows se configura el símbolo de separación decimal y otros en la opción Personalizar de Configuración regional y de idioma del panel de control.

En Excel se puede cambiar en el menú Herramientas/Opciones/ Interna-cional y marcar en usar separador decimal y marcar el punto o la coma, según conveniencia y como separador de cifras cualquier otro. Debe cerrarse Excel y después abrirse nuevamente para que tengan efecto los cambios. También se puede cambiar el signo de separación de decimales en los números con la opción Usar separador del sistema (o no) de la opción Internacional del menú Opciones. Y si no se desea cambiar definitivo, se selecciona el rango del conjunto de datos al que se le desea cambiar y con la opción Buscar/Reemplazar donde se debe escribir coma (,) por punto (.) o punto (.) por coma (,) según convenga. La computadora en que usted esta trabajando puede tener punto o coma.

Bioestadística cualitativa.indd 186 25/06/2010 12:20:40 p.m.

Page 197: Bi o e s ta d í s t i c a

187

Las fórmulas de Excel que se ofrecen usan la coma como separador deci-mal, por lo que si el Windows de su PC tiene la configuración de punto como separador decimal tendrá que cambiar todos los puntos decimales de la fórmula por comas decimales antes de operar con ellos en Excel, de lo contrario el sis-tema considerará los números y fórmulas una sucesión de caracteres de texto sin ningún significado numérico. Esto a menudo es motivo de preocupación y desesperación porque el Excel no procesa sin causa aparente. Para comprobar si el símbolo de separación decimal está equivocado realice cualquier operación aritmética con varios de los números con decimales y si da error es que está equivocado el separador decimal.

Manejo de datos

Por ejemplo los puntajes de la variable grado de retraso mental del ejemplo anterior se presentaron así:

G G G G G G G G L L L L L L L L L L L L M M M M MM M M M M M M M M M M M M M M S S S S S S S S S S

Para pasarlos a un software estadístico o al propio Excel en una sola co-lumna, se puede proceder así:

1. Se copian y pega en Excel en la celda A1, con lo que quedarán copiados a partir de la celda A1:Y2.

2. Se copia este rango ocupado de A1 a Y2 de Excel y luego se pega en A3 con la opción Pegado especial del clic derecho o del menú Edición, con la opción Transponer del cuadro de diálogos Pegado especial seleccionada, con lo que quedarán los datos en dos columnas ocupadas del rango A3:B27. Por último se eliminan las líneas 1 y 2 de Excel para que los datos queden en el rango A1:B25 y el resto de la hoja limpio. Si se desea una solo columna con los 50 datos se corta el rango B1:B25 y se pega a partir de la celda A26.

5.1.5. Distribuciones de frecuencia por intervalos de clases

En el caso de las variables que requieren este tipo de distribución de frecuencias, por tener muchos puntajes distintos, por ejemplo, para los 50 coeficientes de inteligencia CI1 de la matriz de datos DatosM2 de la tabla 1.3, poniendo en la fila encabezada por A1 los 50 valores de CI1 encabezados por arriba por CI1 y las 8 clases 10, 20, 30, 40, 50, 60, 70, 80 en la segunda columna, a partir de B1 encabezadas por la palabra clases y seleccionando en el menú Herramientas/Análisis de datos/Rango de entrada Aceptar: A1:A51/Rango de clases: B1: B9/Rótulos (marcarlo)/Aceptar, se obtiene de la distri-bución de la tabla 5.3.

Bioestadística cualitativa.indd 187 25/06/2010 12:20:40 p.m.

Page 198: Bi o e s ta d í s t i c a

188

También se puede obtener, utilizando la función frecuencia en la celda C1, después de obtener la frecuencia 0 en C1, seleccionar C1:C9 presionar la tecla F2 y a continuación la combinación de teclas Ctrl. + Mayus. + Enter.

Los intervalos obtenidos por cualquiera de los dos procedimientos coinciden y en este caso de la tabla 5.3 se reconstruyen para ofrecer más claridad.

Tabla 5.3. Distribución de frecuencias por intervalos

No aportado por Excel Aportado por ExcelIntervalos de clase de CI1

reconstruidos Frecuencia Extremos superiores delos intervalos de clase

0 < x ≤ 10 0 1010 < x ≤ 20 1 2020 < x ≤ 30 4 3030 < x ≤ 40 7 4040 < x ≤ 50 10 5050 < x ≤ 60 17 6060 < x ≤ 70 7 7070 < x ≤ 80 4 80

Los intervalos son abiertos por la izquierda y cerrados por la derecha. La fila de 0 a 10 se puede eliminar por tener frecuencia 0, pero se dejó para saber que es 10 el extremo inferior del segundo intervalo.

Representaciones gráficas

Estas se realizan mediante histogramas (barras), polígonos (líneas) y gráficas circulares (pasteles), se construyen en Excel seleccionando la distribución de fre-cuencias: clases y frecuencias si las clases no son numéricas y solo las frecuencias si las clases son numéricas, y haciendo clic en el Asistente para gráficos que apa-rece como botón en la barra de herramientas estándar o en el menú Insertar.

5.1.5. Coeficientes de correlación

Para calcular el coeficiente de correlación lineal de Pearson se utiliza la función COEF.DE.CORREL y se seleccionan las dos columnas o filas de datos numéricos apropiados.

1. Coeficiente de correlación de rangos de Spearman: se puede calcular rangueando primeramente los datos de cada variable (asignando el 1 al menor, el 2 al siguiente menor, el 3 al siguiente menor y así sucesivamente hasta asignar n al máximo. Si hay rangos ligados (repetidos) se le asigna a cada rango repetido el promedio de sus posibles rangos.

2. Coeficiente de correlación punto biserial :

Bioestadística cualitativa.indd 188 25/06/2010 12:20:41 p.m.

Page 199: Bi o e s ta d í s t i c a

189

a) Caso de una variable dicotómica y varias en escala de intervalo o razón:

Con el objetivo de simplificar, en este ejemplo solo se utilizarán los 20 primeros individuos (tabla 5.4). Se calculará inicialmente el coeficiente entre sexo y la primera variable Edc para luego rellenar con él y obtener los demás coeficientes.− Para calcularlo entre, por ejemplo, el sexo y las variables en escala

de intervalo EdC, CI1, CI2 y CI3 de la muestra DatosM2 se sitúan los datos de estas cinco variables en las el rango A1:E51, incluyendo los nombres de las variables en la primera fila como en la tabla 5.4.

Tabla 5.4. Cálculo del coeficiente de correlación punto biserial de una dicotómica y varias de intervalo

A B C D E FSexo EdC CI1 CI2 CI3 p

F 9,88 67,1 69,2 29,5 qF 7,31 70,5 70,1 39,1 Media FF 3,04 50,8 41,8 35 Media MF 12,8 53,1 47,6 35,4 SY

F 7,23 63,2 63,6 60,4 r.bisF 14,67 57,1 51,9 47,7F 7,33 73 71,3 53,4F 17,45 32,5 27,1 52,9F 16,26 63,8 67,5 23,9F 6,08 43,1 34,8 33,8M 7,02 43 31,6 36,1M 7,61 46,3 37,7 53,3M 10,35 57,9 52,5 37,1M 7,8 57,3 52,2 75,5M 8,33 52,4 46 34,7M 9,16 28,9 22,7 46,7M 5,13 40,2 28,8 39,4M 11,81 60,2 59,2 42,7M 6,37 23,8 17,3 49,5M 20,51 45,2 37,2 39,4

− Se ordenan por la variable sexo, con la opción ordenar del menú Da-tos, para facilitar el cómputo de las proporciones p y q y de las otras variables para los individuos de cada sexo. En el rango F1:F6 se sitúan los nombres o símbolos que aparecen en la tabla 5.4 para calcularlos inicialmente en la columna G para la primera variable EdC.

Bioestadística cualitativa.indd 189 25/06/2010 12:20:41 p.m.

Page 200: Bi o e s ta d í s t i c a

190

− Se cuenta el número de femeninos en la columna A y se divide entre n = 20 en la celda G1 poniendo en ella para estos datos = 10/20, que será el valor de la proporción p de las hembras, en la celda G2 se calcula la proporción q de los varones mediante la fórmula = 1 – G1. Luego se calcula la media de primera variable EdC en la celda G3, para las hembras, haciendo clic en la saeta negrita que apunta hacia abajo, situada al lado derecho del botón Σ de la barra de herramientas estándar, se selecciona la opción promedio y se marcan con el marcador que aparece las celdas B2:B11 que corresponden a las EdC de las hembras. A continuación se calcula en la celda G4, de forma análoga, el promedio de EdC para los varones (de los datos situados en B12:B21). Luego se calcula en G5 la desviación estándar de EdC con la función =DESVEST(B2:B21) y por último, en G6 el coeficiente punto biserial entre sexo y EdC mediante la fórmula =((G3-G4)*RAIZ(G1*G2))/G5, que proporciona el valor r.bis(sexo, EdC) ≈ 0,090933.

− Se seleccionan las celdas del rango G1:G6 y se rellena con su con-tenido las celdas del rango H1:J6, arrastrando lo seleccionado hacia la derecha por el punto negro del extremo inferior derecho de las celdas seleccionadas. Los tres restantes coeficientes punto biserial aparecerán en el rango H6:J6 y serán iguales a 0,448717; 0,488914; –0,186549. En la tabla 5.5 se ofrecen las fórmulas usadas.

Tabla 5.5. Fórmulas a desarrollar en el cálculo de los coeficientes punto biserial

Columna F G Fórmulas G cálculosFila Símbolos Funciones y operaciones utilizadas Cálculos

2 p =10/20 0,53 q =1-0,2 0,54 Media M =PROMEDIO(B2:B11) 10,2055 Media F =PROMEDIO(B12:B21) 9,4096 DE de Y =DESVEST(B1:B21) 4,376835737 R·biserial =(G3-G4)*RAIZ(G1*G2)/G5 0,09093327

b) Caso de varias variables dicotómicas B, C y D y una en escala de intervalo o razón D como en la tabla 5.6 en que solo se utilizarán 20 individuos.

Y como no se puede ordenar por una variable en escala dicotómica como se hizo en el caso anterior, porque se desordenarían las demás dicotómicas cada vez, hay que adoptar en este caso otro criterio: sea la variable Y la que está en escala de intervalo o razón de la columna E de la tabla 5.7.

Bioestadística cualitativa.indd 190 25/06/2010 12:20:41 p.m.

Page 201: Bi o e s ta d í s t i c a

191

Al rango de la tabla 5.6 en una hoja de Excel se le agrega al final, a partir de la fila 22, en la columna A, como se muestra en la tabla 5.7, los elementos para calcular el coeficiente punto biserial (se incluye la columna fila en la tabla 5.7 para que se sepa que fila se trabaja).

Tabla 5.6. Cálculo del coeficiente punto biserial de varias dicotómicas y una de intervalo

A B C D E1 1 1 1 232 1 1 1 143 1 1 1 244 1 1 1 335 0 0 1 136 1 1 1 277 1 1 1 268 1 1 1 299 0 0 0 11

10 1 1 1 2511 1 1 1 2312 1 1 1 2313 1 1 1 3314 1 1 1 3115 1 1 1 2616 1 1 1 3117 1 1 1 2518 1 1 1 3319 1 1 1 3020 1 1 1 25

Tabla 5.7. Fórmulas para desarrollar el cálculo de los coeficientes de la tabla 5.6

Fila A B fórmulas B valores22 n0 =CONTAR.SI(B1:B20;0) 223 n1 =20-B22 1824 p0 =B22/20 0,125 p1 =1-B24 0,926 Suma0 =SUMAR.SI(B1:B20;0;D1:D20) 2427 Suma1 =SUMAR.SI(B1:B21;1;D1:D20) 48128 Media0 =B26/B23 1229 Media1 =B27/B25 26,722222230 6,26593207 =DESVEST(D1:D20) DesvSt31 r.bis =RAIZ(B23*B25)*(B27-$B$29)/B30 –0,68767407

Bioestadística cualitativa.indd 191 25/06/2010 12:20:42 p.m.

Page 202: Bi o e s ta d í s t i c a

192

− Después se calcula en la celda B23 la cantidad de unos de la va-riable de la columna A con la función =CONTAR.SI(B1:B20;0) y se halla =B22/20 en la celda B24 para obtener la proporción p de ceros. Después se calcula en la celda B24 la cantidad de unos con la fórmula =20-B22 y en la celda B25 se calcula B23/20 para obtener la proporción q de unos.

− Se calcula en B26, mediante la fórmula =SUMAR.SI(B1:B20;0;D1:D20) la suma de la variable Y para el valor 0 de la primera variable dico-tómica de la columna B y a continuación en la celda B28 se calcula le media =B26/B23 de Y para los que tienen el valor 0 en la primera variable dicotómica de la columna B. Análogamente se hallan en las celdas B27 y B29 la suma y la media de la variable Y de los que tienen 1 en la primera variable de la columna B.

− Una vez calculadas las medias se calcula entonces la desviación estándar de la variable Y en la celda B30, que será la única des-viación estándar de estas cuatro variables, y por último en la celda B31 se calculará el coeficiente punto biserial mediante la fórmula =RAIZ(B24*B25)*(B28-B29)/$B$30. Los signos de $ indican que luego, al rellenar, se considerará constante el valor de la celda B30, por ser comun la desviación estándar.

− Por último se selecciona el rango B22:B31 y por el punto negro de su esquina inferior derecha se arrastra hasta la columna E para rellenar el rango C22:E31 para obtener los restantes coeficientes de correlación punto biseriales en B31:E31.

La tabla 5.7 muestra las fórmulas y valores obtenidos al realizar estos pasos.

5.1.6. Pruebas ji cuadrado de independencia y homogeneidad y de significación del coeficiente de correlación V de Cramér

Para aplicar la prueba ji cuadrado de independencia, homogeneidad y bon-dad de ajuste con el Excel se escriben las frecuencias observadas y esperadas en dos rangos de columnas o filas, las observadas se obtienen del problema como datos, las esperadas se pueden calcular con el Excel con las funciones aritméticas a partir de las frecuencias observadas.

La función PRUEBA.CHI(A1:C5; E1:G5), aplicada en la celda A10, con las frecuencias observadas en A1:C5 y las esperadas en E1:E5, halla la probabilidad crítica de que el estadígrafo caiga en la región crítica en la prueba de indepen-dencia, homogeneidad y bondad de ajuste, la que permite tomar la decisión de rechazar la hipótesis de independencia, la de homogeneidad de filas o columnas de la distribución bivariada de frecuencias en A1:C5 y la de bondad de ajuste, en las que se rechaza la hipótesis nula si PRUEBA.CHI(A1:C5; E1:G5) resulta menor que el nivel de significación α. El valor aproximado del estadígrafo χ2 se calcula entonces si se desea con la función PRUEBA.CHI.INV(A10;gl).

Bioestadística cualitativa.indd 192 25/06/2010 12:20:42 p.m.

Page 203: Bi o e s ta d í s t i c a

193

Que si se aplica a la probabilidad obtenida con la función PRUEBA.CHI, en A10 que es la celda en que se evalúa la función y gl son los grados de libertad de la distribución ji cuadrado aproximada, que son iguales al número de filas menos 1 por el número de columnas menos 1.

Por ejemplo, para los datos del ejemplo 3.16 de la prueba de homogenei-dad ji cuadrado la distribución de frecuencias bivariadas es la de la tabla 5.8, dispuesta en el rango A1:C5 de una hoja del Excel.

Tabla 5.8. Datos para la prueba ji cuadrado

Filas Frecuencias observadasA B C

1 20 18 202 17 16 143 13 12 84 11 9 75 11 10 15

La tabla de frecuencias esperadas correspondiente se dispone en el rango E1:G5, después de calcular las sumas de las filas y las columnas en los rangos A7:C7 y D2:D6 y la suma total en D7. La frecuencia esperada de una celda se obtiene multiplicando la suma de las frecuencias observadas de su fila por la suma de las frecuencias observadas de su columna y dividiendo el producto obtenido entre la suma de todas las frecuencias de observadas de la tabla.

Se expone el proceso para calcular los valores de las frecuencias esperadas en el rango E1:G5 como se exponen en la tabla 5.9, en el mismo rango E1:G5, porque las fórmulas que aparecen en la parte superior de las celdas están ocultas en Excel y lo que se ve son los valores resultantes de la parte inferior de las celdas.

Tablas 5.9. Cálculo de las frecuencias esperadas

Fórmulas y valores de las frecuencias esperadasE F G

1 =D2*$A$7/$D$720,7761194

=D2*$B$7/$D$718,7562189

=D2*$C$7/$D$718,4676617

2 =D3*$A$7/$D$716,8358209

=D3*$B$7/$D$715,199005

=D3*$C$7/$D$714,9651741

3 =D4*$A$7/$D$711,8208955

=D4*$B$7/$D$710,6716418

=D4*$C$7/$D$710,5074627

4 =D5*$A$7/$D$79,67164179

=D5*$B$7/$D$78,73134328

=D5*$C$7/$D$78,59701493

5 =D6*$A$7/$D$712,8955224

=D6*$B$7/$D$711,641791

=D6*$C$7/$D$711,4626866

Las sumas de las filas y las columnas de las frecuencias esperadas deben ser iguales a las de las frecuencias observadas. Las diferencias que puedan existir se deben a la aproximación por redondeo o truncamiento a pocos decimales.

Bioestadística cualitativa.indd 193 25/06/2010 12:20:42 p.m.

Page 204: Bi o e s ta d í s t i c a

194

La probabilidad crítica obtenida aquí, en la celda A10 es:

PRUEBA.CHI(A2:C6; E2:G6) = 0,91677464.

Como resulta no menor que 0,05 se puede decidir que no se rechaza la hipótesis nula de independencia (o la de homogeneidad) con nivel de signifi-cación de 0,05.

Si a esta probabilidad crítica 0,91677464 se aplica en la celda A11 la función =PRUEBA.CHI.INV(E10;2), se obtiene el valor del estadígrafo ji cuadrado para esta tabla de contingencia:

χ2 ≈ 3,26315192

Se aprovecha para calcular el coeficiente de correlación V de Cramér entre la variable fila y la variable columna de la tabla 5.8, y puesto que n = 201 y k =3 = Min(5, 3), se plantea en H3, la fórmula =RAIZ(E11/(D7*(3-1))), a partir de la expresión:

)1(

2

−χ=kn

V

Se obtiene el valor V ≈ 0,09009602, lo que indica muy poca correlación, lo que es resultado de que no se rechace la independencia, porque independencia implica incorrelación.

La disposición de las frecuencias y los resultados aparecen en la tabla 5.10 con los encabezamientos de las columnas como en Excel.

Tabla 5.10. Aplicación de la prueba ji cuadrado y cálculo de V

A B C D E F G H H

1 20 18 20 58 20,78 18,76 18,47 =PRUEBA.CHI(A1:C5;E1:G5) 0,92

2 17 16 14 47 16,84 15,20 14,97 =PRUEBA.CHI.INV(H1;2) 3,26

3 13 12 8 33 11,82 10,67 10,51 =Raiz(H2/(201*3) 0,09

4 11 9 7 27 9,67 8,73 8,60

5 11 10 15 36 12,90 11,64 11,46

Suma 72 65 64 201 72,01 65 64,01

Prueba ji de bondad de ajuste

PRUEBA.CHI también ofrece el valor del estadígrafo en la prueba de bondad de ajuste ji cuadrado, por ejemplo, para la hipótesis:

H0: La distribución de las frecuencias de las cinco categorías de la primera fila de la tabla 5.11 es homogénea. En esta tabla se ofrecen las frecuencias obser-vadas y esperadas para verificar que se cumplen las condiciones de la prueba.

Bioestadística cualitativa.indd 194 25/06/2010 12:20:43 p.m.

Page 205: Bi o e s ta d í s t i c a

195

Tabla 5.11. Frecuencias observadas y esperadas para la prueba de bondad de ajuste

Categoría B C D E F

Frecuencia observada 20 17 13 11 11

Frecuencia esperada 14,2 14,2 14,2 14,2 14,2

Para aplicar la prueba se copia y pega la tabla 5.11 en el rango A1:F3 y se sitúa el puntero en A4 donde se inserta la función PRUEBA.CHI(B2:F2;B3:F3) que proporciona el valor 0,35592642 y Como este valor no es menor que 0,05 no se rechaza H0 con nivel de significación de 0,05. Sobre la base de estos datos no se puede afirmar que la distribución en las cinco categorías no es homogé-nea. Si se desea el valor del estadígrafo se halla aplicando a esta probabilidad la función PRUEBA.CHI.INV(A4;4) con 5 – 1 = 4 grados de libertad que proporciona el valor 4,388888889.

5.1.7. Cálculo de probabilidades y percentiles de las distribuciones normal, t de Student, ji cuadrado y de Fisher‑Snedecor

La distribución de probabilidades que se usa en este libro es la definida por F(t) = P{X < t}, F se denomina función de distribución de la variable aleatoria X, definida por la probabilidad P{X < t} de que X tome un valor menor que el número real t, que representa el percentil de orden P{X < t} de la distribu-ción X. Pero con cierta frecuencia se usan también en otros textos y paquetes de software otras variantes como P{X ≤ t}, P{X > t}, P{|X| < t} y P{|X| > t}. Excel utiliza varias según la función específica de que se trate y para ajustarla a determinadas pruebas se harán los ajustes necesarios para calcular cualquier probabilidad o percentil en función de F y del percentil t.

1. Distribución normal con media µ y varianza σ2

Los valores de F(t) o probabilidades acumulativas y los percentiles t de esta distribución normal con parámetros µ y σ2 se calculan mediante la función de distribución P(X < t) =DISTR.NORM(t;µ;σ;1), donde 1 indica que es acu-mulativa, si en su lugar se pone 0 se obtendrá la función de densidad normal correspondiente.

También se necesita calcular en algunas pruebas de hipótesis y cálculos:

P{|X| > t} = 1 – P{|X| < t} = 1 – P{X < t} + P{X < –t} = 2-2*DISTR.NORM(t;µ;σ;1)

P{X > t} = 1 – P{X < t} = 1-DISTR.NORM(t;µ;σ;1)

P{|X| < t} = P{X < t} – P{X < –t} = 2P{X < t} – 1 = 2DISTR.NORM(t;µ;σ;1)-1

Bioestadística cualitativa.indd 195 25/06/2010 12:20:43 p.m.

Page 206: Bi o e s ta d í s t i c a

196

El percentil t de orden P(X < t) se obtiene mediante la función: t =DISTR.NORM.INV(p;µ;σ) donde p se introduce y coincide con P{X < t}

Excel también proporciona la distribución normal estándar representada por la función Φ, para la cual µ = 0 y σ = 1:

Φ(z) = P{Z < z} =DISTR.NORM.ESTAND(z)Zp =DISTR.NORM.ESTAND.INV(p)P{|Z| > z} = 2-2*DISTR.NORM.ESTAND (z)

Y se tiene que { }

σµ−Φ=< t

tXP para todo µ y σ reales tales que σ > 0.

O sea, DISTR.NORM(t;µ;σ;1) = DISTR.NORM.ESTAND(z) y σ−= 4tz

El percentil de orden p, o sea, z tal que Φ(z) = P(Z < z) = p lo calcula la función:

=DISTR.NORM.ESTAND.INV(p)Por ejemplo, si X es una variable aleatoria con distribución normal con

media µ = 73 y desviación estándar σ = 8 se tiene que:

P{X < 80} = DISTR.NORM(80;73;8;1) = 0,80921305P{X > 80} = 1 – P{X < 80} = 0,19078695

= DISTR.NORM(70;73;8;1) = 0,35383023

P{70 < X < 80} = P{X < 80} – P{X < 70} = 0,80921305 – 0,35383023 Y como P{X = t} = 0, entonces P{X ≤ t} = P{X < t} para todo número

real t.

2. Distribución t de Student con n grados de libertad

P{T > t} =DISTR.T(t;gl;1), donde 1 indica el caso de regiones críticas de una cola, entonces F(t)= P{X < t} =1-DISTR.T(t;gl;1) y DISTR.T(t;gl;1) = 1 – F(t).

P{|T| > t} =DISTR.T(t;gl;2) que calcula P{|T| > t} donde 2 indica el caso de regiones críticas de dos colas y entonces DISTR.T(t;gl;2) = 2 – 2F(t) y

.

Por ejemplo, P{T > 3} = DISTR.T(3;9;1) = 0,007478182P{|T| > 3} = DISTR.T(3;9;2) = 0,014956364=DISTR.T.INV(p;k) calcula t tal que P{|X| > t} = p para X variable aleatoria

con distribución t de Student con k grados de libertad, entonces:

DISTR.T.INV(α;n−1) = )1(2

1−α−

nt y )1(1 −α− nt =DISTR.T.INV(2α;n-1)

Por ejemplo t0,975(9) = DISTR.T.INV(0,05;9) = 2,26215716

Bioestadística cualitativa.indd 196 25/06/2010 12:20:43 p.m.

Page 207: Bi o e s ta d í s t i c a

197

3. Distribución ji cuadrado con n grados de libertad

)1(2 −χα n = PRUEBA.CHI.INV(1-α;n-1) es el percentil de orden α de la distribución ji cuadrado con n – 1 grados de libertad.

P{X > t} =DISTR.CHI(t;k) donde X es una variable aleatoria con distribu-ción ji cuadrado con k grados de libertad, entonces:

F(t) = 1 – DISTR.CHI(t;k) y DISTR.CHI(t;k) = 1 – F(t)

Por ejemplo:P{X< 5} = 1 – DISTR.CHI(5;9) = 1 – 0,834308264 = 0,16569174

)9(2975,0χ = PRUEBA.CHI.INV(0,025;9) = 19,0227678

4. Distribución F de Fisher-Snedecor

P{X > t} = DISTR.F(t;n1,n2) donde X es una variable aleatoria con distri-bución F de Fisher con n1 y n2 grados de libertad, entonces:

F(t) =1 – DISTR.F(t;n1,n2) y DISTR.F(t;n1,n2) = 1 – F(t)

F1 – α (n1, n2) =DISTR.F.INV(α; n1;n2) calcula t tal que P{X > t} siendo X una variable aleatoria con distribución F con n1 y n2 grados de libertad.

Por ejemplo: P{ X < 4,5 } = 1 – DISTR.F(4,5;10,6) = 1 – 0,03953575 = 0,96046425 F0,975 (101,6) =DISTR.F.INV(0,025;10;6) = 5,46132372

5.1.8. Problemas de estadística tratados en capítulos anteriores resueltos con Excel

Ahora se demostrará como se pueden resolver problemas estadísticos di-versos con Análisis de datos, funciones y otras herramientas de Excel.

5.1.8.1. Dócimas para proporciones.

1. Exacta F para la proporción de una población

Solución con Excel del ejemplo 3.10, que plantea que el 30 % de los estudiantes tienen una opinión positiva. Se seleccionan aleatoriamente cinco estudiantes del grupo y se encuentran dos con la opinión positiva, α = 0,01.

Hipótesis: H0: P = 0,30 contra H1: P ≠ 0,30

Datos: n = 5; k = 2; P0 = 0,30; Q0 = 0,70; α = 0,01 y 52=p = 0,40 > 0,30

Se pone en A1:B9 los datos, sin contar el encabezamiento como se muestra en la tabla 5.12, que simula un fragmento de una hoja de Excel, y se calculan:

0

0mQrPF = , m = 2(k + 0,5) y r = 2(n – k + 0,5)

Bioestadística cualitativa.indd 197 25/06/2010 12:20:44 p.m.

Page 208: Bi o e s ta d í s t i c a

198

Tabla 5.12. Muestra de la aplicación de la prueba F para la una proporción

Símbolos Cálculos ValoresA B Valor de B

1 α 0,012 P0 0,33 Q0 =1-B1 0,74 p 0,45 n 56 k 27 r =2*(B5-B6+0,5) 78 m =2*(B6+0,5) 59 F =(B7*B2)/(B8*B3) 0,6

10 F0,995 (5,7) =DISTR.F.INV(0,005;5;7) 9,5211 P{X > 3,2666667} =DISTR.F(B8;5;7) 0,7032711

=SI(B9<B1;“Se rechaza”;“No se rechaza”) H0 con α = 0,01

2. Cálculo de los estadígrafos de las dócimas para las proporciones de dos poblaciones en caso de muestras independientes y apareadas grandes

Las de muestras apareadas son las de dos proporciones en una población en los casos de que las características en cuestión sean mutuamente excluyentes o no excluyentes. Estas dócimas no vienen programada en los paquetes estadísticos modernos conocidos esta es una buena razón para abordarlos con el Excel .

El rango de celdas utilizado es A1:C9, sin incluir el encabezado, cubre los tres los casos de muestras independientes y muestras apareadas de excluyentes y no excluyentes.

Hipótesis común H0: No hay diferencias entre las proporciones poblacionales.Se sitúan los datos como en la tabla 5.13, donde se realizarán los cálculos

según las fórmulas que se ofrecen después de la tabla.

Tabla 5.13. Los tres casos de cálculo de los estadígrafos y las probabilidades críticas

Independientes Excluyentes No excluyentesA B C D

1 P1 0,56 0,3 0,682 P2 0,4 0,4 0,483 P12 - - 0,164 m 25 - -5 n 50 - -

Bioestadística cualitativa.indd 198 25/06/2010 12:20:44 p.m.

Page 209: Bi o e s ta d í s t i c a

199

6 p 0,45333333 - -7 z 1,3121221 –0,851257 1,58113888 P{|Z| > z} 0,18947894 0,39462661 0,11384639 α 0,05

=SI(B8<B9;“Se rechaza”;“No se rechaza”) H0 con α = 0,01

Para calcular las probabilidades críticas se utiliza la función:

=DISTR.NORM.ESTAND.

De acuerdo a las celdas descritas por la tabla 5.12 en el caso de muestras independientes se tiene:

p =(B3*B1+B4*B2)/(B4+B5)Z=(B1-B2)/RAIZ(B1* (1-B1)*((1/B4)+(1/B5)))P{|Z| > z} = 2 – 2*DISTR.NORM(z;µ;σ;1)

Y se calcula, para la columna B:

P{|Z| > B7} = 2 – 2*DISTR.NORM(B7;µ;σ;1) en el caso de región crítica de dos colas.

P{Z > B7} = 1 – DISTR.NORM(B7;µ;σ;1) en el caso de hipótesis alternativa H1: P1 > P2 y región crítica de una cola.

P{Z < B7} = DISTR.NORM(B7;µ;σ;1) en el caso de hipótesis alternativa H1: P1 < P2 y región crítica de una cola.

Y se procede análogamente en las otras dos columnas C y D.En el caso de características mutuamente excluyentes, de acuerdo a las

celdas descritas por la tabla 5.13 , se pone P1 en la celda C1, P2 en la celda C2, m en la celda B4 y n en celda B5.

Z = (C1-C2)/RAIZ((C1*(1-C1)+C2*(1-C2)+2*C1*C2)/(C4+C5))

Estadígrafo para el caso de características mutuamente no excluyentes, de acuerdo a las celdas descritas por la tabla 5.13:

Z = ((D1-D2)/RAIZ((D1*(1-D1)+D2*(1-D2)+2*(D1*D2-D3))/(D4-D5)))

Todos los resultados numéricos aparecen en la tabla 5.12.

5.1.8.2. Cálculo de los valores de la función de probabilidad hipergeométrica para la prueba de la probabilidad exacta de Fisher

Se logra evaluando la función: =DISTR.HIPERGEOM(k;n;M;N).

Donde:k: representa el número de elementos en la muestra con éxito (Muestra_éxito)n: representa el tamaño muestral (Num_de_muestra).

Bioestadística cualitativa.indd 199 25/06/2010 12:20:44 p.m.

Page 210: Bi o e s ta d í s t i c a

200

N: representa el tamaño poblacional (Num_de_población).M: que representa el número de elementos de la población con la éxito

(Población_éxito).

Para el ejemplo 3.18 DISTR.HIPERGEOM(2;8;10;20) = 0,07501786. Las probalidades acumulativas se obtienen sumando varias absolutas, por ejemplo:

P{X < 2} = DISTR.HIPERGEOM(1 ;8 ;10 ;20 ) + DISTR.HIPERGEOM(0;8;10;20)

= 0,009526 + 0,000357 = 0,009883P{X ≤ 2} = P{X = 0} + P{X = 1} + P{X ≤ 2} = 0,009883 + 0,075018 =

0,084901

5.1.8.3. Prueba de McNemar

La tabla 5.14 contiene el rango B2:C3 con los datos y los cálculos a con-tinuación en B3:B4.

Tabla 5.14. Aplicación de la prueba de Mc Nemar

Fila A BAceptable

CMalo

DValor de C

1 Malo 5 132 Aceptable 4 73 Estadígrafo χ2 =((A1-B2)-1)^2/(A1+B2) 0,754 Probabilidad crítica P(χ2 > 0,75) =DISTR.CHI(B3;1) 0,38647623

Para calcular el valor del estadígrafo ji cuadrado se escribe su fórmula en la celda C3 y al evaluarse aparece 0,75 que aparece en la celda D3.

La probabilidad crítica P(χ2 > 0,75) se obtiene aplicando la función indicada en B4, que con la fórmula de C4, proporciona el valor 0,38647623 que aparece en la celda D4. En la columna C se muestran los valores de las fórmulas que en Excel se escribirán y los resultados numéricos en la columna D.

5.1.8.4. ANOVA de razón de varianza para tres o más proporciones

1. ANOVA de razón de varianza

Con los datos del rango B2:D3 de la tabla 5.15 en el rango A1:D11 de una hoja de Excel se obtiene:

H0: No hay diferencia entre las proporciones poblacionales.

En la tabla 5.15 se obtienen los resultados.

Bioestadística cualitativa.indd 200 25/06/2010 12:20:44 p.m.

Page 211: Bi o e s ta d í s t i c a

201

Tabla 5.15. Cálculo del estadígrafo V del ANOVA de razón de varianzaA

(símbolos) B C D Resultados de B

1 k 3 32 ni 14 14 22 143 mi 9 7 14 94 mi

2 =B3^2 =C3^2 =D3^2 815 mi

2/ni =B4/B2 =C4/C2 =D4/D2 5,785714296 Suma mi

2/ni =SUMA(B5:D5) 18,19480527 m =SUMA(B3:D3) 308 n =SUMA(B2:D2) 509 p = m/n =B7/B8 0.610 m2/n =B7^2/B8 1811 V =(B6-B10)/((B1-1)*B9*(1-B9)) 0,40584416

Los resultados de las fórmulas de C4 a D5 son:

49 = C3^2 en C4, 196 = D3^2 en D4; 3,5 = C4/C2 en C5; 8,90909091 = C4/C2 en D5Como 0,40584416 no cae en la región crítica V > 3,00, hallado en la tabla

3.28 no se rechaza H0 con nivel de significación de 0,05.

2. ANOVA de Razón de varianzas utilizando la distribución ji cuadrado

Para los datos del rango A1:D3 de la tabla 5.15 se tiene:

χ2 = (k – 1)V = 2(0,40584416) = 0,800798212

Como P{χ2 > 0,800798212} = DISTR.CHI(0,800798212;2) = 0,67005257 no es menor que 0,05 no se rechaza H0 con nivel de significación de 0,05.

5.1.8.5. Q de Cochran

Con la tabla de datos del ejemplo 3.23 y el procesamiento de la tabla 5.16 extendida en el rango A1:E22.

Tabla 5.16. Suma de filas y columnas y sus cuadrados

A B C D (suma de fila) E1 1 1 1 =SUMA(A1:C1) =D1^22 0 1 1 =SUMA(A2:C2) =D2^23 0 0 0 =SUMA(A3:C3) =D3^24 1 1 0 =SUMA(A4:C4) =D4^25 0 1 0 =SUMA(A5:C5) =D5^26 0 0 0 =SUMA(A6:C6) =D6^2

Bioestadística cualitativa.indd 201 25/06/2010 12:20:45 p.m.

Page 212: Bi o e s ta d í s t i c a

202

A B C D (suma de fila) E7 1 0 0 =SUMA(A7:C7) =D7^28 1 1 0 =SUMA(A8:C8) =D8^29 1 1 0 =SUMA(A9:C9) =D9^210 0 1 0 =SUMA(A10:C10) =D10^211 1 0 0 =SUMA(A11:C11) =D11^212 0 0 0 =SUMA(A12:C12) =D12^213 1 1 1 =SUMA(A13:C13) =D13^214 1 1 1 =SUMA(A14:C14) =D14^215 1 1 0 =SUMA(A15:C15) =D15^216 1 1 0 =SUMA(A16:C16) =D16^217 1 1 0 =SUMA(A17:C17) =D17^218 1 1 1 =SUMA(A18:C18) =D18^219 1 1 0 =SUMA(A19:C19) =D19^220 1 1 0 =SUMA(A20:C20) =D20^221 Suma(A1:A20 Suma(B1:B20) Suma(C1:C20) Suma(A21:C21) Suma(E1:E20)22 A21^2 B21^2 C21^2 Suma(A22:C22)

H0: No hay diferencias entre las probabilidades de restablecimiento al cabo de una semana entre las poblaciones de donde proceden las tres muestras.

Q =2*(3*E21-D21^2)/(3*D21-D22) = 14 compuesta con los valores calculadosp = DISTR.CHI(14;2) = 0,000911882Decisión: Como 0,000911882 < 0,05 se rechaza H0 con nivel de significación

de 0,05, sobre la base de estos datos se puede afirmar que hay diferencia entre las poblaciones de donde proceden las muestras respecto a las probabilidades de restablecimiento al cabo de una semana.

5.1.8.6. Prueba de bondad de ajuste de Kolmogórov-Smírnov

Con los datos numéricos de la tabla 5.17 extendidos en el rango A1:F7, sin incluir la columna de los números de fila para no agrandar demasiado la tabla. En ella toda la información, salvo la decisión. Los cálculos se anotaron junto a las fórmulas.

Tabla 5.17. Aplicación de la prueba de bondad de ajuste de Kolmogórov-Smírnov

Frecuencia Frecuencia acumulativa relativa DiferenciaObs. Hip. Observada Hipotética FrAcObs – FrAHip

A B C D E F2 3 0,04 = A1/B7 0,06 = B1/B7 –0,02 0,02=ABS(E1)8 9 0,2 = (A2/50)+C1 0,24 = (B2/50)+D1 –0,04 0,04=ABS(E2)11 14 0,42 = (A3/50)+C2 0,52 = (B3/50)+D2 –0,10 0,10=ABS(E3)

Bioestadística cualitativa.indd 202 25/06/2010 12:20:45 p.m.

Page 213: Bi o e s ta d í s t i c a

203

9 10 0,6 = (A4/50)+C3 0,72 = (B4/50)+D3 –0,12 0,12=ABS(E4)11 8 0,82 = (A5/50)+C4 0,88 = (B5/50)+D4 –0,06 0,06=ABS(E5)9 6 1 = (A6/50)+C5 1 = (B6/50)+D5 0 0 =ABS(E6)

50 50 0,12=MAX(B1:B6)

Decisión: Como 0,12 no cae en la región crítica Dmáx > 0,188 no se rechaza H0 con nivel de significación de 0,05. Sobre la base de estos datos no se puede afirmar que el ajuste sea bueno.

5.1.8.7. Pruebas de las rachas

1. Prueba de las rachas por encima y por debajo de la mediana basada en el número total de rachas de los símbolos a y b

Solución del ejemplo 4.2 con ayuda de Excel. La tabla 5.18 muestra los datos en el rango A1:A8 y, además, símbolos, fórmulas y los enca-bezamientos de filas y columnas como en Excel.

Datos: 1 1 1 2 3 4 4 5 5 6 6 6 7 7 8 9 11 12 13 15 17.n = 21, mediana: 6, rachas: 6.

Tabla 5.18. Prueba basada en el total de rachas de símbolos a y b

A Símbolos de A Fórmulas de A

1 21 n

2 0,05 α

3 0,95 1 – α =1-B2

4 0,01190476n4

1=1/(4*A1)

5 0,98809524n4

11− =1−B4

Condiciones para aplicarla =SI(O(0.05>A4;0.05<A5);“Hay”;“No hay”)

6 6 r r

7 1,64485363 Z1-α DISTR.NORM.ESTAND.INV(A3)

8 17,2354655 rα =(3/2)+A1-A7*RAIZ((A1^2-A1)/(2*A1-1))

9 Decisión =SI(A6>A8;“Se rechaza H0”; “No se rechaza H0”)

Si los datos de la columna A de la tabla 5.17 se disponen en el rango A1:A8 en una hoja de Excel, entonces con la fórmula de A9 pegada en la celda A9 se puede obtener la decisión, en forma breve: como r cae en la región crítica r < rα= 17,2354655 se rechaza H0 con nivel de significación de 0,05.

Además, se puede probar si α cumple o no la condición que requiere la prueba con esta otra fórmula.

Bioestadística cualitativa.indd 203 25/06/2010 12:20:45 p.m.

Page 214: Bi o e s ta d í s t i c a

204

2. Dócima de las rachas por encima y por debajo de la mediana: Dócima basada en la longitud de la racha más larga de los símbolos a o b

Solución del ejemplo 4.4 con ayuda de Excel. La tabla 5.19 muestra los datos en el rango A1:A6 y, además, símbolos, fórmulas y los enca-bezamientos de filas y columnas como en Excel.

Región crítica: L > Lα

Condición y valor crítico:

Si nn

11

1 −≤α≤

Tabla 5.19. Prueba de las rachas basada en la longitud de la racha más larga

A Símbolos de A Fórmulas de A1 21 n2 0,05 α

3 0,047619048n1

=1/B1

4 0,952380952n

11− =1-1/B1

Condiciones para aplicar la dócima SI(O(A2<A3;A2>A4);“Se cumplen”; “No se cumple”)

5 8,677403379 Lα =-LN(-LN(1-B2)/B1)/LN(2)6 8 L

=SI(A6>A5;“Se rechaza H0 con α = 0,05”;“No se rechaza Ho con α = 0,05”)

Si los datos de la columna A de la tabla 5.19 se disponen en el rango A1:A6 en una hoja de Excel, entonces con esta fórmula pegada en una celda, preferi-blemente en A7 se puede obtener la decisión.

3. Dócimas de las rachas hacia arriba y hacia abajo: dócima Moore-Wallis, basada en el número de rachas de signos +

Solución del ejemplo 4.6 para hipótesis unilateral.Disponiendo el rango B1:B6 de la tabla 5.20 en el rango B1:B9 de una hoja

de Excel se pueden obtener los resultados.

Tabla 5.20. Prueba de las rachas basada en el número de rachas de signos +

A (Símbolos) B Fórmulas de B1 n 122 α 0,053 1/3n 0,03333333

Bioestadística cualitativa.indd 204 25/06/2010 12:20:46 p.m.

Page 215: Bi o e s ta d í s t i c a

205

4 1 – 1/3n 0,96666667Condiciones para aplicarla =SI(Y(B2>=B3;B2<=B4);“Hay”;“No hay”)

5 1 – α 0,95 =1-B26 Z0,95 1,6448535 =DISTR.NORM.ESTAND.INV(B3)7 X 38 Xa 4,28782972 =1/2+((B1-1)/2)- B6*(RAIZ((B1+1)/12))

SI(A7<A8;“se rechaza”;“No se rechaza”) H0 con α = 0,05

4. Dócimas de las rachas hacia arriba y hacia abajo: dócima basada en el número total de rachasSolución del ejemplo 4.8 con ayuda del Excel. La tabla 5.21 muestra los

datos en el rango B1:B8 y, además, símbolos, fórmulas y los encabezamientos de filas y columnas como en Excel.

Tabla 5.21. Prueba de las rachas basada en el número total de rachas

A (símbolos) B Fórmulas de B1 α 0,05

1/3n 0,155873 =1/(3*B1)2 1 – 1/3n 0,984127 =1-1/(3*B1)3 n 21

Condiciones para aplicarla =SI(O(A1>A2;0.05<A3);“Hay”;“No hay”)5 1 – α/2 0,975 =1− B4/26 Z0,975 1,95996398 =DISTR.NORM.ESTAND.INV(B5)8 Yα/2 9,54661319 =-(1/2)+(41/3)-1,847*B69 Y´α/2 16,7867201 =-1/2+(41/3)+1,847*B6

=SI(Y(B7<B8;B7>B8);“Se rechaza”;“No se rechaza”) H0 con α = 0,05

Si n ≥ 20:

= –1/2 + (41/3) – 1,847*B6 ≈ 9,54661319

= 1/2 + (41/3)*B6 ≈ 16,7867201

Problema propuesto 5.1:

Resuelva con Excel la dócima basada en la racha más larga del ejemplo 4.9.

5.1.8.8. Dócimas de Wilcoxon

1. Dócima U de Mann-Whitney o de suma de rangos de Wilcoxon

Para la solución del ejemplo 4.14 las fórmulas de este caso se pueden calcular según el modelo anterior sin mayores contratiempos, disponiendo las

Bioestadística cualitativa.indd 205 25/06/2010 12:20:46 p.m.

Page 216: Bi o e s ta d í s t i c a

206

columnas de Municipio y Rango (con encabezamiento) de la tabla 4.24 en el rango B1:B38 de una hoja de Excel y procediendo como en la tabla 5.22, donde aparecen todos los resultados.

Tabla 5.22. Aplicación de la prueba U de Mann-Whitney

C A (Símbolos)1 13 n en C22 24 m en C33 286,5 =SUMAR.SI(A2:A38;”A”;B2:B38) R en C44 195,5 =C4-C2*(C2+1)/2 U5 1,25666241 =(C5-C2*C3/2)/RAIZ((C2*C3*(C2+C3+1)/12)) Z6 0,20887591 =2*(1-DISTR.NORM.ESTAND(C5)) P{|Z| > 1,26}7 α 0,10

=SI(C6<C7;“Se rechaza”;“No rechazo”) H0 con α = 0,05

2. Dócima de rangos con signos de Wilcoxon

Las diferencias y sus valores absolutos se resuelven con la operación de restar y la función ABS que calcula el valor absoluto. Para el rangueo se podría utilizar la opción Jerarquía y percentil de la opción Análisis de datos del menú Herramientas que se instala con la opción Complementos del menú Herramientas, marcando en ella la opción Herramientas para análisis. Pero la jerarquía es igual al rangueo si no hay ligaduras, por tanto, no resuelve el problema por completo.

Solución del problema del ejemplo 4.16. Si los datos de la columna A de esta tabla 5.23 se disponen en el rango

A1:A5 en una hoja de Excel, entonces con esta fórmula pegada en una celda, preferiblemente en A6 proporcionará la decisión, en forma breve.

Tabla 5.23. Aplicación de la prueba de rangos con signos de Wilcoxon

Antes Después Diferencia ABS(D) rgABSd rgABSdcsA B C D E F70 76 =B2-A2 =ABS(C2) 10,5 =E3*SIGNO(C3)75 80 =B2-A2 =ABS(C2) 7,5 =E3*SIGNO(C3)84 86 =B2-A2 =ABS(C2) 2,0 =E3*SIGNO(C3)90 87 =B2-A2 =ABS(C2) 3,5 =E3*SIGNO(C3)81 85 =B2-A2 =ABS(C2) 5,0 =E3*SIGNO(C3)

Bioestadística cualitativa.indd 206 25/06/2010 12:20:46 p.m.

Page 217: Bi o e s ta d í s t i c a

207

95 95 =B2-A2 =ABS(C2) ausente =E3*SIGNO(C3)87 97 =B2-A2 =ABS(C2) 12,5 =E3*SIGNO(C3)72 75 =B2-A2 =ABS(C2) 3,5 =E3*SIGNO(C3)92 87 =B2-A2 =ABS(C2) 7,5 =E3*SIGNO(C3)85 96 =B2-A2 =ABS(C2) 14,0 =E3*SIGNO(C3)88 98 =B2-A2 =ABS(C2) 12,5 =E3*SIGNO(C3)76 77 =B2-A2 =ABS(C2) 1,0 =E3*SIGNO(C3)85 80 =B2-A2 =ABS(C2) 7,5 =E3*SIGNO(C3)81 87 =B2-A2 =ABS(C2) 10,5 =E3*SIGNO(C3)84 89 =B2-A2 =ABS(C2) 7,5 =E3*SIGNO(C3)

Suma + =SUMAR.SI(G3:G17;”>0”)

En la tabla 5.24 se brindan los resultados finales después de las transfor-maciones de los datos de la tabla 5.23.

Tabla 5.24. Resultados dispuestos a partir de la tabla 5.23 en el rango G1:G8

G G (Símbolos)1 22 n2 55,5 V3 26 V α4 480 V1-α

5 3 Z =(A2-(A1*(A1+1)/4))/RAIZ(A1*(A1+1)*(2*A1+1)/24)6 0,05 α7 0,99865 P {|Z| > 3}= 2-2*DISTR.NORM.ESTAND(ABS(A5))8 =SI(C7<C6;“Se rechaza”;“No rechazo”) H0 con α = 0,05

Con esta fórmula, disponiendo la columna A de la tabla 5.22 en la columna A de Excel, se puede calcular el valor del estadígrafo Z en A5.

5.1.8.9. Dócimas de los signos y de la mediana

1. Dócima de los signos

Por ejemplo, aplique la dócima de los signos para decidir si hay diferencia entre los resultados de los dos semestres de la tabla 5.25.

Tabla 5.25. Cálculos para la prueba de los signos

A B C D E F G H I J K L M N1 1er semestre 1 2 1 3 4 2 1 3 4 5 2 5 Suma de diferencias

mayor que 02 2do semestre 2 4 5 1 3 1 2 4 5 2 5 5

3 Diferencia –1 –2 –4 2 1 1 –1 –1 –1 3 –3 0 4=CONTAR.SI(B3:M3;“>0”)

Bioestadística cualitativa.indd 207 25/06/2010 12:20:47 p.m.

Page 218: Bi o e s ta d í s t i c a

208

Se calcula en A3 la fórmula =A1-B1 y luego se selecciona esta celda se pone el cursor en su esquina inferior derecha donde se ve un punto negro y cuando aparezca una cruz negra se arrastra la celda hacia la derecha rellenando las celdas de C2 a C12. Para contar los signos positivos se utiliza en la celda N3 la función =CONTAR.SI(B3:M3;”>0”).

Después se aplicará la prueba binomial o de proporciones para la hipótesis nula:

H0: P = 0,5 contra H1: P ≠ 0,5

2. Dócima de la mediana

Solución del ejemplo 4.21. Disponga los dados en A1 a AE2, con los en-cabezamientos de fila M y F en A1:A2, los del sexo masculino se extienden en el rango B1:D1 y los femeninos en el rango A2:B2 en una hoja de Excel y calcule (puede copiar y pegar estas instrucciones):

− En A3 la función =MEDIANA(A1:AE2)− En B3 la función =CONTAR.SI(A1:T1;”<4”)− En C3 la función =CONTAR.SI(A2:AD2;”>4”)− En B4 la función =CONTAR.SI(A2:AD2;”<4”)− En C4 la función =CONTAR.SI(A1:T1;”>4”)

Con las cuatro frecuencias obtenidas se construye la tabla 5.24 con las fre-cuencias observadas en el rango B3:C4 y se calculan las frecuencias esperadas en E3:F4, como en la tabla 5.26, se obtiene la probabilidad crítica la última línea entre B6 y E6 combinadas.

Tabla 5.26. Prueba ji cuadrado de homogeneidad aplicada con Excel

SexoFrecuencias observadas

TotalFrecuencias esperadas

Menor que 4 Mayor que 4 Menor que 4 Mayor que 4F 14 10 24 12,29 11,71M 7 10 17 8,71 8,29

Total 21 20 41 21 200,27895151=PRUEBA.CHI(B5:C6;E5:F6)

Decisión: Como 0,2789515 no es menor que 0,05 no se rechaza la hipótesis de que no hay diferencia entre los dos sexos respecto a EV1.

5.1.8.10. Dócimas de significación de los coeficientes de correlaciónSon dócimas para las hipótesis H0: no hay correlación (r = 0).

1. Dócimas de significación para el coeficiente de rangos de SpearmanSolución del ejemplo 4.23 con ayuda de Excel. La tabla 5.27 muestra los

datos y cálculos en el rango A1:A4 y, además, símbolos, fórmulas (estas últimas coexisten en las mismas celdas de la columna A) y los encabezamientos de filas y columnas como en Excel.

Bioestadística cualitativa.indd 208 25/06/2010 12:20:47 p.m.

Page 219: Bi o e s ta d í s t i c a

209

H0: No hay correlación entre GRM y EV3 en la población de donde procede la tabla 1.3 matriz de datos DatosM2.

Estadígrafo:

22~

1

2−−

−= ntr

nrt

Tabla 5.27. Aplicación de la prueba de significación del coeficiente de Spearman

A B símbolos de A Fórmulas de A

1 50 n

2 0,05 α

3 0,242782 r

4 1,733920422 t =A3*RAIZ((A1-2)/(1-A3^2))

5 0,089351509 P{|T| > t} =DISTR.T(A3;48;2))

Se puede lograr la decisión con esta otra fórmula:

=SI(A5<0,05;“Rechazo H0”;“No rechazo H0” con nivel de significación α = 0,05”.

2. Dócima para el coeficiente de correlación de rangos de Kendall

H0: No hay correlación entre el grado de retraso mental y el EV3 en la po-blación de donde proviene la matriz de DatosM2.

Estadígrafo:

La tabla 5.28 muestra los datos en el rango A1:A4 y, además, símbolos, fórmulas y los encabezamientos de filas y columnas como en Excel.

Tabla 5.28. Aplicación de la prueba de significación del coeficiente de Kendall

A Símbolos de A Fórmulas de A

1 25 N

2 0,652229 rk

3 4,416667 Z =A2*RAIZ((9*A1*(A1-1))/(4*A1+10))

4 0,0000224 P{|Z| > Z} =2-2*DISTR.NORM.ESTAND(A3)

=SI(A4<0,05;“Se rechaza”;“No se rechaza” H0 con α = 0,05

Bioestadística cualitativa.indd 209 25/06/2010 12:20:47 p.m.

Page 220: Bi o e s ta d í s t i c a

210

5.1.8.11. Los análisis de varianza de Kruskall-Wallis, de Friedman y de la mediana

1. ANOVA de Kruskall-Wallis

Solución del ejemplo 4.26 con ayuda de Excel. La tabla 5.29 muestra los datos en el rango A1:A8 y, además, símbolos, fórmulas y los encabezamientos de filas y columnas como en Excel en A1:A14.

Tabla 5.29. Aplicación del ANOVA de rangos Kruskall-Wallis

A Símbolos de A Fórmulas de la columna A1 0,05 α2 14 n13 14 n24 22 n35 50 n =SUMA(A2:A4)6 411 R17 378 R28 486 R39 6557,785714 1

21 / nR =A6^2/A2

10 8064 222 / nR =A7^2/A3

11 18386,18182 323 / nR =A8^2/A4

12 33007,96753 Suma =SUMA(A9:A11)13 2,331611917 H =(12*A12/(A5*(A5+1))) -3*(A5+1)14 0,311671367 P{χ² > 2,331611917} =DISTR.CHI(A13;2)

H0: No hay diferencias entre las tres razas en cuanto a grado de retraso mental.

Disponiendo los datos en A1:C5, y realizando los cálculos intemedios como en la tabla 5.28 sin encabezamientos se puede lograr la decisión con esta otra fórmula:

=SI(A14<0,05;“Rechazo H0”;“No rechazo H0” con nivel de significación α = 0,05.

2. ANOVA de la mediana

Solución del ejemplo 4.29. Se desea saber si hay diferencia entre las tres razas respecto a EV2. Para ello se separan en una hoja de Excel las variables raza y EV2 se halla la mediana de EV2 y se ordenan ambas variables por raza y por EV2 y se cuentan valores de EV2 menores y luego los mayores que la mediana para cada raza, para ello puede utilizar de la función =CONTAR.SI, y construir con ellos la distribución de frecuencias bivariada o tabla de contingencia de tres filas encabezadas por las tres razas y dos columna encabezadas por menor que la mediana una y mayor que la mediana otra. En la tabla 5.30 se ejempli-fica como se calcula la cantidad de mayores y la cantidad de menores que la

Bioestadística cualitativa.indd 210 25/06/2010 12:20:47 p.m.

Page 221: Bi o e s ta d í s t i c a

211

mediana en las tres razas. El caso de la raza otros se extiende de la fila 30 a la 51, que no se pone completa por no hacer la tabla tan larga, se puso solamente la parte importante aquí. La mediana se calcula primero:

3,5=MEDIANA(B2:B51)

Tabla 5.30. Cálculos de los valores por encima y por debajo de la mediana

1 Raza EV2 Fórmula Resultado2 B 2 =CONTAR.SI(B2:B15;“>3,5”) 83 B 2 =CONTAR.SI(B2:B15;“<3,5”) 64 B 25 B 26 B 37 B 38 B 49 B 4 =MEDIANA(B2:B51) 3,510 B 411 B 512 B 513 B 514 B 615 B 616 N 2 =CONTAR.SI(B16:B29;“>3,5”) 517 N 2 =CONTAR.SI(B16:B29;“<3,5”) 918 N 219 N 320 N 321 N 322 N 323 N 324 N 325 N 426 N 427 N 528 N 529 N 530 O 131 O 232 B 2 =CONTAR.SI(B16:B29;“>3,5”) 1233 B 2 =CONTAR.SI(B16:B29;“<3,5”) 10

Bioestadística cualitativa.indd 211 25/06/2010 12:20:48 p.m.

Page 222: Bi o e s ta d í s t i c a

212

Ahora se construye la tabla de contingencia y se le aplica la prueba ji cua-drado de homogeneidad con la función PRUEBA.CHI, después de verificar que se cumplen las sus condiciones (tabla 5.31).

Tabla 5.31. Tabla con la aplicación de la prueba ji cuadrado de homogeneidad

SexoFrecuencias observadas

TotalFrecuencias esperadas

Mayor que 3,5 Menor que 3,5 Mayor que 3,5 Menor que 3,5B 8 6 17 7 7N 5 9 11 7 7O 12 10 22 11 11

Total 0,447000841= PRUEBA.CHI(B2:C4;E2:F4)

Decisión: Como 0,447000841 no es menor que 0,05 no se rechaza la hi-pótesis nula de que no hay diferencia entre las razas respecto al sexo con nivel de significación de 0,05.

3. El análisis de varianza de Friedman

Solución del ejemplo 4.28 con ayuda de Excel. La tabla 5.32 muestra los datos y operaciones en el rango A1:A9 y, además, símbolos, fórmulas y los encabezamientos de filas y columnas como en Excel.

Tabla 5.32. Aplicación del ANOVA de rangos de Friedman

A Símbolos de A Fórmulas de A121 2

1R

25 22R

16 23R

100 24R

3 n4 k

262 Suma =SUMA(A1:A4)7,4 χ2 =(12/(A5*A6*(A6+1)))*D7-3*A5*(A6+1)

0,060184323 P{χ2 > 7,4} =DISTR.CHI(D8;3)

H0: Los cuatro tratamientos producen iguales resultados. Estadígrafo:

Se puede lograr la decisión con esta otra fórmula:

=SI(A9<0,05;“Rechazo H0 con nivel de significación α = 0,05”;“No rechazo H0”)

Bioestadística cualitativa.indd 212 25/06/2010 12:20:48 p.m.

Page 223: Bi o e s ta d í s t i c a

213

5.1.8.12. Pruebas de hipótesis programadas en Análisis de Datos

Resultado de aplicarla a partir de la muestra aleatoria DatosM2. En cada caso se ofrece entre paréntesis el enunciado más preciso.

1. Prueba t para medias de dos muestras emparejadas (apareadas, estando en la población la variable diferencia con distribución normal)

H0: No hay diferencias entre las medias poblacionales de CI1 y CI2 Los cálculos se ofrecen en la tabla 5.33.

Tabla 5.33. Prueba de medias para muestras apareadas

CI2 CI3

Media 44,044 42,942Varianza 252,122106 116,562078Observaciones 50 50Coeficiente de correlación de Pearson –0,0806775Diferencia hipotética de las medias 0Grados de libertad 49Estadístico t 0,39140814P(T ≤ t) una cola 0,34859627Valor crítico de t (una cola) 1,67655089P(T ≤ t) dos colas 0,69719253Valor crítico de t (dos colas) 2,0095752

Decisión: Como 0,69719253 no es menor que 0,05, no se rechaza H0 con nivel de significación de 0,05. Sobre la base de estos datos no se puede afirmar que difieran.

También se ofrece la probabilidad crítica para regiones críticas de una cola y permite introducir cualquier valor como diferencia hipotética.

2. Prueba F para varianzas de dos poblaciones (con distribuciones normales a partir de muestras independientes)

H0: No hay diferencias entre las varianzas poblacionales de ambos sexos respecto a CI3

Para esta prueba se requiere ordenar la base de datos DatosM2 por sexo para cuando lo pida la opción de Excel poder seleccionar del 1 al 21 los CI3 femeni-nos y de 22 al 51 los CI3 masculinos. Los cálculos se ofrecen en la tabla 5.34.

Tabla 5.34. Prueba de varianzas para muestras independientes

Variable 1 Variable 2Media 39,985 44,9133333Varianza 107,863447 116,230161

Bioestadística cualitativa.indd 213 25/06/2010 12:20:48 p.m.

Page 224: Bi o e s ta d í s t i c a

214

Variable 1 Variable 2Observaciones 20 30Grados de libertad 19 29F 0,92801599P(F ≤ f) una cola 0,44138888Valor crítico para F (una cola) 0,48141411

Decisión: Como 2(0,48141411) = 0,96282822 no es menor que 0,05, no se rechaza H0 con nivel de significación de 0,05.

3. Prueba t de medias para dos muestras suponiendo varianzas iguales (a partir de muestras independientes de poblaciones con distribuciones normales con varianzas iguales)

H0: No hay diferencias entre las medias poblacionales de ambos sexos respecto a CI3

Con los datos se procede igual que en la prueba anterior (tabla 5.35)

Tabla 5.35. Prueba t de medias para muestras independientes (varianzas iguales)

Variable 1 Variable 2Media 39,985 44,91333333Varianza 107,863447 116,2301609Observaciones 20 30Varianza agrupada 112,918337Diferencia hipotética de las medias 0Grados de libertad 48Estadístico t –1,60660258P(T ≤ t) una cola 0,05735047Valor crítico de t (una cola) 1,6772242P(T ≤ t) dos colas 0,11470095Valor crítico de t (dos colas) 2,01063472

Decisión: Como 0,11470095 no es menor que 0,05, no se rechaza H0 con nivel de significación de 0,05. Sobre la base de estos datos no se puede afirmar que difieran.

También se ofrece la probabilidad crítica para regiones críticas de una cola y permite introducir cualquier valor como diferencia hipotética.

4. Prueba t para dos muestras suponiendo varianzas desiguales (a partir de muestras independientes de poblaciones con distribuciones normales)

H0: No hay diferencias entre las medias poblacionales de ambos sexos respecto a CI3

Bioestadística cualitativa.indd 214 25/06/2010 12:20:49 p.m.

Page 225: Bi o e s ta d í s t i c a

215

Con los datos se procede igual que en la prueba anterior (tabla 5.36).

Tabla 5.36. Prueba t de medias para muestras independientes (varianzas desiguales)

Variable 1 Variable 2Media 39,985 44,9133333Varianza 107,863447 116,230161Observaciones 20 30Diferencia hipotética de las medias 0Grados de libertad 42Estadístico t –1,61889439P(T ≤ t) una cola 0,05647803Valor crítico de t (una cola) 1,68195236P(T ≤ t) dos colas 0,11295606Valor crítico de t (dos colas) 2,01808168

Decisión: Como 0,11295606 no es menor que 0,05, no se rechaza H0 con nivel de significación de 0,05. Sobre la base de estos datos no se puede afirmar que difieran.

También se ofrece la probabilidad crítica para regiones críticas de una cola y permite introducir cualquier valor como diferencia hipotética.

5. Prueba Z para medias de dos muestras (a partir de muestras independientes de poblaciones con distribuciones normales con varianzas conocidas)

H0: No hay diferencias entre las medias poblacionales de ambos sexos respecto a CI3

Con los datos se procede igual que en la prueba anterior (tabla 5.37).

Tabla 5.37. Prueba de medias para muestras independientes (varianzas conocidas)

Variable 1 Variable 2Media 39,985 44,9133333Varianza (conocida) 100 110Observaciones 20 30Diferencia hipotética de las medias 0z –1,67407159P(Z ≤ z) una cola 0,04705826Valor crítico de z (una cola) 1,64485363Valor crítico de z (dos colas) 0,09411653Valor crítico de z (dos colas) 1,95996398

Bioestadística cualitativa.indd 215 25/06/2010 12:20:49 p.m.

Page 226: Bi o e s ta d í s t i c a

216

Decisión: Como 0,09411653 no es menor que 0,05, no se rechaza H0 con nivel de significación de 0,05. Sobre la base de estos datos no se puede afirmar que difieran.

También se ofrece la probabilidad crítica para regiones críticas de una cola y permite introducir cualquier valor como diferencia hipotética.

6. Análisis de varianza de un factor (de clasificación simple)

Considerando las muestras CI1, CI2 y CI3, de DatosM2, tabla 1.3, indepen-dientes. Se desea saber si las medias poblacionales difieren.

Hipótesis: No hay diferencia entre las medias poblacionales de los niveles del factor (o no hay efecto del factor).

Los resultados de los cálculos se ofrecen en la tabla 5.38.

Tabla 5.38. Análisis de varianza de clasificación simple

Origen de las variaciones

Suma decuadrados GL Promedio de

los cuadrados F Proba-bilidad

Valor crítico para F

Entre grupos 1 253,2684 2 626,6342 3,39458 0,03621 3,05762Dentro de grupos 27 136,01 147 184,598707

Total 28 389,2784 149

Decisión: Como 0,03621 es menor que 0,05 se rechaza H0 con nivel de significación de 0,05. Sobre la base de estos datos se puede afirmar que hay diferencia entre los tres poblaciones.

7. Análisis de varianza de dos factores con una sola muestra por grupo (de clasificación doble con una observación por celda)

Hipótesis: No hay efecto del factor CI independientemente del factor di-ferencias individuales.

Se copia la primera columna individuo cuyos valores son 1, 2, 3,..., 50 después de la columna CI3 y cuando lo pida la opción de Excel se seleccionan las tres columnas de CI con este individuo.

Los resultados de los cálculos se ofrecen en la tabla 5.39.

Tabla 5.39. Análisis de varianza de clasificación doble con una observación por celda

Origen de las variaciones

Suma de cuadrados GL Promedio de

los cuadrados F Proba-bilidad

Valor crítico para F

Filas 7 213,18017 49 147,207756 0,67841 0,93293 1,48294366Columnas 10 821,9617 2 5 410,98087 24,9368 1,7597E-09 3,08920301

Error 21 264,8449 98 216,988214Total 39 299,9867 149

Bioestadística cualitativa.indd 216 25/06/2010 12:20:49 p.m.

Page 227: Bi o e s ta d í s t i c a

217

Decisión: Como 1,7597E-09 = 0,0000000017597 es menor que 0,05 se re-chaza H0 con nivel de significación de 0,05. Sobre la base de estos datos se puede afirmar que difieren, independientemente del factor diferencias individuales.

8. Análisis de varianza de dos factores con varias muestras por grupo (de clasificación doble con más de una observación por celda)

Hipótesis: HC: No hay efecto del factor CI.HG: No hay efecto del factor grupo.HI: No hay efecto del factor interacción.

Considerando las muestras CI1, CI2 y CI3 independientes se inserta una columna entre EdC y CI1 llamada grupo con los valores A del 2 al 11, B del 12 al 21, C del 22 al 31, D del 32 al 41 y E del 42 al 51, para que cuando la opción de Excel pida los datos incluirle esta columna junto con las tres de CI.

Los resultados de los cálculos se ofrecen en la tabla 5.40.

Tabla 5.40. Análisis de varianza de clasificación doble con más de una observación por celda

Origen de las variaciones

Suma de cuadrados GL

Promedio de los

cuadradosF Proba-

bilidad

Valor crítico para F

Muestra 1142,69907 4 285,6748 1,568492 0,18627 2,43873922Columnas 1253,2684 2 626,63 3,44052 0,03488 3,06320385Interacción 1405,30293 8 175,6629 0,96447 0,46652 2,00763499

Dentro del grupo 24588,008 135 182,1334Total 28389,2784 149

Decisiones: Como 0,012 es menor que 0,05 no se rechaza HG. Como 0,030 es menor que 0,05 se rechaza HC. Como 0,437 no es menor que 0,05 no se rechaza HI. Todos con nivel de significación de 0,05.

Sobre la base de estos datos se puede afirmar que hay efecto de los factores grupo y CI, pero no hay efecto del factor interacción.

5.1.8.13. Funciones de Excel que representan pruebas de hipótesis

− PRUEBA.T que ofrece la probabilidad crítica para tres pruebas para las medias de dos poblaciones con distribuciones normales, en dependencia del parámetro tipo que si toma el valor:• 1: Brinda la prueba t para el caso de muestras apareadas.• 2: Brinda la prueba para el caso de muestras independientes proce-

dentes de poblaciones con varianzas desconocidas pero iguales.• 3: Brinda la prueba para el caso de muestras independientes proceden-

tes de dos poblaciones con varianzas desconocidas y diferentes.

Bioestadística cualitativa.indd 217 25/06/2010 12:20:49 p.m.

Page 228: Bi o e s ta d í s t i c a

218

Por ejemplo, para decidir si difieren o no las medias poblacionales de CI2 y CI3 (muestras apareadas) de la matriz de datos DatosM2 de la tabla 1.3 se puede aplicar la función:

− =PRUEBA.T(I2:I51;J2:J51;2;1) que proporciona la probabilidad 0,69719253 de que el valor absoluto del estadígrafo caiga en la región crítica de dos colas.

− =PRUEBA.T(I2:I51;J2:J51;1;1) que proporciona la probabilidad 0,34859627 de que el estadígrafo caiga en la región crítica de una cola.

Para decidir si difieren o no las medias poblacionales de los dos sexos en cuanto a CI3 (muestras independientes) de la matriz de datos DatosM2, supo-niendo las varianzas poblacionales iguales:

− =PRUEBA.T(J2:J21;J22:J51;2;2) que proporciona la probabilidad 0,86079498 de que el valor absoluto del estadígrafo caiga en la región crítica de dos colas.

− =PRUEBA.T(J2:J21;J22:J51;1;2) que proporciona la probabilidad 0,43039749 de que el estadígrafo caiga en la región crítica de una cola.

Para decidir si difieren o no las medias poblacionales de los dos sexos en cuanto a CI3 (muestras independientes) de la matriz de datos DatosM2, en el caso de varianzas poblacionales desiguales:

− =PRUEBA.T(J2:J21;J22:J51;2;3) que proporciona la probabilidad 0,86529277 de que el valor absoluto del estadígrafo caiga en la región crítica de dos colas.

− =PRUEBA.T(J2:J21;J22:J51;1;3) que proporciona la probabilidad 0,43264639 de que el estadígrafo caiga en la región crítica de una cola.

− PRUEBA.F para decidir si difieren o no las varianzas poblacionales de los dos sexos en cuanto a CI3 de la matriz de datos DatosM2.

− =PRUEBA.F(J2:J21;J22:J51) que proporciona la probabilidad 0,44026519 de que el estadígrafo caiga en la región crítica de una cola. Si se desea para dos colas se debe multiplicar por 2 esta probabilidad para obtener 0,88053038.

− =PRUEBA.FISHER.INV(0,44026519) que proporciona el estadígrafo 0,41386423.

− =PRUEBA.Z permite decidir si la media poblacional de CI3 de la matriz de datos DatosM2 es mayor que 42 suponiendo la varianza poblacional igual a 10. Se puede usar como prueba de la hipótesis de la media de una población con distribución normal con media conocida o desconocida, la probabilidad se calcula con la distribución normal en el caso de regiones críticas de una cola.

Bioestadística cualitativa.indd 218 25/06/2010 12:20:50 p.m.

Page 229: Bi o e s ta d í s t i c a

219

− =PRUEBA.Z(J2:J51;42;10) que proporciona la probabilidad 0,000000046819 de que el estadígrafo caiga en la región crítica de una cola. Como 0,000000046819 es menor que 0,05 se rechaza H0: la media poblacional es igual a 42 con nivel de significación α = 0,05.

5.1.8.14. Algunas funciones de probabilidad discretas

1. Binomial con parámetro n y p: función DISTR.BINOM

Sea X la variable con esta distribución, que registra el número de éxitos en n repeticiones del experimento consistente en observar si el resultado es o no éxito donde p es la probabilidad de éxito. Se calcularán, por ejemplo las probabilidades en el caso de n = 10 y p = 0.33, o sea los parámetros de X.

Se pone k, P(X = k) y P(X ≤ k) en las celdas A1, B1 y C1 respectivamente, se escriben 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 en A2:A12 y se inserta en la celda B2 la función =DISTR.BINOM(A2;10;0.33;0) que pide:

− Número de éxitos: k, donde situamos el contenido de la celda A1. − Número de ensayos: n = 10. − Probabilidad de éxito: p = 0,33.− Acumulado: donde se introducirá un 0 si no se desea acumular para

obtener P(X = k) y 1 si se desea obtener P(X ≤ k).

Se obtienen estas dos primeras probabilidades en B2 y C2, respectivamente. Por último se selecciona el rango B2:C2 y haciendo doble clic cuando adopta la forma de cruz negra, sobre el punto negro destacado en el extremo inferior derecho del rango seleccionado, y rellenar hasta A12:C12, se rellenan las celdas contenidas en B2:C12 de la tabla 5.41.

Tabla 5.41. Distribución binomial con parámetros n = 10 y p = 0,33

K P(X = k) P(X ≤ k)

0 0,01822838 0,01822838

1 0,08978156 0,10800994

2 0,19899347 0,30700341

3 0,26136455 0,56836796

4 0,22528064 0,7936486

5 0,13315095 0,92679954

6 0,05465151 0,98145105

7 0,01538166 0,99683271

8 0,00284102 0,99967373

9 0,00031096 0,99998468

10 1,5316E-05 1

Bioestadística cualitativa.indd 219 25/06/2010 12:20:50 p.m.

Page 230: Bi o e s ta d í s t i c a

220

2. Distribución hipergeométrica con parámetros N, M y n

Función =DISTR.HIPERGEOMSe calcularán, por ejemplo, las probabilidades en el caso de N = 10,

M = 3 y n = 5.Se pone k y P(X = k) en las celdas A1 y B1 respectivamente, se es-

criben 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 en A2:A12 y se inserta en la celda B2 la función hipergeométrica: =DISTR.HIPERGEOM(A2;5;3;10) e introduciendo los valores:

− Muestra_éxito: A2 (número de éxitos en la muestra).− Num_de_muestra: 5 (número de éxitos en la muestra).− Población_éxito: 3 (número de éxitos en la población). − Num_población: 10 (número de éxitos en la población).

Considerando que la variable aleatoria X es la que cuenta el número de éxitos (Muestra _éxito) al extraer n bolas (Num_éxito) de una urna que con-tiene 10 bolas Num_Población) y 3 de las cuales son se consideran éxitos (Población_éxito).

Se obtuvieron estas dos primeras probabilidades en B2. Por último se se-leccionan B2 y arrastrando el puntero desde su punto negro extremo inferior derecho, cuando adopta la forma de cruz negra, hasta B12, se rellenan las celdas contenidas en B2:B12 de la tabla 5.42.

Tabla 5.42. Distribución hipergeométrica con parámetros N = 10, M = 3 y n = 5

A B C Dk P(X = k) P(X ≤ k) P(X ≤ k)0 0,083333333 =B2 0,083333331 0,416666667 =B3+C2 0,52 0,416666667 =B4+C3 0,916666673 0,083333333 =B5+C44 0 =B6+C55 0 =B7+C66 0 =B8+C77 0 =B9+C88 0 =B10+C99 0 =B11+C1010 0 =B12+C11

Teniendo en cuenta que como solo hay 3 con éxito en la población, el número de éxito en la muestra no puede pasar de 3 y por eso P(X = k) = 0 en

Bioestadística cualitativa.indd 220 25/06/2010 12:20:50 p.m.

Page 231: Bi o e s ta d í s t i c a

221

B5:B12, Excel no ofrece P(X ≤ k). Para obtener las probabilidades acumulativas se pone en C2 el valor de B2, en C3 la fórmula =B3+C2 y se selecciona C3 se acerca el cursor al punto negro destacado del extremo inferior derecho de C3 seleccionado y se arrastra el cursor rellenando las celdas del la columna C hasta C12. Se han situado dos columnas de P(X ≤ k), la primera para las fórmulas, se pone la de C3 y luego se rellena con ella el rango B4:B12.

3. Distribución de Poisson con parámetro λ: función POISSON

Se calcularán, por ejemplo, solo algunas probabilidades, porque hay un número infinito numerable de ellas.

Se pone k, P(X = k) y P(X ≤ k) en las celdas A1, B1 y C1 respectivamen-te, se escriben 0, 1, 2,…, 13 en A2:A15 y se inserta en la celda B2 la función =POISSON(A2;3;1) que pide:

− x: donde situamos el contenido de la celda A1. − Media: que es el parámetro, 3. − Acumulado: donde se introducirá un 0 si no se desea acumular para

obtener P(X = k) y 1 si se desea obtener P(X ≤ k).

Se obtuvieron estas dos primeras probabilidades en B2 y C2, respectivamente. Por último se seleccionan B2:C2 y arrastrando el puntero desde su punto negro extremo inferior derecho, cuando adopta la forma de cruz negra, hasta A13:C13, se rellenan las celdas contenidas en B2:C13 (o más si se desea) de la tabla 5.43.

Tabla 5.43. Distribución de Poisson con parámetro λ = 3

A B C Dk P(X = k) P(X ≤ k)Form P(X ≤k)0 0,04978707 =B2 0,049787071 0,19914827 =B3+C2 0,248935342 0,42319008 =B4+C3 0,672125423 0,64723189 =B5+C4 1,319357314 0,81526324 =B6+C5 2,134620565 0,91608206 =B7+C6 3,050702616 0,96649146 =B8+C7 4,017194087 0,9880955 =B9+C8 5,005289588 0,99619701 =B10+C9 6,001486580 0,04978707 =B11+C10 6,0512736510 0,99970766 =B12+C11 7,0509813111 0,99992861 =B13+C12 8,0509099312 0,99998385 =B14+C13 9,0508937813 0,9999966 =B15+C14 10,0508904

Bioestadística cualitativa.indd 221 25/06/2010 12:20:51 p.m.

Page 232: Bi o e s ta d í s t i c a

222

Se han situado dos columnas de P(X ≤ k), la primera para las fórmulas, que se pone la de C3 y luego se rellena con ella el rango C4:C12. La distribución continúa para A1 = 14, 15, 16,...

5.2. Problemas resueltos y propuestos

A continuación se plantean 11 problemas resueltos con más de 30 incisos o partes, que le enseñarán a describir una buena porción de la información que una muestra multivariada contiene de sí misma y que le aportarán elementos que pueden servirle para decidir aplicar métodos estadísticos inferenciales a posteriori. Se debe interpretar a cabalidad cada resultado obtenido. Se aplican a una matriz de datos como la de la tabla 5.44 que posee 11 variables columnas, tres de cada escala de cuantificación y dos más que servirán para formar gru-pos independientes y 50 individuos filas que permitirán aplicar los principales métodos estadísticos de este libro.

Luego se expondrán problemas propuestos, análogos, a partir de otra matriz de datos, DatosMT de la tabla 1.17, para que el lector pueda aplicar todos los métodos estadísticos empleados en los problemas resueltos y en los ejemplos del texto, que abarcan prácticamente casi todos los problemas que se presentan en disímiles investigaciones experimentales, es decir que generan datos de observaciones, mediciones o registro.

En todos los casos se requiere un minucioso manejo y procesamiento de datos que incluyen transformaciones de los mismos con determinado objetivo estadístico sin el cual no se podarían aplicar eficientemente los distintos métodos estadísticos y requiere a menudo la necesidad de pasar los datos a un software y de este a otro software buscando el que tiene programado el método y cómo requiere los datos.

Tabla 5.44. Matriz de datos DatosMPR

Grupo Sexo A1 A2 A3 B1 B2 B3 C1 C2 C3B M E D D RB B M 74,31 90,16 80,59A F F D E RB RB E 72,67 70,23 74,67B M D E E E E MB 86,89 85,18 83,89A F F F D E MB R 98,91 70,05 88,97B F D D D RB RB B 71,45 71,45 71,45B M F E D R MB RB 65,55 74,58 70,01A M F F E E E RB 76,28 75,86 76,28A F D D E B R B 72,56 70,57 65,89A M E E E B B B 73,24 72,45 75,23B F F F E E E MB 75,88 75,88 75,88

Bioestadística cualitativa.indd 222 25/06/2010 12:20:51 p.m.

Page 233: Bi o e s ta d í s t i c a

223

A F D D D E R RB 84,41 90,51 84,41C M F F D B E RB 90,96 75,6 90,96B M E E E MB MB MB 75,46 75,46 75,46B F D D D E M E 77,88 75,92 78,87B M E D D RB MB RB 79,81 76,81 79,81C M F F E E RB M 72,84 86,43 72,84C M D D E MM MM MM 72,38 70,76 70,76A F E D E MB B E 81,92 75,28 81,92A F F F E RB RB R 76,78 87,06 76,78C M E E E MB MB MB 86,91 86,91 86,91C M E E E MB MB MB 86,96 86,96 80,96C F D E E E B R 83,16 80,94 83,16B M D D E M E B 72,48 74,86 72,48A F F E E B B MB 85,23 79,86 85,23A F E F E MB R R 68,43 82,3 68,43C M F D D M E B 75,86 83,05 75,86C M E E D R MB B 79,83 73,53 79,83A F D D D MB MB MB 86,73 86,73 88,34A F F F D E R RB 88,45 86,82 87,66A F D D E MB RB E 85,67 71,79 85,67C M F F D MB R B 83,55 81,8 84,45C M E D E B MB RB 77,59 96,01 77,59A F F F E B B B 72,56 72,56 72,56C M D F D E RB RB 77,1 76,36 77,1C M F F E MB B B 66,29 75,59 66,29A F D D E R R R 76,76 76,76 76,76A F D E E RB RB R 86,6 97,77 86,6B M F F D R R RB 82,08 75,35 82,08C M F E E B RB B 83,27 82,83 83,27C M D D D MB R B 82,57 70,77 82,57C F D D D RB E R 73,96 74,07 74,44B F E E E MB MB MB 75,46 75,46 75,46C M E E E MB MB E 75,88 75,88 75,88B F D D D B RB B 71,45 71,45 71,45B F D D D MB MB MB 86,74 86,74 86,74C M F F E E RB B 82,53 90,12 82,53B M F F E B B B 86,62 86,62 82,26C F E E D R RB RB 84,29 80,78 86,29B F D E E B RB RB 80,25 90,24 81,15C F D D E MB E MB 70,12 71,43 72,88

Estos datos representan una muestra aleatoria de 50 pacientes del municipio Playa de una población de 500:

Bioestadística cualitativa.indd 223 25/06/2010 12:20:52 p.m.

Page 234: Bi o e s ta d í s t i c a

224

− A1, A2 y A3: son tres enfermedades que sufrieron en tres momentos distintos de su vida

− B1, B2 y B3: son los grados de afectación de cada una de las tres enfermedades.

− C1, C2 y C3: son los tiempos de restablecimiento de cada una de las tres enfermedades.

En esta matriz se prefirió denotar las variables por simples letras subindi-zadas para facilitar su cita en los problemas.

El pasar los datos a un medio a otro conlleva el riesgo de que al final los datos obtenidos no sean idénticos y con la misma estructura o propiedades. Esto también debe tenerse en cuenta al resolver los problemas por lo que se requiere verificar cada resultado también desde este punto de vista.

5.2.1. Problemas resueltos

A partir de la matriz de datos DatosMPR de la tabla 5.44.Estos problemas incluyen los casos de las variables en escalas de intervalo

o razón que no es objeto de este curso, pero como son problemas resueltos sirven para mostrar como se completa el análisis de la matriz de datos con el tratamiento de ellos que se muestra en las soluciones.

1. Cree un archivo de texto que incluya el listado de las 11 variables y defina aparte cada variable, su escala y sus valores posibles.

La matriz de datos está situada en la tabla 5.44 y descrita en los párrafos posteriores. Las variables A1, A2 y A3 están en escalas nominales sus valores posibles son D, E y F, A3 solo tiene D y E. B1, B2 y B3 están en escalas ordinales y tienen siete valores MM, M, R, RB, B, MB y E. C1, C2 y C3 están en escalas de intervalo o razón y tienen numerosos valores comprendidos entre 65,5 y 98,91.

2. Construya en una sola tabla las tres distribuciones de frecuencias absolutas conjuntas de las tres variables de cada letra juntas y en otras tablas las distribuciones relativas y acumulativas. Construya, además, las distribuciones bivariadas de frecuencia de la variable sexo con A1 y de la variable A3 con C3. En este último caso se requerirá recodificar C3.

La respuesta a este problema está en las tablas 5.45 a la 5.51.

Tabla 5.45. Distribuciones de frecuencias absolutas de A1, A2 y A3

Enfermedad Frecuencia de A1 Frecuencia de A2 Frecuencia de A3

D 19 20 20E 13 15 30F 18 15 0

Bioestadística cualitativa.indd 224 25/06/2010 12:20:52 p.m.

Page 235: Bi o e s ta d í s t i c a

225

Tabla 5.46. Distribuciones de frecuencias relativas de A1, A2 y A3

Enfermedad Frecuencia de A1 Frecuencia de A2 Frecuencia de A3

D 0,38 0,40 0,40E 0,26 0,30 0,60F 0,36 0,30 0,00

Tabla 5.47. Distribuciones de frecuencias absolutas de B1, B2 y B3

Gravedad del enfermo Frecuencia de B1 Frecuencia de B2 Frecuencia de B3

MM 1 1 1M 2 1 2R 5 8 7

RB 7 12 11B 10 8 14

MB 14 12 10E 11 8 5

Tablas 5.48. Distribuciones de frecuencias relativas y acumulativas de B1, B2 y B3

GravedadFrecuencia de B1 Frecuencia de B2 Frecuencia de B3

Relativa Acumulativa Relativa Acumulativa Relativa Acumulativa MM 0,02 1 0,02 1 0,02 1M 0,04 3 0,02 2 0,04 3R 0,10 8 0,16 10 0,14 10

RB 0,14 15 0,24 22 0,22 21B 0,20 25 0,16 30 0,28 35

MB 0,28 39 0,24 42 0,20 45E 0,22 50 0,16 50 0,10 50

Tablas 5.49. Distribuciones de frecuencias de C1, C2 y C3

Tiempo de restableci-

miento

Frecuencia de C1 Frecuencia de C2 Frecuencia de C3

Abs. Rel. AbsAc. Abs. Rel. AbsAc. Abs. Rel. AbsAc.

65 < x ≤ 70 3 0,60 3 15 0,00 0 3 0,06 370 < x ≤ 75 12 0,24 15 14 0,30 15 10 0,20 1375 < x ≤ 80 13 0,26 28 6 0,28 29 14 0,28 2780 < x ≤ 85 10 0,20 38 9 0,12 35 13 0,26 4085 < x ≤ 90 10 0,20 48 4 0,18 44 9 0,18 4990 < x ≤ 95 1 0,02 49 2 0,08 48 1 0,02 5095 < x ≤ 100 1 0,02 50 0 0,04 50 0 0,00 50100 < x ≤ 105 0 0,00 50 15 0,00 50 0 0,00 50

Bioestadística cualitativa.indd 225 25/06/2010 12:20:53 p.m.

Page 236: Bi o e s ta d í s t i c a

226

Tabla 5.50. Distribución bivariada de frecuencias de sexo con A1

Sexo A1 – E A1 –F A1 – D TotalM 5 9 11 25F 14 4 7 25

Total 19 13 18 50

Tabla 5.51. Distribución bivariada de frecuencias de A3 con C1

P3 65-70 70-75 75-80 80-85 85-90 90-95 95-100 TotalD 3 12 5 5 3 1 1 3E 2 8 8 5 7 0 0 2

Total 75 95 93 95 100 96 101 75

3. Construya cinco gráficas: un polígono conjunto de C1, C2 y C3 y un histograma conjunto de A1, A2 y A3 y una gráfica de pastel de cada una de las variables B1, B2 y B3. Además, una pirámide de frecuencias de C1 y C2 ampliadas tras haberle agregado a C1 los 25 primeros valores de C3 y a C2 los 25 últimos.

La respuesta a este problema se representa en las figuras 5.1 a la 5.7 y la tabla 5.52.

Tabla 5.52. Distribución de frecuencias de C1 y C2 para la gráfica piramidal

A C1 C265 < x ≤ 70 5 –170 < x ≤ 75 18 –1975 < x ≤ 80 20 –2180 < x ≤ 85 16 –1385 < x ≤ 90 13 –1590 < x ≤ 95 2 –495 < x ≤ 100 1 –2

Figura 5.1. Polígono conjunto de C1, C2 y C3.

Bioestadística cualitativa.indd 226 25/06/2010 12:20:53 p.m.

Page 237: Bi o e s ta d í s t i c a

227

Figura 5.2. Histograma conjunto de A1, A2 y A3

Figura 5.3. Gráfica de pastel de B1.

Figura 5.4. Gráfica de pastel de B2.

Bioestadística cualitativa.indd 227 25/06/2010 12:20:54 p.m.

Page 238: Bi o e s ta d í s t i c a

228

Figura 5.5. Gráficas de pastel de B3.

Figura 5.6. Histograma conjunto de sexo contra A1.

Figura 5.7. Gráfica piramidal de C1 y C2.

Bioestadística cualitativa.indd 228 25/06/2010 12:20:54 p.m.

Page 239: Bi o e s ta d í s t i c a

229

4. Construya una tabla con todas las variables, así como su media, mediana, moda, cuartiles, recorrido, recorrido intercuartílico, percentiles 5 y 95, varianza, desviación estándar, error estándar, coeficiente de variación y desviación media de todas las variables que lo admitan.

La solución parece en la tabla 5.53.

Tablas 5.53. Indicadores numéricos de todas las variables

A1 A2 A3 B1 B2 B3 C1 C2 C3

N válido 50 50 50 50 50 50 50 50 50Media 79,279 79,392 78,910

Mediana MB B B 78,845 76,560 78,920Moda D D E MB R y MB B Múltiple Múltiple Múltiple

Frecuencia 19 20 29 17 14 13 3 3 3Mínimo MM MM MM 66,29 68,35 65,89Máximo E E E 90,96 96,01 90,96Cuartil 1 RB RB RB 73,96 74,58 74,44Cuartil 3 B B B 84,41 86,73 84,41

Percentil 5 R R R 71,45 71,45 71,105Percentil 95 B B B 86,900 90,140 86,825

Rango 33,36 27,72 25,07Rango

intercuartílico 11,17 12,55 9,22

Varianza 47,92271 53,31444 38,86110Desviación

stándar 6,922623 7,301674 6,233867

Coeficiente de variación 8,750497 9,190090 7,895869

Error estándar 0,979007 1,032613 0,881602Desviación

media 5,826848 6,315392 5,299000

Observaciones: − Las modas de C1, C2 y C3 son tres: 71,45; 75,46 y 75,88 en los tres casos.− Las celdas vacías indican que en este caso no está definido el

indicador− B1, B2 y B3 no tienen rango ni rango intercuartílico por no permitir la

sustracción sus valores.5. Construya gráficas de cajas y bigotes de las variables B1, B2 y B3 así

como de las variables C1, C2 y C3, con los indicadores apropiados e interprételas.

Las gráficas aparecen en las figuras 5.8 y 5.9.

Bioestadística cualitativa.indd 229 25/06/2010 12:20:54 p.m.

Page 240: Bi o e s ta d í s t i c a

230

Figura 5.8. Gráfica de caja y bigote de B1, B2 y B3.

Figura 5.9. Gráfica de caja y bigote de C1, C2 y C3.

6. Calcule los matriz de correlaciones de las variables A1, A2, A3, B1, B2, B3, C1, C2 y C3 y la correlación entre todas las variables dicotómicas de

Bioestadística cualitativa.indd 230 25/06/2010 12:20:54 p.m.

Page 241: Bi o e s ta d í s t i c a

231

la matriz de datos. Para esto debe tener en cuenta los cuatro coeficientes de correlación estudiados, la escala de las variables, la necesidad de recodificar las variables con muchos valores para construir distribuciones de frecuencias bivariadas, la comprobación del orden de las variables no numéricas y la utilidad del Excel para calcular el punto biserial.

La solución aparece en la tabla 5.54.

Tabla 5.54. Matriz de correlaciones de A1, A2, A3, B1, B2, B3, C1, C2 y C3

A1 A2 A3 B1 B2 B3 C1 C2 C3

A1 1,00000

A2 0,56599 1,00000

A3 0,13421 0,29580 1,00000

B1 0,36343 0,40773 0,38744 1,00000

B2 0,46347 0,37454 0,37731 0,01874 1,00000

B3 0,29055 0,36274 0,41443 0,24651 0,24791 1,00000

C1 0,19416 0,26381 0,19770 0,32059 0,02984 0,10784 1,00000

C2 0,26985 0,28320 0,18022 0,19091 –0,02298–0,19556 0,35029 1,00000

C3 0,21369 0,22354 0,21104 0,27937 0,00294 0,06574 0,93607 0,42422 1,00000

La correlación entre las dos variables dicotómica sexo y A3 es igual a 0,0169492, muy baja.

− Entre C1, C2 y C3: coeficientes de correlación lineal de Pearson.− Entre B1, B2, B3 y entre estas y C1, C2 y C3: coeficiente de correlación

de rangos de Spearman.− Entre A3 dicotómica y C1, C2 y C3: coeficiente de correlación punto

biserial.− Entre A1, A2 y A3 entre ellas y B1, B2, B3, C1, C2 y C3: coeficiente de

correlación V de Cramér (salvo entre A3 y C1, C2 y C3, por utilizar en este caso el coeficiente punto biserial más información de los datos).

Observación: Los valores de los coeficientes V de Cramér de las variables A1 y A2 con las variables C1, C2 y C3, en realidad se calcularon con C1r, C2r y C3r, que son ellas mismas pero recodificadas asignando a cada valor solo su primer dígito.

7. Dé estimaciones puntuales y por intervalo de confianza del 95 % para la media, varianza y proporción de mayores que 60 de C1, C2 y C3 y para las proporciones de muy bien o excelente en B1 y de de féminas en sexo. Con cada intervalo debe aparecer la fórmula del mismo.

En la tabla 5.55 aparece la solución.

Bioestadística cualitativa.indd 231 25/06/2010 12:20:55 p.m.

Page 242: Bi o e s ta d í s t i c a

232

Tabla 5.55. Estimación puntual (estimación) y por intervalos con nivel de confianza 0,95

Variable Parámetro Estimación LI (95%) LS (95%)C1 Media 79,11 77,14 81,08C1 Mediana 77,74 74,64 80,83C1 Varianza 47,92 33,44 74,42C1 Proporción (> 60) 0,00 0,93 1,00C2 Media 79,45 77,38 81,53C2 Mediana 76,14 72,88 79,9C2 Varianza 53,31 37,2 82,79C2 Proporción (> 60) 0,00 0,93 1,00C3 Media 78,95 77,18 80,72C3 Mediana 79,34 76,56 82,12C3 Varianza 38,86 27,12 60,35C3 Proporción (> 60) 0,00 0,93 1,00

Sexo Proporción (= 0) 0,5 0,36 0,64B1 Mediana 0,5 0,36 0,64B1 Proporción (> 5) 0,90 0,78 0,97

Sexo Proporción (= 0) 0,48 0,34 0,63B1 Mediana 25,50 18,99 32,01B1 Proporción (> 5) 0,90 0,78 0,97

(= 0): indica femenino. ( > 5) indica muy bien o excelente.

8. Verifique si puede afirmarse, interpretando el significado probabilístico del nivel de significación que:a) La proporción de pacientes del grupo C en la población es mayor

que 0,40. b) Difieren A1 y A2. c) Difieren las proporciones de D en A1 y A2.d) Difieren las proporciones varones en las poblaciones de donde

proceden las muestras de DatosM2 y DatosMPR.e) Difieren las proporciones de D y E en A3. f) Difieren las proporciones de D en A1, A2 y A3.g) Las proporciones de varones en las poblaciones de donde proceden

las muestras de DatosM2, DatosMT y DatosMPR. h) Las proporciones de D, E y F en A1, A2 y A3.i) Diga cuál es el error posible cometido en cada caso.

La solución aparece a continuación.a) H0: P = 0,40 contra H1: P ≠ 0,40 Una población, prueba de una proporción. p = 0,38; N = 50; P0 = 0,40; Z = –0,289 y pc = 0,7728

Bioestadística cualitativa.indd 232 25/06/2010 12:20:55 p.m.

Page 243: Bi o e s ta d í s t i c a

233

Decisión: Como 0,7728 no es menor que 0,05 no se rechaza H0 con nivel de significación de 0,05. Sobre la base de estos datos no se puede afirmar que la proporción poblacional de pacientes del grupo C es igual a 0,40.

b) H0: Las distribuciones de A1 y A2 no difieren. Prueba ji cuadrado de bondad de ajuste (se aplica considerando que

la enfermedad A2 se espera que se comporte como la A1, por ser esta anterior) (tabla 5.56).

Tabla 5.56. Frecuencias observadas y esperadas para la prueba de bondad de ajuste

Clases FrecuenciasObservada A1 Esperada A1

D 20 23E 15 18F 15 19

Total 50 60

χ2 = 1,733, dos grados de libertad y probabilidad de 0,4203. Decisión: Como 0,4203 no es menor que 0,05 no se rechaza H0 con

nivel de significación de 0,05. Sobre la base de estos datos no se puede afirmar que A1 y A2 difieren.

c) H0: PD1 = PD2 contra H1: PD1 ≠ PD2 Prueba de hipótesis para las proporciones de dos poblaciones en

que la característica no es excluyente. PD1 = 0,38; PD2 = 0,40; PD12 = 0,28; n = 50; Z = −0,302 y probabi-

lidad de 0,7628. Decisión: Como 0,7628 no es menor que 0,05 no se rechaza H0 con

nivel de significación de 0,05, Sobre la base de estos datos no se puede afirmar difieren las proporciones de D en A1 y A2.

d) H0: PM2 = PMPR contra H1: PA ≠ PC Prueba de hipótesis para las proporciones de dos poblaciones a partir

de muestras independientes. PA = 0,60; PC = 0,50; N1 = 50; Z = 1,005 y p = 0,3148. Decisión: Como 0,3148 no es menor que 0,05 no se rechaza H0

con nivel de significación de 0,05. Sobre la base de estos datos no se puede afirmar que difieren las proporciones poblacionales de DatosM2 y DatosMPR.

e) PDA3 = PEA3 contra H1: PDA3 ≠ PDA3 (difieren las proporciones de D y E en A3).

Bioestadística cualitativa.indd 233 25/06/2010 12:20:55 p.m.

Page 244: Bi o e s ta d í s t i c a

234

Prueba de dos proporciones a partir de muestras apareadas con características mutuamente excluyentes.

pDA3 = 0,4000; pEA3 = 0,60; n = 50; Z = –1,443 y p = 0,1490. Decisión: Como 0,1490 no es menor que 0,05 no se rechaza H0 con

nivel de significación de 0,05, Sobre la base de estos datos no se puede afirmar difieren las proporciones de D y E en A3.

f) H0: No hay diferencias entre A1, A2 y A3 respecto a D. Prueba de dos proporciones en el caso de muestras igualadas

(tabla 5.57).

Tabla 5.57. Cálculo de las proporciones

D A1 A2 A3

Número 19 20 20Percentaje 38 40 40

Prueba Q de Cochran: n = 50, Q = 0,0800000, dos grados de libertad y p < 0,960789. Para aplicar esta prueba es necesario dicotimizar las tres variables.

Decisión: Como 0,960789 no es menor que 0,05 no se rechaza H0 con nivel de significación de 0,05. Sobre la base de estos datos no se puede afirmar que difieran las proporciones de D en A1, A2 y A3.

g) H0: PM2 = PMT = PMPR ANOVA de razón de varianza α = 0,05 V = 0,034776 Región crítica: V > V0,95(k – 1) = 3,00 Decisión: Como V no cae en la región crítica V > 3 no se rechaza

H0 con nivel de significación de 0,10, sobre la base de estos datos no se puede afirmar que difieran las proporciones de varones en las poblaciones de donde proceden DatosM2, Datos MT y DatosMPR.

h) H0: No hay diferencias entre las distribuciones de los valores D, E y F de A1, A2 y A3

Prueba de homogeneidad ji cuadrado (tabla 5.58)

Tabla 5.58. Tabla de frecuencias observadas y esperadas para la prueba de homogeneidad

Frecuencia observada Total Frecuencia esperadaA1 A2 A3 59 A1 A2 A3

D 19 20 20 58 19,67 19,67 19,67E 13 15 30 33 19,33 19,33 19,33F 18 15 0 59 11 11 11

Total 50 50 50 150 50 50 50

Bioestadística cualitativa.indd 234 25/06/2010 12:20:56 p.m.

Page 245: Bi o e s ta d í s t i c a

235

Estadígrafo ji cuadrado: 25,874; gl = 4 y pc ≈ 0,00003355. Decisión: Como por ser 0,00003355 es menor que 0,05 se rechaza

H0 con nivel de significación de 0,05 (y también de 0,00003356), Sobre la base de estos datos se puede afirmar no hay homogeneidad entre las distribuciones de D, E y F en A1, A2 y A3.

i) En las soluciones del inciso anterior el posible error cometido es el de tipo I rechazar H0 dado que es cierta, la probabilidad de equivocación es menor que 0,05 e incluso que 0,00003356, en los demás incisos, del a) al g) el error posible cometido es el de tipo II y la probabilidad de cometerlo no es conocida, se confía en que las pruebas están diseñadas para que no sea muy grande si no tomamos el nivel de significación ni el tamaño muestral muy pequeños.

9. ¿Verifique si todos los coeficientes de correlación de la matriz de correlaciones del inciso 8, en que participan A1, A2, A3, B1, B2 y B3, significativos, en el sentido de que en la población de donde provienen las muestras hay correlación?

Todos los coeficientes de correlación se dicen que son significativos si se puede realizar una prueba de hipótesis con ellos y en ellas se rechaza la hipótesis nula de que no hay correlación en la población de donde procede la muestra aleatoria. Para los coeficientes de rangos de Spearman de B1, B2 y B3 entre sí y con C1, C2 y C3 la prueba de hipótesis

H0: R = 0 utiliza el estadígrafo 22~

1

2−−

−= ntr

nrt

Y la región crítica |t| > t0,975(48) ≈ 2,0106347. El punto biserial tiene la tabla 1.45 de valores críticos que resultó ser 0,273. Para los coeficientes V de Cramér la prueba χ2 de independencia en tablas de contingencia como prueba de significación proporciona la probabilidad crítica que se denota por p. En la tabla 5.59 se pueden apreciar los resultados.

Tabla 5.59. Matriz de correlaciones de A1, A2, A3, B1, B2 y B3

A1 A2 A3 B1 B2 B3

A1 1,00000

A20,5660

p: 0,0000 1,00000

A30,1565

P: 0,54900,2802

p: 0,1460 1,00000

B10,3634

p: 0,35410,4077

p: 0,16430,3770

p: 0,3241 1,00000

B20,4635

p: 0,043790,3745

p: 0,29900,3752

p: 0,33040,0187

p: 0,8962 1,00000

Bioestadística cualitativa.indd 235 25/06/2010 12:20:56 p.m.

Page 246: Bi o e s ta d í s t i c a

236

A1 A2 A3 B1 B2 B3

B30,2906

p: 0,74970,3627

p: 0,35770,4577

p: 0,11400,2465

p: 0,05490,2479

p: 0,0534 1,00000

C10,1942

p: 0,70780,2638

p: 0,32460,1977

VC: 0,273 0,3206

p: 0,00970,0298

p: 0,83460,1078

p: 0,4328

C20,2699

p: 0,29560,2832

p: 0,23660,1802

VC: 0,273 0,1909

p: 0,1478–0,0230

p: 0,8756–0,1956

p: 0,2212

C30,2137

p: 0,33480,2235

p: 0,28760,2110

VC: 0,273 0,2794

p: 0,02710,0029

p: 0,98380,0657

p: 0,6396

Los coeficientes de correlación de la tabla 5.58 aparecen en la parte superior de la celda acompañados se su probabilidad (p) o valor críticos (VC) en la parte inferior. Con valores de p menor que 0,05 se destacan los coeficientes V de Cramér entre A1 y A2 y entre A1 y B2 y los de Spearman entre B1 y C1 y entre B1 y C3 los cuatro son significativos.

10. Se podrá afirmar que en la población de donde procede la muestra de DatosMPR de la tabla 5.44 hay diferencia entre: a) B1 y B2.b) B1, B2 y B3.c) Los equipos A y B en cuanto a la variable B1.d) Los equipos A, B y C en cuanto a la variable B1.

La solución aparece a continuación. a) La prueba adecuada es la de rangos con signos de Wilcoxon. H0: No hay diferencia entre B1 y B2 en la población de donde pro-

viene la muestra DatosMPR.

B1 vs B2N válido Estadígrafo T Estadígrafo Z p crítico

50 164 1,156841 0,247338

Decisión: Como 0,247338 es menor que 0,05 no se rechaza H0 con nivel de significación de 0,05. Sobre la base de estos datos no se puede afirmar que haya diferencia entre B1 y B2.

b) La prueba adecuada es la de rangos de Friedman. H0: No hay diferencias entre B1, B2 y B3 en la población de donde

procede la muestra de la matriz de DatosMPR. Variable Suma de rangos

B1 108B2 97,5B3 94,5

χ2= 2,977778, N = 50, dos grados de libertad y p = 0,22562. Decisión: Como 0,22562 no es menor que 0,05 no se rechaza H0

con nivel de significación de 0,05.

Bioestadística cualitativa.indd 236 25/06/2010 12:20:57 p.m.

Page 247: Bi o e s ta d í s t i c a

237

c) H0: No hay diferencias entre los grupos A y B respecto a B1. Como la muestra es de tamaño 50 se utiliza el estadígrafo con distri-

bución aproximadamente normal en la prueba de Mann-Whitney.Suma de rangos

EstadígrafoZ

Probabilidadcrítica p

CorregidoZ

Proba-bilidad

p críticoB1 B A

218,5000 277,5000 0,849862 0,395402 0,868171 0,385301

Decisión: Como 0,868171 no es menor que 0,05 no se rechaza H0 con nivel de significación de 0,05.

d) La prueba adecuada es la de rangos de Kruskall-Wallis. H0: Las poblaciones donde provienen los grupos A y B y C no di-

fieren respecto a B1. N válido Suma de rangos

A 16 434,0B 15 344,5C 19 496,5

N = 50, H = 0,7191767; gl = 2 y pc = 0,6980. Decisión: Como 0,6980 no es menor que 0,05 no se rechaza H0 con

nivel de significación de 0,05. Sobre la base de estos datos no se puede afirmar que difieren los tres grupos respecto a B1.

11. Diga si conoce otras pruebas aplicables a las variables que empiezan por A y por B y en caso de que exista más de una analice cuál es la mejor para verificar si en las poblaciones de donde proviene la muestra de la tabla 5.44 hay o no diferencia entre las variables o equipos de todos los casos posibles.– En el caso de A1, A2 y A3:

• Para una población: binomial y la aproximación normal, ji cua-drado de bondad de ajuste, de las rachas, exacta F. Todas son igualmente buenas salvo por la dificultad que entrañe aplicarlas. Para muestras pequeñas la binomial y la exacta F.

• Para dos poblaciones: de dos proporciones en muestras indepen-dientes y apareadas, ji cuadrado de independencia y homoge-neidad, de significación para el coeficiente de correlación V de Cramér, de la probabilidad exacta de Fisher, de McNemar. Todas son buenas pero exigen condiciones que las diferencian.

• Para más de dos poblaciones: De razón de varianzas, Q de Co-chran. Ambas son buenas una para muestras independientes y otra para muestras igualadas.

− En el caso de B1, B2 y B3: • Para una población: de Kolmogórov-Smírnov, de las rachas. La de

Kolmogórov-Smírnov aprovecha mejor la información ordinal de la muestra, y la de las rachas la de la disposición de los datos.

Bioestadística cualitativa.indd 237 25/06/2010 12:20:57 p.m.

Page 248: Bi o e s ta d í s t i c a

238

• Para dos poblaciones: de las rachas, de Kolmogórov-Smírnov, U de Mann-Whitney, de rangos con signos de Wilcoxon, de la mediana, de los signos, de los coeficientes de correlación de Spearman y de Kendall, de la mediana. Las mejores son la u de Mann-Whitney y la de Wilcoxon porque aprovechan más información de las muestras que las otras.

• Para más de dos poblaciones: de rangos de Kruskall-Wallis, de rangos de Friedman. Ambas son buenas una para muestras inde-pendientes y otra para muestras igualadas. La de la mediana utiliza menos información que las mencionadas.

5.2.2. Problemas propuestos

A partir de la muestra de la matriz de DatosMT de la tabla 1.17 resuelva los siguientes problemas.

1. Escriba el listado de la muestra aleatoria de 50 pacientes de la matriz de datos DatosMT y después copie a continuación cada enunciado: a) Construya tres distribuciones de frecuencias absolutas, relativas,

acumulativas y las tasas por 10 000 de las variables P2, G2 y T2. Interprete los resultados.

b) Represéntelas gráficamente mediante histograma, pastel y polígono (tres gráficas distintas) e interprételas.

c) Construya las distribuciones bivariadas de frecuencia de P3 con G3 y de P3 con T3 e interprételas. Interprete los resultados.

2. Complete la tabla 5.60 con los indicadores descriptivos de las variables P1, P3, C1 y T1. Interprete los resultados.

Tablas 5.60. Indicadores numéricos de las variables P1, P3, C1 y T1

P1 P3 C1 T1N válidoMedia

MedianaModa

Frecuencia modaMínimoMáximo

Desviación mediaCuartil inferiorCuartil superior

Percentil 0,5Percentil 0,95

Bioestadística cualitativa.indd 238 25/06/2010 12:20:57 p.m.

Page 249: Bi o e s ta d í s t i c a

239

Recorrido o rangoRecorrido intercuartil

VarianzaDesviación estándar

Coeficiente de variaciónError estándar

3. Construya gráficas de cajas y bigotes de las variables G1, G2 y G3, así como de las variables T1, T2 y T3, cada una con los indicadores apropiados. Interprete los resultados.

4. Calcule los coeficientes de correlación de las celdas en blanco de la tabla 5.61, que están por debajo de la diagonal de unos, identifique los coeficientes del mismo tipo poniendo los Id del mismo color.

Tabla 5.61. Matriz de correlaciones de todas las variables de interés

P1 P2 P3 G1 G2 G3 T1 T2 T3P1 1 - - - - - - - -P2 Id 1 - - - - - - -P3 Id Id 1 - - - - - -G1 Id Id 1 - - - - -G2 Id Id Id Id 1 - - - -G3 Id Id Id Id Id 1 - - -T1 Id Id Id 1 - -T2 Id Id Id Id Id Id 1 -T3 Id Id Id Id Id Id Id Id 1

Diga si vale la pena aplicar la regresión lineal a las dos variables más correlacionadas de la tabla 5.61. Halle, además, la correlación entre sexo y P3 e interprete todos los resultados.

5. Diga qué utilidad tienen los indicadores correlación y por qué son necesarios estos cuatro coeficientes, diga, además, qué utilidad tienen el coeficiente de correlación, la correlación parcial y la correlación múltiple y para cuales coeficientes existen estas dos últimas.

6. Una prueba o dócima de hipótesis es un procedimiento para decidir si se rechaza o no una hipótesis estadística sobre la base de la información muestral. Para aplicar una dócima con un software estadístico se procede así:– Planteamiento de las hipótesis y fijación el nivel de significación α

y verificación de las condiciones. – Procesamiento con el software adecuado para obtener el valor del

estadígrafo y región crítica o probabilidad crítica.– Decisión estadística y popular.

Bioestadística cualitativa.indd 239 25/06/2010 12:20:57 p.m.

Page 250: Bi o e s ta d í s t i c a

240

– Sugerencias: ¿Qué se docima? Parámetros y distribuciones.– Algunos posibles enunciados de las pruebas de hipótesis:

• Se desea saber si...• Verifique que...• Una muestra arrojó... podrá afirmarse...• Anteriormente la media era... ahora una muestra arrojó...• En tal lugar el parámetro tal tiene el valor... Una muestra arrojó...

a) Diga, además, qué pruebas de hipótesis se pueden aplicar a uno o más de un parámetro de las variables en la población o poblaciones de donde proviene la muestra de los incisos siguientes. Enuncie el problema, y aplique la prueba según este algoritmo, relativo a:− P1.− G1. − P1 y P2.− Los grupos 1 y 2 respecto a P1.− G1 y G2.− Los grupos 1 y 2 respecto a G1. − G1, G2 y G3.− Los grupos 1, 2 y 3 respecto a P1.− Los grupos 1, 2 y 3 respecto a G1.

b) Diga qué utilidad tienen las pruebas de hipótesis, y en particular todas estas.

5.3. Distribución de las pruebas (dócimas o test) de hipótesis por escala de cuantificación de las variables, el número de poblaciones y el tipo de muestras

Muestras en escalas nominales Muestras en escalas ordinalesUna población

Dócima para la proporción de una población en caso de muestras grandes

Dócima de bondad de ajuste de Kolmogórov-Smírnov

Dócimas binomial para la proporción de una población

Por encima y por debajo de la medianaDócima basada en el número total de rachas de los símbolos a y b

Dócima ji cuadrado de bondad de ajuste para una población

Dócima basada en la longitud de la racha más larga de los símbolos a o b

Dócima de las rachas de Wald-Wolfowitz para una población

Hacia arriba y hacia abajoDócima Moore-Wallis, basada en el número de rachas de signos mas (+)

Dócimas exacta F para la proporción de una población

Dócima basada en el número total de rachasDócima basada en las rachas más largas de signos mas (+) y menos (−)

Bioestadística cualitativa.indd 240 25/06/2010 12:20:58 p.m.

Page 251: Bi o e s ta d í s t i c a

241

Dos poblacionesDócimas de independencia ji cuadrado en tablas de contingencia.

Dócimas de significación para el coeficiente de rangos de Spearman

Dócima de la probabilidad exacta de Fisher

Dócima para el coeficiente de correlación de rangos de Kendall

Dócima para el coeficiente de correlación V de Cramér

Dócima para el coeficiente de concordancia de rangos de Kendall

Muestras independientes

Dócimas para las proporciones

Dócimas de Kolmogórov-Smírnov para dos poblacionesDócima de Kolmogórov-Smírnov de dos colas en el caso de muestras pequeñas, ambas del mismo tamaño nDócima de Kolmogórov-Smírnov de dos colas en el caso de muestra grandes

Dócimas de homogeneidad ji cuadrado en tablas de contingencia

Dócima de de Kolmogórov-Smírnov de una cola en el caso de muestras grandes.Dócima U de Mann-Whitney o de suma de rangos de WilcoxonDócima de las rachas de Wald-Wolfowitz para dos poblacionesDócima de la mediana

Muestras apareadasDócimas de McNemar Dócima de rangos con signos de WilcoxonExtensión de la dócima de McNemarDócimas para las proporciones dado que las características son mutuamente excluyentes Dócima de los signosDócimas para las proporciones dado que las características son no excluyentes

Más de dos poblacionesMuestras independientes

ANOVA de razón de varianza ANOVA de Kruskall-WallisANOVA de la mediana

Muestras igualadas ANOVA Q de Cochran ANOVA de Friedman

Una tabla con algo más del mínimo de 15 dócimas que más información extraen de las muestras, clasificadas según la escala, el número de poblaciones y el tipo de muestras.

Poblaciones y muestras

EscalaIntervalo o razón Ordinal Nominal

Una población Media, varianza y distribución

Bondad de ajuste de Kolmogorov-Smírnov

Binomial para la proporción, exacta F

Dos poblaciones y muestras

independientes

Medias y varianzas

U de Mann-Whitney, Kolmogórov-Smírnov

Independencia y homogeneidad y exacta

de Fisher

Bioestadística cualitativa.indd 241 25/06/2010 12:20:58 p.m.

Page 252: Bi o e s ta d í s t i c a

242

Poblaciones y muestras

EscalaIntervalo o razón Ordinal Nominal

Dos poblaciones y muestras apareadas

Medias y varianzas

Rangos con signos de Wilcoxon Dos proporciones

Tres o más poblaciones y muestras

independientes

ANOVA Kruskall-Wallis Razón de varianzas

Tres o más poblaciones y muestras igualadas

Friedman Friedman Q de Cochran

5.4. Ejemplo de cómo informar el resultado de la aplicación de una prueba de hipótesis con un software estadístico

Sirva como ejemplo general, por el que se debe guiar para resolver cualquier problema de prueba de hipótesis este:

¿Se podrá afirmar que hay diferencias entre las tres razas en cuanto grado de retraso mental a partir de la muestra aleatoria de la matriz de DatosM2. Use un nivel de significación igual a 0,05.

1. Selección de la prueba que aprovechan mejor la información de la muestra y verificación de las condiciones que exige: la condición de muestra aleatoria se da como dato, la escala de la variable grado de retraso mental es ordinal y las tres muestras son independientes, por tanto, el ANOVA de clasificación simple no se puede aplicar, por exigir este distribuciones normales, varianzas iguales y el modelo aditivo de ANOVA, y si el de rangos de Kruskall-Wallis, que solo exige escalas ordinales.

2. Planteamiento de las hipótesis: H0: La población de niños de las tres razas no difiere en cuanto a grado

de retraso mental.H1: La población de niños de las tres razas difiere en cuanto a grado

de retraso mental.3. Selección del estadígrafo adecuado o la prueba adecuada en el

software: Estadígrafo: H = 5,850182; pc = 0,0537 y n = 504. Decisión estadística y popular: Como p ≈ 0,0537, no es menor 0,05 no se rechaza H0 con nivel de

significación de 0,05. Sobre la base de estos datos no se puede afirmar que la media poblacional difiera de 43.

Bioestadística cualitativa.indd 242 25/06/2010 12:20:58 p.m.

Page 253: Bi o e s ta d í s t i c a

243

La tabla 5.62 con las sumas de rangos por raza y la muestra deben ir en los anexos.

Tabla 5.62. Sumas de rangos y n válidos

Raza N válido Suma de rangosN 14 254O 22 650B 14 371

Observaciones: Las frases que se escribieron en cursiva de los puntos 1, 2, 3 y 4 no necesariamente se deben incluir al realizar la prueba concretamente. El punto 1 es preparatorio y puede fusionarse con el 2. El informe debe conte-ner al menos el análisis de que se cumplen las condiciones, la hipótesis nula, el nivel de significación, n, el valor del estadígrafo la probabilidad o región critica, y, la decisión estadística y popular. Además, hay que averiguar siempre qué resultado ofrece el software y resolver las insuficiencias que se presenten para descartar errores. En un informe mínimo se puede dar solamente la n, el estadígrafo y pc o n, el estadígrafo y la región crítica. El resto, si se considera conveniente, se debe incluir en los anexos, esta información adicional ayuda mucho en los casos de decisión dudosa y hasta permite comprobar el resultado de la prueba. Resulta importante también saber la forma en que requiere los datos el software.

5.5. Elementos de regresión logística

La función de distribución de probabilidad logística con parámetros a y b tiene la forma:

b

ax

e

xF −−+

=1

1)(

para –∞ < x < ∞, b > 0.

Su función de densidad tiene la forma:

2

1

1)(

+

=−−

−−

b

ax

b

ax

e

e

bxf

para –∞ < x < ∞, b > 0

Donde:a: es la media de la distribución.B: es un parámetro de escala. e: es el número de Euler (2,71828182845905 aproximadamente).

Bioestadística cualitativa.indd 243 25/06/2010 12:20:58 p.m.

Page 254: Bi o e s ta d í s t i c a

244

El caso más sencillo de distribución logística se obtiene cuando a = 0, b = 1:

para −∞ < x < ∞.

x

x

x e

e

exF

+=

+= − 11

1)(

para −∞ < x < ∞.

El modelo de regresión lineal viene dado por la ecuación:

Y = β0 + β1X1 +... + βkXk

Donde:Y: es la variable dependiente o de respuesta. X1, X2,…, Xk: son las variables independientes o explicativas. β0, β1, β2,…, βk: son los coeficientes constantes respectivos de X1, X2,…, Xk.

El modelo de regresión lineal simple representa el caso particular: Y = β0 + β1X1

Una vez construido el modelo de regresión lineal se debe decidir acerca de la bondad de su ajuste, la significación de sus coeficientes y los posibles factores de confusión o variables confusoras todo esto para determinar si se incluyen nuevas variables independientes o se eliminan algunas de las existentes con lo que se obtiene el modelo mas simple y que mejor ajusta.

5.5.1. Modelo de regresión logística simple

Sea Y = α + βX.

Donde:Y: una variable dicotómica cuyos únicos valores son 0 y 1. X: una variable continua.

Ante estas condiciones no tiene sentido la regresión, pero utilizando trans-formaciones pudiera conformarse un análisis de posible regresión.

Toda la información estadísticamente relevante de una variable dicotómi-ca como Y está contenida en la probabilidad de uno de sus valores, sea esta p = P{Y = 1}, puesto que la probabilidad del otro valor P{Y = 0} = 1 – P{Y = 1} se obtiene de la del primer.

Y, por ser dicotómica, no cumple las condiciones del modelo de regresión lineal, Pero si en lugar de Y se toma:

p = P{Y = 1/X} Se obtiene una variable continua que asigna a y el valor de P{Y = 1/X}

comprendido en el intervalo [0 , 1] y mejora la situación para la aplicación de la regresión a Y.

Bioestadística cualitativa.indd 244 25/06/2010 12:20:59 p.m.

Page 255: Bi o e s ta d í s t i c a

245

Para lograr ampliar más el conjunto de valores posibles del miembro derecho obtenido se toma, en lugar de p, el cociente

p

p

−1.

Que representa la variable continua que a y asigna el valor de:

{ }{ }XYP

XYP

/11/1

=−=

comprendido entre 0 y +∞.

Y para ampliar aún más el conjunto de valores posibles del miembro derecho

obtenido, en lugar de p

p

−1 se toma .

Que proporciona, por fin una variable continua que a y asigna el valor de:

comprendido entre −∞ y +∞.

Ahora el modelo de regresión Y = α + βX puede escribirse así:

(I)

Lo que le da sentido a la expresión inicial Y = α + βX.Y aplicando la función inversa exponencial a ambos lados de la igualdad

(I) se obtiene:Xe

p

p β+α=−1

Que representa otra expresión del modelo y multiplicando por 1 – p a ambos lados de la igualdad anterior se tiene que:

p = eα + βx(1 – p) ⇔ p = eα + βx – peα + βx ⇔ p + peα + βx = eα + βx ⇔ p(1 + eα + βx) = eα + βx

x

x

e

ep β+α

β+α

+=

1

xep β−α−+

=1

1

Ahora se puede afirmar que la ecuación es equivalente

a xep β−α−+

=1

1 .

Y resulta que xep β−α−+

=1

1 es una función de distribución logística con

parámetros: y .

Bioestadística cualitativa.indd 245 25/06/2010 12:20:59 p.m.

Page 256: Bi o e s ta d í s t i c a

246

De donde el modelo recibe el nombre de modelo de

regresión logística.Por otra parte, si X es dicotómica también, según este modelo, poniendo

q = 1− p, se tiene que los coeficientes α y β se pueden expresar función de las probabilidades condicionales:

y

Y denominando odds al cociente q

p se puede decir que α es el logaritmo

del odds dado que X = 0 y α + β es el logaritmo del odds dado que X = 1, de modo que entonces:

/ 1ln

/ 0

pX

qp

Xq

β

= = =

Es decir, β es el logaritmo del cociente de los odds para los dos valores de la variable X, y se tiene que:

/ 1

/ 0

pX

qe

pX

q

β=

==

recibe el nombre de odds ratio.

Al tabular las variables dicotómicas X e Y se obtiene: X = 1 X = 0 Total

Y = 1 a b a + bY = 0 c d c + dTotal a + c b + d n

Y se puede obtener el odds ratio así:

Bioestadística cualitativa.indd 246 25/06/2010 12:20:59 p.m.

Page 257: Bi o e s ta d í s t i c a

247

Si la variable dicotómica Y es independiente de la variable X, ambos odds son iguales, por lo tanto el odds ratio vale 1 y su logaritmo será cero. Si el co-ciente resulta mayor que 1 entonces el odds del numerador predominará sobre el del denominador y si resulta menor que 1 ocurrirá lo contrario. Por lo tanto, para estudiar, con un modelo logístico, la independencia o correlación de las variables, basta con estudiar si el coeficiente β es igual a 0 o no, esto es si el odds ratio es igual a 1, mayor que 1 o menor que 1.

En ciencias médicas se acostumbra a denotar los valores de X así: 1 igual a expuesto o experimental y 0 igual a no expuesto o control, y los valores de Y así: 1 igual a enfermo y 0 igual a no enfermo.

Por otra parte, poniendo P(Y = 1/x) = p, P(Y = 0/x) = 1 – p y

p

p

xYP

xYP

−=

==

1)/0()/1( .

Y, generalizando: P(Y/x) = py(1 – p)1 – y siendo 0 y 1 los posibles valores de Y, representa la función de probabilidad de una distribución de Bernoulli con parámetro p.

5.5.2. Modelo de regresión logística múltiple

Ahora, generalizando el modelo logístico, para Z = β0 + β1x1 + ... + βkxk, se tiene, por analogía con el modelo de regresión múltiple:

Y = β0 + β1x1 + ... + βkxk

Puede escribirse, en la regresión logística múltiple, así:

Lo que es equivalente a

)...( 1101

1kk xxe

p β++β+β−+= .

Que se obtiene análogamente a como en el caso anterior, teniendo en cuenta que en esa deducción no se alteró el exponente, salvo en la última transfor-mación, en que solo cambió de signo. Este caso representa la generalización del anterior y con esta transformación se obtienen los n valores pronosticados de Y evaluando la expresión precedente en cada uno de los n valores de las variables Xi o X según el caso. El modelo de regresión logística es, más bien, un modelo de regresión no lineal, pero se linealiza aplicando transformaciones logarítmicas y sus propiedades.

equivale a zpp =−− )1ln()ln( y poniendo que:

z = β0 + β1x1 + ... + βkxkln(p) – ln(1 – p) = β0 + β1x1 + ... + βkxk

Bioestadística cualitativa.indd 247 25/06/2010 12:21:00 p.m.

Page 258: Bi o e s ta d í s t i c a

248

Es decir, la diferencia de la probabilidad de que ocurra un suceso respecto a la de que no ocurra, en escala logarítmica, es lineal. Por tanto, el significado de los coeficientes, aunque tiene una cierta relación con el modelo de regresión lineal, va a ser algo más complejo de interpretar.

Esta expresión aporta mucho a la interpretación de la regresión logística, pues se puede interpretar como que todo el rango de variación de Y se puede expresar como función continua de X o de x1,..., xn .

Después de obtenido el modelo de regresión logística, para completar su análisis también hay que decidir acerca de la bondad de ajuste de la ecuación, la significación de los coeficientes y los posibles factores de confusión.

Entre las pruebas más utilizadas para la bondad de ajuste del modelo está el método de máxima verosimilitud que aporta el estadígrafo –2(L0 – L1), para la prueba de razón de verosimilitudes, cuya distribución asintótica es 2

qχ , donde q es la diferencia entre el número de parámetros de los modelos correspondientes a L1 y L0. Representa –2 veces la diferencia de los logaritmos de la verosimilitud entre el modelo reducido con solo el término independiente (L0) y el modelo completo con los dos coeficientes (L1).

En el caso del modelo con solo una variable independiente, constituye la prueba del cociente de máxima verosimilitud para la hipótesis H0: β = 0.

Esto incluye las pruebas de las hipótesis H0: βi = 0 o de significación de los coeficientes βi, que se realiza a partir del estadígrafo ji cuadrado con un grado de libertad. Al término independiente β0 también se le puede aplicar la prueba, como se observa en los resultados del ejemplo de la segunda y tercera columnas de la tabla 5.63en que aparecen 25 fumadores a cada uno de los cuales se les registra el número de cigarrillos consumidos diariamente (X) y si tiene el virus de influenza AH1N1 o no, variable Y.

Tabla 5.63. Variables para los ejemplos 1 y 3 de regresión logística

No. X1 Y X2 AH1N1 Fuma1 13 0 10 1 12 28 0 24 1 13 6 1 3 1 14 25 0 20 1 15 18 1 14 1 16 4 0 3 1 17 18 0 15 1 18 12 0 9 1 19 22 1 17 1 1

10 4 0 5 1 111 30 1 25 1 112 11 0 11 1 013 30 1 26 1 0

Bioestadística cualitativa.indd 248 25/06/2010 12:21:00 p.m.

Page 259: Bi o e s ta d í s t i c a

249

14 20 1 16 1 015 13 0 9 1 016 9 0 6 1 017 32 1 27 1 018 24 1 20 1 019 13 0 11 0 120 19 0 16 0 121 6 0 4 0 122 29 1 21 0 123 23 1 24 0 124 8 1 9 0 125 20 1 16 0 126 0 127 0 128 0 129 0 130 0 031 0 032 0 033 0 034 0 035 0 036 0 0

Aplicando la regresión logística de Y en función de X = X1 se obtiene, con un software estadístico, la tabla 5.64 con los resultados de la regresión logística aplicada a estas dos variables.

Tabla 5.64. Resultados de la regresión logística

Predictor Coeficiente EE Odd LI LS –2(L0 – L1) pc

Constante –2,44 1,16 0,09 0,01 0,85 5,63 0,0177

Número de cigarrillos 0,13 0,06 1,14 1,02 1,29 6,39 0,0115

Razón de máxima verosimilitud –14,11

Donde:EE: el error estándar y los coeficientes son β1 = 0,13 y α = β0 = –2,44.Odd = eβ: representa el odds ratio y su valor de 1,14, es mayor que 1, por lo

que se puede afirmar, teniendo en cuenta que la prueba de bondad de ajuste da una probabilidad crítica de 0,0115 < 0,05, que, sobre la base de esta muestra, y con un nivel de significación de 0,05, que cuanto más cigarrillos diarios se consumen más se contribuye a que se contraiga la influenza AH1N1.

Bioestadística cualitativa.indd 249 25/06/2010 12:21:00 p.m.

Page 260: Bi o e s ta d í s t i c a

250

LI y LS: los límites de confianza del 95 % inferior y superior, respectiva-mente, para el odds ratio y pudieran interpretarse como valores críticos de los mismos.

–2(L0 – L1): constituye el estadígrafo de la prueba de razón de verosimili-tudes, la bondad de ajuste y los coeficientes.

pc: constituye la probabilidad crítica (de que el estadígrafo caiga en le región crítica), para la prueba de bondad de ajuste asociada con el coeficiente correspondiente y como resulta menor que el nivel de significación fijado se rechazará la hipótesis H0: β1 = 0 con nivel de significación α = 0,05. También se rechaza la hipótesis H0: β0 = 0 con el mismo nivel α = 0,05 y el ajuste del modelo con ambos coeficientes es bueno, utilizando este nivel de significación (y hasta con un nivel de significación de 0,0178 en ambos casos), según los datos que se acaban de obtener.

El odds ratio se puede interpretar así: si resulta que:– Igual a 1: no hay relación entre el número alto de cigarrillos fumados

habitualmente y el contagio con la influenza AH1N1.– Mayor que 1: el un número alto de cigarrillos fumados habitualmente

constituye un factor de riesgo, tanto mayor cuanto más grande sea ese número.

– Menor que 1: el número alto de cigarrillos fumados habitualmente no constituye factor de riesgo sino todo lo contrario, favorece el no padecerla.

El modelo también es válido en el caso que X sea una variable en escala ordinal, nominal e incluso dicotómica, pues en presencia de la constante que puede tomar cualquier valor real tiene sentido todo lo anterior. Se ejemplifica-rá el caso más simple de presentación de los datos originales, que es el de las variables dicotómicas, por ejemplo, una muestra aleatoria de personas a las que se le registró si estaban o no contagiadas con el virus AH1N1 y si fumaban o no arrojó estos datos de la tabla 5.64.

Se desea saber si el hábito de fumar resulta un factor de riesgo para contraer la enfermedad.

Para aplicar la regresión logística con la mayoría de los paquetes estadísticos hay que disponer los datos de la tabla 5.65 en forma de matriz de datos, como la que se ofrece en las dos columnas de la tabla 5.65.

Tabla 5.65. Distribución de frecuencias de fumar o no y la presencia del AH1N1

Fuma No Fuma TotalAH1N1 10 21 31

No AH1N1 25 12 3735 33 68

Bioestadística cualitativa.indd 250 25/06/2010 12:21:01 p.m.

Page 261: Bi o e s ta d í s t i c a

251

Tabla 5.66. Representación como matriz de datos de la distribución bivariada de frecuencias

AH1N1 Fuma AH1N1 Fuma1 1 0 11 1 0 11 1 0 11 1 0 11 1 0 11 1 0 11 1 0 11 1 0 11 1 0 11 1 0 11 1 0 11 0 0 11 0 0 11 0 0 11 0 0 11 0 0 11 0 0 11 0 0 11 0 0 11 0 0 11 0 0 11 0 0 01 0 0 01 0 0 01 0 0 01 0 0 01 0 0 01 0 0 01 0 0 01 0 0 01 0 0 00 1 0 00 1 0 00 1 0 0

En la tabla 5.67 se ofrecen los resultados de la aplicación de la regresión logística simple a estas dos variables con 68 valores.

Tabla 5.67. Resultados de la regresión logística

Predictor Coeficiente EE Odd LI LS –2(L0 – L1) pConstante 0,43 0,36 1,54 0,77 3,09 1,5 0,2213

Fuma –1,21 0,51 0,30 0,11 0,81 5,91 0,015Razón de máxima verosimilitud –43,91

Bioestadística cualitativa.indd 251 25/06/2010 12:21:01 p.m.

Page 262: Bi o e s ta d í s t i c a

252

Los coeficientes β1 = –1,21 y β0 = 0,43. Odd = eβ: es el odds ratio y su valor de 0,30, se puede interpretar como

que sobre la base de esta muestra, fumar no contribuye a tener la enfermedad, no es factor de riesgo sino lo contrario, contribuye a no tener la enfermedad. Claro estos datos son ficticios y aunque no lo fueran, lo que se cumple para una muestra determinada no tiene que cumplirse necesariamente para la población, esta podría ser una muestra fatal, en que cayeron muchos casos extremos.

p: constituye la probabilidad crítica de la prueba de bondad de ajuste.

En el ejemplo se rechazará la hipótesis H0: β = 0 con nivel de significación de 0,05 porque la prueba brinda una probabilidad de 0,015. La hipótesis de que la constante es nula no se rechaza, porque la probabilidad es de 0,2213, que no es menor que 0,05. Esto dice que el ajuste podría ser mejor si no se incluyera la constante.

Ejemplo 5.1:

Para más de una variable independiente. Se cree que en la enfermedad Y influyen fundamentalmente dos factores X1 y X2. Una muestra aleatoria de 25 pacientes con la enfermedad Y arrojó los resultados de la tabla 5.63. Los resul-tados del análisis de regresión logística para verificar la creencia sobre la base de las variables Y, X1 y X2 se muestran en la tabla 5.68.

Tabla 5.68. Aplicación de la regresión logística con dos variables independientes

Predictor Coeficiente EE Odds LI LS –2(L0 – L1) p

Constante –2,42 1,16 0,09 0,01 0,86 5,54 0,0186

X1 0,08 0,25 1,08 0,66 1,77 0,09 0,7603

X2 0,07 0,29 1,07 0,6 1,9 0,05 0,8156

Razón de máxima verosimilitud –14,09

Los coeficientes obtenidos son β2 = 0,07; β1 = 0,08 y β0 = –2,42. Se observa un odds ratio de 1,08 para X1 según la p = 0,7603 de la prueba

de bondad de ajuste, no es significativamente mayor que 1. También se observa que el odds ratio para X2 es de 1,07, que, según la prueba de bondad de ajuste en que p = 0,8156, tampoco es significativamente mayor que 1, por tanto, en ambos casos se puede afirmar con un nivel de significación de 0,05 que no contribuyen ninguno de los dos factores al padecimiento de la enfermedad.

Se rechazará la hipótesis H0: β0 = 0 con nivel de significación de 0,05 porque la prueba de bondad de ajuste brinda una probabilidad de 0,0186. Las hipótesis de que β1 = 0 no se rechaza y tampoco la de β2 = 0, porque sus probabilidades críticas son 0,3894 y 0,8739 respectivamente, que no son menores que 0,05.

Bioestadística cualitativa.indd 252 25/06/2010 12:21:01 p.m.

Page 263: Bi o e s ta d í s t i c a

253

5.6. Registro de la información observada como variables

La respuesta a las cuestiones relacionadas con este asunto conduce, por lo general, a la revisión del diseño del experimento, al replanteamiento de las preguntas del cuestionario o de la observación, siempre que sea posible, para mejorarlas, para poder extraerles el máximo de información con el menor es-fuerzo en la observación y en el procesamiento posterior.

Por otra parte, la operacionalización, como le llama el proyecto de investi-gación CITMA a este registro o definición de variables, no la conciben muchas personas, y por tanto muchos investigadores, como no conciben su investigación como experimental por no haber profundizado en este tipo de investigación que necesariamente genera datos, porque hay que registrar de algún modo la información de lo observado en el experimento. Téngase en cuenta que un experimento se concibe como “un conjunto de condiciones definidas o creadas pero, bien definidas para realizar observaciones”.

5.6.1. Terminología

− Registrar la información: consiste en cuantificarla y esto no significa que se represente por números exclusivamente, existen varias escalas de cuantificación y no todas son numéricas.

− Variable: ente que puede tomar un valor cualquiera de los comprendidos en un conjunto bien definido.

− Matriz de datos: sistema de variables con los valores que tomó en un conjunto de individuos o elementos dispuesto en forma de matriz en columnas encabezadas por los nombres de las variables y filas encabezadas por los individuos o transpuesta, o sea en que las filas y las columnas se intercambian de lugar.

− Cuestionario: incluye encuestas, entrevistas, formularios, planillas de datos a llenar y hasta entrevistas, pues algo se pregunta en ellas.

Por lo menos para la aplicación de los métodos estadísticos la clasificación de los datos según las escalas nominal, ordinal, de intervalo y de razón es la más completa.

En general la escala superior, la de razón registra la información métrica, la ordinal, la presencia del 0 absoluto y la nominal.

La escala de intervalo registra información métrica, la ordinal y la nominal. La escala ordinal registra información ordinal y la nominalLa escala la nominal registra información de la simple clasificación en

clases. Por eso si se puede cuantificar en una escala superior no se debe hacer en

una escala inferior porque se perderá información al hacerlo, salvo que prime

Bioestadística cualitativa.indd 253 25/06/2010 12:21:01 p.m.

Page 264: Bi o e s ta d í s t i c a

254

el objetivo de simplificar. Si es necesario, la escala superior se puede reducir después a una escala inferior como parte del procesamiento estadístico. La definición de estas cuatro escalas se brinda en el epígrafe 1.1.

5.6.2. Cuantificación de las respuestas y matriz de datos

En la actualidad la cuantificación de la información no quiere decir nece-sariamente que los símbolos con que se registran las respuestas sean números. Pueden ser palabras, categorías que, a menudo, se denominan clases, puntajes, datos y observaciones. La cuantificación de estos se puede hacer siempre al menos a través de las frecuencias de las clases. No obstante, conviene aclarar que toda la información contenida en los cuestionarios puede registrarse en una hoja, en forma de matriz de datos.

Esta matriz de datos permite concentrar toda la información en un pequeño espacio, en muy pocas páginas de papel o digitales, y es, además, imprescin-dible para el procesamiento estadístico descriptivo e inferencial subsecuente que requiere de estas matrices para operar.

No pierda los registros de las observaciones originales o los cuestionarios respondidos antes de crear una matriz de datos que contenga toda la información, que en muchos casos solo ocupan una o unas pocas páginas. Aquí podrá conocer cómo confeccionar la matriz de datos de modo que contenga el 100 % de la información registrada de las observaciones o respuestas a cuestionarios.

Hay investigadores que calculan las frecuencias absolutas o porcentua-les de los distintos valores de las variables observadas o de los respuestas a cuestionarios y luego pierden o se despreocupan de los registros originales, pensando que ya les extrajeron los relevante. Cuando solicitan asesoramiento estadístico el asesor les pregunta que donde están los resultados originales para poder aplicar el procedimiento estadístico más apropiado y responden que no los tienen, entonces solo puede procederse a procesar las tablas de frecuencias, graficándolas y aplicando la prueba ji cuadrado o de proporciones, que son las más pobres de las pruebas estadísticas, pues no utilizan ni la información de orden ni de métrica que pudieran contener las variables originales. Si las frecuencias que traen no cumplen las condiciones que exigen estas pruebas entonces ni ellas se pueden utilizar.

Si una variable toma siempre un único valor se denomina constante, en lugar de variable. En la práctica los registros de las observaciones o de las respuestas a un cuestionario constituyen un conjunto de una o varias variables.

En la tabla 5.69 se muestra un ejemplo de matriz de datos con tres variables-columnas denominadas edad, evaluación de un examen y color preferido y cinco individuos-filas, denominados Raúl, María, Ana, Juan y Mario. Estos individuos a menudo se denotan por los números 1, 2, 3, 4 y 5 o no se incluye su columna porque se sobreentiende que se identifican con estos números.

Bioestadística cualitativa.indd 254 25/06/2010 12:21:02 p.m.

Page 265: Bi o e s ta d í s t i c a

255

Tablas 5.69. Modelo de una pequeña matriz de datos de tres variables y cinco individuos

Individuo Edad Evaluación de un examen Color preferido

Raúl 27 Bien Rojo

María 19 Excelente Azul

Ana 23 Regular Rojo

Juan 21 Mal Verde

Mario 30 Regular Azul

Nada impide que esta matriz se transponga y se pueda presentar también así:

Individuo Raúl María Ana Juan Mario

Edad 27 19 23 21 30

Evaluación de un examen Bien Excelente Regular Mal Regular

Color preferido Rojo Azul Rojo Verde Azul

5.6.3. Preguntas abiertas y cerradas

Por lo general una medición o la respuesta a una pregunta se registra como un valor de una variable X. Este es el caso de lo que se llama preguntas ce-rradas en que se ofrecen una o varias opciones de respuesta para seleccionar solo una. Cada registro de estos se anota mediante un número, un nombre o un símbolo cualquiera que lo representará y que será el valor de la variable X, en el individuo o elemento registrado.

Por ejemplo, en la tabla 5.69 se ofrece una matriz de datos con tres varia-bles y cinco registros de cada una. La variable edad está en escala de razón, la evaluación en escala ordinal y el color preferido en escala nominal.

En el caso en que sean dos o más las opciones de respuesta y se admita contestar seleccionando más de una, cada posible opción se podrá denotar me-diante una variable dicotómica cuyo valor será preferiblemente 1 si se seleccionó la opción y 0 si no. En este caso la variable respuesta se compondrá de tantas variables como opciones de respuesta se permitan.

Existen variables compuestas, denominadas en matemática vectores, cuyos valores son pares, ternas o k-uplas de valores de variables llamadas componentes del vector. Por ejemplo, la presión arterial se registra con dos valores, la sistólica y la diastólica y el registro de un individuo sería entonces del tipo (s, d) donde s representa el registro de su presión sistólica y d el de su presión diastólica.

Las preguntas abiertas son las que su respuesta constituye una frase o un párrafo y hasta varios párrafos, ella expresa una opinión, explicación, descrip-

Bioestadística cualitativa.indd 255 25/06/2010 12:21:02 p.m.

Page 266: Bi o e s ta d í s t i c a

256

ción. Generalmente se comportan como variables compuestas en las que hay que determinar las componentes. Se registran completas en las bases de datos como variables memo, pero a la postre, para codificarlas o cuantificarlas, se requerirá analizar la respuesta de cada uno de los individuos y descomponer sus respuestas en partes (componentes) comunes en los distintos individuos y luego tomar cada una de las partes comunes a una buena cantidad de los indi-viduos como valores de las variables componentes de que se compondrá cada respuesta. A menudo se desechan las partes o componentes con poca frecuencia de mención en los distintos individuos.

Para el registro como variables de las respuestas a las preguntas cerradas, abiertas y prácticamente todo tipo de información de la observación, sirven como modelo las posibles respuestas a la pregunta consistente en seleccionar k colores, de un conjunto de m colores distintos, por n individuos en los casos de k = 1 y mayor que 1, es decir, correspondiente a las preguntas de selección simple y múltiple. Se dan cinco casos posibles correspondientes a k = 1 uno y a k > 1 otros cuatro: con consideración del orden y sin ella y con la admisión de repeticiones de colores o no.

Se dan cinco casos y 12 variantes de registro como variables, atendiendo a los casos de:

− k = 0 y k > 1.− Consideración o no del orden de la selección. − Admisión o no de repeticiones de colores.

Ejemplo 5.2:

Selección de k colores de un conjunto de m colores distintos por cada uno de n individuos.

1. Cada uno de n individuos selecciona un color (k = 1). En este caso no tiene sentido considerar orden o repeticiones de colores.

Los resultados serán los colores seleccionados, se define la variable color, cuyos valores posibles serán los siete colores. Así, para n = 3 se ofrece, en la tabla 5.70, cómo disponer los resultados.

2. De los colores denotados por A, B, C, D, E, F, G selecciona exactamente cuatro distintos cada uno de n individuos:

En este caso n = 3, k = 4 y m = 7 y se considera que no puede seleccionarse el mismo color más de una vez y que no hay orden alguno se pueden definir entonces:a) Cuatro variables que denotaremos por V, X, Y, Z del tipo de la varia-

ble del caso 1, en escalas nominales, cuyos valores posibles serán los siete colores A, B, C, D, E, F, G. En la tabla 5.71 se muestra un ejemplo.

Bioestadística cualitativa.indd 256 25/06/2010 12:21:02 p.m.

Page 267: Bi o e s ta d í s t i c a

257

Tabla 5.70. Disposición de los resultados

Individuo Color1 Verde2 Azul3 Verde

Tabla 5.71. Disposición de los nuevos resultados

IndividuoVariables

V X Y Z1 B C E F2 B E F G3 A B C D

b) Siete variables dicotómicas, que podemos denotar por los nombres (letras) de los mismos colores A, B, C, D, E, F, G, cuyos valores serán 1 si es seleccionado el color que representa la letra con la que se denota la variable y 0 si no. En la tabla 5.72 se muestra un ejemplo.

Tabla 5.72. Disposición de los nuevos resultados

IndividuoVariables

A B C D E F G1 0 1 1 0 1 1 02 0 1 0 0 1 1 13 1 1 1 1 0 0 0

3. De los colores A, B, C, D, E, F, G cada uno de n individuos selecciona, uno en primer lugar de preferencia, otro en segundo, otro en tercero y otro en cuarto lugar de preferencia (sin repetir colores).

En este caso n = 3, k = 4 y m = 7, se tiene en cuenta el orden y no se admite más de un color en cada lugar, entonces se pueden definir:a) Cuatro variables 1RO, 2DO, 3RO, 4TO en escalas nominales cuyos

valores serán los colores A, B, C, D, E, F, G. En la tabla 5.73 se muestra un ejemplo.

Tabla 5.73. Disposición de los nuevos resultados

IndividuoVariables

1RO 2DO 3RO 4TO1 B C E F2 B E F G3 A B C D

Bioestadística cualitativa.indd 257 25/06/2010 12:21:02 p.m.

Page 268: Bi o e s ta d í s t i c a

258

b) Siete variables A, B, C, D, E, F, G en escalas ordinales cuyos valores posibles serán los lugares 1, 2, 3, 4, 5 en que se seleccionó el color en cuestión (el cinco indicará que no se seleccionó el color en cuestión). En la tabla 5.74 se muestra un ejemplo.

Tabla 5.74. Disposición de los nuevos resultados

IndividuoVariables

A B C D E F G

1 5 1 2 5 3 4 5

2 5 1 5 5 2 3 4

3 1 2 3 4 5 5 5

c) Como se puede apreciar en el caso tres de la tabla 5.75, en el que se presentan las tres filas de los individuos transpuestas (ahora como columnas) junto las variables en la columna 1, para un total de 4(7) = 28 variables dicotómicas denotadas, por A1, A2,...,G4, que representan el color, seleccionado en el orden en que indica el su-bíndice, cuyos valores se puede denotar por 0 y 1.

4. Cada uno de n individuos selecciona el color que le gustaría lucir cada uno de los cuatro días siguientes.

En este caso n = 3, k = 4 y m = 7, interpretando que se puede seleccionar un mismo color más de una vez y que se seleccionan exactamente cuatro sin importar el orden, se pueden definir:a) Cuatro variables 1D, 2D, 3D, 4D en escala nominal cuyos valores

posibles serán los siete colores. En la tabla 5.75 se muestra un ejemplo.

Tabla 5.75. Disposición de los nuevos resultados

IndividuoVariables

1D 2D 3D 4D

1 A A A A

2 B C C B

3 C D G F

b) Siete variables A, B, C, D, E, F, G de conteo (que pudiera alcanzar la escala de razón si se seleccionasen muchos más de cuatro) con cuatro valores posibles que representen la cantidad de veces que se seleccionó el color en cuestión. En la tabla 5.76 se muestra un ejemplo.

Bioestadística cualitativa.indd 258 25/06/2010 12:21:03 p.m.

Page 269: Bi o e s ta d í s t i c a

259

Tabla 5.76. Disposición de los nuevos resultados

IndividuoVariables

A B C D E F G1 4 0 0 0 0 0 02 0 2 2 0 0 0 03 0 0 1 1 0 1 1

c) Como se puede apreciar en el caso 4 de la tabla 5.77 (que aparece transpuesto), en el que se presentan las tres columnas de los indi-viduos junto a las variables en la columna 1, 4(7) = 28 variables dicotómicas denotadas, por A1, A2,..., G4, que representan el color, seleccionado en el orden en que indica el subíndice, cuyos valores se puede denotar por 0 y 1.

Tabla 5.77. Representación de todos los casos mediante ceros y unos

VariablesCaso 3 Caso 4 Caso 5

I1 I2 I3 I1 I2 I3 I1 I2 I3A1 0 0 1 1 0 0 1 1 0A2 0 0 0 1 0 0 0 1 0A3 0 0 0 1 0 0 0 1 0A4 0 0 0 1 0 0 0 1 0B1 1 1 0 0 1 0 0 0 1B2 0 0 1 0 0 0 0 0 0B3 0 0 0 0 0 0 1 0 0B4 0 0 0 0 1 0 0 0 1C1 0 0 0 0 0 1 0 0 0C2 1 0 0 0 1 0 1 0 1C3 0 0 1 0 1 0 0 0 1C4 0 0 0 0 0 0 0 0 0D1 0 0 0 0 0 1 0 0 0D2 0 0 0 0 0 0 0 0 0D3 0 0 0 0 0 0 0 0 0D4 0 0 1 0 0 0 0 0 0E1 0 0 0 0 0 0 0 0 0E2 0 1 0 0 0 0 0 0 0E3 1 0 0 0 0 0 0 0 0E4 0 0 0 0 0 0 0 0 0F1 0 0 0 0 0 0 0 0 0F2 0 0 0 0 0 0 0 0 0F3 0 1 0 0 0 0 0 0 0F4 1 0 0 0 0 1 1 0 0G1 0 0 0 0 0 0 0 0 0

Bioestadística cualitativa.indd 259 25/06/2010 12:21:03 p.m.

Page 270: Bi o e s ta d í s t i c a

260

VariablesCaso 3 Caso 4 Caso 5

I1 I2 I3 I1 I2 I3 I1 I2 I3G2 0 0 0 0 0 0 0 0 0G3 0 0 0 0 0 1 0 0 0G4 0 1 0 1 0 0 0 0 0

En este caso se prodráin reducir las variables de acuerdo con sus valores:

A1, B1, B2, C2, C3, D4, E2, E3, F3, F4, G4 y quedarían solo 11 en el caso 3 . A1, A2, A3, A4, B1, B4, C1, C2, C3, D2, F4, G3 y quedarían solo 12 en el

caso 4. A1, A2, A3, A4, B1, B3, B4, C2, C3, F4 y quedarían solo 10 en el caso 5.5. Cada uno de n individuos selecciona el color que le gustaría lucir cada

uno de los cuatro días siguientes. En este caso n = 3, k = 4 y m = 7, interpretando que se puede seleccionar

un mismo color más de una vez y que se seleccionan exactamente cuatro, ahora teniendo en cuenta el orden, se pueden definir:a) Si nadie escoge más de un color cada día, cuatro variables 1RO,

2DO, 3RO, 4TO en escalas nominales cuyos valores posibles serán los siete colores. En la tabla 5.78 se muestra un ejemplo.

Tabla 5.78. Disposición de los nuevos resultados

IndividuoVariables

1RO 2DO 3RO 4TO1 A C B F2 A A A A3 B C C B

b) Siete variables A, B, C, D, E, F, G en escalas ordinales cuyos valores posibles serán los lugares representados por 1, 2, 3, 4, y 5, en que se seleccionó el valor en cuestión (el 5 indicará que no se seleccionó el color en cuestión). En la tabla 5.79 se muestra un ejemplo del inciso a) es un caso particular.

Tabla 5.79. Disposición de los nuevos resultados

IndividuoVariables

A B C D E F G1 5 1 1 3 5 5 42 5 5 5 1 1 1 13 1 2 3 4 5 5 5

c) Como se puede apreciar en el caso 5 de la tabla 5.77 las va-riables transpuestas, dicotómicas denotadas, por A1, A2,..., G4,

Bioestadística cualitativa.indd 260 25/06/2010 12:21:04 p.m.

Page 271: Bi o e s ta d í s t i c a

261

que representan el color, seleccionado en el orden en que indica el subíndice, cuyos valores se puede denotar por 0 y 1.

Esta tabla representa una matriz de datos como las descritas antes. Nada impide que se puedan construir también así las matrices de de datos, cuando haga falta.

En los incisos c) de los tres casos, presentados en esta tabla 5.75, una solu-ción al problema de tantas variables se logra eliminando las que toman el mismo valor para cada uno de los individuos (pues son constantes, no variables).

En estos casos el número de variables ha disminuido considerablemente el por considerar solo tres individuos en los ejemplos, pero en condiciones normales debe aumentar.

5.6.4. Estadística inferencial y descriptiva

La estadística inferencial, mediante estadígrafos muestrales, ofrece la posibilidad de hacer estimaciones de parámetros poblacionales, decidir acerca de rechazar o no una hipótesis acerca de los valores de estos parámetros o la significación de los coeficientes de una ecuación ajustada, sobre el grado de correlación, asociación, concordancia o similaridad de dos o más variables. Aplicar uno o más de estos métodos en el procesamiento de los datos es el paso el siguiente a la aplicación de los métodos descriptivos.

La estadística descriptiva, posee, actualmente, un vasto arsenal de pro-cedimientos para presentar los datos que incluye todo tipo de gráficas de frecuencias, como son los de barras u otras figuras, de líneas y circulares. No depende de que el muestreo utilizado sea aleatorio o no y es la primera que se aplica en los trabajos investigativos, y a menudo la única, ayuda a determinar el trabajo inferencial posterior. Después de elaborar la matriz de datos origina-les, se recomienda construir las distribuciones de frecuencias de cada variable para descubrir regularidades, y calcular indicadores descriptivos de tendencia central, posición dispersión y correlación, asociación o variación conjunta. Luego, en dependencia de las características de las muestras, se aplica uno u otro método inferencial. Ambas estadísticas describen poblaciones, pero la descriptiva contando con todos los datos y la inferencial contando con solo una parte pequeña, una muestra.

5.7. Hacer comparables las variables mediante rangueo, estandarización y recodificación

5.7.1. Rangueo

Un procesamiento descriptivo útil, que aporta información es el rangueo de los valores de una variable en escala al menos ordinal. Consiste en asignar

Bioestadística cualitativa.indd 261 25/06/2010 12:21:04 p.m.

Page 272: Bi o e s ta d í s t i c a

262

el rango 1 (el número 1) al valor menor, el rango 2 al siguiente menor, el rango 3 al siguiente menor y así sucesivamente asignar los rangos 4, 5,..., n donde n es el total de valores de la variable. Cuando hay ligaduras (rangos iguales, repetidos) entonces a cada puntaje de la misma ligadura se les asigna el rango promedio de sus posibles rangos originales. En la tabla 5.80 se ofrece un ejemplo de rangueo en presencia de ligaduras.

Tabla 5.80. Ejemplo de rangueo

Puntajes originales 2 4 5 5 5 7 9 9Puntajes rangueados 1 2 4 4 4 6 7,5 7,5

Puesto que a un 5 le correspondería el rango 3, a otro, el 4 y al tercero, el 5, entonces se le asignó a cada uno de los tres cincos el rango 4

3543 =++ . Por

otra parte, a un 9 le correspondería el rango 7 y al otro, el rango 8, y por tanto

se le asignó a los dos 9 el rango 5,72

87 =+.

Al ranguear se obtiene la variable original rangueada, que es una variable en escala ordinal y de conteo, en algunos casos pudiera permitir las operaciones arit-méticas necesarias con los rangos, hace posible una homogeneización de los datos de distintas variables, lo que puede simplificar la comparación de sus puntajes. Por ejemplo, observe lo diferentes que son los puntajes originales de las tablas 5.80 y 5.81 y lo semejantes que son sus correspondientes puntajes rangueados.

Tabla 5.81. Puntajes rangueados

Puntajes originales 104 92 215 16 92 130 92 99Puntajes rangueados 6 3 8 1 3 7 3 5

5.7.2. Estandarización

Igualmente se logra homogeneización, a este efecto, en el caso de variables en escala al menos de intervalo, con la estandarización, que consiste en restar de cada puntaje la media de todos los puntajes de la variable en cuestión y dividir la diferencia obtenida entre la desviación estándar correspondiente.

Los puntajes transformados de esta manera se denominan estandarizados y en ocasiones normalizados. Esta transformación permite también lograr puntajes con una media y una desviación estándar fijadas a conveniencia con el objeto de simplificar su interpretación y comparación.

Denotando la media de un conjunto de datos por M y la desviación estándar por S se tiene que:

S

MXZ

−= es el puntaje X estandarizado.

Bioestadística cualitativa.indd 262 25/06/2010 12:21:04 p.m.

Page 273: Bi o e s ta d í s t i c a

263

En la tabla 5.82 se muestran algunos valores originales de X, cuya media es M = 5,7500 y su desviación estándar S = 2,4349. Restando la media (M) y dividiendo el resultado por la desviación estándar (S) se obtienen los valores estandarizados de X que se denotan por Z.

Tabla 5.82. Puntajes estandarizados

X 2 4 5 5 5 7 9 9Z −1,54 −0,72 −0,31 −0,31 −0,31 0,51 1,33 1,33

Las variables estandarizadas están centradas en O para centrarlas en otro valor.

Para transformar un puntaje estandarizado Z en un puntaje con una media M y una desviación estándar S se realizan las operaciones indicadas en está igualdad:

Y = SZ + M

Esta expresión se obtiene despejándo en la expresión anterior de Z estandari-zado. El propósito de esta última transformación, además de la homogeneización de los puntajes de distintas variables, es obtener puntajes más cómodos de inter-pretar que los originales. Por ejemplo, considerando la variable X de la tabla 5.82 y considerando que proviene de una variable aleatoria continua X, se obtienen sus valores estandarizados Z y, efectuando las operaciones indicadas se obtienen los valores de Y, variable con media M y desviación estándar S. En la tabla 5.83 se multiplicó cada valor de Z obtenido en la tabla 5.82, por 10 y al resultado se le sumó 50 para obtener una variable Y con media 50 y desviación estándar 10.

Tabla 5.83. Puntajes con media igual a 50 y desviación estándar 10

Y 34,60 42,81 46,92 46,92 46,92 55,13 63,35 63,35W 35 43 47 47 47 55 63 63

Además, se han redondeado los valores de Y en la fila encabezada por W para hacerlos más asequibles.

Se sigue el mismo procedimiento, en la tabla 5.84, con los valores de otra variable original X´, con Z´ representando la variable estandarizada, Y´ la trans-formación de Z´ en una variable Y´ con media 50 y desviación estándar 10, como Y, y luego se ha redondeado el valor de Y´ para obtener W´ con el objetivo de hacer comparaciones con W y las demás variables de las tablas 5.82 y 5.83.

Tabla 5.84. Transformaciones anteriores realizadas a X´

X´ 123 130 132 137 145 146 150 152Z´ –1,57 –0,90 –0,71 –0,23 0,54 0,63 1,02 1,21Y´ 34,33 41,02 42,94 47,72 55,38 56,33 60,16 62,08W´ 34 41 43 48 55 56 60 62

Bioestadística cualitativa.indd 263 25/06/2010 12:21:04 p.m.

Page 274: Bi o e s ta d í s t i c a

264

Observe lo diferente que son los puntajes originales X, en las tablas 5.82, 5.83 y 5.84, en contraste con lo homogéneo o comparables que son los correspondientes puntajes estandarizados Z y Z´ así como las variables con igual media y desviación estándar Y y Y´, o sus correspondientes valores redondeados W y W´.

5.7.3. Recodificación

Otro procesamiento descriptivo es el de la recodificación que consiste, en este caso, en cambiar los valores originales de una variable por un número menor o igual de otros valores (el rangueo y la estandarización constituyen dos tipos de recodificación). A cada nuevo valor se le hace corresponder uno o más de un valor original. Por ejemplo las evaluaciones mal, regular, bien y excelente de una variable X se pueden recodificar en una nueva variable Y con los valores 0 y 1, en que el 1 represente aprobado, entendiendo por ello excelente, bien o regular, y el 0 represente no aprobado (mal). Se dirá entonces que Y es la variable X recodificada a los únicos dos valores 0 y 1.

Se han hecho observaciones acerca de transformaciones que pueden hacerse a los valores de las variables de la matriz de datos para obtener una nueva más adecuada para ciertos fines. Para el trabajo estadístico puede ser necesaria la construcción de numerosas matrices de datos obtenidas por transformaciones, particiones y uniones de las originales.

5.8. Proporciones y algunas de sus aplicaciones en medicina

El cociente B

A en general se denomina también razón de A a B y se denota

también de la forma A : B. La proporción es el cociente

B

A en el caso de que A ⊆ B, o sea, de que A

esté contenido en B. Sus valores están comprendidos entre 0 y 1, incluidos am-bos. Las razones no necesariamente están todas comprendidas entre 0 y 1, pues no necesariamente A ⊆ B, pero cuando la proporción es pequeña, por ejemplo 0,40, para algunos fines se tiende a expresar como porcentaje, multiplicándola por 100, y se dice entonces que es del 40 %. Cuando la proporción es, por ejemplo 0,004 se prefiere multiplicar por el múltiplo de 10 que le quite el punto decimal, en este caso por 103 de modo que 0,004 x 103 = 4 y se dice entonces que es de 4 por 1 000, como la de mortalidad infantil desde el nacimiento hasta 1 año cumplido. De modo que las tasas no son más que las proporciones multiplicadas por una potencia de 10. Si 0,004 significa 4 por cada millar, 40 % significa 40 por cada centenar, entonces la proporción 0,40 significa 0,4 de la unidad, esto es cuatro décimas partes de la unidad.

Bioestadística cualitativa.indd 264 25/06/2010 12:21:05 p.m.

Page 275: Bi o e s ta d í s t i c a

265

Por la analogía de la proporción y la razón, a veces se usan los dos términos indistintamente, por no decir arbitrariamente, por ejemplo:

Razón o taza de incidencia (indistintamente) de una enfermedad en la po-

blación

Los dos primeros son razones y los dos últimos son también proporciones

que habitualmente se multiplican por una potencia de 10 para simplificar su interpretación.

5.8.1. Aplicación a pruebas para diagnóstico

Un individuo puede estar enfermo (E) o no enfermo (N) de cierta enfermedad A. Se aplica una prueba para decidir si da positiva (+) que se declara enfermo y si da negativa (–) se declara no enfermo (tabla 5.85).

Tabla 5.85. Enfermos y no enfermos y su registro como + y –

E N

+ A B

– C D

Donde E y N indican enfermo y no enfermo en realidad, + y – diagnóstico positivo y negativo de la enfermedad. Entonces se define como:

− Sensibilidad o taza de verdaderos positivos de esta prueba la proporción

CA

A

+.

− Especificidad o tasa de falsos negativos la proporción DB

D

+.

A ambas se acostumbra expresarlas como porcentaje, multiplicándolas por 100.

Por ejemplo si A = 85, B = 7, C = 15, D = 93, respecto a esta prueba, se tendrá:

Razón o taza de prevalencia

Bioestadística cualitativa.indd 265 25/06/2010 12:21:05 p.m.

Page 276: Bi o e s ta d í s t i c a

266

− La sensibilidad será o del 85 %.

− La especificidad será o del 93 %.

De modo que a las proporciones y razones son cocientes muy útiles como indicadores en el caso de las variables nominales y algunas ordinales y en la medicina al igual que en la economía se usa y abusa de ellos. Por esta razón es preferible conocer la base, el fundamento matemático y no tanto la semántica, el contenido que es propio de la especialidad, que es lo que diferencia los dis-tintos indicadores o números índices, como le dicen en economía. Y al igual que no es necesario enumerar la semántica o contenido de las miles de medias de múltiples variables continuas que se usan en diversas especialidades y acti-vidades de la vida corriente, no es necesario tampoco enumerar los contenidos o semántica de todas las proporciones, tazas y razones que se emplean en medicina o biología para aprender bioestadística, más aun en la enseñanza que no debe ser repetitiva o reiterativa, porque la repetición no aporta, información nueva, si acaso solo la que no se obtuvo antes por alguna razón, y en la actualidad la información es mucha y no hay que perder tiempo en repeticiones si se desea conocer más para servir mejor a la sociedad, resolviendo cada vez más nuevos y viejos problemas que la aquejan aplicando los conocimientos nuevos y también los viejos no adquiridos antes.

5.9. Estimación puntual y por intervalo de una proporción

Sea Xi para todo i = 1, 2,..., n una variable dicotómica o binaria, esto es que solo puede tomar los valores 0 y 1. Sea, además:

∑=

=n

iiXX

1

Al evaluarla dará un valor igual a la cantidad de Xi cuyos valores sean 1.La media de X será entonces igual a esa cantidad dividida entre n y por tanto

igual a la proporción p de unos en los valores de la variable. Por ejemplo para n = 10 sean X1, X2,..., X10 = 1, 0, 0, 1, 1, 1, 0, 1, 1, 0 su

media será que es igual a la proporción de unos

entre los valores de las variables Xi.Para cualquier conjunto de ceros y unos se obtiene un resultado análogo,

por lo que se puede afirmar que la proporción es una media, y por tanto las propiedades de la media son válidas para ella.

Bioestadística cualitativa.indd 266 25/06/2010 12:21:05 p.m.

Page 277: Bi o e s ta d í s t i c a

267

Por otra parte la variable aleatoria que registra el número de veces que ocurre un suceso con probabilidad p en n repeticiones de un experimento se

dice que tiene distribución binomial con parámetros n y p, y como ∑=

=n

iiXX

1

es la variable que registra el número de veces que ocurre el 1 en n repeticiones del experimento consistente en observar si el valor de Xi es 1 o 0, para i = 1, 2,..., n, por tanto X es una variable con distribución binomial con parámetros n y p donde p es la probabilidad del suceso 1. Su media o valor esperado serán entonces np y npq, respectivamente, por tanto la media y la varianza de la va-

riable ∑=

=n

iiX

nX

1

1 serán p y , respectivamente.

Entonces como la media muestral es el mejor estimador de la media pobla-cional, la proporción muestral es el mejor estimador de la proporción poblacional y si el intervalo con nivel de confianza 1 – α, para la media de una población con distribución normal con varianza σ2 viene dado por:

21

21

α−α−

σ+≤µ≤

σ− Zn

XZn

X

Se puede sustituir X por p, σ por y P por µ, y entonces para n > 30 o mejor si np > 5 y nq > 5, donde q = 1 – p, se obtiene un intervalo para proporción poblacional P con nivel de confianza igual a 1 – α dado por:

Que en su forma abreviada que se representa solo por:

Estos intervalos de confianza son bilaterales o de dos colas, también se pueden estimar intervalos de confianza unilaterales o de una cola con nivel de confianza 1 − α para P, del tipo ]–∞, b] y ]a, +∞[ con:

y

En caso de n tal que np > 5 y nq > 5, que se pueden denotar así:

y

Que se utilizarán cuando no interesa uno de los extremos del intervalo bilateral.

Bioestadística cualitativa.indd 267 25/06/2010 12:21:06 p.m.

Page 278: Bi o e s ta d í s t i c a

268

También se han deducido intervalos de confianza para la diferencia de proporciones unilaterales y bilaterales P1 – P2.

En el caso de muestras independientes de tamaños grandes o sea tales que np1q1 > 5 y np2q2 > 5.

Intervalos bilaterales:

2

22

1

11

212121

2

22

1

11

2121 n

qp

n

qpZppPP

n

qp

n

qpZpp ++−≤−≤+−− α−α−

Donde P1 y P2 las proporciones poblacionales, p1 y q1 sus respectivos es-timadores, q1= 1 – p1 y q2 = 1 – p2.

Intervalos unilaterales:

2

22

1

11

212121 n

qp

n

qpZppPP ++−≤− α− y

2

22

1

11

212121 n

qp

n

qpZppPP +−−≥− α−

Por ejemplo, en la Facultad de Estomatología se seleccionan dos muestras aleatorias de 63 y 50 estudiantes que arrojan proporciones de 0,2 y 0,3 respecti-vamente de gusto por la bioestadística. Obtenga estimaciones puntuales y por in-tervalos con nivel de confianza de 0,95 para las proporciones poblacionales:

O sea, 0,101 ≤ P ≤ 0,299 con nivel de confianza del 95 %.Este intervalo es bilateral o de dos colas.Intervalo unilateral por la derecha:

O sea, tal que P ≤ 0,28225 con nivel de confianza de 0,95.Intervalos de confianza para la diferencia de proporciones:

De modo que –0,061 ≤ P1−P2 ≤ 0,261 con nivel de confianza de 0,95.El correspondiente intervalo unilateral por la derecha viene dado por:

P1 – P2 ≥ 0,1 + 1,645(0,082) = 0,1 + 0,222 = 0,322 o sea que P1 – P2 ≥ 0,322 con nivel de confianza de 0,95.

Bioestadística cualitativa.indd 268 25/06/2010 12:21:06 p.m.

Page 279: Bi o e s ta d í s t i c a

269

Las estimaciones puntuales se obtienen al evaluar los estimadores p, p1 y p2 en las muestras. Estas estimaciones puntuales y por intervalos también son útiles para las variables en escalas ordinales, porque se ha deducido un intervalo para la mediana , pero como se puede observar no es para

variables en escala ordinal, sino para las que además admiten medias y desvia-ciones estándar σ o al menos provienen de variables continuas.

5.10. Media, varianza y coeficiente de correlación de las variables dicotómica

Para las variables dicotómicas no importa la escala de cuantificación en que estén, pues el orden y la métrica entre sus dos valores es única, como lo es cada una de sus cualidades y por tanto pierde sentido considerar su escala. Con ellas se pueden calcular la proporción p de uno de sus valores y la del otro, que será igual a 1 – p, estas proporciones constituyen medias (de variables cuyos únicos valores sean 0 y 1) y a partir de estas proporciones se pueden calcular varianzas y coeficientes de correlación, como se verá:

Sea X dicotómica con X = 1P{X = 1} + 0P{X = 0}2

X = 12P{X = 1} + 0P{X = 0} = p

)(1

)( 222 qpppXXn

XV =⋅=−= ∑

1. Para i = 1, 2,..., n sea Xi una variable que toma únicamente los valores 0 y 1 y sea p la proporción de unos entre los valores de Xi, entonces:

pXn

Xn

ii == ∑

=1

1 es la proporción de unos y la media de la variable X.

donde q = 1 – p es la

varianza de ∑=

=n

iiXX

1

.

Sea p1 la proporción de unos en X, p2 la proporción de unos en Y y p12 la proporción de pares (1, 1) entre los valores del vector (X, Y), entonces:

∑=

n

iiiYX

n 1

1 es igual a la media de los pares (1, 1) que se ha denotado

por p12.

y por tanto:

Bioestadística cualitativa.indd 269 25/06/2010 12:21:06 p.m.

Page 280: Bi o e s ta d í s t i c a

270

Donde: p1, p2 y p12: son las proporciones de (1, 0), (0, 1) y (1, 1) respectivamente

entre los pares de valores de (X, Y). r: representa el valor del coeficiente de correlación lineal de Pearson. 2. Sea (X´,Y´) un par de variables tales que tanto X´ como Y´ toman

únicamente los valores a y b entre sus n valores posibles: a) Sea b = 0, y supóngase, sin perder generalidad, que en nuestra

serie de n valores de X los k primeros son todos iguales a a y los n – k siguientes son iguales a cero, entonces (suponiendo la misma situación para la variable Y):

pa

n

ka

na

nX

n

kn

i

k

i

n

ii

22

1

2

1

2

1

2 0111 ==+= ∑∑∑

===

donde q = 1 – p

Donde: p1, p2 y p12 son las proporciones de a en X, de a en Y, y de (a, a) en

(X , Y), respectivamente. Este resultado es el mismo resultado anterior con valores 0 y 1 en

ambas variables.b) Sea b ≠ 0, entonces definiendo X = X´ – b, o sea, la variable que solo

toma los valores a – b y 0. Se tiene que esta nueva variable X tiene la forma de la X del inciso anterior con a – b en lugar de a, y en-tonces los resultados del epígrafe anterior son validos aquí también,

Bioestadística cualitativa.indd 270 25/06/2010 12:21:07 p.m.

Page 281: Bi o e s ta d í s t i c a

271

poniendo allí a –b en lugar de a en los resultados de las fórmulas de las medias, varianzas y coeficiente de correlación, quedaría entonces que, teniendo en cuenta que las mismas transformaciones se pueden hacer extensivas también a la variable Y, análogamente:

pbaX )( −= pbaXn

n

ii

2

1

2 )(1 −=∑

=

donde q = 1 – p

De modo que r no depende, en ninguno de los casos de los valores de a y de b.

Queda demostrado que la variables cuyos posibles valores son dos valores cualesquiera a y b tiene un coeficiente de correlación que no depende de a ni de b, de modo que para todo par de variables dicotómica, ambas con los mismos dos valores posibles su coefi-ciente de correlación lineal es el mismo independientemente de a y de b. Por otro lado, como el coeficiente de correlación lineal de Pearson coincide con el coeficiente φ, o V de Cramér para variables dicotómicas, no importan los dos valores que tenga la variable dico-tómica y entonces se podrá calcular por la fórmula del coeficiente de correlación lineal de Pearson que está programada en muchos paquetes estadísticos y no se requiere construir la distribución bi-variada de frecuencias previamente como lo requiere φ.

5.11. Confiabilidad y validez

Considerando los puntajes registrados por una muestra de individuos como resultado de las respuestas a preguntas de un cuestionario u observación, que, con el objeto de simplificar llamaremos resultados de la medición o simple-mente medición:

− Se dice que la medición es válida, cuando cada puntaje individual realmente mide la aptitud, la cualidad que supuestamente mide. De modo

Bioestadística cualitativa.indd 271 25/06/2010 12:21:07 p.m.

Page 282: Bi o e s ta d í s t i c a

272

que cualesquiera dos individuos de la población con igual magnitud de la característica o respuesta en cuestión registrarán el mismo puntaje.

− Se dice que es confiable, cuando se puede tener un alto grado de confianza en el puntaje registrado por cada individuo, de modo que si se pudiera registrar de nuevo el puntaje en las mismas condiciones el resultado sería el mismo.

La validez de la medición de una muestra se puede estimar mediante la correlación entre sus puntajes y los obtenidos de una medición aceptada de la característica en cuestión en ella. De este modo, si los puntajes de una mues-tra se suponen que registran aptitud para las especialidad de enfermería, y se obtienen de un grupo de aspirantes a ingresar en la carrera de enfermería, se puede estimar su validez correlacionándolos con los puntajes alcanzados por el propio grupo en su desempeño como enfermeros, al cabo de un tiempo después de haber sido admitidos.

La confiabilidad de la medición de una muestra se puede estimar mediante la correlación de sus puntajes con los de una repetición de la medición en ella. En el caso de dos cuestionarios se debe lograr que ambos posean el mismo grado de dificultad. Un artificio usado con frecuencia para lograr esto consiste en dividir el conjunto de puntajes muestrales en dos, por ejemplo, si los pun-tajes están numerados de 1 a n, se calcula el coeficiente de correlación entre el conjunto de puntajes numerados con números pares y el conjunto de puntajes con números impares.

Otro procedimiento aceptable para decidir acerca de la confiabilidad es el de aplicar una dócima de dos poblaciones en el caso de muestras apareadas que informará acerca de si hay diferencias en las poblacionales, entre los puntajes obtenidos en un test y los obtenidos en el retest o la forma alternativa correspon-diente. Si se rechaza la hipótesis nula de igualdad de las medias poblacionales, esto indicará que el test no es confiable. Si no se rechaza, se puede asumir que las diferencias observadas se deben a errores aleatorios, y no rechazar que el test es confiable.

También se acostumbra a aplicar un análisis de varianza restringido a solo dos niveles del factor tratamiento, correspondiente a un diseño en bloques aleatorizados, que permita separar las partes de las varianzas debidas a las di-ferencias entre los tests (tratamiento), a las diferencias individuales (bloques) y a los errores de medición (residual).

Alternativamente, si la escala de medición de los puntajes del test no permite aplicar los procedimientos considerados (correlación lineal de Pear-son, dócima t para muestras apareadas y análisis de varianza de clasificación doble con una observación por celda), podrían aplicarse algunos métodos alternativos como los coeficientes de correlación de rangos de Spearman o Kendall e incluso V de Cramér o punto biserial y las pruebas de hipótesis de

Bioestadística cualitativa.indd 272 25/06/2010 12:21:07 p.m.

Page 283: Bi o e s ta d í s t i c a

273

rangos con signos de Wilcoxon, de McNemar y Q de Cochran pero en todos los casos con mucho cuidado de que se cumplan todas las condiciones que exigen y que tengan interpretación clara respecto a la confiabilidad o validez, según el caso.

5.12. Transformación de una tabla de contingencia en matriz de datos

Teniendo la matriz de datos de la tabla 5.86.

Tabla 5.86. Distribución de la raza y el grado de retraso mental

Raza Ligero Moderado Grave Severo TotalNegra 7 4 2 1 14Otra 1 12 4 5 22

Blanca 4 4 2 4 14Total 12 20 8 10 50

Para realizar la conversión es construye una tabla de 51 filas por tres colum-nas. La primera columna encabezada por Individuo se numera del 1 al 50, la segunda columna se encabeza por raza, la variable de menos valores distintos, tendrá situados 14 N, de negra, 22 O de otras y 14 B de blanca una a continua-ción de hasta completar los 50.

La tercera columna, se encabeza por grado de retraso mental y a las primeras 14 negras (N) se le hace corresponder las primeras siete celdas con el valor de ligero (L), las cuatro siguientes con el valor de moderado (M), la siguiente con el valor S y la dos siguiente con el valor de grave. A continuación se procede análogamente con las restantes celdas, de la columna grado de retraso mental, correspondientes al total de 22 otras (O) y las restantes 14 blancas (B) de la columna raza. en la tabla 5.87 se ofrece la transformación completa.

Tablas 5.87. Matriz de datos de la raza y el grado de retardo mental

Individuo Raza Grado de retraso mental1 N L2 N L3 N L4 N L5 N L6 N L7 N L8 N M

Bioestadística cualitativa.indd 273 25/06/2010 12:21:07 p.m.

Page 284: Bi o e s ta d í s t i c a

274

Individuo Raza Grado de retraso mental9 N M

10 N M11 N M12 N G13 N G14 N S15 O L16 O M17 O M18 O M19 O M20 O M21 O M22 O M23 O M24 O M25 O M26 O M27 O M28 O G29 O G30 O G31 O G32 O S33 O S34 O S35 O S36 O S37 B L38 B L39 B L40 B L41 B M42 B M43 B M44 B M45 B G46 B G47 B S48 B S49 B S50 B S

Bioestadística cualitativa.indd 274 25/06/2010 12:21:08 p.m.

Page 285: Bi o e s ta d í s t i c a

275

También se podrían construir 12 variables dicotómicas con los valores 0 y 1.

5.13. Demostración de la relación entre los coeficientes de correlación rangos de Spearman y lineal de Pearson

El coeficiente de correlación de rangos de Spearman se obtiene del lineal de Pearson. Sean r el coeficiente de correlación lineal de Pearson y rS el coeficien-te de correlación de rangos de Spearman, si tanto los valores de la variable X como los de la variable Y son los rangos 1, 2,..., n, sin ligaduras o repeticiones, entonces:

( )2

1

1

+=∑=

nnX

n

ii ,

2

1+= nX

y

( )( )6

121

1

2 ++=∑=

nnnX

n

ii

(1)

Estos resultados son válidos también para Y, entonces, para:

di = xi – yi , para i = 1, 2,..., n se tiene que 02

1

2

1 =+−+=−= nnyxd

∑∑==

=−=⇒−=n

iin

n

iindiii dddSYXd

1

212

1

212 por ser 0=d (2)

Por otra parte:

( ) ( ) ( )( )∑∑∑===

−−−−+−=n

iiin

n

iin

n

iind yyxxyyxxs

1

2

1

21

1

212

(3)

despejando en y por (2) y (3)

Despejando ahora r y utilizando (1) y (2) se tiene que:

Bioestadística cualitativa.indd 275 25/06/2010 12:21:08 p.m.

Page 286: Bi o e s ta d í s t i c a

276

YX

n

iinYX

SS

dSS

r2

1

2122 ∑=

−+=

S

n

ii

n

iin

rnn

d

n

dn

r =−

−=−

−−

=∑∑

==3

1

2

21

212

6

1

61

61

por (1)

5.14. Deducción de la fórmula del estadígrafo ji cuadrado de la dócima de independencia en tablas de contingencia de dos por dos

Sea la tabla 5.88 una tabla de contingencia de dos por dos.

Tabla 5.88. Modelo de tabla de contingencia de dos filas por dos columnas

Columna 1 Columna 2 SumaFila 1 A B n1•

Fila 2 C D n2•

Suma n•1 n•2 n

El estadígrafo ji cuadrado de independencia u homogeneidad en tablas de contingencia de 2 x 2 se puede expresar como:

Para probarlo se parte de la expresión, acorde con la fórmula general del estadígrafo ji cuadrado de independencia en tablas de contingencia de 2 x 2, que en este caso se expresa como:

Donde E(A), E(B), E(C) y E(D) denotan las frecuencias esperadas corres-pondientes a las frecuencias observadas A, B, C y D y se van a denotar los totales marginales por DBnCAnDCnBAn +=+=+=+= •••• 2121 y,, y el total general por n = A + B + C + D.

Demostración:

Bioestadística cualitativa.indd 276 25/06/2010 12:21:08 p.m.

Page 287: Bi o e s ta d í s t i c a

277

En el numerador aparece la diferencia del producto de la letra que aparece cuatro veces en la segunda igualdad de A – E(A) por la que aparece solo una vez menos el producto de las dos que aparecen dos veces. Entonces, por analogía, se puede calcular rápidamente:

Como todos contienen en el numerador la misma diferencia absoluta AD – BC, solo con el orden de los productos a veces invertidos, se obtiene que A – E(A), B – E(B), C – E(C) y D – E(D) difieren solo en signo y por tanto sus

cuadrados son todos iguales al cuadrado de y, por tanto, sustituyendo

entonces los numeradores de la fórmula de χ2 por este cuadrado, se obtiene:

(sustituyendo por sus valores)

(por denominador común)

Bioestadística cualitativa.indd 277 25/06/2010 12:21:09 p.m.

Page 288: Bi o e s ta d í s t i c a

278

(por factor común)

(por propiedad de frecuencias marginales)

(por factor común)

(por propiedad de frecuencias marginales)

(por propiedad de frecuencias marginales)

5.15. ¿Son cualitativas las “investigaciones cualitativas”?

El objeto de estudio de la matemática lo constituyen las formas de los objetos y procesos de la realidad objetiva, por eso algunas disciplinas, en su desarrollo, al precisar su objetos de estudio y llegar a su esencia, que es lo que las convierte en una verdadera ciencia, se encuentra que la forma de esa esencia, ese objeto de estudio acabado o no tiene forma y se describe a través de formas (fórmulas) matemáticas, pero no necesariamente de la matemática conocida sino de la que esta disciplina, con la ayuda los matemáticos, habrá ido creando para llegar a la esencia de su objeto de estudio en el futuro. En el proceso de precisar su objeto de estudio, incluyendo su forma, la matemática también sufrirá cambios y logrará más desarrollo al desentrañar nuevas formas, porque la ciencia no termina nunca, siempre admite desarrollo.

Por esto conviene analizar los conceptos de cuantificación, como parte de esta natural y actual matematización y su relación con el de cualidad, para con-tribuir a precisar su concepción, en particular en la investigación de cualquier área del saber.

Bioestadística cualitativa.indd 278 25/06/2010 12:21:09 p.m.

Page 289: Bi o e s ta d í s t i c a

279

5.15.1. Datos “cualitativos”

Cualesquiera sean los datos en escala nominal (cualitativos), por ejemplo al examinar las patologías que se presentan en una muestra de 33 pacientes se obtiene:

D, C, D, R, C, O, D, R, O, D, C, D, R, C, O, D, R,O, D, C, D, R, C, O, D, R, O, C, C, D, D, D, O

Donde D indica diabética, C cardiaca, R respiratoria y O otras. Con estos datos se puede construir, sin perder información, la distribución de frecuencias (tabla 5.89).

Tabla 5.89. Distribución de frecuencias

Patología Frecuencia

Cardiaca 8

Respiratoria 6

Diabética 12

Otras 7

Estos datos son cualitativos, están en una escala nominal, entre ellos no hay orden, por tanto si nos quedamos solo con las frecuencias: 6, 8, 12 y 7, en cualquier orden, tendremos la información de que hay cuatro clases distintas con estas respectivas frecuencias, que es toda la información no semántica y estadística que contienen y por tanto no se habrá perdido información relevante alguna al cuantificar los resultados, que se podrían representar incluso por C, R, D y O o cualesquiera otros cuatro símbolos. De modo que las frecuencias cuantifican los datos cualitativos en las distribuciones de frecuencia

5.15.2. Variables compuestas

Afirman algunos que en la investigación cuantitativa se trata del qué, o se pregunta sobre el qué y en las cualitativas se trata del por qué, el cómo, se pide explicar, opinar. Tales explicaciones u opiniones se registran en uno o más párrafos y en las bases de datos se denominan variables memo (texto extenso o combinación extensa de texto y números) y podrían denominarse variables compuestas, porque se componen de varias variables, que se pueden extraer todas de estas o solo las que aparecen con más frecuencia y su procesamiento se guiará por el de estas variables componentes.

Todos los métodos estadísticos para datos en escala nominal se basan en el procesamiento matemático de sus frecuencias o en la frecuencia de disposición en una sucesión de sus valores única y exclusivamente. De modo que los datos cualitativos se pueden reducir a cantidades mediante las frecuencias (datos cuantita-

Bioestadística cualitativa.indd 279 25/06/2010 12:21:09 p.m.

Page 290: Bi o e s ta d í s t i c a

280

tivos) sin perder información estadística relevante, para ser procesados y descubrir regularidades en ellos, hacer estimaciones y tomar decisiones, para después lograr explicar y confirmar regularidades y leyes de los originales datos cualitativos.

5.15.3. Datos cuantitativos

Una cantidad, un número es una cualidad, por ejemplo, el 4 representa la cualidad común que poseen todos los conjuntos de cuatro elementos, por ejemplo cuatro libros, cuatro personas, cuatro ideas, cuatro nubes, cuatro es-peculaciones, cuatro planetas, cuatro mentiras. El 3 es la cualidad común que poseen todos los tríos. Análogamente pasa con cualquier número natural 0, 1, 2, 3,..., así como los demás números enteros, racionales, reales y aun los com-plejos, que no son más que abstracciones con origen en los naturales y más aún en los 10 dedos de las manos, o sobre la base de ellos, de modo que los datos numéricos, cuantitativos por excelencia, son también datos cualitativos por esa razón, describen cualidades de los datos.

Entre las categorías de la dialéctica está la referente a la cualidad o calidad y la cantidad que plantea que al aumentar la cantidad va variando la cualidad hasta llegar a un punto en que aparece una nueva cualidad, que varía nuevamente al aumentar de nuevo la cantidad, de modo que en cada momento a cada cantidad co-rresponde una cualidad y a cada cualidad, dentro de cierto rango, una cantidad.

5.15.4. Datos cualitativos y cuantitativos

Dada semejante relación entre lo cualitativo y lo cuantitativo, especialmente en cuanto al procesamiento de los datos de la investigación experimental, que abarca la inmensa mayoría de las investigaciones en medicina, ciencias socia-les y humanísticas, así como en muchas tecnologías, no tiene sentido oponer las investigaciones cualitativas a las cuantitativas, cuando en ambas se utiliza la matemática o su tecnología, la estadística, por igual, solo que teniendo en cuenta que esta matemática y esta estadística pueden ser distintas sin dejar de ser matemática, y que los métodos estadísticos más frecuentes, en una son los no paramétricos y en otra los paramétricos, matemáticos los dos, aunque ambos métodos se utilicen en los distintos tipos de investigación.

Los dos grandes grupos de investigaciones son no las cualitativas y cuanti-tativas, que es la clasificación atendiendo al tipo de variable más común, sino las teóricas y las experimentales. Las primeras se basan en el experimento, que genera datos que en la mayoría de los casos requieren procesamiento estadístico para descubrir sus regularidades, hacer estimaciones y tomar decisiones. En las teóricas se utiliza fundamentalmente el método heurístico y la estadística solo al experimentar para confirmar con la realidad.

A continuación una descripción sucinta de las etapas de estos dos tipos de investigaciones.

Bioestadística cualitativa.indd 280 25/06/2010 12:21:09 p.m.

Page 291: Bi o e s ta d í s t i c a

281

5.15.5. Etapas de una investigación experimental

1. Surgimiento de la duda e identificación del problema y su precisión para investigarlo.

2. Determinación de la población y planeamiento del experimento, que incluye el muestreo a utilizar, como realizar y cuantificar las observaciones, la determinación de los métodos estadísticos a utilizar y la recolección de los datos apropiados.

3. Realización del experimento, con la muestra y recolección de los datos.

4. Aplicación de los métodos y técnicas estadísticas de descripción, estimación y decisión y análisis de los resultados.

El experimento se define como una serie de condiciones bien definidas que se dan en la realidad objetiva e incluso en la subjetiva, y en él al menos se observa algo que se puede registrar como dato o datos, que si son muchos no se pueden procesar directamente con los sentidos y el razonamiento del observador o investigador y requieren en su inmensa mayoría de los métodos estadísticos y en la actualidad de la informática, para descubrir regularidades y explicar hasta leyes en los datos, que acompañadas de un procesamiento completo, superior y abstracto, al que pudiera hacerse con una simple interpretación, que, además, pudiera ser especulativa sin el uso de al menos de los principios de la lógica o de los métodos estadísticos.

5.15.6. Etapas de una investigación teórica

1. Surgimiento de la duda, identificación del problema y su precisión para a investigarlo.

2. Análisis de las condiciones exigidas y repaso de las teorías, estudios y resultados de experimentos relacionados.

3. Análisis de su importancia y restricciones en el marco de la teoría y la ciencia en cuestión.

4. Fundamentación (demostración) de la solución, establecimiento de la propiedad fundamentalmente mediante el razonamiento lógico y la heurística, dentro del sistema teórico en cuestión e informe del resultado logrado.

5.15.7. Análisis histórico

Con conocimiento de causa, analicemos elementos de la historia reciente relacionados con las investigaciones cualitativas.

Desde hace algunos años se viene hablando de la investigación cualita-tiva, que surgió como reacción a lo que consideraron exceso del positivismo

Bioestadística cualitativa.indd 281 25/06/2010 12:21:09 p.m.

Page 292: Bi o e s ta d í s t i c a

282

naturalista aplicado a las ciencias sociales. Los especialistas de las ciencias sociales y humanísticas y otros tuvieron la necesidad de seguir investigando a su manera en la investigación participativa, la investigación acción y otras, ante la avalancha de la matematización en las ciencias naturales y la aparición de gran cantidad de métodos estadísticos para el procesamiento incluso de las llamadas variables cualitativas muy análogos al de las variables cuantitativas en su fundamento, pero que se diferenciaban notablemente de estos por su menor exigencia, pero con un poco menos de potencia teórica que las que se aplican más frecuentemente en estas investigaciones.

Algo parecido sucedió antes y recientemente con los físicos, químicos y biológos que tuvieron no solo que estudiar la matemática, sino incluso crear matemática para poder llevar a cabo sus investigaciones. Einstein tuvo que aceptar la física estadística para aplicarla en la teoría de la relatividad.

A todo esto se agregó la irrupción generalizadora del uso de la Informática con sus computadoras personales que facilitan todo el procesamiento matemático y parte del lógico y mecánico, dejando al investigador el papel interpretador de los resultados que ella le proporciona después de introducirles adecuadamente los datos. Esto hizo accesible la aplicación de estos métodos estadísticos prác-ticamente a todos los investigadores con nivel universitario y hasta secundario, investigadores de las artes y la sociedad, aunque introdujo un nuevo estudio, el de la computación.

Debido a sus limitaciones matemáticas naturales los especialistas sociales y humanistas no habían podido romper con sus métodos, con los que obtenían bastante buenos resultados y por ellos empezaron a defenderse buscando los puntos débiles de esta matematización y demostraron que no disminuía la capacidad investigativa por otras vías, que ellos podían hacer, al margen de la corriente que llamaron cuantitativa. La matematización o formalización ya está llegando y llegará a ellos muy natural sin reconocerla extraña cuando estas ciencias lleguen a conocer su objeto de estudio y desarrollen un sistema de teorías axiomatizadas o formalizadas, a esto contribuye la estadística y la informática al facilitarlo.

A estas otras vías, fundamentadas a la manera de ellos, como se hizo antes, casi siempre, se les empezó a reunir, organizar y argumentar bajo el nombre generalizador de investigación cualitativa, un poco arbitrariamente, asociándolas con las variables más frecuentes en su medio que eran las cualitativas (nomi-nales y ordinales), lo que ha llevado a muchos a confundirla erróneamente con la que solo utiliza estas variables sin cuantificar sus valores, sin procesamiento estadístico notable, incluso, sin llamarle variables o sin tener claridad sobre el concepto de variable. Bajo este nombre aparecen la investigación participativa, la llamada investigación acción y otras muchas más, en particular la etnográfica, fundamentalmente descriptivas, especulativas o subjetivas, buscando repre-sentatividad de otra manera, sin excluir la aleatoria y utilizando la estadística descriptiva o inferencial, si hay condiciones para ello.

Bioestadística cualitativa.indd 282 25/06/2010 12:21:09 p.m.

Page 293: Bi o e s ta d í s t i c a

283

De lo impreciso del nombre habla el hecho de que simultáneamente se fue abriendo paso en la estadística una rama algo análoga en que predominó el nombre de métodos no paramétricos, que bien se podrían haber llamado cualitativos con el mismo o mayor derecho, pero menos preciso.

A los estadísticos le paso algo parecido pero invertido, ellos acostumbrados a aplicar los métodos para variables continuas o a lo sumo contadoras (cuan-titativas), que para ellos eran los únicos que existían al encontrarse con los llamados métodos no paramétricos, se resistían a entenderlos y a aplicarlos y a ponerlos a punto, por la novedad que introducían, aunque ya llevaban tiempo teniéndoselas que ver con variables cualitativas (reducidas muchas veces a las dicotómicas).

Pero ocurre que los investigadores naturalistas, menos especulativos, son minoría extrema en este mundo, y la literatura de la mayoría “aplastante” predo-mina y gana adeptos entre buenos especialistas e investigadores, pero también entre los que se inclinan a especular y pueden imponer sus ideas haciéndolo, gracias a la ignorancia generalizada de este asunto vinculado de alguna manera con la matematización del conocimiento.

5.15.8. Problema de reducir lo registrado a una matriz de datos

Un problema que habitualmente van a consultar, a los estadísticos, los in-vestigadores profesionales, en particular profesores, personal médico, así como estudiantes en la etapa subsiguiente a la medición, observación o la aplicación de un cuestionario, es el de cómo volcar, cómo codificar la información, en un listado o matriz de datos para comenzar su examen, el trabajo exploratorio organizado y eficiente de los datos y el consecuente procesamiento estadístico descriptivo e inferencial.

La respuesta a estas cuestiones conduce, por lo general, a la revisión del diseño del experimento, al replanteamiento de las preguntas del cuestionario, siempre que sea posible, para mejorarlas, para poder extraerles el máximo de información con el menor trabajo en la observación y en el procesamiento.

La cuantificación de los datos no necesariamente tiene que ser con núme-ros. En la actualidad la cuantificación de la información no quiere decir nece-sariamente que los símbolos con que se registran las respuestas sean números. Pueden ser palabras, categorías que, a menudo, se denominan como clases, puntajes, datos u observaciones. La cuantificación se puede hacer siempre al menos a través de las frecuencias de estas clases. No obstante, conviene acla-rar que toda la información contenida en los cuestionarios puede registrarse en un archivo o fichero informático, o en una simple hoja de papel, en forma de matriz constituida por columnas de datos correspondientes a las distintas variables y filas de los mismos datos pero correspondientes a los distintos individuos o elementos.

Bioestadística cualitativa.indd 283 25/06/2010 12:21:10 p.m.

Page 294: Bi o e s ta d í s t i c a

284

5.15.9. ¿Cómo cuantificar las respuestas a un cuestionario?

Por lo general una medición o la respuesta a una pregunta se registran como un valor de una variable (matemática) X. Este es el caso de lo que se llama preguntas cerradas en que se ofrecen una o varias opciones de respuesta para seleccionar solo una. Cada posible opción o respuesta se anota mediante un número, un nombre o un símbolo cualquiera (un puntaje, una categoría o clase) que la representará y que será el valor de la variable X.

En el caso en que sean dos o más las opciones de respuesta, y se admita contestar seleccionando más de una, cada opción se podrá denotar mediante una variable dicotómica Y, cuyo valor será preferiblemente 1 si se seleccionó esta opción y 0 si no. Este caso, debido a su complejidad, debe ser objeto de ejemplificación y esta se puede encontrar en el epígrafe 5.7.

5.15.10. Caso particular de las respuestas a las preguntas abiertas

En el caso de las llamadas preguntas abiertas en que las respuestas consti-tuyen una frase o un párrafo que expresa una opinión, explicación, descripción, etcétera, estas podrían registrarse completas en las actuales bases de datos pero a la postre, para codificarlas o cuantificarlas, se requerirá analizar la respuesta de cada uno de los individuos y clasificarlas en categorías comunes para al menos varios individuos.

Se considera, entonces, cada categoría como una posible respuesta, aunque muchas veces se consideran solo las categorías que poseen mayor frecuencia, en particular cuando el número de individuos es exiguo y no es recomenda-ble, desde el punto de vista estadístico, definir muchas categorías. Una vez decidido cuáles son las categorías o variables componentes para cuantificar una pregunta de este tipo el tratamiento se guiará por lo antes expresado en el epígrafe 5.7.

5.15.11. Ejemplo de cuantificación de una pregunta abierta

Consideremos una investigación en que se pregunta a cada uno de un gru-po de n pacientes de un hospital su opinión sobre los servicios médicos que le brindan y la reapuesta que se obtiene se puede escribir en un párrafo más o menos grande. Tomemos uno como modelo:

“Son buenos, pero podrían mejorar mucho más si predominara el buen trato, el médico fuera más especialista en la patología que el paciente presenta, las enfermeras y el personal de servicio fueran más atentos, la farmacia más servicial, el servicio de ambulancia y taxis más eficiente y nuestros parientes y amigos nos visitarán más a menudo y fueran disciplinados, pero sin exigirles demasiado”.

Bioestadística cualitativa.indd 284 25/06/2010 12:21:10 p.m.

Page 295: Bi o e s ta d í s t i c a

285

Otros pacientes podrían estar en contra, decir lo mismo o coincidir solo algunos aspectos y en otros no. Entonces de este párrafo o variable compuesta o memo, como la llaman algunos gestores de bases de datos se pueden extraer las variables:

Descomposición de la respuesta a una pregunta abierta en n = 10 va-riables:

1. Calificación ofrecida por el paciente con los valores posibles: bueno, regular y malo u otra escala más amplia.

2. Calificación de los médicos con los valores posibles: alta, mediana y baja u otra escala más amplia

3. Calidad de la atención de los enfermeros: presencia y ausencia o una escala de bien, regular y mal o más amplia.

4. Calidad de la atención del personal de servicio: presencia y ausencia o una escala de bien, regular y mal o más amplia

5. Calidad de servicial de la farmacia: si o no o una escala de bien, regular y mal o más amplia.

6. Evaluación del servicio de ambulancia: presencia o ausencia, bien, regular y mal o una escala más amplia.

7. Evaluación del servicio de taxis: presencia o ausencia, bien, regular y mal o una escala más amplia

8. Parientes y amigos: cantidad de visitas a la semana 9. Disciplina de los visitantes: presencia o ausencia o una escala con más

valores.10. Exigencia hacia los visitantes: alta, baja y media o una escala

superior.

En la tabla 5.90 se ofrece un ejemplo de reducción de las n variables com-ponentes a un número k menor y ejemplo de matriz de datos.

Tabla 5.90. Representación de la información anterior como matriz de datos

P S E Pa 1 3 4 5 8 101 M 36 A R Si No Si 3 Media2 B 28 B B No Si No 3 Alta... ... ... ... ... ... ... ... ... ...n R 30 A M No Si Si 2 Baja

Donde P indica paciente, S sexo, E edad y Pa patología y 1, 3, 4, 5, 8 y 10 son las variables seleccionadas.

Supongamos los puntos 2, 6, 7 y 9 solo los citaron menos del 10 % (u otro porcentaje bajo cualquiera según la necesidad) de los n encuestados y que en numerosos casos se citó también la opinión del acompañante: con los valores

Bioestadística cualitativa.indd 285 25/06/2010 12:21:10 p.m.

Page 296: Bi o e s ta d í s t i c a

286

bien, regular y mal, entonces 10 – 4 +1 = 7, de modo que la variable opinión sobre los servicios médicos que le brindan al paciente en el hospital se compone de al menos siete variables sencillas o componentes, cada una de las cuales se puede registrar con un valor para cada uno de los n paciente de acuerdo con su escala de valores posibles en una matriz de datos. Si además se registra la edad, sexo, la patología y su gravedad se obtendría, después de registrar a los n pacientes, una matriz de datos como esta la de la tabla 5.75 u otra más completa como las de las tablas 1.3 y 1.17 cuyos datos son ficticios. Lo que no puede suceder es que un individuo tenga más de un valor en una variable.

5.15.12. Otro ejemplo ilustrativo

Esta es la manera de proceder para crear la matriz o base de datos necesaria para aplicarle los métodos estadísticos que permitan descubrir regularidades y asociaciones entre una o más variables, así como para hacer estimaciones y verificar hipótesis referentes a la población de procedencia de la muestra, que para ello debe ser aleatoria. Pero, además, esta matriz de datos permitirá resumir las respuestas a los cuestionarios y los resultados de las observaciones y entre-vistas, sin pérdida de información, en unas pocas hojas de papel u hojas de excel, access, tablas de word o bases de datos de cualquier software estadístico.

Otro ejemplo puede ser el estudio de los hábitos alimenticios de la población de una localidad, variable que incluye otras como lo que comen, cómo y cuándo lo comen, cómo lo consiguen y preparan, su precio, sus componentes y cualquier otro asunto relacionado, de modo que, al igual que la opinión sobre los servicios médicos, se compone de varias otras variables. A estas variables, con componentes, en matemática le llaman vectores que incluyen múltiples componentes.

La investigación participativa resuelve parte la necesidad de hacer pre-guntas y observaciones indirectas y no de modo ajeno.

Un investigador, por muy participativa que sea la investigación o de in-vestigación acción, debe registrar desde dentro o fuera del medio en que se desenvuelva todo lo que observe, las respuestas a preguntas, lo obtenido en las entrevistas, las conversaciones, las actuaciones y actividades, todo lo que sea relevante para su investigación y no solo en un individuo sino en una cantidad de ellos, preferiblemente con selección aleatoria o al menos que sea represen-tativa de la población a la que se van a referir los resultados de la investigación. En las encuestas se ha tenido siempre en cuenta si la preguntas se pueden hacer directamente o de modo indirecto, de modo ajeno o participando, ganándose al que responde de alguna manera, y una de esas maneras es hacerse amigo de los encuestados y hasta convivir con ellos para mejorar la observación y la inter-pretación de lo observado, de modo que la llamada investigación participativa no es más que un caso particular de este proceder.

La investigación cualitativa no puede prescindir de muestras representativas para obtener la información.

Bioestadística cualitativa.indd 286 25/06/2010 12:21:10 p.m.

Page 297: Bi o e s ta d í s t i c a

287

Si no hay registro de datos ni muestra representativa la investigación es probable que sea teórica, pero en ausencia de una teoría desarrollada, forma-lizada, axiomática, es muy probable que sea solo especulativa, es decir, que solo dé opiniones subjetivas sin otra fundamentación que la argumentación del investigador, como ocurre cuando algunos dicen que tal profesor o grupo de estudiantes es muy bueno (o muy malo), a partir de la conversación con dos o tres estudiantes del grupo o a partir de la observación de una clase de 30 o 40 que tiene el curso, pensando erróneamente que esos dos ó tres estudiantes y esa clase observada es muy probable que no sean representativos, al menos por el escaso tamaño muestral de 1, 2 o 3. No se puede afirmar tampoco que la subjetividad no da buenos resultados, porque toda actividad del hombre lleva una amplia cuota de subjetividad, pero una subjetividad cultivada con la expe-riencia y los conocimientos, bien argumentada tiene mucho valor.

La cuantificación debe ir seguida de la creación de la matriz de datos.La confección del fichero, matriz o archivo de datos permite concentrar toda

la información en un pequeño espacio, en unas cuantas hojas de papel, si perder información alguna (a veces para no andar con tantos papeles de cuestionarios y observaciones el investigador construye una distribución de frecuencias, o sea, cuenta cuántos hay de cada caso o qué porcentaje y creyendo que ya le extrajo lo fundamental o lo relevante descuida o pierde los datos originales y a veces se oye decir que se hizo un “procesamiento porcentual”. Sustituir los datos originales, por individuos, por sus distribuciones de frecuencias absolutas o porcentuales representa pérdida de información, sean cuales sean las variables, todo resumen conlleva pérdida de información.

Teniendo el fichero de datos originales, con los medios de cómputo actuales, se pueden construir las distribuciones de frecuencias univariadas y bivariadas con sus representaciones gráficas, así como calcular los coeficientes de correla-ción entre variables y la aplicación de las estimaciones y pruebas de hipótesis a las variables según su escala de cuantificación, que no se pueden aplicar si solo se tienen las frecuencias absolutas o porcentuales, en cuyo caso solo se pueden aplicar pruebas que dependan de las frecuencias y estás son las de proporciones o bondad de ajuste y ji cuadrado, si se cumplen las condiciones que exigen. Todo esto destaca la necesidad de guardar siempre los datos originales al me-nos la matriz de datos originales si se llegó a crear porque puede ser necesaria para aplicar otros métodos estadísticos o simplemente servir para constatar los aplicados si fuera necesario.

Por otro lado, es bueno destacar que la estadística descriptiva posee suficien-tes métodos y procedimientos para que algunas investigaciones se satisfagan con ellos. Pero para aplicar la estimación, el contraste, la verificación o las pruebas de hipótesis para cualesquiera que sean las escalas de cuantificación en que estén las variables se requieren muestras aleatorias, más fáciles de obtener, en muchas ocasiones, que las muestras seleccionadas con otros criterios.

Bioestadística cualitativa.indd 287 25/06/2010 12:21:10 p.m.

Page 298: Bi o e s ta d í s t i c a

Bibliografía

Daniel, W. W.: Biostatistics, Foundations for Analysis in the Health Sciencies, John Wiley and Sons, Inc., 1974.

De la noval, n.: “Fundamento Lógico de la Enseñanza de la Programación”, Instituto Superior Pedagógico Enrique José varona, Tesis de Maestría, La Habana, 1999.

Dixon, J. W. y J. F. Massey: Introducción al Análisis Estadístico. 2da ed., University of Cali-fornia, 1965.

egaña, e.: La estadística. herramienta fundamental en la investigación pedagógica. Editorial Pueblo y Educación, La Habana, 2003.

egaña, e.: Manual de Estadística General, Universidad Nacional Autónoma de Nicaragua, Managua, 1989.

linares, g.: Análisis de Datos, Editora del Ministerio de Educación Universidad de La Habana, Facultad de Matemática y Cibernética, La Habana, 1990.

lópez-CalleJa, C.: Conferencias de Estadística Multivariada, CEDEM, Universidad de La Habana, 1999.

Martinez C. H. y p. s. santana: Manual de procedimientos estadísticos, Instituto de Ciencias Médicas de La Habana, 1990.

MiCrosoFt exCel: Ayuda. Versiones XP, 2003, 2007 y 2010. paDua, J.: Técnicas de Investigación Aplicadas a las Ciencias Sociales, Fondo de Cultura Eco-

nómica,. Avenida Universidad, 975, México 12, DF, 1979. siegel, s.: Nonparametric Statistics for the Behavioral Sciences, McGraw-Hill Book Company,

Inc., New York, 1956.yaMane, t.: Statistics: An Introductory Analysis, 2nd. Edition, University of California, 1965.

Bioestadística cualitativa.indd 289 25/06/2010 12:21:10 p.m.

Page 299: Bi o e s ta d í s t i c a

291

Índice de materias

A

Aleatorización: 66.

Algoritmo: XI, 19, 70.

Amplitud: 19, 30.

ANOVAde Friedman: 116, 170, 241.de Kruskall-Wallis: 116, 167, 210, 237,

238, 241, 242.de la mediana: 173, 210, 241.de razón de varianza: 116, 200, 201, 234,

241.Q de Cochran: 241.

C

Cochran: 118, 119, 201, 234, 237, 241, 242, 273.

Coeficientede concordancia de Kendall: 60, 166, 173.de concordancia de rangos de Kendall: 57,

62, 63, 166, 241.de rangos de Spearman: 44, 235.

Coeficiente de correlaciónde Kendall: XI, 54, 60.de rangos de Kendall: 39, 54, 55, 56, 57,

62, 63, 165, 166, 209, 241.de rangos de Spearman: 40, 41, 42, 43, 44,

59, 60, 163, 164, 231, 272, 275.de Spearman: XI, 39, 57, 238.lineal de Pearson: 36, 37, 38, 39, 41, 42,

44, 51, 60, 163, 180, 183, 188, 231, 270, 271, 275.

múltiple: 44, 54.múltiple de rangos de Spearman: 44.múltiple de Spearman: 44.parcial: 38, 39, 54, 57, 60.

punto biserial: XI, 39, 46, 47, 53, 54, 60, 61, 62, 115, 188, 189, 190, 191, 192, 231, 235, 272.

V de Cramér: XI, 39, 47, 48, 50, 51, 53, 54, 62, 100, 102, 106, 107, 108, 115, 192, 194, 231, 235, 236, 237, 241, 271, 272.

φ: 51.

Confiabilidad y validez: XII, 271.

Corrección por continuidad de Yates: 103.

Corrección por ligaduras: 43, 44, 56, 150, 170.

Covarianza: 36, 178.

Cramér: XI, 39, 47, 48, 50, 51, 53, 54, 62, 100, 102, 106, 107, 108, 115, 192, 194, 231, 235, 236, 237, 241, 271, 272.

D

DatosM2: 3, 9, 21, 22, 30, 31, 32, 33, 37, 38, 39, 44, 46, 47, 52, 60, 62, 83, 92, 99, 101, 107, 108, 113, 115, 117, 118, 122, 125, 126, 136, 139, 140, 150, 155, 159, 161, 162, 163, 164, 165, 166, 167, 168, 170, 173, 174, 185, 187, 189, 209, 213, 216, 218, 232, 233, 234, 242.

DatosMPR: 137, 222, 224, 232, 233, 234, 236.

DatosMT: 3, 34, 137, 222, 232, 238.

Decisión sobre la base de una probabilidad: XI, 77.

Deducción de la fórmula del estadígrafo ji cuadrado de la dócima de independencia en tablas de contingencia de dos por dos: 276-278.

Demostración de la relación entre los coefi-cientes de correlación rangos de Spearman y lineal de Pearson: XII-1, 275-276.

Bioestadística cualitativa.indd 291 25/06/2010 12:21:11 p.m.

Page 300: Bi o e s ta d í s t i c a

292

Diseño de experimentos: XI, 65.

Distribuciónbinomial: 80, 81, 82, 92, 159, 160, 161, 180,

181, 183, 219, 267.bivariada de frecuencias: 47, 58, 171, 226.de frecuencia por conteo de valores distin-

tos: 8, 18, 24.de frecuencia por conteo de valores dis-

tintos: 8.de frecuencias: 8, 12, 15, 17, 18, 48, 186,

188, 226, 250, 279.de frecuencias por intervalos de clase: 18.F de Fisher: 197.hipergeométrica: 220.ji cuadrado: 197.normal estándar: 71, 72, 77, 79, 83, 97, 155,

165, 182, 196.t de Student: 196.

Dócima: 79, 83, 88, 100, 104, 106, 108, 115, 121, 124, 127, 129, 132, 133, 139, 150, 155, 159, 161, 165, 166, 204, 205, 206, 207, 208, 209, 240, 241.basada en el número total de rachas: 124,

132, 132-133, 240.basada en el número total de rachas de los

símbolos a y b: 124, 124-127, 240.basada en la longitud de la racha más larga

de los símbolos a o b: 204, 240.basada en la longitud de la racha más larga

de símbolos a o b: 127-129.basada en la racha más larga: 133, 133-134.binomial para la proporción de una pobla-

ción: 81-83, 240-242.de independencia y homogeneidad ji

cuadrado en tablas de contingencia: 99-106.

de Kolmogórov-Smírnov para dos pobla-ciones: 134-139.

de la mediana: 161, 208, 241.de la probabilidad exacta de Fisher: 108,

108-111, 241.de las rachas de Wald-Wolfowitz para dos

poblaciones a partir de muestras inde-pendientes: 155-158.

de las rachas de Wald-Wolfowitz para una población: 88-92.

de las rachas hacia arriba y hacia abajo: 129-134.

de las rachas por encima y por debajo de la mediana: 123-129, 204.

de los signos: 159, 159-161, 207, 241.

de McNemar: 111-115.de rangos con signos de Wilcoxon: 150-154.de significación para el coeficiente de corre-

lación V de Cramér: 106-108.de significación para el coeficiente de ran-

gos de Spearman: 163-164.de Wilcoxon para dos muestras indepen-

dientes y apareadas: 139-153.exacta F para la proporción de una pobla-

ción: 92-96.ji cuadrado de bondad de ajuste para una

población: 83-88.Moore-Wallis basada en el número de

rachas de signos +: 129-132.para el coeficiente de concordancia de

rangos de Kendal: 166.para el coeficiente de correlación de rangos

de Kendall: 165.U de Mann-Whitney o de suma de rangos

de Wilcoxon: 139-149.

Dócima de Kolmogórov-Smírnovde dos colas en el caso de muestra grandes:

137.de dos colas en el caso de muestras pe-

queñas, ambas del mismo tamaño n: 136-137.

de una cola en el caso de muestras gran-des: 138.

para dos poblaciones: 134, 241.

E

Error experimental: 66.

Escalade cuantificación: XI, XII, 1, 2, 5, 7, 65, 66,

71, 79, 97, 222, 240, 269, 287.de intervalo: 6.de razón: 6.nominal: 5.ordinal: 6.

Estadígrafo: 69, 73, 75, 79, 89, 91, 92, 98, 112, 114, 115, 116, 118, 121, 124, 126, 127, 129, 130, 132, 135, 137, 138, 140, 150, 159, 160, 163, 164, 165, 166, 167, 198, 199, 200, 209, 212, 235, 236, 237, 242.

Estimador: 70.

Experimento: 65.

Extensión de la dócima de McNemar: 114, 241.

Bioestadística cualitativa.indd 292 25/06/2010 12:21:12 p.m.

Page 301: Bi o e s ta d í s t i c a

293

F

Fisher: 92, 93, 94, 96, 105, 108, 109, 176, 177, 181, 182, 195, 197, 199, 237, 241.

Frecuenciaabsoluta: 1, 8, 9, 15, 20, 47, 108.acumulativa: 18, 123, 202.porcentual: 9.relativa: 9, 84, 178.

Friedman: 63, 116, 170, 171, 173, 174, 210, 212, 236, 238, 241, 242.

G

Gráficacircular o de pastel: 14.de barras: 13, 17.de cajas y bigotes: 32, 33.histograma: 13.piramidal: 21, 22, 228.polígono: 14, 15, 16, 226.

H

Hipótesis estadísticas: VII.

I

Indicadorde asociación: 44.de correlación: 35-38.de dispersión: 30-32.de posición: 28-30.de tendencia central: 24-32.

Intervalos de clase: 188.

K

Kendall: XI, 39, 54, 55, 56, 57, 60, 62, 63, 165, 166, 173, 209, 238, 241, 272.

Kolmogórov: 121, 122, 134, 135, 136, 137, 138, 202, 237, 238, 240, 241.

Kruskall: 210, 241, 242.

M

Mann: 139, 140, 141, 148, 151, 205, 206, 237, 238, 241.

Matriz de datos: 9, 34, 44, 222, 253, 273.

McNemar: 111, 114, 237, 241, 273.

Media: XII, 178, 189, 190, 213, 214, 215, 221, 229, 232, 238, 241, 269, 285.

Mediana: 174, 229, 232, 238.

Moda: 229, 238.

Moore: 129, 204, 240.

N

Nivel de significación: 69.

O

Odds ratio: 246, 247, 249, 250, 252.

P

Parámetro: 70, 232.

Pearson: XII, 36, 37, 38, 39, 41, 42, 44, 51, 53, 54, 57, 60, 163, 178, 180, 183, 188, 213, 231, 270, 271, 272, 275.

Percentil: 28, 229, 238.

Probabilidad crítica: 70, 96, 200.

Pruebas de hipótesis: XI, 68, 213.

R

Rangueo: 40, 146, 169, 172, 261.

Razón: 201, 242, 249, 251, 252, 265.

Recodificación: 53, 264.

Recorrido: 30, 31, 239.intercuartílico: 31.

Región crítica: 62, 70, 73, 74, 75, 89, 91, 92, 93, 96, 97, 115, 116, 117, 118, 120, 121, 124, 126, 127, 128, 129, 132, 133, 134, 136, 137, 138, 140, 146, 150, 153, 163, 165, 166, 167, 172, 173, 204, 234.

Regresión: 179.logística: XII, 243, 244, 246, 247, 248, 249,

250, 251, 252.

Rendimiento: 66.

Repetición: 66.

S

Smírnov: 121, 122, 134, 135, 136, 137, 138, 202, 237, 238, 240, 241.

¿Son cualitativas las “investigaciones cualita-tivas”?: 278-287.

Spearman: XI, XII, 39, 40, 41, 42, 43, 44, 54, 56, 57, 59, 60, 163, 164, 188, 208, 209, 231, 235, 236, 238, 241, 272, 275.

Bioestadística cualitativa.indd 293 25/06/2010 12:21:13 p.m.

Page 302: Bi o e s ta d í s t i c a

294

T

Tasa: 8.

Tazas: 266.

Transformación de una tabla de contingencia en matriz de datos: XII, 273-274.

Tratamiento: 66, 148, 156, 161, 162, 171, 173.

U

Unidad experimental: 66.

V

Valor crítico: 213, 214, 215, 217.

Variablecontinua: 6.cualitativas: VII, 7, 282, 283.cuantitativas: 282.de conteo: 7.

dicotómica: 6, 7, 46, 115, 124, 189, 192, 244, 247, 255, 266, 271, 284.

dicotómica o binaria: 7.discreta: 6.

W

Wald: 88, 90, 123, 124, 155, 240, 241.

Wallis: 116, 129, 167, 204, 210, 237, 238, 240, 241, 242.

Whitney: 139, 140, 141, 148, 151, 205, 206, 237, 238, 241.

Wilcoxon: 139, 150, 151, 152, 205, 206, 236, 238, 241, 242, 273.

Wolfowitz: 88, 90, 123, 124, 155, 240, 241.

Y

Yates: 52, 88, 103, 112.

Bioestadística cualitativa.indd 294 25/06/2010 12:21:14 p.m.