apÉndice 1bvsper.paho.org/acrobat/apendice.pdfe gráfica lineal de escala semi-logarítmica . es...

¡E

APÉNDICE 1

REVISIÓN DE CONCEPTOS EN EPIDEMIOLOGÍA

Epidemiología: Es el estudio de la distribución y determinantes de los estados o eventos relacionados con la salud en las poblaciones y la aplicación de éste

en la prevención y control de los problemas.

Epidemiología ambiental: Es el estudio del impacto de los factores ambientales sobre la presentación de enfermedades u otras condiciones de salud en

poblaciones especificas y la aplicación de ese estudio al control de problemas del salud.

Epidemiología ocupacional: Es el estudio del impacto de los factores del ambientes del trabajo sobre la presentación de enfermedades u otras condiciones

del salud en poblaciones especificas de trabajadores y la aplicación de ese estudio al control de problemas del salud en el lugar de trabajo.

Usos de la epidemiología:

- Describir los eventos de salud ambiental y ocupacional

- Evaluar el estado de salud de la población

- Identificar los factores de riesgo de los expuestos

- Identificar las causas de las enfermedades

- Describir los patrones clínicos de la enfermedad

- Proponer medidas de prevención y control

- Corregir o modificar las medidas iniciales para confirmar o reformular la hipótesis.

Epidemiología descriptiva:

Persona. Las personas se pueden describir en términos de sus características inherentes o adquiridas, actividades y circunstancias bajo las que viven, las

cuales determinan un amplio grado en el que las personas están en mayor riesgo de adquirir enfermedades específicas o de padecer otras

condiciones de salud no deseables:

1. Factores demográficos y sociales: Edad, raza, sexo, ocupación, religión, estado civil, escolaridad.

2. Características adquiridas: Inmunidad, estado vacunal, estado nutricional.

3. Edad: Diferencias en susceptibilidad, diferencias en exposición, actividad fisiológica a nivel tisular que afecta la manifestación de la enfermedad

subsecuente a la exposición.

Tiempo. El análisis de casos en función del tiempo es útil para la formulación de hipótesis, para determinar la fuente de exposición, el modo de difusión y el

agente causal.

1. Al conocer las tendencias de las enfermedades según tiempo, se puede:

- Predecir la ocurrencia de brotes, y así proponer las medidas de control.

- Entender mejor la etiología de una enfermedad y prevenir brotes en el futuro.

¡E

2. Tipos de patrones temporales

- Tendencias seculares

· Cambios durante largos períodos de tiempo (años o décadas).

· Análisis histórico.

· Evaluación de programas.

· Tendencias cíclicas.

- Las tendencias seculares pueden reflejar cambios reales, o los siguientes:

· Cambios en los métodos diagnósticos.

· Cambios en la codificación de certificados de defunción.

· Cambios en la supervivencia.

- Cambios cíclicos:

· Ciclos anuales (estacionales).

· Ciclos con una periodicidad de algunos años (sarampión).

· Ciclos por día, semana, mes, años.

Lugar. Cualquier variable espacial o geográfica que esté relacionada con la ocurrencia del evento de salud. La asociación de la enfermedad con el lugar

implica que los factores de mayor importancia etiológica, están presentes en los habitantes, el ambiente o en ambos: lugar de residencia, nacimiento,

empleo, etc.

El análisis por lugar ayuda a:

- Definir los límites del problema.

- Generar hipótesis sobre transmisión o dispersión del agente, o exposición a factores ambientales.

Tipos de descripción por lugar:

- Mapas.

- Subdivisiones políticas.

- Mapas de factores ambientales.

- Comparaciones internacionales.

- Asociación con factores climáticos y ecológicos, así como índices socioeconómicos, biológicos, y culturales que varían según los países.

- Estudios de inmigrantes.

¡E

APÉNDICE 2

PRESENTACIÓN DE RESULTADOS: TABLAS, GRÁFICAS Y DIAGRAMAS

Tablas

Son series de datos que se encuentran dispuestos en renglones y columnas. Su utilidad consiste en presentar la frecuencia con la que algunos eventos

ocurren en diferentes subdivisiones o categorías de una variable.

Reglas generales:

1. Las tablas deben ser simples. Se prefieren dos o tres tablas pequeñas a una única más compleja, con demasiados detalles o variables. Generalmente

no más de tres variables pueden ser leídas con facilidad.

2. Las tablas deben explicarse por sí mismas.

- Los códigos, abreviaturas o símbolos deben ser explicados en detalle, al pie de la tabla.

- Cada fila y cada columna debe ser identificada en forma concisa y clara.

- Deben proporcionarse las unidades específicas de medida utilizadas en los datos.

- Los títulos deben ser claros, concisos y descriptivos del tema. Deben responder a las preguntas; ¿qué?, ¿cuándo?, ¿dónde?

- El total debe figurar en las tablas.

3. Generalmente, el título de la tabla está separado de la misma por líneas o espacios. En las tablas pequeñas, no son necesarias las líneas verticales

que separan las columnas.

4. Si los datos no son originales, las referencias deben figurar al pie de la tabla.

Fuente: Indicar de dónde se obtuvo la información.

¡E

Gráficas

La gráfica es un método para mostrar datos cuantitativos utilizando un sistema de coordenadas. Hay diferentes tipos de gráficas, como coordenadas

rectangulares, coordenada polar y las de propósitos especiales (tridimensional).

Reglas generales:

1 El tipo más simple de gráfica es siempre el más efectivo. No se deben trazar más líneas ni símbolos en una sola gráfica de los que se puede seguir

fácilmente con la vista.

2. Cada gráfica debe explicarse por sí misma. Por consiguiente, debe estar correctamente rotulada en lo que se refiere al título, fuente, escalas y claves

explicatorias o referencias.

3. La posición del título de una gráfica es cuestión de preferencia personal. Sin embargo, las gráficas que se publican, generalmente llevan el título

encima de la gráfica.

4. Cuando se muestra más de una variable en una gráfica, cada una de ellas debe estar claramente diferenciada por medio de referencias o claves.

5. No se deben mostrar más coordenadas que las necesarias para guiar la vista.

6. La frecuencia se representa generalmente en la escala vertical; el método de clasificación en la escala horizontal.

7. En una escala aritmética, los incrementos iguales en la escala deben representarse en unidades numéricas iguales.

8. La división de la escala debe estar claramente indicada, así como las unidades en las cuales se divide la escala.

Escala aritmética lineal. Es en la que existen distancias iguales a lo largo del eje Y, representando cantidades iguales en cualquier sitio sobre el eje.

Cuando se debe usar:

1. Es efectiva para representar datos recolectados en forma continua en un período de tiempo, como en los movimientos o tendencias a través de los

años o las variaciones en períodos cortos (días, semanas o meses).

2. Son útiles para resumir la forma de una curva epidémica.

¡E

La escala aritmética lineal está específicamente adaptada para:

1. Una serie donde se representan muchos valores sucesivos.

2. Mostrar varias series que deben ser comparadas en la misma gráfica.

3. Posibilitar la lectura rápida o la interpolación.

4. Dar énfasis al movimiento en lugar de a las cantidades reales.

EJEMPLO ESCALA ARITMÉTICA

TENDENCIA DE LOS ABORTOS HOSPITALARIOS

CHILE, 1945 - 1972

Fuente: Anuarios Estadísticos Instituto Estadísticas y Censos y S.N.S.

¡E

Gráfica lineal de escala semi-logarítmica. Es aquélla en la que el eje de la Y es medido en unidades logarítmicas.

Cuándo se debe usar:

1. Es útil al examinar una serie de datos a lo largo de un período de tiempo y el interés está en el cambio relativo (o tasa de cambio) de los valores en

lugar de en la cantidad absoluta de dicho cambio.

2. Es útil cuando se tienen pocos valores extremos.

EJEMPLO DE ESCALA SEMI-LOGARÍTMICA

TENDENCIA HISTÓRICA DE LA EXPECTATIVA DE VIDA

DE 9 PAÍSES DE AMÉRICA LATINA

Fuente: Pattern of Mortality Changes in Latin America Demography: Vol. 6, Nª 3, VIII, 1969.

¡E

Ventajas:

1. La inclinación de la línea indica la tasa de aumento o disminución.

2. Una línea recta indica una tasa constante de aumento o disminución en los valores (si es horizontal, ningún cambio).

3. Dos o más líneas que sigan trayectorias paralelas muestran tasas de cambio idénticas.

4. Los cambios grandes o diferencias en la magnitud de los números se pueden mostrar fácilmente en una gráfica relativamente pequeña.

Histograma. Es una gráfica de frecuencias (datos cuantitativos continuos) distribuidas en grupos de diferentes tamaños. También se conoce como curva

epidémica si la variable del eje X está dada por el tiempo.

Características:

1. El ancho de las barras verticales es proporcional al ancho de los intervalos de clase utilizados.

2. La altura de las barras en un intervalo de clase es proporcional a la frecuencia de ocurrencia del evento en ese mismo intervalo.

EJEMPLO HISTOGRAMA

10

8 AJENOS AL DEPARTAMENTO DE IMPRESIÓN

DEL DEPARTAMENTO DE IMPRESIÓN

6 • CASO ORIGINAL

4

2

•

0

• • • • •

JUL AGO SEP OCT NOV DIC ENE FEB MAR ABR MAY JUN JUL AGO SEP OCT

1972 1973

Polígono de frecuencias. Es útil cuando se desea presentar más de dos series de datos como una distribución de frecuencias. Los datos son presentados en

forma más clara que como histograma, además, tiene amplia utilidad para graficar datos cronológicos.

Se construye marcando los valores individuales de una frecuencia de distribución tomando el punto medio de su respectivo intervalo de clase y uniendo los

puntos con una línea.

¡E

MÉTODO CORRECTO PARA CERRAREL POLÍGONO DE FRECUENCIA

MÉTODO INCORRECTO PARA CERRAREL POLÍGONO DE FRECUENCIA

Diagramas

Son métodos para ilustrar la información estadística usando solamente una coordenada, son apropiados para comparar magnitudes de diferentes eventos o

de componentes de un total.

Propósito del diagrama:

1. Deben representar los hechos en forma fidedigna.

2. Deben ser claros, de fácil lectura y comprensión.

3. Deben estar diseñados y construidos para atraer y mantener la atención.

Gráfica de barras. Su principal uso es el de comparar magnitudes, también se utilizan para mostrar distribución de frecuencias y serie de datos en el tiempo.

1. Tiene celdas, todas con el mismo ancho de la columna, separadas por espacios.

2. Una celda puede contener más de una barra.

3. Las barras pueden separarse opcionalmente con un espacio e ilustrarse distintivamente.

4. Las distinciones deben mostrarse en un letrero.

5. Las barras pueden ser dispuestas en orden ascendente o descendente con respecto a la altura.

6. Pueden colocarse horizontal o verticalmente.

7. Un corte en la escala nunca se debe utilizar, ya que daría lugar a malas interpretaciones.

¡E

EJEMPLO DE GRÁFICA DE BARRAS

PROPORCIÓN DE EMBARAZOS QUE TERMINAN EN ABORTOS

SEGÚN ÁREAS DE INVESTIGACIÓN

BOLIVIA - 1969

Fuente: Condicionamientos socio-culturales de la fecundidad en Bolivia - 1969.

Barras combinadas. Se utilizan para presentar simultáneamente dos o más variables.

Gráfica circular. Utiliza un circulo en el cual se acomodan los datos en forma de sectores según su magnitud, de preferencia valores relativos equivalentes a

la proporción gradual del área circular. Se obtiene multiplicando la proporción (valor 100) correspondiente por 360 y se divide entre 100.

¡E

EJEMPLO DE GRÁFICA CIRCULAR

1er trim.

2do trim.

3er trim.

4to trim.

Diagrama de coordenadas geográficas. Representan la ocurrencia de eventos utilizando mapas. El mapa de puntos y el de áreas o superficies tienen usos en

común; el mapa de puntos muestra por medio de puntos u otros símbolos la localización de cualquier evento que tuvo lugar, o condición existente. Un mapa

de áreas muestra por medio de sombras o áreas con claves, la incidencia de un evento en subáreas o la distribución geográfica de alguna condición.

¡E

EJEMPLO DE DIAGRAMA DE COORDENADAS GEOGRÁFICAS

TASAS DE NATALIDAD SEGÚN REGIONES AMÉRICA LATINA - 1973

Fuente: United Nations Demographic Year Book, 1973

¡E

APÉNDICE 3

MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN

Medidas de tendencia central:

La media, la mediana y la moda son las medidas de tendencia central de una distribución.

_

Media (o promedio) se simboliza x y puede calcularse a partir de la distribución de las frecuencias, sumando los valores de todas las observaciones (xi)

dividida por el número de observaciones (n).

donde:

x = Media aritmética x∑ = Suma de todas las observaciones

n = Número de observaciones

Ejem: x = 7, 16, 3, 12, 8, 3 n = 6

x =+ + + + +

= =7 16 3 12 8 3

6496

8 2.

Cálculo de la media a partir de una distribución de frecuencias:

xfx

n= ∑

x = =5577

8069 7.

donde:

x = Media aritmética x = Valor de una observación

f = Frecuencia de x n = número de observaciones = f

x f fx

64 1 64

65 0 0

66 2 132

67 5 335

68 9 612

69 22 1518

70 16 1120

71 12 852

72 8 576

73 3 219

74 1 74

75 1 75

Total 80 5577

x =x

n

∑

¡E

Mediana es el valor que divide el número de observaciones en dos partes iguales. La mitad de las observaciones tienen valores inferiores o iguales a la

mediana, mientras que la otra mitad tienen un valor mayor o igual a la mediana. Se debe usar cuando la distribución es asimétrica.

Para calcular la mediana de un conjunto de observaciones, primero se ordenan según su valor en la escala de medición. Si n es un número impar, la

mediana será el valor correspondiente a la observación situada en el centro. Si el número de observaciones es par, la mediana será la media de las

observaciones centrales.

La posición de la mediana se obtiene: n + 1

2Ejemplos: 1, 3, 9, 15, 20: Mediana = 9

1, 3, 9, 15, 20, 21: Mediana = 9 15

212

+=

Modo es el valor que ocurre más frecuentemente. Se utiliza raramente en estadísticas de salud pública.

Ejemplos:

3, 3, 7, 8, 12, 16: Modo 3

5, 5, 6, 1, 17, 17, 12: Modo 5 y 17

Reglas para el uso de las medidas de tendencia central para un conjunto de datos:

1. La media se usa para datos numéricos y distribuciones simétricas (no sesgadas).

2. La mediana se emplea para datos ordinales o numéricos con distribución sesgada.

3. El modo se usa para distribuciones bimodales.

4. El uso primario de la media geométrica es para observaciones medidas en una escala logarítmica.

Los puntos siguientes permiten conocer la forma de una distribución sin verla:

1. Si la media y mediana son iguales, la distribución de observaciones es simétrica.

2. Si la media es mayor que la mediana, la distribución está sesgada a la derecha.

3. Si la media es menor que la mediana, la distribución está sesgada a la izquierda.

Medidas de dispersión o variación:.

Es necesario conocer el centro de la distribución y saber algo sobre la variabilidad de las observaciones. Las medidas usadas para describir esas variaciones

son:

Rango es la diferencia entre el valor más alto y el más bajo.

Ejemplos: 7, 16, 3, 12, 8, 3 Rango 13

2, 3, 10, 16 Rango 14

¡E

Percentil es una cifra que indica el porcentaje de una distribución que es igual o menor a esa cifra. El uso más común es para comparar un valor individual

con un conjunto de normas. Se emplean en forma extensa para desarrollar e interpretar tablas de crecimiento físico y mediciones de destreza e

inteligencia, así como para determinar rangos normales de valores de laboratorio.

Valor Máximo = el percentil 100 Mediana = el percentil 50

Cuartiles, la escala se divide en cuartos.

Q1 = Primer cuartil = El percentil 25

Q2 = Segundo cuartil = El percentil 50 = Mediana

Q3 = Tercer cuartil = El percentil 75

Q4 = Cuarto cuartil = El percentil 100

El percentil y los cuartiles son medidas de posición.

Rango intercuartílico, se basa en los cuartiles que son subdivisiones de una distribución en subgrupos iguales ordenados; los deciles son décimos; los

cuartiles, cuartos; los quintiles, quintos; los terciles, tercios; los centiles, centésimos.

Desviación estándar es la raíz cuadrada de la suma de las desviaciones de la media al cuadrado dividida por el número de observaciones (n) menos 1.

La desviación estándar es especialmente útil cuando la distribución a la que se refiere es aproximadamente normal, las medidas de tendencia central

(mediana, media aritmética, modo y punto medio del rango) son iguales. Si se midiera desde la media una distancia de una desviación estándar a cada

lado, se encontraría que el 68.3% de las observaciones caería dentro de esta área bajo la curva. Similarmente si se midiera desde la media una

distancia de dos desviaciones estándar hacia cada lado, se encontraría que el 95.5% de las observaciones caería dentro del área bajo la curva. Si se

midiera desde la media una distancia de 3 desviaciones estándar hacia cada lado, se encontraría que el 99.7% de las observaciones caerían dentro del

área de la curva.

Fórmula para calcular la desviación estándar

Fórmula para Muestra Fórmula para Población

s =(x - x )

n - 1

2∑c =

(x - )

n

2∑ µ

¡E

X X - X d d2

1 1 - 50 - 49 2401

44 44 - 50 - 6 36

45 45 - 50 - 5 25

46 46 - 50 - 4 16

48 48 - 50 - 2 4

48 48 - 50 - 2 4

49 49 - 50 - 1 1

50 50 - 50 0

50 50 - 50 0

51 51 - 50 1 1

52 52 - 50 2 4

52 52 - 50 2 4

54 54 - 50 4 16

55 55 - 50 5 25

55 55 - 50 5 25

100 100 - 50 50 2500

Total 0 5062

Series A = 47.7 Series C = 32.8

Coeficiente de variación Es una medida que permite comparar la dispersión relativa en un tipo de datos con la dispersión relativa en otro tipo de datos. Es la

desviación estándar dividida entre la media por 100 por ciento; produce una medida de la variación relativa con respecto a la media. Una aplicación

frecuente es en pruebas de laboratorio y procedimientos de control de calidad.

Coeficiente de Variación = Desviación Estándar x 100

Media

C Vs

xx. . = 100

Ejemplos:

Serie A: Serie B: Serie C:

C V x. ..

.= =47 7

50100 95 4% C V x. .

..= =

18 37

50100 36 74% C V x. .

..= =

32 8

50100 65 6%

s =5062

15= 337.4666 = 18.3702

¡E

Grupo A: Peso Grupo B: Altura

Media = 145 libras Media = 67 pulgadas

Desviación Desviación

Estándar = 7 libras Estándar = 5 pulgadas

Peso Altura

C.V. = 7 libras x 100 = 4.8% C.V. = 5 pulgadas x 100 = 7.5%

145 libras 67 pulgadas

Uso de las medidas de dispersión:

1. La desviación estándar se emplea cuando también es apropiado el uso de la media, en distribuciones simétricas (no sesgadas) de datos numéricos.

2. Percentiles y rango intercuartílico se emplean en dos casos:

a. Cuando se usa la mediana, es decir, con datos ordinales o numéricos sesgados.

b. Cuando se utiliza la media, pero el objetivo es comparar observaciones individuales con un conjunto de normas.

3. El rango intercuartílico se usa para describir el 50% central de distribución, sin importar su forma.

4. El rango es una medida apropiada para datos numéricos cuando el propósito es enfatizar valores extremos.

5. El coeficiente de variación es útil cuando se quiere comparar dos distribuciones numéricas medidas en escalas diferentes.

Intervalos de confianza se utiliza para estimar las características de variación de una población alrededor de la desviación estándar, la media, el tamaño de la

muestra y la probabilidad especifica de la población. Con el 95% de confianza se calcula:

Limite inferior = x+1.96(n

)σ

Limite superior = x+1.96(n

)σ

σ = Desviación estándar de la población

¡E

APÉNDICE 4

TASAS, RAZONES Y PROPORCIONES

(MEDIDAS DE MORBILIDAD Y MORTALIDAD)

Razón: Es una expresión de la relación entre un numerador y un denominador, independientemente de la base de población de la que se deriven, que

pueden estar relacionados entre sí o ser totalmente independientes. La razón es simplemente el valor que se obtiene al dividir una cantidad entre otra,

por lo tanto, la tasa es también una razón, pero una razón no siempre es una tasa.

Se expresa como: X/Y

Ejemplo: Una universidad tiene 4.000 estudiantes varones y 2.000 mujeres. La razón entre estudiantes varones y mujeres es: 4.000/2.000= 2/1.

Proporción: Es una razón en la cual el numerador está incluido en el denominador. Se lee generalmente como un porcentaje.

Se expresa como: n

N×100

Ejemplo: 500 personas asistieron a una fiesta de la compañía y 50 se enfermaron de una intoxicación, por alimentos contaminados por probable agente

químico. Hubo 32 casos de varones enfermos y 18 casos de mujeres. La proporción de personas enfermas, la proporción de casos de hombres y la

proporción de casos de mujeres, son las siguientes:

Proporción de enfermos: 50/500 = 10 = 0.10

Proporción de casos de varones: 32/50 = 64 = 0.64

Proporción de casos de mujeres: 18/50 = 36 = 0.36

Toda proporción debe ser ≤ a 1.

Tasas: Una tasa mide la probabilidad de la ocurrencia de algún evento particular, como casos o muertes. Es una proporción multiplicada por una base o

constante. Se representa:

X

Yn×10

Tasa cruda o bruta: Hace referencia a una población en general.

Ventajas:

- Medidas de resumen.

- Fáciles de calcularse (ampliamente utilizadas a pesar de sus limitaciones).

Desventajas:

- No toman en cuenta diferencias en la composición de la población.

- Dificultad para interpretar diferencias.

Tasa específica: Hace referencia a un grupo determinado de una población.

¡E

Ventajas:

- Subgrupos homogéneos.

- Tasas detalladas de utilidad para propósitos epidemiológicos y de salud pública.

Desventajas:

- Es problemático hacer la comparación entre numerosos subgrupos de 2 o más poblaciones.

Tasas ajustadas: Cuando se comparan dos o más poblaciones que difieren respecto a algunas características básicas (edad, sexo, raza, estado

socioeconómico, etc.) que influyen de manera independiente en el riesgo de muerte, es necesario hacer una estandarización.

Ventajas:

- Resumen una serie de datos.

- Eliminan las diferencias en la composición de los grupos permitiendo una comparación sin sesgos.

Desventajas:

- Es un índice ficticio

- Su magnitud absoluta va a depender de la selección que se haga de la población estándar y del método de ajuste utilizado.

Una tasa se puede expresar como: X

Yn×10

donde

X = número de eventos o casos

Y = población total en riesgo

10n = base (100; 1.000; 10.000; 100.000; etc.).

Prevalencia puntual: Es la proporción de la población afectada por el problema de salud bajo estudio. El numerador incluye a todas las personas que tienen el

problema de salud en un momento dado, independientemente del lapso de tiempo que haya padecido el problema cada individuo. En el denominador

aparece la población total, tanto las personas a quienes se diagnóstico el problema de salud como las que no han sido afectadas.

Número de casos (nuevos y antiguos) existentes del problema de salud en un momento dado

PP = X 10n

Población total en estudio

Ejemplo: Prevalencia de tabaquísmo entre mujeres de Puerto Rico en 1982. En la estimación de fecundidad y planificación familiar en Puerto Rico, en 1982,

se preguntó a las mujeres de 15 a 49 años de edad: ¿fuma usted actualmente?. La prevalencia puntual de tabaquísmo fue:

¡E

Mujeres que fumaban en la época

PP = de la entrevista = 487 = 15.3%

Mujeres de 15-49 años entrevistadas 3175

Factores que influyen en la tasa de prevalencia

Aumenta por:

Mayor duración de la enfermedad

Prolongación de la vida de los pacientes sin curación

Aumento de casos nuevos (aumento de la incidencia)

Inmigración de casos

Emigración de personas sanas

Inmigración de personas

Susceptibles

Mejor posibilidades diagnósticas (mejor información)

Disminuye por:

Menor duración de la enfermedad

Elevada tasa de letalidad por la enfermedad

Disminución de casos nuevos (disminución de la incidencia)

Inmigración de personas sanas

Emigración de casos

Emigración de personas susceptibles

Aumento de la tasa de curación de casos

Tasa de incidencia: mide la frecuencia o rapidez con la que ocurre una enfermedad o la frecuencia con que se agregan casos nuevos; se calcula siempre

para un período de tiempo dado.

No total de casos nuevos de una enfermedad específica en un intervalo de tiempo

Se expresa como: X 10n

Población a la mitad de dicho intervalo

Ejemplo:

1 julio 1 agosto

¡E

Esto representa 7 casos de enfermedad en una población de 10.000 habitantes durante 1991. Cada línea horizontal representa la proporción de tiempo que

una persona está enferma. La línea comienza con la fecha de inicio y termina en la fecha de recuperación.

1.- Tasa de prevalencia al 1 de julio = 3/10.000 x 100.000 = 30.0

2.- Tasa de prevalencia al 1 de agosto = 4/9.997 x 100.000 = 40.0

3.- Tasa de prevalencia para julio = 7/10.000 x 100.000 = 70.0

4.- Tasa de incidencia para julio = 4/9.997 x 100.000 = 40.0

Tanto la incidencia y prevalencia son medidas de morbilidad (enfermedad), pero difieren en que la incidencia está diseñada para medir los casos nuevos que

se presentan en un período determinado de tiempo y la prevalencia mide el número total de personas que tiene la enfermedad en un momento dado.

Tasa de ataque: tasa de incidencia que se expresa generalmente como un porcentaje, se usa para ciertas poblaciones en particular y se observa durante

períodos limitados de tiempo, como en una epidemia o brote.

Número total de casos nuevos de una enfermedad específica durante un período de tiempo epidémico

Se expresa como: X 10n

Población al comenzar el período

Ejemplo: 96 personas se expusieron a un agente químico (en un alimento contaminado), resultando 26 individuos enfermos en un período corto de tiempo.

Tasa de ataque = 26 enfermos x 100 = 27.1%

96 expuestos

Tasa de ataque secundaria: mide la frecuencia de nuevos casos de una enfermedad durante un período epidémico entre los contactos de casos conocidos.

Número total de casos entre los contactos de caso primarios en un período de tiempo epidémico

Se expresa como: X 10n Pobblación de contacto baso riesgo

Tasa bruta de mortalidad: tiene el inconveniente de que no toma en cuenta que la probabilidad de que una persona muera, varía según su edad, sexo, raza,

clase socioeconómicas y otros factores. No es adecuada para comparar situaciones en períodos de tiempo diferentes o en zonas geográficas distintas.

Número de muertes en un

Tasa bruta de mortalidad = período determinado X 10n Población total promedio

durante dicho período

¡E

Tasa de mortalidad específica por edad y sexo:

Total de muertes en un grupo de edad y sexo

determinado de la población de una zona definida

durante un período determinado X 10n

Población total estimada del mismo grupo de edad y sexo

de la población en la misma zona y durante el mismo período

Letalidad: es una medida de la gravedad de una enfermedad y se define como la proporción de casos que resultan mortales en un período específico.

Número de muertes por una enfermedad

Tasa de Letalidad(%)= en un período determinado X 100

Número de casos diagnosticados de la

enfermedad en el mismo período

Ejemplo: en una región H, con una población de 30,000 habitantes, en 1986, hubo 200 casos de enfermedad respiratoria por contaminación del aire, con 6

defunciones.

Mortalidad por enf. respiratoria = 6 muertes x 10.000 = 2

30.000 hab.

Letalidad por enf. respiratoria = 6 muertes x 100 = 3

200 casos

La mortalidad por enfermedad respiratoria fue de 2 por 10.000 y la letalidad de 3%

APÉNDICE 5

¡E

T I P O S D E M U E S T R E O*

En este capítulo revisaremos los siguientes tópicos:

* Definición de muestreo

* Tipos de muestreo

* Tipos de muestreo probabilístico

* Tipos de muestreo no probabilístico

Estrategia: Mediante un ejemplo hipotético, se hará la conceptualización general de los tipos de muestreo probabilístico.

Se usarán ejemplos simples a fin de que las relaciones necesarias se puedan describir e interpretar fácilmente. Si bien son

ejemplos algo artificiales ya que en la práctica pocas veces tenemos distribuciones tan ordenadas, la extensión de los métodos a

situaciones más prácticas, de mayor tamaño y complejidad, resultará clara.

Ejercicios: Tendientes a fijar y aclarar los conceptos. Se harán al final del capítulo. Se hará un taller de manejo de la tabla de

números aleatorios.

1. Definición de muestreo.

Es la operación para tomar una muestra del Universo

El objetivo del muestreo es contar con los datos necesarios para estimar parámetros en la población, es decir poder hacer una inferencia

estadística con la mayor confiabilidad posible.

* Corresponde al Capítulo 4 deKageyama M.L., Sanín L.H., Romieu I. Manual de Muestreo Poblacional: Aplicaciones enSalud Ambiental. Metepec, México. Centro Panamericano de Ecología Humana y Salu. ECO/OPS/OMS. 1997.

¡E

Una vez definida por el investigador el tamaño de la muestra (n), mediante técnicas que veremos más adelante (CAPITULO

VI), él mismo se enfrenta al problema de cómo obtener esa muestra de la forma que sea más útil para los fines que persigue y por

supuesto, que le rinda la mejor relación costo-beneficio. Esas diferentes formas o maneras de seleccionar la muestra son conocidas

como "tipos" y en un sentido amplio son sólo dos.

2. Tipos de muestreo.

* Muestreo probabilístico

* Muestreo no probabilístico

2.1 Muestreo probabilístico

2.1.1 Probabilidad. Es la medida del grado de ocurrencia de un suceso. Siempre es un número entre cero y uno y se define como el

cociente entre el número de resultados favorables al suceso y el número total de resultados posibles. Ej: Una moneda tiene dos lados,

el número de posibles resultados al lanzarla al aire es 2. La probabilidad de que el resultado sea águila es 1/2 = 0.5.

2.1.2 Definición. Es el tipo de muestreo en el cual cada unidad del universo tiene una probabilidad conocida y diferente de cero, de ser

incluida en la muestra. Recordemos que la muestra, además de dar las estimaciones de las características de la población , debe

proporcionar medidas de la precisión de tales estimaciones. Esas medidas de la precisión se podrán usar para determinar el error

máximo que razonablemente puede esperarse en esas estimaciones si el procedimiento se cumple en la forma especificada y si la

muestra tiene el tamaño suficiente. No se puede estimar la precisión a menos que la selección (tipo de muestreo) se efectúe de tal modo

que se conozca la probabilidad de selección de cada unidad y se utilice algún tipo de muestra probabilística.

Hay varios tipos de muestreo probabilístico y a ellos nos referiremos con más detalle en este capítulo. El muestreo

probabilístico permite estimar parámetros para el universo, es decir INFERIR.

2.2 Muestreo no probabilístico

La probabilidad de las unidades del universo para ser incluidas en la muestra se desconoce o, existen de antemano unidades

con probabilidad cero. Este tipo de muestreo, por supuesto, no permite la aplicación de las técnicas de la inferencia estadística para

sacar conclusiones acerca del Universo. Es necesario, sin embargo, destacar la existencia de situaciones, muy especialmente en el área

ambiental, en las cuales lo único razonable es optar por este tipo de elección en lugar de un método probabilístico, por ello

dedicaremos una parte de este capítulo al análisis de este apartado.

¡E

3. Tipos de muestreo probabilístico.

* Muestreo Aleatorio Simple

* Muestreo Sistemático

* Muestreo Estratificado

* Muestreo de Conglomerados

* Diseños Complejos

(Mixtos, Polietápicos, etc.)

3.1 Muestreo aleatorio simple (MAS).

Se da este nombre al tipo más sencillo de muestreo probabilístico.

3.1.1 Definición. Procedimiento de selección de una muestra mediante el cual cada subconjunto de tamaño n de la población

tiene la misma probabilidad de ser seleccionado, es decir ninguna combinación de n elementos tiene más probabilidad de ser

seleccionada que otra, siendo esta probabilidad igual a:

1

Ejemplo 4.1 Vamos a suponer la existencia de una hipotética población agrícola a la cual llamaremos Pavarandocito.

Es esta una población en la cual por sus características agrícolas y epidemiológicas, dado que es una región palúdica y con

antecedentes de haber presentado casos de fiebre amarilla en el pasado, se han usado ampliamente, diversos tipos de compuestos

químicos. Recientes hallazgos de investigación hacen sospechar la relación de uno de estos compuestos con una patología

específica en la población escolar, razón por la cual se desea estudiar una muestra de tamaño n, de los niños entre 6 y 12 años de

edad con el fin de aplicarles una entrevista, realizarles un examen físico y tomarles una muestra de sangre para la determinación

de un biomarcador, específicamente relacionado con el compuesto químico en cuestión (Nótese que igual pudiera tratarse de una

población con alta contaminación ambiental por partículas o un pueblo minero etc., es decir, el ejemplo es válido para muchas

otras circunstancias de interés ambiental).

La población de escolares en esta población es de 10,000 niños(N) y el tamaño de muestra a seleccionar se ha

establecido en 400 niños (n) (Según el procedimiento explicado en el capítulo VI). El pueblo tiene cuatro grandes zonas

determinadas por su ubicación geográfica , sus características socioeconómicas y, por supuesto, diferentes características en

¡E

cuanto al uso de los compuestos químicos en cuestión; en cada una de estas zonas hay 50 escuelas primarias con un total de

cincuenta niños cada una (Ver esquema anexo de la población de Pavarandocito 4.1 y 4.1.1).

De la teoría de probabilidades nosotros sabemos que el número de subconjuntos diferentes de n elementos, de un

conjunto N es

2 (4.1)

Lo cual, en el caso de Pavarandocito, nos arroja un número que no cabría en esta página y el cual no nos interesa, ya que lo

que nos importa es que cualquiera de esos subconjuntos (muestras) de elementos tenga la misma probabilidad de ser seleccionado.

3.1.2 Procedimiento.

Es necesario contar con un marco muestral muy completo el cual tenga un listado de 1 a 10,000, de cada uno de los niños

que asisten a las escuelas primarias de dicha población. Hay varias opciones:

3.1.2.1 Primero hacer una fichita con cada nombre, meter las fichitas en una bolsita y, utilizando el método de la lotería, sacar las 400

fichas necesarias para completar nuestra n, en un muestreo sin reemplazo, en este caso concreto.

3.1.2.2 Utilizar una tabla de números aleatorios y mediante un procedimiento sin reemplazo, completar los 400 elementos necesarios a

nuestros fines. Al final del capítulo se presenta el instructivo No. 4.1 “Uso de la tabla de dígitos aleatorios” con un ejemplo basado en

la tablas 4.1 “Tabla de dígitos aleatorios” y tabla 4.2 “Valores de plomo en sangre en 325 mujeres puérperas de la Ciudad de México”.

3.1.2.3 Tener este marco muestral como una base de datos en una computadora y solicitarle a la misma una muestra del tamaño

deseado, utilizando el paquete apropiado (STATA 3.1, 1992 por ejemplo). Esto es igual al punto número dos ya que la cómputadora

hace este trabajo utilizando un procedimiento equivalente al uso de la tabla de números aleatorios.

3.1.3 Ventajas.

Todos los elementos tienen igual probabilidad.

Los cálculos matemáticos son sencillos.

3.1.4 Desventajas.

Se requiere un marco muestral completo y detallado.

¡E

La muestra puede quedar muy dispersa.

Puede ser necesario visitar una localidad por un solo elemento.

3.1.5 Consideraciones especiales:

El MAS no requiere ningún esfuerzo especial para obligar a la muestra a ser representativa de la población; la tendencia a

ese carácter es inherente al proceso mismo, aunque no lo garantiza.

En el MAS, el único camino para reducir el error de muestreo es aumentar el tamaño de la muestra. Sin embargo, antes de

elegir la muestra, si se tiene algún conocimiento acerca de la población, se puede utilizar esa información en la estratificación y así

reducir el error de muestreo. El Muestreo Aleatorio Estratificado (MAE) que veremos más adelante, es una alternativa para el MAS

cuando tenemos la posibilidad de dividir la población en grupos.

3.2 Muestreo Sistemático (MS).

3.2.1 Definición:

Es aquel tipo de muestreo que nos permite obtener la muestra deseada al seleccionar aleatoriamente un elemento de los

primeros k elementos en el marco muestral y después cada k-ésimo elemento hasta completar n.

Ejemplo 4.2 En el caso que nos ocupa en la población de Pavarandocito, nuestra fracción de muestreo es

n/N = 400/10,000 = 4/100 = 1/25 (4.2)

Es decir para completar nuestro tamaño muestral en una forma sistemática, nosotros debemos tomar uno de cada 25

escolares en la ciudad. Este número 25, inverso de la fracción de muestreo, es llamado k (intervalo de muestreo).


La muestra se extrae tomando un número al azar entre 1 y k (con la tabla de números aleatorios) el cual se conoce como

arranque aleatorio y, que para efectos de este ejercicio, diremos que fue el número 11, mismo al que se le va sumando la k, hasta

obtener la muestra deseada.

¡E

Ejemplo 4.3 Veamos de nuestro hipotético marco muestral numerado del 1 al 10,000; ya sabemos que debemos tomar los

niños que aparezcan en la lista con los siguientes números: 11 (arranque aleatorio), 36 (arranque aleatorio más k, es decir, (11+25), 61

(36+25), 86, 111, 136 y así sucesivamente hasta completar la n de tamaño 400 al llegar al niño marcado en el marco muestral con el

número 9,986, suponiendo que todo se hace idealmente.

3.2.3 Ventajas.

Sólo es necesario usar la tabla de números aleatorios una sola vez.

La probabilidad de cada elemento es conocida, diferente a la del M.A.S., pues aquí la probabilidad es 1/k.

Garantiza la distribución de la muestra.

Los cálculos son iguales a los del MAS.

3.2.4 Desventajas.

Es necesario un marco muestral muy detallado.

No sirve si hay algún ordenamiento en el marco muestral o que se presente algún comportamiento periódico. Por ejemplo que se trate

de registros matrimoniales y todos los números impares sean mujeres.

3.3 Muestreo Aleatorio Estratificado (MAE).

3.3.1 Definición.

Es un método de muestreo que consiste en clasificar primero los elementos de la población en grupos (estratos) y

seleccionar luego, en cada grupo, una muestra aleatoria simple, tomando al menos un elemento de cada grupo (por lo general se

necesitan mínimo dos para hacer estimaciones de precisión suficiente y si se quisieran hacer estimaciones por estrato).

Los estratos pueden reflejar distintos grupos de edad, regiones geográficas, sexo, diferente grado de exposición, etc.

Ejemplo 4.4 Los estratos del ejemplo fueron definidos en base a tres criterios: ubicación geográfica, características

socioeconómicas y diferente grado de exposición. Es claro ver que nuestro interés es estimar el parámetro (media del biomarcador)

para cada uno de los estratos, puesto que suponemos diferente riesgo en cada uno de ellos y para la población total. (Esquema 4.1.2)

¡E

En este caso, dado que en aras del ejemplo los estratos son de igual tamaño, podemos hacer una afijación proporcional de la

muestra y tomar 100 niños de cada estrato, ya sea por MAS o por MS. Tendremos así la estimación para cada una de las zonas

(estratos) de Pavarandocito y para la población total.


El proceso que se sigue para establecer los grupos ya mencionados se conoce como estratificación y los distintos grupos se

llaman estratos. Los estratos pueden reflejar regiones geográficas de un país, áreas densa o escasamente pobladas, diferentes niveles de

contaminación o cualesquiera otros grupos.

En la estratificación se agrupan elementos similares a fin de que la varianza dentro de cada grupo sea pequeña; al mismo

tiempo es deseable que las medias de los distintos estratos sean diferentes entre sí. Así mismo, todos los elementos deben de quedar

incluidos en uno y sólo uno de los estratos.

No sólo las grandes encuestas tienen la estratificación incorporada en su diseño, es muy útil por ejemplo en un hospital,

obtener datos para cada uno de los servicios o tener la información para hacer estimaciones por sexo. En el área ambiental la

estratificación cobra gran relevancia por cuanto permite agrupar por zonas de riesgo similar, pero diferentes entre sí. Es muy

importante el criterio experimentado en la definición y selección de los estratos ya que quizá sea este el paso más trascendental en este

tipo de muestreo. Todos los estratos deben quedar representados.

En el MAE no siempre se hace una afijación proporcional de la muestra, ya que pueden tomarse en cuenta otros criterios que

permiten llegar a la llamada "afijación óptima", mediante la aplicación de una tasa de muestreo en cada estrato, proporcional a la

desviación estándar en ese mismo estrato, es decir una especie de ponderación. En ocasiones los costos de obtención de los datos

varían considerablemente de un estrato a otro (ej.: área rural y urbana) y se prefiere concentrar la muestra mayoritaria en el estrato más

económico, considerando la afijación óptima para un "costo fijo", en lugar de un "tamaño de muestra fijo". En otras palabras, se trata

de afijar la muestra entre los estratos de tal forma, que se obtenga el error estándar más bajo, con un presupuesto fijo, para lo cual se

necesita una "función del costo", la cual es una función matemática que expresa el costo de obtener la información en función del

tamaño de la muestra (n). Este es un procedimiento más complejo; el lector interesado puede consultar el texto de Scheaffer (Scheaffer,

1986).

Ejemplo 4.5 Afijación proporcional

(En el caso de estratos de diferentes tamaños).

Supongamos un universo de 10,000 y una muestra de tamaño 400; el universo tiene 3 estratos de tamaño 5,000, 3,000 y

2,000 respectivamente.

Universo N % n

¡E

Estrato I 5,000 50 200

Estrato II 3,000 30 120

Estrato III 2,000 20 80

Total 10,000 100 400

El porcentaje con el que contribuye cada estrato al total del universo, se aplica al tamaño de muestra calculado n y ese es el número de

elementos que debe tomarse en cada estrato.

De tal manera, el estrato I con 5,000 elementos, contribuye el 50% del Universo. La muestra calculada fue de 400. El 50%

de 400 es igual a 200, ese es el número de elementos que debe tomarse del estrato I y así sucesivamente.

3.3.3 Ventajas.

La estimación final del parámetro puede tener un error mucho menor, que el obtenido para una muestra aleatoria simple de tamaño

comparable.

Por lo anterior puede tener una mejor relación costo-beneficio.

Permite estimar parámetros para cada estrato y para la población total.

Asegura la participación de todos los estratos.

3.3.4 Desventajas.

Mayor complejidad de los cálculos

Necesario un marco muestral detallado por estrato.

Criterio muy especializado en la selección y definición de los estratos.

3.4 Muestreo de Conglomerados (MC).

3.4.1 Definición.

¡E

Se llama así a aquel tipo de muestreo, en el cual las unidades de muestreo son agrupaciones o colecciones de elementos

llamadas conglomerados.

Los conglomerados pueden ser hogares, manzanas, fábricas, etc. (Ver Tabla No 4.3 Ejemplos de Conglomerados y esquema

4.1.3).

3.4.2 Consideraciones especiales:

Muchos problemas reales plantean el reto de muestrear ante la ausencia de un marco muestral muy detallado (por ejemplo,

una lista de todos los escolares de Pavarandocito) o con un costo muy elevado en la construcción del mismo. Hay otras ocasiones en

que este marco existe pero el muestreo de conglomerados resulta mucho más eficiente, dadas las economías que reporta en lo que se

refiere a la etapa de campo.

Ejemplo 4.6 En nuestro ejemplo los conglomerados son las escuelas, las cuales agrupan varias unidades de análisis

(escolares). En términos generales la característica que define un conglomerado es su proximidad geográfica, al reunir varios

elementos en una misma área. Un conglomerado no implica necesariamente la homogeneidad que se mencionaba para el estrato y

representa más una facilidad operativa. De hecho, se busca que sean heterogéneos al interior de cada conglomerado y homogéneos

entre si.


En un sentido estricto el muestreo de conglomerados implica que se muestree a todos los elementos incluidos en el

conglomerado muestreado. Si en nuestro ejemplo el conglomerado es la escuela, solo necesitaríamos una lista de las doscientas

escuelas de Pavarandocito, de la cual tomaríamos una muestra de ocho escuelas (ya sea por MAS o por MS) luego de lo cual

estudiaríamos en cada escuela la totalidad de los niños de dicha escuela. Es decir, tenemos un universo de 10,000 elementos, repartidos

en 200 conglomerados (escuelas) de 50 niños cada uno. Como la muestra es de 400, necesitamos un listado de las 200 escuelas y

mediante la tabla de números aleatorios escogemos 8 de ellas, en estos 8 tenemos el total de la muestra (8x50 = 400), por eso hay que

estudiar a la totalidad de los niños de cada escuela.

Hay una variante de este muestreo, que puede quedar también incluida en lo que hemos llamado diseños complejos y es el

conocido como muestreo multietápico o polietápico de conglomerados (bietápico, trietápico, etc.). En esta variante se seleccionan

los conglomerados y puede procederse a una segunda selección dentro de los conglomerados seleccionados y lo mismo en las etapas

que sean necesarias. Así la necesidad de listados se va limitando a aquellas unidades de muestreo que vayan siendo seleccionadas en

cada etapa.

¡E

En este caso la primera etapa podría ser escoger conglomerados y luego dentro de cada conglomerado escoger elementos.

Un caso muy usual es definir los conglomerados como manzanas (de vivienda) y luego dentro de cada manzana elegir viviendas

(Esquema 4.1.4).

Casi todos los países construyen sus marcos muestrales definiendo conglomerados básicos que pueden agruparse o

desagruparse en conjuntos y subconjuntos de los mismos. Ello se verá con mayor detalle en el capítulo VII dedicado a los marcos

muestrales, pero basta señalar el ejemplo de México que ha definido las llamadas "áreas geoestadísticas básicas" (AGEB), las cuales

constituyen un segmento geográfico definido que puede abarcar tanto viviendas como negocios, fincas o terrenos y situarse en una

zona rural o urbana. Un conglomerado puede ser un conjunto de AGEBs o un subconjunto del mismo, según se opere para los fines del

estudio que se esté realizando.

3.4.4 Ventajas.

Disminución en los costos de trabajo de campo.

Poder trabajar en ausencia de listados muy complejos.

3.4.5 Desventajas.

Complicación de los cálculos matemáticos para la estimación de los parámetros (lo cual en los tiempos actuales, con el uso

masivo de las computadoras ha sido obviado, ya que existe un buen número de paquetes computacionales que permiten obtener estos

datos con gran facilidad (SUDAAN, PSDUM (Silva, 1993)) .

Antes de terminar este apartado vale la pena enfatizar la diferencia entre estratos y conglomerados. Los estratos deben ser

tan homogéneos dentro de ellos como sea posible , pero un estrato debe diferir de otro tanto como se pueda en relación a la

característica que está siendo medida. Los conglomerados por su parte deben ser tan heterogéneos dentro de sí mismos como sea

posible, pero similares a los otros para aprovechar las ventajas económicas de su diseño. Los estratos deben quedar representados

todos, es decir contribuir a la muestra. Los conglomerados no tienen que quedar representados todos, pero si uno queda en la muestra

debe ser muestreado totalmente (al menos en el monoetápico).

3.5 Diseños Complejos

En ocasiones la realidad presenta retos que superan los esquemas clásicos presentados aquí, es el caso por ejemplo de las

encuestas nacionales, especialmente en países con una población numerosa.

¡E

Es usual que ante la ausencia de marcos muestrales tan complejos y detallados como los que se requerirían para llevar a cabo

una estrategia simple, se opte por estratificar y luego dentro de cada estrato se definan conglomerados que pueden muestrearse en una

o varias etapas, estos diseños reciben el nombre de mixtos o complejos (Esquema 4.1.5).

Regresemos a Pavarandocito y reflexionemos en las ventajas y economías que representaría la elección de un muestreo

mixto, para nuestra muestra de 400 escolares. Podríamos simplemente tomar 2 escuelas de cada uno de los estratos y examinar la

totalidad de los escolares incluidos en ellas, estaríamos frente a un tipo de muestreo mixto (estratificado y de conglomerados

monoetápico) que simplificaría grandemente las actividades de campo, sin necesidad de un marco muestral complejo, ya que sólo sería

necesario contar con el listado de alumnos de las escuelas incluidas. La visita a una escuela tendría así una relación costo-beneficio

muy satisfactoria puesto que se examina al total de alumnos.

Un ejemplo real de diseño complejo lo constituye la segunda encuesta nacional de salud llevada a cabo en México en 1991 y

cuyo diseño puede consultarse en las publicaciones al respecto. El texto de Silva-Aycaguer (1993) se extiende ampliamente en las

características de este tipo de diseños, por lo cual remitimos a él, al lector interesado en profundizar en este tema.

4. Muestras no probabilísticas.

Pese a la superioridad reconocida de los métodos de muestreo probabilístico, a veces se emplean en su lugar métodos no

probabilísticos, habitualmente para situaciones en las cuales el primero es supremamente costoso o en casos que lo ameritan por la

circunscripción de un problema específico, como suele suceder en algunas contingencias ambientales, en las cuales sólo es posible

muestrear a aquellos sujetos expuestos o en los cuales se sospecha la presencia de alguna situación pre o patológica concreta, en cuyo

caso hablaríamos de un estudio de brote (cluster).

Hay otros casos en los cuales no es posible accesar a la población de origen y se trabaja con los datosque se han podido obtener en un proceso que pareciera el inverso del muestreo. Un ejemplo concreto deeste caso es el que se presenta cuando tenemos datos de un programa de vigilancia epidemiológica (ej.

Vigilancia de los niveles de plomo en el binomio madre-hijo)1 que sin ser una muestra probabilística en el

sentido estricto, nos permite inferir acerca de la población de origen. Una situación similar se presenta en los estudios

analíticos donde importa más la comparabilidad que la representatividad.

Los métodos básicos de muestreo no probabilístico son:

* El muestreo de cuota * El muestreo de juicio (criterio) * El muestreo de sujetos disponibles

¡E

4.1 El muestreo por cuota.

Este empieza con una matriz que describe las características generales de la poblaciónque se desea estudiar. Por ejemplo distribución por edad y sexo, por zona urbana y rural etc. Unavez generada dicha matriz y asignada una proporción relativa a cada una de sus células se asumeque la muestra ha de estar dispersa por toda la población y ha de contener la misma proporciónde individuos con cierta característica, que la población entera. Se establece pues que la muestratenga sus elementos distribuidos por las subclases de tal manera que las proporciones muestralescoincidan con las de la población. Puede asignarse al o los entrevistadores una cuota fija demuestreo con las restricciones que implique la cuota (12 entrevistas, seis en niños y seis en niñaspor ejemplo).

4.2 El muestreo de juicio (criterio)

En el cual se selecciona específicamente un grupo que a juicio del criterio de unexperto, represente adecuadamente a la población en cuanto a la característica quequeremos estudiar. Este es un tipo de muestreo muy importante dado que es el únicorazonable por ejemplo en aquellos casos, en que el tamaño planeado de la muestra esmuy pequeño, sobre todo si el tamaño poblacional también lo es. En la aplicación de estemétodo el experto debe tener suficiente información acerca de la población y sopesar muyconcienzudamente todos los elementos, para elegir aquellos que conformen el modelomás parecido a la realidad. Puede ser muy útil este muestreo pero nunca se le podráaplicar la teoría del muestreo probabilístico.

Ejemplo 4.7 Escoger trabajadores de las gasolineras para estudiar efectos deexposición a hidrocarburos. No pueden aplicarse los resultados a la población general.

4.3. El muestreo de sujetos disponibles (o de conveniencia).

Es el que hace con sujetos que aceptan participar voluntariamente en el estudio,por algún interés personal o por una gratificación económica. Se ha utilizado mucho enclínica, farmacología, toxicología, etc. Ejemplo: estudio de Rabinowitz sobre la cinética delplomo (Rabinowitz, 1979).

Algunos autores hablan de otro tipo de muestreo al que llaman "semiprobabilístico"y que consiste en la selección aleatoria de una unidad muestral, después de lo cual seescogen los elementos a juicio de un experto, por lo cual según nuestro criterio, es deltipo conocido como muestreo de juicio. Se usa en estudios de tipo ambiental yocupacional, en los cuales puede seleccionarse aleatoriamente una o varias unidades demuestreo, por ejemplo: determinadas áreas de trabajo en una fábrica, de cada una deellas escoger los elementos a incluir.

¡E

En general debe recomendarse al investigador que trate con mucha cautela el tipode diseño no probabilístico y que cuando ello sea necesario, se haga cuidando el rigorcientífico.

¡E

Conclusión :

El tipo de diseño a elegir depende pues del problema que se desea resolver y delas facilidades operativas y económicas de que se disponga. Parece una paradoja pueshacemos un muestreo para conocer algo acerca de una población, pero para poder hacerel muestreo bien hecho debemos conocer muy bien la población que queremosmuestrear, pero este conocimiento es mas bien a nivel global que particular.

Ejercicios

1. Enumere las ventajas y desventajas de cada uno de los tipos de muestreo explicadosen este capítulo.

2. Utilizando la tabla de números aleatorios seleccione una muestra de tamaño 50, deluniverso de valores que se anexa en la tabla No. 4.2

3. Utilizando el mismo ejemplo de Pavarandocito, seleccione una muestra de tamaño 800.Para el MAS, solamente mencione los 10 primeros elementos.

4. Mencione qué marco muestral disponible para población general, existe en su país oregión.

5. Usted necesita una muestra de escolares de 6-7 años y de 12-13, para participar en unestudio multicéntrico sobre prevalencia de asma.

¿Qué estrategia podría utilizar en su región específica? ¿De qué marco muestralpodría disponer? ¿Qué fallas tendría dicho marco? Presente las respuestas con unesquema que permita entender la propuesta.

¡E

ESQUEMA No. 4.1

POBLACIONDE PAVARANDOCITO

ZONA I

N1 = 2,500

Escuelas = 50

UG: MontañaNSE: MedioGE: Nula

ZONA II

N2 = 2,500

Escuelas = 50

UG: LlanoNSE: Muy bajoGE: Muy alta

ZONA III

N3 = 2,500

Escuelas = 50

UG: CostaNSE: BajoGE: Alta

ZONA IV

N4 = 2,500

Escuelas = 50

UG: DesiertoNSE: AltoGE: Media

N = 10,000 UG = Ubicación Geográfican = 400 NSE= Nivel Socioeconómico200 escuelas con 50 alumnos cada una GE= Grado de exposición

¡E

INSTRUCTIVO 4.1

USO DE LA TABLA DE NUMEROS ALEATORIOS

Una manera de seleccionar una muestra aleatoria simple es utilizar una tabla denúmeros aleatorios como la que aquí se ilustra. Esta consta de 20 columnas de números,agrupadas de cuatro en cuatro para ayuda visual y 20 renglones agrupados de cinco encinco por la misma razón, (tabla 4.1).

Nuestra población de interés son los 325 valores de plomo en sangre en mujerespuérperas que se indican en la tabla No. 4.2, anexa. Se desea extraer una muestra detamaño 10, utilizando la tabla de números aleatorios.

Como primer paso se debe localizar un punto de partida, lo cual puede hacerse envarias formas, simplemente dejando caer la punta del lápiz sin mirar la hoja, el punto departida será el dígito más próximo a la punta del lápiz. Supóngase que en este caso esepunto corresponde a la intersección del renglón 5 con la columna 9, es decir el dígito 2(Ver tabla).

Dado que se tienen 325 valores para elegir, es necesario seleccionar números detres dígitos y aceptar aquellos que estén comprendidos entre 001 y 325 que es nuestrorango de posibilidades.

El primer número de tres dígitos, iniciando en el punto mencionado y siguiendo unesquema de lectura como el que se usa en la mayoría de los países occidentales (deizquierda a derecha y de arriba hacia abajo) es el número 232, el cual correspondeentonces a nuestro primer elemento de la muestra. Se aclara que se van tomando dígitosde tres en tres pero se incluyen en la muestra sólo los que estén dentro del rango deinterés ya mencionado. En ese entendido los siguientes elementos de nuestra muestraserían los marcados con los números: 033, 219, 026, 045, 094, 132, 058, 106 y 066. Si unnúmero se repite y nosotros estamos haciendo un muestreo sin reemplazo, lo incluimossolamente una vez.

¡E

T A B L A No 4.2

VALORES DE PLOMO EN SANGRE EN 325 MUJERES PUERPERAS DE LACIUDAD DE MEXICO

PLOMO µg/dl

1. 8.1 2. 8.9 3. 9.1 4. 12.9 5. 12.4 6. 6.1 7. 15.9 8. 8.2 9. 7.1 10. 7.8 11. 6.5 12. 8.7 13. 7.0 14. 7.2 15. 5.9 16. 16.9 17. 10.7 18. 16.6 19. 8.0 20. 5.6 21. 11.5 22. 9.7 23. 12.9 24. 3.2 25. 6.3 26. 7.8 27. 4.8 28. 8.2 29. 9.1 30. 8.4 31. 3.2 32. 4.7 33. 12.4 34. 5.3 35. 15.9 36. 6.9 37. 6.6 38. 20.3

¡E

39. 7.6 40. 11.5 41. 5.1 42. 7.8 43. 11.4 44. 14.6 45. 6.3 46. 16.2PLOMOµg /dl

47. 8.8 48. 6.4 49. 10.0 50. 7.4 51. 11.7 52. 17 53. 14.4 54. 10.0 55. 7.9 56. 8.2 57. 8.3 58. 11.3 59. 5.1 60. 23.3 61. 10.0 62. 10.4 63. 6.5 64. 6.4 65. 12.3 66. 5.9 67. 9.3 68. 23.0 69. 11.9 70. 6.6 71. 16.8 72. 4.9 73. 9.6 74. 14.9 75. 11.6 76. 5.6 77. 24.5 78. 9.1 79. 9.2 80. 8.2 81. 9.9 82. 8.1 83. 7.7

¡E

84. 16.3 85. 13.1 86. 17.0 87. 12.0 88. 9.1 89. 9.3 90. 4.2 91. 4.5 92. 4.8PLOMO µg /dl

93. 10.3 94. 5.2 95. 5.4 96. 4.0 97. 7.8 98. 6.3 99. 3.6100. 14.0101. 9.1102. 6.6103. 8.7104. 5.9105. 13.3106. 10.7107. 9.8108. 14.4109. 5.2110. 4.2111. 5.4112. 7.3113. 4.0114. 3.2115. 2.9116. 8.3117. 10.5118. 21.0119. 8.1120. 9.2121. 8.5122. 10.0123. 6.3124. 8.5125. 23.1126. 13.3127. 10.5128. 6.8

¡E

129. 14.4130. 7.6131. 5.9132. 7.4133. 7.4134. 6.4135. 9.3136. 11.9137. 6.3138. 5.0

139. 11.2140. 6.8141. 6.9142. 5.7143. 4.8144. 11.2145. 10.0146. 5.9147. 11.4148. 6.5149. 7.8150. 10.3151. 14.5152. 14.4153. 7.4154. 5.2155. 18.9156. 16.1157. 29.1158. 4.0159. 19.5160. 12.5161. 23.1162. 11.8163. 6.0164. 8.4165. 11.0166. 7.3167. 11.6168. 13.4169. 6.4170. 9.2171. 12.7172. 8.5173. 15.0174. 11.9

¡E

175. 22.4176. 11.7177. 15.8178. 9.2179. 7.4180. 11.4181. 23.9182. 14.3183. 9.8184. 10.6185. 7.0186. 7.9187. 6.8188. 12.4

189. 5.1190. 5.5191. 7.4192. 17.1193. 7.1194. 9.7195. 14.2196. 9.4197. 9.4198. 8.7199. 4.0200. 10.7201. 13.1202. 8.8203. 8.7204. 11.9205. 11.5206. 11.4207. 11.9208. 10.0209. 10.5210. 7.3211. 11.9212. 9.9213. 11.8214. 12.5215. 6.7216. 9.1217. 5.1218. 8.4219. 12.9220. 14.9

¡E

221. 4.9222. 8.9223. 14.2224. 12225. 11.7226. 8.2227. 7.3228. 7.0229. 13.5230. 8.1231. 7.5232. 8.5233. 8.5234. 10.0235. 6.2236. 16.9237. 9.0238. 21.0

239. 9.2240. 5.7241. 9.4242. 6.2243. 6.6244. 12.3245. 8.7246. 8.1247. 5.6248. 7.9249. 6.3250. 5.8251. 5.9252. 16.5253. 11.7254. 9.5255. 7.9256. 6.3257. 10.9258. 11.1259. 9.1260. 6.2261. 8.8262. 7.3263. 9.7264. 9.2265. 10.8266. 7.0

¡E

267. 6.3268. 14.3269. 15.4270. 6.9271. 8.6272. 4.4273. 8.0274. 9.0275. 4.4276. 7.7277. 7.2278. 18.7279. 7.3280. 7.9281. 8.9282. 12.6283. 7.0284. 9.1285. 4.6286. 6.8287. 4.9288. 6.1

289. 5.2290. 7.0291. 8.7292. 15.2293. 5.5294. 6.8295. 9.9296. 5.0297. 11.1298. 9.7299. 12.1300. 5.8301. 4.4302. 7.3303. 7.8304. 4.3305. 5.2306. 8.9307. 9.3308. 7.9309. 7.2310. 4.5311. 6.4312. 7.3

¡E

313. 7.8314. 14.9315. 13.5316. 8.0317. 9.8318. 10.5319. 13.0320. 12.0321. 10.7322. 9.9323. 8.8324. 8.0325. 8.0

¡E

A continuación se presentan los diez elementos incluidos en la muestra consus respectivos valores:

No. Tabla Valor Pb No. Tabla Valor Pb

1. 232 8.5 6. 094 5.22. 033 12.4 7. 132 7.43. 219 12.9 8. 058 11.34. 026 7.8 9. 106 10.75. 045 6.3 10. 066 5.9

¡E

Tabla No. 4.3Ejemplo de conglomerados

Conglomerado Unidad de lista Elemento AplicaciónManzana Casa Persona Estimación del

total de personascon hipertensiónen la ciudad

Condado Hospital Paciente Estimación de laproporción depacientes muertosen hospital en unestado

Escuela Clase Estudiante Estimación de lamedia deescolaridad,obtenida por losalumnos en undistrito

Paquete dejeringas

Jeringa Jeringa Estimación de laproporción dejeringas condefectos

Página de texto Línea de texto Palabra Estimación delnúmero total depalabras en unlibro

Conjunto dearchivos

Folder Cuenta única Estimación delnúmero total decuentas vencidas

Semanacalendario

Día Día Estimación de laproporción de díascon nivel de ozonopor arriba del nivelpermitido

¡E

APÉNDICE 6

TAMAÑO DE LA MUESTRA

1. Introducción

Uno de los primeros aspectos que más nos preocupa cuando estamos planeando realizar una encuesta por

muestreo es qué tan grande será la muestra que necesitamos para obtener estimadores a partir de ella, que sean lo

suficientemente confiables a fin de cumplir los objetivos del estudio.

Para tal efecto y antes de iniciar cualquier encuesta por muestreo, debemos conocer diversos factores que

influyen en la determinación de un tamaño muestral mínimo adecuado que nos permita obtener estimaciones útiles sobre

aquellos parámetros que se desean estudiar. En primera instancia, se presentarán todos los cálculos asumiendo muestreo

aleatorio simple.

2. Factores que influyen en el tamaño de la muestra.

2.1 La Precisión.

En primer término, nos referiremos al grado de precisión que requiere el estimador y que es equivalente a la mitad

del intervalo que se pretende construir; mientras más precisión se imponga más corto será el intervalo que se obtenga y por

consiguiente mayor será el tamaño de la muestra.

Ejemplo 6.1 Supóngase que la característica en estudio es el cadmio en cabello de niños de una localidad “ x” . A

partir de un estudio previo se encontró el rango aproximado está entre 0.002 y 2.544 µg/g de cabello, es decir una amplitud

de 2.542. Por las propiedades de la curva normal, sabemos que el rango equivale aproximadamente a seis desviaciones

estándar (2.542/6=0.424), por lo cual en este caso la varianza (s2) sería 0.4242=0.180

Si la característica de interés es por ejemplo el nivel medio de plomo en sangre en niños, podemos consultar los

registros de estudios anteriores en la misma región, en un proceso análogo al mencionado anteriormente. Si no es posible

realizar este tipo de inferencias es necesario recurrir al estudio piloto.

Considere que la primera especificación es la creación de un intervalo del 95% de confianza basado en la media

muestral mas o menos 0.05 µg/g. Esta restricción conocida como precisión requiere que el 0.05 µg/g sea igual a

1 0;

Asumiendo inicialmente MAS, e ignorando el factor de corrección para poblaciones finitas, tenemos que el

0 , donde S2 es la varianza poblacional, y n’ es la estimación inicial a partir del cual se aproxima el tamaño

muestral, es decir, sin considerar el factor de corrección para poblaciones finitas.

Entonces, sustituyendo el error estándar de la media, encontramos:

0

¡E

y resolviendo para n’, encontramos que:

0 personas. (6.1)

Ejemplo 6.2 Suponga usted que se conducirá una encuesta sobre una población para estimar la proporción de

personas que usan loza vidriada para consumir sus alimentos; considere que la primera especificación es la creación de un

intervalo del 95% de confianza basado en la proporción muestral mas o menos 2%. Es decir, una precisión del 2%

igual a 1.96σp.

Asumiendo inicialmente MAS, e ignorando el factor de corrección para poblaciones finitas, tenemos que el

0 , donde P es la proporción poblacional que usan loza vidriada, Q es la proporción que no lo usa, es decir, Q

= 1-P y n’ es la estimación inicial a partir del cual se aproxima el tamaño muestral, sin tomar en cuenta el factor de

corrección para poblaciones finitas.

Por la precisión fijada, tenemos que 1.96σp=0.02, sustituyendo el error estándar encontramos que:

0

y resolviendo para n’ encontramos que:

0 (6.2)

De principio, podrían obtenerse diversos tamaños muestrales, usando diferentes valores en la precisión y

manteniendo constantes el nivel de confianza del 95% (Z=1.96), una P=0.35 y una Q=0.65.

Tabla No. 6.1

Tamaños muestrales para diferentes valores de precisión, manteniendo constantes el nivel de confianza (95%) ,

una P=0.35 y una Q=0.65

¡E

Precisión Cálculo del tamaño muestral Tamaño de n’

0.010

n’=8740

0.020

n’=2185

0.050

n’=350

0.100

n’=88

2.2 Proporción poblacional

De la fórmula anterior, podemos notar, que necesitamos tener alguna idea de la proporción poblacional, que

puede ser aproximada mediante estudios anteriores, a través de alguna muestra piloto o simplemente y desde un punto de

vista muy conservador, utilizando un valor máximo obtenido para PQ que será cuando P = Q = 0.5

Si la P sugerida esta alrededor de 0.2 a 0.35 la elección más conservadora sería P = 0.35, sustituyendo para n’

tenemos que:

0

Si este tamaño muestral fuera pequeño comparado con el tamaño poblacional, dejaríamos este como el tamaño

muestral requerido; sin embargo, si este no es el caso, debemos tomar en cuenta el factor de corrección y corregir el

tamaño muestral mediante:

0 (6.3)

Ejemplo 6.3 Se puede hacer notar, que el máximo tamaño muestral será cuando P y Q son iguales, es decir

P=Q=0.5, como veremos en la siguiente tabla, en la que se manejarán diversas P’s y Q’s manteniendo constantes la

precisión y el nivel de confianza.

Tabla No. 6.2

Tamaños muestrales para diferentes P’s y Q’s, manteniendo constantes una precisión de 0.02 y un nivel de

confianza del 95% (Z=1.96)

P Q Cálculo del tamaño

muestral

Tamaño de la muestra (n’)

¡E

0.1 0.90

n’=96

0.2 0.80

n’=1537

0.3 0.70

n’=2017

0.5 0.50

n’=2401

0.8 0.20

n’=1537

De la tabla anterior se desprende que el mismo tamaño muestral corresponde para P=0.2 y Q=0.8 que para P=0.8 y Q=0.2

ya que estas proporciones podrían corresponder para el primer caso a la proporción de las personas que usan loza vidriada

y para el segundo a la proporción de los que no la usan y ya que uno es complemento del otro, da lo mismo hacer el cálculo

para cualquiera de las dos proporciones.

2.3 Nivel de Confianza

Hasta aquí, hemos utilizado frecuente un nivel de confianza del 95%, es decir, nuestros intervalos de confianza o

la determinación del tamaño muestral usa un valor de Z=1.96, el cual determina este nivel de confianza.

Sin embargo, podríamos estar interesados en otros niveles de confianza, lo cual modificaría directamente en el

tamaño muestral. Otros niveles de confianza usualmente utilizados son:

Z=1.645 para un nivel de confianza del 90%

Z=2 para un nivel de confianza del 95.45%

Z=2.33 para un nivel de confianza del 98%

y Z=2.575 para un nivel de confianza del 99%.

Ejemplo 6.4 Siguiendo el ejemplo anterior, podemos calcular algunos tamaños muestrales para cada uno de

estos niveles, manteniendo constantes la precisión igual a 0.02, la P= 0.35 y la Q=0.65

Tabla No. 6.3

Tamaños muestrales para diferentes niveles de confianza y manteniendo constantes la precisión igual a 0.02, la

P=0.35 y la Q=0.65

Nivel de Confianza

Valor de Z

Cálculo del tamaño muestral Tamaño de la muestra

aprox.

90% 1.6450

n’=1540

¡E

95% 1.960

n’=2185

95.45% 2.00

n’=2275

98% 2.330

n’=3088

99% 2.5750

n’=3772

2.4 Otros tipos de diseños muestrales

Cuando nuestro diseño es otro que un muestreo aleatorio simple, será necesario modificar este tamaño muestral

multiplicándolo por el efecto del diseño en cuestión con respecto al aleatorio simple. Este diseño de efecto no es mas que la

razón de la varianza del error estándar obtenido con el diseño complejo entre la varianza que se obtendría con un muestreo

aleatorio simple.

Si se pensara utilizar un muestreo estratificado, se requeriría un tamaño muestral mas pequeño que con el

aleatorio simple, debido a las ganancias en precisión que es inherente al proceso de estratificación, es decir el efecto de

diseño tendría un valor menor a 1; sin embargo, esta ganancia es pequeña cuando estimamos un porcentaje con una

estratificación proporcional, de tal manera que la reducción del tamaño muestral será modesta.

Ejemplo 6.5 Si el error estándar obtenido para el consumo de loza vidriada a partir de un muestreo aleatorio

simple resulta ser 0.0102 ( luego entonces la varianza del error estándar es de 0.000104) y de otros estudios anteriormente

realizados se sabe que el uso de loza vidriada es más común para el área rural, donde se encontró con un muestreo

estratificado, una varianza del error estándar de 0.000091, el efecto de diseño resulta ser de:

0

por lo que si se decide efectuar un muestreo estratificado y el tamaño muestral para muestreo aleatorio simple fue de 1907,

se necesitaría un tamaño de (1907)(0.875)=1669 personas en total de ambos estratos; y podría ser el tamaño muestral para

cada estrato proporcional al tamaño del estrato.

Por otro lado, cuando aplicamos un diseño de conglomerados multietápico, ya sea con probabilidad proporcional

al tamaño u otro tipo de selección, implícitamente el proceso conlleva una homogeneización dentro de los conglomerados y

por consiguiente una disminución en la precisión del intervalo, por lo que en este caso el efecto de diseño será mayor de 1 y

por lo tanto el tamaño muestral deberá incrementarse con respecto al aleatorio simple.

Ejemplo 6.6 En una prueba piloto con muestreo de conglomerados en dos etapas se encuentra un error estándar

de 0.01724 (es decir la varianza del error estándar es de 0.0002974), y continuando con la varianza del error estándar para

muestreo aleatorio simple de 0.000104 tenemos que:

¡E

0

por consiguiente, si calculamos un tamaño muestral para el MAS de 1907 personas y estuviéramos pensando en usar un

muestreo bietápico por conglomerados, requeriríamos un tamaño muestral 2.859 veces mayor que el del aleatorio simple;

es decir, (1907)(2.859)=5453 aproximadamente.

2.5 Tasa de no respuesta

Otro factor a considerarse en el cálculo del tamaño muestral es la tasa de no respuesta, por ejemplo, si la tasa de

respuesta es del 75%, el tamaño muestral necesario para alcanzar el requerido será para este ejemplo 1907/0.75 = 2543.

Por supuesto, este es un ajuste para alcanzar el tamaño muestral y de ninguna manera es una garantía para evitar un

sesgo de no respuesta.

Del mismo modo, es importante tomar en consideración los costos de la encuesta relacionándolos con los niveles

de precisión, pues resulta poco práctico efectuar encuestas a bajo costo para obtener intervalos muy amplios para obtener

información.

3. Otras consideraciones

Mientras que los ejemplos anteriores muestran los aspectos principales para el cálculo de la muestra, esto está

muy simplificado, pues en la práctica las encuestas cumplen con varios objetivos, conteniendo un número sustancial de

estimadores y estos a su vez, cubrirán un rango grande de subclases como serían regiones diferentes, diversos grupos de

edad o múltiples grupos educacionales u ocupacionales, lo cual implica realizar varios cálculos para tamaños muestrales y

se aceptará aquél que permita hacer divisiones finas para el análisis por subclases, por lo que en general, podemos decir

que mientras mayor sea el tamaño muestral alcanzaremos una mayor precisión y se podrá conducir un análisis más

detallado.

El tamaño muestral idóneo dependerá de los factores mencionados que junto con el aspecto financiero será aquel

que nos permita realizar interpretaciones útiles de los intervalos obtenidos, por lo que resulta poco práctico efectuar cálculos

con poca precisión o niveles de confianza demasiado bajos debido a un financiamiento limitado, ya que el alcance de

nuestras inferencias será pobre.

4. Tamaño de muestras para la comparación de dos medias o dos proporciones en dos poblaciones en estudios

transversales.

Hasta aquí se ha incluido el diseño de encuestas por muestreo refiriéndose básicamente a una sola población.

Cuando se trata de estudios comparativos que involucran dos poblaciones como en el caso de los diseños epidemiológicos

transversales, de casos y controles, estudios de cohorte, ensayos clínicos, etc., es necesario hacer consideraciones

referentes a los tipos de error (Tabla No.6.4).

¡E

Tabla 6.4

Tipos de error según la situación verdadera de la hipótesis nula.

Decisión hecha

Ho no rechazada H

o rechazada

Situación Ho verdadera Sin error

(1-α)

Error Tipo I (α)

real Ho falsa Error tipo II

(β)

Sin error (Poder=1-β)

4.1 Poder estadístico de la muestra (1-ββ) que es la capacidad de la misma para detectar una diferencia de los parámetros

de las poblaciones cuando ésta existe y se expresa en términos de porcentaje, como el complemento del Error tipo II o Beta

que no es más que la probabilidad de aceptar una hipótesis nula cuando ésta es falsa.

4.2 Nivel de significancia (αα) que corresponde a la probabilidad de rechazar una hipótesis nula (ho) cuando ésta es

verdadera.

La figura 6.1 ilustra los principios básicos de estos conceptos. Si se postula una hipótesis nula verdadera, esto

implica que no hay diferencia de los parámetros entre las dos poblaciones estudiadas, es decir la diferencia de los

parámetros es igual a 0 (d=0), α sería la probabilidad de rechazar ho cuando es verdadera y d

c denota el valor de la

diferencia que es significativo desde d a un nivel de significancia α. Por otro lado, cuando ho

es falsa, esto es, existe

diferencia entre los parámetros poblacionales, el valor real de la diferencia de las medias o de las proporciones estudiadas

es diferente de 0 (d*≠ d), entonces el área que queda a la izquierda de dc representa la probabilidad de aceptar la hipótesis

nula cuando ésta es falsa (Error tipo II o β) y el área a la derecha corresponde a la probabilidad de rechazar la hipótesis

nula cuando ésta es falsa representando el poder de detectar la diferencia (o asociación).

¡E

d denota el valor de la hipótesis nula

d* denota el valor de la hipótesis alterna

dc es aquel valor que es significativo al nivel de significancia α

Por consiguiente dc puede ser expresado como d + Z

α/2σ

d ó equivalentemente d* + Z

βσ

d* donde:

Zα/2

es el valor de Z correspondiente a la posición de dc

según el nivel de significancia seleccionado, sobre la distribución

alrededor de d y donde la diferencia de los parámetros puede ser positiva o negativa.

Zβ denota la posición de d

c según el nivel de β seleccionado, sobre la distribución alrededor de d* y σ

d y σ

d* son lo errores

correspondientes de cada distribución.

Puesto que los valores de Zα/2

y Zβ

son ampliamente utilizados, se presentan aquellos mas usuales y para diferentes

niveles.

Tabla No. 6.5

Valores de Zα/2

y Zβ

para diferentes niveles de error.

Niveles de Error Zα/2

Zβ

0.01 2.58 2.33

0.02 2.33 2.05

0.05 1.96 1.645

0.10 1.645 1.28

De este modo, tenemos la siguiente igualdad:

d + Zα/2

σd

= d* + Zβ

σ d*

Debido a que los errores estándar son generalmente cercanos en valor, y mediante un poco de álgebra podemos

resolver esta ecuación para obtener una buena aproximación del tamaño muestral para un estudio transversal:

Si se trata de diferencia de medias :

0

Si es diferencia de proporciones:

0

donde:

d* es el valor de la diferencia en proporciones o medias (es decir, la magnitud de la

diferencia que el investigador desea detectar).

¡E

n el número de individuos expuestos estudiados.

r el cociente del número de individuos no expuestos estudiado, entre el

número de individuos expuestos estudiados.

σ desviación estándar en la población para una variable continua.

p1

proporción de individuos expuestos quienes tienen la consecuencia

(enfermedad).

p0

proporción de sujetos no expuestos quienes tienen la consecuencia

(enfermedad).

0 0 = promedio ponderado de p1 y p

0

Ejemplo 6.7 Para ilustrar el cálculo del tamaño muestral para diferencia de proporciones considere un estudio para evaluar

si fumar durante el embarazo está asociado con un incremento en la prevalencia de bajo peso al nacer del recién nacido.

Se conoce de estudios anteriores que por cada mujer que fuma durante el embarazo hay alrededor de 3 que no lo hacen,

por lo tanto, en un estudio donde los sujetos se seleccionan aleatoriamente sin considerar los hábitos de fumar,

encontramos una r = 3, una proporción de fumadoras del 25% y una proporción de no fumadores del 75%. Además las

encuestas reportan una prevalencia de bajo peso al nacer (es decir, recién nacidos de 2500 gr o menos) de 7%. Suponga

que la diferencia a detectarse que se considera de interés entre los grupos expuestos en la proporción de recién nacidos

con bajo peso al nacer es de 8% (d* = 0.08).

Si el nivel de significancia es del 5%, entonces el valor correspondiente de Z es 1.96 y el poder es de 90% el valor

que corresponde de Z es 1.28. Utilizando la fórmula para diferencia de proporciones tenemos que:

0= 142.4

Se estima que aproximadamente 143 recién nacidos de fumadoras tienen que ser incluidos en la muestra junto

con 429 recién nacidos de no fumadoras, es decir, un tamaño global de 572 recién nacidos.

Ejemplo 6.8 Suponga usted que se requiere calcular un tamaño muestral para realizar un estudio cuyo propósito es

comparar el nivel de plomo en hueso entre los sujetos que usan loza de barro vidriada y aquellos que no lo usan. Por

estudios anteriores, se conoce que la media de plomo entre aquellas personas que no lo usan es alrededor de 9.25 µg/g de

hueso y la media de plomo entre aquellas personas que lo usan es de 16.01. Además se sabe que la varianza de plomo en

hueso es de 103.18 y que por cada persona que usa loza vidriada hay otra que no lo usa, por consiguiente r=1. Si se

quisiera detectar una diferencia de 3 unidades con un nivel de significancia del 5% y una potencia del 95%, el tamaño

muestral requerido para este ejemplo sería calculado como sigue:

¡E

0=238.4

De este modo, el tamaño requerido, resulta ser de 239 personas que usan loza vidriada y otro tanto que no lo usa,

es decir, se requiere un tamaño global de 478 personas, bajo las especificaciones señaladas.

Los ejemplos anteriores se reducen a presentar el cálculo del tamaño muestral para estudios transversales, es

decir, cuando las características bajo estudio son obtenidas en un solo momento; sin embargo, existen otros diseños

epidemiológicos como casos y controles que requieren considerar definiciones específicas para un adecuado cálculo

muestral.

5. Errores frecuentes en la estimación del tamaño muestral.

5.1 El tamaño de la muestra depende principalmente del tamaño del universo. Es una práctica común elegir un tamaño

muestral como un porcentaje de la población, por decir, el 10%. Esta decisión no es justificada, pues como se revisó, está

más influenciado por la precisión, el nivel de confianza y la proporción de la característica más que por el tamaño de la

población.

La eficiencia de la muestra depende más bien de su número absoluto y no del valor proporcional con respecto al

universo.

5.2 Hacer toda una etapa de muestreo probabilístico y luego no hacer los cálculos correspondientes para el error estándar y

para la construcción del Intervalo de Confianza, limitándose a la descripción de el estimador muestral.

5.3 Hacer reemplazos no planeados puede alterar la estructura probabilística del muestreo al alterar la probabilidad de

ciertas unidades, por lo que si se llegaran a efectuar deberá considerarse la probabilidad de cada elemento de quedar en la

muestra.

5.4 Aplicar un diseño complejo para seleccionar la muestra y analizar como en un muestreo aleatorio simple. Este ha sido

un error que se comete frecuentemente por la facilidad de las fórmulas del MAS, las cuales no toman en cuenta las

variaciones de diseño, provocando errores en el cálculo del intervalo de confianza y por consiguiente errores en su

interpretación.

Ejercicios.

1. Calcule el tamaño muestral del ejemplo de plomo en mujeres, si la proporción encontrada hubiese sido del 30%. Utilice

los datos de los tres investigadores incluidos en el cuadro. Comente cómo afecta este cambio el tamaño muestral.

2. Calcule un tamaño de muestra para la población de Pavarandocito, sabiendo que la desviación estándar del biomarcador

en cuestión es de 564 Unidades Internacionales. Haga el cálculo con un nivel de confianza del 95% y del 99%. Precise

usted el error que aceptaría y déjelo fijo en ambos cálculos.

3. Que ocurriría con la n anterior si el diseño es complejo y se espera una tasa

de no respuesta del 20%.

¡E

APÉNDICE 7

ANÁLISIS DE DATOS

1.1 Medidas de asociación. El riesgo relativo y la razón de productos cruzados son medidas relativas, que dan una

idea de la magnitud de la asociación que se está estudiando; sin embargo, estas medidas no indican el impacto absoluto

que el factor de estudio puede tener en la población.

Riesgo relativo o razón de riesgo (RR), compara en dos grupos el riesgo de algún evento de salud, enfermedad o muerte.

Los dos grupos son diferentes en cuanto a factores de riesgo tales como la exposición al agente en estudio (por ejemplo,

exposición o no a contaminantes ambientales).

Enfermedad

Exposición

Sí No TOTAL

Expuestos a b E1

No expuestos c d E2

Total X1

X2

XT

El RR nos dice cuantas veces ocurre el evento en estudio en el grupo de expuestos comparados con el de no expuestos.

Se lo puede calcular mediante tasas de incidencia acumulada, incidencia real y de prevalencia. Un valor de RR de 1 indica

riesgo idéntico en los 2 grupos, un valor mayor de 1 habla de un incremento en el grupo numerador (expuestos), mientras

que un valor menor de 1 indica un decremento en el riesgo del grupo expuesto o quizás muestre un efecto protector del

factor de exposición bajo estudio.

RR = Tasa de ataque o incidencia en expuestos/tasa de ataque o incidencia en no expuestos

RR = (a/E1

)

----------

(c/E2)

Razón de productos cruzados (RPC) es un estimador insesgado del riesgo relativo, es decir, sobrestima al RR. Se

utiliza cuando no es posible estimar la incidencia de una enfermedad o condición de salud.

¡E

RPC = ad/bc

a = el número de personas con la enfermedad y con la exposición de interés.

b = el número de personas sin la enfermedad y con la exposición de interés.

c = el número de personas con la enfermedad y sin la exposición de interés.

d = el número de personas sin la enfermedad y sin la exposición de interés.

Riesgo Atribuible (RA) o Diferencia de Riesgo (DR): nos habla de la magnitud absoluta del cambio en los

expuestos, es decir, del número de personas enfermas entre los expuestos que se puede atribuir a la exposición. Mide la

diferencia entre la tasa de incidencia de la enfermedad en el grupo expuesto menos la tasa de incidencia del grupo no

expuesto.

RA = a/E1 - c/E

2.

1.2 Medidas de impacto: Son proporciones que reflejan la contribución esperada de un factor bajo estudio a la

frecuencia de la enfermedad en una población particular y derivan tanto de las medidas de frecuencia como de las de

asociación. Se utilizan para estimar la proporción de casos observados en una población que son debidos al factor bajo

estudio, y para predecir el impacto o cambio en el estado de salud de una población como consecuencia de una

intervención.

Riesgo atribuible porcentual en población expuesta (RA%):

RA%=Tasa Incidencia Expuestos - Tasa Incidencia no Expuestosx100

Tasa Incidencia Expuestos

Riesgo atribuible poblacional porcentual (RAP%):

RAP% = Tasa Incidencia Global-Tasa Incidencia no Expuestos x 100

Tasa Incidencia Global

Tasa Incidencia no Expuestos = c/E2

Tasa Incidencia Global = X1/X

T

Fracción etiológica (FE) o fracción atribuible (FA): mide en los expuestos la cantidad (porcentaje) del riesgo absoluto que es

atribuible a la exposición. Se puede interpretar como la proporción de casos que podrían no haber ocurrido si la exposición

hubiera estado ausente (% de reducción en el número de casos). Se asume que hay relación causal.

¡E

Diferencia de Riesgo

FE = ---------------------------------------------------------- x 100

Tasa de incidencia en expuestos

Ejemplo: Asociación entre exposición ocupacional a fosfina y mutaciones genéticas.

Tasa de incidencia en expuestos a fosfina = 0,71

Tasa de incidencia en no expuestos a fosfina = 0,14

RR = 0,71 / 0,14 = 5,1

DR = 0,71 - 0,14 = 0,57

FE = 0,57 / 0,71 = 0,803 X 100 = 80,3%

1.3 Pruebas de significancia estadística. Cuando se realizan investigaciones y aún en la vida cotidiana, se tienen que

tomar decisiones. En el trabajo científico, las decisiones tienen carácter de hipótesis de comprobación. Estas

comprobaciones son hechas comparando las variables de interés de dos o más poblaciones o muestras y, dependiendo del

tipo de escala en la que se mida la variable, se utilizan las diversas pruebas estadísticas.

Las pruebas estadísticas que hacen uso del modelo de probabilidad normal se conocen como pruebas paramétricas de

significación.

Distribución normal: La distribución de probabilidad continua más importante es la distribución normal o de Gauss, que

gráficamente es una distribución en forma de campana, simétrica al promedio aritmético. Muchas variables siguen una

distribución normal, y tienen una función central en pruebas estadísticas de hipótesis.

Dos distribuciones normales con diferentes promedios o medias aritméticas, pero la misma varianza o desviación estándar,

se diferenciarán en la localización pero no en la forma (Figura 1).

Dos distribuciones normales con igual promedio, pero diferentes varianzas o desviaciones estándares, tendrán la misma

localización, pero tendrán diferentes formas o amplitudes en relación al valor promedio (Figura 2).

La población incluida por una desviación estándar (DS o S) a cada uno de los lados del promedio de una población

distribuida normalmente, incluye al 68,26% de las observaciones de esa población; 2 DS para cada lado incluyen al 95,46%

de las observaciones; y 3 DS incluyen al 99,99% de las observaciones de la población (Figura 3).

Un principio fundamental para la distribución normal es el teorema del límite central, que enuncia que sin importar lo que

haga la distribución subyacente (de la variable de interés particular), la muestra promedio tendrá una distribución normal si

el tamaño de la muestra es lo bastante grande (n>30).

La certeza con que se estima la población promedio aumenta con el tamaño de la muestra; mientras que el error estándar

del promedio disminuye con el incremento de la muestra.

- Prueba de hipótesis: Es un procedimiento objetivo que debe basarse tanto en la información obtenida al investigar,

como es el margen de error que estemos dispuestos a aceptar si nuestro criterio de decisión con respecto a la

hipótesis resulta incorrecto. En epidemiología, se trata de una proposición acerca de la relación entre agente,

huésped y ambiente, que se puede aceptar o rechazar a través de estudios que utilizan métodos analíticos.

¡E

Procedimiento:

Formulación de la hipótesis nula (Ho) y alterna.

La hipótesis estadística define las variables o características a estudiar.

Ho = A=B

Hi = A≠B

Ho: la hipótesis nula es la afirmación aritmética del parámetro bajo estudio, aceptando como mínimo el valor cero.

A = B A < B A > B

Ha: La hipótesis alterna es una afirmación aritmética contraria a la hipótesis nula; es la hipótesis de trabajo.

Elección de la prueba estadística, con un modelo asociado para probar o rechazar Ho con una prueba adecuada según el

tamaño de la muestra, y las características y comportamiento de la variable.

Especificación del nivel de significancia. El valor de "p" indica en términos estadísticos, la probabilidad de obtener la

estadística observada o un valor más extremo, bajo la hipótesis nula.

Usualmente el valor de "p" tiene que ser igual o menor a 0.05 (es el margen de error del 5%) para concluir que los

resultados son significativos, es decir, que cada vez que se repita la investigación los resultados serán semejantes en un

95% de las ocasiones.

Definir el criterio o región de rechazo. En las diferentes pruebas estadísticas se estima de distinta manera esta región.

Cálculo de la prueba estadística e interpretación.

El investigador debe comprender 5 puntos acerca del nivel de significancia:

El nivel de significancia indica la probabilidad de cometer el error tipo I o α, es decir, rechazar la hipótesis nula siendo ésta

verdadera.

La probabilidad de que una prueba estadística produzca un valor conforme por el cual la hipótesis de nulidad sea aceptada,

cuando en realidad es falsa, queda comprendido como error tipo II o β.

La potencia de una prueba (1-β), mide la probabilidad de rechazar acertadamente la Ho.

La potencia está relacionada con la naturaleza de la prueba estadística elegida.

En términos generales, la potencia de una prueba estadística se incrementa al aumentar el tamaño de la muestra.

En general, ni la prueba de hipótesis ni la inferencia estadística conducen a la demostración de una hipótesis, sino que

simplemente indican si la hipótesis es apoyada o no por los datos que se dieron. Por lo tanto cuando no es posible rechazar

una hipótesis nula, no se dice que es verdadera, sino que se acepta la hipótesis alterna, o se reserva el juicio.

¡E

1.4 Prueba t de Student. En la investigación médica frecuentemente se trabaja con muestras cuantitativas pequeñas

(número < 30) en las que, al querer compararlas entre sí o con valores teóricos, resulta engañoso observar que las

diferencias encontradas son debidas a un error de muestreo, por lo que se recurre a utilizar la prueba t para comparar la

diferencia entre medias aritméticas.

Tipos de pruebas t

Prueba de t para un promedio → Un promedio poblacional

t pareadas o relacionadas. → Muestras pareadas

Prueba t para igual o diferente → Muestras independientes

número de sujetos por grupo. varianzas homogéneas o

heterogéneas.

La distribución t tiene ciertas características:

- Es simétrica respeto a su media.

- Contiene en su punto central a la media, la moda y a la mediana.

- En general la desviación estándar de t es mayor que la desviación estándar de la distribución normal.

- La curva de t es más baja y más ancha.

Condiciones para utilizar prueba t:

- Que la variable sometida a análisis (dependiente) sea cuantitativa, continua o discontinua (discreta).

- Que la distribución de los valores de las variables en la población sea aproximadamente normal.

- Las observaciones de cada población deben ser obtenidas aleatoriamente.

- Supone que las dos muestras tienen la misma varianza de la población subyacente.

Ejercicio: Prueba de hipótesis, uso de t para promedio.

Se obtuvo el peso de 11 niños de 4 años de edad dentro de una guardería. Se desea saber si el promedio de peso de este

grupo difiere con el de la población en general (µ), cuyo valor es 22 kg.

Peso de los niños: 24,8; 21,6; 27,8; 29,9; 30,0; 23,0; 22,0; 22,6; 21,0; 23,4; 27,5.

Peso premedio: 24,87

- Los niños de la guardería tienen diferente peso promedio ( )x que el promedio de peso de la población general

de la misma edad (µ).

Ho= A = B

Ha= A ≠ B

¡E

- Prueba de t

∑(x - x )

n -1

2

tx

S n=

− µ

(n-1 para muestras y N para población)

- ∝ = 0,05 (0,025 bilateral).

- Grados de libertad = n-1 = 11-1= 10

al buscar en la tabla valor de t crítica = t(0,05;10) = 1,8125

- Criterio: Rechazar Ho si t calculada es ≥ o (≠) que t crítica, o sea:

Si t calculada ≥ 1,8123 o ≤ 1,8125

- Cálculo de la fórmula.

t = 24,87 - 22,0 = 2,87 = 2,85

3,34 / √11 1,007

culada > t crítica

2,85 > 1,8125

- Interpretación: se rechaza la Ho. dado que el valor de t estimado es mayor que t de tabla, por lo tanto A ≠ B; es

decir, existe una diferencia significativa entre la media del peso del grupo de niños estudiados con la media del peso de la

población en general (p< 0.05) que puede ser atribuida al azar.

Ejercicio: t pareada.

Se detectó un grupo de fumadores en la consulta externa de una clínica, los cuales fueron canalizados para participar en

una serie de pláticas de educación para la salud. Se comparó el número de cigarros consumidos antes y después de las

pláticas y se encontró lo siguiente:

¡E

Paciente antes (x) A después (y) B

1

2

3

4

5

6

7

8

9

10

28

19

30

40

37

35

25

18

10

33

15

10

25

32

20

30

30

15

0

28

- Se desea saber si la serie de pláticas tiene efecto sobre el tabaquísmo.

Ho = A = B (no hay diferencia de consumo de cigarrillo)

Ha = A > B (disminuye el consumo de cigarrillo)

- Prueba de t pareada. Para mediciones en un mismo sujeto antes y después de una intervención.

td

E E=

. E E

s

n. = d

x y

n=

− ∑∑

- α = 0,05

- Grados de libertad (n-1) 10-1=9

t (0,05,9) = 2,262

- Criterio: Rechazar Ho, si t calculada es > 2,262

- Cálculo

_

t = 7 = 3,7 E.E= 5,98 = 1,89 d= 70 = 7

1,89 √10 10

- Decisión: Se rechaza hipótesis nula dado que t de tabla es menor que t calculada. Por lo tanto, existe diferencia

significativa entre el consumo de cigarrillo antes y después de las pláticas, resultando una disminución en el consumo de

cigarrillo (p < 0,05).

1.5 Prueba de Chi Cuadrada (X2) para independencia u homogeneidad.

Existen muchos datos que se reúnen en la práctica, que no se prestan para ser analizados en términos de la

curva normal de probabilidad, o para los cuales no podemos establecer suposiciones básicas para su aplicación.

Consideremos un estudio en el cual los datos reunidos están constituidos por rangos (por ejemplo, agrupar estudiantes por

¡E

categorías, según su falta de cooperatividad). Los valores resultantes son cualitativos, ordinales, y se distribuyen en un

modelo rectangular.

La prueba de X2 se utiliza cuando se quiere investigar la asociación entre variables categóricas o cualitativas en una

misma población, también cuando interesa investigar si en las diferentes poblaciones estudiadas los valores o categorías de

cada una de las manifestaciones se presentan en la misma proporción.

Fundamento: Si dos variables no están asociadas, la proporción de individuos en cada categoría de una de las variables no

depende de las categorías de la otra; en cambio, cuando están asociadas, repercutirá directamente, porque la proporción

de individuos de cada una de las categorías de una variable depende de las categorías de la otra variable.

Para realizar esta prueba es necesario conocer la distribución de los valores bajo el supuesto de que no hay asociación.

Para ello, se elabora una tabla de contingencia donde se clasifican a los elementos en forma exhaustiva y en categorías

mutuamente excluyentes, para dos o más variables simultáneamente.

El clasificarlas en forma exhaustiva significa que debe haber suficientes categorías para incluir a todos los individuos. Por

otra parte, clases mutuamente excluyentes significa que el mismo individuo no puede quedar clasificado en más de una

categoría.

A partir de los valores de la tabla de contingencia, se calculan los valores que se esperaría encontrar, llamados valores

esperados, bajo el supuesto de no asociación que es la hipótesis de nulidad. La prueba consiste en comparar esos valores

esperados y los valores observados en el estudio realizado, y ver que tanto discrepan unos de otros. Bajo el supuesto de no

asociación, se espera que está discrepancia sea pequeña ya que esta dada por el azar. Para evaluar el tamaño de la

discrepancia se obtiene un valor llamado X2 calculado y se compara con un valor obtenido en tablas de valores críticos de

X2 que ya existen y que son de uso general (distribución X2).

Requisitos:

- Muestras representativas de cada población.

- Observaciones independientes.

- Mediciones efectuadas en escala nominal u ordinal (variables sociodemográficas).

- La clasificación de los individuos debe ser exhaustiva y mutuamente excluyente.

Población ≥ 15, distribución binomial.

Fórmula: X2= Σ ( o-e )2, donde: e = Tc - Tr

e n

Ejercicio: En julio de 1994 fueron reportadas 152 muertes por carcinoma hepático en hombres que trabajaban en una planta

de cloruro de polivinil. Para determinar si el exceso de muerte por cáncer de acuerdo al número esperado se debían al azar,

se aplicó una prueba de X2.

- Hipótesis:

Ho: P1 = P

2 (Proporción de cáncer hepático en población común es igual a proporción del cáncer en los trabajadores).

Ha: P1 ≠ P

2

¡E

- Fijar el nivel de significancia (α), en 0.05 ó en 0.01. Se utilizará α=0,05 (95% de certeza).

- Calcular los grados de libertad a partir de la tabla de contingencia mediante la fórmula:

g.l = (Nº de filas - 1) x (Nº de columnas - 1)

Para una tabla de contingencia de 2x2= (2-1) x (2-1)= 1

Con un grado de libertad y a un α de 0.05, X2 = 3.841.

- Criterio: Rechazar Ho si X2 calculada >3,841. En caso contrario aceptar la hipótesis nula o se reserva el juicio.

- X2 calculada:

Valor

observado

Casos No Casos TOTAL

Expuestos

152 1.313 1.465

No

expuestos

502 7.911 8.413

TOTAL 654 9.224 9.878

Valor esperado:

celda a = 654 x 1.465 / 9.878 = 97

b = 9.224 x 1.465 / 9.878 = 1.368

c = 654 x 8.413 / 9.878 = 557

d = 9.224 x 8.413 / 9.878 = 7.856

¡E

Nota: si en cualquiera de las celdillas se encontrara un valor esperado inferior a 5, no se puede realizar la prueba de X2.

X2 = (152 - 97)2 + (1,313 - 1.368)2 + (502 - 557)2 + (7.911 - 7.856)2

97 1,368 557 7,856

= 31.18 + 2.21 + 5.43 + 3.85 = 39.21

Interpretación: El exceso de muertes es estadísticamente significativo. Debido a que el valor de X2 calculada es mayor que

el valor de X2 de tabla, se considera que hay discrepancia entre los valores observados y esperados. Se dice que hay

diferencias estadísticamente significativas al nivel de significación escogido y se rechaza la hipótesis de nulidad (Ho) que

establece igual proporción para el exceso de muertes.

1.6 Prueba no paramétrica.

Una prueba no paramétrica de significación se define como aquélla en la cual no se hacen suposiciones que conciernan a

la forma de la distribución principal o población y de acuerdo con esto se le conoce comúnmente como una prueba de

significación de distribución libre. Entre ellas se encuentran: prueba de signos de una muestra, prueba de signos con datos

en pareja, prueba de suma de rangos (Prueba de Wilcoxon), prueba H, prueba de Kruskal-Wallis, correlación de rango,

entre otras.

apÉndice 1bvsper.paho.org/acrobat/apendice.pdfe gráfica lineal de escala semi-logarítmica . es...

Documents