apÉndice 1bvsper.paho.org/acrobat/apendice.pdfe gráfica lineal de escala semi-logarítmica . es...
TRANSCRIPT
¡E
APÉNDICE 1
REVISIÓN DE CONCEPTOS EN EPIDEMIOLOGÍA
Epidemiología: Es el estudio de la distribución y determinantes de los estados o eventos relacionados con la salud en las poblaciones y la aplicación de éste
en la prevención y control de los problemas.
Epidemiología ambiental: Es el estudio del impacto de los factores ambientales sobre la presentación de enfermedades u otras condiciones de salud en
poblaciones especificas y la aplicación de ese estudio al control de problemas del salud.
Epidemiología ocupacional: Es el estudio del impacto de los factores del ambientes del trabajo sobre la presentación de enfermedades u otras condiciones
del salud en poblaciones especificas de trabajadores y la aplicación de ese estudio al control de problemas del salud en el lugar de trabajo.
Usos de la epidemiología:
- Describir los eventos de salud ambiental y ocupacional
- Evaluar el estado de salud de la población
- Identificar los factores de riesgo de los expuestos
- Identificar las causas de las enfermedades
- Describir los patrones clínicos de la enfermedad
- Proponer medidas de prevención y control
- Corregir o modificar las medidas iniciales para confirmar o reformular la hipótesis.
Epidemiología descriptiva:
Persona. Las personas se pueden describir en términos de sus características inherentes o adquiridas, actividades y circunstancias bajo las que viven, las
cuales determinan un amplio grado en el que las personas están en mayor riesgo de adquirir enfermedades específicas o de padecer otras
condiciones de salud no deseables:
1. Factores demográficos y sociales: Edad, raza, sexo, ocupación, religión, estado civil, escolaridad.
2. Características adquiridas: Inmunidad, estado vacunal, estado nutricional.
3. Edad: Diferencias en susceptibilidad, diferencias en exposición, actividad fisiológica a nivel tisular que afecta la manifestación de la enfermedad
subsecuente a la exposición.
Tiempo. El análisis de casos en función del tiempo es útil para la formulación de hipótesis, para determinar la fuente de exposición, el modo de difusión y el
agente causal.
1. Al conocer las tendencias de las enfermedades según tiempo, se puede:
- Predecir la ocurrencia de brotes, y así proponer las medidas de control.
- Entender mejor la etiología de una enfermedad y prevenir brotes en el futuro.
¡E
2. Tipos de patrones temporales
- Tendencias seculares
· Cambios durante largos períodos de tiempo (años o décadas).
· Análisis histórico.
· Evaluación de programas.
· Tendencias cíclicas.
- Las tendencias seculares pueden reflejar cambios reales, o los siguientes:
· Cambios en los métodos diagnósticos.
· Cambios en la codificación de certificados de defunción.
· Cambios en la supervivencia.
- Cambios cíclicos:
· Ciclos anuales (estacionales).
· Ciclos con una periodicidad de algunos años (sarampión).
· Ciclos por día, semana, mes, años.
Lugar. Cualquier variable espacial o geográfica que esté relacionada con la ocurrencia del evento de salud. La asociación de la enfermedad con el lugar
implica que los factores de mayor importancia etiológica, están presentes en los habitantes, el ambiente o en ambos: lugar de residencia, nacimiento,
empleo, etc.
El análisis por lugar ayuda a:
- Definir los límites del problema.
- Generar hipótesis sobre transmisión o dispersión del agente, o exposición a factores ambientales.
Tipos de descripción por lugar:
- Mapas.
- Subdivisiones políticas.
- Mapas de factores ambientales.
- Comparaciones internacionales.
- Asociación con factores climáticos y ecológicos, así como índices socioeconómicos, biológicos, y culturales que varían según los países.
- Estudios de inmigrantes.
¡E
APÉNDICE 2
PRESENTACIÓN DE RESULTADOS: TABLAS, GRÁFICAS Y DIAGRAMAS
Tablas
Son series de datos que se encuentran dispuestos en renglones y columnas. Su utilidad consiste en presentar la frecuencia con la que algunos eventos
ocurren en diferentes subdivisiones o categorías de una variable.
Reglas generales:
1. Las tablas deben ser simples. Se prefieren dos o tres tablas pequeñas a una única más compleja, con demasiados detalles o variables. Generalmente
no más de tres variables pueden ser leídas con facilidad.
2. Las tablas deben explicarse por sí mismas.
- Los códigos, abreviaturas o símbolos deben ser explicados en detalle, al pie de la tabla.
- Cada fila y cada columna debe ser identificada en forma concisa y clara.
- Deben proporcionarse las unidades específicas de medida utilizadas en los datos.
- Los títulos deben ser claros, concisos y descriptivos del tema. Deben responder a las preguntas; ¿qué?, ¿cuándo?, ¿dónde?
- El total debe figurar en las tablas.
3. Generalmente, el título de la tabla está separado de la misma por líneas o espacios. En las tablas pequeñas, no son necesarias las líneas verticales
que separan las columnas.
4. Si los datos no son originales, las referencias deben figurar al pie de la tabla.
Fuente: Indicar de dónde se obtuvo la información.
¡E
Gráficas
La gráfica es un método para mostrar datos cuantitativos utilizando un sistema de coordenadas. Hay diferentes tipos de gráficas, como coordenadas
rectangulares, coordenada polar y las de propósitos especiales (tridimensional).
Reglas generales:
1 El tipo más simple de gráfica es siempre el más efectivo. No se deben trazar más líneas ni símbolos en una sola gráfica de los que se puede seguir
fácilmente con la vista.
2. Cada gráfica debe explicarse por sí misma. Por consiguiente, debe estar correctamente rotulada en lo que se refiere al título, fuente, escalas y claves
explicatorias o referencias.
3. La posición del título de una gráfica es cuestión de preferencia personal. Sin embargo, las gráficas que se publican, generalmente llevan el título
encima de la gráfica.
4. Cuando se muestra más de una variable en una gráfica, cada una de ellas debe estar claramente diferenciada por medio de referencias o claves.
5. No se deben mostrar más coordenadas que las necesarias para guiar la vista.
6. La frecuencia se representa generalmente en la escala vertical; el método de clasificación en la escala horizontal.
7. En una escala aritmética, los incrementos iguales en la escala deben representarse en unidades numéricas iguales.
8. La división de la escala debe estar claramente indicada, así como las unidades en las cuales se divide la escala.
Escala aritmética lineal. Es en la que existen distancias iguales a lo largo del eje Y, representando cantidades iguales en cualquier sitio sobre el eje.
Cuando se debe usar:
1. Es efectiva para representar datos recolectados en forma continua en un período de tiempo, como en los movimientos o tendencias a través de los
años o las variaciones en períodos cortos (días, semanas o meses).
2. Son útiles para resumir la forma de una curva epidémica.
¡E
La escala aritmética lineal está específicamente adaptada para:
1. Una serie donde se representan muchos valores sucesivos.
2. Mostrar varias series que deben ser comparadas en la misma gráfica.
3. Posibilitar la lectura rápida o la interpolación.
4. Dar énfasis al movimiento en lugar de a las cantidades reales.
EJEMPLO ESCALA ARITMÉTICA
TENDENCIA DE LOS ABORTOS HOSPITALARIOS
CHILE, 1945 - 1972
Fuente: Anuarios Estadísticos Instituto Estadísticas y Censos y S.N.S.
¡E
Gráfica lineal de escala semi-logarítmica. Es aquélla en la que el eje de la Y es medido en unidades logarítmicas.
Cuándo se debe usar:
1. Es útil al examinar una serie de datos a lo largo de un período de tiempo y el interés está en el cambio relativo (o tasa de cambio) de los valores en
lugar de en la cantidad absoluta de dicho cambio.
2. Es útil cuando se tienen pocos valores extremos.
EJEMPLO DE ESCALA SEMI-LOGARÍTMICA
TENDENCIA HISTÓRICA DE LA EXPECTATIVA DE VIDA
DE 9 PAÍSES DE AMÉRICA LATINA
Fuente: Pattern of Mortality Changes in Latin America Demography: Vol. 6, Nª 3, VIII, 1969.
¡E
Ventajas:
1. La inclinación de la línea indica la tasa de aumento o disminución.
2. Una línea recta indica una tasa constante de aumento o disminución en los valores (si es horizontal, ningún cambio).
3. Dos o más líneas que sigan trayectorias paralelas muestran tasas de cambio idénticas.
4. Los cambios grandes o diferencias en la magnitud de los números se pueden mostrar fácilmente en una gráfica relativamente pequeña.
Histograma. Es una gráfica de frecuencias (datos cuantitativos continuos) distribuidas en grupos de diferentes tamaños. También se conoce como curva
epidémica si la variable del eje X está dada por el tiempo.
Características:
1. El ancho de las barras verticales es proporcional al ancho de los intervalos de clase utilizados.
2. La altura de las barras en un intervalo de clase es proporcional a la frecuencia de ocurrencia del evento en ese mismo intervalo.
EJEMPLO HISTOGRAMA
10
8 AJENOS AL DEPARTAMENTO DE IMPRESIÓN
DEL DEPARTAMENTO DE IMPRESIÓN
6 • CASO ORIGINAL
4
2
•
0
• • • • •
JUL AGO SEP OCT NOV DIC ENE FEB MAR ABR MAY JUN JUL AGO SEP OCT
1972 1973
Polígono de frecuencias. Es útil cuando se desea presentar más de dos series de datos como una distribución de frecuencias. Los datos son presentados en
forma más clara que como histograma, además, tiene amplia utilidad para graficar datos cronológicos.
Se construye marcando los valores individuales de una frecuencia de distribución tomando el punto medio de su respectivo intervalo de clase y uniendo los
puntos con una línea.
¡E
MÉTODO CORRECTO PARA CERRAREL POLÍGONO DE FRECUENCIA
MÉTODO INCORRECTO PARA CERRAREL POLÍGONO DE FRECUENCIA
Diagramas
Son métodos para ilustrar la información estadística usando solamente una coordenada, son apropiados para comparar magnitudes de diferentes eventos o
de componentes de un total.
Propósito del diagrama:
1. Deben representar los hechos en forma fidedigna.
2. Deben ser claros, de fácil lectura y comprensión.
3. Deben estar diseñados y construidos para atraer y mantener la atención.
Gráfica de barras. Su principal uso es el de comparar magnitudes, también se utilizan para mostrar distribución de frecuencias y serie de datos en el tiempo.
1. Tiene celdas, todas con el mismo ancho de la columna, separadas por espacios.
2. Una celda puede contener más de una barra.
3. Las barras pueden separarse opcionalmente con un espacio e ilustrarse distintivamente.
4. Las distinciones deben mostrarse en un letrero.
5. Las barras pueden ser dispuestas en orden ascendente o descendente con respecto a la altura.
6. Pueden colocarse horizontal o verticalmente.
7. Un corte en la escala nunca se debe utilizar, ya que daría lugar a malas interpretaciones.
¡E
EJEMPLO DE GRÁFICA DE BARRAS
PROPORCIÓN DE EMBARAZOS QUE TERMINAN EN ABORTOS
SEGÚN ÁREAS DE INVESTIGACIÓN
BOLIVIA - 1969
Fuente: Condicionamientos socio-culturales de la fecundidad en Bolivia - 1969.
Barras combinadas. Se utilizan para presentar simultáneamente dos o más variables.
Gráfica circular. Utiliza un circulo en el cual se acomodan los datos en forma de sectores según su magnitud, de preferencia valores relativos equivalentes a
la proporción gradual del área circular. Se obtiene multiplicando la proporción (valor 100) correspondiente por 360 y se divide entre 100.
¡E
EJEMPLO DE GRÁFICA CIRCULAR
1er trim.
2do trim.
3er trim.
4to trim.
Diagrama de coordenadas geográficas. Representan la ocurrencia de eventos utilizando mapas. El mapa de puntos y el de áreas o superficies tienen usos en
común; el mapa de puntos muestra por medio de puntos u otros símbolos la localización de cualquier evento que tuvo lugar, o condición existente. Un mapa
de áreas muestra por medio de sombras o áreas con claves, la incidencia de un evento en subáreas o la distribución geográfica de alguna condición.
¡E
EJEMPLO DE DIAGRAMA DE COORDENADAS GEOGRÁFICAS
TASAS DE NATALIDAD SEGÚN REGIONES AMÉRICA LATINA - 1973
Fuente: United Nations Demographic Year Book, 1973
¡E
APÉNDICE 3
MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN
Medidas de tendencia central:
La media, la mediana y la moda son las medidas de tendencia central de una distribución.
_
Media (o promedio) se simboliza x y puede calcularse a partir de la distribución de las frecuencias, sumando los valores de todas las observaciones (xi)
dividida por el número de observaciones (n).
donde:
x = Media aritmética x∑ = Suma de todas las observaciones
n = Número de observaciones
Ejem: x = 7, 16, 3, 12, 8, 3 n = 6
x =+ + + + +
= =7 16 3 12 8 3
6496
8 2.
Cálculo de la media a partir de una distribución de frecuencias:
xfx
n= ∑
x = =5577
8069 7.
donde:
x = Media aritmética x = Valor de una observación
f = Frecuencia de x n = número de observaciones = f
x f fx
64 1 64
65 0 0
66 2 132
67 5 335
68 9 612
69 22 1518
70 16 1120
71 12 852
72 8 576
73 3 219
74 1 74
75 1 75
Total 80 5577
x =x
n
∑
¡E
Mediana es el valor que divide el número de observaciones en dos partes iguales. La mitad de las observaciones tienen valores inferiores o iguales a la
mediana, mientras que la otra mitad tienen un valor mayor o igual a la mediana. Se debe usar cuando la distribución es asimétrica.
Para calcular la mediana de un conjunto de observaciones, primero se ordenan según su valor en la escala de medición. Si n es un número impar, la
mediana será el valor correspondiente a la observación situada en el centro. Si el número de observaciones es par, la mediana será la media de las
observaciones centrales.
La posición de la mediana se obtiene: n + 1
2Ejemplos: 1, 3, 9, 15, 20: Mediana = 9
1, 3, 9, 15, 20, 21: Mediana = 9 15
212
+=
Modo es el valor que ocurre más frecuentemente. Se utiliza raramente en estadísticas de salud pública.
Ejemplos:
3, 3, 7, 8, 12, 16: Modo 3
5, 5, 6, 1, 17, 17, 12: Modo 5 y 17
Reglas para el uso de las medidas de tendencia central para un conjunto de datos:
1. La media se usa para datos numéricos y distribuciones simétricas (no sesgadas).
2. La mediana se emplea para datos ordinales o numéricos con distribución sesgada.
3. El modo se usa para distribuciones bimodales.
4. El uso primario de la media geométrica es para observaciones medidas en una escala logarítmica.
Los puntos siguientes permiten conocer la forma de una distribución sin verla:
1. Si la media y mediana son iguales, la distribución de observaciones es simétrica.
2. Si la media es mayor que la mediana, la distribución está sesgada a la derecha.
3. Si la media es menor que la mediana, la distribución está sesgada a la izquierda.
Medidas de dispersión o variación:.
Es necesario conocer el centro de la distribución y saber algo sobre la variabilidad de las observaciones. Las medidas usadas para describir esas variaciones
son:
Rango es la diferencia entre el valor más alto y el más bajo.
Ejemplos: 7, 16, 3, 12, 8, 3 Rango 13
2, 3, 10, 16 Rango 14
¡E
Percentil es una cifra que indica el porcentaje de una distribución que es igual o menor a esa cifra. El uso más común es para comparar un valor individual
con un conjunto de normas. Se emplean en forma extensa para desarrollar e interpretar tablas de crecimiento físico y mediciones de destreza e
inteligencia, así como para determinar rangos normales de valores de laboratorio.
Valor Máximo = el percentil 100 Mediana = el percentil 50
Cuartiles, la escala se divide en cuartos.
Q1 = Primer cuartil = El percentil 25
Q2 = Segundo cuartil = El percentil 50 = Mediana
Q3 = Tercer cuartil = El percentil 75
Q4 = Cuarto cuartil = El percentil 100
El percentil y los cuartiles son medidas de posición.
Rango intercuartílico, se basa en los cuartiles que son subdivisiones de una distribución en subgrupos iguales ordenados; los deciles son décimos; los
cuartiles, cuartos; los quintiles, quintos; los terciles, tercios; los centiles, centésimos.
Desviación estándar es la raíz cuadrada de la suma de las desviaciones de la media al cuadrado dividida por el número de observaciones (n) menos 1.
La desviación estándar es especialmente útil cuando la distribución a la que se refiere es aproximadamente normal, las medidas de tendencia central
(mediana, media aritmética, modo y punto medio del rango) son iguales. Si se midiera desde la media una distancia de una desviación estándar a cada
lado, se encontraría que el 68.3% de las observaciones caería dentro de esta área bajo la curva. Similarmente si se midiera desde la media una
distancia de dos desviaciones estándar hacia cada lado, se encontraría que el 95.5% de las observaciones caería dentro del área bajo la curva. Si se
midiera desde la media una distancia de 3 desviaciones estándar hacia cada lado, se encontraría que el 99.7% de las observaciones caerían dentro del
área de la curva.
Fórmula para calcular la desviación estándar
Fórmula para Muestra Fórmula para Población
s =(x - x )
n - 1
2∑c =
(x - )
n
2∑ µ
¡E
X X - X d d2
1 1 - 50 - 49 2401
44 44 - 50 - 6 36
45 45 - 50 - 5 25
46 46 - 50 - 4 16
48 48 - 50 - 2 4
48 48 - 50 - 2 4
49 49 - 50 - 1 1
50 50 - 50 0
50 50 - 50 0
51 51 - 50 1 1
52 52 - 50 2 4
52 52 - 50 2 4
54 54 - 50 4 16
55 55 - 50 5 25
55 55 - 50 5 25
100 100 - 50 50 2500
Total 0 5062
Series A = 47.7 Series C = 32.8
Coeficiente de variación Es una medida que permite comparar la dispersión relativa en un tipo de datos con la dispersión relativa en otro tipo de datos. Es la
desviación estándar dividida entre la media por 100 por ciento; produce una medida de la variación relativa con respecto a la media. Una aplicación
frecuente es en pruebas de laboratorio y procedimientos de control de calidad.
Coeficiente de Variación = Desviación Estándar x 100
Media
C Vs
xx. . = 100
Ejemplos:
Serie A: Serie B: Serie C:
C V x. ..
.= =47 7
50100 95 4% C V x. .
..= =
18 37
50100 36 74% C V x. .
..= =
32 8
50100 65 6%
s =5062
15= 337.4666 = 18.3702
¡E
Grupo A: Peso Grupo B: Altura
Media = 145 libras Media = 67 pulgadas
Desviación Desviación
Estándar = 7 libras Estándar = 5 pulgadas
Peso Altura
C.V. = 7 libras x 100 = 4.8% C.V. = 5 pulgadas x 100 = 7.5%
145 libras 67 pulgadas
Uso de las medidas de dispersión:
1. La desviación estándar se emplea cuando también es apropiado el uso de la media, en distribuciones simétricas (no sesgadas) de datos numéricos.
2. Percentiles y rango intercuartílico se emplean en dos casos:
a. Cuando se usa la mediana, es decir, con datos ordinales o numéricos sesgados.
b. Cuando se utiliza la media, pero el objetivo es comparar observaciones individuales con un conjunto de normas.
3. El rango intercuartílico se usa para describir el 50% central de distribución, sin importar su forma.
4. El rango es una medida apropiada para datos numéricos cuando el propósito es enfatizar valores extremos.
5. El coeficiente de variación es útil cuando se quiere comparar dos distribuciones numéricas medidas en escalas diferentes.
Intervalos de confianza se utiliza para estimar las características de variación de una población alrededor de la desviación estándar, la media, el tamaño de la
muestra y la probabilidad especifica de la población. Con el 95% de confianza se calcula:
Limite inferior = x+1.96(n
)σ
Limite superior = x+1.96(n
)σ
σ = Desviación estándar de la población
¡E
APÉNDICE 4
TASAS, RAZONES Y PROPORCIONES
(MEDIDAS DE MORBILIDAD Y MORTALIDAD)
Razón: Es una expresión de la relación entre un numerador y un denominador, independientemente de la base de población de la que se deriven, que
pueden estar relacionados entre sí o ser totalmente independientes. La razón es simplemente el valor que se obtiene al dividir una cantidad entre otra,
por lo tanto, la tasa es también una razón, pero una razón no siempre es una tasa.
Se expresa como: X/Y
Ejemplo: Una universidad tiene 4.000 estudiantes varones y 2.000 mujeres. La razón entre estudiantes varones y mujeres es: 4.000/2.000= 2/1.
Proporción: Es una razón en la cual el numerador está incluido en el denominador. Se lee generalmente como un porcentaje.
Se expresa como: n
N×100
Ejemplo: 500 personas asistieron a una fiesta de la compañía y 50 se enfermaron de una intoxicación, por alimentos contaminados por probable agente
químico. Hubo 32 casos de varones enfermos y 18 casos de mujeres. La proporción de personas enfermas, la proporción de casos de hombres y la
proporción de casos de mujeres, son las siguientes:
Proporción de enfermos: 50/500 = 10 = 0.10
Proporción de casos de varones: 32/50 = 64 = 0.64
Proporción de casos de mujeres: 18/50 = 36 = 0.36
Toda proporción debe ser ≤ a 1.
Tasas: Una tasa mide la probabilidad de la ocurrencia de algún evento particular, como casos o muertes. Es una proporción multiplicada por una base o
constante. Se representa:
X
Yn×10
Tasa cruda o bruta: Hace referencia a una población en general.
Ventajas:
- Medidas de resumen.
- Fáciles de calcularse (ampliamente utilizadas a pesar de sus limitaciones).
Desventajas:
- No toman en cuenta diferencias en la composición de la población.
- Dificultad para interpretar diferencias.
Tasa específica: Hace referencia a un grupo determinado de una población.
¡E
Ventajas:
- Subgrupos homogéneos.
- Tasas detalladas de utilidad para propósitos epidemiológicos y de salud pública.
Desventajas:
- Es problemático hacer la comparación entre numerosos subgrupos de 2 o más poblaciones.
Tasas ajustadas: Cuando se comparan dos o más poblaciones que difieren respecto a algunas características básicas (edad, sexo, raza, estado
socioeconómico, etc.) que influyen de manera independiente en el riesgo de muerte, es necesario hacer una estandarización.
Ventajas:
- Resumen una serie de datos.
- Eliminan las diferencias en la composición de los grupos permitiendo una comparación sin sesgos.
Desventajas:
- Es un índice ficticio
- Su magnitud absoluta va a depender de la selección que se haga de la población estándar y del método de ajuste utilizado.
Una tasa se puede expresar como: X
Yn×10
donde
X = número de eventos o casos
Y = población total en riesgo
10n = base (100; 1.000; 10.000; 100.000; etc.).
Prevalencia puntual: Es la proporción de la población afectada por el problema de salud bajo estudio. El numerador incluye a todas las personas que tienen el
problema de salud en un momento dado, independientemente del lapso de tiempo que haya padecido el problema cada individuo. En el denominador
aparece la población total, tanto las personas a quienes se diagnóstico el problema de salud como las que no han sido afectadas.
Número de casos (nuevos y antiguos) existentes del problema de salud en un momento dado
PP = X 10n
Población total en estudio
Ejemplo: Prevalencia de tabaquísmo entre mujeres de Puerto Rico en 1982. En la estimación de fecundidad y planificación familiar en Puerto Rico, en 1982,
se preguntó a las mujeres de 15 a 49 años de edad: ¿fuma usted actualmente?. La prevalencia puntual de tabaquísmo fue:
¡E
Mujeres que fumaban en la época
PP = de la entrevista = 487 = 15.3%
Mujeres de 15-49 años entrevistadas 3175
Factores que influyen en la tasa de prevalencia
Aumenta por:
Mayor duración de la enfermedad
Prolongación de la vida de los pacientes sin curación
Aumento de casos nuevos (aumento de la incidencia)
Inmigración de casos
Emigración de personas sanas
Inmigración de personas
Susceptibles
Mejor posibilidades diagnósticas (mejor información)
Disminuye por:
Menor duración de la enfermedad
Elevada tasa de letalidad por la enfermedad
Disminución de casos nuevos (disminución de la incidencia)
Inmigración de personas sanas
Emigración de casos
Emigración de personas susceptibles
Aumento de la tasa de curación de casos
Tasa de incidencia: mide la frecuencia o rapidez con la que ocurre una enfermedad o la frecuencia con que se agregan casos nuevos; se calcula siempre
para un período de tiempo dado.
No total de casos nuevos de una enfermedad específica en un intervalo de tiempo
Se expresa como: X 10n
Población a la mitad de dicho intervalo
Ejemplo:
1 julio 1 agosto
¡E
Esto representa 7 casos de enfermedad en una población de 10.000 habitantes durante 1991. Cada línea horizontal representa la proporción de tiempo que
una persona está enferma. La línea comienza con la fecha de inicio y termina en la fecha de recuperación.
1.- Tasa de prevalencia al 1 de julio = 3/10.000 x 100.000 = 30.0
2.- Tasa de prevalencia al 1 de agosto = 4/9.997 x 100.000 = 40.0
3.- Tasa de prevalencia para julio = 7/10.000 x 100.000 = 70.0
4.- Tasa de incidencia para julio = 4/9.997 x 100.000 = 40.0
Tanto la incidencia y prevalencia son medidas de morbilidad (enfermedad), pero difieren en que la incidencia está diseñada para medir los casos nuevos que
se presentan en un período determinado de tiempo y la prevalencia mide el número total de personas que tiene la enfermedad en un momento dado.
Tasa de ataque: tasa de incidencia que se expresa generalmente como un porcentaje, se usa para ciertas poblaciones en particular y se observa durante
períodos limitados de tiempo, como en una epidemia o brote.
Número total de casos nuevos de una enfermedad específica durante un período de tiempo epidémico
Se expresa como: X 10n
Población al comenzar el período
Ejemplo: 96 personas se expusieron a un agente químico (en un alimento contaminado), resultando 26 individuos enfermos en un período corto de tiempo.
Tasa de ataque = 26 enfermos x 100 = 27.1%
96 expuestos
Tasa de ataque secundaria: mide la frecuencia de nuevos casos de una enfermedad durante un período epidémico entre los contactos de casos conocidos.
Número total de casos entre los contactos de caso primarios en un período de tiempo epidémico
Se expresa como: X 10n Pobblación de contacto baso riesgo
Tasa bruta de mortalidad: tiene el inconveniente de que no toma en cuenta que la probabilidad de que una persona muera, varía según su edad, sexo, raza,
clase socioeconómicas y otros factores. No es adecuada para comparar situaciones en períodos de tiempo diferentes o en zonas geográficas distintas.
Número de muertes en un
Tasa bruta de mortalidad = período determinado X 10n Población total promedio
durante dicho período
¡E
Tasa de mortalidad específica por edad y sexo:
Total de muertes en un grupo de edad y sexo
determinado de la población de una zona definida
durante un período determinado X 10n
Población total estimada del mismo grupo de edad y sexo
de la población en la misma zona y durante el mismo período
Letalidad: es una medida de la gravedad de una enfermedad y se define como la proporción de casos que resultan mortales en un período específico.
Número de muertes por una enfermedad
Tasa de Letalidad(%)= en un período determinado X 100
Número de casos diagnosticados de la
enfermedad en el mismo período
Ejemplo: en una región H, con una población de 30,000 habitantes, en 1986, hubo 200 casos de enfermedad respiratoria por contaminación del aire, con 6
defunciones.
Mortalidad por enf. respiratoria = 6 muertes x 10.000 = 2
30.000 hab.
Letalidad por enf. respiratoria = 6 muertes x 100 = 3
200 casos
La mortalidad por enfermedad respiratoria fue de 2 por 10.000 y la letalidad de 3%
APÉNDICE 5
¡E
T I P O S D E M U E S T R E O*
En este capítulo revisaremos los siguientes tópicos:
* Definición de muestreo
* Tipos de muestreo
* Tipos de muestreo probabilístico
* Tipos de muestreo no probabilístico
Estrategia: Mediante un ejemplo hipotético, se hará la conceptualización general de los tipos de muestreo probabilístico.
Se usarán ejemplos simples a fin de que las relaciones necesarias se puedan describir e interpretar fácilmente. Si bien son
ejemplos algo artificiales ya que en la práctica pocas veces tenemos distribuciones tan ordenadas, la extensión de los métodos a
situaciones más prácticas, de mayor tamaño y complejidad, resultará clara.
Ejercicios: Tendientes a fijar y aclarar los conceptos. Se harán al final del capítulo. Se hará un taller de manejo de la tabla de
números aleatorios.
1. Definición de muestreo.
Es la operación para tomar una muestra del Universo
El objetivo del muestreo es contar con los datos necesarios para estimar parámetros en la población, es decir poder hacer una inferencia
estadística con la mayor confiabilidad posible.
* Corresponde al Capítulo 4 deKageyama M.L., Sanín L.H., Romieu I. Manual de Muestreo Poblacional: Aplicaciones enSalud Ambiental. Metepec, México. Centro Panamericano de Ecología Humana y Salu. ECO/OPS/OMS. 1997.
¡E
Una vez definida por el investigador el tamaño de la muestra (n), mediante técnicas que veremos más adelante (CAPITULO
VI), él mismo se enfrenta al problema de cómo obtener esa muestra de la forma que sea más útil para los fines que persigue y por
supuesto, que le rinda la mejor relación costo-beneficio. Esas diferentes formas o maneras de seleccionar la muestra son conocidas
como "tipos" y en un sentido amplio son sólo dos.
2. Tipos de muestreo.
* Muestreo probabilístico
* Muestreo no probabilístico
2.1 Muestreo probabilístico
2.1.1 Probabilidad. Es la medida del grado de ocurrencia de un suceso. Siempre es un número entre cero y uno y se define como el
cociente entre el número de resultados favorables al suceso y el número total de resultados posibles. Ej: Una moneda tiene dos lados,
el número de posibles resultados al lanzarla al aire es 2. La probabilidad de que el resultado sea águila es 1/2 = 0.5.
2.1.2 Definición. Es el tipo de muestreo en el cual cada unidad del universo tiene una probabilidad conocida y diferente de cero, de ser
incluida en la muestra. Recordemos que la muestra, además de dar las estimaciones de las características de la población , debe
proporcionar medidas de la precisión de tales estimaciones. Esas medidas de la precisión se podrán usar para determinar el error
máximo que razonablemente puede esperarse en esas estimaciones si el procedimiento se cumple en la forma especificada y si la
muestra tiene el tamaño suficiente. No se puede estimar la precisión a menos que la selección (tipo de muestreo) se efectúe de tal modo
que se conozca la probabilidad de selección de cada unidad y se utilice algún tipo de muestra probabilística.
Hay varios tipos de muestreo probabilístico y a ellos nos referiremos con más detalle en este capítulo. El muestreo
probabilístico permite estimar parámetros para el universo, es decir INFERIR.
2.2 Muestreo no probabilístico
La probabilidad de las unidades del universo para ser incluidas en la muestra se desconoce o, existen de antemano unidades
con probabilidad cero. Este tipo de muestreo, por supuesto, no permite la aplicación de las técnicas de la inferencia estadística para
sacar conclusiones acerca del Universo. Es necesario, sin embargo, destacar la existencia de situaciones, muy especialmente en el área
ambiental, en las cuales lo único razonable es optar por este tipo de elección en lugar de un método probabilístico, por ello
dedicaremos una parte de este capítulo al análisis de este apartado.
¡E
3. Tipos de muestreo probabilístico.
* Muestreo Aleatorio Simple
* Muestreo Sistemático
* Muestreo Estratificado
* Muestreo de Conglomerados
* Diseños Complejos
(Mixtos, Polietápicos, etc.)
3.1 Muestreo aleatorio simple (MAS).
Se da este nombre al tipo más sencillo de muestreo probabilístico.
3.1.1 Definición. Procedimiento de selección de una muestra mediante el cual cada subconjunto de tamaño n de la población
tiene la misma probabilidad de ser seleccionado, es decir ninguna combinación de n elementos tiene más probabilidad de ser
seleccionada que otra, siendo esta probabilidad igual a:
1
Ejemplo 4.1 Vamos a suponer la existencia de una hipotética población agrícola a la cual llamaremos Pavarandocito.
Es esta una población en la cual por sus características agrícolas y epidemiológicas, dado que es una región palúdica y con
antecedentes de haber presentado casos de fiebre amarilla en el pasado, se han usado ampliamente, diversos tipos de compuestos
químicos. Recientes hallazgos de investigación hacen sospechar la relación de uno de estos compuestos con una patología
específica en la población escolar, razón por la cual se desea estudiar una muestra de tamaño n, de los niños entre 6 y 12 años de
edad con el fin de aplicarles una entrevista, realizarles un examen físico y tomarles una muestra de sangre para la determinación
de un biomarcador, específicamente relacionado con el compuesto químico en cuestión (Nótese que igual pudiera tratarse de una
población con alta contaminación ambiental por partículas o un pueblo minero etc., es decir, el ejemplo es válido para muchas
otras circunstancias de interés ambiental).
La población de escolares en esta población es de 10,000 niños(N) y el tamaño de muestra a seleccionar se ha
establecido en 400 niños (n) (Según el procedimiento explicado en el capítulo VI). El pueblo tiene cuatro grandes zonas
determinadas por su ubicación geográfica , sus características socioeconómicas y, por supuesto, diferentes características en
¡E
cuanto al uso de los compuestos químicos en cuestión; en cada una de estas zonas hay 50 escuelas primarias con un total de
cincuenta niños cada una (Ver esquema anexo de la población de Pavarandocito 4.1 y 4.1.1).
De la teoría de probabilidades nosotros sabemos que el número de subconjuntos diferentes de n elementos, de un
conjunto N es
2 (4.1)
Lo cual, en el caso de Pavarandocito, nos arroja un número que no cabría en esta página y el cual no nos interesa, ya que lo
que nos importa es que cualquiera de esos subconjuntos (muestras) de elementos tenga la misma probabilidad de ser seleccionado.
3.1.2 Procedimiento.
Es necesario contar con un marco muestral muy completo el cual tenga un listado de 1 a 10,000, de cada uno de los niños
que asisten a las escuelas primarias de dicha población. Hay varias opciones:
3.1.2.1 Primero hacer una fichita con cada nombre, meter las fichitas en una bolsita y, utilizando el método de la lotería, sacar las 400
fichas necesarias para completar nuestra n, en un muestreo sin reemplazo, en este caso concreto.
3.1.2.2 Utilizar una tabla de números aleatorios y mediante un procedimiento sin reemplazo, completar los 400 elementos necesarios a
nuestros fines. Al final del capítulo se presenta el instructivo No. 4.1 “Uso de la tabla de dígitos aleatorios” con un ejemplo basado en
la tablas 4.1 “Tabla de dígitos aleatorios” y tabla 4.2 “Valores de plomo en sangre en 325 mujeres puérperas de la Ciudad de México”.
3.1.2.3 Tener este marco muestral como una base de datos en una computadora y solicitarle a la misma una muestra del tamaño
deseado, utilizando el paquete apropiado (STATA 3.1, 1992 por ejemplo). Esto es igual al punto número dos ya que la cómputadora
hace este trabajo utilizando un procedimiento equivalente al uso de la tabla de números aleatorios.
3.1.3 Ventajas.
Todos los elementos tienen igual probabilidad.
Los cálculos matemáticos son sencillos.
3.1.4 Desventajas.
Se requiere un marco muestral completo y detallado.
¡E
La muestra puede quedar muy dispersa.
Puede ser necesario visitar una localidad por un solo elemento.
3.1.5 Consideraciones especiales:
El MAS no requiere ningún esfuerzo especial para obligar a la muestra a ser representativa de la población; la tendencia a
ese carácter es inherente al proceso mismo, aunque no lo garantiza.
En el MAS, el único camino para reducir el error de muestreo es aumentar el tamaño de la muestra. Sin embargo, antes de
elegir la muestra, si se tiene algún conocimiento acerca de la población, se puede utilizar esa información en la estratificación y así
reducir el error de muestreo. El Muestreo Aleatorio Estratificado (MAE) que veremos más adelante, es una alternativa para el MAS
cuando tenemos la posibilidad de dividir la población en grupos.
3.2 Muestreo Sistemático (MS).
3.2.1 Definición:
Es aquel tipo de muestreo que nos permite obtener la muestra deseada al seleccionar aleatoriamente un elemento de los
primeros k elementos en el marco muestral y después cada k-ésimo elemento hasta completar n.
Ejemplo 4.2 En el caso que nos ocupa en la población de Pavarandocito, nuestra fracción de muestreo es
n/N = 400/10,000 = 4/100 = 1/25 (4.2)
Es decir para completar nuestro tamaño muestral en una forma sistemática, nosotros debemos tomar uno de cada 25
escolares en la ciudad. Este número 25, inverso de la fracción de muestreo, es llamado k (intervalo de muestreo).
3.2.2 Procedimiento.
La muestra se extrae tomando un número al azar entre 1 y k (con la tabla de números aleatorios) el cual se conoce como
arranque aleatorio y, que para efectos de este ejercicio, diremos que fue el número 11, mismo al que se le va sumando la k, hasta
obtener la muestra deseada.
¡E
Ejemplo 4.3 Veamos de nuestro hipotético marco muestral numerado del 1 al 10,000; ya sabemos que debemos tomar los
niños que aparezcan en la lista con los siguientes números: 11 (arranque aleatorio), 36 (arranque aleatorio más k, es decir, (11+25), 61
(36+25), 86, 111, 136 y así sucesivamente hasta completar la n de tamaño 400 al llegar al niño marcado en el marco muestral con el
número 9,986, suponiendo que todo se hace idealmente.
3.2.3 Ventajas.
Sólo es necesario usar la tabla de números aleatorios una sola vez.
La probabilidad de cada elemento es conocida, diferente a la del M.A.S., pues aquí la probabilidad es 1/k.
Garantiza la distribución de la muestra.
Los cálculos son iguales a los del MAS.
3.2.4 Desventajas.
Es necesario un marco muestral muy detallado.
No sirve si hay algún ordenamiento en el marco muestral o que se presente algún comportamiento periódico. Por ejemplo que se trate
de registros matrimoniales y todos los números impares sean mujeres.
3.3 Muestreo Aleatorio Estratificado (MAE).
3.3.1 Definición.
Es un método de muestreo que consiste en clasificar primero los elementos de la población en grupos (estratos) y
seleccionar luego, en cada grupo, una muestra aleatoria simple, tomando al menos un elemento de cada grupo (por lo general se
necesitan mínimo dos para hacer estimaciones de precisión suficiente y si se quisieran hacer estimaciones por estrato).
Los estratos pueden reflejar distintos grupos de edad, regiones geográficas, sexo, diferente grado de exposición, etc.
Ejemplo 4.4 Los estratos del ejemplo fueron definidos en base a tres criterios: ubicación geográfica, características
socioeconómicas y diferente grado de exposición. Es claro ver que nuestro interés es estimar el parámetro (media del biomarcador)
para cada uno de los estratos, puesto que suponemos diferente riesgo en cada uno de ellos y para la población total. (Esquema 4.1.2)
¡E
En este caso, dado que en aras del ejemplo los estratos son de igual tamaño, podemos hacer una afijación proporcional de la
muestra y tomar 100 niños de cada estrato, ya sea por MAS o por MS. Tendremos así la estimación para cada una de las zonas
(estratos) de Pavarandocito y para la población total.
3.3.2 Procedimiento.
El proceso que se sigue para establecer los grupos ya mencionados se conoce como estratificación y los distintos grupos se
llaman estratos. Los estratos pueden reflejar regiones geográficas de un país, áreas densa o escasamente pobladas, diferentes niveles de
contaminación o cualesquiera otros grupos.
En la estratificación se agrupan elementos similares a fin de que la varianza dentro de cada grupo sea pequeña; al mismo
tiempo es deseable que las medias de los distintos estratos sean diferentes entre sí. Así mismo, todos los elementos deben de quedar
incluidos en uno y sólo uno de los estratos.
No sólo las grandes encuestas tienen la estratificación incorporada en su diseño, es muy útil por ejemplo en un hospital,
obtener datos para cada uno de los servicios o tener la información para hacer estimaciones por sexo. En el área ambiental la
estratificación cobra gran relevancia por cuanto permite agrupar por zonas de riesgo similar, pero diferentes entre sí. Es muy
importante el criterio experimentado en la definición y selección de los estratos ya que quizá sea este el paso más trascendental en este
tipo de muestreo. Todos los estratos deben quedar representados.
En el MAE no siempre se hace una afijación proporcional de la muestra, ya que pueden tomarse en cuenta otros criterios que
permiten llegar a la llamada "afijación óptima", mediante la aplicación de una tasa de muestreo en cada estrato, proporcional a la
desviación estándar en ese mismo estrato, es decir una especie de ponderación. En ocasiones los costos de obtención de los datos
varían considerablemente de un estrato a otro (ej.: área rural y urbana) y se prefiere concentrar la muestra mayoritaria en el estrato más
económico, considerando la afijación óptima para un "costo fijo", en lugar de un "tamaño de muestra fijo". En otras palabras, se trata
de afijar la muestra entre los estratos de tal forma, que se obtenga el error estándar más bajo, con un presupuesto fijo, para lo cual se
necesita una "función del costo", la cual es una función matemática que expresa el costo de obtener la información en función del
tamaño de la muestra (n). Este es un procedimiento más complejo; el lector interesado puede consultar el texto de Scheaffer (Scheaffer,
1986).
Ejemplo 4.5 Afijación proporcional
(En el caso de estratos de diferentes tamaños).
Supongamos un universo de 10,000 y una muestra de tamaño 400; el universo tiene 3 estratos de tamaño 5,000, 3,000 y
2,000 respectivamente.
Universo N % n
¡E
Estrato I 5,000 50 200
Estrato II 3,000 30 120
Estrato III 2,000 20 80
Total 10,000 100 400
El porcentaje con el que contribuye cada estrato al total del universo, se aplica al tamaño de muestra calculado n y ese es el número de
elementos que debe tomarse en cada estrato.
De tal manera, el estrato I con 5,000 elementos, contribuye el 50% del Universo. La muestra calculada fue de 400. El 50%
de 400 es igual a 200, ese es el número de elementos que debe tomarse del estrato I y así sucesivamente.
3.3.3 Ventajas.
La estimación final del parámetro puede tener un error mucho menor, que el obtenido para una muestra aleatoria simple de tamaño
comparable.
Por lo anterior puede tener una mejor relación costo-beneficio.
Permite estimar parámetros para cada estrato y para la población total.
Asegura la participación de todos los estratos.
3.3.4 Desventajas.
Mayor complejidad de los cálculos
Necesario un marco muestral detallado por estrato.
Criterio muy especializado en la selección y definición de los estratos.
3.4 Muestreo de Conglomerados (MC).
3.4.1 Definición.
¡E
Se llama así a aquel tipo de muestreo, en el cual las unidades de muestreo son agrupaciones o colecciones de elementos
llamadas conglomerados.
Los conglomerados pueden ser hogares, manzanas, fábricas, etc. (Ver Tabla No 4.3 Ejemplos de Conglomerados y esquema
4.1.3).
3.4.2 Consideraciones especiales:
Muchos problemas reales plantean el reto de muestrear ante la ausencia de un marco muestral muy detallado (por ejemplo,
una lista de todos los escolares de Pavarandocito) o con un costo muy elevado en la construcción del mismo. Hay otras ocasiones en
que este marco existe pero el muestreo de conglomerados resulta mucho más eficiente, dadas las economías que reporta en lo que se
refiere a la etapa de campo.
Ejemplo 4.6 En nuestro ejemplo los conglomerados son las escuelas, las cuales agrupan varias unidades de análisis
(escolares). En términos generales la característica que define un conglomerado es su proximidad geográfica, al reunir varios
elementos en una misma área. Un conglomerado no implica necesariamente la homogeneidad que se mencionaba para el estrato y
representa más una facilidad operativa. De hecho, se busca que sean heterogéneos al interior de cada conglomerado y homogéneos
entre si.
3.4.3 Procedimiento.
En un sentido estricto el muestreo de conglomerados implica que se muestree a todos los elementos incluidos en el
conglomerado muestreado. Si en nuestro ejemplo el conglomerado es la escuela, solo necesitaríamos una lista de las doscientas
escuelas de Pavarandocito, de la cual tomaríamos una muestra de ocho escuelas (ya sea por MAS o por MS) luego de lo cual
estudiaríamos en cada escuela la totalidad de los niños de dicha escuela. Es decir, tenemos un universo de 10,000 elementos, repartidos
en 200 conglomerados (escuelas) de 50 niños cada uno. Como la muestra es de 400, necesitamos un listado de las 200 escuelas y
mediante la tabla de números aleatorios escogemos 8 de ellas, en estos 8 tenemos el total de la muestra (8x50 = 400), por eso hay que
estudiar a la totalidad de los niños de cada escuela.
Hay una variante de este muestreo, que puede quedar también incluida en lo que hemos llamado diseños complejos y es el
conocido como muestreo multietápico o polietápico de conglomerados (bietápico, trietápico, etc.). En esta variante se seleccionan
los conglomerados y puede procederse a una segunda selección dentro de los conglomerados seleccionados y lo mismo en las etapas
que sean necesarias. Así la necesidad de listados se va limitando a aquellas unidades de muestreo que vayan siendo seleccionadas en
cada etapa.
¡E
En este caso la primera etapa podría ser escoger conglomerados y luego dentro de cada conglomerado escoger elementos.
Un caso muy usual es definir los conglomerados como manzanas (de vivienda) y luego dentro de cada manzana elegir viviendas
(Esquema 4.1.4).
Casi todos los países construyen sus marcos muestrales definiendo conglomerados básicos que pueden agruparse o
desagruparse en conjuntos y subconjuntos de los mismos. Ello se verá con mayor detalle en el capítulo VII dedicado a los marcos
muestrales, pero basta señalar el ejemplo de México que ha definido las llamadas "áreas geoestadísticas básicas" (AGEB), las cuales
constituyen un segmento geográfico definido que puede abarcar tanto viviendas como negocios, fincas o terrenos y situarse en una
zona rural o urbana. Un conglomerado puede ser un conjunto de AGEBs o un subconjunto del mismo, según se opere para los fines del
estudio que se esté realizando.
3.4.4 Ventajas.
Disminución en los costos de trabajo de campo.
Poder trabajar en ausencia de listados muy complejos.
3.4.5 Desventajas.
Complicación de los cálculos matemáticos para la estimación de los parámetros (lo cual en los tiempos actuales, con el uso
masivo de las computadoras ha sido obviado, ya que existe un buen número de paquetes computacionales que permiten obtener estos
datos con gran facilidad (SUDAAN, PSDUM (Silva, 1993)) .
Antes de terminar este apartado vale la pena enfatizar la diferencia entre estratos y conglomerados. Los estratos deben ser
tan homogéneos dentro de ellos como sea posible , pero un estrato debe diferir de otro tanto como se pueda en relación a la
característica que está siendo medida. Los conglomerados por su parte deben ser tan heterogéneos dentro de sí mismos como sea
posible, pero similares a los otros para aprovechar las ventajas económicas de su diseño. Los estratos deben quedar representados
todos, es decir contribuir a la muestra. Los conglomerados no tienen que quedar representados todos, pero si uno queda en la muestra
debe ser muestreado totalmente (al menos en el monoetápico).
3.5 Diseños Complejos
En ocasiones la realidad presenta retos que superan los esquemas clásicos presentados aquí, es el caso por ejemplo de las
encuestas nacionales, especialmente en países con una población numerosa.
¡E
Es usual que ante la ausencia de marcos muestrales tan complejos y detallados como los que se requerirían para llevar a cabo
una estrategia simple, se opte por estratificar y luego dentro de cada estrato se definan conglomerados que pueden muestrearse en una
o varias etapas, estos diseños reciben el nombre de mixtos o complejos (Esquema 4.1.5).
Regresemos a Pavarandocito y reflexionemos en las ventajas y economías que representaría la elección de un muestreo
mixto, para nuestra muestra de 400 escolares. Podríamos simplemente tomar 2 escuelas de cada uno de los estratos y examinar la
totalidad de los escolares incluidos en ellas, estaríamos frente a un tipo de muestreo mixto (estratificado y de conglomerados
monoetápico) que simplificaría grandemente las actividades de campo, sin necesidad de un marco muestral complejo, ya que sólo sería
necesario contar con el listado de alumnos de las escuelas incluidas. La visita a una escuela tendría así una relación costo-beneficio
muy satisfactoria puesto que se examina al total de alumnos.
Un ejemplo real de diseño complejo lo constituye la segunda encuesta nacional de salud llevada a cabo en México en 1991 y
cuyo diseño puede consultarse en las publicaciones al respecto. El texto de Silva-Aycaguer (1993) se extiende ampliamente en las
características de este tipo de diseños, por lo cual remitimos a él, al lector interesado en profundizar en este tema.
4. Muestras no probabilísticas.
Pese a la superioridad reconocida de los métodos de muestreo probabilístico, a veces se emplean en su lugar métodos no
probabilísticos, habitualmente para situaciones en las cuales el primero es supremamente costoso o en casos que lo ameritan por la
circunscripción de un problema específico, como suele suceder en algunas contingencias ambientales, en las cuales sólo es posible
muestrear a aquellos sujetos expuestos o en los cuales se sospecha la presencia de alguna situación pre o patológica concreta, en cuyo
caso hablaríamos de un estudio de brote (cluster).
Hay otros casos en los cuales no es posible accesar a la población de origen y se trabaja con los datosque se han podido obtener en un proceso que pareciera el inverso del muestreo. Un ejemplo concreto deeste caso es el que se presenta cuando tenemos datos de un programa de vigilancia epidemiológica (ej.
Vigilancia de los niveles de plomo en el binomio madre-hijo)1 que sin ser una muestra probabilística en el
sentido estricto, nos permite inferir acerca de la población de origen. Una situación similar se presenta en los estudios
analíticos donde importa más la comparabilidad que la representatividad.
Los métodos básicos de muestreo no probabilístico son:
* El muestreo de cuota * El muestreo de juicio (criterio) * El muestreo de sujetos disponibles
¡E
4.1 El muestreo por cuota.
Este empieza con una matriz que describe las características generales de la poblaciónque se desea estudiar. Por ejemplo distribución por edad y sexo, por zona urbana y rural etc. Unavez generada dicha matriz y asignada una proporción relativa a cada una de sus células se asumeque la muestra ha de estar dispersa por toda la población y ha de contener la misma proporciónde individuos con cierta característica, que la población entera. Se establece pues que la muestratenga sus elementos distribuidos por las subclases de tal manera que las proporciones muestralescoincidan con las de la población. Puede asignarse al o los entrevistadores una cuota fija demuestreo con las restricciones que implique la cuota (12 entrevistas, seis en niños y seis en niñaspor ejemplo).
4.2 El muestreo de juicio (criterio)
En el cual se selecciona específicamente un grupo que a juicio del criterio de unexperto, represente adecuadamente a la población en cuanto a la característica quequeremos estudiar. Este es un tipo de muestreo muy importante dado que es el únicorazonable por ejemplo en aquellos casos, en que el tamaño planeado de la muestra esmuy pequeño, sobre todo si el tamaño poblacional también lo es. En la aplicación de estemétodo el experto debe tener suficiente información acerca de la población y sopesar muyconcienzudamente todos los elementos, para elegir aquellos que conformen el modelomás parecido a la realidad. Puede ser muy útil este muestreo pero nunca se le podráaplicar la teoría del muestreo probabilístico.
Ejemplo 4.7 Escoger trabajadores de las gasolineras para estudiar efectos deexposición a hidrocarburos. No pueden aplicarse los resultados a la población general.
4.3. El muestreo de sujetos disponibles (o de conveniencia).
Es el que hace con sujetos que aceptan participar voluntariamente en el estudio,por algún interés personal o por una gratificación económica. Se ha utilizado mucho enclínica, farmacología, toxicología, etc. Ejemplo: estudio de Rabinowitz sobre la cinética delplomo (Rabinowitz, 1979).
Algunos autores hablan de otro tipo de muestreo al que llaman "semiprobabilístico"y que consiste en la selección aleatoria de una unidad muestral, después de lo cual seescogen los elementos a juicio de un experto, por lo cual según nuestro criterio, es deltipo conocido como muestreo de juicio. Se usa en estudios de tipo ambiental yocupacional, en los cuales puede seleccionarse aleatoriamente una o varias unidades demuestreo, por ejemplo: determinadas áreas de trabajo en una fábrica, de cada una deellas escoger los elementos a incluir.
¡E
En general debe recomendarse al investigador que trate con mucha cautela el tipode diseño no probabilístico y que cuando ello sea necesario, se haga cuidando el rigorcientífico.
¡E
Conclusión :
El tipo de diseño a elegir depende pues del problema que se desea resolver y delas facilidades operativas y económicas de que se disponga. Parece una paradoja pueshacemos un muestreo para conocer algo acerca de una población, pero para poder hacerel muestreo bien hecho debemos conocer muy bien la población que queremosmuestrear, pero este conocimiento es mas bien a nivel global que particular.
Ejercicios
1. Enumere las ventajas y desventajas de cada uno de los tipos de muestreo explicadosen este capítulo.
2. Utilizando la tabla de números aleatorios seleccione una muestra de tamaño 50, deluniverso de valores que se anexa en la tabla No. 4.2
3. Utilizando el mismo ejemplo de Pavarandocito, seleccione una muestra de tamaño 800.Para el MAS, solamente mencione los 10 primeros elementos.
4. Mencione qué marco muestral disponible para población general, existe en su país oregión.
5. Usted necesita una muestra de escolares de 6-7 años y de 12-13, para participar en unestudio multicéntrico sobre prevalencia de asma.
¿Qué estrategia podría utilizar en su región específica? ¿De qué marco muestralpodría disponer? ¿Qué fallas tendría dicho marco? Presente las respuestas con unesquema que permita entender la propuesta.
¡E
ESQUEMA No. 4.1
POBLACIONDE PAVARANDOCITO
ZONA I
N1 = 2,500
Escuelas = 50
UG: MontañaNSE: MedioGE: Nula
ZONA II
N2 = 2,500
Escuelas = 50
UG: LlanoNSE: Muy bajoGE: Muy alta
ZONA III
N3 = 2,500
Escuelas = 50
UG: CostaNSE: BajoGE: Alta
ZONA IV
N4 = 2,500
Escuelas = 50
UG: DesiertoNSE: AltoGE: Media
N = 10,000 UG = Ubicación Geográfican = 400 NSE= Nivel Socioeconómico200 escuelas con 50 alumnos cada una GE= Grado de exposición
¡E
INSTRUCTIVO 4.1
USO DE LA TABLA DE NUMEROS ALEATORIOS
Una manera de seleccionar una muestra aleatoria simple es utilizar una tabla denúmeros aleatorios como la que aquí se ilustra. Esta consta de 20 columnas de números,agrupadas de cuatro en cuatro para ayuda visual y 20 renglones agrupados de cinco encinco por la misma razón, (tabla 4.1).
Nuestra población de interés son los 325 valores de plomo en sangre en mujerespuérperas que se indican en la tabla No. 4.2, anexa. Se desea extraer una muestra detamaño 10, utilizando la tabla de números aleatorios.
Como primer paso se debe localizar un punto de partida, lo cual puede hacerse envarias formas, simplemente dejando caer la punta del lápiz sin mirar la hoja, el punto departida será el dígito más próximo a la punta del lápiz. Supóngase que en este caso esepunto corresponde a la intersección del renglón 5 con la columna 9, es decir el dígito 2(Ver tabla).
Dado que se tienen 325 valores para elegir, es necesario seleccionar números detres dígitos y aceptar aquellos que estén comprendidos entre 001 y 325 que es nuestrorango de posibilidades.
El primer número de tres dígitos, iniciando en el punto mencionado y siguiendo unesquema de lectura como el que se usa en la mayoría de los países occidentales (deizquierda a derecha y de arriba hacia abajo) es el número 232, el cual correspondeentonces a nuestro primer elemento de la muestra. Se aclara que se van tomando dígitosde tres en tres pero se incluyen en la muestra sólo los que estén dentro del rango deinterés ya mencionado. En ese entendido los siguientes elementos de nuestra muestraserían los marcados con los números: 033, 219, 026, 045, 094, 132, 058, 106 y 066. Si unnúmero se repite y nosotros estamos haciendo un muestreo sin reemplazo, lo incluimossolamente una vez.
¡E
T A B L A No 4.2
VALORES DE PLOMO EN SANGRE EN 325 MUJERES PUERPERAS DE LACIUDAD DE MEXICO
PLOMO µg/dl
1. 8.1 2. 8.9 3. 9.1 4. 12.9 5. 12.4 6. 6.1 7. 15.9 8. 8.2 9. 7.1 10. 7.8 11. 6.5 12. 8.7 13. 7.0 14. 7.2 15. 5.9 16. 16.9 17. 10.7 18. 16.6 19. 8.0 20. 5.6 21. 11.5 22. 9.7 23. 12.9 24. 3.2 25. 6.3 26. 7.8 27. 4.8 28. 8.2 29. 9.1 30. 8.4 31. 3.2 32. 4.7 33. 12.4 34. 5.3 35. 15.9 36. 6.9 37. 6.6 38. 20.3
¡E
39. 7.6 40. 11.5 41. 5.1 42. 7.8 43. 11.4 44. 14.6 45. 6.3 46. 16.2PLOMOµg /dl
47. 8.8 48. 6.4 49. 10.0 50. 7.4 51. 11.7 52. 17 53. 14.4 54. 10.0 55. 7.9 56. 8.2 57. 8.3 58. 11.3 59. 5.1 60. 23.3 61. 10.0 62. 10.4 63. 6.5 64. 6.4 65. 12.3 66. 5.9 67. 9.3 68. 23.0 69. 11.9 70. 6.6 71. 16.8 72. 4.9 73. 9.6 74. 14.9 75. 11.6 76. 5.6 77. 24.5 78. 9.1 79. 9.2 80. 8.2 81. 9.9 82. 8.1 83. 7.7
¡E
84. 16.3 85. 13.1 86. 17.0 87. 12.0 88. 9.1 89. 9.3 90. 4.2 91. 4.5 92. 4.8PLOMO µg /dl
93. 10.3 94. 5.2 95. 5.4 96. 4.0 97. 7.8 98. 6.3 99. 3.6100. 14.0101. 9.1102. 6.6103. 8.7104. 5.9105. 13.3106. 10.7107. 9.8108. 14.4109. 5.2110. 4.2111. 5.4112. 7.3113. 4.0114. 3.2115. 2.9116. 8.3117. 10.5118. 21.0119. 8.1120. 9.2121. 8.5122. 10.0123. 6.3124. 8.5125. 23.1126. 13.3127. 10.5128. 6.8
¡E
129. 14.4130. 7.6131. 5.9132. 7.4133. 7.4134. 6.4135. 9.3136. 11.9137. 6.3138. 5.0
139. 11.2140. 6.8141. 6.9142. 5.7143. 4.8144. 11.2145. 10.0146. 5.9147. 11.4148. 6.5149. 7.8150. 10.3151. 14.5152. 14.4153. 7.4154. 5.2155. 18.9156. 16.1157. 29.1158. 4.0159. 19.5160. 12.5161. 23.1162. 11.8163. 6.0164. 8.4165. 11.0166. 7.3167. 11.6168. 13.4169. 6.4170. 9.2171. 12.7172. 8.5173. 15.0174. 11.9
¡E
175. 22.4176. 11.7177. 15.8178. 9.2179. 7.4180. 11.4181. 23.9182. 14.3183. 9.8184. 10.6185. 7.0186. 7.9187. 6.8188. 12.4
189. 5.1190. 5.5191. 7.4192. 17.1193. 7.1194. 9.7195. 14.2196. 9.4197. 9.4198. 8.7199. 4.0200. 10.7201. 13.1202. 8.8203. 8.7204. 11.9205. 11.5206. 11.4207. 11.9208. 10.0209. 10.5210. 7.3211. 11.9212. 9.9213. 11.8214. 12.5215. 6.7216. 9.1217. 5.1218. 8.4219. 12.9220. 14.9
¡E
221. 4.9222. 8.9223. 14.2224. 12225. 11.7226. 8.2227. 7.3228. 7.0229. 13.5230. 8.1231. 7.5232. 8.5233. 8.5234. 10.0235. 6.2236. 16.9237. 9.0238. 21.0
239. 9.2240. 5.7241. 9.4242. 6.2243. 6.6244. 12.3245. 8.7246. 8.1247. 5.6248. 7.9249. 6.3250. 5.8251. 5.9252. 16.5253. 11.7254. 9.5255. 7.9256. 6.3257. 10.9258. 11.1259. 9.1260. 6.2261. 8.8262. 7.3263. 9.7264. 9.2265. 10.8266. 7.0
¡E
267. 6.3268. 14.3269. 15.4270. 6.9271. 8.6272. 4.4273. 8.0274. 9.0275. 4.4276. 7.7277. 7.2278. 18.7279. 7.3280. 7.9281. 8.9282. 12.6283. 7.0284. 9.1285. 4.6286. 6.8287. 4.9288. 6.1
289. 5.2290. 7.0291. 8.7292. 15.2293. 5.5294. 6.8295. 9.9296. 5.0297. 11.1298. 9.7299. 12.1300. 5.8301. 4.4302. 7.3303. 7.8304. 4.3305. 5.2306. 8.9307. 9.3308. 7.9309. 7.2310. 4.5311. 6.4312. 7.3
¡E
313. 7.8314. 14.9315. 13.5316. 8.0317. 9.8318. 10.5319. 13.0320. 12.0321. 10.7322. 9.9323. 8.8324. 8.0325. 8.0
¡E
A continuación se presentan los diez elementos incluidos en la muestra consus respectivos valores:
No. Tabla Valor Pb No. Tabla Valor Pb
1. 232 8.5 6. 094 5.22. 033 12.4 7. 132 7.43. 219 12.9 8. 058 11.34. 026 7.8 9. 106 10.75. 045 6.3 10. 066 5.9
¡E
Tabla No. 4.3Ejemplo de conglomerados
Conglomerado Unidad de lista Elemento AplicaciónManzana Casa Persona Estimación del
total de personascon hipertensiónen la ciudad
Condado Hospital Paciente Estimación de laproporción depacientes muertosen hospital en unestado
Escuela Clase Estudiante Estimación de lamedia deescolaridad,obtenida por losalumnos en undistrito
Paquete dejeringas
Jeringa Jeringa Estimación de laproporción dejeringas condefectos
Página de texto Línea de texto Palabra Estimación delnúmero total depalabras en unlibro
Conjunto dearchivos
Folder Cuenta única Estimación delnúmero total decuentas vencidas
Semanacalendario
Día Día Estimación de laproporción de díascon nivel de ozonopor arriba del nivelpermitido
¡E
APÉNDICE 6
TAMAÑO DE LA MUESTRA
1. Introducción
Uno de los primeros aspectos que más nos preocupa cuando estamos planeando realizar una encuesta por
muestreo es qué tan grande será la muestra que necesitamos para obtener estimadores a partir de ella, que sean lo
suficientemente confiables a fin de cumplir los objetivos del estudio.
Para tal efecto y antes de iniciar cualquier encuesta por muestreo, debemos conocer diversos factores que
influyen en la determinación de un tamaño muestral mínimo adecuado que nos permita obtener estimaciones útiles sobre
aquellos parámetros que se desean estudiar. En primera instancia, se presentarán todos los cálculos asumiendo muestreo
aleatorio simple.
2. Factores que influyen en el tamaño de la muestra.
2.1 La Precisión.
En primer término, nos referiremos al grado de precisión que requiere el estimador y que es equivalente a la mitad
del intervalo que se pretende construir; mientras más precisión se imponga más corto será el intervalo que se obtenga y por
consiguiente mayor será el tamaño de la muestra.
Ejemplo 6.1 Supóngase que la característica en estudio es el cadmio en cabello de niños de una localidad “ x” . A
partir de un estudio previo se encontró el rango aproximado está entre 0.002 y 2.544 µg/g de cabello, es decir una amplitud
de 2.542. Por las propiedades de la curva normal, sabemos que el rango equivale aproximadamente a seis desviaciones
estándar (2.542/6=0.424), por lo cual en este caso la varianza (s2) sería 0.4242=0.180
Si la característica de interés es por ejemplo el nivel medio de plomo en sangre en niños, podemos consultar los
registros de estudios anteriores en la misma región, en un proceso análogo al mencionado anteriormente. Si no es posible
realizar este tipo de inferencias es necesario recurrir al estudio piloto.
Considere que la primera especificación es la creación de un intervalo del 95% de confianza basado en la media
muestral mas o menos 0.05 µg/g. Esta restricción conocida como precisión requiere que el 0.05 µg/g sea igual a
1 0;
Asumiendo inicialmente MAS, e ignorando el factor de corrección para poblaciones finitas, tenemos que el
0 , donde S2 es la varianza poblacional, y n’ es la estimación inicial a partir del cual se aproxima el tamaño
muestral, es decir, sin considerar el factor de corrección para poblaciones finitas.
Entonces, sustituyendo el error estándar de la media, encontramos:
0
¡E
y resolviendo para n’, encontramos que:
0 personas. (6.1)
Ejemplo 6.2 Suponga usted que se conducirá una encuesta sobre una población para estimar la proporción de
personas que usan loza vidriada para consumir sus alimentos; considere que la primera especificación es la creación de un
intervalo del 95% de confianza basado en la proporción muestral mas o menos 2%. Es decir, una precisión del 2%
igual a 1.96σp.
Asumiendo inicialmente MAS, e ignorando el factor de corrección para poblaciones finitas, tenemos que el
0 , donde P es la proporción poblacional que usan loza vidriada, Q es la proporción que no lo usa, es decir, Q
= 1-P y n’ es la estimación inicial a partir del cual se aproxima el tamaño muestral, sin tomar en cuenta el factor de
corrección para poblaciones finitas.
Por la precisión fijada, tenemos que 1.96σp=0.02, sustituyendo el error estándar encontramos que:
0
y resolviendo para n’ encontramos que:
0 (6.2)
De principio, podrían obtenerse diversos tamaños muestrales, usando diferentes valores en la precisión y
manteniendo constantes el nivel de confianza del 95% (Z=1.96), una P=0.35 y una Q=0.65.
Tabla No. 6.1
Tamaños muestrales para diferentes valores de precisión, manteniendo constantes el nivel de confianza (95%) ,
una P=0.35 y una Q=0.65
¡E
Precisión Cálculo del tamaño muestral Tamaño de n’
0.010
n’=8740
0.020
n’=2185
0.050
n’=350
0.100
n’=88
2.2 Proporción poblacional
De la fórmula anterior, podemos notar, que necesitamos tener alguna idea de la proporción poblacional, que
puede ser aproximada mediante estudios anteriores, a través de alguna muestra piloto o simplemente y desde un punto de
vista muy conservador, utilizando un valor máximo obtenido para PQ que será cuando P = Q = 0.5
Si la P sugerida esta alrededor de 0.2 a 0.35 la elección más conservadora sería P = 0.35, sustituyendo para n’
tenemos que:
0
Si este tamaño muestral fuera pequeño comparado con el tamaño poblacional, dejaríamos este como el tamaño
muestral requerido; sin embargo, si este no es el caso, debemos tomar en cuenta el factor de corrección y corregir el
tamaño muestral mediante:
0 (6.3)
Ejemplo 6.3 Se puede hacer notar, que el máximo tamaño muestral será cuando P y Q son iguales, es decir
P=Q=0.5, como veremos en la siguiente tabla, en la que se manejarán diversas P’s y Q’s manteniendo constantes la
precisión y el nivel de confianza.
Tabla No. 6.2
Tamaños muestrales para diferentes P’s y Q’s, manteniendo constantes una precisión de 0.02 y un nivel de
confianza del 95% (Z=1.96)
P Q Cálculo del tamaño
muestral
Tamaño de la muestra (n’)
¡E
0.1 0.90
n’=96
0.2 0.80
n’=1537
0.3 0.70
n’=2017
0.5 0.50
n’=2401
0.8 0.20
n’=1537
De la tabla anterior se desprende que el mismo tamaño muestral corresponde para P=0.2 y Q=0.8 que para P=0.8 y Q=0.2
ya que estas proporciones podrían corresponder para el primer caso a la proporción de las personas que usan loza vidriada
y para el segundo a la proporción de los que no la usan y ya que uno es complemento del otro, da lo mismo hacer el cálculo
para cualquiera de las dos proporciones.
2.3 Nivel de Confianza
Hasta aquí, hemos utilizado frecuente un nivel de confianza del 95%, es decir, nuestros intervalos de confianza o
la determinación del tamaño muestral usa un valor de Z=1.96, el cual determina este nivel de confianza.
Sin embargo, podríamos estar interesados en otros niveles de confianza, lo cual modificaría directamente en el
tamaño muestral. Otros niveles de confianza usualmente utilizados son:
Z=1.645 para un nivel de confianza del 90%
Z=2 para un nivel de confianza del 95.45%
Z=2.33 para un nivel de confianza del 98%
y Z=2.575 para un nivel de confianza del 99%.
Ejemplo 6.4 Siguiendo el ejemplo anterior, podemos calcular algunos tamaños muestrales para cada uno de
estos niveles, manteniendo constantes la precisión igual a 0.02, la P= 0.35 y la Q=0.65
Tabla No. 6.3
Tamaños muestrales para diferentes niveles de confianza y manteniendo constantes la precisión igual a 0.02, la
P=0.35 y la Q=0.65
Nivel de Confianza
Valor de Z
Cálculo del tamaño muestral Tamaño de la muestra
aprox.
90% 1.6450
n’=1540
¡E
95% 1.960
n’=2185
95.45% 2.00
n’=2275
98% 2.330
n’=3088
99% 2.5750
n’=3772
2.4 Otros tipos de diseños muestrales
Cuando nuestro diseño es otro que un muestreo aleatorio simple, será necesario modificar este tamaño muestral
multiplicándolo por el efecto del diseño en cuestión con respecto al aleatorio simple. Este diseño de efecto no es mas que la
razón de la varianza del error estándar obtenido con el diseño complejo entre la varianza que se obtendría con un muestreo
aleatorio simple.
Si se pensara utilizar un muestreo estratificado, se requeriría un tamaño muestral mas pequeño que con el
aleatorio simple, debido a las ganancias en precisión que es inherente al proceso de estratificación, es decir el efecto de
diseño tendría un valor menor a 1; sin embargo, esta ganancia es pequeña cuando estimamos un porcentaje con una
estratificación proporcional, de tal manera que la reducción del tamaño muestral será modesta.
Ejemplo 6.5 Si el error estándar obtenido para el consumo de loza vidriada a partir de un muestreo aleatorio
simple resulta ser 0.0102 ( luego entonces la varianza del error estándar es de 0.000104) y de otros estudios anteriormente
realizados se sabe que el uso de loza vidriada es más común para el área rural, donde se encontró con un muestreo
estratificado, una varianza del error estándar de 0.000091, el efecto de diseño resulta ser de:
0
por lo que si se decide efectuar un muestreo estratificado y el tamaño muestral para muestreo aleatorio simple fue de 1907,
se necesitaría un tamaño de (1907)(0.875)=1669 personas en total de ambos estratos; y podría ser el tamaño muestral para
cada estrato proporcional al tamaño del estrato.
Por otro lado, cuando aplicamos un diseño de conglomerados multietápico, ya sea con probabilidad proporcional
al tamaño u otro tipo de selección, implícitamente el proceso conlleva una homogeneización dentro de los conglomerados y
por consiguiente una disminución en la precisión del intervalo, por lo que en este caso el efecto de diseño será mayor de 1 y
por lo tanto el tamaño muestral deberá incrementarse con respecto al aleatorio simple.
Ejemplo 6.6 En una prueba piloto con muestreo de conglomerados en dos etapas se encuentra un error estándar
de 0.01724 (es decir la varianza del error estándar es de 0.0002974), y continuando con la varianza del error estándar para
muestreo aleatorio simple de 0.000104 tenemos que:
¡E
0
por consiguiente, si calculamos un tamaño muestral para el MAS de 1907 personas y estuviéramos pensando en usar un
muestreo bietápico por conglomerados, requeriríamos un tamaño muestral 2.859 veces mayor que el del aleatorio simple;
es decir, (1907)(2.859)=5453 aproximadamente.
2.5 Tasa de no respuesta
Otro factor a considerarse en el cálculo del tamaño muestral es la tasa de no respuesta, por ejemplo, si la tasa de
respuesta es del 75%, el tamaño muestral necesario para alcanzar el requerido será para este ejemplo 1907/0.75 = 2543.
Por supuesto, este es un ajuste para alcanzar el tamaño muestral y de ninguna manera es una garantía para evitar un
sesgo de no respuesta.
Del mismo modo, es importante tomar en consideración los costos de la encuesta relacionándolos con los niveles
de precisión, pues resulta poco práctico efectuar encuestas a bajo costo para obtener intervalos muy amplios para obtener
información.
3. Otras consideraciones
Mientras que los ejemplos anteriores muestran los aspectos principales para el cálculo de la muestra, esto está
muy simplificado, pues en la práctica las encuestas cumplen con varios objetivos, conteniendo un número sustancial de
estimadores y estos a su vez, cubrirán un rango grande de subclases como serían regiones diferentes, diversos grupos de
edad o múltiples grupos educacionales u ocupacionales, lo cual implica realizar varios cálculos para tamaños muestrales y
se aceptará aquél que permita hacer divisiones finas para el análisis por subclases, por lo que en general, podemos decir
que mientras mayor sea el tamaño muestral alcanzaremos una mayor precisión y se podrá conducir un análisis más
detallado.
El tamaño muestral idóneo dependerá de los factores mencionados que junto con el aspecto financiero será aquel
que nos permita realizar interpretaciones útiles de los intervalos obtenidos, por lo que resulta poco práctico efectuar cálculos
con poca precisión o niveles de confianza demasiado bajos debido a un financiamiento limitado, ya que el alcance de
nuestras inferencias será pobre.
4. Tamaño de muestras para la comparación de dos medias o dos proporciones en dos poblaciones en estudios
transversales.
Hasta aquí se ha incluido el diseño de encuestas por muestreo refiriéndose básicamente a una sola población.
Cuando se trata de estudios comparativos que involucran dos poblaciones como en el caso de los diseños epidemiológicos
transversales, de casos y controles, estudios de cohorte, ensayos clínicos, etc., es necesario hacer consideraciones
referentes a los tipos de error (Tabla No.6.4).
¡E
Tabla 6.4
Tipos de error según la situación verdadera de la hipótesis nula.
Decisión hecha
Ho no rechazada H
o rechazada
Situación Ho verdadera Sin error
(1-α)
Error Tipo I (α)
real Ho falsa Error tipo II
(β)
Sin error (Poder=1-β)
4.1 Poder estadístico de la muestra (1-ββ) que es la capacidad de la misma para detectar una diferencia de los parámetros
de las poblaciones cuando ésta existe y se expresa en términos de porcentaje, como el complemento del Error tipo II o Beta
que no es más que la probabilidad de aceptar una hipótesis nula cuando ésta es falsa.
4.2 Nivel de significancia (αα) que corresponde a la probabilidad de rechazar una hipótesis nula (ho) cuando ésta es
verdadera.
La figura 6.1 ilustra los principios básicos de estos conceptos. Si se postula una hipótesis nula verdadera, esto
implica que no hay diferencia de los parámetros entre las dos poblaciones estudiadas, es decir la diferencia de los
parámetros es igual a 0 (d=0), α sería la probabilidad de rechazar ho cuando es verdadera y d
c denota el valor de la
diferencia que es significativo desde d a un nivel de significancia α. Por otro lado, cuando ho
es falsa, esto es, existe
diferencia entre los parámetros poblacionales, el valor real de la diferencia de las medias o de las proporciones estudiadas
es diferente de 0 (d*≠ d), entonces el área que queda a la izquierda de dc representa la probabilidad de aceptar la hipótesis
nula cuando ésta es falsa (Error tipo II o β) y el área a la derecha corresponde a la probabilidad de rechazar la hipótesis
nula cuando ésta es falsa representando el poder de detectar la diferencia (o asociación).
¡E
d denota el valor de la hipótesis nula
d* denota el valor de la hipótesis alterna
dc es aquel valor que es significativo al nivel de significancia α
Por consiguiente dc puede ser expresado como d + Z
α/2σ
d ó equivalentemente d* + Z
βσ
d* donde:
Zα/2
es el valor de Z correspondiente a la posición de dc
según el nivel de significancia seleccionado, sobre la distribución
alrededor de d y donde la diferencia de los parámetros puede ser positiva o negativa.
Zβ denota la posición de d
c según el nivel de β seleccionado, sobre la distribución alrededor de d* y σ
d y σ
d* son lo errores
correspondientes de cada distribución.
Puesto que los valores de Zα/2
y Zβ
son ampliamente utilizados, se presentan aquellos mas usuales y para diferentes
niveles.
Tabla No. 6.5
Valores de Zα/2
y Zβ
para diferentes niveles de error.
Niveles de Error Zα/2
Zβ
0.01 2.58 2.33
0.02 2.33 2.05
0.05 1.96 1.645
0.10 1.645 1.28
De este modo, tenemos la siguiente igualdad:
d + Zα/2
σd
= d* + Zβ
σ d*
Debido a que los errores estándar son generalmente cercanos en valor, y mediante un poco de álgebra podemos
resolver esta ecuación para obtener una buena aproximación del tamaño muestral para un estudio transversal:
Si se trata de diferencia de medias :
0
Si es diferencia de proporciones:
0
donde:
d* es el valor de la diferencia en proporciones o medias (es decir, la magnitud de la
diferencia que el investigador desea detectar).
¡E
n el número de individuos expuestos estudiados.
r el cociente del número de individuos no expuestos estudiado, entre el
número de individuos expuestos estudiados.
σ desviación estándar en la población para una variable continua.
p1
proporción de individuos expuestos quienes tienen la consecuencia
(enfermedad).
p0
proporción de sujetos no expuestos quienes tienen la consecuencia
(enfermedad).
0 0 = promedio ponderado de p1 y p
0
Ejemplo 6.7 Para ilustrar el cálculo del tamaño muestral para diferencia de proporciones considere un estudio para evaluar
si fumar durante el embarazo está asociado con un incremento en la prevalencia de bajo peso al nacer del recién nacido.
Se conoce de estudios anteriores que por cada mujer que fuma durante el embarazo hay alrededor de 3 que no lo hacen,
por lo tanto, en un estudio donde los sujetos se seleccionan aleatoriamente sin considerar los hábitos de fumar,
encontramos una r = 3, una proporción de fumadoras del 25% y una proporción de no fumadores del 75%. Además las
encuestas reportan una prevalencia de bajo peso al nacer (es decir, recién nacidos de 2500 gr o menos) de 7%. Suponga
que la diferencia a detectarse que se considera de interés entre los grupos expuestos en la proporción de recién nacidos
con bajo peso al nacer es de 8% (d* = 0.08).
Si el nivel de significancia es del 5%, entonces el valor correspondiente de Z es 1.96 y el poder es de 90% el valor
que corresponde de Z es 1.28. Utilizando la fórmula para diferencia de proporciones tenemos que:
0= 142.4
Se estima que aproximadamente 143 recién nacidos de fumadoras tienen que ser incluidos en la muestra junto
con 429 recién nacidos de no fumadoras, es decir, un tamaño global de 572 recién nacidos.
Ejemplo 6.8 Suponga usted que se requiere calcular un tamaño muestral para realizar un estudio cuyo propósito es
comparar el nivel de plomo en hueso entre los sujetos que usan loza de barro vidriada y aquellos que no lo usan. Por
estudios anteriores, se conoce que la media de plomo entre aquellas personas que no lo usan es alrededor de 9.25 µg/g de
hueso y la media de plomo entre aquellas personas que lo usan es de 16.01. Además se sabe que la varianza de plomo en
hueso es de 103.18 y que por cada persona que usa loza vidriada hay otra que no lo usa, por consiguiente r=1. Si se
quisiera detectar una diferencia de 3 unidades con un nivel de significancia del 5% y una potencia del 95%, el tamaño
muestral requerido para este ejemplo sería calculado como sigue:
¡E
0=238.4
De este modo, el tamaño requerido, resulta ser de 239 personas que usan loza vidriada y otro tanto que no lo usa,
es decir, se requiere un tamaño global de 478 personas, bajo las especificaciones señaladas.
Los ejemplos anteriores se reducen a presentar el cálculo del tamaño muestral para estudios transversales, es
decir, cuando las características bajo estudio son obtenidas en un solo momento; sin embargo, existen otros diseños
epidemiológicos como casos y controles que requieren considerar definiciones específicas para un adecuado cálculo
muestral.
5. Errores frecuentes en la estimación del tamaño muestral.
5.1 El tamaño de la muestra depende principalmente del tamaño del universo. Es una práctica común elegir un tamaño
muestral como un porcentaje de la población, por decir, el 10%. Esta decisión no es justificada, pues como se revisó, está
más influenciado por la precisión, el nivel de confianza y la proporción de la característica más que por el tamaño de la
población.
La eficiencia de la muestra depende más bien de su número absoluto y no del valor proporcional con respecto al
universo.
5.2 Hacer toda una etapa de muestreo probabilístico y luego no hacer los cálculos correspondientes para el error estándar y
para la construcción del Intervalo de Confianza, limitándose a la descripción de el estimador muestral.
5.3 Hacer reemplazos no planeados puede alterar la estructura probabilística del muestreo al alterar la probabilidad de
ciertas unidades, por lo que si se llegaran a efectuar deberá considerarse la probabilidad de cada elemento de quedar en la
muestra.
5.4 Aplicar un diseño complejo para seleccionar la muestra y analizar como en un muestreo aleatorio simple. Este ha sido
un error que se comete frecuentemente por la facilidad de las fórmulas del MAS, las cuales no toman en cuenta las
variaciones de diseño, provocando errores en el cálculo del intervalo de confianza y por consiguiente errores en su
interpretación.
Ejercicios.
1. Calcule el tamaño muestral del ejemplo de plomo en mujeres, si la proporción encontrada hubiese sido del 30%. Utilice
los datos de los tres investigadores incluidos en el cuadro. Comente cómo afecta este cambio el tamaño muestral.
2. Calcule un tamaño de muestra para la población de Pavarandocito, sabiendo que la desviación estándar del biomarcador
en cuestión es de 564 Unidades Internacionales. Haga el cálculo con un nivel de confianza del 95% y del 99%. Precise
usted el error que aceptaría y déjelo fijo en ambos cálculos.
3. Que ocurriría con la n anterior si el diseño es complejo y se espera una tasa
de no respuesta del 20%.
¡E
APÉNDICE 7
ANÁLISIS DE DATOS
1.1 Medidas de asociación. El riesgo relativo y la razón de productos cruzados son medidas relativas, que dan una
idea de la magnitud de la asociación que se está estudiando; sin embargo, estas medidas no indican el impacto absoluto
que el factor de estudio puede tener en la población.
Riesgo relativo o razón de riesgo (RR), compara en dos grupos el riesgo de algún evento de salud, enfermedad o muerte.
Los dos grupos son diferentes en cuanto a factores de riesgo tales como la exposición al agente en estudio (por ejemplo,
exposición o no a contaminantes ambientales).
Enfermedad
Exposición
Sí No TOTAL
Expuestos a b E1
No expuestos c d E2
Total X1
X2
XT
El RR nos dice cuantas veces ocurre el evento en estudio en el grupo de expuestos comparados con el de no expuestos.
Se lo puede calcular mediante tasas de incidencia acumulada, incidencia real y de prevalencia. Un valor de RR de 1 indica
riesgo idéntico en los 2 grupos, un valor mayor de 1 habla de un incremento en el grupo numerador (expuestos), mientras
que un valor menor de 1 indica un decremento en el riesgo del grupo expuesto o quizás muestre un efecto protector del
factor de exposición bajo estudio.
RR = Tasa de ataque o incidencia en expuestos/tasa de ataque o incidencia en no expuestos
RR = (a/E1
)
----------
(c/E2)
Razón de productos cruzados (RPC) es un estimador insesgado del riesgo relativo, es decir, sobrestima al RR. Se
utiliza cuando no es posible estimar la incidencia de una enfermedad o condición de salud.
¡E
RPC = ad/bc
a = el número de personas con la enfermedad y con la exposición de interés.
b = el número de personas sin la enfermedad y con la exposición de interés.
c = el número de personas con la enfermedad y sin la exposición de interés.
d = el número de personas sin la enfermedad y sin la exposición de interés.
Riesgo Atribuible (RA) o Diferencia de Riesgo (DR): nos habla de la magnitud absoluta del cambio en los
expuestos, es decir, del número de personas enfermas entre los expuestos que se puede atribuir a la exposición. Mide la
diferencia entre la tasa de incidencia de la enfermedad en el grupo expuesto menos la tasa de incidencia del grupo no
expuesto.
RA = a/E1 - c/E
2.
1.2 Medidas de impacto: Son proporciones que reflejan la contribución esperada de un factor bajo estudio a la
frecuencia de la enfermedad en una población particular y derivan tanto de las medidas de frecuencia como de las de
asociación. Se utilizan para estimar la proporción de casos observados en una población que son debidos al factor bajo
estudio, y para predecir el impacto o cambio en el estado de salud de una población como consecuencia de una
intervención.
Riesgo atribuible porcentual en población expuesta (RA%):
RA%=Tasa Incidencia Expuestos - Tasa Incidencia no Expuestosx100
Tasa Incidencia Expuestos
Riesgo atribuible poblacional porcentual (RAP%):
RAP% = Tasa Incidencia Global-Tasa Incidencia no Expuestos x 100
Tasa Incidencia Global
Tasa Incidencia no Expuestos = c/E2
Tasa Incidencia Global = X1/X
T
Fracción etiológica (FE) o fracción atribuible (FA): mide en los expuestos la cantidad (porcentaje) del riesgo absoluto que es
atribuible a la exposición. Se puede interpretar como la proporción de casos que podrían no haber ocurrido si la exposición
hubiera estado ausente (% de reducción en el número de casos). Se asume que hay relación causal.
¡E
Diferencia de Riesgo
FE = ---------------------------------------------------------- x 100
Tasa de incidencia en expuestos
Ejemplo: Asociación entre exposición ocupacional a fosfina y mutaciones genéticas.
Tasa de incidencia en expuestos a fosfina = 0,71
Tasa de incidencia en no expuestos a fosfina = 0,14
RR = 0,71 / 0,14 = 5,1
DR = 0,71 - 0,14 = 0,57
FE = 0,57 / 0,71 = 0,803 X 100 = 80,3%
1.3 Pruebas de significancia estadística. Cuando se realizan investigaciones y aún en la vida cotidiana, se tienen que
tomar decisiones. En el trabajo científico, las decisiones tienen carácter de hipótesis de comprobación. Estas
comprobaciones son hechas comparando las variables de interés de dos o más poblaciones o muestras y, dependiendo del
tipo de escala en la que se mida la variable, se utilizan las diversas pruebas estadísticas.
Las pruebas estadísticas que hacen uso del modelo de probabilidad normal se conocen como pruebas paramétricas de
significación.
Distribución normal: La distribución de probabilidad continua más importante es la distribución normal o de Gauss, que
gráficamente es una distribución en forma de campana, simétrica al promedio aritmético. Muchas variables siguen una
distribución normal, y tienen una función central en pruebas estadísticas de hipótesis.
Dos distribuciones normales con diferentes promedios o medias aritméticas, pero la misma varianza o desviación estándar,
se diferenciarán en la localización pero no en la forma (Figura 1).
Dos distribuciones normales con igual promedio, pero diferentes varianzas o desviaciones estándares, tendrán la misma
localización, pero tendrán diferentes formas o amplitudes en relación al valor promedio (Figura 2).
La población incluida por una desviación estándar (DS o S) a cada uno de los lados del promedio de una población
distribuida normalmente, incluye al 68,26% de las observaciones de esa población; 2 DS para cada lado incluyen al 95,46%
de las observaciones; y 3 DS incluyen al 99,99% de las observaciones de la población (Figura 3).
Un principio fundamental para la distribución normal es el teorema del límite central, que enuncia que sin importar lo que
haga la distribución subyacente (de la variable de interés particular), la muestra promedio tendrá una distribución normal si
el tamaño de la muestra es lo bastante grande (n>30).
La certeza con que se estima la población promedio aumenta con el tamaño de la muestra; mientras que el error estándar
del promedio disminuye con el incremento de la muestra.
- Prueba de hipótesis: Es un procedimiento objetivo que debe basarse tanto en la información obtenida al investigar,
como es el margen de error que estemos dispuestos a aceptar si nuestro criterio de decisión con respecto a la
hipótesis resulta incorrecto. En epidemiología, se trata de una proposición acerca de la relación entre agente,
huésped y ambiente, que se puede aceptar o rechazar a través de estudios que utilizan métodos analíticos.
¡E
Procedimiento:
Formulación de la hipótesis nula (Ho) y alterna.
La hipótesis estadística define las variables o características a estudiar.
Ho = A=B
Hi = A≠B
Ho: la hipótesis nula es la afirmación aritmética del parámetro bajo estudio, aceptando como mínimo el valor cero.
A = B A < B A > B
Ha: La hipótesis alterna es una afirmación aritmética contraria a la hipótesis nula; es la hipótesis de trabajo.
Elección de la prueba estadística, con un modelo asociado para probar o rechazar Ho con una prueba adecuada según el
tamaño de la muestra, y las características y comportamiento de la variable.
Especificación del nivel de significancia. El valor de "p" indica en términos estadísticos, la probabilidad de obtener la
estadística observada o un valor más extremo, bajo la hipótesis nula.
Usualmente el valor de "p" tiene que ser igual o menor a 0.05 (es el margen de error del 5%) para concluir que los
resultados son significativos, es decir, que cada vez que se repita la investigación los resultados serán semejantes en un
95% de las ocasiones.
Definir el criterio o región de rechazo. En las diferentes pruebas estadísticas se estima de distinta manera esta región.
Cálculo de la prueba estadística e interpretación.
El investigador debe comprender 5 puntos acerca del nivel de significancia:
El nivel de significancia indica la probabilidad de cometer el error tipo I o α, es decir, rechazar la hipótesis nula siendo ésta
verdadera.
La probabilidad de que una prueba estadística produzca un valor conforme por el cual la hipótesis de nulidad sea aceptada,
cuando en realidad es falsa, queda comprendido como error tipo II o β.
La potencia de una prueba (1-β), mide la probabilidad de rechazar acertadamente la Ho.
La potencia está relacionada con la naturaleza de la prueba estadística elegida.
En términos generales, la potencia de una prueba estadística se incrementa al aumentar el tamaño de la muestra.
En general, ni la prueba de hipótesis ni la inferencia estadística conducen a la demostración de una hipótesis, sino que
simplemente indican si la hipótesis es apoyada o no por los datos que se dieron. Por lo tanto cuando no es posible rechazar
una hipótesis nula, no se dice que es verdadera, sino que se acepta la hipótesis alterna, o se reserva el juicio.
¡E
1.4 Prueba t de Student. En la investigación médica frecuentemente se trabaja con muestras cuantitativas pequeñas
(número < 30) en las que, al querer compararlas entre sí o con valores teóricos, resulta engañoso observar que las
diferencias encontradas son debidas a un error de muestreo, por lo que se recurre a utilizar la prueba t para comparar la
diferencia entre medias aritméticas.
Tipos de pruebas t
Prueba de t para un promedio → Un promedio poblacional
t pareadas o relacionadas. → Muestras pareadas
Prueba t para igual o diferente → Muestras independientes
número de sujetos por grupo. varianzas homogéneas o
heterogéneas.
La distribución t tiene ciertas características:
- Es simétrica respeto a su media.
- Contiene en su punto central a la media, la moda y a la mediana.
- En general la desviación estándar de t es mayor que la desviación estándar de la distribución normal.
- La curva de t es más baja y más ancha.
Condiciones para utilizar prueba t:
- Que la variable sometida a análisis (dependiente) sea cuantitativa, continua o discontinua (discreta).
- Que la distribución de los valores de las variables en la población sea aproximadamente normal.
- Las observaciones de cada población deben ser obtenidas aleatoriamente.
- Supone que las dos muestras tienen la misma varianza de la población subyacente.
Ejercicio: Prueba de hipótesis, uso de t para promedio.
Se obtuvo el peso de 11 niños de 4 años de edad dentro de una guardería. Se desea saber si el promedio de peso de este
grupo difiere con el de la población en general (µ), cuyo valor es 22 kg.
Peso de los niños: 24,8; 21,6; 27,8; 29,9; 30,0; 23,0; 22,0; 22,6; 21,0; 23,4; 27,5.
Peso premedio: 24,87
- Los niños de la guardería tienen diferente peso promedio ( )x que el promedio de peso de la población general
de la misma edad (µ).
Ho= A = B
Ha= A ≠ B
¡E
- Prueba de t
∑(x - x )
n -1
2
tx
S n=
− µ
(n-1 para muestras y N para población)
- ∝ = 0,05 (0,025 bilateral).
- Grados de libertad = n-1 = 11-1= 10
al buscar en la tabla valor de t crítica = t(0,05;10) = 1,8125
- Criterio: Rechazar Ho si t calculada es ≥ o (≠) que t crítica, o sea:
Si t calculada ≥ 1,8123 o ≤ 1,8125
- Cálculo de la fórmula.
t = 24,87 - 22,0 = 2,87 = 2,85
3,34 / √11 1,007
culada > t crítica
2,85 > 1,8125
- Interpretación: se rechaza la Ho. dado que el valor de t estimado es mayor que t de tabla, por lo tanto A ≠ B; es
decir, existe una diferencia significativa entre la media del peso del grupo de niños estudiados con la media del peso de la
población en general (p< 0.05) que puede ser atribuida al azar.
Ejercicio: t pareada.
Se detectó un grupo de fumadores en la consulta externa de una clínica, los cuales fueron canalizados para participar en
una serie de pláticas de educación para la salud. Se comparó el número de cigarros consumidos antes y después de las
pláticas y se encontró lo siguiente:
¡E
Paciente antes (x) A después (y) B
1
2
3
4
5
6
7
8
9
10
28
19
30
40
37
35
25
18
10
33
15
10
25
32
20
30
30
15
0
28
- Se desea saber si la serie de pláticas tiene efecto sobre el tabaquísmo.
Ho = A = B (no hay diferencia de consumo de cigarrillo)
Ha = A > B (disminuye el consumo de cigarrillo)
- Prueba de t pareada. Para mediciones en un mismo sujeto antes y después de una intervención.
td
E E=
. E E
s
n. = d
x y
n=
− ∑∑
- α = 0,05
- Grados de libertad (n-1) 10-1=9
t (0,05,9) = 2,262
- Criterio: Rechazar Ho, si t calculada es > 2,262
- Cálculo
_
t = 7 = 3,7 E.E= 5,98 = 1,89 d= 70 = 7
1,89 √10 10
- Decisión: Se rechaza hipótesis nula dado que t de tabla es menor que t calculada. Por lo tanto, existe diferencia
significativa entre el consumo de cigarrillo antes y después de las pláticas, resultando una disminución en el consumo de
cigarrillo (p < 0,05).
1.5 Prueba de Chi Cuadrada (X2) para independencia u homogeneidad.
Existen muchos datos que se reúnen en la práctica, que no se prestan para ser analizados en términos de la
curva normal de probabilidad, o para los cuales no podemos establecer suposiciones básicas para su aplicación.
Consideremos un estudio en el cual los datos reunidos están constituidos por rangos (por ejemplo, agrupar estudiantes por
¡E
categorías, según su falta de cooperatividad). Los valores resultantes son cualitativos, ordinales, y se distribuyen en un
modelo rectangular.
La prueba de X2 se utiliza cuando se quiere investigar la asociación entre variables categóricas o cualitativas en una
misma población, también cuando interesa investigar si en las diferentes poblaciones estudiadas los valores o categorías de
cada una de las manifestaciones se presentan en la misma proporción.
Fundamento: Si dos variables no están asociadas, la proporción de individuos en cada categoría de una de las variables no
depende de las categorías de la otra; en cambio, cuando están asociadas, repercutirá directamente, porque la proporción
de individuos de cada una de las categorías de una variable depende de las categorías de la otra variable.
Para realizar esta prueba es necesario conocer la distribución de los valores bajo el supuesto de que no hay asociación.
Para ello, se elabora una tabla de contingencia donde se clasifican a los elementos en forma exhaustiva y en categorías
mutuamente excluyentes, para dos o más variables simultáneamente.
El clasificarlas en forma exhaustiva significa que debe haber suficientes categorías para incluir a todos los individuos. Por
otra parte, clases mutuamente excluyentes significa que el mismo individuo no puede quedar clasificado en más de una
categoría.
A partir de los valores de la tabla de contingencia, se calculan los valores que se esperaría encontrar, llamados valores
esperados, bajo el supuesto de no asociación que es la hipótesis de nulidad. La prueba consiste en comparar esos valores
esperados y los valores observados en el estudio realizado, y ver que tanto discrepan unos de otros. Bajo el supuesto de no
asociación, se espera que está discrepancia sea pequeña ya que esta dada por el azar. Para evaluar el tamaño de la
discrepancia se obtiene un valor llamado X2 calculado y se compara con un valor obtenido en tablas de valores críticos de
X2 que ya existen y que son de uso general (distribución X2).
Requisitos:
- Muestras representativas de cada población.
- Observaciones independientes.
- Mediciones efectuadas en escala nominal u ordinal (variables sociodemográficas).
- La clasificación de los individuos debe ser exhaustiva y mutuamente excluyente.
Población ≥ 15, distribución binomial.
Fórmula: X2= Σ ( o-e )2, donde: e = Tc - Tr
e n
Ejercicio: En julio de 1994 fueron reportadas 152 muertes por carcinoma hepático en hombres que trabajaban en una planta
de cloruro de polivinil. Para determinar si el exceso de muerte por cáncer de acuerdo al número esperado se debían al azar,
se aplicó una prueba de X2.
- Hipótesis:
Ho: P1 = P
2 (Proporción de cáncer hepático en población común es igual a proporción del cáncer en los trabajadores).
Ha: P1 ≠ P
2
¡E
- Fijar el nivel de significancia (α), en 0.05 ó en 0.01. Se utilizará α=0,05 (95% de certeza).
- Calcular los grados de libertad a partir de la tabla de contingencia mediante la fórmula:
g.l = (Nº de filas - 1) x (Nº de columnas - 1)
Para una tabla de contingencia de 2x2= (2-1) x (2-1)= 1
Con un grado de libertad y a un α de 0.05, X2 = 3.841.
- Criterio: Rechazar Ho si X2 calculada >3,841. En caso contrario aceptar la hipótesis nula o se reserva el juicio.
- X2 calculada:
Valor
observado
Casos No Casos TOTAL
Expuestos
152 1.313 1.465
No
expuestos
502 7.911 8.413
TOTAL 654 9.224 9.878
Valor esperado:
celda a = 654 x 1.465 / 9.878 = 97
b = 9.224 x 1.465 / 9.878 = 1.368
c = 654 x 8.413 / 9.878 = 557
d = 9.224 x 8.413 / 9.878 = 7.856
¡E
Nota: si en cualquiera de las celdillas se encontrara un valor esperado inferior a 5, no se puede realizar la prueba de X2.
X2 = (152 - 97)2 + (1,313 - 1.368)2 + (502 - 557)2 + (7.911 - 7.856)2
97 1,368 557 7,856
= 31.18 + 2.21 + 5.43 + 3.85 = 39.21
Interpretación: El exceso de muertes es estadísticamente significativo. Debido a que el valor de X2 calculada es mayor que
el valor de X2 de tabla, se considera que hay discrepancia entre los valores observados y esperados. Se dice que hay
diferencias estadísticamente significativas al nivel de significación escogido y se rechaza la hipótesis de nulidad (Ho) que
establece igual proporción para el exceso de muertes.
1.6 Prueba no paramétrica.
Una prueba no paramétrica de significación se define como aquélla en la cual no se hacen suposiciones que conciernan a
la forma de la distribución principal o población y de acuerdo con esto se le conoce comúnmente como una prueba de
significación de distribución libre. Entre ellas se encuentran: prueba de signos de una muestra, prueba de signos con datos
en pareja, prueba de suma de rangos (Prueba de Wilcoxon), prueba H, prueba de Kruskal-Wallis, correlación de rango,
entre otras.