curso de epidemiologia basica 10a. metodología para el diseño de muestreos dra. sabine hutter...
TRANSCRIPT
CURSO DE EPIDEMIOLOGIA BASICA10a. Metodología para el diseño
de muestreosDra. Sabine Hutter
Centro de Capacitación – Alto de OchomogoMartes, 4 de mayo 2010
Contenido
• De la muestra a la población
• Tipos de muestreos• Cálculo del número de muestras
De la muestra a la población
Pulso de diferentes números de estudiantes
Pulso
N° estudiantes
Pulso de un estudiante
Estudiante 1: Pulso = 89/ minuto
Pulso de 50 estudiantes
Pulso de 50 estudiantes89 68 92 74 76 65 77 83 75 8785 64 79 77 96 80 70 85 80 8082 81 86 71 90 87 71 72 62 7877 90 83 81 73 80 78 81 81 7582 88 79 79 94 82 66 78 74 72
Promedios de pulso de 50 estudiantes en grupos de 10
Pulso de 50 estudiantes89 68 92 74 76 65 77 83 75 8785 64 79 77 96 80 70 85 80 8082 81 86 71 90 87 71 72 62 7877 90 83 81 73 80 78 81 81 7582 88 79 79 94 82 66 78 74 72
81 80 82 76 76
Promedio total: 79.1
Variabilidad de muestreo (Sampling variation)
• Existe una variabilidad de los resultados estadísticas (como promedio, mediana y otras medidas) entre diferentes muestreos.
Si se hacen suficientes muestreos, los promedios de las muestras se van a centrar alrededor del promedio de la población real
Teorema de tendencia central
• En grandes cantidades de muestreos, la distribución de los promedios o proporciones tiende de estar normal
Promedio M = Promedio P
• El promedio de los promedios de los muestreos (PM) = Promedio de la población verdadera (PPv)
PM = PPv
PM un poco <PPv
PM<PPv
PM mucho más <PPv
PM un poco >PPv
PM>PPv
PM mucho más >PPv
Varianza
• Mide la desviación promedio de los valores individuales con respecto a la media
• Cociente entre la suma de los cuadrados de la diferencia entre cada valor y el promedio, y el número de valores observados menos 1.
Varianza = (15-19.7)^2+(15-19.7)^2…+ (32-19.7)^2 + (37-19.7)^2 11-1
Desviación estándar
• Raíz cuadrada de la varianza
57.219 = 7.56 días
La desviación estándar de muestreos vs. la desviación estándar de la población
• Cual desviación estándar es más grande, la de las muestras o la de la población?
La desviación de la población!!
Error estándar (SE) del promedio
• La desviación estándar de una distribución de muestreos (ej. de los promedios de los muestreos) se llama: ERROR ESTANDAR
• La idea del error estándar es de estimar las probabilidades que el promedio de una muestra es mucho más grande o más pequeña que el promedio de la población
Calculo del error estándar
Error estándar SE = Desviación estándar / número de muestras
Ejemplo: Desviación estándar del pulso de 50 estudiantes = 7.6 => 7.6/50 = 1.1
Error estándar
• Depende de 3 factores:– La desviación estándar– El tamaño de la muestra– La proporción de la población cubierta
por la muestra
• UN ERROR ESTÁNDAR PEQUEÑO DA CONFIANZA QUE EL PROMEDIO DE LA MUESTRA ES CERCA AL PROMEDIO DE LA POBLACIÓN!!
A partir de 30 muestras, la
desviación estándar de la muestra es suficiente exacto para estimar la
desviación estándar de la población
PM un poco <PP
PM<PP
PM mucho más <PP
PM un poco >PP
PM>PP
PM mucho más >PP
SE SE SE SE SE SE
68% Promedio +/- 1 SE
La probabilidad que el promedio
verdadero de la población está afuera de este rango es 32%
Intervalo de Confianza de 68%
Intervalo de Confianza de 68%
SE SE SE SE SE SE
68% Promedio +/- 1 SE
95% Promedio +/- 2 SE
95% Promedio +/- 2 SE
Intervalo de Confianza de 95%Intervalo de Confianza de 95%
SE SE SE SE SE SE
68% Promedio +/- 1 SE
Intervalo de Confianza de 99.7%Intervalo de Confianza de 99.7%
99.7% Promedio +/- 3 SE
Intervalos de confianza (IC)
• Los más usados:– Intervalo de confianza de 95% =
Promedio de la muestra +/- 1.96 SE– Intervalo de confianza de 99% =
Promedio de la muestra +/- 2.58 SE
Ejemplo – Pulso de estudiantes
• Promedio aritmético del pulso de los estudiantes = 79.1
• Desviación estándar = 7.6
• Cuál sea el promedio aritmético verdadero de la población (de casi 1000 estudiantes?)
SE = 7.6/50 = 1.1 IC (95%) = 79.1 +/- 1.96*1.1
IC (95%) = 76.9 a 81.3
El chance de que el promedio aritmético verdadero es menos
de 76.9 o mas de 81.3 es 5% o
1 chance en 20.
El chance de que el promedio aritmético verdadero es menos
de 76.9 o mas de 81.3 es 5% o
1 chance en 20.
Error estándar de una proporción
• En caso de una variable categórica• Ej. Muestra de 100 ex-estudiantes,
20 sin trabajo (80 con trabajo):
SE proporción: (0.2*0.8)/100 = 0.04
Tipos de muestreos
Como estar seguro que la enfermedad no esta presente en una población?
• Hay que muestrear todos los animales!!!
• Censo
• Caro y a veces imposible
Alternativas?
Población
Muestreo
Estadistica
Porque hay que calcular el tamaño de la muestra?
• Muy pocas muestras -> es posible que no se recibe la respuesta correcta!
• Muchas muestras -> perdida de tiempo y recursos
• Ambos son poco éticos!!!
Muestreo sin probabilidades vs. muestreo de probabilidades
Muestreo sin probabilidades
• Normalmente por conveniencia ej. Se utilizan hatos donde es fácil de llegar, donde se conoce el propietario etc.– “BIAS” = SESGO
• Desafortunadamente todavía utilizados frecuentemente!
Muestreo de probabilidades
• Cada individuo tiene el mismo chance de estar incluido en el muestreo
Censo versus muestreo
• Censo– Muestreo de todos los
animales– Caro– Necesita mucho tiempo– Puede estar difícil de
hacer por problemas logísticas y administrativas
• Muestreo– Se toman
muestras de solamente algunos de los animales de la población
– Mas barato– Más rápido
La meta del muestreo
• Representación verdadera de la población
Marco de muestreo e unidad de muestreo
• Marco de muestreo: Lista de todas unidades de muestreo
• Unidad de muestreo: elemento básico de la población que está muestreadaej. Cuadrícula, hato, animal
– Unidad de muestreo primario ej. cuadrícula, hato– Unidad de muestreo secundario ej. animales
individuales
Típos de muestreo
• Muestreo aleatorio– Muestreo aleatorio simple– Muestreo aleatorio sistemático
• Muestreo estratificado• Muestreo por conglomerados• Muestreo polietápico
Muestreo aleatorio simple (Simple random sample)
• Cada animal tiene el mismo chance de estar seleccionado
• La selección de este animal no influencia la selección de otro animal
• Se necesita conocer todas las unidades de muestreo
Números aleatorios (random numbers)
• Sacar números de un sombrero • Tabla de numeros al azar• Generados con computadora• Tirar la moneda• Etc.
Números aleatorios en Excel
• Usar función =ALEATORIO.ENTRE()• Ej. =ALEATORIO.ENTRE(1;5000)• Copiar formular hasta la celda deseada
dependiendo del número necesitado ej. A100
• Copiar y pegar los valores como „Pegado Especial“ -> „Valores“ (porque las celdas se actualizan cada vez que uno da „ejecutar“ Paste values only
• listo para uso
Muestreo aleatorio sistemático (Systematic random sampling)
– Muestrear cada n animal ej. cada decimo animal
– Debe haber una distribución homogenea en la población de estudio
– Puede causar sesgo de selección
Muestreo estratificado (Stratified sampling)
Estratificar ej. por raza
Tomar muestra al azar Tomar muestra al azar
Muestreo estratificado
• Estratificación ej. Por propósito, o raza– Leche vs. Carne: diferencias en la
prevalencia de brucelosis– Jersey vs. Holstein: diferencias en la
producción de leche
• La varianza entre los estratos debe estar grande
• Toma muestras al azar de cada estrato!
Muestreo por conglomerados (Cluster sampling)
• Conglomerados pueden ser pueblos, fincas, hatos etc.
• Ej. Una camada es un conglomerado de cerditos, un hato es un conglomerado de vacas, un pueblo tiene un conglomerado de fincasSe utiliza cuando no hay una lista confiable de todos los miembros de la población de interés
• Muestreo aleatorio o sistemático de los conglomerados
• Se toman muestras de todos los individuos del conglomerado
Muestreo por conglomerados
Muestreo por conglomerados
• Muchas veces es más fácil de conseguir una lista de fincas, que una lista de animales individuos ej. todas las vacas en el país
• Es más fácil muestrear ej. todos los terneros en pocas fincas que pocos terneros en muchas fincas (muestreo aleatorio simple)
• Más barato
• Pero: en muchos aspectos animales en un conglomerado suelen estar más similares entre ellos que animales en otro conglomerado (inmunidad, genética, enfermedades etc.)
Muestreo polietápico(Multistage sampling)
• Se utiliza cuando los conglomerados son demasiado grandes para muestrear cada individuo del conglomerado
• Se utiliza cuando los individuos de los conglomerados son demasiado parecidos y no tiene sentido tomar muestras de ellos todos
Muestreo polietápico(Multistage sampling)
• Si el tamaño de la unidad primaria es conocida:– Elegir la unidad primaria
de muestreo ej. hato según tamaño hatos grandes deben tener una probabilidad más alta de ser elegidos que hatos pequeños
– Elegir un número fijo de animales de la unidad secundaria de muestreo ej. 10 animales
• Si el tamaño de la unidad primaria no es conocida:– Elegir una muestra
aleatoria simple de la unidad primaria de muestreo
– Muestrear una proporción constante de animales de cada hato ej. 10% de todos los animales en el hato
Muestreo polietápico(Multistage sampling)
• Muestreo aleatorio en niveles jerárquicos diferentes
• Muchas veces se utiliza en dos etapas
Primera etapa: muestreo aleatorio de hatos en un paísSegunda etapa: muestreo aleatorio de animales en cada hato seleccionado
Cálculo de la muestra
Población externa
La población a muestrear
Población metaPoblación meta
Población de estudio
Población de estudio
MuestraMuestra
Muestreo al azar
Juzgado de sentido commún
Marco de muestreo
MARCO DE MUESTREO
UNIDADES DE MUESTREO
= Lista de todas las unidades de muestreo en la población meta
Estudios descriptivos vs. estudios analíticos
• Estudio descriptivo: describe los atributos de una población, como frecuencia de una enfermedad, nivel de producción etc.– Ej. Cual proporción de las vacas está infectada con
brucelosis?
• Estudio analítico: pruebe una hipótesis de una asociación entre resultados y factores de exposición en la población– Ej. El tipo de estabulación está asociado con la
prevalencia de brucelosis?
Tipos de errores en un muestreo
• Error de medición (→ Precisión)• Variabilidad de muestreo (→
Exactitud)• (Sesgo) (→ Validez)
Propiedades de una muestra
Variabilidad de la
muestra
Variabilidad de la
muestraError de mediciónError de medición
Determinación del tamaño de la muestra
• Consideraciones estadísticas:– Precisión – Variabilidad – Nivel de confianza (=1-α)– El poder (en estudios analíticos) (= 1- β)
El calculo del tamaño de la muestra necesita información previa!!!
• Se necesita información previa como por ejemplo la prevalencia de la enfermedad– Ej. de estudios anteriores
• El resultado del tamaño de la muestra es una guía, no un numero mágico!!!
Precisión
• Lo mas preciso que se requiere el resultado, lo mas muestras se necesitan– Ejemplo: si se quiere saber cuantos
bovinos son positivos a tuberculosis con +/- 5% de precisión, se necesitan más muestras de que si se requiere una precisión de +/- 10%
Variabilidad de los datos
• Para proporciones:– La varianza de una proporción es p*q, donde p
es la proporción de interés, y q es (1-p) se necesita saber aproximadamente la proporción que se requiere conocer paradójico!!!!
• Para variables continuos: – Se utiliza la varianza de la población. Muchas
veces no se conoce la deviación estándar, se debe estimar: ej. 95% de los valores están entre 150 y 250 kg 4 deviaciones estándar (250-150)/4 = 25 kg varianza = 625
Nivel de confianza
• Normalmente 95% = Error del tipo I de 5%
Tipos de errores en un estudio analítico
POTENCIA! (POWER)
Tipos de errores en un estudio analítico
• Error Tipo I (α): se concluye que los resultados son diferentes cuando en realidad no lo son
• Error Tipo II (β): se concluye que los resultados no son diferentes cuando en realidad si lo son
Potencia (Power)
• Probabilidad que se encuentra una diferencia estadística cuando realmente existe
• Razones por no encontrar un efecto en el estudio:– No había efecto– El diseño del estudio no fue apropiado– El tamaño de la muestra fue demasiado pequeña– Mala suerte
• Poder = 1- β• Para aumentar el poder, hay que incrementar el
número de muestras• Ej.: Si existe una diferencia verdadera de 20 kg
entre machos y hembras, un estudio con un poder de 80% va a encontrar esta diferencia 80% del tiempo.
Calculando la frecuencia de una enfermedad
1. Estime la frecuencia (prevalencia) si no se conoce, utiliza el estimado de 50% esto da el número de muestras más altas para el mismo nivel de precisión
2. Elige el intervalo de confianza deseado (normalmente 95%)
3. Decide la precisión requerida (más común: 95%) es la distancia del estimado de la muestra en cada dirección de la proporción de la población - Absoluto- Relativo
Formula para la proporción en una población infinita
n = 1.962 * P(1-P)d2
n…número de muestras requeridas P…prevalenciad…precisión
Factor de corrección para una población “finita”
n= 11/n + 1/N
n…número de muestras requeridas N…número de individuos en la población “finita”
Muestreo para detectar enfermedad
• Si existe una enfermedad contagiosa, es muy poco probable que por ejemplo menos del 1% de la población estuvieraa infectada
• Basado en este hecho se puede calcular el tamaño de la muestra requerido para estar razonablemente confidente que se detectaría la enfermedad si la prevalencia estuviera 1% o más alto
Muestreo para detectar enfermedad
Prevalence
Population size
0.1% 1% 2% 5% 10% 20%
10 10 10 10 10 10 8
50 50 50 48 35 22 12
100 100 96 78 45 25 13
500 500 225 129 56 28 14
1000 950 258 138 57 29 14
10000 2588 294 148 59 29 14
infinite 2995 299 149 59 29 14
Detection of disease in a finite population
• For a finite population
n = [1 – (1- β)1/D][(N – (D-1)/2)]
β …confidence level (usually 0.95)N…population sizeD…estimated number of minimum diseased animals in the group
(population size*minimum expected prevalence)
Detection of disease in an infinite population (>1000)
n = (log (1- β)) / [log(1- D/N)]
n…sample sizeβ …confidence level (usually 0.95)N…population sizeD…estimated number of minimum diseased animals in the group
(population size*minimum expected prevalence)
Exercise
• Use WinEpiScope
Capacitacion epidemiologica en fiebre aftosa, Oruro, Bolivia. Abril 24 – Mayo 3, 2006
Example
• We want to calculate the number of dairy cows that need to be sampled in order to find out the prevalence of mastitis– A pilote study has shown that around 10%
of dairy cows in a country show mastitis– The acceptable absolute precision is
assumed to be +/-5%
n = ? 138
Ejercicio
• Calculate n for a finite population of only 400 animals
n=? 103
Ejercicios with WinEpiScope
• Repeat the same calculations for the estimation of mastitis in a an infinite and a finite population (N = 400) with this statistical programme
Ejercicios with WinEpiScope 2
• You have a hypothesis that 10% of Jersey cattle show mastitis, but 20% of Holstein cattle
• Calculate the number of cattle to be sampled in each group with a level of confidence of 95% and a power of 80%.
n = ? 156
Exercise
• How many samples do you need to take to be 95 % confident to detect at least one positive, if the prevalence is 5%, and your population is 500 animals?
• How many, if you have an infinite population and a 1% prevalence?