curso de epidemiologia basica 10a. metodología para el diseño de muestreos dra. sabine hutter...

CURSO DE EPIDEMIOLOGIA BASICA10a. Metodología para el diseño

de muestreosDra. Sabine Hutter

Centro de Capacitación – Alto de OchomogoMartes, 4 de mayo 2010

Contenido

• De la muestra a la población

• Tipos de muestreos• Cálculo del número de muestras

De la muestra a la población

Pulso de diferentes números de estudiantes

Pulso

N° estudiantes

Pulso de un estudiante

Estudiante 1: Pulso = 89/ minuto

Pulso de 50 estudiantes

Pulso de 50 estudiantes89 68 92 74 76 65 77 83 75 8785 64 79 77 96 80 70 85 80 8082 81 86 71 90 87 71 72 62 7877 90 83 81 73 80 78 81 81 7582 88 79 79 94 82 66 78 74 72

Promedios de pulso de 50 estudiantes en grupos de 10

Pulso de 50 estudiantes89 68 92 74 76 65 77 83 75 8785 64 79 77 96 80 70 85 80 8082 81 86 71 90 87 71 72 62 7877 90 83 81 73 80 78 81 81 7582 88 79 79 94 82 66 78 74 72

81 80 82 76 76

Promedio total: 79.1

Variabilidad de muestreo (Sampling variation)

• Existe una variabilidad de los resultados estadísticas (como promedio, mediana y otras medidas) entre diferentes muestreos.

Si se hacen suficientes muestreos, los promedios de las muestras se van a centrar alrededor del promedio de la población real

Teorema de tendencia central

• En grandes cantidades de muestreos, la distribución de los promedios o proporciones tiende de estar normal

Promedio M = Promedio P

• El promedio de los promedios de los muestreos (PM) = Promedio de la población verdadera (PPv)

PM = PPv

PM un poco <PPv

PM<PPv

PM mucho más <PPv

PM un poco >PPv

PM>PPv

PM mucho más >PPv

Varianza

• Mide la desviación promedio de los valores individuales con respecto a la media

• Cociente entre la suma de los cuadrados de la diferencia entre cada valor y el promedio, y el número de valores observados menos 1.

Varianza = (15-19.7)^2+(15-19.7)^2…+ (32-19.7)^2 + (37-19.7)^2 11-1

Desviación estándar

• Raíz cuadrada de la varianza

57.219 = 7.56 días

La desviación estándar de muestreos vs. la desviación estándar de la población

• Cual desviación estándar es más grande, la de las muestras o la de la población?

La desviación de la población!!

Error estándar (SE) del promedio

• La desviación estándar de una distribución de muestreos (ej. de los promedios de los muestreos) se llama: ERROR ESTANDAR

• La idea del error estándar es de estimar las probabilidades que el promedio de una muestra es mucho más grande o más pequeña que el promedio de la población

Calculo del error estándar

Error estándar SE = Desviación estándar / número de muestras

Ejemplo: Desviación estándar del pulso de 50 estudiantes = 7.6 => 7.6/50 = 1.1

Error estándar

• Depende de 3 factores:– La desviación estándar– El tamaño de la muestra– La proporción de la población cubierta

por la muestra

• UN ERROR ESTÁNDAR PEQUEÑO DA CONFIANZA QUE EL PROMEDIO DE LA MUESTRA ES CERCA AL PROMEDIO DE LA POBLACIÓN!!

A partir de 30 muestras, la

desviación estándar de la muestra es suficiente exacto para estimar la

desviación estándar de la población

PM un poco <PP

PM<PP

PM mucho más <PP

PM un poco >PP

PM>PP

PM mucho más >PP

SE SE SE SE SE SE

68% Promedio +/- 1 SE

La probabilidad que el promedio

verdadero de la población está afuera de este rango es 32%

Intervalo de Confianza de 68%

Intervalo de Confianza de 68%

SE SE SE SE SE SE




Intervalo de Confianza de 95%Intervalo de Confianza de 95%

SE SE SE SE SE SE


Intervalo de Confianza de 99.7%Intervalo de Confianza de 99.7%

99.7% Promedio +/- 3 SE

Intervalos de confianza (IC)

• Los más usados:– Intervalo de confianza de 95% =

Promedio de la muestra +/- 1.96 SE– Intervalo de confianza de 99% =

Promedio de la muestra +/- 2.58 SE

Ejemplo – Pulso de estudiantes

• Promedio aritmético del pulso de los estudiantes = 79.1

• Desviación estándar = 7.6

• Cuál sea el promedio aritmético verdadero de la población (de casi 1000 estudiantes?)

SE = 7.6/50 = 1.1 IC (95%) = 79.1 +/- 1.96*1.1

IC (95%) = 76.9 a 81.3

El chance de que el promedio aritmético verdadero es menos

de 76.9 o mas de 81.3 es 5% o

1 chance en 20.

El chance de que el promedio aritmético verdadero es menos

de 76.9 o mas de 81.3 es 5% o

1 chance en 20.

Error estándar de una proporción

• En caso de una variable categórica• Ej. Muestra de 100 ex-estudiantes,

20 sin trabajo (80 con trabajo):

SE proporción: (0.2*0.8)/100 = 0.04

Tipos de muestreos

Como estar seguro que la enfermedad no esta presente en una población?

• Hay que muestrear todos los animales!!!

• Censo

• Caro y a veces imposible

Alternativas?

Población

Muestreo

Estadistica

Porque hay que calcular el tamaño de la muestra?

• Muy pocas muestras -> es posible que no se recibe la respuesta correcta!

• Muchas muestras -> perdida de tiempo y recursos

• Ambos son poco éticos!!!

Muestreo sin probabilidades vs. muestreo de probabilidades

Muestreo sin probabilidades

• Normalmente por conveniencia ej. Se utilizan hatos donde es fácil de llegar, donde se conoce el propietario etc.– “BIAS” = SESGO

• Desafortunadamente todavía utilizados frecuentemente!

Muestreo de probabilidades

• Cada individuo tiene el mismo chance de estar incluido en el muestreo

Censo versus muestreo

• Censo– Muestreo de todos los

animales– Caro– Necesita mucho tiempo– Puede estar difícil de

hacer por problemas logísticas y administrativas

• Muestreo– Se toman

muestras de solamente algunos de los animales de la población

– Mas barato– Más rápido

La meta del muestreo

• Representación verdadera de la población

Marco de muestreo e unidad de muestreo

• Marco de muestreo: Lista de todas unidades de muestreo

• Unidad de muestreo: elemento básico de la población que está muestreadaej. Cuadrícula, hato, animal

– Unidad de muestreo primario ej. cuadrícula, hato– Unidad de muestreo secundario ej. animales

individuales

Típos de muestreo

• Muestreo aleatorio– Muestreo aleatorio simple– Muestreo aleatorio sistemático

• Muestreo estratificado• Muestreo por conglomerados• Muestreo polietápico

Muestreo aleatorio simple (Simple random sample)

• Cada animal tiene el mismo chance de estar seleccionado

• La selección de este animal no influencia la selección de otro animal

• Se necesita conocer todas las unidades de muestreo

Números aleatorios (random numbers)

• Sacar números de un sombrero • Tabla de numeros al azar• Generados con computadora• Tirar la moneda• Etc.

Números aleatorios en Excel

• Usar función =ALEATORIO.ENTRE()• Ej. =ALEATORIO.ENTRE(1;5000)• Copiar formular hasta la celda deseada

dependiendo del número necesitado ej. A100

• Copiar y pegar los valores como „Pegado Especial“ -> „Valores“ (porque las celdas se actualizan cada vez que uno da „ejecutar“ Paste values only

• listo para uso

Muestreo aleatorio sistemático (Systematic random sampling)

– Muestrear cada n animal ej. cada decimo animal

– Debe haber una distribución homogenea en la población de estudio

– Puede causar sesgo de selección

Muestreo estratificado (Stratified sampling)

Estratificar ej. por raza

Tomar muestra al azar Tomar muestra al azar

Muestreo estratificado

• Estratificación ej. Por propósito, o raza– Leche vs. Carne: diferencias en la

prevalencia de brucelosis– Jersey vs. Holstein: diferencias en la

producción de leche

• La varianza entre los estratos debe estar grande

• Toma muestras al azar de cada estrato!

Muestreo por conglomerados (Cluster sampling)

• Conglomerados pueden ser pueblos, fincas, hatos etc.

• Ej. Una camada es un conglomerado de cerditos, un hato es un conglomerado de vacas, un pueblo tiene un conglomerado de fincasSe utiliza cuando no hay una lista confiable de todos los miembros de la población de interés

• Muestreo aleatorio o sistemático de los conglomerados

• Se toman muestras de todos los individuos del conglomerado

Muestreo por conglomerados

Muestreo por conglomerados

• Muchas veces es más fácil de conseguir una lista de fincas, que una lista de animales individuos ej. todas las vacas en el país

• Es más fácil muestrear ej. todos los terneros en pocas fincas que pocos terneros en muchas fincas (muestreo aleatorio simple)

• Más barato

• Pero: en muchos aspectos animales en un conglomerado suelen estar más similares entre ellos que animales en otro conglomerado (inmunidad, genética, enfermedades etc.)

Muestreo polietápico(Multistage sampling)

• Se utiliza cuando los conglomerados son demasiado grandes para muestrear cada individuo del conglomerado

• Se utiliza cuando los individuos de los conglomerados son demasiado parecidos y no tiene sentido tomar muestras de ellos todos


• Si el tamaño de la unidad primaria es conocida:– Elegir la unidad primaria

de muestreo ej. hato según tamaño hatos grandes deben tener una probabilidad más alta de ser elegidos que hatos pequeños

– Elegir un número fijo de animales de la unidad secundaria de muestreo ej. 10 animales

• Si el tamaño de la unidad primaria no es conocida:– Elegir una muestra

aleatoria simple de la unidad primaria de muestreo

– Muestrear una proporción constante de animales de cada hato ej. 10% de todos los animales en el hato


• Muestreo aleatorio en niveles jerárquicos diferentes

• Muchas veces se utiliza en dos etapas

Primera etapa: muestreo aleatorio de hatos en un paísSegunda etapa: muestreo aleatorio de animales en cada hato seleccionado

Cálculo de la muestra

Población externa

La población a muestrear

Población metaPoblación meta

Población de estudio

Población de estudio

MuestraMuestra

Muestreo al azar

Juzgado de sentido commún

Marco de muestreo

MARCO DE MUESTREO

UNIDADES DE MUESTREO

= Lista de todas las unidades de muestreo en la población meta

Estudios descriptivos vs. estudios analíticos

• Estudio descriptivo: describe los atributos de una población, como frecuencia de una enfermedad, nivel de producción etc.– Ej. Cual proporción de las vacas está infectada con

brucelosis?

• Estudio analítico: pruebe una hipótesis de una asociación entre resultados y factores de exposición en la población– Ej. El tipo de estabulación está asociado con la

prevalencia de brucelosis?

Tipos de errores en un muestreo

• Error de medición (→ Precisión)• Variabilidad de muestreo (→

Exactitud)• (Sesgo) (→ Validez)

Propiedades de una muestra

Variabilidad de la

muestra

Variabilidad de la

muestraError de mediciónError de medición

Determinación del tamaño de la muestra

• Consideraciones estadísticas:– Precisión – Variabilidad – Nivel de confianza (=1-α)– El poder (en estudios analíticos) (= 1- β)

El calculo del tamaño de la muestra necesita información previa!!!

• Se necesita información previa como por ejemplo la prevalencia de la enfermedad– Ej. de estudios anteriores

• El resultado del tamaño de la muestra es una guía, no un numero mágico!!!

Precisión

• Lo mas preciso que se requiere el resultado, lo mas muestras se necesitan– Ejemplo: si se quiere saber cuantos

bovinos son positivos a tuberculosis con +/- 5% de precisión, se necesitan más muestras de que si se requiere una precisión de +/- 10%

Variabilidad de los datos

• Para proporciones:– La varianza de una proporción es p*q, donde p

es la proporción de interés, y q es (1-p) se necesita saber aproximadamente la proporción que se requiere conocer paradójico!!!!

• Para variables continuos: – Se utiliza la varianza de la población. Muchas

veces no se conoce la deviación estándar, se debe estimar: ej. 95% de los valores están entre 150 y 250 kg 4 deviaciones estándar (250-150)/4 = 25 kg varianza = 625

Nivel de confianza

• Normalmente 95% = Error del tipo I de 5%

Tipos de errores en un estudio analítico

POTENCIA! (POWER)

Tipos de errores en un estudio analítico

• Error Tipo I (α): se concluye que los resultados son diferentes cuando en realidad no lo son

• Error Tipo II (β): se concluye que los resultados no son diferentes cuando en realidad si lo son

Potencia (Power)

• Probabilidad que se encuentra una diferencia estadística cuando realmente existe

• Razones por no encontrar un efecto en el estudio:– No había efecto– El diseño del estudio no fue apropiado– El tamaño de la muestra fue demasiado pequeña– Mala suerte

• Poder = 1- β• Para aumentar el poder, hay que incrementar el

número de muestras• Ej.: Si existe una diferencia verdadera de 20 kg

entre machos y hembras, un estudio con un poder de 80% va a encontrar esta diferencia 80% del tiempo.

Calculando la frecuencia de una enfermedad

1. Estime la frecuencia (prevalencia) si no se conoce, utiliza el estimado de 50% esto da el número de muestras más altas para el mismo nivel de precisión

2. Elige el intervalo de confianza deseado (normalmente 95%)

3. Decide la precisión requerida (más común: 95%) es la distancia del estimado de la muestra en cada dirección de la proporción de la población - Absoluto- Relativo

Formula para la proporción en una población infinita

n = 1.962 * P(1-P)d2

n…número de muestras requeridas P…prevalenciad…precisión

Factor de corrección para una población “finita”

n= 11/n + 1/N

n…número de muestras requeridas N…número de individuos en la población “finita”

Muestreo para detectar enfermedad

• Si existe una enfermedad contagiosa, es muy poco probable que por ejemplo menos del 1% de la población estuvieraa infectada

• Basado en este hecho se puede calcular el tamaño de la muestra requerido para estar razonablemente confidente que se detectaría la enfermedad si la prevalencia estuviera 1% o más alto

Muestreo para detectar enfermedad

Prevalence

Population size

0.1% 1% 2% 5% 10% 20%

10 10 10 10 10 10 8

50 50 50 48 35 22 12

100 100 96 78 45 25 13

500 500 225 129 56 28 14

1000 950 258 138 57 29 14

10000 2588 294 148 59 29 14

infinite 2995 299 149 59 29 14

Detection of disease in a finite population

• For a finite population

n = [1 – (1- β)1/D][(N – (D-1)/2)]

β …confidence level (usually 0.95)N…population sizeD…estimated number of minimum diseased animals in the group

(population size*minimum expected prevalence)

Detection of disease in an infinite population (>1000)

n = (log (1- β)) / [log(1- D/N)]

n…sample sizeβ …confidence level (usually 0.95)N…population sizeD…estimated number of minimum diseased animals in the group

(population size*minimum expected prevalence)

Exercise

• Use WinEpiScope

Capacitacion epidemiologica en fiebre aftosa, Oruro, Bolivia. Abril 24 – Mayo 3, 2006

Example

• We want to calculate the number of dairy cows that need to be sampled in order to find out the prevalence of mastitis– A pilote study has shown that around 10%

of dairy cows in a country show mastitis– The acceptable absolute precision is

assumed to be +/-5%

n = ? 138

Ejercicio

• Calculate n for a finite population of only 400 animals

n=? 103

Ejercicios with WinEpiScope

• Repeat the same calculations for the estimation of mastitis in a an infinite and a finite population (N = 400) with this statistical programme

Ejercicios with WinEpiScope 2

• You have a hypothesis that 10% of Jersey cattle show mastitis, but 20% of Holstein cattle

• Calculate the number of cattle to be sampled in each group with a level of confidence of 95% and a power of 80%.

n = ? 156

Exercise

• How many samples do you need to take to be 95 % confident to detect at least one positive, if the prevalence is 5%, and your population is 500 animals?

• How many, if you have an infinite population and a 1% prevalence?

curso de epidemiologia basica 10a. metodología para el diseño de muestreos dra. sabine hutter...

Documents