cap1

11

Click here to load reader

Upload: jose-eduardo-millones

Post on 01-Jul-2015

21 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Cap1

Capıtulo 1

Conceptos de muestreo

1.1. Definiciones basicas

La necesidad de informacion estadıstica parece interminable en la sociedadactual. Podemos observar como constantemente se recoge informacion de todotipo sobre conjuntos concretos de elementos (personas o cosas): el numero dehabitantes de una localidad, el beneficio de un sector empresarial, en que invier-ten su tiempo libre los habitantes de grandes ciudades, la intencion de voto decara a unas elecciones, etc.

En toda investigacion estadıstica existe un conjunto de elementos sobre losque se toma la informacion. Este conjunto de elementos es lo que se denota conel nombre de poblacion. Cuando el estadıstico toma informacion de todos y cadauno de los elementos de la poblacion estadıstica se dice que se esta realizandoun censo. Sin embargo, esto no es muchas veces posible, ya sea por el costeque resulta de la toma de informacion, o bien porque la toma de informacionlleva consigo la destruccion de los elementos en cuestion o que la poblacion tieneinfinitos elementos.

Este problema lleva al investigador a tomar la informacion solo de una par-te de los elementos de la poblacion estadıstica, proceso que recibe el nombrede muestreo y al conjunto de elementos de los que se toma la informacion sedenomina muestra. A partir de la informacion recogida en los elementos de lamuestra se realizara una inferencia sobre el comportamiento de los elementosde la poblacion. Existe una amplia gama de metodos estadısticos para recogery analizar estas muestras. En este curso analizaremos varios de estos metodos.

A continuacion damos una serie de definiciones que nos van a servir comointroduccion a la exposicion de este curso.

Definicion 1.1 Un elemento (o unidad) es un objeto sobre el que se realiza unamedicion de una variable bajo estudio.

Denotamos por u1 un elemento o unidad sobre la cual se realiza la medicionde una variable bajo estudio X. Sea X1 el valor que toma la caracterıstica Xsobre la unidad u1.

1

Page 2: Cap1

Ejemplo 1 Se desea realizar un estudio sobre el consumo navideno de las fa-milias espanoles en las pasadas navidades. Para este ejemplo, un elemento delestudio serıa cualquier familia en Espana. El gasto aproximado de dicha familiaen las navidades constituirıa la medicion para este estudio.

Ejemplo 2 En una determinada ciudad se llevo a cabo una encuesta de opinioncon el fin de determinar el sentir general de los ciudadanos hacia la peatonaliza-cion de su casco antiguo. Para este ejemplo particular, un elemento del estudioserıa cualquier ciudadano de dicha ciudad. La variable en estudio consiste enla preferencia de la peatonalizacion del caso antiguo. En este caso las medidasobtenidas no son numericas sino que solo recogen la preferencia o no (si-No).Para este tipo de variables, lo que se hace es registrar un 1 para los ciudadanosque esten a favor y un cero para los que esten en contra.

Ejemplo 3 Se desea hacer un estudio sobre la proporcion de votantes para undeterminado partido polıtico A en las proximas elecciones generales. Entonces,en este caso, el elemento serıa cualquier votante potencial, es decir, cualquierindividuo incluido en el censo electoral. En este caso, la variable en estudioserıa la preferencia al voto por el partido A. La variable sera medida como 1 siel votante prefiere el partido A y 0 si no.

Definicion 1.2 Una poblacion es un conjunto de N elementos sobre los quese desea realizar el estudio y de la cual podemos obtener informacion sobreuna caracterıstica X. Se suele denotar por Ω = u1, u2, . . . , uN o simplementeΩ = 1, 2, . . . , N.

Ejemplo 4 Para el Ejemplo 1, la poblacion serıa el conjunto de todas las fa-milias espanolas donde la caracterıstica a estudiar serıa su consumo navideno.Para el Ejemplo 2, la poblacion es el conjunto de todas los habitantes de laciudad. En el Ejemplo 3, la poblacion serıa el Censo Electoral.

Obviamente, la misma poblacion tendra diferentes tipos de medidas o medi-ciones para diferentes variables de estudio. Atendiendo al numero de elementosque la constituyen, las poblaciones podrıan dividirse en finitas e infinitas. Porejemplo, el Censo Electoral al que se hacer referencia en el Ejemplo 3 es finita.Sin embargo, poblaciones como el agua contenida dentro de un tanque, podrıaconsiderarse como infinita con respecto al numero de moleculas que lo consti-tuyen. Generalmente, trataremos con poblaciones finitas. Los resultados parapoblaciones infinitas podrıan usarse en el caso de poblaciones finitas con ungran numero de elementos.

Definicion 1.3 Se define por unidad de muestreo a los conjuntos no solapadosde la poblacion que cubren la poblacion completamente.

Si cada unidad de muestreo contiene uno y solamente un elemento de la pobla-cion se le suele denominar unidad primaria. Si por el contrario contiene variosse le denomina compuesta.

2

Page 3: Cap1

Como hemos senalado anteriormente en el Ejemplo 3 cualquier integrantedel Censo Electoral es un elemento de dicho estudio. Sin embargo, tambienes posible analizar hogares en lugar de votantes particulares y preguntar lapreferencia del voto en los hogares muestreados. En esta situacion, cada uno delos hogares serıa la unidad de muestreo y el numero de elementos en cualquierunidad de muestreo podrıa ser 0, 1 o mas dependiendo del numero de votantesregistrados en cada hogar. Si cada unidad de muestreo contiene un elemento dela poblacion, entonces unidad de muestreo y elemento coinciden.

Definicion 1.4 Un marco es una lista de unidades de muestreo.

Ejemplo 5 En el ejemplo 3, si los votantes individuales se toman como unidadde muestreo, entonces la lista de todos los votantes constituira el marco paradicho estudio. Por otra parte, si tomamos como unidad de muestreo los hogares,entonces la lista de todos los hogares servirıa como marco para seleccionar unamuestra de hogares.

Senalar que el marco podrıa no incluir todas las unidades de muestreo dela poblacion ya que las listas de todas las unidades no se actualiza cada dıa.Si el marco lo constituyen los votantes de una determinada ciudad, este marcopodrıa incluir algunos votantes que han fallecido ahora y podrıa no incluir losnombres de los individuos que alcanzan la condicion de votantes despues de queel marco se preparase por ultima vez. El investigador debe de pretender que laseparacion entre marco y poblacion sea lo mas pequena posible.

Definicion 1.5 Una muestra es una coleccion de unidades de muestreo obteni-das a partir de un marco.

En la practica, el numero de unidades seleccionadas en una muestra es mu-cho menor que el numero de unidades de la poblacion. La inferencia sobre elcomportamiento de la variable en estudio en la poblacion entera se extrae delas observaciones de la variable en estudio para las unidades seleccionadas dela muestra. En el Ejemplo 3, la preferencia de voto para el partido A se pre-guntara solo a los votantes de la muestra seleccionada. Esta informacion seusara para estimar la proporcion de votos en el partido A en toda la poblacion.

Al numero de unidades (no necesariamente distintas) incluidas en la mues-tra se le conoce como tamano muestral y se denota generalmente po n mientrasque el numero de unidades que constituyen la poblacion se denomina tamanopoblacional y se denota por N . El cociente n/N se conoce como fraccion demuestreo. En un estudio determinado, si n/N ∼= 0, es decir la fraccion de mues-treo esta cercana al cero, la muestra contiene muy pocos elementos en relacional tamano de la poblacion. En cambio, para n/N ∼= 1, la muestra y la poblaciontienen aproximadamente el mismo numero de elementos.

1.2. Necesidad del muestreo

La recogida de informacion de la variable de interes sobre cada unidad de lapoblacion se conoce como enumeracion completa o censo. La cantidad de dinero,

3

Page 4: Cap1

recursos humanos y tiempo requeridos para realizar un censo generalmente esmuy elevado y, en muchas situaciones, generalmente cuando se dispone de me-dios limitados, no es posible realizar una enumeracion completa. En este caso,el investigador no tiene mas remedio que recurrir a tecnicas de muestreo pararealizar el estudio.

Existen una serie de ventajas en la utilizacion del muestreo sobre una enu-meracion completa y que exponemos a continuacion.

Mayor velocidad. El tiempo necesario para la recogida y analisis de losdatos de una muestra es mucho menor que el necesario para una enume-racion completa. En cierto tipo de estudios, nos encontramos con que lapublicacion de resultados tiene una fecha lımite y nos enfrentamos a unapoblacion con un numero elevado de elementos. En estos casos, el muestreoes la unica alternativa posible para realizarlo.

Mayor exactitud. Un censo generalmente involucra una gran carga de tra-bajo con lo que es necesario un gran despliegue humano para la realizaciondel mismo. En este caso es frecuente cometer errores debido a la comple-jidad de la organizacion. En muestreo, el volumen de trabajo se reduce demanera considerable con lo que los recursos humanos son mucho menorespudiendo tener una plantilla mas eficiente.

Informacion mas detallada. Al tener el muestreo un numero menor deunidades, es posible observar/entrevistar cada unidad de una manera masdetallada obteniendose informacion de varias variables. Sin embargo, enel caso del censo, esta situacion llega a ser muy compleja desde un puntode vista operativo.

Coste reducido. Al muestrear un menor numero de elementos, el coste demuestreo generalmente es menor que el de una enumeracion completa.

De lo senalado anteriormente, el muestreo resulta ser mas economico, propor-ciona una informacion mas exacta y tiene un mayor alcance en la coberturaindividual cuando lo comparamos con una enumeracion completa. Sin embargo,existen una serie de errores, denominados errores de muestreo que esta presentesen cualquier resultado de una investigacion por muestreo. Este hecho se debe,principalmente, a que en el muestreo solo se analiza una parte de la poblacion.Las tecnicas de muestreo se disenan con el fin de reducir este tipo de errores demuestreo.

1.3. Procedimientos de muestro

El metodo usado para seleccionar la muestra de la poblacion se denominaprocedimiento de muestreo. Estos procedimientos de muestreo pueden dividirseen dos tipos o categorıas: muestreo probabilıstico y muestreo no probabilıstico.Estos dos tipos de procedimiento no se distinguen por el cuestionario y las ins-trucciones a seguir sino por los metodos de seleccion de la muestra para obtenerlas estimaciones de las caracterısticas poblacionales de interes y su precision.

4

Page 5: Cap1

Definicion 1.6 Si las unidades de la muestra se seleccionan utilizando algunmecanismo probabilıstico, el procedimiento se denomina muestreo probabilıstico.

Este tipo de muestreo asigna a cada unidad de la poblacion una probabilidadde ser elegida en la muestra. Ademas, esto nos permite asignar a cada muestraposible una probabilidad conocida de ser seleccionada. La informacion obtenidaa partir de la muestra permite inferir las propiedades o caracterısticas de toda lapoblacion cometiendo un error medible y acotado. Este tipo de muestreo sera elque se analizara en este curso.

Definicion 1.7 El procedimiento de seleccion de una muestra sin utilizarningun mecanismo probabilıstico se denomina muestreo no probabilıstico.

Este tipo de muestreo suele aplicarse a menudo, cuando el presupuesto de laencuesta es muy bajo y siempre que en caso de equivocacion las consecuenciasno sean demasiado graves. Dentro de este procedimiento de muestreo podemosencontrarnos algunos pautas de seleccion como son las siguientes.

Muestreo por conveniencia. La muestra se restringe a una parte dela poblacion que es facilmente accesible. Por ejemplo, los profesores deuniversidad emplean con mucha frecuencia a sus propios alumnos. Uncaso particular de muestreo por conveniencia se utiliza en estudios estu-dios, donde el proceso de recogida de la informacion es desagradable oproblematico para la persona seleccionada, de manera que solo los volun-tarios podrıan constituir la muestra (la dosis de un nuevo farmaco, porejemplo).

Muestreo intencional u opinatico. Se utiliza cuando, para formar unsubconjunto representativo de la poblacion, es necesario que las unida-des informantes posean una serie de conocimientos o destrezas (unidadesinformantes expertas).

Muestreo por cuotas. Se establecen una serie de cuotas para diferentescategorıas de la poblacion basadas en una serie de consideraciones rele-vantes al estudio que se esta llevando a cabo. Por ejemplo: 20 individuosde 25 a 40 anos, de sexo femenino y residentes en Gijon. Una vez determi-nada la cuota se eligen los primeros que se encuentren que cumplan esascaracterısticas. Este metodo se utiliza mucho en las encuestas de opinion.

Muestreo sin norma, se toma la muestra a la ventura por razones decomodidad.

Obviamente, cualquier metodo de seleccion no probabilıstico esta muy ex-puesto al sesgo humano y el error de muestreo no puede determinarse de unamanera objetiva. Por lo tanto, no son comparables con los metodos de muestreoprobabilıstico disponibles.

5

Page 6: Cap1

1.4. Muestreo con reposicion y muestreo sin re-posicion

A la hora de realizar cualquier procedimiento de muestreo, este puede reali-zarse de dos maneras diferentes.

Definicion 1.8 En un muestreo con reposicion o muestreo con reemplazamien-to, las unidades se extraen una a una de la poblacion, reemplazando la unidadseleccionada en cualquier extraccion particular antes de realizar la siguiente ex-traccion.

Como la constitucion de la poblacion permanece inalterable en cada extrac-cion, algunas unidades en el muestreo con reemplazamiento podrıan seleccio-narse mas de una vez en la muestra.

Definicion 1.9 En un muestreo sin reposicion o muestreo sin reemplazamiento,las unidades se extraen una a una de la poblacion, y la unidad seleccionadaen cualquier extraccion no se devuelve a la poblacion antes de seleccionar unaunidad en la siguiente extraccion.

Obviamente, ninguna unidad se selecciona mas de una vez en el muestreosin reemplazamiento.

Ejemplo 6 Un paıs esta compuesto por 4 regiones A, B, C y D. En cada una deestas regiones se mide el numero de personas activas obteniendo como resultado6 millones, 4 millones, 3 millones y 8 millones. Extraer muestras de tamano2 de esta poblacion sin reposicion y considerando que muestras con los mismoselementos en distinto orden son iguales.

En este ejemplo, disponemos de una poblacion Ω formada por 4 unidades oelementos

Ω = u1, u2, u3, u4,

donde cada una de estas unidades son las regiones que componen el paıs, esdecir,

u1 = A, u2 = B, u3 = C, u4 = D.

Las muestras posibles de tamano 2 que pueden seleccionarse sin reemplaza-miento de Ω son

(A,B), (A,C), (A,D), (B,C), (B,D), (C,D).

En este ejemplo, la variable objetivo o de interes es X=“numero de personas ac-tivas”. Para cada una de las unidades de muestreo que consideramos, la variableX toma los siguientes valores

X1 = 6, X2 = 4, X3 = 3, X4 = 8.

Luego, para cada una de las muestras, los valores que toma la variable X paradichas muestras viene dada por

6

Page 7: Cap1

Muestras Valores X(A,B) (6,4)(A,C) (6,3)(A,D) (6,8)(B,C) (4,3)(B,D) (4,8)(C,D) (3,8)

Definicion 1.10 Se dice que el muestreo no tiene en cuenta el orden (o es noordenado) si muestras con los mismos elementos en distinto orden son distintas.

Definicion 1.11 Se dice que el muestreo tiene en cuenta el orden (o es orde-nado) si muestras con los mismos elementos en distinto orden son iguales.

Ejemplo 7 Sea Ω una poblacion formada por 4 unidades Ω = u1, u2, u3, u4.Obtener muestras de tamano 2 bajo las siguientes condiciones

Muestreo ordenado sin repeticion

Muestreo ordenado con repeticion

Muestreo no ordenado sin repeticion

Muestreo no ordenado con repeticion

En el caso de muestreo ordenado sin repeticion, el total de muestras obtenidases igual a

(u1, u2), (u1, u3), (u1, u4), (u2, u3), (u2, u4), (u3, u4)(u2, u1), (u3, u1), (u4, u1), (u3, u2), (u4, u2), (u4, u3).

Para una poblacion de tamano N , el total de muestras ordenadas de tamano 2que pueden extraerse utilizando un muestreo ordenado sin repeticion, es igual a

VN,n = N(N − 1) . . . (N − n + 1).

Para N = 4 y n = 2, V4,2 = 12. En el caso de muestreo ordenado con repeticion,el total de muestras obtenidas es igual a

(u1, u2), (u1, u3), (u1, u4), (u2, u3), (u2, u4), (u3, u4)(u2, u1), (u3, u1), (u4, u1), (u3, u2), (u4, u2), (u4, u3)

(u1, u1), (u2, u2), (u3, u3), (u4, u4).

Para una poblacion de tamano N , el total de muestras ordenadas con repeticionde tamano 2 que pueden extraerse , es igual a

V RN,n = Nn.

7

Page 8: Cap1

Para N = 4 y n = 2, V R4,2 = 42 = 16. En el caso de muestreo no ordenado sinrepeticion, el total de muestras obtenidas es igual a

(u1, u2), (u1, u3), (u1, u4), (u2, u3), (u2, u4), (u3, u4).

Para una poblacion de tamano N , el total de muestras ordenadas con repeticionde tamano 2 que pueden extraerse , es igual a

CN,n =(

N

n

),

y para N = 4 y n = 2 C4,2 = 6. En el caso de muestreo no ordenado conrepeticion, el total de muestras obtenidas es igual a

(u1, u2), (u1, u3), (u1, u4), (u2, u3), (u2, u4), (u3, u4)(u1, u1), (u2, u2), (u3, u3), (u4, u4)

Para una poblacion de tamano N , el total de muestras ordenadas con repeticionde tamano 2 que pueden extraerse , es igual a

CRN,n =(

N + n− 1n

),

y para N = 4 y n = 2 CR4,2 = 10.

1.5. Planear y realizar una encuesta

Las tecnicas de muestreo son muy utilizadas actualmente en numerosos es-tudios de diversa ındole. Sin embargo, para que los resultados obtenidos seansatisfactorios se requiere un adecuado plan de trabajo y una buena implemen-tacion del mismo que nos asegure que la muestra es realmente representativade la poblacion bajo estudio. Obviamente, los estudios que pueden realizarseutilizando tecnicas de muestreo varıan en su alcance y complejidad. Ası, nos po-demos encontrar que los problemas a los que nos enfrentamos en un estudio sontriviales o inexistentes en otro diferente. Algunos de los aspectos importantes atener en cuenta en la planificacion de una encuesta se resumen en lo siguiente

Objetivos. En primer lugar se han de fijar claramente los objetivos que sepersiguen en el estudio. El investigador debe asegurarse que estos objetivosestan en proporcion con los recursos monetarios, humanos y temporalesdisponibles.

Poblacion en estudio. Definir claramente la poblacion a cubrir con elestudio. Ası, es necesario definir la region geografica de la poblacion y lascategorıas que se incluyen en dicha poblacion. Por ejemplo, en una encues-ta de poblacion, es necesario especificar si categorıas del tipo: residentesde hoteles, conventos, cuarteles militares, ... estan incluidos o no.

8

Page 9: Cap1

Unidad muestral. Establecer las unidades muestrales del estudio y di-vidir la poblacion en dichas unidades. Por ejemplo, en una encuesta ala poblacion, estas unidades muestrales pueden ser personas, hogares, fa-milias, pueblos, etc.. La division de la poblacion en unidades muestralesdebe de evitar la ambiguedad y cada elemento de la poblacion debe depertenecer a una unica unidad muestral.

Marco La situacion idonea es que el marco y la poblacion objetivo coinci-dan. Para ello, es necesario asegurarse que todas las unidades muestralesde la poblacion bajo estudio estan incluidas en el marco. El marco debede actualizarse y no debe de contener errores.

Seleccion de la muestra. La seleccion de la muestra y su tamano tie-nen un especial interes. Para ello, hay que tener en cuenta los diferentesfactores tecnicos y operativos del estudio y decidir el procedimiento y eltamano muestral a seleccionar (siempre teniendo en cuenta intentar alcan-zar un determinado grado de precision al mınimo coste o bien obtener unmaximo de precision si tenemos que ajustarnos a un coste fijo). Ademas,la muestra tiene que ser representativa de la poblacion a la que representa.Tambien el entrevistador debe tener en cuenta si los datos van a recogerseutilizando una entrevista personal, por correo o mediante una entrevistatelefonica.

Tratamiento de la no respuesta. Decidir de antemano el procedimientoa seguir ante los casos de no respuesta (el encuestado no proporciona larespuesta porque no quiere, porque no se encuentra en casa, ...).

Muestra piloto. En numerosas ocasiones es conveniente realizar unamuestra piloto para a) descubrir defectos en el cuestionario o en la progra-macion, b) desarrollar estrategias adecuadas para el trabajo de campo y elanalisis del trabajo y c) entrenar a la plantilla disponible para el trabajoa realizar.

Organizacion del trabajo de campo. Tratar aspectos como la contra-tacion y la formacion del personal encargado de realizar la encuesta.

Analisis de los datos y preparacion del informe final. El analisis delos datos es un tema vital en un estudio. Deben evitarse cualquier erroren la tabulacion de los datos y, por supuesto, en el analisis estadıstico delos mismo. Finalmente, una vez finalizado todo el analisis de los datos,es necesario realizar el informe final del trabajo. Este informe final debedetallar los objetivos, el alcance de la encuesta, el metodo de recogida dedatos, el procedimiento de estimacion y el coste del trabajo.

1.6. Fuentes de error

Los estudios realizados utilizando tecnicas de muestreo estan afectados poruna serie de errores que pueden clasificarse en dos grupos principalmente:

9

Page 10: Cap1

Errores ajenos al proceso de observacion, debido a que los elementos mues-treados solo constituyen una parte de la poblacion objetivo.

Errores del proceso de observacion, debido a que los datos registrados sedesvıan de la verdad.

1.6.1. Errores ajenos al proceso de observacion

Normalmente, los datos que se observan en una muestra no reflejan deforma precisa los datos de la poblacion de la que se selecciono la muestra,incluso si el muestreo y la medicion se realizan con extremo cuidado yprecision. Esta desviacion entre la estimacion que produce una muestraideal respecto al valor verdadero de la poblacion es el error de muestreoy se produce simplemente porque es una muestra y no un censo. El errorde muestreo se puede medir de forma teorica y estimar a partir de losdatos para el caso de muestreo probabilıstico. Este error de muestreo pudereducirse mediante un buen diseno del procedimiento de muestreo y unaeleccion adecuada del tamano de la muestra. Generalmente, este errordecrece a medida que aumenta el tamano de la muestra.En casi todas las encuestas, el marco de muestreo no coincide completa-mente con la poblacion objetivo, lo que genera lo que se denominan erroresde cobertura. Estos errores de cobertura no son faciles de cuantificar ni decorregir en muchos casos.El problema mas grave de todos los relacionados con la observacion es lano respuesta. Este es un problema difıcil e importante en las encuestas queintentan recopilar informacion directamente de personas mediante algunaforma de entrevista. Una encuesta hecha correctamente deberıa obtenerinformacion acerca de este grupo con el fin de medir las diferencias delmismo respecto del grupo de personas que responden. La no respuesta semanifiesta de una de las tres formas siguientes:

• Imposibilidad de contactar con el elemento muestreado (persona, ho-gar)

• Imposibilidad de la persona que responde de ofrecer una respuesta ala pregunta de interes

• Negativa del individuo a responder.

Las tasas de no respuesta se pueden obtener facilmente dado que el in-vestigador conoce el tamano de la muestra y el numero de respuestasobtenidas.

1.6.2. Errores de observacion

Cuando un elemento de la poblacion se encuentra en su lugar y preparadopara ser medido, aparecen todavıa mas errores que pueden afectar a laencuesta. Estos errores se pueden clasificar en

10

Page 11: Cap1

• Errores debido a los entrevistadores. Los entrevistadores afectan deforma directa e importante a la forma de responder de la personaa una pregunta. Si se lee una pregunta con la entonacion o enfasisinadecuados, puede forzar una respuesta en un sentido u otro.

• Errores debido a los encuestados. En una encuesta, el entrevistadodebe comprender la respuesta completa y tener claras las opcionesde respuesta. Los errores pueden clasificarse en errores de recuerdo(el entrevistado no recuerda correctamente la respuesta), errores dedeseabilidad social de la respuesta (el entrevistado exagera un pocoacerca de los ingresos o de la consecucion de los logros), falta desinceridad deliberada (el entrevistado no admitira que transgrede lasleyes o tiene una queja particular acerca de una institucion) o bien amedidas incorrectas (el entrevistado no comprendio las unidades demedida).

• Errores en la recopilacion de los datos.

11