cap 5 estratificacion2

49
Capítulo V – Muestreo estratificado (borrador)- 175 V - MUESTREO ESTRATIFICADO V.1 - Estratificación y eficiencia de los diseños muestrales Ya vimos que la primera gran clasificación de los diferentes métodos de muestreo de- pende del conocimiento o desconocimiento de las probabilidades de selección de cada muestra posible. De allí que a un grupo de estos métodos se los denomine, según los autores, muestreo con probabilidad conocida, muestreo con probabilidad o muestreo probabilístico, mientras que al otro se lo conoce como muestreo sin probabilidad conocida, muestreo sin probabilidad o muestreo no probabilístico. El muestreo probabilístico, a partir del conoci- miento de la probabilidad de selección, es la única técnica de muestreo que brinda una medi- da de la confianza de las estimaciones de parámetros (1) . El muestreo al azar simple es el método probabilístico más sencillo. Se caracteriza porque todas las muestra posibles de un universo determinado cuentan con la misma oportu- nidad de ser seleccionadas. Pero la importancia del muestreo al azar simple radica más en su utilidad teórica y como elemento introductorio de los conceptos básicos de muestreo que en su aplicación práctica, ya que, pese a su sencillez, solo puede ser utilizado bajo determinadas condiciones, lo que lo hace poco recomendable en la mayoría de las investigaciones. El muestreo al azar simple solo es aplicable cuando se dispone de un listado satisfacto- riamente completo de los elementos de la población. El muestreo al azar simple no es aconsejable cuando el costo de recolección del dato difiere en forma importante dependiendo de cuales sean los elementos seleccionados (a partir de la dispersión geográfica o dificultades para su ubicación). El muestreo al azar simple solo debería usarse cuando no se dispone de otra informa- ción sobre la población que la lista de sus componentes. Las dos primeras observaciones son de carácter administrativo y técnico. La última se deriva de considerar su menor eficiencia estadística con relación a otras alternativas de muestreo. ¿Qué es la eficiencia estadística de una muestra? Un diseño muestral es, estadística- mente, más eficiente que otro cuando, para el mismo tamaño de muestra, se obtiene un error estándar menor. Podríamos hablar de eficiencia estadística cuando el grado de precisión o la magnitud de la confianza de las conclusiones son mayores, considerando muestras con la misma canti- Notas: 1 No debe confundirse el concepto de representatividad con el de probabilidad. Una muestra probabilística tiene una determinada probabilidad de no ser representativa de una población o universo, mientras que una mues- tra no probabilística puede ser perfectamente representativa, al menos en lo que hace a una determinada cantidad de variables. El hecho que una muestra no sea probabilística (condición que se da en la gran mayoría de las inves- tigaciones sociales) no desmerece su representatividad y la validez de sus resultados, contrariamente a un mito o prejuicio muy instalado.

Upload: pili-solano-godoy

Post on 29-Dec-2014

39 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Cap 5 Estratificacion2

Capítulo V – Muestreo estratificado (borrador)- 175

V - MUESTREO ESTRATIFICADO

V.1 - Estratificación y eficiencia de los diseños muestrales

Ya vimos que la primera gran clasificación de los diferentes métodos de muestreo de-

pende del conocimiento o desconocimiento de las probabilidades de selección de cada

muestra posible. De allí que a un grupo de estos métodos se los denomine, según los autores,

muestreo con probabilidad conocida, muestreo con probabilidad o muestreo probabilístico,

mientras que al otro se lo conoce como muestreo sin probabilidad conocida, muestreo sin

probabilidad o muestreo no probabilístico. El muestreo probabilístico, a partir del conoci-

miento de la probabilidad de selección, es la única técnica de muestreo que brinda una medi-

da de la confianza de las estimaciones de parámetros(1).

El muestreo al azar simple es el método probabilístico más sencillo. Se caracteriza

porque todas las muestra posibles de un universo determinado cuentan con la misma oportu-

nidad de ser seleccionadas. Pero la importancia del muestreo al azar simple radica más en su

utilidad teórica y como elemento introductorio de los conceptos básicos de muestreo que en

su aplicación práctica, ya que, pese a su sencillez, solo puede ser utilizado bajo determinadas

condiciones, lo que lo hace poco recomendable en la mayoría de las investigaciones.

El muestreo al azar simple solo es aplicable cuando se dispone de un listado satisfacto-

riamente completo de los elementos de la población.

El muestreo al azar simple no es aconsejable cuando el costo de recolección del dato

difiere en forma importante dependiendo de cuales sean los elementos seleccionados (a partir

de la dispersión geográfica o dificultades para su ubicación).

El muestreo al azar simple solo debería usarse cuando no se dispone de otra informa-

ción sobre la población que la lista de sus componentes.

Las dos primeras observaciones son de carácter administrativo y técnico. La última se

deriva de considerar su menor eficiencia estadística con relación a otras alternativas de

muestreo.

¿Qué es la eficiencia estadística de una muestra? Un diseño muestral es, estadística-

mente, más eficiente que otro cuando, para el mismo tamaño de muestra, se obtiene un error

estándar menor.

Podríamos hablar de eficiencia estadística cuando el grado de precisión o la magnitud

de la confianza de las conclusiones son mayores, considerando muestras con la misma canti-

Notas:

1 No debe confundirse el concepto de representatividad con el de probabilidad. Una muestra probabilísticatiene una determinada probabilidad de no ser representativa de una población o universo, mientras que una mues-tra no probabilística puede ser perfectamente representativa, al menos en lo que hace a una determinada cantidadde variables. El hecho que una muestra no sea probabilística (condición que se da en la gran mayoría de las inves-tigaciones sociales) no desmerece su representatividad y la validez de sus resultados, contrariamente a un mito oprejuicio muy instalado.

Page 2: Cap 5 Estratificacion2

176 - Introducción al muestreo para estudiantes de ciencias sociales

dad de casos. Pero lo que se conoce como eficiencia del diseño muestral depende de la técni-

ca de selección empleada y su correspondiente error estándar.

Supongamos que tenemos dos muestras (A y B) con igual cantidad de casos, obtenidas

de una misma población, con idénticos estadísticos y que la diferencia entre ellas radica en la

técnica de selección utilizada. Con la información de la muestra A podemos concluir que el

porcentaje de varones de la población, para un nivel de confianza determinado, es un valor

que está entre 46% y 50%, mientras que con la muestra B podemos concluir, con la misma

confianza y similares resultados, que el porcentaje de varones de esa población se encuentra

entre 47% y 49%. Ello es posible porque el error estándar que obtenemos a partir de la

muestra B es menor y diremos que es, estadísticamente, más eficiente que la muestra A.

O también podemos realizar estimaciones con un mismo error, pero con niveles de

confianza distintos. La muestra que nos permite realizar estimaciones con el riesgo menor es

a la que consideraremos estadísticamente más eficiente.

Muestraerror de

estimación=

confianzaz(k/2)

•error

estándar

A 2 = 2 • 1

B 1 = 2 • 0,5

A 1 = 1 • 1

B 1 = 2 • 0,5

Vimos en el capítulo anterior que el MASsr es más eficiente que el MAScr. ¿Cómo se

consigue una muestra estadísticamente todavía más eficiente? Trabajando con las unidades

de muestreo para disminuir la probabilidad que aparezcan muestras cuyos estadísticos se

alejen en demasía de los parámetros de la población.

Supongamos que nos encontramos ante una pequeña reunión de tres amigos que se han

conocido cursando en el mismo colegio secundario. Como tienen edades similares, ya que

provienen de la misma promoción, y han concurrido con sus parejas y algunos de sus hijos y

nietos, nos encontramos con una población claramente dividida en tres grupos muy diferen-

tes en cuanto a sus edades: los "abuelos", los "hijos" y los "nietos".

En total son 36 personas. Pasemos a describirlas, atendiendo solo a sus edades:

Abuelos Hijos Nietos

60 25 31 10 6 8

58 23 32 12 6 13

65 30 26 4 9 7

60 35 23 14 8 6

57 36 30 8 11 6

60 29 31 7 5 13

Hay 6 personas que integran el grupo de los "abuelos", 12 el de los "hijos" y 18 el de

los "nietos". La media aritmética de la edad de todos ellos es 24 años.

Supongamos también que alguien desea conocer el promedio de edad de esta pobla-

ción a partir de una muestra al azar simple sin reposición de 6 casos.

¿Puede suceder que la muestra extraída se componga solo por "abuelos"? Evidente-

mente sí, aunque la probabilidad es baja. Si ello sucediera llegará a la conclusión (mediante

una estimación puntual) que el promedio de edad de la población es de 60 años. Y también

Page 3: Cap 5 Estratificacion2

Capítulo V – Muestreo estratificado (borrador)- 177

puede suceder que la muestra extraída al azar simple sin reposición contenga a los seis "nie-

tos" de menor edad (4, 5, 6, 6, 6 y 6) arrojando un promedio de 5,5 años. La primera de las

muestras tiene un error de 36 años y la segunda de –18,5 años.

Para no olvidarnos que debemos pensar en términos de distribuciones muestrales, estamos hablan-

do de un espacio muestral de NΩ= N! ÷ (N-n)! = 36! ÷ (36-6)! =1.402.410.240 muestras. Solo 720

de estas muestras sin reposición comprenden a los seis “abuelos”, y otras 720 muestras a los seis

“nietos” menores. Aunque la probabilidad de seleccionar una muestra al azar simple sin reposición

con las seis personas de mayor edad es muy baja (apenas el 0,00005 %), y una probabilidad simi-

lar encontramos para la selección de una muestra con las seis personas de menor edad, ambos su-

cesos son posibles.

Pero como la persona interesada en conocer el promedio de edad de esta pequeña po-

blación observa que hay 3 grupos claramente distintos e identificables a partir de su aparien-

cia física, decide extraer su muestra de seis casos en forma proporcional al tamaño de los

grupos, es decir, averiguar la edad de un "abuelo", de dos "hijos" y de tres "nietos" (seleccio-

nados con MASsr dentro de cada grupo).

La técnica utilizada, el dividir previamente a la población en grupos cuyos compo-

nentes son similares entre sí y luego realizar una seleccionar aleatoria dentro de cada uno de

ellos se conoce como estratificación. Como, además, la cantidad de casos seleccionada en

cada grupo depende del peso relativo de los grupos, hablamos de un "muestreo estratificado

proporcional". Estos grupos son excluyentes (cada elemento puede pertenecer a un solo gru-

po) y exhaustivos (en su conjunto contienen a todos los componentes de la población).

A diferencia del muestreo aleatorio simple, en el muestreo estratificado no todas las

muestras (o combinaciones de elementos) tienen la misma probabilidad de ser seleccionadas.

Es más, algunas combinaciones ni siquiera son posibles. Sin embargo, esto no es un inconve-

niente. Las probabilidades de selección de las muestras siguen siendo conocidas y ello es lo

que permite realizar estimaciones de parámetros con errores y riesgos mensurables.

Volviendo a nuestro “investigador”, ¿es posible que seleccione a los tres "nietos" más

pequeños, a los dos "hijos" de menor edad y al "abuelo" más joven? Otra vez la respuesta es

sí. Y, a la inversa, también puede suceder que seleccione en cada uno de los grupos a quienes

tienen mayor edad.

Veamos la primera posibilidad, la de seleccionar a los más jóvenes en cada grupo. La

selección daría una muestra con casos de 4, 5, 6, 23, 23 y 57 años, y un promedio de 19,8

años de edad (error: - 4,2 años).

Cualquier otra combinación de seis casos que arroje un promedio de edad menor al de

la población, no podría estar más alejada de este que la muestra obtenida.

Y para la segunda posibilidad, la de seleccionar a los de mayor edad en cada grupo,

obtendría una muestra de 13, 13, 14, 36, 35 y 65 años, con un promedio de 29, 3 años (error:

+ 5,3 años).

Cualquier otra combinación de seis casos con un promedio de edad mayor al de la po-

blación, no podría estar más alejada de este que la muestra obtenida.

Aunque con poca probabilidad de aparición, ambas selecciones son las más extremas

que pueden aparecer. Nótese la diferencia con las muestras de valores más extremos obteni-

bles mediante MASsr, donde los errores eran de –18,5 y 36 años respectivamente.

Page 4: Cap 5 Estratificacion2

178 - Introducción al muestreo para estudiantes de ciencias sociales

Es evidente que, al utilizar este segundo procedimiento, sin modificar la cantidad de

casos seleccionados ha disminuido la posibilidad de aparición de muestras con valores aleja-

dos de la media de la población y, consecuentemente, la posibilidad de llegar a conclusiones

erróneas. Aunque la demostración no es la más ajustada, desde el punto de vista matemático,

sirve para una comprensión intuitiva del concepto de eficiencia estadística del diseño mues-

tral.

¿Qué es lo permite al muestreo estratificado conseguir una mayor precisión con un

mismo tamaño de muestra (e incluso menor) que el muestreo al azar simple? Sin profundizar

en los fundamentos, solamente diremos que la varianza total puede explicarse por la suma de

las variabilidades intra-grupos e inter-grupos. Al formar grupos lo más disímiles entre sí (y

por lo tanto con gran homogeneidad interna) se busca que este factor (la variabilidad inter-

grupos) asuma la mayor parte de la varianza total (ver apéndice al final del capítulo).

La eficiencia estadística de un diseño muestral no depende del límite inferior o supe-

rior del rango de valores que se obtienen en una distribución muestral, sino de la variabili-

dad de esta distribución, aunque, como consecuencia, la extensión del rango pueda disminuir.

La mayor eficiencia estadística se expresa, refiriéndonos a la población que usamos de ejem-

plo, en que la distribución muestral de medias de n=6 y MASsr tiene un error estándar de po-

co más de 7 años, mientras que la distribución muestral de medias de n=6 con muestreo es-

tratificado proporcional arroja un error estándar de poco menos de 2 años.

La eficiencia estadística del muestreo estratificado depende fundamentalmente de las

características de los estratos construidos. Cuanto más se parezcan entre sí los componentes

de un mismo estrato y más se diferencien de los elementos de los otros estratos mayor senti-

do tiene la estratificación.

Aunque tengan como referencia común la variabilidad, no debe confundirse la eficiencia del dise-

ño con la eficiencia del estimador que vimos en el capítulo anterior. Un estimador es más eficiente

que otro cuando, para un mismo diseño e igualdad de casos, tiene un error estándar menor. La efi-

ciencia de los diseños se establece a partir del mismo estimador, cuando, para una misma cantidad

de casos, se consigue disminuir su error estándar.

Eficiencia del estimador Eficiencia del diseño

Estimador A Estimador B Diseño A Diseño B

Insesgados (2)

Mismo estimador

Mismo espacio muestral Diferentes espacios muestrales

+ error estándar - error estándar + error estándar - error estándar

- eficiencia + eficiencia - eficiencia + eficiencia

Una de las razones para la utilización del muestreo estratificado es, entonces, la de

aumentar la precisión o confiabilidad de los estimadores. Pero también puede optarse por

esta técnica a partir de la necesidad de información específica sobre sub-poblaciones del uni-

verso, que pueden ser consideradas como estratos y de las que se sacarán muestras indepen-

dientes, o por la intención de desarrollar técnicas de selección diferentes en cada sub-grupo.

Notas:

2 Cuando al menos uno de los estimadores es sesgado, para determinar cuál es más eficiente se aplicancálculos sencillos que contemplan tanto la magnitud de la varianza como el sesgo.

Page 5: Cap 5 Estratificacion2

Capítulo V – Muestreo estratificado (borrador)- 179

Como una derivación secundaria, también puede emplearse el muestreo estratificado cuando,

sin modificar la confianza o precisión de la estimación, se desea trabajar con una menor can-

tidad de casos.

Para una adecuada estratificación deben responderse varias preguntas:

1) ¿Qué variables deben ser consideradas para dividir a la población en estratos?

2) ¿Cómo combinamos y categorizamos estas variables, cuáles son los límites de cada

estrato?

3) ¿Cuántos estratos deben considerarse?

4) ¿Cuántos casos se seleccionaran dentro de cada estrato?

V.2 - Estimación de medias, proporciones y totales con muestras estratificadas

Antes de responder a las cuatro preguntas que cierran el punto anterior, es conveniente

introducirnos en la estimación de medias, proporciones y totales a través de intervalos de

confianza con muestras estratificadas.

Como ya vimos, el cálculo del error de estimación no es más que la multiplicación del

error estándar por una magnitud que depende de la confianza elegida [ (z(k/2) ]. El problema

radica en establecer, en cada caso y a partir de las características de la muestra, la magnitud

del error estándar. Cuando trabajamos con muestras aleatorias simples utilizamos los si-

guientes procedimientos:

fórmula general ( ) ( ) θ2k σ zθkθ,IC ±=

Poblaciones infinitas o MAScr Poblaciones finitas y MASsr

Medias ( ) ( )n

szxkµ,IC

2

2k±= ( ) ( )N

nN

n

szxkµ,IC

2

2k

−×±=

Total ( ) ( )n

sNzNxkT,IC

22

2k±= ( ) ( )N

nN

n

sNzNxkT,IC

22

2k

−×±=

Propor-

ciones ( )1-n

p.qzpk)IC(P, 2k±= ( ) ( )

N

nN

1-n

p.qzpkP,IC 2k

−×±=

yN

nN −puede reemplazarse por 1-f (siendo f = n/N)

Donde el error de estimación está dado por la multiplicación de la estimación puntual

del error estándar (utilizando para su cálculo los estadísticos p y s2 como estimadores de los

parámetros P, σ2 y S2) por la confianza elegida (expresada en puntaje z equivalente al área

bajo la curva normal para la mitad de la confianza).

En el muestreo estratificado el concepto no varía, pero sí lo hace el procedimiento para

calcular los estadísticos y estimar los parámetros y sus errores estándar, a los que llegamos

mediante sumas ponderadas de las medidas de las muestras de cada estrato, ya que las distri-

buciones muestrales derivadas de una selección estratificada son distribuciones muestrales de

estadísticos ponderados.

Page 6: Cap 5 Estratificacion2

180 - Introducción al muestreo para estudiantes de ciencias sociales

Si tenemos una muestra de 200 hogares del norte de la provincia de Buenos Aires que

arroja un promedio de 5 personas por hogar y otra muestra de 200 familias del sur con pro-

medio de 4 personas por hogar (afijación igual, como veremos más adelante), y sabemos que

los hogares del norte implican el 80% del total de hogares de la provincia, no podemos esti-

mar el promedio provincial de personas por hogar simplemente calculando el promedio de

ambas muestras. Debemos asignar a cada muestra el peso de la población que representa.

sursurnortenorteprovincia xWxWx += (donde W=proporción o peso del estrato en la población)

8,48,0442,058,0x provincia =+=×+×= personas por hogar

Los promedios de 5 y 4 personas por hogar variarán de una muestra a otra. Lo que se

mantiene constante es el peso de dada estrato. Los espacios muestrales son el resultado de la

combinación de todas y cada una de las muestras posibles de un estrato con todas las mues-

tras posibles de los otros estratos y los valores de las distribuciones muestrales de medias son

los promedios ponderados de las medias de las muestras de cada estrato.

Supongamos una población de 800.000 trabajadores en relación de dependencia, divi-

da en tres estratos. El estrato A tiene 350.000 personas, el B tiene 300.000 y el C tiene

150.000.

En cada estrato se selecciona una muestra aleatoria simple, siendo el tamaño de las

muestras proporcional al peso de cada estrato. Posteriormente se obtiene información sobre

la aprobación de la instrucción primaria y el ingreso mensual de cada persona seleccionada,

la que está volcada en el cuadro siguiente.

En la primera columna se incluyen las medidas de la muestra global calculadas como

si esta hubiera sido extraída al azar simple sin reposición.

Azar sim-

pleEstrato A Estrato B Estrato C

N (población) 800.000 350.000 300.000 150.000

W (peso) 0,4375 0,375 0,1875

n (muestra) 800 350 300 150

p (proporción) primaria completa aprobada 0,31 0,15 0,25 0,80

x (media) ingreso mensual $ 588 $ 320 $ 460 $ 1470

s2 (cuasivarianza) ingreso mensual 205.466 9.632 10.852 108.306

Comencemos estimando la media y la proporción de la población a partir del total de

la muestra, como si toda en su conjunto hubiera sido seleccionada al azar simple, para una

confianza del 95,5%. Utilizaremos las fórmulas del muestreo con reposición, en lugar de las

que deberíamos utilizar (las del muestreo sin reposición) al solo efecto de simplificar los cál-

culos. Para la estimación mediante intervalos de la media:

( ) ( ) n

s 2

2kzxkµ,IC ±=

Page 7: Cap 5 Estratificacion2

Capítulo V – Muestreo estratificado (borrador)- 181

Remplazando...

( ) 32,05199$58816,025992$588800

205.4662$588µ,0.955IC ±=×±=±=

Y llegamos a la conclusión que, para una confianza del 95,5%, la remuneración media

mensual es un valor que está entre $554,94 y $620,06.

Solo a modo ilustrativo (para quedarnos tranquilos y comprobar que con poblaciones

grandes y fracciones de muestreo pequeñas la aplicación de una u otra fórmula no cambia

demasiado la cosa), utilicemos también la fórmula para MASsr.

( ) ( ) N

nN

n

s 2

2kzxkµ,IC

−±=

Remplazando...

( ) 32,03596$588000.800

800000.800

800

205.4662$588µ,0.995IC ±=

−×±=

Donde, con la misma confianza, establecemos un intervalo con límites $555,96 y

$620,04, siendo despreciable la ganancia en la precisión (por lo pequeño de la fracción de

muestreo).

Continuemos con la estimación de P, para la misma confianza y con el procedimiento

para MAScr:

( ) ( )1-n

p.qzpkP,IC 2k±=

Y, reemplazando:

( ) 32723670,031,0799

0,690,31231,0kP,IC ±=

×±=

ó, expresado en puntos porcentuales:

( ) 3,27236731799

6931231kP,IC ±=

×±=

De donde concluimos, para una confianza del 95,5%, que P está dentro de un intervalo

con límites inferior y superior de 0,2772 y 0,3428 respectivamente (ó 27,72% y 34,28%, co-

mo más nos guste expresarlo).

Veamos ahora los pasos para la estimación de P y µµµµ considerando la estratificación.

Page 8: Cap 5 Estratificacion2

182 - Introducción al muestreo para estudiantes de ciencias sociales

El cálculo de la media y la proporción globales de la muestra no presenta inconve-

nientes. Es simplemente un promedio ponderado y se expresa en las fórmulas...

CCBBAAABC xWxWxWx ++=

CCBBAAABC pWpWpWp ++=

WA,WB y WC indican los pesos de cada uno de los estratos, donde N

NW i

i = (el peso

de un estrato es el cociente entre la cantidad de elementos del estrato sobre el total de ele-

mentos de la población) y 1Wi =∑ (la suma del peso de todos los estratos es igual a 1).

Así, reemplazando por los correspondientes valores, tenemos, para la media de ingre-

sos...

xABC= 0,4375 × 320 + 0,375 × 460 + 0,1875 × 1470 = $588

...y, para primario completo...

pABC = 0,4375 × 0,15 + 0,375 × 0,25 + 0,1875 × 0,80 = 0,31ó

pABC = 0,4375 × 15% + 0,375 × 25% + 0,1875 × 80% = 31%

En el caso particular del muestreo estratificado proporcional, si hubieramos podido efectual el cál-

culo de la media a partir de la matriz de datos (con la información desagregada caso por caso) po-

dríamos habernos ahorrado la ponderación, ya que al representar los elementos de cada muestra el

peso de su estrato, el valor final sería el mismo.

El cálculo del error estándar total a partir de datos estratificados no es tan directo. No

podemos llegar a él a través de una suma ponderada de los errores estándar de cada estrato

(como lo hicimos con la media y la proporción) sino a través de las varianzas de las distribu-

ciones muestrales de cada estrato.

La varianza de la distribución muestral total es la suma de las varianzas de las distri-

buciones muestrales de cada uno de los estratos, ponderadas por los pesos cuadrados de los

estratos correspondientes:

2

ix2i

2x σWΣσ =

Si, con MAScr...

i

2i

2

ix

n

σσ =

...podemos remplazar i

2x

2i

2x σWΣσ = por

i

2i2

i2x

n

σWΣσ =

Page 9: Cap 5 Estratificacion2

Capítulo V – Muestreo estratificado (borrador)- 183

Y, si con MAScr, 22 sσ = (insesgado), entonces podemos estimar puntualmente la va-

rianza total de la distribución muestral a partir de la suma de las cuasivarianzas de las mues-

tras de todos los estratos, divididas por la cantidad de elementos de la muestra de cada es-

trato y ponderadas por el peso cuadrado del estrato correspondiente.

∑=i

2i2

i2x

n

sWσ

El paso siguiente para llegar a la estimación puntual del error estándar es obvio: ex-

traer la raíz cuadrada de la estimación de la varianza total de la distribución muestral.

∑=i

2i2

ixn

sWσ

Entonces ya podemos realizar la estimación por intervalos de la media total.

( ) ( ) ∑±=i

2

i2

i2kABCABCn

sWzxk,µIC

Fórmula que, aplicada a nuestro ejemplo, nos lleva (siempre con el cálculo simplifica-

do del MAScr), a...

( ) ( )C

2C

2C

B

2B

2B

A

2A

2A

2kABCABCn

sW

n

sW

n

sWzxk,µIC ++±=

El cálculo del error estándar se desarrolla en el siguiente cuadro.

Si ... entonces

Estrato W s2 n W2 × s2 / n... y el resulta-

do es

A 0.4375 9.632 350 0,43752 × 9.632 ÷ 350 5,27

B 0.375 10.852 300 0,3752 × 10.852 ÷300 5,09

C 0.1875 108.306 150 0,18752 × 108.306 ÷ 150 25,38

Sumamos todos los resultados (∑ W2s2/n), con lo que llegamos a la estimación de la

varianza de la distribución muestral de medias total35,74

Y luego extraemos la raíz cuadrada de la suma anterior para obtener la estimación del

error estándar total5,98

Ahora tenemos la información necesaria para realizar la estimación global, utilizan-

do...

( ) ( ) ABCx2kABC σzxkµ,IC ±=

...que, al remplazar por los valores correspondientes, nos da

( ) $11,96$588$5,982$588µ,0.955IC ±=×±=

Page 10: Cap 5 Estratificacion2

184 - Introducción al muestreo para estudiantes de ciencias sociales

Redondeando, concluimos que, con una confianza del 95,5%, el ingreso mensual pro-

medio de nuestra población es un valor que está dentro de un intervalo con límites $576 y

$600. Recordemos que el cálculo sin considerar la estratificación establecía un intervalo (pa-

ra la misma confianza) con límites $555 y $621, por lo que hemos reducido el error de esti-

mación de $33 a $12.

Ello implica, en términos relativos sobre la estimación puntual de la media aritmética,

una reducción del error de estimación de 5,6 puntos porcentuales a 2 puntos porcentuales, lo

que no es poco, sobre todo si tenemos en cuenta que si deseamos una reducción equivalente

del error de estimación usando MASsr el tamaño de la muestra debe elevarse de 800 a cerca

de 5.700 casos para los valores que usamos de ejemplo.

Avancemos ahora sobre las proporciones. La fórmula para estimar el error estándar de

la distribución muestral de proporciones de la muestra total sigue la misma lógica que la de

las medias aritméticas (raíz cuadrada de la sumatoria de las estimaciones puntuales de las va-

rianzas de las distribuciones muestrales de las muestras de cada estrato multiplicadas por los

pesos cuadrados de los estratos correspondientes), y es:

∑ −=

1n

qpWσ

i

ii2ip

Si ... entonces

Estrato W p n W2 × p.q / (n-1)

... y el resulta-

do es

A 0.4375 15 350 0,43752 × 15 × 85 ÷ 349 0,7

B 0.375 25 300 0,3752 × 25 × 75 ÷299 0,88

C 0.1875 80 150 0,18752 × 80 × 20 ÷ 149 0,38

Sumamos todos los resultados (∑ W2pq/(n-1), con lo que llegamos a estimación de la

varianza de la distribución muestral de proporciones total1,96

Y luego extraemos la raíz cuadrada de la suma anterior para obtener la estimación del

error estándar total1,4

Ya podemos estimar, mediante intervalo, la proporción de personas de la población

que cuentan con estudios primarios aprobados.

( ) ( ) ABCp2kABCˆzpkP,IC σ±=

( ) ( ) 1n

qpW

1n

qpW

1n

qpWP

C

CC2C

B

BB2B

A

AA2A

2kABC zpk,IC−

+−

+−

±=

( ) 2,8311,4231P,0.955IC ±=×±=

Atendiendo a la estratificación, el nuevo intervalo de estimación de P (para una con-

fianza del 95,5 %) queda entre 28,2 y 33,8%, mientras que el anterior estaba dado por 27,7 y

34,3 %, o dicho de otra forma, el error de estimación se reduce de 3,3 a 2,8 puntos porcen-

tuales. Si pretendemos obtener este error de estimación mediante MASsr la cantidad de casos

necesarios en la muestra se eleva de 800 a cerca de 1.100, siempre y cuando podamos esti-

mar previamente con cierta aproximación la heterogeneidad de la población.

Page 11: Cap 5 Estratificacion2

Capítulo V – Muestreo estratificado (borrador)- 185

¿Qué es lo que ha permitido reducir los errores de estimación, mejorar la eficiencia

estadística? Que el criterio de agrupamiento de los casos demostró ser útil al construir estra-

tos con poca variabilidad, lo que llevó a una disminución del error estándar total. Recorde-

mos que se dice que un diseño muestral es más eficiente en lo estadístico que otro cuando,

para el mismo tamaño de muestra, se obtiene un error estándar (o típico) menor.

V.2.A - Fórmulas para estimación de parámetros mediante intervalo de confianza (muestrasestratificadas)

Selección

intra-estratoparámetro Fórmula

µ ( ) ( ) ∑±=i

2

i

2

i

2kABCABCn

sWzxk,µIC

T(X) ( ) ( ) ∑±=i

2

i

2

i

2kABCABCn

sNzNxk,T(X)ICMAScr

P ( ) ( ) ∑−

±=1n

zpk,ICi

ii2i

2kABCABC

qpWP

µ ( ) ( )

( )∑±=

ii

ii2

i

2

i

2kABCABCNn

sWzxk,µIC

nN

T(X) ( ) ( )

( )∑±=

i

ii2

ii

2kABCABCn

sNzNxk,T(X)IC

nNMASsr

P ( ) ( ) ∑−

±=−

ii

iiii2i

2kABCABC1)N(n

zpk,IC)n(NqpW

P

V.3 - Variables que deben ser consideradas para dividir (estratificar) a la población.

¿Qué variables deben ser consideradas para dividir a la población en estratos?

La respuesta intuitiva a la pregunta es obvia: la mejor estratificación surge de la distri-

bución de la variable en estudio. Pero esta respuesta, además de obvia, puede llegar a ser ab-

surda, ya que si tenemos suficiente información sobre esta variable como para confeccionar

estratos a partir de ella, ¿qué sentido tiene realizar una investigación sobre la misma?

Afortunadamente solemos contar, a partir de relevamientos censales o investigaciones

previas, con información sobre variables estrechamente vinculadas con las de investigación.

La distribución geográfica, el sexo, la edad, el nivel socioeconómico, los ingresos, la condi-

ción de ocupación, los resultados electorales, la mortalidad, la fecundidad, la educación, la

densidad poblacional, el hacinamiento, la cantidad de empleados, la distribución y cobertura

de servicios públicos, el grado de "bancarización", la exposición a medios de comunicación,

la participación de una marca en el mercado, el régimen de tenencia de la tierra, la recauda-

ción impositiva, la cobertura de salud, el grado de sindicalización o el monto de facturación

Page 12: Cap 5 Estratificacion2

186 - Introducción al muestreo para estudiantes de ciencias sociales

anual, son algunas de las tantas variables sobre las que se cuenta con información (o sobre

las que se pueden realizar estimaciones confiables) y que suelen estar íntimamente relacio-

nadas con muchas de nuestras inquietudes. Es entonces a partir de ellas que se realiza la es-

tratificación, buscando que los elementos de cada estrato sean lo más parecidos entre sí y

maximizando las diferencias con los integrantes de los otros estratos.

La calidad de la estratificación dependerá, entre otros factores, del grado de asociación

de las variables consideradas a tal efecto con las variables en estudio. Como en muchos otros

aspectos del diseño muestral, un buen juicio, experiencia y ajustado marco teórico suelen ser

más útiles que fórmulas o recetas para su elección.

V.4 - Establecimiento de los estratos (categorización).

¿Cómo combinamos y categorizamos las variables utilizadas para estratificar, cuáles

son los límites de cada estrato?

El problema radica en los límites a partir de los cuales definir los estratos. Y se com-

plica a medida que aumenta en nivel de medición de las variables de estratificación. Si deci-

diéramos realizar una estratificación sencilla a partir del sexo, la región de residencia o la

condición de ocupación no tendríamos mayores dudas para ubicar a cada caso en alguna de

las categorías, cumpliendo los requisitos básicos de la estratificación: cada una de las unida-

des de muestreo está comprendida en algún estrato y solo en uno (estratos mutuamente ex-

cluyentes y en su conjunto comprensivos de la totalidad de la población) y los elementos de

cada estrato serán similares entre sí y diferentes a los de cualquier otro estrato (un integrante

de un estrato no debe parecerse más a un elemento de otro estrato que a uno del propio).

Pero si la variable utilizada fuera la edad (establecida en años cumplidos) la definición

del límite de cada estrato es más difícil (y muchas veces sin solución). Si definimos tres gru-

pos: menores de 30 años, de 30 a 50 años y mayores de 50 años, cumpliríamos con la primera

condición (que cada unidad de muestreo sea incorporable a un grupo y solo a uno) pero no

con la segunda. Una persona de 29 años pertenece al primer grupo, pero sin embargo tiene

más semejanza con una gran cantidad de integrantes del segundo grupo que con muchos de

los miembros de su propio grupo. Se parece más a una persona de 30 años, que pertenece al

segundo estrato, que a otra de 22 años con la que comparte el estrato. Este tipo de clasifica-

ción generará grupos no definibles como estratos, al menos muestralmente hablando. Incluso

cuando se realiza una estratificación compleja de menor nivel de medición (utilizando dis-

tintas variables), la combinación de categorías puede generar inconvenientes similares.

Esto no significa que las variables de nivel de medición intervalar o de razones no

puedan ser utilizadas para estratificar a la población en estudio. Al margen que existen algu-

nos procedimientos matemáticos para estratificar con estas variables, hay situaciones donde

los cortes se establecen naturalmente por ausencia de unidades con determinados valores in-

termedios, y muchas veces el corte no necesariamente se vincula con los valores de la varia-

ble utilizada para estratificar sino con atributos asociados a estos (aunque, estrictamente, no

estamos usando esta variable para estratificar). Cuando, por ejemplo, las variables en estudio

están relacionadas con temas educativos, demográficos u ocupacionales, la edad puede arro-

jar segmentaciones significativas con independencia de la cercanía o no de sus valores. Con-

sideraciones similares se pueden hacer, por ejemplo con el uso de los ingresos familiares o

Page 13: Cap 5 Estratificacion2

Capítulo V – Muestreo estratificado (borrador)- 187

personales como variable de estratificación, donde establecemos cortes con mayor minucio-

sidad en los valores más bajos, ya que a medida que aumentan los ingresos las diferencias se

vuelven menos significativas.

La determinación de los límites de los estratos tiene fundamentos más teóricos que

estadísticos y depende del conocimiento que los investigadores tengan sobre las característi-

cas de la asociación de las variables utilizadas en la estratificación con las variables en estu-

dio.

Cuando el investigador se encuentra con dificultades para establecer los limites de un

estrato, es conveniente evaluar la posibilidad de no subdividirlo y darle el tratamiento co-

rrespondiente a un estrato de alta variabilidad.

V.5 - Cantidad de estratos.

¿Cuántos estratos deben considerarse?

Una gran cantidad de estratos nos permite cumplir más acabadamente con la condición

que los integrantes de un estrato sean similares entre sí y se diferencien de los integrantes de

los otros estratos, por lo que podríamos responder que la cantidad de estratos será la mayor

que podamos establecer con un sustento aceptable.

Pero, por grande que sea la cantidad de estratos, nunca se conseguirá explicar com-

pletamente la "variabilidad" de las observaciones. A partir de cierto momento la variación

"inexplicada" será dominante y es pequeña la ganancia que tendremos introduciendo una

mayor cantidad de estratos. Si consideramos el tema de los costos (ya sea en la selección

como en recolección del dato y en los análisis posteriores de la información) también encon-

traremos que la creación de una gran cantidad de estratos poco aporta con relación a la inver-

sión total.

Siguiendo a Cochran (3) y pensando en términos de "costo/beneficio", es aconsejable

no utilizar mucho más de seis estratos cuando el objetivo es realizar estimaciones que inclu-

yen a la totalidad de los casos. Sin embargo, esta no es una regla que necesariamente debe

seguirse, dependiendo entre otras cosas del grado de asociación de la variable “estratificado-

ra“ con la variable de estudio y de la cantidad de casos que podemos seleccionar por estrato.

Si la asociación es alta, ganaremos con mayor cantidad de estratos. Si la cantidad de casos a

seleccionar en cada estrato es baja, no estará de más dividir a la población en más estratos

para asegurarnos la mayor homogeneidad posible dentro de cada uno de ellos, de forma de

que unos pocos casos por estrato puedan ser representativos sin asumir demasiados riesgos.

Una mayor cantidad de estratos será considerada también cuando el objetivo sea tener infor-

mación de sub-grupos.

Notas:

3 Cochran, W.G., Técnicas de Muestro, pág. 176, Ed. Cecsa, México, 2000

Page 14: Cap 5 Estratificacion2

188 - Introducción al muestreo para estudiantes de ciencias sociales

V.6 - Cantidad de casos en cada estrato.

V.6.A - Asignación proporcional y no proporcional

¿Cuántos casos se seleccionaran dentro de cada estrato?

Las observaciones de una muestra estratificada pueden distribuirse en forma propor-

cional al tamaño o peso de los estratos en la población o pueden distribuirse, por distintos

motivos, en forma no proporcional (con igual o desigual cantidad de casos en cada estrato).

En el caso que queramos comparar los resultados de sub-grupos o realizar estimacio-

nes para cada sub-grupo con una precisión mínima, con una asignación proporcional pode-

mos quedarnos sin bases de cálculo suficientes si alguno de ellos es relativamente pequeño.

De acuerdo a los datos del censo 2001, la población que reside en la Patagonia repre-

senta menos del 5% de la población total de la república argentina, mientras que los residen-

tes en el Gran Buenos Aires abarcan a casi el 32% y los de la Región Central el 35%. Si

asignáramos proporcionalmente por región una muestra de n=2000, a la Patagonia le corres-

ponderían 100 casos, al Gran Buenos Aires 640 y a la Región Central 700, repartiéndose los

casos faltantes en las restantes regiones.

Evidentemente, la precisión de las estimaciones para la Patagonia será muy pobre. Si

nuestro interés es contar con estimaciones razonablemente precisas para cada región, sin au-

mentar el tamaño de la muestra total y sin considerar los costos de recolección del dato, ten-

dremos que asignarle más casos a las regiones pequeñas en menoscabo de las mayores. Ha-

ciéndolo con criterio, la pérdida de precisión en las regiones de mayor peso será relativa-

mente pequeña en comparación con la ganancia en las áreas de menor magnitud.

En el cuadro que figura a continuación se observan los máximos errores de estimación

por región para variables de nivel de medición ordinal o menor, con una confianza del

95,5%, con asignación proporcional y no proporcional (en este caso arbitraria), con MAScr

intra-estrato.

Asignación

Proporcional No proporcionalRegión

n ( ) p2kˆz σ n ( ) p2k

ˆz σ

Patagonia 100 10 % 300 5,8 %

Gran Buenos Aires 640 4 % 560 4,2 %

Región Central 700 3,8 % 580 4,2 %

El agregarle 200 casos a la Patagonia y restarle 80 al Gran Buenos Aires y 120 a la

Región Central implica una importante ganancia en la estimación de parámetros para la pri-

mera región, sin que la pérdida sea significativa en las otras.

También podremos optar por una asignación igual por estrato, de manera que la preci-

sión de las estimaciones sea similar en todas las regiones. En este caso, en cada una de las 6

grandes áreas de la República Argentina seleccionaremos alrededor de 333 casos, siendo el

máximo error de estimación de casi 5,5 puntos porcentuales en cada una (siempre para varia-

bles de nivel de medición ordinal o menor y con MAScr).

Page 15: Cap 5 Estratificacion2

Capítulo V – Muestreo estratificado (borrador)- 189

Si lo que nos interesa son los resultados globales y solo conocemos de los estratos su

tamaño, la distribución proporcional es recomendable. Pero, si además contamos con una es-

timación razonable de la variabilidad de los estratos, a los efectos de mejorar la eficiencia

estadística, podemos realizar una distribución no proporcional.

Para ilustrarlo, pensemos que hemos decido extraer una muestra de 200 casos de una

población de 600 personas para conocer la remuneración mensual media de los operarios de

una empresa manufacturera, y definido dos estratos de trabajadores: los no calificados y los

calificados.

De los primeros sabemos que comprenden al 60% de nuestra población, tienen condi-

ciones y características de trabajo similares y remuneraciones que oscilan entre $500 y $560

mensuales. De los trabajadores calificados sabemos que tienen salarios que oscilan entre

$700 y $1400 a partir de condiciones y calificaciones laborales disímiles.

Estratos

No calificados Calificados

N 360 240

Rango salarios $ 500 / $ 600 $ 700 / $ 1400

Si el muestreo es proporcional deberíamos seleccionar, para la muestra, 120 trabajado-

res no calificados y 80 calificados. Sin embargo, e invocando al sentido común ¿no sería un

desperdicio asignar una muestra de 120 casos al estrato de trabajadores no calificados, cuan-

do con unos pocos casos obtendríamos una medida suficientemente confiable de la media de

su remuneración mensual? ¿No sería entonces también razonable asignar más casos a los tra-

bajadores calificados, ya que dada la variabilidad de su ingreso corremos mayor riesgo de

obtener un valor de la media demasiado alejado del verdadero si trabajamos con poca infor-

mación? La respuesta es, evidentemente, sí.

Pero los trabajadores no calificados son más numerosos y un error en la estimación de

sus parámetros tendrá más influencia en la estimación total que un error en la estimación de

los parámetros de los trabajadores calificados. Surge entonces una pregunta: ¿cuál es la más

ajustada distribución de casos por estratos? ¿Cuál es la distribución óptima que, contemplan-

do el tamaño de los estratos pero también su variabilidad, brinda el menor error estándar po-

sible?

V.6.A.1 - Asignación (afijación) óptima.

Asumiendo que la estratificación fue correctamente establecida, que los costos de la

recolección de datos en cada estrato no son sensiblemente distintos y que el tamaño total de

la muestra es fijo (para cualquier combinación de estratos) la pregunta es: ¿cuántos casos de-

ben asignarse a cada estrato si decidimos realizar una muestra estratificada no proporcional,

y esta decisión no está basada en la necesidad de conocer con determinada precisión las ca-

racterísticas de alguno o todos los estratos, sino en la pretensión de mejorar la eficiencia es-

tadística global?

Ya sea porque las poblaciones son pequeñas o, sobre todo, porque los datos tienen me-

nos variabilidad (poblaciones más "homogéneas"), sabemos que la cantidad de casos necesa-

rios en una muestra será menor sin afectar la eficiencia estadística. Entonces, si las muestras

Page 16: Cap 5 Estratificacion2

190 - Introducción al muestreo para estudiantes de ciencias sociales

estratificadas no son más que la suma de muestras aleatorias simples independientes en cada

estrato ¿por qué no aprovechar este conocimiento para optimizar la eficiencia estadística

global de nuestra muestra y asignarle más casos a los estratos más "complejos", reduciendo

los de los estratos menos "complejos", sin dejar de considerar simultáneamente el tamaño de

cada estrato, disminuyendo los errores estándar parciales y llevando el error estándar total a

su mínima expresión?

Veamos distintas alternativas de muestreo utilizadas a los efectos de ir mejorando la

eficiencia estadística. Dijimos que el tamaño de la muestra será 200 casos, con independen-

cia de la técnica de selección utilizada. Supongamos que el investigador extrae una muestra

aleatoria simple, y como tiene suerte, los resultados son absolutamente representativos de la

población (cosa que nosotros conocemos, pero él no).

Muestra de 200 trabajadores al azar simple sin reposición

x = $ 712,5 s2 = 81.465

El investigador estima ahora mediante intervalo la media de la población para una con-

fianza del 95,5%. Como la población es pequeña, la muestra fue obtenida sin reposición y la

fracción de muestreo es grande, aplica la fórmula:

( ) =−

×±=±=N

nN

n

szxσzx0.955µ, IC

2

(k/2)x(k/2)

335,127479,1625,127$600

200600

200

81.46525,127 ±=×±=

−×±=

Y llega a la conclusión que la remuneración mensual media, con una confianza del

95,5%, es un valor que está entre $ 679,5 y $ 745,5.

Pero si hubiera sabido que el 60% de los trabajadores no tienen calificación, podría

haber extraído una muestra estratificada proporcional, la que, con un poco de buena fortuna,

arrojaría la siguiente información:

Muestra de 200 trabajadores. Estratificado pro-

porcional

Estrato A (no ca-

lificados)

Estrato B (califi-

cados)

n 120 80

x $ 520,8 $ 1000

s2 375 65.272

A partir de estos datos calculamos primero la media global de la muestra mediante el

promedio ponderado de las medias de las muestras de los estratos A y B.

712,510000,4520,80,6xWxWx BBAAAB .. =×+×=+=

Luego estimamos puntualmente el error estándar de la distribución muestral de medias

de la muestra. Repasando, para ello se estiman las varianzas de la distribuciones muestrales

correspondientes a las muestras de cada estratos, se las multiplica por el peso al cuadrado del

Page 17: Cap 5 Estratificacion2

Capítulo V – Muestreo estratificado (borrador)- 191

estrato, se suman los productos obtenidos para llegar a la estimación de la varianza total de la

distribución muestral y luego se extrae su raíz cuadrada. La fórmula para la estimación del

error estándar, si MASsr intra-estrato, es:

( )∑

−=

ii

ii2i2

ixNn

nNsWσ ó ∑

−×=

i

ii

i

2i2

ixN

nN

n

sWσ

Aplicada a nuestro ejemplo:

( ) ( )BB

BB2B

2B

AA

AA2A

2A

ABxNn

nNsW

Nn

nNsWσ

−+

−=

Y remplazando:

( ) ( )=

×−××

−××=

40280

08402272.650,16

603120

201603753,360σ

ABx

37,978,8703,8775,0 ==+=

Teniendo ya las estimaciones puntuales de la media de la población y del error están-

dar podemos calcular el error de estimación y por lo tanto el intervalo de confianza:

( ) ( ) 18,74712,59,372712,5σzx0.955µ, ICABx2kAB ±=×±=±=

Concluyendo que la remuneración mensual media (con una confianza del 95,5%) es un

valor que está entre $693 y $732, intervalo notablemente más pequeño que el establecido por

la estimación a partir de la muestra aleatoria simple ($679 / $746).

Pero supongamos que el investigador no solo conoce la cantidad de personas incluidas

en cada estrato poblacional sino que además tiene información confiable sobre la variabili-

dad de la remuneración en cada uno de ellos: sabe que la cuasivarianza del estrato A no pue-

de ser superior a 3000 y la del estrato B a 80.000.

Considera que no tiene sentido asignar tantos casos a un estrato con tan poca variabili-

dad como el primero y que podría aumentar la cantidad de casos en el segundo estrato, que

tiene una dispersión mucho mayor, aumentando la eficiencia estadística total. Existen 199

combinaciones posibles de asignación de 200 casos en dos estratos:

Casos por estratoCombi-

nación A B

1 1 199

2 2 198

3 3 197

... ... ...

197 197 3

198 198 2

199 199 1

Una solución, un tanto artesanal, es observar cuál es el resultado de cada una de las

199 combinaciones y elegir la que arroje menor error estándar, pero por suerte existe un me-

Page 18: Cap 5 Estratificacion2

192 - Introducción al muestreo para estudiantes de ciencias sociales

canismo que nos permite conocer cuál es la mejor asignación (Fórmula de Neyman) sin tener

que realizar una gran cantidad de cálculos y comparaciones:

Si la selección intra-estrato es aleatoria con reposición, el tamaño del estrato se calcula

mediante la fórmula...

ii

ii

iσW

σWnn

∑=

El tamaño de la muestra para el estrato A está dada por el peso del estrato multiplicado

por su desvío estándar y por el tamaño global de la muestra (WA.σσσσA.n) y dividido por la suma

de los pesos de todos los estratos multiplicados por sus desvíos estándar correspondientes

(ΣΣΣΣWi.σσσσi).

...y, si la selección es sin reposición, la fórmula es...

i i

ii

iSW

SWnn

∑=

La fórmula de Neyman también es aplicable a las proporciones, remplazando

σ i por iiQP y Si por ( )1-NNQP iiii , quedando...

QPW

QP

iii

iii

i

n Wn

⋅=∑

, para la selección con reposición...

...y )1-(NNQP

)1-(NNQPn Wn

iiiii

iiiiii

W ⋅=∑

para la selección sin reposición.

Como, para la mayoría de las situaciones, el uso de iσ en lugar de Si y de

iiQP por )1-(NNQP iiii no implica diferencias significativas en los resultados, usamos

la fórmula más sencilla para calcular el tamaño óptimo del estrato, en esta caso la que impli-

ca usar S (el cuasi desvío estándar), ya que contamos con la magnitud de la cuasivarianza.

Entonces, si 2SS = ...

54,77233000SA ===

282,842780.000SB ==

...y aplicando la fórmula de Neyman...

ii

ii

iSW

SWnn

∑=

45,02146,0005

6572,68

282,84270,454,77230,6

54,77230,6200nA ==

×+×

××=

Page 19: Cap 5 Estratificacion2

Capítulo V – Muestreo estratificado (borrador)- 193

...el investigador resuelve extraer una muestra estratificada con asignación óptima con-

siderando el peso y la variabilidad de cada estrato, donde la cantidad de casos a seleccionar

en el estrato A es 45 y en el estrato B se seleccionaran 155 (n-nA).

Los resultados de esta muestra son los del siguiente cuadro:

Muestra de 200 trabajadores. Estratificado con

afijación óptima

Estrato A (no ca-

lificados)

Estrato B (califi-

cados)

n 45 155

x $ 520 $ 997,6

s2 365 64.832

Y repitiendo los pasos ya conocidos para la estimación de la media aritmética me-

diante intervalo, para una confianza del 95,5%...

Cálculo de la media global de la muestra:

7116,9790,45200,6xWxWx BBAAAB .. =×+×=+=

Estimación puntual del error estándar de la distribución de medias muestrales:

( ) ( )=

−+

−=

BB

BB2B

2B

AA

AA2A

2A

ABxNn

nNsW

Nn

nNsWσ

( ) ( )=

×

−÷×+

×

−××=

402155

55140264.8320.16

60345

546033650.36

5,124226,25723,7022,555 ==+=

Estimación mediante intervalo de confianza de la media aritmética de la población

( ) ( ) 25,017111242,52711σzx0.955µ, ICABx2kAB ±=×±=±=

Y esta vez concluye que la remuneración mensual media, con una confianza del

95,5%, es un valor que está entre $ 700 y $ 722.

Resumiendo, vemos que las estimaciones mediante intervalos de confianza, sin modi-

ficar el riesgo (4,5%) ni la cantidad de casos (n=200), arrojaron los siguientes resultados de-

pendiendo de la técnica de muestreo empleada y la asignación de casos por estrato.

MASsrEstratificado propor-

cional

Estratificado con asig-

nación óptima

limite

inferior

limite

superior

limite

inferior

limite

superior

limite

inferior

limite

superior

intervalo 679 746 693 732 700 722

error estándar 16,48 9,37 5,13

Page 20: Cap 5 Estratificacion2

194 - Introducción al muestreo para estudiantes de ciencias sociales

V.7 - El tamaño de la muestra estratificada.

Nos queda ahora calcular el tamaño de la muestra y de sus estratos cuando se utiliza la

estratificación. Al igual que con el azar simple, queda a criterio del investigador establecer la

confianza y el error de estimación deseados. También deberá realizar una estimación razona-

ble de la variabilidad de todos y cada uno de los estratos.

Tomamos tres criterios de asignación de casos: asignación igual, asignación propor-

cional y asignación óptima (con igualdad de costos para todos los estratos).

Obviamente, en el caso de la asignación igual bastará con un solo cálculo, ya que to-

dos los estratos tendrán asignada igual cantidad de casos, y este resultado se multiplicará por

la cantidad de estratos para llegar al tamaño total de muestra.

En el caso de la asignación proporcional se debe calcular la cantidad de casos a selec-

cionar en cada estrato, y la suma de estos resultados arrojará la cantidad de casos totales de

la muestra.

Para la asignación óptima primero se debe calcular el tamaño de muestra, y posterior-

mente aplicar la fórmula de Neyman a cada uno de los estratos para realizar la distribución

de casos por estrato.

Se recomienda especial atención en la lectura y uso de las fórmulas que se exponen a

continuación. Una mirada apresurada puede llevar a errores, ya que muchas de las medidas y

notaciones son parecidas. Algunas de ellas hacen referencia a información de los estratos (las

que tienen el subíndice i) y otras al total poblacional. En la misma fórmula W puede estar

elevado al cuadrado o no. Hay fórmulas en donde se utiliza el desvío estándar (σ), en otras la

varianza (σ2), la cuasivarianza (S2) o el cuasi desvío estándar (S). Y en algunas se combinan

dos o más de estas medidas.

V.7.A - Tamaño de los estratos para estimación de medias aritméticas.

Selección intra-estrato

MAScr MASsr

asignación

igual

( )

2

2k

2

i

2

i

i

z

δ

Wn

= ∑ σ

( ) N

SW

z

δ

SWn

2

ii

2

2k

2

i

2

i

i

+

=

Selección intra-estrato

MAScr MASsr

asignación

proporcio-

nal

( )

2

2k

2

iii

i

z

δ

WWn

= ∑ σ

( ) N

SW

z

δ

SWWn

2

ii

2

2k

2

iii

i

+

=

Page 21: Cap 5 Estratificacion2

Capítulo V – Muestreo estratificado (borrador)- 195

Selección intra-estrato

MAScr MASsr

( )

( )

2

2k

2

i

z

δ

Wn

= ∑ iσ ( )

( ) N

SW

z

δ

SWn

2

ii

2

2k

2

ii

+

=

asignación

óptima

∑=

i

i

σσ

i

ii

W

nWn

∑=

ii

iii

SW

SnWn

V.7.B - Tamaño de los estratos para estimación de totales.

El cálculo del tamaño de los estratos para la estimación de totales se realiza utilizando

las mismas fórmulas del tamaño para la estimación de medias aritméticas, dividiendo el má-

ximo error de estimación deseado por la cantidad total de casos, transformando la expre-

sión...

( )

2

2kz

δ

en

( )

2

2kz

Así, por ejemplo, la fórmula para determinar el tamaño mínimo de la muestra de un

estrato en particular para realizar una estimación del total con un error y una confianza de-

terminadas, mediante estratificación proporcional con MASsr intra-estrato queda...

( ) N

SW

z

δ/N

SWWn

2

ii

2

2k

2

iii

i

+

=

V.7.C - Tamaño de los estratos para estimación de proporciones.

Selección intra-estrato

MAScr MASsr

asignación

igual

( )

2

2k

ii

2

i

i

z

δ

QPWn

= ∑

( ) N

1N

NQPW

z

δ

1N

NQPW

n

i

iiii

2

2k

i

iii

2

i

i

−+

−=

Page 22: Cap 5 Estratificacion2

196 - Introducción al muestreo para estudiantes de ciencias sociales

Selección intra-estrato

MAScr MASsr

asignación

proporcio-

nal

( )

2

2k

iiii

i

z

δ

QPWWn

= ∑

( ) N

1N

NQPW

z

δ

1N

NQPWW

n

i

iiii2

2k

1

iiiii

i

−+

−=

Selección intra-estrato

MAScr MASsr

( )

( )

2

2k

2

iii

z

δ

QPWn

= ∑

( ) N

1-N

NQPW

z

δ

1N

NQPW

n

i

iiii2

2k

2

i

iiii

+

−=

asignación

óptima

∑=

iii

iiii

QPW

QPnWn

∑=

1-N

NQPW

1-N

NQPnW

n

i

iiii

i

iiii

i

Regla práctica: Teniendo en cuenta que, para fracciones de muestreo pequeñas, el

realizar operaciones con N-1 o N es prácticamente indistinto, en la mayoría de los casos y

cuando la selección intra-estrato es al azar simple sin reposición se pueden utilizar fórmulas

simplificadas. Ellas son:

Fórmulas simplificadas para determinar el tamaño de los estratos (para estimación de pro-

porciones) en el muestreo estratificado con selección intra-estrato MASsr

asignación igual

(estrato)

asignación proporcional

(estrato)

asignación óptima

(total muestra)

( ) N

QPW

z

δ

QPWn

iii

2

2k

ii

2

i

i

+

=

( ) N

QPW

z

δ

QPWWn

iii

2

2k

iiii

i

+

=

( )

( ) N

QPW

z

δ

QPWn

iii

2

2k

2

iii

+

=

Veamos un ejemplo sobre el uso de las formulas exactas y las fórmulas simplificadas.

Supongamos la siguiente población, de la que conocemos su tamaño y una estimación razo-

nablemente del porcentaje de aparición de un determinado atributo (P).

Page 23: Cap 5 Estratificacion2

Capítulo V – Muestreo estratificado (borrador)- 197

EstratosTotal

A B C

W 1 0,32 0,43 0,25

N 2000 640 860 500

P 40% 81% 21% 21%

Si queremos establecer el tamaño mínimo de los estratos para poder realizar estima-

ciones mediante intervalos con una confianza del 95% y un error de estimación no mayor a 4

pp., bajo el supuesto que la selección intra-estrato se realizará mediante MASsr, podemos

usar la fórmula exacta...

( ) N

1N

NQPW

z

δ

1N

NQPWW

n

i

iiii2

2k

1

iiiii

i

−+

−=

...la que, aplicada al estrato A:

=×××

+×××

+×××

+

×××+

×××+

××××

=

2000

499

50079210,25

859

86079210,43

639

64019810,32

1,96

4

499

50079210,25

859

86079210,43

639

64019810,3232,0

n2

A

( )4,041

54,97644744

3519,370346

60,8115161694,16493127

3415,5811627714,2004652493,25070432,0==

+

++×=

...lo que nos da 105 casos para el estrato A. Si aplicamos la fórmula para los otros dos

estratos, el resultado es 141 casos para el estrato B y 82 casos para el estrato C, siendo el ta-

maño total de la muestra de 328 casos.

Usemos ahora la fórmula simplificada:

( ) N

QPW

z

δ

QPWWn

ii

2

2k

iiii

i

+

=

( )=

××+××+××+

××+××+×××=

2000

79210,2579210,4319810,32

1,96

4

79210,2579210,4319810,3232,0n

2A

104,294,97523127

518,592

0,810394,16493127

1620,632,0==

=

Page 24: Cap 5 Estratificacion2

198 - Introducción al muestreo para estudiantes de ciencias sociales

...lo que nos da 105 casos para el estrato A. Si aplicamos la fórmula para los otros dos

estratos, el resultado es 141 casos para el estrato B y 82 casos para el estrato C. El tamaño

total de la muestra es, también, de 328 casos.

Solamente podríamos observar la diferencia entre uno u otro resultado en las centési-

mas. Para poblaciones de mayor magnitud la diferencia en el uso de una u otra fórmula para

calcular el tamaño de los estratos es todavía más irrelevante en lo que hace a la ulterior esti-

mación. Tengamos en cuenta, además, que hemos usado a modo de ejemplo un tamaño, tanto

para la población total como para los estratos, desacostumbradamente pequeño en la investi-

gación social, mientras que la confianza y el margen de error son de uso habitual.

También, a los efectos prácticos y con N grande, es indistinto el uso de iσ ó iS

V.7.C.1 - Asignación óptima atendiendo al costo

Una variante de la asignación óptima es la que considera al costo de cada caso dentro

del estrato.

No es un tema menor, ya que en lo cotidiano el tamaño de la muestra suele estar con-

dicionado por los recursos disponibles. Pero debe prestarse cuidado al determinar el tamaño

de los estratos atendiendo al costo, ya que presupuestos reducidos y diferencias importantes

de costo para cada estrato pueden llevar a tamaños de muestras alejados de los objetivos es-

tadísticos pretendidos.

En parte de la bibliografía se considera al costo total (C)como resultado de las funcio-

nes:

∑= iicnC ó ∑+= iif cnCC

...donde Cf, ni y ci representan, respectivamente, la totalidad de los costos fijos, la can-

tidad de casos por estrato y el costo por caso del estrato sin incluir los costos fijos. La rique-

za de situaciones no puede ser contemplada acabadamente por las fórmulas expuestas, sobre

todo cuando los gastos generados por traslados, viajes, alojamiento y viáticos son importan-

tes.

Hecha la salvedad, sin considerar a los costos fijos (o asumiento que fueron correcta-

mente imputados a cada estrato) y bajo el supuesto que el costo por caso es razonablemente

homogéneo dentro de cada estrato, el tamaño óptimo de la muestra global (n) se definirá de-

pendiendo de si deseamos maximizar la precisión y la confianza para un costo determinado,

o disminuir el costo para una precisión y confianza determinadas. Después de definir el ta-

maño óptimo de n, según el objetivo, se procede al cálculo de los n correspondientes a los

estratos.

Las fórmulas, para ambos objetivos y dependiendo del tipo de selección intra-estrato,

son las siguientes:

Page 25: Cap 5 Estratificacion2

Capítulo V – Muestreo estratificado (borrador)- 199

Selección intra-estratomaximizar precisión a

partir de un costo total

dado MAScr MASsr

calculo de n∑∑=

iii

iii

cσW

cσWCn

∑∑=

iii

iii

cSW

cSWCn

cálculo de ni (estrato)

∑=

iii

iii

i

cσW

cσnWn

∑=

iii

iii

i

cSW

cSnWn

Selección intra-estratoMinimizar costos a

partir de error de esti-

mación y nivel de con-

fianza dados.MAScr MASsr

calculo de n

( )

( )

2

2k

iiiiii

cσWcσWn

= ∑∑ ( )

( ) N

SW

cSWcSWn

2

ii

2

2k

iiiiii

∑∑∑

+

=

cálculo de ni (estrato)

∑=

iii

iii

i

cσW

cσnWn

∑=

iii

iii

i

cSW

cSnWn

Las mismas fórmulas son aplicables para variables de nivel de medición nominal u or-

dinal...

...reemplazando por

iσ iiQP

iS1N

NQP

i

iii

2iS 1N

NQP

i

iii

y recordando que, para tamaños de N y Ni grandes, el uso de iσ ó iS es indistinto a los

efectos prácticos, así como también el uso de iiQP ó

1N

NQP

i

iii

V.8 - Algunas precauciones a tener en cuenta con la estratificación.

Considerando las dificultades teóricas y prácticas para su implementación la estratifi-

cación no es la panacea universal (mucho menos en la investigación social). Por un lado,

comparte con el muestreo aleatorio simple la necesidad de contar con un marco muestral ra-

zonablemente completo. A ello hay que agregarle un satisfactorio conocimiento de los prin-

Page 26: Cap 5 Estratificacion2

200 - Introducción al muestreo para estudiantes de ciencias sociales

cipales aspectos de la población y del tipo y características de la asociación de las variables

en estudio con otras cuya distribución nos sea conocida o calculable.

La estratificación es una herramienta poderosa que permite mejorar sensiblemente la

precisión de las estimaciones. Y, si no pretendemos disminuir la precisión, posibilita bajar los

costos de la investigación (y aumentar el control del error no muestral) al reducir la cantidad

de casos necesarios. Pero esta última ventaja es también, en ocasiones, una tentación peligro-

sa.

Si la decisión de no proporcionar la muestra se basa en la necesidad de contar con es-

timaciones más precisas para algunos de los estratos, o atiende a consideraciones operativas

o de costos, el resultado final dependerá de estos requisitos y no hay nada que objetar enton-

ces. Pero si lo hacemos deseando una mayor eficiencia estadística global hay que tomar

ciertas precauciones, ya que una incorrecta asignación de casos a cada estrato puede llevar a

resultados contrarios a los buscados.

Una estratificación puede ser buena o mala, útil o inútil, y solo lo sabremos con certe-

za cuando tengamos los datos finales tabulados. Si hemos realizado una estratificación previa

es porque tenemos sólidas razones para pensar que las características de los elementos de un

estrato son relativamente similares entre sí y se diferencian sensiblemente de las de los com-

ponentes de los otros estratos. Si ello no es así, la estratificación habrá sido, cuanto menos,

innecesaria.

Respetando la proporcionalidad, una mala estratificación llevará, en la mayoría de los

casos, a que los valores de la estimación global sean similares a los que se hubieran conse-

guido a través del azar simple. Si el investigador no se comprometió a brindar estimaciones

con menores errores o riesgos que los obtenibles mediante este último método, o no decidió

restringir la cantidad total de casos basado en la mayor eficiencia estadística esperada, sim-

plemente habrá perdido tiempo, esfuerzo y los costos derivados de obtener y procesar la in-

formación necesaria para la estratificación (los que, en su conjunto, suelen no ser desprecia-

bles).

El problema es más serio con una muestra estratificada no proporcional. Ya sea por de-

fectos de la estratificación o por una errónea asignación de casos en los estratos a partir de

una mala información sobre la variabilidad, la eficiencia estadística puede llegar a ser sensi-

blemente menor que la de un muestreo aleatorio simple, con las consecuencias imaginables.

Veamos el siguiente ejemplo, con una selección al azar simple con reposición para ha-

cer los cálculos sencillos. Se trata de una muestra de 1.000 casos que se distribuyó propor-

cionalmente en dos estratos. La estratificación es incorrecta (o al menos inútil), ya que la

cuasivarianza del estrato A es apenas un poco menor que la del total y la del estrato B es su-

perior a la del total.

Page 27: Cap 5 Estratificacion2

Capítulo V – Muestreo estratificado (borrador)- 201

EstratosTotal

A B A + B

W 1 0.8 0.2

n 1000 800 200

s2 920,497879 907,152344 935,159722

n

22

x = 0,92049788

n

2

x = 0,9594

i

2i2

in

sW 0,72572188 0,18703194

∑=i

2i2

i2x

n

sWσ 0,91275382

∑=i

2i2

ixn

sWσ 0,9554

Como resultado de ello, el error estándar calculado a partir de la estratificación

(0,9554) es similar al de una selección al azar simple sobre el total de casos (0,9594).

Supongamos ahora que la distribución de casos, a partir de supuestos erróneos sobre la

variabilidad de los estratos o por razones de costo, no es proporcional. Mantenemos los mis-

mos estadísticos para cada estrato, pero invertimos la asignación de casos.

Estratos

A B A + B

W 0.8 0.2

n 200 800

s2 907,152344 935,159722

i

2i2

in

sW 2,9028875 0,04675799

∑=i

2i2

i2x

n

sWσ 2,94964549

∑=i

2i2

ixn

sWσ 1,7175

El error estándar calculado a partir de la estratificación (1,7175) es ahora significati-

vamente mayor al que se habría obtenido con una selección al azar simple sobre el total de

casos.

Y todavía podemos pensar ejemplos con consecuencias peores: construir un estrato

pequeño de baja variabilidad y uno grande de alta variabilidad, asignando los casos en forma

inversa o, más grave aún, disminuir la cantidad de casos bajo la convicción de que la estrati-

ficación es útil y la asignación correcta, y descubrir, luego de recolectar la información, que

los dos supuestos eran falsos. En el último cuadro, de haber reducido la muestra a la mitad

(cosa que una buena estratificación y asignación puede permitir), el error estándar global as-

cendería a 2,4.

Page 28: Cap 5 Estratificacion2

202 - Introducción al muestreo para estudiantes de ciencias sociales

Debemos tener en cuenta que la mayoría de la veces las variables “estratificadoras”,

aunque vinculadas con el fenómeno investigado, no lo explican en su totalidad ni mucho me-

nos.

Para decirlo de otra forma y aplicando estas ideas a un sondeo pre-electoral, sabemos

que el nivel socioeconómico, la edad, el sexo, la región de residencia y otros atributos están

vinculados con la intención de voto. Podemos decir, por ejemplo, que la probabilidad de ads-

cripción a un determinado partido político de un varón joven, de nivel socioeconómico bajo

y residente en una zona semi-rural del noreste es mayor que la de una mujer adulta, de nivel

socioeconómico medio-alto y que reside en una gran ciudad de la región central. Pero, ¿co-

nocemos con precisión estas asociaciones? ¿Estamos convencidos que las variables conside-

radas explican, al menos gran parte, lo que queremos averiguar? ¿Sabemos tanto de su mag-

nitud y características como para arriesgarnos a disminuir significativamente el tamaño de la

muestra a partir de una ajustada estratificación y asignación?

Si la respuesta es sí, ¿para qué hacer entonces el estudio si estamos en condiciones de

predecir los resultados a partir de las variables conocidas? Si la respuesta es no, realicemos

entonces la estratificación bajo la convicción de que tenemos una alta probabilidad de mejo-

rar los estimadores, pero no asumamos el riesgo de disminuir la cantidad de casos.

Seguramente, si el MASsr nos exige realizar 1.000 casos para poder realizar estima-

ciones con un intervalo de confianza determinado, no nos equivocaremos si, a “ojo de buen

cubero” y siguiendo con el ejemplo, decidimos que, con una buena estratificación que consi-

dere a todas las variables mencionadas, cumpliremos holgadamente los requisitos con solo

900 o menos casos. ¿Pero, cuán significativa es esta diferencia? ¿Se justifica la reducción del

costo, sobre todo teniendo en cuenta que la recolección de los datos es solo un aspecto del

costo total y que su disminución no afecta proporcionalmente al resto de los factores? (4). La

decisión dependerá de cada investigación en particular.

Además, habitualmente hay interés en conocer el comportamiento de más de una va-

riable y una buena estratificación para la principal o más importante de las variables no nece-

sariamente sirve para otras. Cuando se decide estratificar con el objetivo de mejorar la esti-

mación de más de una variable se debe llegar a una situación de compromiso o equilibrio pa-

ra las variables más relevantes.

Todo ello nos lleva a la conclusión que, en líneas generales, no es conveniente utilizar

la estratificación para disminuir la cantidad de casos de una muestra con la pretensión de no

Notas:

4 Los recursos disponibles no son un aspecto menor de la investigación y la mayoría de las veces apare-cen como el factor no estadístico más limitante del diseño muestral. Sin embargo, una reducción de la cantidad decasos no afecta sensiblemente a los otros factores. El diseño general de la investigación, del instrumento de reco-lección (por ejemplo, un cuestionario), las “pruebas piloto”, el diseño muestral, el análisis de los datos, la elabora-ción de conclusiones y la confección del informe y su presentación son algunos de los aspectos muchas veces noafectados, en términos de costo, por el tamaño de la muestra. En el procesamiento estadístico suele no haber dife-rencias sensibles a partir de cierta cantidad de casos (salvo en lo que hace al ingreso de datos). Incluso costosmás directamente vinculados con la recolección, como la coordinación y supervisión del trabajo de campo, no ne-cesariamente guardan una relación directa con la cantidad de casos a relevar, sin considerar la infinidad de costosfijos e indirectos que pueden existir y que tampoco se modifican.

Page 29: Cap 5 Estratificacion2

Capítulo V – Muestreo estratificado (borrador)- 203

modificar la confianza o precisión de los estimadores, salvo que estemos absolutamente con-

vencidos que la asociación entre las variables “estratificadoras” y las variables a investigar es

suficientemente fuerte y teniendo un buen conocimiento teórico de la características de la

relación como para calcular y justificar la reducción de casos.

Page 30: Cap 5 Estratificacion2

204 - Introducción al muestreo para estudiantes de ciencias sociales

Ejercitación

Ejercicio 1

El siguiente cuadro contiene la distribución de hogares de la localidad F, por nivel so-

cioeconómico, incluyendo una estimación razonable del máximo desvío estándar posible de

ingresos mensuales por hogar para cada nivel.

Nivel socioeconómico N W máximo σ estimado

Bajo 5200 0,52 $ 400

Medio 3200 0,32 $ 700

Alto 1600 0,16 $ 900

Se desea realizar una investigación mediante muestreo estratificado por nivel socioe-

conómico para determinar el promedio de ingresos por hogar de la localidad F, con un error

de estimación que no supere los $ 65 y un riesgo máximo del 5%. Con el mismo riesgo se de-

sea, adicionalmente, conocer el grado de aceptación de los jefes de hogar del plan de obras

públicas propuesto por el municipio para el año venidero, con un error de estimación global

no superior a 5 puntos porcentuales y sabiendo que en los niveles socioeconómicos bajo y

medio la aceptación de los jefes de hogar no es inferior al 70 %.

Bajo el supuesto de una selección intra-estrato aleatoria con reposición, se debe de-

terminar el tamaño del total de la muestra (y de cada estrato), para una afijación...

(1.1.1) igual, para estimar la media de ingresos mensuales de los hogares.

(1.1.2) igual, para estimar el grado de aceptación del plan de obras públicas

(1.2.1) proporcional, para estimar la media de ingresos mensuales de los hogares.

(1.2.2) proporcional, para estimar el grado de aceptación del plan de obras públicas

(1.3.1) óptima sin considerar el costo, para estimar la media de ingresos mensuales de

los hogares.

(1.3.2) óptima sin considerar el costo, para estimar el grado de aceptación del plan de

obras públicas.

Page 31: Cap 5 Estratificacion2

Capítulo V – Muestreo estratificado (borrador)- 205

Resolución del ejercicio 1

(1.1.1) Cálculo del tamaño de los estratos con afijación igual (selección intra-estrato

MAScr) para la media de ingresos...

( )

2

2k

2

i

2

i

i

z

δ

Wn

= ∑ σ

Desarrollo del dividendo

NSE Wi σi2 Wi

2σi2

Bajo 0,52 160000 43264

Medio 0,32 490000 50176

Alto 0,16 810000 20736

Σ 114176

103,8150351099,80217

114176

1,96

65

114176n

2i ==

=

En cada estrato se deberán seleccionar (MAScr) 104 hogares, por lo que el total de la

muestra para estimar el promedio de ingresos en las condiciones solicitadas será de 312 ho-

gares.

(1.1.2) Cálculo del tamaño de los estratos con afijación igual (selección intra-estrato

MAScr) para el grado de aceptación...

( )

2

2k

ii

2

i

i

z

δ

Wn

= ∑ QP

Como no tenemos datos sobre la heterogeneidad del grado de aceptación en el nivel

socioeconómico alto, optamos por asignar la máxima heterogeneidad (P=50) a este nivel.

Desarrollo del dividendo

NSE Wi2 PiQi Wi

2PiQi

Bajo 0,2704 2100 567,84

Medio 0,1024 2100 215,04

Alto 0,0256 2500 64

Σ 846,88

Page 32: Cap 5 Estratificacion2

206 - Introducción al muestreo para estudiantes de ciencias sociales

1,3016,5077

88,846

1,96

5

88,846n

2i ==

=

En cada estrato se deberán seleccionar (MAScr) 131 hogares, por lo que el total de la

muestra para estimar el grado de aceptación en las condiciones solicitadas será de 393 hoga-

res.

(1.2.1)Cálculo del tamaño de los estratos con afijación proporcional (selección intra-

estrato MAScr) para la media de ingresos...

( )

2

2k

2

iii

i

z

δ

WWn

= ∑ σ

Desarrollo

NSE Wi σi2 Wiσi

2 Wi ΣWiσi2 2)zδ( (k/2)

2

2

iii

)zδ(

WW

(k/2)

∑ σ

Bajo 0,52 160000 83200 192192 1099,80217 174,8

Medio 0,32 490000 156800 118272 1099,80217 107,5

Alto 0,16 810000 129600 59136 1099,80217 53,8

Σ 369600

En el nivel socioeconómico bajo se deberán seleccionar (MAScr) 175 hogares, en el

nivel medio 108 hogares y en el nivel alto 54 hogares. Por lo tanto, el total de la muestra para

estimar el promedio de ingresos en las condiciones solicitadas será de 337 hogares.

(1.2.2) Cálculo del tamaño de los estratos con afijación proporcional (selección intra-

estrato MAScr) para el grado de aceptación...

( )

2

2k

iiii

i

z

δ

QPWWn

= ∑

Como no tenemos datos sobre la heterogeneidad del grado de aceptación en el nivel

socioeconómico alto, optamos por asignar la máxima heterogeneidad (P=50) a este nivel.

Page 33: Cap 5 Estratificacion2

Capítulo V – Muestreo estratificado (borrador)- 207

Desarrollo

NSE Wi PiQi WiPiQi Wi ΣWiPiQi2)zδ( (k/2)

2

iiii

)zδ(

QPWW

(k/2)

Bajo 0,52 2100 1092 1125,28 6,5077051 172,9

Medio 0,32 2100 672 692,48 6,5077051 106,4

Alto 0,16 2500 400 346,24 6,5077051 53,2

Σ 2164

En el nivel socioeconómico bajo se deberán seleccionar (MAScr) 173 hogares, en el

nivel medio 107 hogares y en el nivel alto 54 hogares. Por lo tanto, el total de la muestra para

estimar el promedio de ingresos en las condiciones solicitadas será de 334 hogares.

(1.3.1) Cálculo del tamaño de los estratos con afijación óptima (selección intra-

estrato MAScr) para la media de ingresos...

A diferencia de los puntos anteriores, primero se debe calcular el tamaño total de la

muestra...

( )

( )

2

2k

2

i

z

δ

Wn

= ∑ iσ

Desarrollo del dividendo

NSE Wi σi Wiσi

Bajo 0,52 400 208

Medio 0,32 700 224

Alto 0,16 900 144

Σ Wiσi 576

(Σ Wiσi)2 331776

301,671099,8022

331776

1,96

65

331776n

2==

=

Una vez calculado el tamaño total de la muestra se realiza la distribución por estratos

según la fórmula de Neyman.

∑=

i

i

σσ

i

ii

W

nWn

Page 34: Cap 5 Estratificacion2

208 - Introducción al muestreo para estudiantes de ciencias sociales

Desarrollo

NSE Wi σi Wiσi nWiσi nWiσi/ΣWiσi

Bajo 0,52 400 208 62747,1105 108,9

Medio 0,32 700 224 67573,8113 117,3

Alto 0,16 900 144 43440,3073 75,4

Σ 576

Los 303 hogares a seleccionar para estimar el promedio de ingresos en las condiciones

solicitadas se distribuyen de la siguiente forma: en el nivel socioeconómico bajo 109 hoga-

res, en el nivel medio 118 hogares y en el nivel alto 76 hogares.

(1.3.2) Cálculo del tamaño de los estratos con afijación óptima (selección intra-

estrato MAScr) para el grado de aceptación...

Cálculo del tamaño total de la muestra...

( )

( )

2

2k

2

iii

z

δ

QPWn

= ∑

Como no tenemos datos sobre la heterogeneidad del grado de aceptación en el nivel

socioeconómico alto, optamos por asignar la máxima heterogeneidad (P=50) a este nivel.

Desarrollo del dividendo

NSE Wi iiQP iii QPW

Bajo 0,52 45,8257569 23,8293936

Medio 0,32 45,8257569 14,6642422

Alto 0,16 50 8

∑ iii QPW 46,4936358

( )2iii QPW∑ 2161,65817

332,1690426,5077

65817,2161

1,96

5

65817,2161n

2==

=

Una vez calculado el tamaño total de la muestra se realiza la distribución por estratos

según la fórmula de Neyman.

∑=

iii

iiii

QPW

QPnWn

Page 35: Cap 5 Estratificacion2

Capítulo V – Muestreo estratificado (borrador)- 209

Desarrollo

NSE Wi iiQP iii QPW iii QPnW∑ iii

iii

QPW

QPnW

Bajo 0,52 45,8257569 23,8293936 7915,386838 170,2

Medio 0,32 45,8257569 14,6642422 4871,007285 104,8

Alto 0,16 50 8 2657,352332 57,2

Σ 46,4936358

Los 334 hogares a seleccionar para estimar el promedio de ingresos en las condiciones

solicitadas se distribuyen de la siguiente forma: en el nivel socioeconómico bajo 171 hoga-

res, en el Nivel medio 105 hogares y en el nivel alto 58 hogares.

Ejercicio 2

Debiendo efectuarse una sola muestra para estudiar simultáneamente las dos variables

contempladas en el ejercicio 1, se debe...

(2.1) ...compatibilizar los resultados de los ejercicios (1.1.1) y (1.1.2)

(2.2) ...compatibilizar los resultados de los ejercicios (1.2.1) y (1.2.2)

(2.3) ...compatibilizar los resultados de los ejercicios (1.3.1) y (1.3.2)

...es decir, se debe obtener una sola muestra para cada tipo de asignación (igual, pro-

porcional y óptima) que cumpla con los objetivos planteados para ambas variables.

Una vez respondido el ejercicio y cotejados los resultados, se recomienda no pasar por

alto los comentarios adicionales al final de la resolución del ejercicio 2.

Resolución del ejercicio 2

(2.1) Asignación igual

Teniendo en cuenta que ambas muestras no difieren significativamente en su volumen

total y por estrato, se adopta para cada estrato el mayor tamaño exigido.

Los resultados de los ejercicios (1.1.1) y (1.1.2) son:

NSE n para muestra estratificada con asignación igual

(1.1.1) ingresos... (1.1.2) aceptación... ambas

Bajo 104 131 131

Medio 104 131 131

Alto 104 131 131

Total 312 393 393

Page 36: Cap 5 Estratificacion2

210 - Introducción al muestreo para estudiantes de ciencias sociales

(2.2) Proporcional

Teniendo en cuenta que ambas muestras no difieren significativamente en su volumen

total y por estrato, se adopta para cada estrato el mayor tamaño exigido.

NSE n para muestra estratificada con asignación proporcional

(1.2.1) ingresos... (1.2.2) aceptación... ambas

Bajo 175 173 175

Medio 108 107 108

Alto 54 54 54

Total 337 334 337

(2.3) Optima

Teniendo en cuenta que ambas muestras no difieren significativamente en su volumen

total y por estrato, se adopta para cada estrato el mayor tamaño exigido.

NSE n para muestra estratificada con asignación óptima

(1.3.1) ingresos... (1.3.2) aceptación... ambas

Bajo 109 171 171

Medio 118 105 118

Alto 76 58 76

Total 303 334 365

Comentarios sobre el ejercicio 2

Obsérvese, a partir de los resultados del ejercicio, que una buena asignación para una

variable no necesariamente es adecuada para otra.

Obsérvese tambien que...

...para los ingresos del hogar...

n asignación

proporcional>

n asignación

igual>

n asignación óp-

tima

...mientras que para la aceptación del plan de obras públicas...

n asignación

igual>

n asignación

proporcional=

n asignación óp-

tima

Habitualmente la asignación igual es menos eficiente que la asignación proporcional.

El que la asignación proporcional arroje un tamaño de muestra mayor que el de la asignación

igual para los ingresos del hogar se debe a que la variabilidad estimada es menor en el estrato

de mayor peso y, a la inversa, mayor en el de menor peso, compensándose mutuamente y ha-

ciendo que la asignación igual sea más eficiente que la proporcional.

Con el grado de aceptación del plan de obras públicas sucede algo similar

(−V+W/+V−W) pero la diferencia de variabilidad no es tan relevante como para compensar

las diferencias de peso, y por lo tanto la asignación igual no es más eficiente que la propor-

cional. Por lo general, cuando de variables nominales u ordinales se trata, las diferencias de

variabilidad en los estratos deben ser grandes para tener infuencia en las asignaciones, no

Page 37: Cap 5 Estratificacion2

Capítulo V – Muestreo estratificado (borrador)- 211

siendo demasiado notables los cambios entre la asignación proporcional y la óptima en lo

que hace al total de casos.

Que un estrato tenga, en una variable intervalar, una variabilidad 10 veces mayor que

la de otro no es una situación demasiado atípica. Pero, para una variable nominal, es extraño

que la variabilidad de un estrato sea 1,5 veces mayor que la de otro. Para los datos que usa-

mos en el ejercicio, la varianza de los ingresos de los hogares del nivel socioeconómico alto

es 810.000, cinco veces mayor que la varianza de los ingresos de los hogares de nivel socioe-

conómico bajo (160.000), mientras que la varianza del grado de aceptación del plan de obras

públicas (P × Q) en el nivel socioeconómico alto es 2.500, solo 1,2 veces mayor que la va-

rianza en los niveles medio y bajo (2.100).

Para dar una respuesta al tamaño de la muestra y sus estratos cumpliendo con los ob-

jetivos planteados para dos variables distintas, se parte del supuesto que las muestras necesa-

rias para cada variable no difieren significativamente en su volumen y distribución interes-

trato, adoptándose una salida un tanto simple y lineal que consiste en la asignar a cada es-

trato la mayor cantidad de casos exigida en una u otra variable. Sin embargo, la afirmación

de estar trabajando con magnitudes similares es bastante discutible y relativa, ya que depen-

de del costo de cada caso. Una diferencia pequeña puede ser importante si el costo de reco-

lección de los datos es considerable. Cuando las diferencias para distintas variables son rele-

vantes se trata de llegar a alguna solución de compromiso que, inevitablemene, afectará en

mayor o menor medida a la precisión de la estimación de la mayoría de las variables (cuando

no a todas). De cualquier forma, cambios pequeños en la afijación óptima no modifican se-

riamente la estimación final.

Para una apreciación formal sobre este problema, se puede consultar, entre otros, a

Cochran, William (Técnicas de Muestreo, Cecsa, México, 2000, Capítulo 5A, puntos 5A.3 y

5A.4).

Ejercicio 3

Sabiendo que el costo de cada caso para el nivel socioeconómico bajo es $ 20, para el

nivel socioeconómico medio $ 40 y para el alto $ 80, considerando la información y objeti-

vos de estimación utilizados en el ejercicio 1 y bajo el el supuesto de una selección intra-

estrato aleatoria con reposición, se debe determinar el tamaño del total de la muestra (y de

cada estrato), para una afijación...

(3.1) óptima,minimizando el costo total, para estimar la media de ingresos mensuales

de los hogares.

(3.2) óptima, maximizando la precisión a partir de un costo total de $9.000, para esti-

mar para estimar la media de ingresos mensuales de los hogares.

Page 38: Cap 5 Estratificacion2

212 - Introducción al muestreo para estudiantes de ciencias sociales

Resolución del ejercicio 3

(3.1) Cálculo del tamaño de la muestra total (y de cada estrato) con afijación óptima

(selección intra-estrato MAScr), minimizando el costo total, para la media de ingresos...

Cálculo del tamaño total de la muestra minimizando costos a partir de error de esti-

mación y nivel de confianza dados....

( )

( )

2

2k

iiiiii

cσWcσWn

= ∑∑

Desarrollo

NSE Wi σi ci ($) Wiσi ic iii cσW iii cσW

Bajo 0,52 400 20 208 4,47213595 930,204279 46,5102139

Medio 0,32 700 40 224 6,32455532 1416,70039 35,4175098

Alto 0,16 900 80 144 8,94427191 1287,97516 16,0996894

Σ 3634,87983 98,0274132

( )∑∑ iiiiii cσWcσW 356317,8664

( )

2

2kzδ

1099,802166

( ) ( )( )22kiiiiii zδcσWcσW ∑∑ 323,9836014

Una vez calculado el tamaño total de la muestra se realiza la distribución por estratos.

∑=

iii

iiii

cσW

cσnWn

Desarrollo

NSE Wi σi ci ($) iii cσW iii cσWn∑ iii

iii

cσW

cσnW

Bajo 0,52 400 20 46,5102139 15068,54661 154

Medio 0,32 700 40 35,4175098 11474,69237 117

Alto 0,16 900 80 16,0996894 5216,035365 53

Σ 98,0274132 Σ 324

Page 39: Cap 5 Estratificacion2

Capítulo V – Muestreo estratificado (borrador)- 213

(3.2) Cálculo del tamaño de la muestra total (y de cada estrato) con afijación óptima

(selección intra-estrato MAScr), maximizando la precisión a partir de un costo total dado,

para la media de ingresos...

Cálculo del tamaño total de la muestra maximizando la precisión a partir de un costo

total determinado....

∑∑=

iii

iii

cσW

cσWCn

Desarrollo

NSE Wi σi ci ($) iii cσW iii cσW

Bajo 0,52 400 20 46,5102139 930,204279

Medio 0,32 700 40 35,4175098 1416,70039

Alto 0,16 900 80 16,0996894 1287,97516

Σ 98,0274132 3634,87983

∑∑

iii

iii

cσW

cσWC242,7168877

Una vez calculado el tamaño total de la muestra se realiza la distribución por estratos.

∑=

iii

iiii

cσW

cσnWn

Desarrollo

NSE Wi σi ci ($) iii cσW iii cσWn∑ iii

iii

cσW

cσnW

Bajo 0,52 400 20 46,5102139 11288,81437 114

Medio 0,32 700 40 35,4175098 8596,427748 88

Alto 0,16 900 80 16,0996894 3907,666514 40

Σ 98,0274132 Σ 242

Page 40: Cap 5 Estratificacion2

214 - Introducción al muestreo para estudiantes de ciencias sociales

Ejercicio 4

A partir de los datos dados en la formulación y los obtenidos en el desarrollo de los

ejercicios, estimar mediante intervalos y para una confianza del 95%, la media mensual de

ingresos de los hogares (bajo el supuesto de MAScr intra-estrato) de la población en estu-

dio...

(4.1) Con la muestra obtenida en el ejercicio (1.1.1).

(4.2) Con la muestra obtenida en el ejercicio (1.2.1).

(4.2) Con la muestra obtenida en el ejercicio (1.3.1).

(4.3) Con la muestra obtenida en el ejercicio (3.1).

(4.4) Con la muestra obtenida en el ejercicio (3.2).

...si los datos obtenidos fueran...

Nivel socioeconómico ix si2

Bajo $ 625 160.000

Medio $ 1450 490.000

Alto $ 3175 810.000

Resolución del ejercicio 4

El primer paso consiste en estimar puntualmente la media de ingresos de los hogares,

lo que haremos una sola vez para todas las muestras, ya que lo único necesario es contar con

las medias observadas en cada estrato y su respectivo peso, los que no varían de muestra a

muestra.

AAMMBBBMA xWxWxWx ++=Desarrollo

Nivel socioeconómico Wi ix ii xW

Bajo 0,52 $ 625 $ 325

Medio 0,32 $ 1450 $ 464

Alto 0,16 $ 3175 $ 508

=∑= ii xWµ $ 1297

A continuación debemos estimar el error estándar global de cada muestra. Como en su

fórmula intervienen la cantidad de casos seleccionados en los estratos, su cálculo debe reali-

zarse por separado para cada una de ellas.

∑=i

2i2

ixn

sWσ

Page 41: Cap 5 Estratificacion2

Capítulo V – Muestreo estratificado (borrador)- 215

(4.1) Para afijación igual, n obtenido en el ejercicio (1.1.1).

Nivel socioe-

conómiconi Wi Wi

2 si2 si

2/ni Wi2si

2/ni

Bajo 104 0,52 0,2704 160.000 1538,46154 416

Medio 104 0,32 0,1024 490.000 4711,53846 482,461538

Alto 104 0,16 0,0256 810.000 7788,46154 199,384615

=∑i

2i

2i

n

sW1097,84615

=∑i

2i

2i

n

sW33,1337615

Una vez calculada la estimación puntual del error estándar, se establecen los límites

del intervalo de confianza.

( ) ( ) X2kBMABMAˆzxµIC /k σ±=

( ) 64,995,5%/ 1297$13,33$96,11297$µIC BMA ±=⋅±=límite inferior límite superior

1232,1 1361,9

(4.2) Para afijación proporcional, n obtenido en el ejercicio (1.2.1).

Nivel socioe-

conómiconi Wi Wi

2 si2 si

2/ni Wi2si

2/ni

Bajo 175 0,52 0,2704 160.000 914,285714 247,222857

Medio 108 0,32 0,1024 490.000 4537,03704 464,592593

Alto 54 0,16 0,0256 810.000 15000 384

=∑i

2i

2i

n

sW1095,81545

=∑i

2i

2i

n

sW33,1031033

Una vez calculada la estimación puntual del error estándar, se establecen los límites

del intervalo de confianza.

( ) ( ) X2kBMABMAˆzxµIC /k σ±=

( ) 64,995,5%/ 1297$10,33$96,11297$µIC BMA ±=⋅±=límite inferior límite superior

1232,1 1361,9

Page 42: Cap 5 Estratificacion2

216 - Introducción al muestreo para estudiantes de ciencias sociales

(4.3) Para afijación óptima sin considerar el costo, n obtenido en el ejercicio (1.3.1).

Nivel socioe-

conómiconi Wi Wi

2 si2 si

2/ni Wi2si

2/ni

Bajo 109 0,52 0,2704 160.000 1467,88991 396,917431

Medio 118 0,32 0,1024 490.000 4152,54237 425,220339

Alto 76 0,16 0,0256 810.000 10657,8947 272,842105

=∑i

2i

2i

n

sW1094,97988

=∑i

2i

2i

n

sW33,0904801

Una vez calculada la estimación puntual del error estándar, se establecen los límites

del intervalo de confianza.

( ) ( ) X2kBMABMAˆzxµIC /k σ±=

( ) 64,995,5%/ 1297$09,33$96,11297$µIC BMA ±=⋅±=límite inferior límite superior

1232,1 1361,9

(4.4) Para afijación óptima minimizando el costo, n obtenido en el ejercicio (3.1).

Nivel socioe-

conómiconi Wi Wi

2 si2 si

2/ni Wi2si

2/ni

Bajo 154 0,52 0,2704 160.000 1038,96104 280,935065

Medio 118 0,32 0,1024 490.000 4152,54237 425,220339

Alto 53 0,16 0,0256 810.000 15283,0189 391,245283

=∑i

2i

2i

n

sW1097,40069

=∑i

2i

2i

n

sW33,1270386

Una vez calculada la estimación puntual del error estándar, se establecen los límites

del intervalo de confianza.

( ) ( ) X2kBMABMAˆzxµIC /k σ±=

( ) 64,995,5%/ 1297$13,33$96,11297$µIC BMA ±=⋅±=límite inferior límite superior

1232,1 1361,9

Page 43: Cap 5 Estratificacion2

Capítulo V – Muestreo estratificado (borrador)- 217

(4.5) Para afijación óptima minimizando la variabilidad con un costo total fijo, n ob-

tenido en el ejercicio (3.2).

Nivel socioe-

conómiconi Wi Wi

2 si2 si

2/ni Wi2si

2/ni

Bajo 114 0,52 0,2704 160.000 1403,50877 379,508772

Medio 88 0,32 0,1024 490.000 5568,18182 570,181818

Alto 40 0,16 0,0256 810.000 20250 518,4

=∑i

2i

2i

n

sW1468,09059

=∑i

2i

2i

n

sW38,3156703

Una vez calculada la estimación puntual del error estándar, se establecen los límites

del intervalo de confianza.

( ) ( ) X2kBMABMAˆzxµIC /k σ±=

( ) 1,571297$32,38$96,11297$µIC 95,5%/ BMA ±=⋅±=límite inferior límite superior

1221,9 1372,1

Page 44: Cap 5 Estratificacion2

218 - Introducción al muestreo para estudiantes de ciencias sociales

Ejercicio 5

Resumir, en un cuadro, los tamaños de muestra y estratos obtenidos en los ejercicios

(1.1.1), (1.2.1), (1.3.1), (3.1) y (3.2), los errores de estimación calculados para cada uno de

ellos en el ejercicio 4 y el costo total de cada muestra.

Resolución del ejercicio 5.

Costo total: iicn∑

nafijación

Bajo Medio Alto Total Xˆz σ⋅ Costo

Total

igual 104 104 104 312 64.9 14560

proporcional 175 108 54 337 64.9 12140

óptima 109 118 76 303 64.9 12980

óptima minimizando costo 154 118 53 325 64.9 12040

óptima con costo fijo total 114 88 40 242 75,1 9000

Comentarios sobre el ejercicio 5

Las s2 del ejercicio 4 son iguales a la esperanza matemática correspondiente si los má-

ximos desvíos estándar estimados para el ejercicio 1 coinciden con los desvíos estándar

“reales” de los estratos. Ello lleva a que los errores de estimación sean iguales al máximo

pretendido (al margen de algún decimal fruto del redondeo hacia arriba de los diversos n).

En los comentarios sobre el ejercicio 2 habíamos observado que, para la variable in-

gresos mensuales, la estratificación igual resultaba más eficiente que la proporcional. Sin

embargo, al ser sensiblemente más barata la recolección del dato en los estratos más bajos, la

distribución porporcional es la recomendable en función de los costos globales, aun cuando

implique una mayor cantidad de casos. Para los ci dados, es recomendable incluso sobre la

asignación óptima que no considera el costo.

En cuanto a las afijaciones que atienden al costo la que mantiene la precisión y la con-

fianza es la que implica un desembolso total más bajo sin modificar los valores deseados pa-

ra la estimación, como era de esperarse. La última, la que fija y distribuye la muestra limita-

da por un costo total predefinido, lo hace en perjuicio de la precisión.

Una posibilidad interesante es calcular esta afijación (la que minimiza la varianza a

partir de un costo dado) a partir del importe final de la afijación óptima sin atender al coste.

n afijación

Bajo Medio Alto Total Xˆz σ⋅ Costo

Total

óptima 109 118 76 303 64.9 12980

óptima con costo fijo total = proporcional 165 126 58 349 62,5 12980

Con las medidas que estamos tomando de ejemplo, para el mismo gasto obtendríamos

una precisión mayor. Si bien la afijación óptima sin atender a los gastos siempre será la de

mayor eficiencia estadística, desde una mirada que pondere la relación costo/beneficio la

muestra a elegir es, sin lugar a dudas, la otra.

Page 45: Cap 5 Estratificacion2

Capítulo V – Muestreo estratificado (borrador)- 219

Ejercicio 6

Se realizar una investigación cuyo objetivo principal es conocer el porcentaje de

alumnos de una determinada facultad que desarrollan alguna actividad laboral que implique

una dedicación superior a las 20 horas semanales y por la que reciben remuneración.

Para ello se decide seleccionar una muestra de 500 casos, estratificada atendiendo al

turno durante el que asisten habitualmente a clases los alumnos. Se conoce que...

...el 45 % asiste a clases durante el turno mañana

...el 40 % asiste a clases durante el turno tarde

...el 15 % asiste a clases durante el turno noche

La dirección de la investigación resuelve realizar una asignación óptima de casos bajo

el supuesto que el porcentaje de alumnos que trabajan durante más de 20 horas semanales y

reciben remuneración no supera...

...el 5 % entre los que asisten al turno mañana

...el 15 % entre los que asisten al turno tarde

...el 50 % entre los que asisten al turno noche.

Se debe...

(6.1) Calcular el tamaño de muestra para cada estrato si la distribución se realiza pro-

porcionalmente a su tamaño.

(6.2) Calcular el tamaño óptimo de muestra para cada estrato considerando el tamaño

del estrato y los supuestos de heterogeneidad expuestos.

(6.3) Suponiendo los datos de la muestra evidencian que el porcentaje de alumnos que

trabaja durante más de 20 horas semanales y recibe remuneración representa...

...el 50% de los alumnos del turno mañana

...el 50% de los alumnos del turno tarde

...el 90% de los alumnos del turno noche

calcular el error de estimación global, para una confianza del 95,5% considerando...

(6.3.1) una selección de casos al azar simple

(6.3.2) una selección de casos estratificada proporcional (punto 6.1)

(6.3.3) una selección de casos estratificada con asignación óptima (punto 6.2)

(6.4) extraer conclusiones sobre la diferencia de los tres errores estándar calculados en

el punto (6.3).

(6.5) Considerando los resultados arrojados por la investigación, ¿cuál debería haber

sido la correcta asignación óptima?

Para simplificar los cálculos se trabajará bajo el supuesto de selección con reposi-

ción.

Page 46: Cap 5 Estratificacion2

220 - Introducción al muestreo para estudiantes de ciencias sociales

Resolución Ejercicio 6

(6.1) a (6.3.3.)

Mañana Tarde Noche

Wi (peso estrato) 0.45 0.4 0.15

(6.1) niWi (casos por estrato) 225 200 75

Pi (supuesto) 5 15 50

iiQP (supuesto) 21,79449472 35,70714214 50

iii QPW (supuesto) 9,807522623 14,28285686 7,5

∑ iii QPW (supuesto) 31,59037948(6.2)

QPW

nQP

iii

iii

i

Wn

⋅=∑

⋅155 226 119

p estrato 50 50 90

iipW∑ (p total) 56

1-n

p.qσp = 2,222133153

(6.3.1)

pσ2× 4,444266307

W2 0,2025 0,16 0,0225

1-n

.qpσ

i

ii2pi

= 11,16071429 12,56281407 12,16216216

2p

2i iσW 2,260044643 2,010050251 0,273648649

∑ 2p

2i iσW 4,543743543

∑= 2p

2ip iσWσ 2,13160586

(6.3.2)

pσ2× 4,26321172

1-n

.qpσ

i

ii2pi

= 16,23376623 11,11111111 7,627118644

2p

2i iσW 3,287337662 1,777777778 0,171610169

∑ 2p

2i iσW 5,23672561

∑= 2p

2ip iσWσ 2,288389305

(6.3.3)

pσ2× 4,576778609

Page 47: Cap 5 Estratificacion2

Capítulo V – Muestreo estratificado (borrador)- 221

(6.4)

error est. proporcional < error est. azar simple < error est. asignación óptima.

La mayor magnitud del error de estimación generado por la asignación óptima se debe

a la incorrecta estimación de P utilizada en el cálculo del tamaño de la muestra para cada es-

trato, afectando negativamente la eficiencia de la estimación (en especial en el estrato “turno

mañana”).

Si bien la precisión del muestreo estratificado proporcional es mayor que la del azar

simple, la diferencia no adquiere relevancia ya que la variabilidad de los principales estratos

(que incluyen al 85% de la población en estudio) es similar, lo que minimiza la potencial ga-

nancia de la estratificación proporcional.

(6.5)

Mañana Tarde Noche

Wi 0.45 0.4 0.15

Pi 50 50 90

iiQP 50 50 30

iii QPW 22,5 20 4,5

∑ iii QPW 47

QPW

nQP

iii

iii

i

Wn

⋅=∑

⋅239 213 48

Page 48: Cap 5 Estratificacion2

222 - Introducción al muestreo para estudiantes de ciencias sociales

Apéndice (reducción de la varianza)

Si dividimos a una población en grupos, la varianza total puede expresarse como la suma de las

variabilidades intragrupos e intergrupos, es decir 222ed σσσ +=

donde 2dσ es la variabilidad intragrupos y 2

eσ es la variabilidad intergrupos.

( )

N

µx

σ

h

1i

N

1j

2

iij

2d

i

∑∑= =

= ( )

N

µxN

σ

h

1i

2

ii

2e

∑=

=

Estas expresiones nos indican que para obtener 2dσ debemos sumar los desvíos cuadrados de cada

estrato (calculados sobre la media aritmética del estrato y no sobre la media total), luego sumar

estas sumas de desvíos cuadrados y divir la doble sumatoria por la cantidad total de casos.

Y que para obtener 2eσ debemos calcular el desvío cuadrado del promedio de cada estrato (sobre la

media total), multiplicarlo por la cantidad de casos del estrato, sumar estos productos y dividirlos

por la cantidad total de casos de la población.

Desarrollemos estos cálculos con un ejemplo sencillo. El cuadro siguiente expresa una población

de 15 elementos, dividida en tres grupos.

a b c d e

1 Total Grupo 1 Grupo 2 Grupo 3

2 2 2 2

3 2 3 3

4 3 4 5

5 6 5 6

6 6 5

7 6

8 N 15 6 5 4

9 µ 4 4,16666667 3,8 4

10 σ2 2,53333333

11 ( )∑=

−iN

1j

2

iij µx 20,8333333 6,8 10

12 ( )∑∑= =

−h

1i

N

1j

2

iij

i

µx 37,6333333

13( )

N

µx

σ

h

1i

N

1j

2

iij

2d

i

∑∑= =

=2,50888889

14 ( )2i µx − 0,02777778 0,04 0

15 ( )2ii µxN − 0,16666667 0,2 0

16 ( )∑=

−h

1i

2

ii µxN 0,36666667

17( )

N

µxN

σ

h

1i

2

ii

2e

∑=

=0,02444444

18 222ed σσσ += 2,53333333

Vemos en la celda B18 que la suma de las varianzas intra (B13) e inter grupos (B17) es igual a la

varianza total (B10), pero que el peso recae en la varianza intra grupos.

Page 49: Cap 5 Estratificacion2

Capítulo V – Muestreo estratificado (borrador)- 223

Si agrupamos a los elementos de la población en grupos homogeneos internamente y heterogéneos

entre sí...

a b c d e

1 Total Grupo 1 Grupo 2 Grupo 3

2 2 4 6

3 2 5 6

4 2 5 6

5 2 5 6

6 3

7 3

8 3

9 N 15 7 4 4

10 µ 4 2,42857143 4,75 6

11 σ2 2,53333333

12 ( )∑=

−iN

1j

2

iij µx 1,71428571 0,75 0

13 ( )∑∑= =

−h

1i

N

1j

2

iij

i

µx 2,46428571

14( )

N

µx

σ

h

1i

N

1j

2

iij

2d

i

∑∑= =

=0,16428571

15 ( )2i µx − 2,46938776 0,5625 4

16 ( )2ii µxN − 17,2857143 2,25 16

17 ( )∑=

−h

1i

2

ii µxN 35,5357143

18( )

N

µxN

σ

h

1i

2

ii

2e

∑=

=2,36904762

19 222ed σσσ += 2,53333333

La suma de las varianzas intra (B14) e inter grupos (B18), incluida en la celda B19, sigue siendo

igual a la varianza total (B11), pero ahora el peso recae en la varianza inter-grupos, condición que

le permite al muestreo conseguir una mayor precisión en la estimación para el conjunto de la po-

blación.