diplomatura d’estadÍstica curs 2001-2002 q1lmontero/lmm_tm/quamr1_po.pdfmostreig i recollida de...

102
DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1 MOSTREIG ESTADÍSTIC I RECOLLIDA DE DADES I. LLISTES DE PROBLEMES RESOLTS Autores : Lídia Montero (Dptx. 421) Mónica Bécue (Dptx. 414) © Copyright les autores Setembre de 2001

Upload: others

Post on 25-Jul-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

DIPLOMATURA D’ESTADÍSTICACURS 2001-2002 Q1

MOSTREIG ESTADÍSTIC I RECOLLIDA DE DADES I.

LLISTES DE PROBLEMES RESOLTS

Autores : Lídia Montero (Dptx. 421)Mónica Bécue (Dptx. 414)

© Copyright les autores

Setembre de 2001

Page 2: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 2 12/07/01 Profs. L. Montero & M. Bécue

Page 3: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 3

TAULA DE CONTINGUTS

1. LLISTA DE PROBLEMES DE REPÀS ________________________________________________ 5

1.1 REPÀS D'ESTIMACIÓ __________________________________________________________ 51.2 REPÀS D'ESTIMACIÓ __________________________________________________________ 51.3 REPÀS D'INTERVALS DE CONFIANÇA __________________________________________ 51.4 REPÀS D'INTERVALS DE CONFIANÇA __________________________________________ 61.5 REPÀS INTERVALS DE CONFIANÇA ____________________________________________ 61.6 REPÀS INTERVALS DE CONFIANÇA ____________________________________________ 71.7 REPÀS INTERVALS DE CONFIANÇA ____________________________________________ 71.8 REPÀS PROVES D’HIPÒTESI____________________________________________________ 7

2. RESOLUCIÓ PROBLEMES DE REPÀS_______________________________________________ 9

2.1 REPÀS D'ESTIMACIÓ __________________________________________________________ 92.2 REPÀS D'INTERVALS DE CONFIANÇA _________________________________________ 112.3 REPÀS INTERVALS DE CONFIANÇA ___________________________________________ 132.4 REPÀS INTERVALS DE CONFIANÇA ___________________________________________ 152.5 REPÀS INTERVALS DE CONFIANÇA ___________________________________________ 17

3. LLISTA DE PROBLEMES BÀSICA (AUTORS: DROESBEKE I FINE) ___________________ 18

3.1 DESPESES FAMILIARS ___________________________________________________________ 193.2 ELS PROPIETARIS DE VEHICLES MARCA A__________________________________________ 203.3 RENDIMENT D´UNA OPERACIÓ DE MARKETING _____________________________________ 233.4 SONDEIG D´OPINIÓ PRE-ELECTORAL ______________________________________________ 243.5 L’AUDITORIA COMPTABLE ______________________________________________________ 263.6 UN MÉS DIFÍCIL DE MOSTREIG ALEATORI SIMPLE __________________________________ 293.7 UN D´ESTRATIFICACIÓ PER EDATS ________________________________________________ 323.8 UN D´ESTRATIFICACIÓ MÉS TEÓRIC_______________________________________________ 353.9 INDEX DE SATISFACCIÓ (ESTRATIFICAT) ___________________________________________ 383.10 ELS COMPTES DEUDORS: CLIENTS MOROSOS ... ____________________________________ 423.11 L’EXPLOTACIÓ RAMADERA (ESTRATIFICAT) ______________________________________ 463.12 ELS PROPIETARIS DE LLARS _____________________________________________________ 493.13 LES COMPRES DE REVISTES SETMANALS __________________________________________ 533.14 L’ANIMACIÓ SONORA ALS SUPERS _______________________________________________ 553.15 L’ESTUDI D´AUDIOMETRIA _____________________________________________________ 583.16 LA IMATGE DE CORREUS _______________________________________________________ 623.17 UN DE NOU DE MOSTREIG EN CONGLOMERATS ____________________________________ 643.18 UN DE MOSTREIG A 2 NIVELLS __________________________________________________ 663.19 ELS LECTORS RURALS I URBANS (UN DE POST-ESTRATIFICACIÓ) ______________________ 71LECTORS ____________________________________________________________________________ 71TOTAL ______________________________________________________________________________ 71

4. LLISTA DE PROBLEMES D’EXAMEN ______________________________________________ 74

Page 4: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 4 12/07/01 Profs. L. Montero & M. Bécue

Page 5: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 5

1. LLISTA DE PROBLEMES DE REPÀS

1.1 REPÀS D'ESTIMACIÓ(Problemes d’Estadística, ETSEIB’82. Cap.13 Pr.2 pp. 172)

Una urna conté dues boles amb el número 2, dues amb 4 i 2 més amb el 6. S'extreu una mostraaleatòria amb reposició de tamany n=2:

• Demostrar que si E X i VAR X= =µ σ2 aleshores $ ( )θ = + −cX c X1 21 és un estimador

no biaixat de µ.

• Si c=0.5 aleshores $θ és l'estimador amb major eficiència relativa (0≤c≤1).

• És 2 1X + un estimador no biaixat de 2µ+1?

• És X 2 un estimador no biaixat de µ2 ?

• És 1X

un estimador no biaxat de 1µ ?

1.2 REPÀS D'ESTIMACIÓ(Problemes d’Estadística, ETSEIB’82. Cap.13 Pr.3 pp. 173)

Sigui X una variable aleatòria distribuïda uniformement a l'interval (0,b).

• Demostrar que $ max ,...,θ1 1= X Xn és un estimador biaixat del paràmetre b. Es suposa

independència en les observacions.

• Demostrar que $θ1 és un estimador consistent.

• Demostrar que $θ2 2= X és un estimador no biaixat de b.

• Quin estimador és preferible: $ $θ θ2 1

nn+

?

1.3 REPÀS D'INTERVALS DE CONFIANÇA(Problemes d’Estadística, ETSEIB’82. Cap.15 Pr.3 pp. 192)

Page 6: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 6 12/07/01 Profs. L. Montero & M. Bécue

Un fabricant F1 produeix resistències elèctriques, els valors de les quals, en µΩ és una v.a.

normal ( )N µ σ1 120 08= =, . . Un altre fabricant F2 produeix unes altres resistències, les quals

poden considerar-se distribuïdes normalment, segons ( )N µ σ2 2, .

• Es coneix que el 34.13% de les resistències de F2 superen els 10.5 µΩ i que el 6.3% tenenun valor inferior a 9.235 µΩ . Calcular µ σ2 2i .

• Quin valor màxim pot garantir-se amb un risc del 10% d'equivocar-se per una resistència deF1.

• Es trien a l'atzar 2 resistències de F1 i 4 resistències de F2 i es monten les sis en sèrie. Quinaés la resistència equivalent del conjunt amb un interval de confiança del 95%. Recordar quela resistència equivalent d'un muntatge en sèrie és la suma de les resistències de lescomponents individuals.

• Es trien 10 resistències de F1. Quin és el valor mínim que es pot garantir pel valor mig de lesresistències amb un risc del 8%.

• Entre quins valors estarà compresa la variància de les anteriors 10 resistències amb uninterval de confiança del 95%.

1.4 REPÀS D'INTERVALS DE CONFIANÇA(Problemes d’Estadística, ETSEIB’82. Cap.15 Pr.7 pp. 198)

Un procés està caracteritzat per una v.a. discreta infinita i numerable. Per recollir informaciós'agafa una mostra de 5 unitats, obtenint-se:

x i xii

ii

= == =∑ ∑60 768

1

52

1

5

1. Estudiar la esperança i la variància de la població

2. Raonar a quina distribució de probabilitat seria raonable de comparar l'ajust de les dadesexperimentals.

3. Quin número d'unitats s'haurien d'examinar per estimar la mitjana real del procés amb unaprecisió absoluta de 1 unitat a un nivell de confiança α=0.05.

1.5 REPÀS INTERVALS DE CONFIANÇA(Problemes d’Estadística, ETSEIB’82. Cap.15 Pr.11 pp. 203-204)

Una certa mesura física de les prestacions d'uns aparells facilita una desviació tipus de s=0.012,per una mostra n=25 aparells.

Page 7: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 7

1. Entre quins valors es troba el veritable valor σ2 amb una probabilitat del 95%, suposant unadistribució normal de la mesura física.

2. Quan n és suficientment gran es pot demostrar que la distribució de s pot aproximar-se

acceptablement per una llei normal Nn

σ σ,2

. Suposem n=25 ja és suficientment

gran. Calcular l’interval de confiança de l’apartat anterior i compareu els resultats.

3. Repetir el procés per n=10 i n=80. Treure conclusions.

1.6 REPÀS INTERVALS DE CONFIANÇA(Problemes d’Estadística, ETSEIB’82. Cap.15 Pr. 12 pp. 205)

Quin tamany de mostra cal agafar per obtenir un error relatiu en l’estimació de la variància d’unapoblació normal no superior al 10%?

1.7 REPÀS INTERVALS DE CONFIANÇA(Problemes d’Estadística, ETSEIB’82. Cap.15 Pr. 16 pp. 208)

Siguin dues mostres aleatòries de dues poblacions, X i Y, distribuïdes normalment i d’idènticavariància:

n x s

n x s1 1 1

2 2 2

25 60 12

15 68 10

= = == = =

Trobeu l’interval de confiança al 95% pel veritable valor de la diferència entre mitjanespoblacionals: µ µ1 2− .

1.8 REPÀS PROVES D’HIPÒTESI

Una peatge d’autopistes té un sistema d’elevament automàtic de la barrera. El sistema pot estar endos estats: E1 i E2. Quan el sistema està a l’estat E1, el temps que triga a elevar la barrera esdistribueix segons una llei normal N(20,0.82) i quan es troba en estat E2 segons N(21,0.82).

Quin és el tamany que hauria de tenir una mostra extreta en un període temporal donat i quin elvalor de x c= (mitjana mostral) per tal que quan el sistema estigui en estat E1 hi hagi unaprobabilitat no superior al 5% de que la mitjana mostral de les observacions sigui superior a c i

Page 8: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 8 12/07/01 Profs. L. Montero & M. Bécue

quan la màquina estigui en estat E2, la probabilitat de que la mitjana de la mostra sigui inferior a ces situï com a màxim en el 10%.

Page 9: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 9

2. RESOLUCIÓ PROBLEMES DE REPÀS

2.1 REPÀS D'ESTIMACIÓ(Problemes d’Estadística, ETSEIB’82. Cap.13 Pr.2 pp. 172)

Una urna conté dues boles amb el número 2, dues amb 4 i 2 més amb el 6. S'extreu una mostraaleatòria amb reposició de tamany n=2:

1) Demostrar que si E X i VAR X= =µ σ2 aleshores $ ( )θ = + −cX c X1 21 és un

estimador no biaixat de µ.

2) Si c=0.5 aleshores $θ és l'estimador amb major eficiència relativa (0≤c≤1).

3) És 2 1X + un estimador no biaixat de 2µ+1?

4) És X 2 un estimador no biaixat de µ2 ?

5) És 1X

un estimador no biaxat de 1µ ?

Solució

Tenim una mostra de n=2 elements, la població té N=6 elements i les característiques del´extracció garanteixen l´equiprobabilitat de la mostra.

Esperança de X v.a. “Valor de la bola”: [ ] ( ) ( )4

3

642313

1

3

1=

++==== ∑ ∑= =K k iiXi xxpxXE µ .

Sigui X1 i X2, els valors de la bola en cada extracció successiva.

1) [ ] ( )[ ] [ ] ( ) [ ] ( ) µµµθ =−+=−+=−+= ccXEcXcEXccXEE c 111 2121 per tant és no

biaixat.

2) Si c=0.5 aleshores XXX

c =+

==2

21

21θ i d´altres assignatures sabeu que [ ] µ=XE i que

[ ] [ ]nn

XVXV

2σ== . Cal demostrar que és l´estimador de mínima variança, és a dir

[ ] [ ] 102

≤≤≤= cVn

XV cθσ

. Però l´expressió de la variança de l´estimador cθ és,

[ ] ( )[ ] [ ] ( ) [ ] ( ) 222

21

221 12211 σθ +−=−+=−+= ccXVcXVcXccXVV

ciaindependenc , ara bé si

es considera el programa de minimització:

Page 10: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 10 12/07/01 Profs. L. Montero & M. Bécue

[ ]ccVMin θ

10 ≤≤, consisteix en trobar el mínim d´una paràbola i per tant el valor de c que

fa mínima l´expressió de la variança és 2

1

2=−=

a

bc , que és precisament el valor que

dóna l´estimador particularment habitual que és la mitjana mostral X i per tant és aquestadarrera l´estimador més eficient.

3)

[ ] [ ] 121212 +=+=+ µXEXE i per tant és un estimador no biaixat.

4)

[ ] ( ) [ ] [ ] [ ] [ ]( )

[ ]( ) [ ]( ) [ ]( ) ( ) ( )22

1

4

1

4

1

2

1

4

1

4

1

24

12

4

1

4

222222221

22

21

2122

2121

22

21

2212

σµµµσµσµµµ +=++++=+++++

=++=++=

+=

XXCOVXVXV

XXEXEXEXXXXEXX

EXE

i per tant és un estimador biaixat de 2µ .

5)

Primer de res, 4

11=

µ i ens cal definir una variable aleatória auxiliar

21

2

XXZ

+= de la qual es

calcularà la seva esperança matemàtica, doncs

[ ] [ ] ( )µ1

4

1

540

14921 5

121

=≠===

+

= ∑ =k kZk zpzZEXX

EX

E i per tant té biaix.

X1 X2 X1+X2 Z P(Zi)2 2 4 1/2 1/92 4 6 1/3 1/92 6 8 ¼ 1/94 2 6 1/3 1/94 4 8 ¼ 1/94 6 10 1/5 1/96 2 8 ¼ 1/9

6 4 10 1/5 1/96 6 12 1/6 1/9

Page 11: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 11

2.2 REPÀS D'INTERVALS DE CONFIANÇA(Problemes d’Estadística, ETSEIB’82. Cap.15 Pr.3 pp. 192)

Un fabricant F1 produeix resistències elèctriques, els valors de les quals, en µΩ és una v.a.

normal ( )N µ σ1 120 08= =, . . Un altre fabricant F2 produeix unes altres resistències, les quals

poden considerar-se distribuïdes normalment, segons ( )N µ σ2 2, .

1) Es coneix que el 34.13% de les resistències de F2 superen els 10.5 µΩ i que el 6.3%tenen un valor inferior a 9.235 µΩ . Calcular µ σ2 2i .

2) Quin valor màxim pot garantir-se amb un risc del 10% d'equivocar-se per una resistènciade F1.

3) Es trien a l'atzar 2 resistències de F1 i 4 resistències de F2 i es monten les sis en sèrie.Quina és la resistència equivalent del conjunt amb un interval de confiança del 95%.Recordar que la resistència equivalent d'un muntatge en sèrie és la suma de les resistènciesde les components individuals.

4) Es trien 10 resistències de F1. Quin és el valor mínim que es pot garantir pel valor mig deles resistències amb un risc del 8%.

5) Entre quins valors estarà compresa la variància de les anteriors 10 resistències amb uninterval de confiança del 95%.

Solució

1)

Aquest és un apartat clàssic dels problemes vistos a Càlcul de Probabilitats, cal plantejar unsistema de dues equacions amb dues incógnites per trobar qui són µ σ2 2i a partir de lesdades de probabilitat i les taules de la normal tipificada. La solució és:

65,023,10 22 == σµ i .

2)

Un altre apartat de repàs de temes que es van tractar a Càlcul de Probabilitats, es busca M tal queP(X1 > M) = 0,1 o equivalentment

9,08,0

201,0

8,0

201

8,0

20=

−≤=

−≤−=

−>

MZPo

MZP

MZP i per tant cal buscar a

les tables de la normal tipificada el valor z0 tal que:

( ) 28,19,0 00 =→=≤ zzZP i d´aquí 024,2128,18,0

200 =→==

−Mz

M.

Page 12: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 12 12/07/01 Profs. L. Montero & M. Bécue

3)Cal composar en sèrie les 6 resistències i modelitzar l´esperança i la variança del conjunt per unanova variable aleatória Y: ”Resistència de la composició serie 2 F1 més 4 F2”

[ ] [ ] [ ][ ] [ ] [ ] ( )222

212

21

21

72,165,048,0242

92,8023,10420242

42

=⋅+⋅=+===⋅+⋅=+==

+=

XVXVYV

XEXEYE

XXY

σµ

Es buscar un interval simétric [a,b]=[ MM +− µµ , ] centrat entorn a l´esperança de

( )22 72,1,92,80 ==≈ σµNY que contingui els valors de Y en un 95% de les ocasions (nivel deconfiança 5%). Per tant cal trobar el valor de la única incógnita M.

( ) ( ) =

≤−

≤=

≤≤

−=+≤≤−=≤−

σσσσµµµ

MZP

MZP

MZ

MPMYMPMYP

975,0?95,0121 00 =

=≤→=−

≤=

≤−−

≤= z

MZPtqz

MZP

MZP

MZP

σσσσ.

Es busca a les taules z0 que resulta ser [ ]29,84,55,7737,372,1

96,10 →=→== MM

z .

4)

Sabem quina és la distribució de la mitjana de les 10 resistències F1:

10

8,0,20

2

1 NX i per tant

es busca M tal que ( ) 08,01 =≤ MXP , ara bé,

( ) ( ) 92,008,0108,0

201

108,0

200001 =−≤→=

−=

−−≤−=

=

−≤=≤ zZPz

MZPz

MZPMXP i

mirant a les taules de la normal tipificada el valor 64,19108,0

20405,10 =→−=−= M

Mz .

5)Sabem quina és la variança de les resistència F1, és 0,82, i el que es demana és calcular uninterval de confianza al 95% per la variança mostral de 10 resistències, és a dir un interval en quees trobi la variança mostral en un 95% de les mostres de 10 resistències. Cal emprar un resultatconegut de la distribució de la variança mostral de les poblacions normals,

( ) 212

21−≈

−n

sn χσ

i a partir de les taules de la xi quadrat trobar l´interval (no simètric en aquest

cas, doncs la llei no n´és) per s2.

( )023,19

8,0

1107,2

2

9,025,02

22

9,975,0==≤

−≤== b

sa χχ

35,1192,0 2 ≤≤ s

Page 13: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 13

2.3 REPÀS INTERVALS DE CONFIANÇA(Problemes d’Estadística, ETSEIB’82. Cap.15 Pr.11 pp. 203-204)

Una certa mesura física de les prestacions d'uns aparells facilita una desviació tipus de s=0.012,per una mostra n=25 aparells.

1) Entre quins valors es troba el veritable valor σ2 amb una probabilitat del 95%, suposantuna distribució normal de la mesura física.

2) Quan n és suficientment gran es pot demostrar que la distribució de s pot aproximar-se

acceptablement per una llei normal Nn

σ σ,2

. Suposem n=25 ja és suficientment

gran. Calcular l’interval de confiança de l’apartat anterior i compareu els resultats.

3) Repetir el procés per n=10 i n=80. Treure conclusions.

Solució1)Sabem quina és la variança mostral de les mesures, és 0,0122, i el que es demana és calcular uninterval de confianza al 95% per la variança poblacional a partir de les dades de 25 mesures, és adir un interval en que es trobi la variança amb una garantia del 95%. Cal emprar un resultatconegut de la distribució de la variança mostral de les poblacions normals,

( ) 212

21−≈

−n

sn χσ

i a partir de les taules de la xi quadrat trobar l´interval (no simètric en aquest

cas, doncs la llei no n´és) per σ2.

( )364,39

012,0125401,12

2

24,025,02

22

24,975,0==≤

−≤== ba χχ

σ

0356,0

364,391

0356,0

401,122

≤≤σ

000279,00000878,0 2 ≤≤σ

2)Per n gran la desviació mostral es pot aproximar per una variable normal centrada a la veritable

desviació [ ] ( )

==≈

nsVsENs

2,

2σσ , a partir d´aquesta aproximació es construeix l´interval de

confiança per σ2 al 95%, s´usarà la notació habitualment emprada en el curs de mostreig, sigui un

estimador no biaixat deθ normalment distribuit θ i la seva desviació estàndard es nota θ

σ ˆ ,

aleshores es contrueix un interval de confiança bilateral al nivel de confiança α a partir del’expressió:

nszz

2,,ˆˆˆ

ˆ21ˆ

21σσσθθσθθσθ θθαθα ===→+≤≤−

−−

Page 14: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 14 12/07/01 Profs. L. Montero & M. Bécue

ns

ns

296,1

296,1

σσ

σ+≤≤−

n=25

+≤≤

50

196,11

50

196,11 σσ s

+≤≤

50

196,11

50

196,11

σs

2

2

22

50

196,11

012,0

50

196,11

+≤≤

σ

00027562,0000088278,0 2 ≤≤ σ

3)

Per n=10 000456,00000696,0 2 ≤≤ σ Normal

00048,0000068,0 2 ≤≤ σ Exacte

Per n=80 000202,00000108,0 2 ≤≤ σ Normal

000201,00000107,0 2 ≤≤ σ Exacte

Page 15: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 15

2.4 REPÀS INTERVALS DE CONFIANÇA(Problemes d’Estadística, ETSEIB’82. Cap.15 Pr. 12 pp. 205)

Quin tamany de mostra cal agafar per obtenir un error relatiu en l’estimació de la variància d’unapoblació normal no superior al 10%?

Solució

La incógnita ara és n. Es demana un error relatiu del 10%, és a dir,

1,19,02

2

≤≤σs

a un nivell de confiança 05,0=α

Sabem que ( ) 2

12

21−≈

−n

sn χσ

i per tant ( )2

12

2

1

1−−

≈ nns χ

σ en podría permetre de trobar buscant a

les taules el valor n tal que satisfà la precissió relativa requerida, notem-la 1,0=β ,

( ) ( ) 1,11

11

19,0

2

1,025,02

22

1,975,0

=−

≤≤−

=−

χχσ n

nn

sn

Ara bé: mirar-ho a les taules pot ser una feina tediosa.

Es proposa adoptar un altre enfoc: sabem que l´esperança d´una xi quadrat són els seus graus dellibertat i la seva variança 2 cops els graus de llibertat i que per n grans (com segur ens sortirà) espot fer una aproximació normal a la distribució de l’estimador s2 (Teorema Central del Límit), demanera que:

[ ] 22

22

22

2 σνν

σνσ

νσ χχ νν

==

=

= EEsE

[ ]2

24

2

42

2

42

22 22

2

===

=

=

νσ

νσ

ννσ

νσ

νσ χχ νν

VVsV

i per tant, per n gran [ ] [ ]

==≈

νσσ

22222 2

, sVsENs

Page 16: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 16 12/07/01 Profs. L. Montero & M. Bécue

En la notació habitualment emprada en el curs de mostreig, sigui un estimador no biaixat deθnormalment distribuit θ i la seva desviació estàndard es nota

θσ ˆ , aleshores es contrueix un

interval de confiança bilateral al nivel de confiança α (en aquest cas suposem 05,0=α )a partirde l’expressió:

νσ

σσθθσθθσθθθαθα

42ˆ

22ˆ

21ˆ21

2,,ˆˆˆ ===→+≤≤−

−−szz

νσσ

νσ

296,1

296,1 22222 +≤≤− ss

+≤≤

νσ

νσ

296,11

296,11 222 s

1,12

96,112

96,119,02

2

=

+≤≤

−=

νσνs

( ) ( ) 7707692

96,11,0

21,0

296,1

21

2

2

=⇒===⇒=−

nz αβ

νν

Page 17: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 17

2.5 REPÀS INTERVALS DE CONFIANÇA(Problemes d’Estadística, ETSEIB’82. Cap.15 Pr. 16 pp. 208)

Siguin dues mostres aleatòries de dues poblacions, X i Y, distribuïdes normalment i d’idènticavariància:

n x s

n x s1 1 1

2 2 2

25 60 12

15 68 10

= = == = =

Trobeu l’interval de confiança al 95% pel veritable valor de la diferència entre mitjanespoblacionals: µ µ1 2− .

SolucióSabem que la comparació de les mitjanes de 2 poblacions normals d´idèntica variança (es suposaaixí) es pot contrastar mitjançant l´estadístic t de Student i concretament,

( ) ( )2

212121

21

−+=−

≈−−−

= nn

XX

tXX

ts ν

µµ

de manera que si s´obté un bon estimador ponderat de la variança de les poblacions (que éscomuna), aleshores es pot procedir a la inferència de l´interval de confiança requerit per

21 µµδ −= al 95% (nivell de confiança 05,0=α ).

( ) ( ) ( ) ( )8,127

115125

115125

11

11 22

21

21

222

2112 =

−+−−+−

=−+−−+−

=ss

nn

snsns p

( )2

21

22 69,315

1

25

18,127

1121

=

+=

+=

− nns pXXs

Es contrueix un interval de confiança bilateral al nivel de confiança α (en aquest cas suposem05,0=α ) a partir de l’expressió:

+=≅−==−=→+≤≤−

−−−21

222121ˆ

21,ˆ21,

112,,ˆˆˆ21 nn

sXXtt pXXsθθανθανσµµδθθσθθσθ

2121 21,2121,21 XXXX stXXstXX −−−−

+−≤≤−− ανανδ

616,069,32869,32838,15 −=⋅+−≤≤⋅−−=− δ

Page 18: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 18 12/07/01 Profs. L. Montero & M. Bécue

3. LLISTA DE PROBLEMES BÀSICA (AUTORS: DROESBEKE I FINE)

Aquesta llista conté majoritàriament (excepte 7.11, 7.17, 7.18) una colecció de problemesdesenvolupada pels autors per un curs de formació a Amèrica Llatina. Originàriament estavenescrits en castellà, amb certes deficiències de sintaxi, però constitueixen un recull molt adecuatpel nivell presentat al nostre curs. Els professors de l´assignatura hem preferit traduir el textoriginal i els autors han donat autorització a la publicació dels problemes a la nostra Universitatamb finalitats estrictament docents.

Page 19: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 19

3.1 Despeses Familiars

En una regió de França, 145 famílies de turistes han gastat en mitjana diàriament 830 Euros. Ladesviació estándar de les 145 despeses familiars diàries puja a 210 Euros. Sabent que la regió ones duu a terme l´enquesta va rebre 50 000 famílies de turistes, què pot dir-se de la despesa globaldiària del conjunt d´aquestes famílies? Calculeu el seu interval de confiança al 90%. Suposeu queel mostreig és ASSR.

Solució:

Sigui Y v.a “Despesa familiar diària”, la població son N=50.000 famílies i la mostra ASSR den=145 famílies proporciona les dades 210830 ' == ysy , es vol estimar Yτ , la despesa familiar

total diària.

L´estimador puntual de Yτ , notat Yτ o yNTY = és de 000.500.41830000.50 =⋅== yNTY

Euros .

Per tractar-se d´una extracció ASSR sabem que l’estimador mitjana mostral és centrat [ ] YyE µ= i

també n´és l´estimador del total [ ] YYTE τ= .

Per calcular l´interval de confiança al 90% cal disposar de la variança de l´estimador YT , [ ]YTV o

en el seu defecte d´un estimador d´aquesta variança [ ]YTV ,

[ ] [ ] [ ]n

s

Nn

NyVNyNVTV yY

2'22 1ˆˆˆ

−===

i en el nostre cas, [ ] ( ) 22

22'

2 000.871145

210

000.50

1451000.501ˆ =

−=

−=

n

s

Nn

NTV yY .

En general, sigui un estimador no biaixat deθ , assumit normalment distribuit θ i la sevadesviació estàndard es nota

θs , aleshores es contrueix un interval de confiança bilateral al nivel

de confiança 1,0=α a partir de l’expressió:

[ ]ns

Nn

NsVTszsz YYY

2'22

ˆˆ21ˆ

211ˆˆ,,ˆˆˆ

−====→+≤≤−

−− θθαθα θτθθθθθ

[ ] [ ]YYYYY TVzTTVzT ˆˆ95,095,0 +≤≤− τ

000.871645,1000.500.41000.871645,1000.500.41 ⋅+≤≤⋅− Yτ

000.930.42000.070.40 ≤≤ Yτ

Page 20: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 20 12/07/01 Profs. L. Montero & M. Bécue

3.2 Els propietaris de vehicles Marca A

Una mostra ASAR està composada per 400 propietaris de vehicles d´un pais donat, dels quals 40són propietaris d´un vehicle de marca A. Es demana:

1. Construir un interval de confiança, a un nivell de confiança del 95% per la veritable proporcióde propietaris de vehicles de marca A en aquell pais.

2. Suposeu que l´extracció és ASSR i N=5.000: contruir l´interval de confiança al 95% per laveritable proporció de propietaris de vehicles de marca A.

3. Suposeu que l´extracció és ASSR i N=1.000.000: contruir l´interval de confiança al 95% perla veritable proporció de propietaris de vehicles de marca A.

4. Si es desitgés un error absolut del 1% (1 punt), quins haurien de ser els tamanys mostralsd’extraccions ASSR per poblacions de tamany N=5.000 i N=1.000.000 ?

Solució:

1)

Sigui Y v.a “Propietari d´un vehicle de marca A”. És una variable aleatória Bernoulli deparàmetre p desconegut i que es vol estimar, per punt i per interval (nivell de confiança 95%).

La mostra ASAR de n=400 propietaris proporciona les dades 401

=∑ =

n

i iy i d´aquí

1,0ˆ 1 === ∑ = yn

yp

n

i i, es vol estimar pY =µ , la veritable proporció de propietaris de vehicles

marca A. L´estimador puntual de p és 1,0ˆ =p .

Per tractar-se d´una extracció ASAR sabem que l’estimador mitjana mostral és centrat [ ] YyE µ=o en termes de proporcions [ ] ppE =ˆ .

Per calcular l´interval de confiança al 95% cal disposar de la variança de l´estimador p , [ ]pV ˆ o

en el seu defecte d´un estimador d´aquesta variança [ ]pV ˆˆ ,

[ ] [ ] ( ) [ ] ( )n

pppVi

npp

n

syVpV y −

=−−===

1

ˆ1ˆˆˆˆ2'

i en el nostre cas, [ ] 2015,0399

9,01,0ˆˆ =

⋅=pV .

En general, sigui un estimador no biaixat deθ , assumit normalment distribuit θ i la sevadesviació estàndard es nota

θs , aleshores es contrueix un interval de confiança bilateral al nivel

de confiança 05,0=α a partir de l’expressió:

[ ] ( )1

ˆ1ˆˆˆ,,ˆˆˆˆ 2ˆˆ

21ˆ21 −

−====→+≤≤−

−− n

ppsVppszsz θθαθα θθθθθθ

Page 21: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 21

[ ] [ ]pVzpppVzp ˆˆˆˆˆˆ 975,0975,0 +≤≤−

015,096,11,0015,096,11,0 ⋅+≤≤⋅− p

129,0071,0 ≤≤ p al nivell de confiança del 95%.

2)

Ara suposem que l’extracció és ASSR i N=5.000, per tractar-se d´una extracció ASSR sabem quel’estimador mitjana mostral és centrat [ ] YyE µ= o en termes de proporcions [ ] ppE =ˆ .

Per calcular l´interval de confiança al 95% cal disposar de la variança de l´estimador p , [ ]pV ˆ o

en el seu defecte d´un estimador d´aquesta variança [ ]pV ˆˆ ,

[ ] [ ] ( )1

ˆ1ˆ11ˆˆˆ

2'

−−

−=

−==

npp

Nn

n

s

Nn

yVpV y

i en el nostre cas, [ ] ( ) 20144,0399

1,011,0

000.5

4001ˆˆ =

−=pV d’on l´interval de confiança al 95% és,

[ ] ( )1

ˆ1ˆ1ˆˆ,,ˆˆˆˆ 2

ˆˆ21ˆ

21 −−

−====→+≤≤−

−− npp

Nn

sVppszsz θθαθα θθθθθθ

[ ] [ ]pVzpppVzp ˆˆˆˆˆˆ 975,0975,0 +≤≤−

0144,096,11,00144,096,11,0 ⋅+≤≤⋅− p

128,0072,0 ≤≤ p al nivell de confiança del 95%.

3)

Ara suposem que l’extracció és ASSR i N=1.000.000, per tractar-se d´una extracció ASSR sabemque l’estimador mitjana mostral és centrat [ ] YyE µ= o en termes de proporcions [ ] ppE =ˆ .

Per calcular l´interval de confiança al 95% cal disposar de la variança de l´estimador p , [ ]pV ˆ o

en el seu defecte d´un estimador d´aquesta variança [ ]pV ˆˆ ,

[ ] [ ] ( )1

ˆ1ˆ11ˆˆˆ

2'

−−

−=

−==

npp

Nn

n

s

Nn

yVpV y

Page 22: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 22 12/07/01 Profs. L. Montero & M. Bécue

i en el nostre cas, [ ] ( ) 20150,0399

1,011,0

000.000.1

4001ˆˆ =

−=pV d’on l´interval de confiança al

95% és,

[ ] ( )1

ˆ1ˆ1ˆˆ,,ˆˆˆˆ 2

ˆˆ21ˆ

21 −−

−====→+≤≤−

−− npp

Nn

sVppszsz θθαθα θθθθθθ

[ ] [ ]pVzpppVzp ˆˆˆˆˆˆ 975,0975,0 +≤≤−

0150,096,11,00150,096,11,0 ⋅+≤≤⋅− p

129,0071,0 ≤≤ p al nivell de confiança del 95%.

4)

Un error absolut d´un punt, 1%, a un nivell de confiança del 95% vol dir,

[ ] [ ] 01,0ˆˆˆˆˆ 975,0975,0 =→±∈ pVzpVzpp n?

i treballant una mica l´expressió de l´estimador de la variança de p ,

[ ] ( )β==

−−

−= 01,0

1

ˆ1ˆ1ˆˆ

975,0975,0 npp

Nn

zpVz

Si es defineix

Nn

nn

−=

1

10 i s’eleva al quadrat l´expressió anterior,

( ) ( )2

2975,00

2

0

2975,0

ˆ1ˆˆ1ˆ

ββ

ppzn

n

ppz

−=→=

i aplicant l’expressió a les nostres dades,

( )

N

nn

nipp

zn0

02

22

2975,00

1

1458.3

01,0

9,01,096,1

ˆ1ˆ

+

+==⋅=−=

β

Per a N=5.000, 045.21

1

0

0 =+

+=

N

nn

n .

Per N=1.000.000, 447.31

1

0

0 =+

+=

N

nn

n . S’usa que 00 →N

n.

Page 23: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 23

3.3 Rendiment d´una operació de marketing

Una empresa de marketing té accés a un fitxer amb N=200.000 individus. Sigui pel rendimentdesconegut del fitxer a una oferta d´inscripció a preu reduit, és a dir, p és la proporció d´individusque s´inscriurien si se’ls proposés l´oferta a tots els individus del fitxer.

Per estimar el rendiment p, diem-li p , es sol procedir a partir d’un test sobre una petita mostra den individus, triats amb probabilitats iguals i sense reemplaçament. L’experiència de l´empresa ésque el rendiment en aquests tipus d´oferta no sol superar el 3%.

1. Quin és el tamany mostral n necessari per estimar p amb una precissió absoluta del 0,5% a unnivell de confiança del 95%?

2. Quin és el tamany mostral n necessari per estimar p amb una precissió absoluta del 0,3% a unnivell de confiança del 95%?

3. Quin és el tamany mostral n necessari per estimar p amb una precissió absoluta del 0,1% a unnivell de confiança del 95%?

4. Si finalment la mostra tingué un tamany n=10.000 i es comptabilitzaren 230 inscripcions, quinés l´interval de confiança bilateral al 95% pel rendiment p i pel número total d´abonats alproposar l´oferta al total del fitxer?

Solució:

1)

L’extracció és ASSR amb N=200.000 i l’incógnita és el tamany mostral n, però es poden usardades històriques i suposar que el rendiment p=0,03. La condició que ha de satisfer la mostra espoder assolir un error absolut del 0,5% o en tant per 1 del 0,005.

Un error absolut de mig punt 0,5% a un nivell de confiança del 95% vol dir,

[ ] [ ] β==→±∈ 005,0ˆˆˆ 975,0975,0 pVzpVzpp

i treballant una mica l´expressió de l´estimador de la variança de p ,

[ ] ( )β=

−−

−=

1

11

1ˆ 975,0975,0 n

ppNn

NN

zpVz

Si es defineix

−=

Nn

NN

nn

11

10 i s’eleva al quadrat l´expressió anterior,

( ) ( )2

2975,00

2

0

2975,0

11

ββ

ppzn

n

ppz

−=→=

i aplicant l’expressió a les nostres dades,

Page 24: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 24 12/07/01 Profs. L. Montero & M. Bécue

( )43758,4374

1

11

16,471.4

005,0

97,003,096,1

1

0

02

22

2975,00 →=

+

+=≈

−=⋅=−=

N

nn

nN

Ncomi

ppzn

β.

2)

Com l´apartat anterior, però ara 003,0=β .

( )696.118,695.11

1

11

12,421.12

003,0

97,003,096,1

1

0

02

22

2975,00 →=

+

+=≈

−=⋅=−=

N

nn

nN

Ncomi

ppzn

β

3)

Com l´apartat anterior, però ara 001,0=β .

( )710.714,709.71

1

11

16,790.111

001,0

97,003,096,1

1

0

02

22

2975,00 →=

+

+=≈

−=⋅=−=

N

nn

nN

Ncomi

ppzn

β

4)

Finalment, n=10.000 i s’obté un total de 230 subscripcions, per tant l’estimador puntual del

rendiment és 023,0000.10

230ˆ ==p . Ara cal calcular l´interval de confiança al nivell de confiança

del 95% pel rendiment p i pel número total d´inscripcions a la població.

[ ]pVzpp ˆˆˆ 975,0±∈ al 95%

[ ] ( ) ( )001461,096,1

9999

023,01023,0

000.200

000.10196,1

1

ˆ1ˆ1ˆˆ

975,0975,0 ⋅=−

−⋅=

−−

−=

npp

Nn

zpVz

029,0023,0 ±∈p al 95%

El total d´inscripcions s´estima com pNTY ˆ= , doncs pNY =τ , i per tant

600.4023,0000.200ˆ =⋅== pNTY .

Pel càlcul de l’estimador per interval cal estimar [ ]YTV per

[ ] [ ] [ ] ( ) ( ) 2222 2,2929999

023,01023,0

000.200

000.101

1

ˆ1ˆ1ˆˆˆˆˆ =

−⋅=

−−

−=== N

npp

Nn

NpVNpNVTV Y

[ ] 573600.42,29296,1600.4ˆ975,0 ±∈→⋅±∈→±∈ YYYYY TVzT τττ al 95%

3.4 Sondeig d´opinió pre-electoral

Page 25: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 25

Es desenvolupa un sondeig d´opinió pre-electoral per recaptar informació sobre l’opinió generald´una personalitat política i s’obté un percentatge d´opinions favorables del 20%, 2,0ˆ =p .

Ø Si l’extracció és ASAR, quantes persones han estat interrogades per poder dir amb un nivellde confiança del 95% que el veritable percentatge d´opinions favorables en la població no esdesvia més de 2 punts de p ?

Ø Si l’extracció és ASSR, quantes persones han estat interrogades per poder dir amb un nivell deconfiança del 95% que el veritable percentatge d´opinions favorables en la població no esdesvia més de 2 punts de p ? (N=5.000.000)

Solució:

S’observa 2,0ˆ =p . Un error absolut del 2% a un nivell de confiança del 95% vol dir,

[ ] [ ] β==→±∈ 02,0ˆˆˆˆˆ 975,0975,0 pVzpVzpp

i treballant una mica l´expressió de l´estimador de la variança de p :

Ø Cas ASSR : [ ] ( )β=

−−

−=

1

ˆ1ˆ1ˆˆ

975,0975,0 npp

Nn

zpVz

Ø Cas ASAR: [ ] ( ) β=−−=

1

ˆ1ˆˆˆ

975,0975,0 npp

zpVz

Si es defineix

−=

Nn

nn

1

10 en l’expressió del ASSR i s’eleva al quadrat l´expressió anterior,

( ) ( )2

2975,00

2

0

2975,0

ˆ1ˆˆ1ˆ

ββ

ppzn

n

ppz

−=→=

i aplicant l’expressió a les nostres dades:

Ø Cas ASAR:

( )538.16,537.116,536.1

02,0

8,02,096,1

ˆ1ˆ02

22

2975,00 →=+==

⋅=

−= nni

ppzn

β

Ø Cas ASSR:

( )538.12,537.1

1

16,536.1

02,0

8,02,096,1

ˆ1ˆ

0

02

22

2975,00 →=

+

+==⋅=−=

N

nn

nipp

znβ

Page 26: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 26 12/07/01 Profs. L. Montero & M. Bécue

3.5 L’Auditoria Comptable

Un auditor comptable controla un stock composat per N=2000 referències amb un valor real total

Yτ desconegut. Les escriptures de propietat proporcionen un valor total inventariat

5447560=Xτ ptes, el que suposa un valor mig inventariat de 78,2723=Xµ ptes.

Per tal d´estimar el valor real total l´auditor selecciona una mostra ASSR de n=160 referències.Sigui yi el valor real de la referència i-éssima seleccionada i sigui xi el seu valor inventariat.

Siguin la mitjana i la desviació tipus mostrals obtingudes: 31,152764,2705 ' == ysy .

Es defineix l´error constatat en cada referència com a la diferència entre el valor real i el valorinventariat, nixye iii ,,1 L=−= . S´han trobat els següents valors mostrals 02,70−=e y

29,274' =es .

1. Calculeu un interval de confiança bilateral simètric a un nivell de confiança del 99% per lamitjana i el total de la població, YY τµ , .

2. Quin és el valor de [ ]xE y [ ]eE ? Doneu l´expressió de [ ]eV .

3. Si s´escriu xyez XX −+=+= µµ , calculeu [ ] [ ]zVyzE . Valoreu la qualitat de z com

estimador de Yµ .

4. Determineu z i un interval de confiança simètric a un nivell de confiança del 99% per Yµ .

Solució:

1)

El tamany de la població és N=2000 i es coneixen tant el total inventariat com la seva esperançamatemàtica 560.447.5=Xτ i 78,723.2=Xµ . L’extracció descrita configura una mostra ASSR detamany n=160.

L’interval de confiança al 99% per la mitjana del veritable valor Yµ s’estima a partir de la

mitjana mostral de les yi’s, 64,705.21 == ∑ =

n

yy

n

i i i de l’estimació de la variança de la mitjana

mostral [ ] 222'

81,115160

31,527.1

000.2

16011ˆ =

−=

−=

n

s

Nn

yV y.

Per tractar-se d´una extracció ASSR sabem que l’estimador mitjana mostral és centrat [ ] YyE µ= i

també n´és l´estimador del total [ ] YYTE τ= .

L´estimador puntual de Yτ , notat Yτ o yNTY = és de 280.411.564,705.2000.2 =⋅== yNTY .

Page 27: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 27

Per calcular l´interval de confiança al 99% cal disposar de la variança de l´estimador YT , [ ]YTV o

en el seu defecte d´un estimador d´aquesta variança [ ]YTV ,

[ ] [ ] [ ]n

s

Nn

NyVNyNVTV yY

2'22 1ˆˆˆ

−===

i en el nostre cas, [ ] ( ) 22

22'

2 620.231160

31,1527

000.2

1601000.21ˆ =

−=

−=

n

s

Nn

NTV yY .

En general, sigui un estimador no biaixat deθ , assumit normalment distribuit θ i la sevadesviació estàndard es nota

θs , aleshores es contrueix un interval de confiança bilateral al nivel

de confiança 01,0=α a partir de l’expressió:

[ ]ns

Nn

NsVTszsz YYY

2'22

ˆˆ21ˆ

211ˆˆ,,ˆˆˆ

−====→+≤≤−

−− θθαθα θτθθθθθ

[ ] [ ]YYYYY TVzTTVzT ˆˆ995,0995,0 +≤≤− τ

620.231575,2280.411.5620.231575,2280.411.5 ⋅+≤≤⋅− Yτ

702.007.6860.814.4 ≤≤ Yτ al 99%

De la mateixa manera, per la mitjana de la població l´interval de confiança al nivell de confiançadel 99% és,

[ ] [ ]yVzyyVzy Yˆˆ

995,0995,0 +≤≤− µ

81,115575,264,705.281,115575,264,705.2 ⋅+≤≤⋅− Yµ

86,003.342,407.2 ≤≤ Yµ al 99%

2)

La mitjana mostral és un estimador centrat de la mitjana poblacional en mostreig ASSR:[ ] YyE µ= i [ ] XxE µ= .

Per altra banda, [ ] [ ] [ ] [ ]48476 X

YxEyExyEeE

µ

µ 78,723.2−=−=−= i

[ ] ( )nN

nnN

neV YXXYe

'2'2'2' 211

σσσσ −+

−≈

−=

Page 28: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 28 12/07/01 Profs. L. Montero & M. Bécue

3)

Observeu que [ ] [ ] [ ]eVeVzV X =+= µ i si 02 '2' <− YXX σσ aleshores

[ ] [ ] [ ]yVnN

nnN

nzVeV YYXXY =

−<

−+

−==

2'2'2'2'

12

1σσσσ

,

però z és un estimador no biaixat de [ ] [ ] YXYXX eEzE µµµµµ =−+=+= i sota la condicióanterior és més eficient que la mitjana mostral (de menor variança).

4)

S´han trobat els següents valors mostrals 02,70−=e y 29,274' =es .

[ ] 222'

8,20160

29,274

000.2

16011ˆ =

−=

−=

ns

Nn

eV e

i d´aquí el cálcul de l´interval de confiança al 99% per la mitjana real Yµ mitjançant l´estimadorz resulta,

[ ]ns

Nn

sVzszsz eeY

2'2

ˆ21ˆ

211ˆˆ,,ˆˆˆ

−====→+≤≤−

−−θµθθθθθ θαθα

[ ] [ ]zVzzzVzz Yˆˆ

995,0995,0 +≤≤− µ

Com 78,2723=Xµ [ ] [ ]eVzeeVze XYXˆˆ

995,0995,0 ++≤≤−+ µµµ

8,20575,276,653.28,20575,276,653.2 ⋅+≤≤⋅− Yµ

32,707.220,600.2 ≤≤ Yµ al 99%

Page 29: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 29

3.6 Un més Difícil de Mostreig Aleatori Simple

Un Club de venda d’obres musicals per catàleg té un fitxer de N=500.000 clients, que es renovenen un 25% cada any. Cada mes s´envia un catàleg amb 10 obres musicals, presentades en disc, CDi cassette, és a dir, un total de 30 productes diferents a oferir que a partir d´ara es denominaranregistres.

Un registre es considera de alta demanda si els encàrrecs mensuals són com a mínim de 12000unitats, i de demanda mitja, si els encàrrecs són com a mínim de 8000 unitats.

Els membres del club han de comprar un mínim de 3 registres per any i com a màxim una unitat decada registre. Els registres s´encarreguen a la firma productora un mes abans de publicar elcatàleg (segons criteris de previsió d´algú), i si hi han més comandes d´un producte que stock(unitats encarregades a la firma productora) se’ls envia al mes següent. Aquest mètode és ineficaçi condueix sovint a la ruptura d´stock.

L´experiència diu que si la revista s´envia a n1 clients, un 30% retorna la resposta de comanda en15 dies (n2=0.3n1). La millora que s’intenta introduir parteix de l’idea d´enviar el catàleg a unamostra n1 de clients 15 dies abans que a la resta, i amb els resultats d’encàrrecs dels n1 clients, feruna comanda complementària per poder satisfer les comandes dels clients durant el mateix mes.L´objectiu és estimar n1 a partir d’uns certs requeriments de precisió absoluta i relativa.

1. Determinar n1 per estimar les vendes dels registres de demanda alta amb un error absolut de1500 unitats a un grau de confiança del 95% (12000 1500± unitats).

2. Quina precisió absoluta comporta el tamany mostral n1 sobre els registres de demanda mitja?

3. Comparant 1 amb 2, es constata que la precisió absoluta és millor a 2 que a 1. Verifiqueu queamb precisió relativa és a l´inrevés.

4. Quin és el tamany mostral n1 per assolir en registres de demanda mitja la mateixa precisiórelativa la obtinguda en registres de demanda alta pel tamany mostral calculat a l´apartat 1 ?

Solució:1)

L’extracció és ASSR i N és 500.000, per tractar-se d´una extracció ASSR sabem que l’estimadormitjana mostral és centrat [ ] YyE µ= o en termes de proporcions [ ] ppE =ˆ . L’estimador puntualde la proporció de vendes que van bé és

024,0000.500

000.12ˆ ==p

Page 30: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 30 12/07/01 Profs. L. Montero & M. Bécue

Per calcular l´interval de confiança al 95% cal disposar de la variança de l´estimador p , [ ]pV ˆ o

en el seu defecte d´un estimador d´aquesta variança [ ]pV ˆˆ i a partir d´aquí és podrà imposar la

condició de precisió absoluta de 1.500 exemplars, que representa un 0,3% ( 003,0000.500

500.1= ),

[ ] ( )1

ˆ1ˆ1ˆˆ

1

1

−−

−=n

pp

N

npV

Es defineix r com

−=

N

nn

r1

1

1

1 i [ ] ( ) ( )

r

pp

n

pp

N

npV

ˆ1ˆ

1

ˆ1ˆ1ˆˆ

1

1 −=

−−

−= ,

i en el nostre cas,

[ ] ( ) ( ) 2

1

1 003,0024,01024,0

96,1024,01024,0

000.500196,1ˆˆ96,1 =−=−

−=

rn

npV on l´interval

de confiança és al 95% .

D’aquí surt ( ) ( )

999.94,9998003,0

024,01024,096,1

003,0

ˆ1ˆ96,12

2

2

2

≈=−⋅

=−⋅

=pp

r i ara es pot calcular

804.91

13,0 12 =

+

+=⋅=

Nr

rnn i per tant 680.32

3,02

1 ==n

n és el tamany mostral per garantir la

precisió absoluta requerida.

2)

L’estimador puntual de la proporció de vendes de 8.000 exemplars és

016,0000.500

000.8ˆ ==p

Per calcular l´interval de confiança al 95% cal disposar de la variança de l´estimador p , [ ]pV ˆ o

en el seu defecte d´un estimador d´aquesta variança [ ]pV ˆˆ i a partir d´aquí es pot calcular la

precisió absoluta de 8.000 exemplars amb una mostra de 9.9981 =n individus que responen,

[ ] ( ) ( ) 2

1

1 00124,0997.9

016,01016,0

000.500

998.91

1

ˆ1ˆ1ˆˆ =

−=

−−

−=n

pp

N

npV

i en el nostre cas,

[ ] 00243,000124,096,1ˆˆ96,1 =⋅=pV on l´interval de confiança és al 95% i suposa en número de

exemplars una precisió absoluta de 215.100243,0000.12 =⋅ .

Page 31: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 31

Per tant la precisió absoluta de les vendes de 8.000 exemplars és millor (té magnitut inferior) a laprecisió absoluta de les vendes que van bé (12.000 exemplars): 0,24% en front de 0,3% o 1.214en front de 1.500.

3)

En aquest apartat s´ilustra que malgrat que la precisió absoluta de 2 (8.000 exemplars)

és millor que la de 1 (12.000 exemplars), la precisió relativa de 2 és pitjor que la de 1.

Sigui 1δ la precisió relativa de les vendes de 12.000 exemplars, 125,0000.12

500.11 ==δ .

Sigui 2δ la precisió relativa de les vendes de 8.000 exemplars, 153,0000.8

215.12 ==δ .

El tamany que hauria de tenir la mostra per garantir una precisió relativa en les vendes de 8.000exemplars de 0.125 és a dir una precisió absoluta de 000.1000.500125,0 =⋅ exemplars o en

termes percentuals de 002,0000.500

000.1= .

Emprant les mateixes fórmules que en l’apartat 1 s´obté el tamany mostral requerit.

[ ] ( )1

ˆ1ˆ1ˆˆ

1

1

−−

−=n

pp

N

npV

Es defineix r com

−=

N

nn

r1

1

1

1 i [ ] ( ) ( )

r

pp

n

pp

N

npV

ˆ1ˆ

1

ˆ1ˆ1ˆˆ

1

1 −=

−−

−= ,

i en el nostre cas,

[ ] ( ) ( ) 2

1

1 002,0016,01016,0

96,1016,01016,0

000.500196,1ˆˆ96,1 =−=−

−=

rn

npV on l´interval

de confiança és al 95% .

D’aquí surt ( ) ( )

121.15002,0

016,01016,096,1

002,0

ˆ1ˆ96,12

2

2

2

≈−⋅

=−⋅

=pp

r i ara es pot calcular

679.141

13,0 12 =

+

+=⋅=

Nr

rnn i per tant 927.48

3,02

1 ==n

n és el tamany mostral per garantir

la precisió relativa requerida.

Page 32: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 32 12/07/01 Profs. L. Montero & M. Bécue

3.7 Un d´Estratificació per Edats

Una empresa realitza una enquesta sobre el conjunt del seu personal composat per 10.000persones. Uns estudis preliminars han demostrat que les variables d’interès estan fortamentcorrelacionades amb l’edat dels individus i que es poden establir tres categories d´edat,cadascuna de les quals constitueix un estrat.

Es proposa un plan de sondeig com si es volés estudiar l’edat dels individus i es coneix l´edat detot el personal, informació que es pot sintetitzar en la següent taula:

Estrat Proporció de l´estrat h 'hs edats a l’estrat

h1 0,2 182 0,3 123 0,5 3,6

Conjunt 1,0 16

1. Sigui µ l’edat mitjana de la població i y l’estimador mitjana mostral procedent d’unaextracció ASSR de n=100 individus. Quin és l‘error estàndar de y ?

2. Es decideix efectuar l’extracció dels n=100 individus de manera estratificada segons les 3categories del personal. Quina és la repartició representativa o proporcional? Quina és ladesviació estándar de l´estimador SPy de µ resultant? Comparar els resultats amb l´apartat

anterior.

3. Quina seria la repartició óptima de la mostra? Quina seria la desviació estàndar del´estimador SOy de µ resultant? Comparar els resultats amb els apartats anteriors.

Solució:

1)

Tenim un tamany poblacional de N=10.000 i un tamany mostral ASSR de n=100.

Per tractar-se d´una extracció ASSR sabem que l’estimador mitjana mostral és centrat [ ] YyE µ= .

La variança de l´estimador y , [ ]yV o en el seu defecte d´un estimador d´aquesta variança [ ]yVque no és el cas en aquest enunciat, doncs es coneix l´edat a nivell poblacional, resulta,

[ ] 222'

59,1100

16

000.10

10011 =

−=

−=

nNn

yV yσ

Page 33: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 33

2)

Mostreig estratificat proporcional vol dir que el tamany mostral a cada estrat ha de serproporcional al tamany poblacional de l’estrat, n=100 d’on la taxa de mostreig

01,0000.10

100===

N

nf ,

505,0

303,0

202,0

3

2

1

======

→=nn

nn

nn

nN

Nn h

h

Per teoria es sap que l’estimador estratificat proporcional de la mitjana poblacional ,

hH

hh

SP yN

Ny ∑ =

=1

on hy és la mitjana mostral habitual dins l´estrat h, suposant mostreig ASSR a

cada estrat, és centrat: [ ] YSPyE µ= .

La variança de l´estimador SPy , [ ]SPyV o en el seu defecte d´un estimador d´aquesta variança

[ ]SPyV que no és el cas en aquest enunciat, doncs es coneix l´edat a nivell poblacional, resulta,

[ ] [ ] ( )n

fnN

n

N

NyV

N

Ny

N

NVyV raH

hh

h

h

hhH

h hhH

h hh

SP

2'int

1

2'

2

2

1 2

2

111

σσ−==

−==

= ∑∑∑ ===

L

on 2'

1

2'int h

H

hh

ra N

Nσσ ∑ =

≈ i hN

n

Nn

fh

h ∀==

[ ]2

22

22

23

1

2'

2

2

06,150

6,3

000.5

5015,0

30

12

000.3

3013,0

20

18

000.2

2012,01 =

−+

−+

−=

−= ∑ =h

h

h

h

hhSP nN

n

N

NyV

σ

o bé, calculat amb la fórmula alternativa,

22222'3

1

2'int 7,106,35,0123,0182,0 =⋅+⋅+⋅=≈∑ = hh

hra N

Nσσ i d´aquí,

[ ] ( ) ( ) 222'

int 06,1100

7,1001,011 =−=−=

nfyV ra

SP

σ

Page 34: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 34 12/07/01 Profs. L. Montero & M. Bécue

3) Mostreig estratificat óptim de Neyman vol dir que el tamany mostral a cada estrat ha de ser talque minimitza la variança global de l’estimador de µ , per n=100 d’on la taxa de mostreig

01,0000.10

100===

N

nf ,

202,0

404,0

404,0

3

2

1

1

'

'

======

→=

∑ = nn

nn

nn

n

N

NN

N

nH

h hh

hh

h

σ

σ

Al denominar se’l sol notar ∑ == H

h hh

N

N1

'' σσ i en el nostre cas,

96,35,0123,0182,03

1

'' =⋅+⋅+⋅== ∑ =h hh

N

Nσσ .

Per teoria es sap que l’estimador estratificat óptim de la mitjana poblacional ,

hH

hh

SO yN

Ny ∑ =

=1

on hy és la mitjana mostral habitual dins l´estrat h, suposant mostreig ASSR a

cada estrat, és centrat: [ ] YSOyE µ= . La variança de l´estimador SOy , [ ]SOyV o en el seu defecte

d´un estimador d´aquesta variança [ ]SOyV que no és el cas en aquest enunciat, doncs es coneix

l´edat a nivell poblacional, resulta,

[ ] [ ]NnnN

n

N

NyV

N

Ny

N

NVyV raH

hh

h

h

hhH

h hhH

h hh

SO

2'int

2'

1

2'

2

2

1 2

2

11

σσσ−==

−==

= ∑∑∑ ===

L

on 2'

1

2'int h

H

hh

ra N

Nσσ ∑ =

[ ] 22

22

22

23

1

2'

2

2

89,020

6,3

000.5

2015,0

40

12

000.3

4013,0

40

18

000.2

4012,01 =

−+

−+

−=

−= ∑ =h

h

h

h

hhSO nN

n

N

NyV

σ

o bé, calculat amb la fórmula alternativa,

22222'3

1

2'int 7,106,35,0123,0182,0 =⋅+⋅+⋅=≈∑ = hh

hra N

Nσσ i d´aquí,

[ ] 2222'

int2'

89,0000.10

7,10

100

9 =−=−=Nn

yV raSO

σσ

Page 35: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 35

3.8 Un d´Estratificació més Teóric

Una determinada població d´estudi es composa de 2 estrats dels quals es coneix el seu tamany( 2,1=hNh ) i la seva variança poblacional corregida '' 2,1 σσ ihh = .

Es disposa d´un pressupost C per obtenir una estimació de µ , que notarem SOCy , la funció de

cost s´escriu nnninCnCnC =++= 212211)( i es proposa una extracció ASSR a cada estrat.

1. Calcular l´expressió de SOCy estimador centrat de µ i la seva variança.

2. Quina repartició de la mostra en els estrats fa mínima la variança de l’estimador SOCy ? Quina

és l´expressió óptima de la variança de SOCy .

3. Si en comptes d´aplicar una repartició óptima en costos, s’hagués aplicat la reparticióproporcional, quins serien els tamanys mostrals a cada estrat? Quina l’expressió del´estimador centrat de µ (notat SPy ) i la seva variança?

4. Si 000.19412000.20000.10 21'2

'121 ======= CCCNN σσ calculeu la repartició

óptima en costos de la mostra en els estrats i la variança de l´estimador SOCy . Apliqueu les

dades a la repartició proporcional i evalueu la pérdua de precissió relativa entre la reparticióóptima en costos i la repartició proporcional.

Solució:

1)

Per teoria es sap que l’estimador estratificat óptim per costos de la mitjana poblacional ,

hH

hh

SOC yN

Ny ∑ =

=1

on hy és la mitjana mostral habitual dins l´estrat h, suposant mostreig ASSR

a cada estrat, és centrat: [ ] YSOCyE µ= .

La variança de l´estimador SOCy , [ ]SOCyV o en el seu defecte d´un estimador d´aquesta variança

[ ]SOCyV que no és el cas en aquest enunciat, doncs es coneixen dades a nivell poblacional,

resulta,

Page 36: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 36 12/07/01 Profs. L. Montero & M. Bécue

[ ] [ ]321

hndependno

ra

h

hH

hhH

hh

h

h

hhH

h hhH

h hh

SOC NnN

N

nN

n

N

NyV

N

Ny

N

NVyV

2'int

2'

1 2

2

1

2'

2

2

1 2

2

11

σσσ−=

−==

= ∑∑∑∑ ====

on 2'

1

2'int h

H

hh

ra N

Nσσ ∑ =

2)

Si es planteja un problema de programació matemàtica adreçat a trobar els valors Hnn ,,1 K talsque donat un cost total C i coneguts els costos unitaris per estrat (Ch) i la desviació estàndardcorregida de la variable d´interès a cada estrat ( '

hσ ), s´obtingui la menor variança de l´estimador

de µ , aleshores la partició de la mostra en estrats repon a la fòrmula:

hH

hhhh

hhhh C

C

CN

CNn

∑=

=

1

'

'

σ

σ

I ara substituint Hnn ,,1 K a la fòrmula de [ ]SOCyV s’obté,

[ ]( )

NCN

CNyV ra

H

h hhhSOC

2'int

2

2

1

'σσ

−= ∑ =

3)

Si s´hagués aplicat un repartiment proporcional, però mantenint les condicions de cost limitat iconegut C i coneguts els costos unitaris per estrat (Ch) i la desviació estàndard corregida de lavariable d´interès a cada estrat ( '

hσ ) podem deduir quina hauria estat la repartició de la mostra

per estrats,

∑ ∑∑=→=→

=

=

hh

hhh

h

hhh

hh

CNCN

nnCN

NC

nCC

nN

Nn

i a partir del tamany mostral n es podria calcular,

[ ] [ ] ( ) ( )CN

CNNn

nf

nN

n

N

NyV

N

NyV ra

h hhraH

hh

h

h

hhH

h hh

SP

2'int

2'int

1

2'

2

2

1 2

2

111σσσ ∑∑∑

−=−=

−==

==

on 2'

1

2'int h

H

hh

ra N

Nσσ ∑ =

Page 37: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 37

4)

Procedim a la comparació de les dues estratègies mitjançant un exemple numèric amb les dades,

000.19412000.20000.10 21'2

'121 ======= CCCNN σσ .

Càlcul de la repartició i la variança de l’estimador de la mitjana poblacional en la reparticióóptima per costos:

679

1000

31000.2022000.10

31000.20

1004

1000

31000.2022000.10

22000.10

2

1

1

'

'

=⋅⋅+⋅⋅

⋅⋅=

=⋅⋅+⋅⋅

⋅⋅=

→=

∑=

n

n

C

C

CN

CNn

hH

hhhh

hhhh

σ

σ

I ara substituint Hnn ,,1 K a la fòrmula de [ ]SOCyV s’obté,

[ ]( ) ( ) 2

2

22'int

2

2

1

'

11,0000.30

2

1000000.30

31000.2022000.10=−

⋅⋅⋅+⋅⋅

=−= ∑ =

NCN

CNyV ra

H

h hhhSOC

σσ

a on 21000.30

000.202

000.30

000.10 222'

1

2'int =+=≈∑ = h

H

hh

ra N

Nσσ

Càlcul de la repartició i la variança de l’estimador de la mitjana poblacional en la reparticióproporcional donat un cost C fixat:

1379000.204000.10

000.30000.1=

⋅+⋅⋅

==∑

hhhCN

CNn

21000.30

000.202

000.30

000.10 222'

1

2'int =+=≈∑ = h

H

hh

ra N

Nσσ

[ ] ( ) 22'

int 12,0137

2

000.20

13711 =

−=−=

nfyV ra

SP

σ

Ara cal comparar la pérdua de precisió relativa de l’estimador proporcional enfront del’estimador de la mostra óptima per costos:

[ ][ ] ⇒== 32,1

11,0

12,02

2

SOC

SP

yV

yVpérdua relativa de precisió del 32%.

Page 38: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 38 12/07/01 Profs. L. Montero & M. Bécue

3.9 Index de Satisfacció (Estratificat)

Una empresa que està constituida per 400 persones de suport i 100 directius vol evaluar l´indexde satisfacció (Y) del seu personal a partir d’un conjunt de preguntes en una mostra de n=100individus. Es suposa que la dispersió de la variable satisfacció és la mateixa en els 2 estrats delpersonal.

1. Quin és el métode de mostreig indicat si es vol obtenir la millor precisió possible sobre elvalor mig de l´índex de satisfacció del personal?

2. Quin és el métode de mostreig indicat si es vol obtenir la mateixa precisió sobre el valor migde l´índex de satisfacció del personal a cadascun dels estrats?

3. Quin és el métode de mostreig indicat si es vol obtenir la millor precisió possible sobre ladiferència dels valors mitjos de l´índex de satisfacció del personal a cadascun dels estrats?

4. Finalment es realitza l´enquesta segons l´objectiu 2, tot obtenint els següents resultats:3691513 2'

22'

121 ==== ssyy . Calculeu els intervals de confiança al nivell de confiançadel 95% per la mitjana de la satisfacció a cada estrat. La diferència entre les satisfaccionsmitjanes és significativament diferent de 0?

Solució:

1)

Per teoria es sap que l’estimador estratificat de mínima variança de la mitjana poblacional prové

del mostreig estratificat de Neyman, hH

hh

SO yN

Ny ∑ =

=1

on hy és la mitjana mostral habitual dins

l´estrat h, suposant mostreig ASSR a cada estrat, és centrat: [ ] YSOyE µ= .

La variança de l´estimador SOy , [ ]SOyV o en el seu defecte d´un estimador d´aquesta variança

[ ]SOyV que no és el cas en aquest enunciat, doncs es coneix (suposa) ''2

'1 σσσ == el que fa que

resulti equivalent a un mostreig estratificat proporcional doncs,

nN

Nn

N

NN

N

nn

NN

N

N

n h

H

hh

h

hH

h hh

hh

h ==→

==

=

∑∑=

=1''

2'1

1

'

'

σσσ

σ

σ

i per tant en aquest cas,

Page 39: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 39

[ ] [ ] [ ]yVnN

nnN

nnN

n

N

NyVyV raH

hh

h

h

hhSPSO =

−≅

−=

−== ∑ =

2'2'int

1

2'

2

2

111σσσ

on 2'2'

1

2'int σσσ ≅≅∑ = h

H

hh

ra N

N

A més a més equival al mostreig aleatori simple.

[ ] [ ] [ ] 2'2'

008,0100500

1001 σ

σ⋅=

−=≅= yVyVyV SPSO

2)

Si l´objectiu és assolir la mateixa precisió en l’estimació de la mitjana de la satisfacció en totsdos estrats subjecte a ''

2'1 σσσ == , aleshores cal plantejar el següent sistema d´equacions:

[ ] [ ][ ] [ ]

=+=−+

=→=

=+

=

−=

−=→

=+==

=

100

0000.405003

100

400

11

21

121

2

1

21

22

2'

2

2

1

2'

1

11

21

2'2'2

2'1

21

nn

nn

N

N

nnn

yVnN

n

nN

nyV

nnn

yVyV σσσσσ

La resolució de l´equació de segon grau dona 591 =n i d´on 412 =n i

[ ] [ ] 2'2'

2

2'

2

2

1

2'

1

121 07,0

59400

59111 σ

σσσ⋅=

−=

−=

−==

nN

n

nN

nyVyV

3)

Si l’objectiu és assolir la millor precisió possible en l´estimador de la diferència entre lessatisfaccions mitjanes dels estrats aleshores cal definir un estadístic 21 µµδ −= i el seu

estimador centrat si les extraccions als estrats són ASSR: 21 yyd −= , la variança del qual és:

[ ] [ ] [ ] [ ]h

hh

h

h

nN

nyVyVyyVdV

2'2

12121 1σ∑ =

−=+=−=

Ara bé, la partició 10021 =+ nn que fa mínima [ ]dV es pot calcular aplicant les técniques deprogramació no lineal amb restriccions d´igualtat i comprovant que la partició indicada per lasegüent fórmula satisfà les condicions de mínim amb restriccions d’igualtat de Karush-Khuni-Tucker:

Page 40: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 40 12/07/01 Profs. L. Montero & M. Bécue

nnH

j j

hh

∑ =

=1

'

'

σ

σ i a més aquí ''

2'1 σσσ == i per tant, 5021 == nn .

La variança de l´estimador de la diferència de les satisfaccions mitjanes entre estrats pren pervalor,

[ ] [ ] [ ] [ ] 2'2'2'2'

2

12121 0275,050100

501

50400

5011 σ

σσσ⋅=

−+

−=

−=+=−= ∑ =

h

hh

h

h

nN

nyVyVyyVdV

4)

Els resultats segons el pla de mostreig 2 que assoleix igual precisió en l´estimació de lasatisfacció mitjana en tots dos estrats són: 3691513 2'

22'

121 ==== ssyy .

D´entrada si usessim els coneixements d´inferència estadística per tal de contrastar la hipòtesi dela igualdad de la variança dels 2 estrats via l´estadístic de Fisher-Snedecor tindriem:

⇒=>=== 65,149

36 05,058,40

2

2'1

2

2'2

Fs

s

f

σ

σ hi ha evidència per rebutjar la hipótesi nul.la 2'2'2

2'1 σσσ == .

Aquesta és la causa de que les variances dels estimadors a cadascun dels estrats siguin diferentes:

[ ]

[ ] 518,041

36

100

4111ˆ

130,059

9

400

5911ˆ

2

2'2

2

22

1

2'1

1

11

=

−=

−=

=

−=

−=

n

s

N

nyV

n

s

N

nyV

L’interval de confiança al nivell del 95% per 1µ és:

[ ] [ ]1975,0111975,01ˆˆ yVzyyVzy +≤≤− µ

13,096,11313,096,113 1 ⋅+≤≤⋅− µ

7,133,12 1 ≤≤ µ

L’interval de confiança al nivell del 95% per 2µ és:

Page 41: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 41

[ ] [ ]2975,0222975,02ˆˆ yVzyyVzy +≤≤− µ

518,096,115518,096,115 2 ⋅+≤≤⋅− µ

4,166,13 2 ≤≤ µ

Falta respondre el darrer punt: si és significativament diferent la mitjana de les satisfaccions a totsdos estrats. A partir de les dades mostrals es calcularà l´estimador de δ , la seva variança i esconstruirà un interval de confiança al 95% on s´observarà si el zero hi pertany o no.

2151321 −=−=−= yyd

[ ] [ ] [ ] [ ] 648,0100

36

100

411

400

9

400

591ˆˆˆˆ

2121 =

−+

−=+=−= yVyVyyVdV

L’interval de confiança al nivell del 95% per 21 µµδ −= és:

[ ] [ ]dVzddVzd ˆˆ975,0975,0 +≤≤− δ

648,096,12648,096,12 ⋅+−≤≤⋅−− δ

4,06,3 −≤≤− δ

Per tant al no pertanyer el 0 a l´interval de confiança hi ha evidència per considerar lessatisfaccions mitjanes dels 2 estrats diferentes.

Page 42: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 42 12/07/01 Profs. L. Montero & M. Bécue

3.10 Els comptes deudors: clients morosos ...

Una empresa té 14.133 clients dels quals és possible saber, informàticament, quin és l´estat decomptes: si deuen diners (deudors) o si l’empresa els deu (acreedors). Un inspector vol verificarl’estat de comptes i d´entrada se li faciliten les següents dades:

• Número d’acreedors: 865.

• Número de deudors inferiors a 5000 Euros: 13.226.

• Número de deudors de gran magnitud: 42.

L’inspector decideix examinar per mostreig els comptes deudors inferiors a 5000 Euros, doncsn´hi han massa per fer un examen detallat un per un. L’objectiu consisteix en determinar ambmolta precissió quin és el valor real (Y) mig del comptes deudors inferiors a 5000 Euros: Yµ .Les següents dades aporten una estratificació d’aquests comptes (assolible informàticament)segons una variable X: ‘Valor comptable d’un compte deudor’:

Estrat Rangs de X(en Euros)

Nh Valor Comptable

hXτDesviació TipusCorregida '

hXσ

1 1 a 500 1.124 292.630 82

2 501 a 1.000 2.741 2.103.480 156

3 1.001 a 2.500 5.815 10.178.650 346

4 2.501 a 5.000 3.546 13.254.820 881

Total 13.226 25.829.580 'Xσ ?

1. Calculeu la desviació tipus conjunta del valor comptable 'Xσ a partir de les dades de la taula.

2. Si es suposa que la desviació tipus conjunto del valor real dels comptes deudors (Y) és moltsemblant a la desviació tipus conjunta del valor comptable dels comptes deudors (X), calculeuel tamany que hauria de tenir una mostra ASSR per estimar Yµ amb un interval de confiança

de 50± Euros a un nivell de confiança del 95%. Considereu per simplificar que nNn

nN 1≅

−.

3. Si suposem que els costos de mostreig són els mateixos a tots quatre estrats, determineu quinaés la repartició óptima de Neyman d´una mostra estratificada de tamany genèric n.

4. Si suposem que les desviacions tipus dels estrats són molt similars tant per Y com per X, és adir ''

hh YX σσ ≅ calculeu quina és la repartició óptima de Neyman d´una mostra estratificada de

tamany genèric n.

5. Si es fa una aproximació hhh

hh

nnN

nN 1≅−

, calculeu quin és el tamany mostral necessari per

estimar Yµ amb un interval de confiança de 50± Euros a un nivell de confiança del 95%segons el repartiment mostral indicat a l´apartat anterior.

Solució:

Page 43: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 43

1)

Sabem que ∑∑ −==

h Xh

h Xh

ra hh N

N

N

N 2'22int

1σσσ ,

h

XX

XX NN

h

h

τµ

τµ == , i el mateix per la Y

h

YY

YY NN

h

h

τµ

τµ == , .

Ara bé recordem la fórmula de descomposició de la variança que apareix en anàlisi ANOVA:

( ) ( ) ( ) ( )∑∑ ∑∑∑∑∑∑ =−+−=−+−=−=h i h i

hhhih i

hhhih i

hi xxxxxxxSQT 2222 µµµ

( ) ( ) 2int

222er

hhh

h i hhhhhi

h

h NNxNN

NxxN

Nσσµ +=−+−= ∑∑ ∑ ∑

2int

2int

2int

22erraer

hh

h

N

N

NSQT

σσσσσ +=+== ∑ i d’aquí la fórmula habitual 2int

2int

2erraX σσσ += .

En el nostre cas,

86,274.266881226.13

545.3346

226.13

814.5156

226.13

740.282

226.13

123.11 22222'2int =+++=

−=∑h X

hra hN

Nσσ

( ) =

=

−=−= ∑∑∑

222

22int 226.13

580.829.25h

h

Xhh

X

h

Xhh h

her NN

N

NNN

Nx

N

Nhh

τττµσ

( ) ( ) ( ) ( )( ) 52,053.407.129,952.1

2

546.3

820.254.13

226.13

546.32

815.5

650.178.10

226.13

815.52

741.2

480.103.2

226.13

741.22

124.1

630.292

226.13

124.129,952.1

2

=−=−

= +++∑h

h

Xh

NN

Nh

τ

38,328.673.152,053.407.186,274.2662int

2int

2 =+=+= erraX σσσ i 222' 297.11

=−

= XX N

Nσσ .

2)

La mitjana mostral és un estimador centrat de la mitjana poblacional en mostreig ASSR:[ ] YyE µ= i [ ] XxE µ= . Suposem 2'2'

XY σσ ≅ .

La mitjana de la població l´interval de confiança del 95% és,

[ ] [ ] [ ] 50975,0975,0975,0 =→+≤≤− yVzyVzyyVzy Yµ

Page 44: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 44 12/07/01 Profs. L. Montero & M. Bécue

[ ] 585.250297.1

96,196,112'2'

975,0975,0 =→=⋅=⋅≅

−= n

nnnN

nzyVz XY σσ

3)

Per teoria es sap que l’estimador estratificat de mínima variança de la mitjana poblacional prové

del mostreig estratificat de Neyman, hH

hh

SO yN

Ny ∑ =

=1

on hy és la mitjana mostral habitual dins

l´estrat h, suposant mostreig ASSR a cada estrat, és centrat: [ ] YSOyE µ= .

La variança de l´estimador SOy , [ ]SOyV i per tant en aquest cas,

[ ] ∑ =

−= H

hh

Y

h

hhSO nN

n

N

NyV h

1

2'

2

2

La repartició óptima de Neyman respon a la fórmula:

n

N

NN

N

nH

h Yh

Yh

h

h

h

∑ =

=

1

'

'

σ

σ per un n donat i calen les desviacions tipus de la Y a cada estrat.

4)

Suposem hhh XY ∀≅ 2'2' σσ en les fórmules del repartiment anteriors,

nnn

nnn

nnn

nnn

Nn

N

NN

N

n H

h Yh

XY

H

h Yh

Yh

hh

hh

h

h

5524,0780.655.5

881546.3

3557,0780.655.5

346815.5

0756,0780.655.5

156741.2

0163,0780.655.5

82124.1

780.655.5

1

1

1

1

1

'

2'2'

1

'

'

=⋅

=

=⋅

=

=⋅

=

=⋅=

→=→

=∑∑ =

=

σ

σσ

σ

σ

i s´ha usat 780.655.51

' =∑ =

H

h Xh hN σ i a més ∑ =

= H

h Xh

hN

N1

'' σσ .

Page 45: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 45

5)

La variança de l´estimador SOy , [ ]SOyV o en el seu defecte d´un estimador d´aquesta variança

[ ]SOyV és amb el repartiment óptim calculat l´apartat anterior i la hipótesi 2'2'XY σσ ≅ ,

[ ]n

N

N

N

Nn

N

N

nN

N

nN

n

N

NyV

h Xh

H

h

H

h Xh

Xh

XhH

hh

XhH

hh

X

h

hhSO

H

h

h

HHH

2'

1

1

'

'

2'

2

2

1

2'

2

2

1

2'

2

2

1

===

−=

∑∑

∑∑ =

=

==

σ

σ

σ

σσσ

La mitjana de la població l´interval de confiança del 95% és,

[ ] [ ] [ ] 50975,0975,0975,0 =→+≤≤− SOSOSOYSOSO yVzyVzyyVzy µ

[ ] 2825038,428

96,196,1'

2'

975,0975,0 =→=⋅=⋅≅

=∑

nnnn

N

N

zyVz Xh X

h

SO

H σσ

Page 46: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 46 12/07/01 Profs. L. Montero & M. Bécue

3.11 L’Explotació Ramadera (Estratificat)

Una empresa especialitzada en sondetjos es encarregada de realitzar un mostreig en dues regionssobre una mostra total de n=500 explotacions ramaderes amb la finalitat d´avaluar el nombre migd´animals per explotació µ . El número d’explotacions total és de 50.000, distribuïdes en 40.000en la regió 1 i 10.000 a la regió 2 i es disposa de la base de sondeig amb l´adreça de cadaexplotació. Dades històriques sobre les regions mostren que la desviació del nombre d´animalsper explotació a la regió 1 era de 20 i en la regió 2 de 40.

1. Descriure amb precisió com es construiria una mostra estratificada proporcional prenent comcriteri d´estratificació la regió. Quina seria la diferència d´haver considerat una mostra ASSRsense estratificació pel conjunt del territori?

2. Quina és la precisió de la mitjana d´animals per explotació a cada regió segons el mostreigestratificat proporcional a un nivell de confiança del 95%?

3. Quina seria la repartició a considerar si es vol obtenir la mateixa precisió en l’estimació delnombre mig d´animals per explotació a cada regió? Quina seria la precisió de l’estimador delnombre mig d´animals per explotació al conjunt del territori a un nivell de confiança del 95%?

4. Quina seria la repartició a considerar si es vol obtenir una precisió óptima en l´estimació deµ ? Quina seria aquesta precisió a un nivell de confiança del 95%?

5. Avaluant el cost de l´enquesta, l´empresa detecta que el cost unitari per cada unitat mostrejadano és el mateix en totes dues regions i de fet

3002004020000.10000.40 21'2

'121 ====== CCNN σσ . Quin seria el tamany

mostral total i la repartició en les regions que garanteix un cost global mínim per una variançade l´estimador de µ fixada a 1,139? Deduiu el cost global de l´enquesta, C? Compareu quinseria el cost de l´enquesta resultant del punt 4.

Solució:

1) Y variable d´estudi és “Nombre d´animals per explotació ramadera”.

La mostra estratificada representativa o proporcional seria:

500

1002,0

4008,0

2

1

=====

→=n

nn

nn

nNN

n hh

Si N és gran i 2'2'2

2'1 σσσ == aleshores el mostreig estratificat proporcional donaria els mateixos

resultats en l´estimació dels paràmetres habituals, però aquest no és el nostre cas22'

222'

1 4020 =≠= σσ

Veiem perquè si N és gran i 2'2'2

2'1 σσσ == aleshores la variança de l’estimador de la mitjana

poblacional és equivalent a la variança de l´estimador equivalent del ASSR:

Page 47: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 47

[ ]

[ ]yVnN

nnN

NNn

NN

nNN

Nn

NN

nNN

Nn

nNN

Nn

nNn

yVh h

hh

hraraSP

=

−=

−≅

≅−

−=

−=

−=

−= ∑ ∑

2'2

22

2int

2'int

11

1

11

1

11

111

σσ

σσ

σσ

2)

Es demanen els intervals de confiança al 95% per les mitjanes (poblacionals) de les dues regions,a partir de les dades del mostreig anterior, que són ASSR a nivell de cada estrat:

[ ]

[ ] 22

2

2'2

2

22

22

1

2'1

1

11

98,3100

40

000.10

10011

995,0400

20

000.40

40011

=

−=

−=

=

−=

−=

nN

nyV

nN

nyV

σ

σ

L’interval de confiança al nivell del 95% per 1µ és:

[ ] [ ]1975,0111975,01 yVzyyVzy +≤≤− µ

995,096,1995,096,1 111 ⋅+≤≤⋅− yy µ

95,195,1 111 +≤≤− yy µ

L’interval de confiança al nivell del 95% per 2µ és:

[ ] [ ]2975,0222975,02 yVzyyVzy +≤≤− µ

98,396,198,396,1 222 ⋅+≤≤⋅− yy µ

8,78,7 222 +≤≤− yy µ

L’interval de confiança al nivell del 95% per la mitjana poblacional del conjunt µ és:

[ ] [ ]SPSPSPSP yVzyyVzy 975,0975,0 +≤≤− µ

[ ] 22

22

22

1

2'

2

2

126,1100

40

000.10

10012,0

400

20

000.40

40018,01 =

−+

−=

−= ∑ =h

h

h

h

hhSP nN

n

N

NyV

σ

126,196,1126,196,1 ⋅+≤≤⋅− SPSP yy µ

206,2206,2 +≤≤− SPSP yy µ

Page 48: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 48 12/07/01 Profs. L. Montero & M. Bécue

3)

La repartició a considerar si es vol obtenir la mateixa precisió en l’estimació del nombre migd´animals per explotació a cada regió hauria de satisfer:

[ ] [ ][ ] [ ]

=+=−+

=→

=

=+

=

−=

−=→

=+

=

500

015000.40000.160

000.10

000.40

500

401

201

21

21

2

1

21

22

2'

2

2

1

2'

1

11

21

21

nn

nn

N

N

nn

yVnN

n

nN

nyV

nnn

yVyV

La resolució de l´equació dona 1001 =n i d´on 4002 =n i

[ ] [ ] 22

2

2'2

2

2

1

2'1

1

121 998,1

100

20

000.40

100111 =

−=

−=

−==

nN

n

nN

nyVyV

σσ

En aquest cas la precisió de l’estimador del nombre mig d´animals per explotació al conjunt i queno és l’estimador estratificat proporcional sinó un altre que anomenarem ≡y del territori a unnivell de confiança del 95% és:

[ ] 22,371,296,1400

40

000.10

40012,0

100

20

000.40

10018,096,1196,196,1

22

222

1

2'

2

2

=⋅=

−+

−=

−= ∑ =≡ h

h

h

h

hh

nN

n

N

NyV

σ

4)

La repartició a considerar si es vol obtenir una precisió óptima en l´estimació de µ és larepartició resultant de les fórmules de Neyman

=

==

==

=⋅+⋅==

→→= ∑∑ =

= 500

16724

8

33324

16

24402,0208,0 2

1

2

1

''2

1

'

'

n

nn

nn

N

Non

n

N

NN

N

nj j

j

j jj

hh

h σσσ

σ

La precisió de la repartició óptima a un nivell de confiança del 95% seria:

[ ] 092,2067,196,1167

40

000.10

16712,0

333

20

000.40

33318,096,1196,196,1

22

222

1

2'

2

2

=⋅=

−+

−=

−= ∑ =h

h

h

h

hhSO nN

n

N

NyV

σ

5)

Page 49: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 49

El cost unitari per cada unitat mostrejada no és el mateix en totes dues regions i de fet3002004020000.10000.40 21

'2

'121 ====== CCNN σσ aleshores el tamany mostral

total i la repartició en les regions que garanteix un cost global mínim per una variança del´estimador de µ fixada a 1,139 2067,1= (les incógnites) haurien de satisfer:

∑∑∑

∑==→=

=

=

=

j jjj

hhh

jj

H

jjjj

jjj

hH

hjjj

hhh

h

hH

jjjj

hhhh

CN

CN

CC

CN

CN

CC

CN

CN

n

n

CC

CN

CNn

'

'

1

'

'

1

'

'

1

'

'

σ

σ

σ

σ

σ

σ

σ

σ

Però [ ]SOCyV ha de valer 1,139,

[ ] ( )139,1

2'int

2

2

1

'

=−= ∑ =

NCN

CNyV ra

H

h hhhSOC

σσ

a on 64040000.50

000.1020

000.50

000.40 222'

1

2'int =+=≈∑ = h

H

hh

ra N

Nσσ

I d’on surt el cost C en funció de [ ]SOCyV i Hnn ,,1 K a partir de la primera fòrmula,

[ ]

( )900.115

000.50

640139,1000.50

30040000.1020020000.40

2

2

2'int

2

1

'

=

+

⋅⋅+⋅⋅=

+

=∑ =

NyV

CN

N

Cra

SOC

H

h hhh

σ

σ

147300

30040000.10

359200

20020000.40

1

'2

1

'1

1

'

'

=⋅⋅=

=⋅⋅

=

→=

∑=

=

=

C

CNn

C

CNn

CC

CN

CNn

H

jjjj

H

jjjj

hH

jjjj

hhhh

σ

σ

σ

σ

Per finalitzar cal comparar quin seria el cost de l´enquesta resultant del punt 4:700.1161673003332004 =⋅+⋅=C , més car que l’òptim en cost per la precisió fixada.

3.12 Els propietaris de llars

Un diari compta amb 40.000 abonats que serveix diàriament per transportistes i vol coneixer elnombre d´abonats que són propietaris de la seva residència habitual per una operació demarketing. La direcció del diari encarrega una enquesta a 800 abonats, triats en conglomerats de

Page 50: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 50 12/07/01 Profs. L. Montero & M. Bécue

10 (propers geogràficament). El responsable del pla de mostreig considera els M=4.000conglomerats de 10 unitats cadascun com la base pel mostreig d’on es seleccionen segons unprocediment sistemàtic (ASSR), 80 conglomerats entre els 4.000.

Sigui iτ el número total de propietaris del conglomerat i-éssim. Els resultats de l´enquesta són:

536.237080

1

280

1

== ∑∑== i

ii

i ττ

1. Calculeu un interval de confiança al 95% pel nombre total de propietaris de la llar entre elsabonats al diari.

2. Si p indica la proporció de propietaris en els conjunt dels abonats, quin és el valor delestimador de p, notat p . Doneu un interval de confiança al 95% per p.

3. Si l’estimador puntual de l´apartat anterior p s´hagués obtingut a partir d´un mostreig aleatorisimple sense reemplaçament entre els 40.000 abonats, quin seria l´interval de confiança ques´hagués obtingut per p?

4. Com explicarieu la diferència en la precisió obtinguda entre els dos apartats anteriors? Quinssuggeriments farieu per millorar la qualitat del procediment de mostreig?

Solució:

1)

Per fixar la notació detallem les dades: N=40.000 Ni=10=N0 n=800 M=4.000 m=80, donat que

000.410

000.40

0

===N

NM .

Sigui iτ : Nombre total de propietaris al conglomerat i-èssim. L’estimador del total de propietaris

en la població d’abonats del diari i la seva variança estimada respon a les fòrmules:

tMmM m

ii == ∑

=1

ˆ ττ on m

t

m

ii∑

== 1

τ ( ) ( )

mmMMtVMtMVV

2'2 )()(ˆ τσ

τ −=== i d’aquí

( )m

smMMV

2'

)(ˆˆ ττ −= on ( )

11

2

2'

−=∑

=

m

ts

m

iiτ

τ .

Amb les nostres dades: ,500.1880

370000.4ˆ

80

1

=⋅== ∑=i

imM

ττ d’on 63,4=t .

Page 51: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 51

( )222

80

1

280

1

2

2' 22,363,479

80

79

536.2

111=−=

−−

−=

−=

∑∑== t

m

m

mm

ts i

ii

i ττ

τ i per tant,

( ) ( ) 222'

24,427.180

22,380000.4000.4)(ˆˆ =−=−=

m

smMMV ττ .

L’interval de confiança al nivell del 95% pel total de propietaris τ és:

[ ] [ ]τττττ ˆˆˆˆˆˆ 975,0975,0 VzVz +≤≤−

24,474.1500.1824,474.1500.18 975,0975,0 zz +≤≤− τ

297.21703.15 ≤≤τ al 95% de confiança

2)

La proporció de propietaris en la població d´abonats al diari és N

= i per tant es pot estimar

tNM

NmM

Np

m

ii === ∑

=1

ˆˆ τ

τ.

La variança de l’estimador de p és :

( ) ( )mN

mMMtV

N

MN

tMV

NVpV

2'

22

2 )()(

ˆˆ τστ −

===

=

L’estimador de la variança de p és ( )m

s

N

mMMpV

2'

2

)(ˆˆ τ−

= .

Aplicat a les dades del problema:

463,0000.40

500.18ˆˆ ===

Np

τ

( ) ( ) 22

2

2'

20357,0

80

22,3

000.40

80000.4000.4)(ˆˆ =

−=

−=

m

s

N

mMMpV τ .

L’interval de confiança al nivell del 95% per la proporció de propietaris p és:

[ ] [ ]pVzpppVzp ˆˆˆˆˆˆ 975,0975,0 +≤≤−

Page 52: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 52 12/07/01 Profs. L. Montero & M. Bécue

0357,096,1463,00357,096,1463,0 ⋅+≤≤⋅− p

533,0393,0 ≤≤ p al 95% de confiança

3)

Ara es suposa que l´estimador 463,0ˆ =p de la proporció de propietaris p s´ha obtingut a partird’un ASSR i es demana calcular l’estimador per interval de p.

Per ASSR ( ) ( ) 20244,01

ˆ1ˆ1ˆˆ =

−−

−=

npp

Nn

pV .

L’interval de confiança al nivell del 95% per la proporció de propietaris p (ASSR) és:

[ ] [ ]pVzpppVzp ˆˆˆˆˆˆ 975,0975,0 +≤≤−

0244,096,1463,00244,096,1463,0 ⋅+≤≤⋅− p

511,0415,0 ≤≤ p al 95% de confiança

4)

El ASSR és generalment millor que el mostreig bietàpic (i per conglomerats).

“Los conglomerados han de ser:

• Los más hetereogeneos posibles, para mejorar la representatividad de la población total.

• El tamaño de los conglomerados ha de ser pequeño y similar entre ellos. Las familias europeastienen pocos miembros y el tamaño es muy regular, entre 2 y 5 miembros en el 95% de loscasos.

• Cuantos más conglomerados se muestreen, mejor, la calidad de los estimadores depende másde m (número de conglomerados o UP) que de n (número de individuos o US).

El efecto del conglomerado se puede medir por un coeficiente ρ llamado coeficiente decorrelación intraconglomerado:

1

1.

)(

))((

1

2

1

111

−−

−−=

∑∑

∑∑∑

==

≠===

Nyy

yyyy

fi

ii

N

jij

m

i

ikij

N

jkyk

N

j

m

i

donde Ni: número de individuos del conglomerado i y M

NNn == .

Si ρ >> 0 Existe mucha similitud en el interior del conglomerado (desfavorable).

Page 53: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 53

Si ρ << 0 Conglomerados hetereogéneos (favorable).

• Muestreo ASSR:

nmN

Nn

nmNV y

22

22

1

'1

')ˆ(

σστ ≈

−=

• Muestreo en conglomerados:

mM

mMm

MV yy

2

2

2

22

''1)ˆ(

ττ σστ ≈

−=

y se puede demostrar equivalente, usando ρ, el coeficiente de correlacióninterconglomerado a:

))1(1('

)ˆ(2

22 −+= n

nmNV y ρ

στ

Haciendo en cociente:

)1(1)ˆ(

)ˆ(

1

2 −+= nV

ττ

Si ρ >> 0 entonces el muestreo en conglomerados es peor que el ASSR .”

El pla de mostreig resultant de l´estratificació dels conglomerats per àrees geogràfiques conduiriapossiblement a una millora en la precisió dels estimadors resultants.

“Los dos tipos de muestreo combinados muestran distintas propiedades respecto al ASSR en losestimadores que facilitan:

• Estratificado: reducción error estandar respecto ASSR, por tanto incremento de precisión.• Conglomerados: incremento error estandar respecto ASSR, por tanto decremento de la

precisión.

Las propiedades contrapuestas de los dos esquemas de muestreo combinados sobre el error de losestimadores finales tiene por efecto un cierto control de la pérdida de precisión de losestimadores debido al efecto de los conglomerados. Por otro lado, el muestreo ASSR suele darmenos precisión (más error estandard) en los estimadores que un muestreo estratificadoproporcional (tasa muestreo f constante por estrato, como en el presente caso).”

3.13 Les compres de revistes setmanals

Es disenya un pla de mostreig en conglomerats per estudiar les compres de revistes de difusiósetmanal. Les famílies són els conglomerats. Els resultats de l´enquesta faciliten:

Page 54: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 54 12/07/01 Profs. L. Montero & M. Bécue

• p l ‘estimador de la proporció de famílies compradores a la mostra,

• 1m el número de famílies compradores de la mostra,

• 1y ( 1t ) la mitjana i '1s la desviació estàndard corregida del número de revistes comprades per

família compradora (mostra).

Respongueu a les següents qüestions:

1. Calculeu les expresions de y ( t ) el número mig de revistes comprades per família de la

mostra i 's la desviació estàndard corregida de revistes comprades per família de la mostra.2. Calculeu un interval de confiança al 95% per τµ el número mig de revistes comprades per

família a la població a partir de les dades: M=25.000, m=4.500, 21,0ˆ =p , 2,31 =y 1,3'1 =s .

3. Quins són els problemes que es plantegen per calcular un interval de confiança al 95% per 1µ ,

el número mig de revistes per família compradora a la població i per USµ , el número mig de

revistes comprades per cada individu de la població?

Solució:

1)Les families es consideren estratificades (a posteriori) en dos estrats: famílies compradores ifamílies no compradores. Els estadístics y i 's fan referència a valors del conjunt de la població(total mig per UP), mentre que les dades subministrades pertanyen a un estrat de la població: el defamílies compradores ( 1y i '

1s ), l´altre estrat té una mitjana de compres de 0 i també nul.la

desviació estàndard corregida, 02 =y i 0'2 =s . Cal recordar la fòrmula de descomposició de la

variança total que vam veure en el mostreig estratificat i aplicar-ho a aquest dos post-estrats.

FAMÍLIES PROPORCIÓMOSTRAL

MITJANAMOSTRAL

DESVIACIÓ ESTÀNDARDCORREGIDA MOSTRAL

COMPRADORES p 1y '1s

NO COMPRADORES p1− 02 =y 0'2 =s

TOTAL y ? 's ?

L’estimador per conglomerats del total mig per UP és comptant com a dades p , 1m i 1y :

11

111 ˆˆˆ

ˆ

ˆ

ˆˆyp

mp

mp

p

p

p

MmM

My

m

ii

m

ii

m

ii

=====∑∑∑

===

ττττ

Ara bé recordem la fórmula de descomposició de la variança que apareix en anàlisi ANOVA:

( ) ( ) ( ) ( )∑∑ ∑∑∑∑∑∑ =−+−=−+−=−=h i h i

hhhih i

hhhih i

hi xxxxxxxSQT 2222 µµµ

( ) ( ) 2int

222er

hhh

h i hhhhhi

h

h NNxNN

NxxN

Nσσµ +=−+−= ∑∑ ∑ ∑

Page 55: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 55

I en el nostre cas,

( ) =−+=+≈+≈= ∑∑∑=== 2,1

2

1

2'2int

2,1

2'2int

2'int

2'

hk

h

hh

her

hh

herra yy

m

ms

m

mss

m

msss

M

SQT

( ) ( )( ) ( ) ( )( ) ( )ppyspyppypypspyypyypsp ˆˆ1ˆˆ0ˆ1ˆˆˆˆ1ˆˆ 21

2'1

21

211

2'1

22

21

2'1 −+=−−+−+=−−+−+=

2)

Es demana de calcular un interval de confiança al 95% per τµ el número mig de revistes

comprades per família a la població a partir de les dades: M=25.000, m=4.500, 21,0ˆ =p ,

2,31 =y 1,3'1 =s .

672,02,321,0ˆ 1 =⋅== ypy

( ) ( ) 22221

2'1

2' 93,121,021,012,31,321,0ˆˆ1ˆ =−+⋅=−+= ppysps

L’interval de confiança al nivell del 95% pel total mig per UP τµ és:

[ ] [ ]yVzyyVzy ˆˆ975,0975,0 +≤≤− τµ

on ( ) 222'

0261,0500.4

93,1

000.25

500.41)1(ˆˆˆ =

−=−==

ms

Mm

yVM

V ττ( conglomerats triats ASSR)

0261,096,1672,00261,096,1672,0 ⋅+≤≤⋅− τµ

723,0621,0 ≤≤ τµ al 95% de confiança

3)

py

yˆ1 = i és per tant un estimador per quocient del número mig de revistes comprades per família

compradora a la població (tant numerador com denominar són estimats a partir de la mostra), 1µ .

mn

MNUS

yny

perestimaty

NyM

NtM

Ny =====

τ a partir de les dades mostral torna a dur-nos a

un estimador per quocient del número mig de revistes comprades per individu a la població, USµ .

3.14 L’animació sonora als Supers

Una cadena de supermercats vol coneixer l’opinió dels clients sobre l´animació sonora (músicaambient, publicitats, anuncis, etc.) i encarrega una enquesta. Per cada supermercat, els resultatsobtinguts de la mostra s´expressen en termes de “proporció de clients que recorden la publicitatés del x%”. Els responsables de marqueting de la cadena sol.liciten entrevistar a n=500 clients

Page 56: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 56 12/07/01 Profs. L. Montero & M. Bécue

repartits entre m=20 sucursals de la cadena i que la mostra sigui representativa, és a dir, que totsels clients tinguin la mateixa probabilitat de ser enquestats. S’admet una actitud diferent sobrel’animació sonora diferencial entre els petits supermercats i els grans supermercats, doncs lescaracterístiques de la clientela són diferents.

No es coneix el número de clients Ni que passen per cadascun dels M supers de la cadena, peròs´admet que existeix una bona correlació entre el total de vendes de cada super Mi

iX ..1=τ i el

número de clients de manera que la proporció de clients que visiten el supermercat i-èssim potestimar-se a partir de la relació entre el total de vendes de la cadena i el total de vendes del super

i-èssim: X

Xi i

N

N

τ

τ≈ .

1. Indiqueu les expressions de l´estimador de p, p notat la proporció de clients que recordenl’animació sonora, de la seva variança i de l’estimador de la variança. Quines indicacionsdonarieu per seleccionar els clients a enquestar en les sucursals de la mostra?

Solució:

El mostreig és bietàpic on:• El primer nivell (UP) està constituit per les sucursals de la cadena.• El segon nivell (US) està constituit pels clients de cada sucursal.

La proporció de clients que recorden l’animació sonora és un total mig per US d´una variablealeatòria binària Y definida per cada client com a 1 si recorda l´animació i 0 altrament. Com esdemana que la mostra sigui representativa, això s’assoleix triant un número de clients constant,notat n0, a cada sucursal i triant les sucursals de manera proporcional al número de clients (nomitjançant un ASSR). S’han de proposar fòrmules per un mostreig d´unitats primàries ambprobabilitats desiguals i número d´unitats secundàries fix que respon en aquest cas a,

2520

5000 ==== n

m

nn triades ASSR a cada sucursal (UP)

La probabilitat de triar el client j-èssim de la sucursal i-èssima li diem P(i,j) i es pot veure que ésconstant, per això la mostra s’anomena representativa:

( )N

n

N

n

N

N

N

njiP

i

i

iX

X i 000, ===τ

τ i això és constant per qualsevol client i super.

La tria ASSR d´US ha de contemplar la fluctuació horària de clients, de manera que es triin mésclients en les hores de major afluència i menys clients en les hores de menor afluència.

Per tant les fòrmules de l´estimador de p i la seva variança són:

∑∑∑∑====

=====m

ii

m

jii

i

m

ii

i

m

i i

i pm

pNN

N

mNN

N

mNmNNp

h

1111

ˆ1

ˆ11

ˆ11ˆ11ˆ

ˆ τπττ

Page 57: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 57

[ ] [ ] =

−≈+

−== ∑∑∑

===

M

iii

i

M

i i

iM

i i

i NppNNN

MN

Z

MNMNV

NpV

1

2

21

21

2

22ˆ111ˆ11ˆ1ˆ

πτ

πτ

τ

( )∑=

−=M

ii pp

M 1

2ˆ1

on [ ]ii VZ τ= i depen del tipus de mostreig de les US.

[ ] [ ] ( ) ( ) =

−=

−== ∑∑

==

m

iii

i

m

i i

i pNpNN

N

mmNmmNV

NpV

1

2

21

2

22ˆˆ

1

11ˆ

ˆ

1

11ˆˆ1

ˆˆ τπτ

τ

( ) ( )∑=

−−

=m

ii pp

mm 1

2ˆˆ1

1 on

N

N ii =π , 2520 0 == nim i i

n

jiij

ii pNy

n

Nˆˆ

0

10∑

=

==τ .

Page 58: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 58 12/07/01 Profs. L. Montero & M. Bécue

3.15 L’Estudi d´Audiometria

Es realitza un estudi per determinar el nivell d´equipament familiar d’un cert electrodomèstic(proporció de famílies que en disposen) en un territori, els municipis del qual es reparteixen entres estrats: els municipis rurals, les petites ciutats i les grans ciutats. El Pla de Mostreig preveuseleccionar n=200 individus de la següent manera:

• En el primer nivell de mostreig (UP) es trien 10 municipis amb probabilitats desiguals segonsla població de famílies dels municipis.

• En el segon nivell es trien 20 famílies (US) de manera aleatòria i sense reposició de cadascundels municipis seleccionats en el nivell anterior.

• La mostra dels municipis es considera estratificada de manera que cadascun dels estrats siguirepresentatiu de la seva població total.

1. Quin nombre de municipis s´han de seleccionar a cada estrat? Seleccioneu-los a partir delsnúmeros pseudo-aleatoris entre 0 i 1: 0.534, 0.288 i 0.760.

2. Estimar el nivell d´equiment familiar en el conjunt del territori, per punt i per interval. Essuposa que els resultats de l’enquesta en la selecció anterior són:

MUNICIPIS 1 2 3 4 5ESTRAT 1 0.15 0.18 0.19ESTRAT 2 0.21 0.28ESTRAT 3 0.25 0.28 0.28 .29 0.3

Solució:

1)

A partir de les dades de població de la taula descrita a continuació es veu que els 10 municipisrepresenten 1.200 centenars de famílies (120.000 famílies), el repartiment estratificatproporcional dels municipis en termes de la població de famílies (variable X) és:

5101200

600

210200.1

250

310200.1

350

10

3

2

1

≈=

≈=

≈=

→==

m

m

m

mmX

X

X

Xh

hh

τ

τ

τ

τ

La selecció de la mostra es farà pel procediment sistemàtic.

Per l´estrat h=1, el pas és 1173

3501 ==k i el primer municipi determinat a partir del número

pseudo-aleatori 0.534 i de la població total 350 (centenars de famílies) és 187350534.0 =⋅ icorrespon al municipi 16. El segon municipi ve identificat per la població acumulada

304187 1 =+ k és el 29. El tercer municipi 70350mod304 1 =+ k és el 7.

Page 59: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 59

Per l´estrat h=2, el pas és 1252

2502 ==k , i d’aquí el primer municipi determinat a partir del

número pseudo-aleatori 0.288 i de la població total 250 (centenars de famílies) és72250288.0 =⋅ és el 2 i el segon municipi és 197250mod72 2 =+ k és el 6.

Per l´estrat h=3, el pas és 1205

6003 ==k , però com un dels municipis, el número 1, té un tamany

de 137 aleshores cal triar-lo segur i considerà la selecció sistemàtica de 4 municipis més entre els

6 restants a partir d´un pas modificat 1164

1376003 =

−=k i d’aquí el segon municipi determinat

a partir del número pseudo-aleatori 0.76 i de la població total 463 (centenars de famílies) és35246376.0 =⋅ és el 6. El tercer municipi 5463mod352 3 =+ k és el 2. El quart municipi

121463mod5 3 =+ k és el 3. El cinquè municipi 237463mod121 3 =+ k és el 5.

Les dades de població, en centenars d´habitants, són les següents:

ESTRAT 1 ESTRAT 2 ESTRAT 3Mun. Pobl Acum. Mun. Pobl Acum. Mun. Pobl Acum. Acum. No 1

1 6 6 1 32 32 1 1 137 137 02 13 19 2 1 57 89 2 3 85 222 853 8 27 3 27 116 3 4 78 300 1634 8 35 4 30 146 4 65 365 2285 22 57 5 30 176 5 5 68 433 2966 10 67 6 2 38 214 6 2 100 533 3967 3 8 75 7 36 250 7 67 600 4638 13 889 14 10210 11 11311 13 12612 7 13313 8 14114 24 16515 4 16916 1 24 19317 13 20618 4 21019 12 22220 1 22321 5 22822 3 23123 13 24424 19 26325 5 26826 12 28027 12 29328 7 29929 2 7 30630 2 30831 8 31632 2 318

Page 60: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 60 12/07/01 Profs. L. Montero & M. Bécue

33 10 32834 22 350

2)

La probabilitat de triar la família k del municipi j dins de cada estrat h és constant,

cntN

n

N

n

N

N

j

j === 00 k)j,P(h, on 200 =n (US per cada UP)

Les UP’s són els municipis i les US’s són les famílies i el mostreig bietàpic és representatiu oautoponderat, és a dir assignar la mateixa probabilitat a cada família d’un estrat. De fet laprobabilitat de triar una UP j surt a les fòrmules i a les classes de teoria es nota jA , en aquest

apartat apareixen probabilitats de UP j a l´estrat h i es notarà com: hjπ .

Es vol estimar la proporció de disponibilitat d’un cert electrodomèstic en el conjunt, és a dir percada estrat un total mig per US d’una variable dicotòmica Y a nivell de família (0 si la família nodisposa de l´electrodomèstic i 1 si en disposa). Els estimadors de les proporcions a cada estrats´hauran de combinar segons les pautes del mostreig estratificat proporcional per obtenirl´estimador de la proporció del conjunt del territori (global).

Per començar cal determinar els estimadors puntuals de les proporcions a cadascun dels estrats iles seves variances estimades a partir de les dades de la taula, notades respectivament

[ ] 3,2,1ˆˆˆ =hpVip hh i que responen a les fòrmules del mostreig bietàpic amb selecció del primer

nivell (UP) amb probabilitats desiguals. Val a dir que els estimadors de la variança a emprar tanten mostreig bietàpic com en mostreig per conglomerat amb probabilitats desiguals són idèntiques(només els estimadors de la variança).

∑∑∑∑====

=====hhhh m

jhj

h

m

jhjhj

hj

h

hh

m

jhj

hj

h

hh

m

j hj

hj

hhh

hh p

mpN

N

N

mNN

N

mNmNNp

1111

ˆ1

ˆ11

ˆ11ˆ11ˆ

ˆ τπ

ττ

[ ] [ ] ( ) ( ) =

−=

−== ∑∑

==

hh m

jhhhjhj

hj

h

hhh

m

jh

hj

hj

hhhh

hh pNpN

N

N

mmNmmNV

NpV

1

2

21

2

22ˆˆ

1

11ˆ

ˆ

1

11ˆˆ1

ˆˆ τπ

ττ

( ) ( )∑=

−−

=hm

jhhj

hh

ppmm 1

2ˆˆ1

1

Aplicades a les nostres dades:

( ) 173,019,018,015,03

1

11

11 =++== ∑

=

m

jjp

mp

Page 61: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 61

( ) 245,028,021,02

2

12

22 =+== ∑

=

m

jjp

mp

( ) 28,03,029,028,028,025,05

3

13

33 =++++== ∑

=

m

jjp

mp

[ ] ( ) ( ) ( ) ( ) ( )( ) 2222

1

211

111 012,0173,019,0173,018,0173,015,0

23

1ˆˆ

1

1ˆˆ

1

=−+−+−⋅

=−−

= ∑=

m

jj pp

mmpV

[ ] ( ) ( ) ( ) ( )( ) 222

1

222

22

2 04,0245,028,0245,021,012

1ˆˆ1

1ˆˆ2

=−+−⋅

=−−

= ∑=

m

jj pp

mmpV

[ ] ( ) ( ) ( ) ( ) ( ) ( ) ( )( ) 2228,03,0

228,029,0

228,028,0

228,028,0

228,025,0

45

1

1

233

33

3 008,0ˆˆ1

1ˆˆ3

==−−

= −+−+−+−+−⋅

=∑m

jj pp

mmpV

L’estimador centrat estratificat proporcional de la proporció de propietaris d´electrodomèstics alconjunt de la població és:

242,028,0200.1

600245,0

200.1

250173,0

200.1

350ˆˆ

3

1

=++== ∑=

hh

h pN

Np

[ ] [ ] 222

22

23

1

2

01,0008,0200.1

60004,0

200.1

250012,0

200.1

350ˆˆˆˆ =

+

+

=

= ∑=

hh

h pVN

NpV

L’interval de confiança al 95% per la proporció de propietaris d´electrodomèstics al conjunt de lapoblació és per tant:

0,01960,242 ± al 95%

Page 62: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 62 12/07/01 Profs. L. Montero & M. Bécue

3.16 La Imatge de Correus

La Direcció General de Correus realitza sondetjos d’opinió anuals per estudiar la imatge del seuservei entre el públic. Un any donat, el pressupost assignat per l’enquesta permet de realitzar2.000 entrevistes i el pla de sondeig és el següent:

• En un primer nivell es defineixen M unitats primàries geogràfiques (districtes rurals, municipisurbans, etc.). Es seleccionen 100 UPs amb probabilitats desiguals en funció del número defamílies que contenen (Ni).

• A cada UP es consulta 20 famílies (n0) triades amb probabilitats iguals i sense reemplaçament.

Sigui p la proporció de famílies satisfetes amb el servei de Correus, proporció a estimar.

1. Indiqueu l’expressió de l’estimador de p, p , la seva variança [ ]pV ˆ i de l´estimador de la

variança [ ]pV ˆˆ .2. Un client de Correus s´assabenta del pla de sondeig i troba estrany que es realitzin el mateix

nombre d´enquestes en les unitats primàries grans que en les unitats primàries petites. Quinaraó donarieu?

3. Els resultats d’anys anteriors indiquen que les opinions expressades són força homogènies enles zones rurals, però varien més en els municipis d´alta densitat. Quina seria la modificacióen el pla de sondeig anterior per incorporar aquesta informació i treure-li el màxim partit?

4. Els resultats mostren variació en l’opinió en funció de la categoria social i l’edat delsenquestats. Formuleu suggeriments pel que fa tant a les consignes donades a priori, com alstractaments efectuats a posteriori.

Solució:

1)

El mostreig és bietàpic amb 200 =n US per cada UP i la proporció de satisfacció és un total per

US, en un pla on les UPs es trien amb probabilitats desiguals proporcionals al tamany, per tant lesfòrmules de l´estimador de p i la seva variança són:

∑∑∑∑====

=====m

ii

m

jii

i

m

ii

i

m

i i

i pm

pNN

N

mNN

N

mNmNNp

h

1111

ˆ1

ˆ11

ˆ11ˆ11ˆ

ˆ τπττ

[ ] [ ] =

−≈+

−== ∑∑∑

===

M

iii

i

M

i i

iM

i i

i NppNNN

MN

Z

MNMNV

NpV

1

2

21

21

2

22ˆ111ˆ11ˆ1ˆ

πτ

πτ

τ

( )∑=

−=M

ii pp

M 1

2ˆ1

on [ ]ii VZ τ= i depen del tipus de mostreig de les US.

Page 63: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 63

[ ] [ ] ( ) ( ) =

−=

−== ∑∑

==

m

iii

i

m

i i

i pNpNN

N

mmNmmNV

NpV

1

2

21

2

22ˆˆ

1

11ˆ

ˆ

1

11ˆˆ1

ˆˆ τπτ

τ

( ) ( )∑=

−−

=m

ii pp

mm 1

2ˆˆ1

1 on

N

N ii =π , 100

20

000.2

0

===n

nm i ∑

=

=0

10

ˆn

jij

ii y

n

Nτ .

2)

La mostra resultant és autoponderada, és a dir, totes les unitats secundàries tenen la mateixaprobabilitat de ser triades. La probabilitat de triar una US j de la UP i és:

cntN

n

N

n

N

N

i

i === 00 j)P(i, on 200 =n (US per cada UP)

3)

Estratificació óptima de Neyman, a partir de les variances estimades en anys anteriors.

4)

A priori es podrien donar consignes per respectar les quotes de categoria social i grup d’edat,aquesta és una pràctica molt habitual en mostrejos no probabilistes (sense base de sondeig).

A posteriori es podria aplicar una post-estratificació per ajustar els estimadors d´acord als valorspoblacionals de les variables auxiliars categoria social i grup d´edat.

Page 64: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 64 12/07/01 Profs. L. Montero & M. Bécue

3.17 Un de Nou de Mostreig en Conglomerats

Un cert diari es distribueix en 50.000 quioscos mitjançant un servei de motoristes. Cada motoristaha d´atendre 50 quioscos relativament propers. Es vol coneixer el número de quioscos que sónpartidaris d´obrir el diumenge per la tarda. La direcció del diari encarrega un estudi adreçat aestimar aquesta xifra.

El mètode de mostreig triat decideix d´observar 1000 quioscos, en 20 conglomerats de 50quioscos, pertanyent cada unitat primària a un mateix motorista per tal d´aprofitar la repartició enzones geogràfiques preestablerta. ( N=50 000 quioscos, M=1 000 UP)

Es selecciona mitjançant un mostreig ASSR m = 20 conglomerats i s´obtenen els següents efectiuspartidaris d’obrir en diumenge:

10 9 12 8 34 2 22 10 12 8 11 10 10 32 4 5 24 8 14

1. Estimeu el número total en la població de quioscos partidaris d´obrir el diumenge per la tarda(per punt i per interval).

2. Sigui p la proporció de quioscos partidaris d´obrir en diumenge per la tarda. Estimeu p perpunt i per interval.

3. Si la proporció estimada procedís d´un mostreig ASSR, quina seria la precissió del´estimador. Compareu la qualitat de les dues tècniques de mostreig en aquest cas.

Solució:1)

N=50.000 Ni=50 M=1.000 m=20. A partir de la mostra es pot determinar:

( ) 621,7520

252

120

1

1

1252

20

1

220

1

22'20

1

=

−=−

−== ∑∑∑

=== ii

ii

ii t

ms τττ τ

L’estimador de ∑=

=M

ii

1

ττ i la seva variança responen a la fòrmula:

∑=

=m

iim

M

1

ˆ ττ

[ ] [ ] [ ]mM

mMtVMtMVV

2'22 1ˆ τσ

τ

−=== i [ ] [ ] [ ]

ms

Mm

MtVMtMVV2'

22 1ˆˆˆˆ ττ

−=== .

I per les dades del problema:

600.1225220

000.1ˆ

1

=== ∑=

m

iim

Mττ

[ ] 222'

2 95,924.120

621,75

000.1

201000.11ˆˆ =

−=

−=m

s

M

mMV ττ

Page 65: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 65

L’interval de confiança al nivell del 95% pel total de partidaris d´obrir diumenge per la tarda τés:

[ ] [ ]τττττ ˆˆˆˆˆˆ 975,0975,0 VzVz +≤≤−

95,924.1600.1295,924.1600.12 975,0975,0 zz +≤≤− τ

450.16750.8 ≤≤τ al 95% de confiança

2)

L’estimador de la proporció de partidaris d’obrir diumenge NN

p

M

ii∑

=== 1

ττ

i la seva variança

responen a la fòrmula:

∑=

==m

iiNm

MN

p1

ˆˆ τ

τ

[ ] [ ] [ ]mM

m

N

MtV

N

MtMV

NNVpV

2'

2

2

2

2

21

1ˆˆ τστ

−===

= i

[ ]ms

Mm

N

MN

VpV2'

2

2

1ˆˆˆˆ ττ

−=

= .

I per les dades del problema:

252,0000.50

600.12252

20000.50

000.1ˆ

1

==⋅

== ∑=

m

iiNm

Mp τ

[ ] [ ] 22

2

20385,0

000.50

95,924.1ˆˆ1ˆˆˆˆ ===

= ττ

VNN

VpV

L’interval de confiança al nivell del 95% per la proporció de partidaris d´obrir diumenge per latarda p és:

[ ] [ ]pVzpppVzp ˆˆˆˆˆˆ 975,0975,0 +≤≤−

0385,096,1252,00385,096,1252,0 ⋅+≤≤⋅− p

327,0176,0 ≤≤ p al 95% de confiança

3)

Cas ASSR, [ ] ( ) ( ) 20136,0999

252,01252,0

000.50

000.11

1

ˆ1ˆ1ˆˆ =

−=

−−

−=

npp

Nn

pV i [ ]

[ ]8

ˆˆˆˆ

≈pV

pV

ASSR

BIETAPIC ,

per tant la precisió és molt millor en ASSR que en el mostreig bietàpic descrit.

Page 66: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 66 12/07/01 Profs. L. Montero & M. Bécue

3.18 Un de Mostreig a 2 Nivells

Una societat bancària té una xarxa de M=100 sucursals i decideix encarregar un estudi enprofunditat dels clients que hi tenen un compte, adreçat a avaluar l´impacte de llençament d´un nouproducte financer (N=100.000).

Hi han N titulars de comptes bancaris (Ni a cada sucursal per i = 1...M )1. Es tria una mostra ASSR de m=10 sucursals i per cada sucursal es trien ni clients de manera

proporcional al tamany Ni, amb una taxa de mostreig comuna del 10%. Doneu un estimador dela proporció de clients d’opinió favorable al nou producte financer (per punt i per interval al95%). Apliqueu les fòrmules a les dades numèriques de la taula adjunta.

2. Es tria una mostra de m=10 sucursals amb probabilitats desiguals segons el número de titularsde cada sucursal (Ni) . El segon nivell està constituit per mostres ASSR de tamany fix a cadasucursal (n0=100). Doneu un estimador de la proporció de clients d’opinió favorable al nouproducte financer (per punt i per interval al 95%). Apliqueu les fòrmules a les dadesnumèriques de la taula adjunta.

3. Es tria una mostra de m=10 sucursals amb probabilitats desiguals segons el número de titularsde cada sucursal (Ni) . El segon nivell està constituit per tots els clients de cada sucursal triadaal primer nivell(Ni) . Doneu un estimador de la proporció de clients d’opinió favorable al nouproducte financer (per punt i per interval al 95%). Apliqueu les fòrmules a les dadesnumèriques de la taula adjunta.

SUCURSAL Ni ni $pi N pi i$ ( )N p pi i i$ $1 − $ $TiT

M−

1 1400 140 0.25 350 262.5 4 900

2 800 80 0.25 200 150 6 400

3 900 90 0.30 270 189 100

4 1000 100 0.25 250 187.5 900

5 1600 160 0.26 416 307.84 18 496

6 800 80 0.22 176 137.28 10 816

7 900 90 0.30 270 189.0 100

8 1100 110 0.28 308 221.76 784

9 1200 120 0.25 300 225 400

10 1000 100 0.26 260 192.4 400

TOTAL 10 700 1 070 2.62 2 800 2 062.28 43 296

Page 67: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 67

Solució:

1)

És un mostreig bietàpic amb ASSR d´UPs amb taxa de mostreig 1,0100

101 ===

M

mf i una taxa de

mostreig de USs (ASSR) 1,02 =f . El tamany mostral de US és ∑=

==m

i 1i 1.070nn , a partir de les

dades de la taula. L’estimador de p, NN

p

M

ii∑

=== 1

ττ

, la proporció de clients favorables al

producte financer, notat p , la seva variança i el seu estimador responen a les fòrmules:

∑∑∑ ∑∑=== ==

=====m

iii

m

iii

m

i

n

jij

i

im

ii pN

NfpN

m

M

Ny

n

N

m

M

Nm

M

NNp

i

1111 11

ˆ1

ˆ11

ˆ1ˆ

ˆ ττ

[ ] [ ] [ ] [ ] ∑=

+

−====

M

iiZ

mN

MmM

m

N

MtV

N

MtMV

NV

NpV

12

2'

2

2

2

2

221

1ˆ τσ

τ

on [ ]ii VZ τ= depen del tipus de mostreig de les US i en el nostre cas,

[ ] [ ] [ ] ( )i

Yi

i

Y

i

iiiiiiii n

fNnN

nNyVNyNVVZ

2'

22

2'22 11ˆ

σστ −=

−====

I l’estimador de l’anterior variança resulta,

[ ] [ ] [ ] [ ] ( ) ∑∑==

+−=+

−====

m

ii

m

ii Z

fNm

sf

N

MZ

mN

M

m

s

M

m

N

MtV

N

MtMV

NV

NpV

112

2'

12

2

12

2'

2

2

2

2

22ˆ1

1ˆ1ˆˆ1ˆˆ1

ˆˆ τττ

on [ ]ii VZ τˆˆ = depen del tipus de mostreig de les US i en el nostre cas,

[ ] [ ] [ ] ( )i

Yi

i

Y

i

iiiiiiii n

sfN

n

s

N

nNyVNyNVVZ ii

2'

22

2'22 11ˆˆˆˆˆ −=

−==== τ

On cal tenir present,

ii

n

jij

i

ii yNy

n

N i

∑=

==1

τ , 1

ˆˆ

1

2

2'

=∑

=

mM

s

m

ii

ττ

τ i

( )( )ii

i

i

i

n

jiij

Y ppn

n

n

yy

s

i

iˆ1ˆ

111

2

2' −−

=−

−=

∑=

.

Aplicant les fòrmules a les nostres dades:

Page 68: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 68 12/07/01 Profs. L. Montero & M. Bécue

28,0800.21,0000.100

1ˆ1ˆ1ˆˆ

111

=⋅

==== ∑∑==

m

iii

m

ii pN

NfmM

NNp τ

τ

Preparant els termes que apareixen en l’estimador de la variança a partir de les dades de la taula,

7,810.49

296.43

1

ˆˆ

1

2

2' ==−

=∑

=

mM

s

m

ii

ττ

τ i

[ ] [ ] ( ) ( )ii

m

ii

i

ii

i

im

ii

m

iii

m

ii

m

ii ppN

ffN

f

n

pp

N

nN

fNpVN

fNV

fNZ

fNˆ1ˆ

1

1

ˆ1ˆ1

1ˆˆ1

ˆˆ1ˆ1

1212

2

1

2

12

1

2

12

112

112

−−

≈−−

−=== ∑∑∑∑∑

=====

τ

[ ] ( ) ( ) 222

2

112

2'

12

2

02,028,068.21,01,0000.100

1,0110

7,810.41,01

000.100

100ˆ11ˆˆ =

⋅⋅−

+−=+−= ∑=

m

iiZ

fNm

sf

N

MpV τ

L’interval de confiança al nivell del 95% per la proporció de clients favorables al nou productefinancer, p, és:

[ ] [ ]pVzpppVzp ˆˆˆˆˆˆ 975,0975,0 +≤≤−

02,096,128,002,096,128,0 ⋅+≤≤⋅− p

319,0241,0 ≤≤ p al 95% de confiança

Page 69: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 69

2)

La mostra resultant és autoponderada: les UPs (sucursals) es seleccionen amb probabilitatsdesiguals funció del tamany de les USs i a cada US es tria un número fix de unitats (clients)

1000 =n . Les fòrmules a aplicar per aquest mostreig bietàpic autoponderat són per l’estimació de

la variança de la proporció de clients favorables al nou producte financer idèntiques a lesindicades per un mostreig bietàpic per conglomerats (mostreig exhaustiu de totes del US de cadaUP): s´accepta l’aproximació, no és un resultat exacte.

Per tant les fòrmules de l´estimador de p i la seva variança són:

∑∑∑∑====

=====m

ii

m

jii

i

m

ii

i

m

i i

i pm

pNN

N

mNN

N

mNmNNp

h

1111

ˆ1

ˆ11

ˆ11ˆ11ˆ

ˆ τπττ

[ ] [ ] =

−≈+

−== ∑∑∑

===

M

iii

i

M

i i

iM

i i

i NppNNN

MN

Z

MNMNV

NpV

1

2

21

21

2

22ˆ111ˆ11ˆ1ˆ

πτ

πτ

τ

( )∑=

−=M

ii pp

M 1

2ˆ1

on [ ]ii VZ τ= i depen del tipus de mostreig de les US.

[ ] [ ] ( ) ( ) =

−=

−== ∑∑

==

m

iii

i

m

i i

i pNpNN

N

mmNmmNV

NpV

1

2

21

2

22ˆˆ

1

11ˆ

ˆ

1

11ˆˆ1

ˆˆ τπτ

τ

( ) ( )∑=

−−

=m

ii pp

mm 1

2ˆˆ1

1 on

N

N ii =π , 10010 0 == nim i i

n

jiij

ii pNy

n

Nˆˆ

0

10∑

=

==τ .

Aplicat a les nostres dades:

262,010

62,2ˆ

1ˆˆ

1

==== ∑=

m

iip

mNp

τ

[ ] ( ) ( ) 22

1

200786,00056,0

910

1ˆˆ

1

1ˆˆ =

⋅=−

−= ∑

=

m

ii pp

mmpV

L’interval de confiança al nivell del 95% per la proporció de clients favorables al nou productefinancer, p, és:

[ ] [ ]pVzpppVzp ˆˆˆˆˆˆ 975,0975,0 +≤≤−

0079,096,1262,00079,096,1262,0 ⋅+≤≤⋅− p

277,0247,0 ≤≤ p al 95% de confiança

Page 70: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 70 12/07/01 Profs. L. Montero & M. Bécue

3)

És un mostreig per conglomerats amb selecció de les UPs proporcionals al tamany de USs(clients).

∑∑∑∑====

=====m

ii

m

jii

i

m

ii

i

m

i i

i pm

pNN

N

mNN

N

mNmNNp

h

1111

1111111ˆˆ τ

πττ

[ ] [ ] ( )∑∑∑===

−=

−=

−==

M

ii

M

iii

i

M

i i

i ppM

NppNNN

MNMNV

NpV

1

2

1

2

21

2

22

11111ˆ1ˆ τπτ

τ .

[ ] [ ] ( ) ( ) =

−=

−== ∑∑

==

m

iii

i

m

i i

i pNpNN

N

mmNmmNV

NpV

1

2

21

2

22ˆ

1

11ˆ

1

11ˆˆ1

ˆˆ τπτ

τ

( ) ( )∑=

−−

=m

ii pp

mm 1

2ˆ1

1 on

N

N ii =π , 10=m i i

N

jiiji pNy

i

∑=

==1

τ .

Aplicat a les nostres dades:

262,010

62,21ˆˆ

1

==== ∑=

m

iip

mNp

τ

[ ] ( ) ( ) 22

1

2 00786,00056,0910

1

1ˆˆ =

⋅=−

−= ∑

=

m

ii pp

mmpV

L’interval de confiança al nivell del 95% per la proporció de clients favorables al nou productefinancer, p, és:

[ ] [ ]pVzpppVzp ˆˆˆˆˆˆ 975,0975,0 +≤≤−

0079,096,1262,00079,096,1262,0 ⋅+≤≤⋅− p

277,0247,0 ≤≤ p al 95% de confiança

Page 71: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 71

3.19 Els lectors rurals i urbans (un de post-estratificació)

Un institut de mostreig s´encarrega d´estudiar la població de lectors d´un setmanari. S’empra unprocediment de selecció de la mostra assimilable a un mostreig aleatori simple sense reposicióper triar n=2.000 individus més grans de 15 anys. Els resultats del sondeig s´ilustren en la taulasegüent:

Àmbit Rural Àmbit Urbà TotalLectors 64 476 540

No Lectors 576 884 1.460

Total 640 1.360 2.000

1. Estimeu per punt i per interval la proporció de lectors del setmanari.

2. Existeix un efecte “rural versus urbà” en las proporcions de lectors? Raonar la resposta.

3. Se sap que la proporció real d´habitants en zona urbana és del 75%. Proposeu un nouestimador per punt i per interval de la proporció de lectors del setmanari al conjunt de l’àmbit.

Solució:1)

L’extracció és ASSR i N és desconegut, per tractar-se d´una extracció ASSR sabem quel’estimador mitjana mostral és centrat [ ] YyE µ= o en termes de proporcions [ ] ppE =ˆ .L’estimador puntual de la proporció de lectors del conjunt de l’àmbit és,

27,0000.2

540ˆ ==p

Per calcular l´interval de confiança al 95% cal disposar de la variança de l´estimador p , [ ]pV ˆ o

en el seu defecte d´un estimador d´aquesta variança [ ]pV ˆˆ , on s’omet el terme d´exhaustivitat,donat que no es disposa del tamany de la població (ni del conjunt ni dels post-estrats),

[ ] [ ] ( ) ( )1

ˆ1ˆ

1

ˆ1ˆ11ˆˆˆ

2'

−−

≈−−

−=

−==

npp

npp

Nn

n

s

Nn

yVpV y

i en el nostre cas, [ ] ( ) 201,0999.1

27,0127,0ˆˆ =

−=pV d’on l´interval de confiança al 95% per la

proporció de lectors del conjunt de l’àmbit és,

[ ] ( )1

ˆ1ˆˆˆ,,ˆˆˆˆ 2ˆˆ

21ˆ21 −

−====→+≤≤−

−− n

ppsVppszsz θθαθα θθθθθθ

[ ] [ ]pVzpppVzp ˆˆˆˆˆˆ 975,0975,0 +≤≤−

01,096,127,001,096,127,0 ⋅+≤≤⋅− p

2896,02504,0 ≤≤ p al nivell de confiança del 95%.

2)

Page 72: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 72 12/07/01 Profs. L. Montero & M. Bécue

A cada subpoblació (post-estrat) es pot estimar la proporció de lectors del setmanari per intervali si els intervals són disjunts aleshores es pot concloure que l’efecte “zona rural versus zonaurbana” és estadísticament significatiu.

L’estimador puntual de la proporció de lectors de l’àmbit rural és,

1,0640

64ˆ1 ==p

L’estimador puntual de la proporció de lectors de l’àmbit urbà és,

35,0360.1

476ˆ 2 ==p

L’estimador de la variança de l’estimador de la proporció de lectors a cada subpoblació, [ ]hpV ˆˆ ,

on s’omet el terme d´exhaustivitat, donat que no es disposa del tamany de la població (ni delconjunt ni dels post-estrats) és,

[ ] ( ) ( )1

ˆ1ˆ

1

ˆ1ˆ1ˆˆ

−−

≈−−

−=

h

hh

h

hh

h

hh n

pp

n

pp

N

npV

En el nostre cas, [ ] ( ) 21 012,0

639

1,011,0ˆˆ =

−=pV d’on l´interval de confiança al 95% per la

proporció de lectors de l’àmbit rural és,

[ ] [ ]1975,0111975,01 ˆˆˆˆˆˆ pVzpppVzp +≤≤−

012,096,11,0012,096,11,0 1 ⋅+≤≤⋅− p

123,0077,0 1 ≤≤ p al nivell de confiança del 95%.

En la segona subpoblació, [ ] ( ) 22 013,0

1359

35,0135,0ˆˆ =

−=pV d’on l´interval de confiança al 95%

per la proporció de lectors de l’àmbit urbà és,

[ ] [ ]2975,0222975,02 ˆˆˆˆˆˆ pVzpppVzp +≤≤−

013,096,135,0013,096,135,0 2 ⋅+≤≤⋅− p

376,0324,0 2 ≤≤ p al nivell de confiança del 95%.

Els dos intervals de confiança tenen una intersecció nul.la per tant, l’efecte “rural versus urbà” ésestadísticament significatiu.

3)

Page 73: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 73

S’escau el càlcul d’un estimador post-estratificat per punt i per interval de la proporció de lectorsal conjunt de l’àmbit, a partir de les dades poblacional del repartiment “rural versus urbà” en elconjunt.

L’estimador post-estratificat de la proporció és centrat i té per expressió,

hh

hpst p

N

Np ˆˆ

2

1∑

=

=

Aplicat a les nostres dades, 2875,035,075,01,025,0ˆ =⋅+⋅=pstp

Per calcular l´interval de confiança al 95% cal disposar de la variança de l´estimador pstp ,

[ ]pstpV ˆ o en el seu defecte d´un estimador d´aquesta variança [ ]pstpV ˆˆ , que respon a la fórmula,

[ ] ( ) ( )hhh h

hhh

hpst pp

N

N

npp

N

N

npV ˆ1ˆ1

1ˆ1ˆ

1ˆˆ

2

1

2

12

−+−= ∑ ∑= =

i en el nostre cas,

[ ] ( ) ( ) 22

01,065,035,025,09,01,075,0000.2

165,035,075,09,01,025,0

000.2

1ˆˆ =⋅⋅+⋅⋅+⋅⋅+⋅⋅=pstpV

d’on l´interval de confiança al 95% per la proporció de lectors del conjunt de l’àmbit és,

[ ] [ ]pstpstpstpst pVzpppVzp ˆˆˆˆˆˆ 975,0975,0 +≤≤−

01,096,12875,001,096,12875,0 ⋅+≤≤⋅− p

307,0268,0 ≤≤ p al nivell de confiança del 95%.

Page 74: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 74 12/07/01 Profs. L. Montero & M. Bécue

4. LLISTA DE PROBLEMES D’EXAMEN

Examen de Muestreo y Recogida de Datos I. 23 enero 1996Primera parte

Teoría

1) Exponer brevemente los métodos de muestreo estratificados. Justificar el interés de laestratificación.

______________________________________________________________________________

Problema 1- exam1Una empresa de marketing quiere conocer el rendimiento que obtiene al utilizar un fichero dado declientes. Dicho fichero contiene N = 100 000 direcciones. Sea p el rendimiento del fichero a unaoferta de abono a precio reducido y con regalo de un reloj; p es la proporción de individuos queaceptarían la oferta si se hiciese a todos los clientes del fichero. Se nota ˆ p la estimación de phecha a partir de una muestra de n direcciones extraídas al azar y sin reposición de este fichero.Se sabe por experiencia que el rendimiento no puede pasar de un 3%.

1. ¿Qué tamaño de muestra se debe emplear para estimar p con una precisión absoluta de 0.5% yun nivel de confianza de 95%?

2. Misma pregunta para una precisión de 0.3% y para una precisión de 0.1%.

3. Se empleó una muestra de 10000 direcciones y se anotaron 230 abonos. Calcular un intervalode confianza de nivel 95% para el rendimiento p, así como para el número total de abonos alhacer la oferta a todos los clientes del fichero.

Problema 2-exam2Un ayuntamiento quiere estudiar, mediante sondeo, la participación de los habitantes mayores deedad a los actos culturales que organiza. En particular, se preguntará el número de actos a loscuales se participó el año anterior. Se piensa que es mejor estratificar la población según la edad.

Se decide observar una muestra de 500 personas. Se dispone de la información siguiente:

5. CLASE DE EDAD POBLACIÓN DESVIACIÓN-TIPO

de 18 a 24 años 5000 2.5

Page 75: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 75

de 25 a 50 años 10000 7

mayores de 50 años 1500012

1. Escoger entre un muestreo estratificado proporcional o un método estratificado óptimo.Justificar la elección.

2. Después del muestreo realizado según la conclusión obtenida en el apartado 1, se obtuvieronlos resultados siguientes:

Clase de edad Media Desviación-tipode 18 hasta 25 años 8.2 3.2

de 25 hasta 50 años 3.4 8.3

mayores de 50 años 2.1 11.7

Estimar por punto y por intervalo la media del número de actos presenciado por una persona deesta ciudad

Page 76: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 76 12/07/01 Profs. L. Montero & M. Bécue

Examen de Muestreo y Recogida de Datos I. 23 enero 1996Segunda parte

Teoría

1) Se quiere conocer mejor las condiciones de vida de los estudiantes de las universidadesde Barcelona. Por esta razón, se decide hacer una encuesta a una muestra representativa dedicha población. Se quiere, entre otras cosas, estimar la media de la cantidad de dineromensual de que disponen dichos estudiantes y el coste medio del gasto en vivienda de losestudiantes que no viven con sus padres.

2) a) Precisar cuál es la población a estudiar y las variables de interés.

b) Proponer un método de muestreo para obtener la muestra a entrevistar. Justificarlo.

c) Una vez observada la muestra, ¿les parece conveniente emplear un método deenderezamiento (llamado también de recomposición)? Si la respuesta es positiva, proponer uno.

En los apartados b) y c) se podrán suponer conocidas variables auxiliares en la población,precisando cuales son y como se obtiene dicho conocimiento.

d) Si se observan no-respuestas, ¿cuáles serán las consecuencias sobre los resultados?¿Cómo corregir dicho problema?

______________________________________________________________________________

Problema 1 –exam3

Se quiere estudiar el consumo medio de carne en la población de una región dada. Se consideraque en esta región los municipios se pueden dividir en municipios pequeños y municipiosmedianos. Se quiere obtener una muestra de tamaño total igual a 100 personas. Se prevéseleccionar dichas personas a dos niveles, después de formar dos estratos.

En el primer nivel se observarán 10 municipios, repartidos en los dos estratos de tal forma quecada estrato esté representado de forma aproximadamente proporcional a la población total delestrato. En el segundo nivel se seleccionaran 10 individuos en cada municipio seleccionado en elprimer nivel.

A continuación, se reproducen la población de los municipios incluidos en los dos estratos:

Page 77: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 77

Estrato 1: pequeños mun. Estrato 2: medianos mun.20 municipios 10 municipios

Mun. Efectivos. Ef. cum. Mun. Efectivos Ef. cum.1234567891011121314151617181920

2030203020303020151525352535303020202525

205070100120150180200215230255290315350380410430450475500

12345678910

70406070705050504040

70110170240310360410460500540

1. a) Determinar el tamaño de las submuestras a observar en cada uno de los dos estratos.

b) Se selecciona la muestra de municipios en el primer nivel proporcionalmente al tamaño.Suponiendo que se obtuvo "0.322" al seleccionar un numero al azar entre 0 y 1 para arrancar laselección de la muestra en estrato 1 y "0.456" para arrancar en en segundo estrato, decir quémuestras se obtienen.

2. Después, en cada municipio, se seleccionan al azar (ASSR) una muestra de 10 individuos.

En los dos estratos, las medias y desviaciones-tipo observadas son las siguientes (elconsumo de carne semanal se mide en gramos):

En el estrato 1:

1x = 500g2x = 520 g

3x = 490g4x = 550 g

5x = 600g

S1= 60g S2 = 80g S3= 80g S4= 60g S5= 80g

En el estrato 2:

1x = 800g2x = 620 g

3x = 590g4x = 800 g

5x = 600g

S1= 50g S2 = 70g S3= 70g S4= 50g S5= 50g

Estimar el consumo medio de carne en el conjunto de la región estudiada.

Problema 2-exam4Después de un muestreo aleatorio simple, de tamaño n=1000, efectuado en la población de

una región rural de 1 200 000 de habitantes mayores de 14 años (es esta la población

Page 78: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 78 12/07/01 Profs. L. Montero & M. Bécue

considerada), se quiere estimar la media del gasto mensual en libros efectuado por dichapoblación (la variable "gasto mensual" se denota mediante una L).

El gasto en libros se efectúa en la librería/ papelería del municipio o en otro lugar (porejemplo en las librerías de la capital vecina o por correo...)

En la muestra observada, el gasto medio mensual en libros es de 250 pta, habiéndosegastado en media 50 ptas en las librerías/ papelerías de su municipio.

Una encuesta exhaustiva a las librerías de dicha región permite conocer que el gasto totalmensual efectuado en ellas se eleva a 48000000 ptas Se considera que este gasto se puede atribuiren su totalidad a los habitantes de población a estudiar (la variable gasto en las librerías de laregión se denota R).

Con las notaciones clásicas, se mide en la muestra:

S'L,R=104 (covarianza muestral)

S'L2= 105

S'R2=2*103

1. Utilizando como estimador la media simple observada en la muestra, estimar el gasto mediomensual en libros de la población por punto y por intervalo.

2. Se supone que la variable de interés "gasto mensual en libros" (L) y la variable "gasto mensualen libros en librerías de la región" (R) están ligadas por la relación:

Li = a + b*Ri + Ui

con Ui pequeños, sin relación con Ri, y verificando U∑ i=0

Para mejorar la estimación anterior, se efectúa una recomposición del estimador y se utiliza unestimador por regresión.

a) Dar la expresión del estimador

b) Utilizarlo para predecir por punto y por intervalo el gasto medio en libros de la población

Se recuerdan las formulas siguientes: S'U2= S'L2 + ˆ ˆ b 2S'R2 - 2 ˆ ˆ b S'L,R

y: ˆ ˆ b =S'L,R/S'R2

c) Comparar la precisión obtenida en las dos estimaciones.

Page 79: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 79

Page 80: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 80 12/07/01 Profs. L. Montero & M. Bécue

Examen de Muestreo y Recogida de Datos I. 2 septiembre 1996Primera parte

TeoríaSe estudia una variable Y en una población. Explicitar lo que entiende por estimador, distribucióndel estimador y varianza del estimador.

_____________________________________________________________________________

Problema 1-exam5Para conocer el impacto que ha tenido una publicidad televisa destinada a lanzar un productonuevo, se hace, al siguiente día, una encuesta a una muestra seleccionada en todo el país. Seescoge una muestra ASSR de 1000 individuos mayores de 18 años, residentes habituales en elpaís. Entre estas 1000 personas, 132 han visto dicha publicidad.

1. Estimar por punto y por intervalo la proporción de personas mayores de 18 años que han vistola publicidad.

2. Sabiendo que en el país residen de forma habitual 12 500 000 individuos mayores de 18 años,estimar el total de personas mayores de 18 años que han visto la publicidad.

3. A parte del error de muestro, citar otras fuentes de error que pueden ocurrir en este caso.

Problema 2-exam6Un banco ofrece un nuevo tipo de libreta con una tasa de interés atractiva para las personas quedepositan dinero a plazo fijo. Para saber cuál va a ser la actitud de sus clientes, decide efectuar unsondeo. A los clientes del banco seleccionados, se les preguntará la cantidad que piensandepositar en el transcurso del año siguiente.

Se decide efectuar un sondeo estratificado proporcional, empleando la edad como criterio deestratificación. Se dispone de la información siguiente:

Clase de edad Nº de clientesde 18 hasta 25 años 500

de 25 a 50 años 10000

mayores de 50 años 15000

1. Se decide observar n = 1000 individuos. Calcular el tamaño de cada submuestra.

2. Repartiendo la muestra en los estratos según el cálculo anterior, se observa una muestra de1000 clientes. A los individuos seleccionados, se les pregunta la cantidad de dinero que piensandepositar en esta cuenta. Se obtienen los siguientes resultados (en pesetas):

Clase de edad media desviación-tipo

de 18 hasta 25 años 2 000 4000

de 25 hasta 50 años 34 000 22000

mayores de 50 años 132000 40000

a. Estimar por punto y por intervalo la cantidad media que piensan invertir los clientes.

Page 81: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 81

b. Estimar por punto y por intervalo la cantidad total que piensan invertir los clientes.

c. Después de observar esta primera muestra, si tuviesen que repetir la operación ¿lesparecería interesante escoger los tamaños de las submuestras de forma distinta, teniendoen cuenta que las desviaciones-tipo son muy distintas en los tres estratos? Sin hacercálculos, indicar como proceder.

Page 82: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 82 12/07/01 Profs. L. Montero & M. Bécue

Examen de Muestreo y Recogida de Datos I. 2 septiembre 1996Segunda parte

Teoría¿En qué casos es interesante hacer un sondeo a dos niveles? Precisar brevemente sus ventajas einconvenientes.

Problema 1-exam7Un instituto de sondeo debe estudiar la aceptación de cierto nuevo tipo de yoghurt en todo el país.Interesa, en particular, saber si el producto es conocido por las amas de casa. Para esto, seentrevistan a 1000 amas de casa. Se supone que se puede considerar la muestra como aleatoriasimple sin reposición. Además, no se han producido no-respuestas.

A petición del cliente que encargó el estudio, los resultados se reparten según la edad del ama decasa (< 40 años, >= 40 años) y, evidentemente, según el hecho de conocer el nuevo tipo deyoghurt. Se obtiene así la tabla siguiente:

< 40 años >= 40 años Total

Conocen el tipo deyoghurt

228 172 400

No conocen el tipo deyoghurt

92 508 600

Total 320 680 1000

1. Calcular el valor que toma el estimador de la proporción de amas de casa que conoce el nuevotipo de yoghurt en la muestra observada. Estimar el valor poblacional p mediante un intervalo deconfianza de nivel 95%.

2. Para estudiar si existe un efecto "edad", se puede efectuar un test de chi-2. Hacerlo y concluir.

3. Se sabe que la proporción de amas de casa menores de 40 años es en realidad el 30% del totalde las amas de casa. Utilizar esta información para efectuar una post-estratificación y proponeruna nueva estimación puntual de p.

4. Dar la expresión aproximada de la varianza del estimador utilizado en 3. ¿Qué se puede decirde dicha varianza al compararla con la varianza del estimador de la proporción empleado cuandoel muestreo es estratificado?

Problema 2-exam8Cierto fabricante de lavadoras quiere conocer el equipamiento de sus clientes en otros aparatos,en particular en lavaplatos. Tiene 100 000 clientes en su fichero de clientes. Dicho fichero vieneorganizado en 2000 "grupos" de 50 clientes que viven en zonas geográficas suficientementecontiguas. El fabricante pide que se haga un sondeo a 1000 clientes. Es interesante, por razoneseconómicas, efectuar dicho sondeo por conglomerados, aprovechando la organización del fichero.Por lo tanto, se decide extraer 20 grupos de clientes, mediante una extracción aleatoria simple sinreposición entre los 2000 grupos. A continuación, se entrevistan todos los clientes de los gruposseleccionados.

Se denota τi el número de poseedores de un lavaplatos en el grupo i. Se obtienen en la muestra lossiguientes resultados: Στi = 124 Στi 2= 1818

1. Estimar por punto y por intervalo el número total de poseedores de lavaplatos entre los clientes

Page 83: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 83

de la marca de lavadoras.

2. Estimar por punto y por intervalo la proporción p de poseedores de lavaplatos entre losclientes. En los dos casos, emplear un nivel de confianza del 95%.

Page 84: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 84 12/07/01 Profs. L. Montero & M. Bécue

Examen de Muestreo y Recogida de Datos I.12 noviembre 1996

Teoría.1) Presentar en dos hojas máximo los métodos de muestreo estudiados. Precisar para cada uno deellos la información necesaria para poder emplearlo.

2) Explicar el método de muestro con probabilidades desiguales. Precisar su interés y sus límites.

Problema 1-exam9

Un periódico quiere conocer mejor a los gustos de los habitantes de la región para mejorar sudifusión. En dicha región, viven 1 000 000 de habitantes mayores de edad.

Por esta razón, se decide efectuar una encuesta a una muestra de esta población e interrogar a losindividuos seleccionados sobre sus características socioeconómicas, como la edad, el sexo, sunivel de educación y sus ingresos mensuales por una parte, y sobre temas relacionados con lecturade periódicos por otra.

1. Se escoge una muestra aleatoria simple sin reposición de 2000 individuos. Por indicaciones delcliente, se presentan a los resultados obtenidos, repartiendo a los 2000 individuos en tres gruposde edad. Se obtiene lo siguiente:

Grupo de edad Efectivos Ingresos medios Desviación-tipo18-29 años 600 143000 pta 43 000 pta

30-50 años 600 189 000 pta 22 000 pta

> 50 años 800 160 000 pta 82 000 pta

a. Estimar la verdadera media de los ingresos por punto y por intervalo.

b. Estimar por punto y por intervalo la proporción de personas menores de 30 años en lapoblación estudiada.

2. Al año siguiente, el mismo periódico quiere repetir el estudio. A partir de la informaciónobtenida en el primer año, escoger un método de muestreo pertinente y diseñar la muestracorrespondiente (n= 2000). Suponiendo que las proporciones de personas en cada categoría deedad obtenidas en la muestra son parecidas a las proporciones poblacionales, indicar cuál será laprecisión que se puede obtener en esta segunda muestra al estimar los ingresos medios.

Comparar la precisión así esperada con la precisión obtenida el primer año. Explicar el porquéde la diferencia encontrada.

3. En la muestra recogida el segundo año según el método escogido, se obtiene:

Grupo de edad Número de lectoreshabituales

de periódicos

Page 85: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 85

18-29 años 220

30-50 años 130

> 50 años 510

Estimar por punto y por intervalo el número de lectores en la población.

Problema 2-exam10

Se desea conocer el número medio de cooperativas de consumo que funcionan en una determinadacomarca de 10 municipios. Se piensa que dicho número tiene relación estrecha con el número dehabitantes, conocido gracias a un censo reciente.

Municipio Nº habitantesA 12000

B 15000

C 3000

D 40000

E 60000

F 10000

G 10000

H 25000

I 30000

J 120000

Dado dicho conocimiento, escoger un método de selección de la muestra pertinente. Sabiendo quedesea una muestra de tamaño igual a 3, y que el número escogido entre 0 y 1, que se debe utilizarpara arrancar la selección vale 0.7, decir cuál es la muestra seleccionada.

Page 86: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 86 12/07/01 Profs. L. Montero & M. Bécue

Examen de Muestreo y Recogida de Datos I. 21 enero 1997Primera parte

TeoríaExponer brevemente el método de muestreo con probabilidades desiguales. Emplear un pequeñoejemplo.

_____________________________________________________________________________Problema 1-exam11Para conocer el impacto que ha tenido una campaña de publicidad mediante carteles pegados enlos pasillos del metro, se hace, después de un mes de exposición, una encuesta por muestreo. Seescoge una muestra aleatoria simple sin reposición de 1000 individuos mayores de 18 años,residentes habituales en dicha ciudad. Entre otras cosas, se les pregunta si han visto los carteles.Entre estas 1000 personas entrevistadas, 132 recuerdan haberlos visto.

1. Estimar por punto y por intervalo la proporción de personas mayores de 18 años que han vistodichos carteles.

2. Sabiendo que en la ciudad residen de forma habitual 1 000 000 de individuos mayores de 18años, estimar el total de personas mayores de 18 años que han visto la publicidad.

3. A parte del error de muestreo, citar a fuentes de error que pueden haber ocurrido en este caso.

4. ¿Qué tamaño de muestra se debería emplear para estimar p con una precisión absoluta de 0.5%y un nivel de confianza del 95%?

Problema 2-exam12Se desea efectuar un estudio sobre las bajas laborales en las empresas de la ciudad.Concretamente, se desea estudiar la media de bajas por empresa al año. A partir de los registrosmunicipales, se conoce el número total de empresas, así como su tamaño aproximado por lascaracterísticas del registro:

Tamaño de la empresa Número de empresas

Menos de 10 empleados 400

De 10 a 99 empleados 350

De 100 a 499 200

500 empleados y más 50

1. Indiquen cuál es la población estudiada, y cuál es la variable de interés.

2. Escoger un método de muestreo estratificado. Justificar la elección.

3. En la muestra, seleccionada según la conclusión obtenida en el apartado 1, se obtuvieron losresultados siguientes:

Tamaño de la empresa Media de Bajas laborales Desviación-tipo muestral Menos de 10 empleados 5 1.5

De 10 a 99 empleados 20 8

Page 87: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 87

De 100 a 499 120 16

500 empleados y más 600 100

Estimar por punto y por intervalo la media de bajas laborales por empresa.

3. Para una próxima encuesta por sondeo en la misma población ¿aconsejaría otro método demuestreo estratificado? Justificar la respuesta.

4. Estimar la varianza del estimador que se emplearía en esta segunda muestra, tomando en cuentala decisión tomada en 3.

Page 88: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 88 12/07/01 Profs. L. Montero & M. Bécue

Examen de Muestreo y Recogida de Datos I. 21 enero 1997Segunda parte

Teoría

Explicar, en una hoja máximo, el método de recomposición llamado postestratificación. Enparticular expresar claramente cual es la finalidad perseguida y los fundamentos del método.

Comparar con la estratificación a priori.

_____________________________________________________________________________Problema 1 –exam13

En una ciudad dada, se quiere estudiar el número total de espectadores habituales de películas (seconsidera un espectador habitual a una persona que va al menos 2 veces al mes a ver a unapelícula en una sala de cine). La ciudad tiene 600000 habitantes mayores de edad y viene divididaen 100 distritos. Se decide observar una muestra a dos niveles: en el primer nivel se escogen 5distritos (según una selección ASSR); en el segundo nivel, se extrae, en cada distritoseleccionado, una muestra aleatoria simple de tamaño 100. Se observa:

Distritos seleccionados.Identificador

del distrito

Habitantes

mayores de edad

Tamaño

muestra

Número

de espectadoreshabituales

En la muestra.

D1

D24

D41

D67

D92

8000

6000

8000

8000

6000

100

100

100

100

100

20

50

70

20

30

1. a) Expresar de forma explícita la variable de interés e indicar los valores que puede tomar.

b) Estimar el total de espectadores habituales de películas de cine en la población estudiada, porpunto y por intervalo.

2. Estimar la verdadera proporción de espectadores de películas en dicha ciudad, por punto y porintervalo.

Problema 2-exam14Se desea conocer la media del gasto anual en alimentación efectuada por los hogares en una regióncon 500 000 hogares. Dicho gasto se efectúa en hipermercados y en tiendas de barrio.

Se quiere utilizar el conocimiento del gasto anual en alimentación realmente efectuado en loshipermercados para recomponer la estimación. En efecto, es fácil conocer dicho gasto totalmediante una encuesta exhaustiva a los hipermercados de la región. Y es razonable suponer que la

Page 89: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 89

variable de interés "gasto anual en alimentación" (A) y la variable "gasto anual en alimentación enhipermercados" (H) están ligadas por la relación:

Ai = R*Hi + Ui

con Ui pequeños, sin relación con Hi, y verificando U∑i=0

Por lo tanto, se decide observar una muestra aleatoria simple de tamaño n=1000, preguntando alos hogares cuál es su gasto anual en alimentación en hipermercados y en tiendas de barrio.

En la muestra observada, el gasto medio anual en alimentación es de 250000 pta por hogar,habiéndose gastado en media 50000 pta en las tiendas de barrio (y el resto en hipermercados).

Se mide también en la muestra:

SA2=2.1010

SH2=2*108

SA,H=109 (covarianza muestral)

La encuesta exhaustiva a los hipermercados permite conocer que el gasto total anual efectuado enellos se eleva a un total de 11*1010 pta

1. Explicitar cuál es la variable de interés, y cuál es el individuo estadístico sobre el cual seobserva.

2. Utilizando como estimador la media simple observada en la muestra, estimar el gasto medioanual en alimentación de la población por punto y por intervalo.

3.Para mejorar la estimación anterior, enderezar utilizando un estimador de ratio (llamado tambiénde cociente)

a) Dar la expresión del estimador

b) Utilizarlo para predecir por punto y por intervalo el gasto anual medio en alimentación de lapoblación estudiada

c) Comparar la precisión obtenida en las dos estimaciones.

BA yyR /ˆ =

Page 90: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 90 12/07/01 Profs. L. Montero & M. Bécue

Examen de Muestreo y Recogida de Datos I. Julio 1997Primera parte

TeoríaEn la entrega de los resultados de un estudio estadístico, se debe explicar al cliente lo que es unintervalo de confianza. ¿Qué explicación propone?

Problema-exam15En una auditoría, se trata de verificar los saldos reales de 14133 cuentas de los clientes de unaempresa (saldos no nulos). El sistema informático puede ofrecer en cualquier momento los saldoscontables de todos los clientes. No obstante, dicho saldo contable puede diferir del saldo real pordiversas razones. Para conocer el saldo real, se debe revisar el dossier completo del cliente, loque es un trabajo costoso. El auditor pide un estado de cuentas en el que debe figurar:

- los saldos deudores y acreedores

- los saldos deudores superiores a 50000 pta por una parte, y menores o iguales a 50000pta por otra parte.

Se obtiene:

- 865 saldos contables acreedores

- 13226 saldos contables deudores, con un saldo inferior o igual a 50000 pta

- 42 saldos contables deudores, con un saldo superior a 50000 pta

El auditor decide estudiar íntegramente los 42 saldos deudores con un saldo superior a 50000 ptay, de los otros saldos deudores, sólo una muestra. De los saldos así seleccionados, se van arevisar los dossiers correspondientes y establecer los saldos reales.

El presente problema trata del diseño de dicha muestra. El objetivo del muestreo consiste encontrolar el valor real de los saldos deudores, cuyo saldo contable es inferior a 50000 pta Sedesea conocer dicho total con una buena precisión; se decide estratificar las cuentas en cuatroestratos según los valores contables. En función de los valores contables, decide efectuar 4estratos, según el importe del saldo en 4 categorías:

Estrato Saldo entre(pesetas)

Efectivo Saldo contabletotal

(pesetas)

Desviación-tipo(pesetas)

1

2

3

4

0-5000

5001-10000

10001-25000

25001-50000

1124

2741

5815

3546

2 926 300

21 034 800

101 786 500

132 548 200

820

1560

3460

8810

Total 13226 258 295 800 σ’x=?

1.a) Calcular σ'x, desviación-estandar corregida poblacional de la variable X, valor contable delsaldo (se denotan los valores Xi, i=1,...,13226). (El cálculo preciso resulta ser σ'x=12970 pesetas)

b) Se supone que σ'y, desviación-tipo de la variable Y, valor real del saldo (Yi, i=1,...,13226)tiene un valor próximo a σ'x. Si se emplea un muestreo ASSR, calcular el tamaño de muestranecesario para obtener una estimación de µY con una precisión de ± 500 pta y un nivel deconfianza de 95%. (Se puede aproximar (N-n)/Nn por 1/n)

Page 91: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 91

2. a) Se supone que los costes de muestreo son iguales entre los diferentes estratos. Calcular larepartición óptima de una muestra estratificada de tamaño n, en función de n y de los.σ'yh

b) Suponiendo que los σ'yh no son muy distintos de los σ'xh, calcule la repartición óptima de lamuestra en los cuatro estratos definidos anteriormente, en función de n.

Nota: se obtiene ΣN h σ'xh = 56557800

Page 92: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 92 12/07/01 Profs. L. Montero & M. Bécue

Examen de Muestreo y Recogida de Datos I. julio 1997Segunda parte

Teoría

Explicar lo que se entiende por sondeo a probabilidades desiguales. Para esto, emplear unpequeño ejemplo.

5.1 Problema1-exam16Un club de excursionistas cuenta con 40000 socios. Se desea conocer el número de socios que sonabonados a una determinada revista.

Existe una ficha para cada socio del club, y el fichero viene clasificado por orden geográfico demanera que las zonas geográficas se siguen las unas a las otras.

Se decide hacer una encuesta a 800 socios, tomados en conglomerados de 10. Así, se ahorrangastos de transporte, dado que un encuestador puede realizar 10 entrevistas al día, por términomedio, si los entrevistados viven en una área geográfica cercana.

Se pueden considerar las M=40000 fichas cono una base compuesta por N=4000 conglomeradosde M0=10 unidades cada uno.

Se selecciona, con un procedimiento ASSR, 80 conglomerados. En cada conglomerado,

se observa Yi, el número de socios abonados a la revista (0≤Yi≤10). Se obtiene:

ΣYi = 370 ΣYi2=2536

a) Calcular un intervalo de confianza al 95% para el número total de abonados a la revista entrelos socios del club

b) Sea p, la proporción de socios abonados a la revista. Estimar p, por punto y por intervalo.

c) ¿Qué se puede decir de la precisión de la estimación obtenida con este tipo de muestreo, encomparación con la precisión obtenida con un muestreo ASSR? Argumentar la respuesta.

Problema2-exam17

Se desea conocer el importe medio de la compra mensual en alimentación de los clientes delsupermercado ABA. (La compra mensual en alimentación se denota C). Dada la importancia delsupermercado, la población de clientes es muy grande.

Dichos clientes compran en ABA (gasto conocido para toda la población a estudiar; dicho gastose denota D) y compran en otros lugares (mercados, tiendas de barrio, otros supermercados, etc.).Gracias al servicio clientes de ABA, se sabe que la compra media mensual en alimentaciónefectuado en ABA por sus clientes asciende a 14800 ptas

Se observa una muestra ASSR de 1000 clientes. En dicha muestra, el gasto medio mensual enalimentación de los individuos asciende a 20000 ptas, habiéndose gastado 15000 ptas por términomedio en ABA. Además, en la muestra se observa:

SC;D = 9*107

SC2=108

SD2=108

Page 93: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 93

1. Utilizando como estimador la media simple observada en la muestra, estimar el importe mediomensual en alimentación de la población de clientes de ABA (por punto y por intervalo, nivel deconfianza del 90%)

2. Se supone que la variable de interés “importe de la compra mensual en alimentación” (C) y lavariable auxiliar “importe de la compra mensual en el supermercado ABA” (D) están ligadas porla relación:

Ci= R*Di+ Ui

con R, un coeficiente de proporcionalidad y Ui un término pequeño, sin relación con Di, yverificando ΣUi = 0.

Para mejorar la estimación anterior, se decide utilizar la información aportada por la variableauxiliar D.

a) Dar la expresión de R en la población

b) Dar la expresión del estimador de R, y la estimación de R en la muestra

c) Dar la expresión del estimador de µC que utiliza la información auxiliar (se denomina estimadorde cociente)

d) Estimar µC por punto y por intervalo, utilizando este estimador.

e) Comparar la precisión de las estimaciones efectuadas en 1 y 2.d

Page 94: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 94 12/07/01 Profs. L. Montero & M. Bécue

Examen de Muestreo y Recogida de Datos I. Noviembre 1997Segunda parte

TeoríaPresentar en una hoja máximo los métodos de muestreo estudiados. Indicar, en particular, lainformación que se debe conocer para utilizar cada uno de los métodos. Precisar las ventajas einconvenientes.

Problema1-exam18En una ciudad de 1 000 000 de habitantes mayores de 15 años, se debe estimar la proporción y elnúmero de asistentes habituales a conciertos entre dichos habitantes. Por esto, se observa unamuestra ASSR de 1000 habitantes mayores de 15 años; 150 se declaran asistentes habituales aconciertos.

Estimar, por punto y por intervalo, la verdadera proporción y el total de espectadores habituales aconciertos.

Problema2-exam19Para conocer el número medio de empleados por empresa de una región muy industrial, se deciderealizar una encuesta por muestreo.

En esta región, existen 100 000 empresas que se reparten en 80000 pequeñas (0-50 empleados),18000 medianas (51-1000 empleados) y 2000 grandes (más de 1000 empleados). Se extrae unamuestra de 1000 empresas, empleando un sondeo estratificado con alocación proporcional. Seobtiene:

Estrato Empresas En la poblaciónEfectivos

En la muestra,número mediode empleados

En la muestra,desviación-tipo

corregida

123

pequeñas

medianas

grandes

80000

18000

2000

12

70

1120

5

15

100

1.a) Decir cual ha sido el efectivo de cada submuestra

b) Estimar puntualmente la verdadera media de empleados por empresa en la región estudiada.Estimar la varianza del estimador de la media. Estimar por intervalo la verdadera media deempleados por empresa en la región estudiada, con un nivel de confianza de nivel 95%.

2. A partir de la información recogida en la encuesta efectuada, decidir si será mejor seleccionarla próxima muestra, mediante un sondeo estratificado con alocación óptima.

a) ¿Cuales serían los efectivos de las submuestras?

b).Estimar cual sería la varianza del estimador correspondiente

c) Comparar con la varianza del estimador empleado en 1.

Page 95: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 95

d) Sin hacer cálculos, ¿qué se puede decir de las varianzas de los estimadores empleados en 1. y2., compararándolos con la varianza del estimador que se habría empleado si se hubiese extraídouna muestra con un sondeo ASSR?.

3. Se quiere aprovechar esta encuesta para estimar la proporción de empleados mayores de 45años. Decir si la alocación escogida en 2. será también óptima para estimar dicha proporción.Argumentar la respuesta.

Page 96: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 96 12/07/01 Profs. L. Montero & M. Bécue

Examen de Muestreo y Recogida de Datos I. Diciembre 1997Segunda parte

Problema1-exam20La sección de perfumes de lujo de unos grandes almacenes tiene un fichero de 50000 clientes“selectos” (compradores potenciales de perfumes de lujo) en una provincia dada. Se deseaconocer el número de dichos clientes que compran habitualmente productos de lujo (en general).

El fichero viene ordenado por zonas comerciales. Cada zona comercial contiene 500 clientes“selectos”. Se decide hacer una encuesta a una muestra de 1000 clientes “selectos”, a dos niveles,para ahorrar gastos de transporte. En el primer nivel, se seleccionan con un procedimiento ASSR,10 zonas comerciales. En el segundo nivel, se seleccionan las unidades estadísticas con unprocedimiento ASSR, con la misma tasa de sondeo en cada unidad primaria.

1. ¿Cuántas unidades secundarias se extraen de cada unidad primaria seleccionada?

2. En las 10 zonas comerciales seleccionadas, se obtiene el número de personas de la muestra quedeclaran comprar productos de lujo:

Zona 1 2 3 4 5 6 7 8 9 10

Compradores lujo 22 33 20 12 45 52 8 10 30 40

a) Precisar cuál es la variable de interés

b) Calcular un intervalo de confianza al 95% para el número total de compradores de productosde lujo existentes en esta población de clientes “selectos”.

c) Sea p, la proporción de clientes “selectos” compradores de productos de lujo en estapoblación. Estimar p, por punto y por intervalo.

d) ¿Qué se puede decir de la precisión de la estimación obtenida con este tipo de muestreo, encomparación con la precisión obtenida con un muestreo ASSR aun sólo nivel?

e) ¿Cómo mejorar la precisión de la estimación, conservando una extracción a 2 niveles?

Problema2-exam21Se estudia la compra/no compra de un cierto producto alimentario en los hogares de una provinciade 800 000 hogares. Para esto se observa una muestra ASSR de 500 hogares.

En la muestra, se observa que la media anual gastada en este producto es de 6000 pta, con unadesviación-tipo de 2140 pta

1. Estimar el gasto medio anual de la población de hogares de la provincia.

b. Se sabe que la provincia está dividida en una zona rural (35% de la población de hogares) yuna zona urbana. Se observa en la muestra:

efectivos en lamuestra

media desviación-tipo

Zona rural 150 4133 pta 1000 pta

Zona urbana 350 6800 pta 2000 pta

2. Utilizar este conocimiento y

a. explicar cómo se puede mejorar la estimación hecha en 1. Explicitar la expresión delestimador.

Page 97: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 97

b. Con este segundo estimador, estimar la compra media por punto

c. Dar una estimación aproximada de la varianza de este segundo estimador.

d. Utilizando dicha aproximación, dar una estimación por intervalo de la compra media.

Page 98: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 98 12/07/01 Profs. L. Montero & M. Bécue

Examen de Muestreo y Recogida de Datos I. Enero 1998Segunda parte

Problema-exam22

Un banco ofrece un nuevo tipo de libreta con una tasa de interés atractiva para las personas quedepositan dinero a plazo fijo. Para saber cuál va a ser la actitud de sus clientes, decide efectuar unsondeo. A los clientes del banco seleccionados, se les preguntará la cantidad que piensandepositar en el transcurso del año siguiente.

Se decide efectuar un sondeo estratificado proporcional, empleando la edad como criterio deestratificación. Se dispone de la información siguiente:

Clase de edad Nº de clientesde 18 a 24 años 50000

de 25 a 50 años 100000

mayores de 50 años 150000

1. Se decide observar n = 1000 individuos. Calcular el tamaño de cada submuestra.

2. Se observa una muestra de 1000 clientes, repartiendo la muestra en los estratos según el cálculoefectuado en 1.

A los individuos seleccionados, se les pregunta la cantidad de dinero que piensan depositar eneste tipo de cuenta. Se obtienen los siguientes resultados (en pesetas):

Clase de edad media (en ptas) desviación-tipo(en ptas)

de 18 hasta 24 años 2000 4000

de 25 hasta 50 años 34000 22000

mayores de 50 años 132000 40000

a. Estimar por punto y por intervalo la cantidad media que piensan invertir los clientes del banco.

b. Estimar por punto y por intervalo la cantidad total que piensan invertir los clientes.

3. a. Después de observar esta primera muestra, si tuviesen que repetir la operación ¿les pareceríainteresante escoger los tamaños de las submuestras de forma distinta? Justificar la respuesta.

b. Calcular el tamaño de las submuestras correspondientes al método propuesto.

c. Sin hacer ningún tipo de cálculo, decir en qué sentido se modificaría la varianza del estimadorde la media.

Page 99: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 99

Page 100: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 100 12/07/01 Profs. L. Montero & M. Bécue

Examen de Muestreo y Recogida de Datos I. 13 enero 1998Segunda parte

Problema 1-exam23Se quiere estudiar el consumo medio en productos electrónicos de los municipios de unadeterminada región. Se decide extraer una muestra de 5 municipios, mediante una extracciónproporcional al tamaño. En efecto, se conoce la población de los municipios incluidos en laregión, indicada en la siguiente tabla:

Región.20 municipios

Mun. Efectivos.1234567891011121314151617181920

2030203020303020151525352535303020202525

1 a) Justificar la elección del método de sondeo

b) Suponiendo que se obtuvo "0.322" al seleccionar un numero al azar entre 0 y 1 paraarrancar la selección de la muestra, decir qué municipios pertenecen a la muestra.

c) Calcular la probabilidad de pertenecer a la muestra asignada a cada municipio

2. En los 5 municipios seleccionados, se ha observado el siguiente gasto:

Muestra(según orden de extracción)

Gastos en productoselectrónicos

1 3000002 5000003 4000004 2000005 600000

Estimar el consumo medio en productos electrónicos el conjunto de la región estudiada.

Page 101: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

Profs L. Montero & M. Bécue 12/07/01 pàg. 101

Problema 2-exam24

Se desea estudiar la media del gasto anual en libros efectuada por las personas mayores de 14años en una corporación municipal de 5 000 000 habitantes mayores de dicha edad. Dicho gastose efectúa en librerías y en quioscos de periódicos.

Se puede utilizar el conocimiento del gasto anual en libros realmente efectuado en las libreríaspara mejorar la estimación. Es posible conocer dicho gasto total mediante una colecta deinformación exhaustiva a los libreros de la ciudad. Se supone que la variable de interés "gastoanual en libros" (L) y la variable "gasto anual en libros en quioscos" (Q) están ligadas por larelación:

Li = R*Qi + Ui

con Ui pequeños, sin relación con Qi, y verificando U∑i=0

Por lo tanto, se decide observar una muestra aleatoria simple de tamaño n=1000, preguntando apersonas cuál es su gasto anual en libros en librerías y en quioscos.

En la muestra observada, el gasto medio anual en libros es de 25000 ptas por persona habiéndosegastado en media 5000 ptas en quioscos (y el resto en librerías).

Se observa en la muestra:

SL2=2.1010

SQ2=2*108

SL,Q=109 (covarianza muestral)

La encuesta exhaustiva a los libreros permite conocer que el gasto total anual efectuado en laslibrerías se eleva a un total de 11*1010 pta

1. Explicitar cuál es la variable de interés, y cuál es el individuo estadístico sobre el cual seobserva.

2. Utilizando como estimador la media simple observada en la muestra, estimar el gasto medioanual en alimentación de la población por punto y por intervalo.

3.Para mejorar los resultados anteriores, recomponer la estimación y utilizar un estimador de ratio(llamado también de cociente)

a) Dar la expresión del estimador

b) Utilizarlo para predecir por punto y por intervalo el gasto anual medio en alimentación de lapoblación estudiada

c) Comparar la precisión obtenida en las dos estimaciones.

Page 102: DIPLOMATURA D’ESTADÍSTICA CURS 2001-2002 Q1lmontero/lmm_tm/quamr1_po.pdfMOSTREIG I RECOLLIDA DE DADES 1 Problemes CURS 2001-2002 Q1 Profs L. Montero & M. Bécue 12/07/01 pàg. 5

MOSTREIG I RECOLLIDA DE DADES 1 ProblemesCURS 2001-2002 Q1

pàg. 102 12/07/01 Profs. L. Montero & M. Bécue

Examen de Muestreo y Recogida de Datos I.10 julio 1998

Problema 1

5.1.1 Ver exam9

Problema 2Ver exam10

5.2 Problema 3Ver exam7

Problema 4

5.2.1 Ver exam8