capítulo 8 contraste de hipótesis i semestre 2006cvalle/ili-280/cap8-ii-07-2pp.pdf ·...

34
Universidad Técnica Federico Santa María 1 Capítulo 8 Capítulo 8 Contraste de Hipótesis Contraste de Hipótesis I Semestre 2006 I Semestre 2006 Profesor: Carlos Valle Página: www.inf.utfsm.cl/~cvalle e-mail: [email protected] 2 Contraste de Hipótesis Contraste de Hipótesis Contrastar una Hipótesis Estadísticamente es juzgar si cierta propiedad supuesta para una población es compatible con lo observado en una muestra de ella. Tipos Tipos de de Hipótesis Hipótesis: Hipótesis Hipótesis Alternativas Alternativas Hipótesis Hipótesis Anidadas Anidadas Alternativas Alternativas : Hipótesis A v/s : Hipótesis A v/s Hipótesis B, donde A y B no Hipótesis B, donde A y B no pueden cumplirse pueden cumplirse simultáneamente. simultáneamente. Anidadas Anidadas : Hipótesis A y B, : Hipótesis A y B, donde A es un caso especial de donde A es un caso especial de B. B.

Upload: others

Post on 03-Mar-2020

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf · 2009-11-05 · Estadística de Prueba : Es una función de la muestra. Interesa que contenga

Universidad Técnica Federico Santa María

1

Capítulo 8Capítulo 8

Contraste de Hipótesis Contraste de Hipótesis

I Semestre 2006I Semestre 2006

Profesor: Carlos VallePágina: www.inf.utfsm.cl/~cvallee-mail: [email protected]

2

Contraste de HipótesisContraste de Hipótesis

� Contrastar una Hipótesis Estadísticamente es juzgar si cierta propiedad supuesta para una población es compatible con lo observado en una muestra de ella.

TiposTipos dede HipótesisHipótesis::

�� HipótesisHipótesis AlternativasAlternativas

�� HipótesisHipótesis AnidadasAnidadas

AlternativasAlternativas: Hipótesis A v/s : Hipótesis A v/s

Hipótesis B, donde A y B no Hipótesis B, donde A y B no

pueden cumplirse pueden cumplirse

simultáneamente. simultáneamente.

AnidadasAnidadas: Hipótesis A y B, : Hipótesis A y B,

donde A es un caso especial de donde A es un caso especial de

B.B.

Page 2: Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf · 2009-11-05 · Estadística de Prueba : Es una función de la muestra. Interesa que contenga

Universidad Técnica Federico Santa María

2

3

Contraste de HipótesisContraste de Hipótesis

� Hipótesis Simple: El parámetro tiene un único valor.

� Hipótesis Compuesta: El parámetro tiene varios valores.

� Hipótesis Nula: (H0) es la hipótesis que se contrasta. Esta hipótesis se mantendrá a no ser que los datos indiquen lo contrario. Esta hipótesis nunca se considera probada aunque puede ser rechazada por los datos.

� Hipótesis Alternativa: (H1) es la hipótesis contrapuesta a H0.

4

Elementos de una Prueba de HipótesisElementos de una Prueba de Hipótesis

1.- Hipótesis Nula (H0), Hipótesis Alternativa.2.- Estadística de Prueba (Discrepancia).3.- Región de Rechazo (Región Crítica).4.- Regla de Decisión.

Page 3: Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf · 2009-11-05 · Estadística de Prueba : Es una función de la muestra. Interesa que contenga

Universidad Técnica Federico Santa María

3

5

Definiciones BásicasDefiniciones Básicas

� Prueba (Contraste) de Hipótesis Estadística: es una regla γ (Procedimiento) para decidir si rechazamos una hipótesis H0.

� Estadística de Prueba: Es una función de la muestra. Interesa que contenga el máximo de información sobre H0. Es en base a la información contenida en esta función que decidiremos respecto de la aceptación o rechazo de H0.

� Región Crítica: Define los valores del estadístico de Prueba para los cuales se contradice H0.

6

Definiciones BásicasDefiniciones Básicas

� Regla de Decisión: Procedimiento que acepta o rechaza H0, dependiendo del valor del estadístico de Prueba.

� Nivel de Significación: Este valor α determina un valor crítico c : P(d>c|H0)=α. El procedimiento de selección de “c” a partir de α tiene varias críticas:� El resultado del Test depende de la elección de α.� Sólo el resultado del Test( A/R) no permite diferenciar el grado de evidencia que la muestra indica a favor o en contra de H0.

Page 4: Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf · 2009-11-05 · Estadística de Prueba : Es una función de la muestra. Interesa que contenga

Universidad Técnica Federico Santa María

4

7

Contraste de HipótesisContraste de Hipótesis

� Consideremos

� Sea Θ: Estado de Naturaleza Θ = ΘΘ0 ∪ ΘΘ1χ: Espacio de Información χ = C ∪ CC

� Regla de Decisión: x ∈ C ⇒ H0 es Fx ∈ CC ⇒ H0 es V

� Error tipo I: Rechazar H0 (cuando es verdadero)� P(Error tipo I) = Pθ ( C ) = α(θ) , θ ∈ Θ0

� Error tipo II: Aceptar H0 (cuando es falso)� P(Error tipo II) = Pθ (CC) = β(θ) , θ ∈ Θ1

� Fijada la región crítica C podemos definir:πC: Θ [0,1] , πC(θ) = Pθ (C) Función Potencia

HH00: : θθθθθθθθ ∈∈∈∈∈∈∈∈ ΘΘΘΘΘΘΘΘ00 v/sv/s HH11: : θθθθθθθθ ∈∈∈∈∈∈∈∈ ΘΘΘΘΘΘΘΘ11

8

Contraste de HipótesisContraste de Hipótesis

C

cC

HH00: : θθθθθθθθ = = ΘΘΘΘΘΘΘΘ00 v/sv/s HH11: : θθθθθθθθ = = ΘΘΘΘΘΘΘΘ11

)(XT

Modelo H0 aceptado

0 ,))(()I Error tipo( Θ==∈= θαθ CXTPP

)(XTModelo H0 rechazado

Page 5: Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf · 2009-11-05 · Estadística de Prueba : Es una función de la muestra. Interesa que contenga

Universidad Técnica Federico Santa María

5

9

Contraste de HipótesisContraste de Hipótesis

C

cC

HH00: : θθθθθθθθ = = ΘΘΘΘΘΘΘΘ00 v/sv/s HH11: : θθθθθθθθ = = ΘΘΘΘΘΘΘΘ11

1 ,))(()II Error tipo( Θ==∈= θβθcCXTPP

)(XT

Modelo H0 aceptado

)(XTModelo H0 rechazado

10

Contraste de HipótesisContraste de Hipótesis

HH00: : θθθθθθθθ ∈∈∈∈∈∈∈∈ ΘΘΘΘΘΘΘΘ00 v/sv/s HH11: : θθθθθθθθ ∈∈∈∈∈∈∈∈ ΘΘΘΘΘΘΘΘ11

�Aumento del error tipo I:

�Disminución del error tipo II:

C

cC

0 , )()()I Error tipo( Θ∈== θθαθ CPP

1 , )()()II Error tipo( Θ∈== θθβθc

CPP

0>∆α

0<∆β

Page 6: Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf · 2009-11-05 · Estadística de Prueba : Es una función de la muestra. Interesa que contenga

Universidad Técnica Federico Santa María

6

11

Contraste de HipótesisContraste de Hipótesis

HH00: : θθθθθθθθ ∈∈∈∈∈∈∈∈ ΘΘΘΘΘΘΘΘ00 v/sv/s HH11: : θθθθθθθθ ∈∈∈∈∈∈∈∈ ΘΘΘΘΘΘΘΘ11

�Disminución del error tipo I:

�Aumento del error tipo II:

C

cC0<∆α

0>∆β

0 , )()()I Error tipo( Θ∈== θθαθ CPP

1 ),()()II Error tipo( Θ∈== θθβθc

CPP

12

Ejemplo Nº1Ejemplo Nº1

� Una v.a. X tiene una ley de Probabilidades dada por:

� Regla: Se decide rechazar H0 si X = 3 ó 4

� Determinar: α = Error tipo I ; β = Error tipo II y la Potencia del Test

X 1 2 3 4 5 6

Bajo H0 p 1/6 1/6 1/6 1/6 1/6 1/6

Bajo H1 p 2/15 1/6 1/5 1/5 1/6 2/15

Page 7: Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf · 2009-11-05 · Estadística de Prueba : Es una función de la muestra. Interesa que contenga

Universidad Técnica Federico Santa María

7

13

SoluciónSolución-- Problema 1Problema 1

α = PHo ( C )

= PHo ({ 3 , 4 }) = 2/6 = 1/3

β = PH1 ( CC )

= PH1 ({ 1 , 2 , 5 , 6 }) = 1 - 2/5 = 3/5

πC (θ) = Pθ (C) = 1 - β = 2/5

14

Contraste de HipótesisContraste de Hipótesis

� En la práctica interesa que α , β sean pequeños.� Un método apropiado para construir una Prueba es:1.- Fijar C : Pθ ( C ) ≤ α dado el nivel de significación α. Sea ζ = {C : Pθ ( C ) ≤ α}

2.- Elegir C : Pθ ( CC ) = β sea mínimo para C ∈ ζ.� Toda región C ⊂ χ región crítica : Pθ (C) ≤α si θ

∈ Θ y Pθ (C) máxima θ ∈ Θ1, se dice Región Crítica Óptima.

Page 8: Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf · 2009-11-05 · Estadística de Prueba : Es una función de la muestra. Interesa que contenga

Universidad Técnica Federico Santa María

8

15

H0: H0: θθθθθθθθ = = ΘΘΘΘΘΘΘΘ00 v/sv/s H1: H1: θθθθθθθθ = = ΘΘΘΘΘΘΘΘ11

�Fijar α

C

cC

C

cC

C

cC

�Minimizar β

16

Función de operación Función de operación característica/potenciacaracterística/potencia

� Función de operación característica (FOC):

� Función de potencia:

� Observación:

Θ∈∀∈== ϑθθθ , )|)(()|aceptar ()( 0

cCXTPHPL

)(1)|)(()rechazar ()( 0 ϑθθθπ LCXTP|HP −=∈==

0 si 1)( Θ=−= θαθL

1 si )( Θ== θβθL

Θ∈∀ϑ

Page 9: Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf · 2009-11-05 · Estadística de Prueba : Es una función de la muestra. Interesa que contenga

Universidad Técnica Federico Santa María

9

17

Propiedades de la FOCPropiedades de la FOC

� Si

Propiedades:� L(-∞)=1� L(∞)=0� dL/dθ<0 para todo θ (Luego L es una función estrictamente decreciente).

1

θ

1)( =θL)(θL

)|)(()( θθ CXTPL ≤=

18

Contraste de Hipótesis usando la FOCContraste de Hipótesis usando la FOC

� Consideremos

� Sea T(x) un estimador de θ.� Regla de Decisión: T(x) ∈ C ⇒ H0 es F

T(x) ∈ CC ⇒ H0 es V� Definir la FOC:

� Encontrar estadístico de manera tal que la Distribución probabilidad no dependa de los parámetros del modelo( Cantidad Pivotal):

HH00: : θθθθθθθθ ∈∈∈∈∈∈∈∈ ΘΘΘΘΘΘΘΘ00 v/sv/s HH11: : θθθθθθθθ ∈∈∈∈∈∈∈∈ ΘΘΘΘΘΘΘΘ11

)|)(()|aceptar ()( 0 θθθ cCXTPHPL ∈==

FCXWPCXTPL cc ~)|),(()|)(()( θθθθ ∈=∈=

Page 10: Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf · 2009-11-05 · Estadística de Prueba : Es una función de la muestra. Interesa que contenga

Universidad Técnica Federico Santa María

10

19

Contraste de Hipótesis usando la FOCContraste de Hipótesis usando la FOC

� Fijar nivel α del error tipo I, y encontrar la región crítica C:

� Rechazar Ho si

CCXWP c ⇒−=∈ αθθ 1)|),((

CXT ∈)(

20

Test de Medias (Varianza Test de Medias (Varianza σσσσσσσσ22 conocida)conocida)

� Consideremos

� Sea un estimador de µµµµµµµµ.� Regla de Decisión: T(x) ∈ C ⇒ H0 es F

T(x) ∈ CC ⇒ H0 es V� Definir la FOC:

� Encontrar estadístico de manera tal que la probabilidad no dependa de los parámetros del modelo:

HH00: : µµµµµµµµ = = µµµµµµµµ00 v/sv/s HH11: : µµµµµµµµ > > µµµµµµµµ00

)()|aceptar ()( 0 cXPHPL ≤== µµ

XXT =)(

)1,0(~//

)()( Nn

c

n

XPcXPL

−≤−=≤=σ

µσ

µµ

)1,0(~/

),()/,(~2

Nn

XXWnNX

σµµσµ −=⇒

Page 11: Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf · 2009-11-05 · Estadística de Prueba : Es una función de la muestra. Interesa que contenga

Universidad Técnica Federico Santa María

11

21

Test de Medias (Varianza Test de Medias (Varianza σσσσσσσσ22 conocida) conocida)

� Fijar nivel α del error tipo I, y encontrar la región crítica C:

� Rechazar Ho si

nzcz

n

c σµσ

µαα −− +=⇒=−

1010

/

ασ

µσ

µµ −=

−Φ=

−≤ 1//

),( 00

n

c

n

cXWP

∞+= − ,10n

zCσµ α

CX ∈

22

Test de Medias (Varianza Test de Medias (Varianza σσσσσσσσ22 conocida)conocida)

� Caso 1:

� Caso 2:

� Caso 3:

HH00: : µµµµµµµµ = = µµµµµµµµ00 v/sv/s HH11: : µµµµµµµµ > > µµµµµµµµ00)()'()|aceptar ()( 0 cXPcXPHPL ≤=≤−== µµµ

HH00: : µµµµµµµµ = = µµµµµµµµ00 v/sv/s HH11: : µµµµµµµµ < < µµµµµµµµ00

HH00: : µµµµµµµµ = = µµµµµµµµ00 v/sv/s HH11: : µµµµµµµµ ≠≠≠≠≠≠≠≠ µµµµµµµµ00

)()'|(|)|aceptar ()( 210 cXcPcXPHPL ≤≤=≤−== µµµ

)()'()|aceptar ()( 0 cXPcXPHPL ≥=≤−== µµµ

] ] [ [ ] ] [ [+∞∪∞−=+∞=∞−= :;C :C ; 21321 ccccC

Page 12: Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf · 2009-11-05 · Estadística de Prueba : Es una función de la muestra. Interesa que contenga

Universidad Técnica Federico Santa María

12

23

Ejemplo 2Ejemplo 2

� Problema 3 Una investigación conducida por el INE Instituto nacional de estadística establece que la tasa de desempleo en Chile es 10%. Se toma una muestra de 35 personas de la fuerza de trabajo de la V región, encontrando que 7 de ellas se encuentran sin empleo. ¿Es ésta una fuerte evidencia para confirmar que la tasa de desempleo en la V región es más alta que la que figura en el INE ?

� (Justifique todos sus supuestos)

24

Ejemplo 2Ejemplo 2

� H0: p= 0,10 v/ H1: p>0,10� m.a. de tamaño n=35 de � Número de personas sin empleo 7� Bajo H0 :

[ [ 1,64c tablade :C2 =+∞= c

( ) ( )( )pnpnpNpnBX i −=Χ ∑ 1;~,~

( )( )1,0~

1N

pnp

npZ

−−Χ=

( )1,0~6,5

5,3

8,02,035

1,035 : 0 N

XXQHBajo

−=⋅⋅⋅−=

48,1366,2

5,3

6,5

5,377 0 ≅=−== QX

No hay evidencia contra H0 con

05,0=α

05,0=α⇒∉CQ0

Page 13: Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf · 2009-11-05 · Estadística de Prueba : Es una función de la muestra. Interesa que contenga

Universidad Técnica Federico Santa María

13

25

Ejemplo 2Ejemplo 2

No hay evidencia contra H0 con 05,0=α

26

Test de Comparación de MediasTest de Comparación de Medias

� Consideremos

� Sea X=x1,...,xn1 y Y=y1,...,yn2 yun estimador de µ= µx- µy.

� Regla de Decisión: T(x) ∈ C ⇒ H0 es FT(x) ∈ CC ⇒ H0 es V

� Definir FOC:

� Encontrar estadístico de manera tal que la probabilidad no dependa de los parámetros del modelo:

HH00: : µµµµµµµµxx = = µµµµµµµµyy v/sv/s HH11: : µµµµµµµµxx--µµµµµµµµyy>0 >0

)()|aceptar ()( 0 cYXPHPL ≤−== µµ

YXYXT −=),(

Page 14: Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf · 2009-11-05 · Estadística de Prueba : Es una función de la muestra. Interesa que contenga

Universidad Técnica Federico Santa María

14

27

Test de Comparación de MediasTest de Comparación de Medias

Supuesto: Independencia

[ ] 1µ=XE( )2

11 σµ ,NX

( )2

22 σµ ,NY [ ] "µ=YE

[ ] 2

1σ=XVar

[ ] 2

2σ=YVar

~~

Caso Normal: Estadística de Prueba

( ))1,0(~

2

2

2

1

2

1

21 N

nn

YXZ

σσµµ

+

−−−= ( )2

21

21

21~

11−+

+

−−−= nn

P

t

nnS

YXt

µµ

σi conocidosσi desconocidos

pero iguales

28

Test de Comparación de MediasTest de Comparación de Medias

donde

� Para el caso de σi desconocidos y distintos no hay solución exacta.

� Región crítica C se modifica

( ) ( )2

11

21

2

22

2

112

−+−+−=

nn

SnSnSP

2

2

2

1

2

1

0

21

n

S

n

S

YXt

nn

+

−=

21

2211

ww

twtwt

++='

1

2

11

n

Sw =

2

2

22

n

Sw =

)( 11211 −= − ntt α )( 12212 −= − ntt α

Page 15: Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf · 2009-11-05 · Estadística de Prueba : Es una función de la muestra. Interesa que contenga

Universidad Técnica Federico Santa María

15

29

HipótesisHipótesis Estadística de PruebaEstadística de Prueba

10 µµµµ == sv /

00 µµµµ <= sv /

0µµ >

nX

z

−=σ

µ0

nS

Xt

−= 0µ

(σ conocido)

(σ desconocido)

idem

2

1

22

0

2 σσσσ == sv /2

1

2 σσ ≠2

1

2 σσ >2

1

2 σσ <

( )1

2

2

22 1

−−= n

Sn χσ

χ

idem

30

HipótesisHipótesis Estadística de PruebaEstadística de Prueba

2121 µµµµ ≠= sv /2

2

2

1 σσ =con

( ) ( )2

21

21

2121

21 −++−−−

nn

P

t

nn

nnS

XX µµ

2

2

2

1

2

2

2

1 σσσσ ≠= sv /

10 ppsvpp == /

( )112

2

2

1

21 −− nnFS

S,

∼asdesconocid

2121 µµµµ ≠= sv /2

2

2

1 σσ ≠con

( ) ( )2

2

2

2

1

2

1

2121

21 −∆−+

+

−−−nn

P

t

n

S

n

SS

XX µµ∼

asdesconocid

( ) ( )101 00

0 ,Npnp

npX

−− ∼

Page 16: Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf · 2009-11-05 · Estadística de Prueba : Es una función de la muestra. Interesa que contenga

Universidad Técnica Federico Santa María

16

31

Problema NProblema N°°22

� Un nuevo dispositivo de filtrado se instala en una planta química. Antes y después de su instalación una m.a. respectiva arrojó la siguiente información del porcentaje de impurezas:

Antes Después

8

17101

512

1

2

1

1

==

=

n

S

y

,

,

9

7394

210

2

2

2

2

==

=

n

S

y

,

,

32

Problema NProblema N°°22

� ¿El dispositivo de filtrado ha reducido el porcentaje de impurezas significativamente?� Opción 1: (Lamentablemente no se conoce µ0)

� Opción 2:

� ¿El dispositivo de filtrado ha cambiado el porcentaje de impurezas significativamente?� Opción 3:

211210 µµµµ ≠= :/: HsvH

211210 :/: µµµµ >= HsvH

µµµµ >= 0100 :/: HsvH

Page 17: Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf · 2009-11-05 · Estadística de Prueba : Es una función de la muestra. Interesa que contenga

Universidad Técnica Federico Santa María

17

33

Solución Problema 2Solución Problema 2

2

2

2

1 σσ =Si( ) ( )

2

21

21

2121

21 −++−−−= nn

P

t

nn

nnS

yyt

µµ ∼

0HBajo( )

48049099

32

72

17

210512

21

21

210 ,

,,

,,, =∗

=−=+

−=

PP Snn

nnS

yyt

( ) ( )73,97

15

03,1466

15

73,94817,1017

2

11

21

2

22

2

112 ==∗+∗=−+

−+−=nn

SnSnSP

34

Solución Problema 2Solución Problema 2

� Opción 2:� Nivel de significancia α=0,05 t0,95(15)gl = 1,753� Región crítica C = [ 1,753 ; ∞ [

T0=0.48 ∈ CC ⇒ Se acepta H0Es decir, el dispositivo nuevo no reduce significativamente

el porcentaje de impurezas.

� Opción 3:� Nivel de significancia α=0,05 t0,975(15)gl = 2,131� Región crítica C = ] -∞ ; -2,131 ] ∪ [ 2,131 ; ∞ [

t0 =0.48 ∈ CC ⇒ Se acepta H0Es decir, el dispositivo nuevo no cambia significativamente

el porcentaje de impurezas.

Page 18: Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf · 2009-11-05 · Estadística de Prueba : Es una función de la muestra. Interesa que contenga

Universidad Técnica Federico Santa María

18

35

Solución Problema 2Solución Problema 2

� Región crítica C = ] 0 ; 0,204 ] ∪ [ 4,53 ; ∞ [F0 ∈ CC ⇒ Se acepta H0 :

211210 σσσσ ≠= :/: HsvH

:0HBajo ( )1,12

2

2

10 21

~068,173,94

17,101−−=== nnF

S

SF

050,=α 2040870250 ,),(, =F 534879750 ,),(, =F

2

2

2

1 σσ =

36

¿ Provienen¿ Provienen las las observaobservaccionionees s

de una distribución en de una distribución en

particularparticular??

Luis Seccatore G07 - 2

Contraste Bondad de Ajuste

Page 19: Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf · 2009-11-05 · Estadística de Prueba : Es una función de la muestra. Interesa que contenga

Universidad Técnica Federico Santa María

19

37

Usualmente se supone que los datos se comportan como si proviniesen de una distribución particular.

1. Muchas Decisiones Estadísticas descansan en que las observaciones son de un formato específico (normal, lognormal, poisson, etc.) • Por ejemplo: En aplicaciones de confiabilidad de sistemas computacionales,

modelos de esperas, etc . En tal caso para modelar preciso los tiempos de sobrevivencia se requiere especificar correctamente la forma de la distribución.

2. Puede existir, también, razones históricas para suponer que la muestra proviene de una población particular; • datos en el pasado pueden haberse ajustado consistentemente a una

distribución conocida

• la teoría parece indicar que la población subyacente debiera ser de una determinada forma.

¿Datos Provienen de una Distribución Particular?

38

Contrastar Hipótesis

H0: Los datos provienen de la distribución especificada. P(ג); EXP(θ)

H1: Los datos no provienen de la distribución especificada.

Propósito: Probar si los datos de la muestra se comportan como si proviniesen de una distribución específica.

Contraste Bondad de Ajuste

Page 20: Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf · 2009-11-05 · Estadística de Prueba : Es una función de la muestra. Interesa que contenga

Universidad Técnica Federico Santa María

20

39

Q-Q Plot & Probability Plot

� Propósito: Verificar si los Datos siguen o provienen de una Distribución Dada.

Qt(p i): teórico

-2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,00,0

0,5

1,0

1,5

2,0

2,5

3,0

3,5

4,0

Qx(

pi):

em

píric

o� Para cada valor pi, graficar Qx(pi) contra Qt(pi)

para i = 1, 2, ..., n,

40

Hipótesis Simples vs. Compuestas

1. Hipótesis es simple , cuando se especifican los valores de los parámetros de la distribución en cuestión, antes de obtener la muestra.

H0: datos provienen de una distribución N(0, 1)

2. Hipótesis es compuesta , cuando uno o más de los parámetros es desconocido. A menudo, éstos son estimados a partir de los datos de la muestra.

H0: Datos se distribuyen normalmente con parámetros desconocidos µµµµ y σσσσ2.

Page 21: Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf · 2009-11-05 · Estadística de Prueba : Es una función de la muestra. Interesa que contenga

Universidad Técnica Federico Santa María

21

41

• Las hipótesis compuestas son las más comunes porque ellas permiten decidir si una muestra proviene de una distribución de un determinado tipo a partir de las observaciones de una muestra.

Hipótesis Compuestas

• En esta situación, es de interés la forma de la distribución, independientemente de los valores de los parámetros.

• Desgraciadamente, las hipótesis compuestas son más difíciles de trabajar porque los valores críticos son complicados de calcular.

42

Examinaremos varios Test para probar Bondad de Ajuste:

1. Chi-cuadrado para distribuciones continuas o discretas.

2. Kolmogorov-Smirnov para distribuciones continuas, basado en la función de distribución acumulada empírica de los datos.

3. Anderson-Darling para distribuciones continuas

Contraste de Bondad de Ajuste

Page 22: Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf · 2009-11-05 · Estadística de Prueba : Es una función de la muestra. Interesa que contenga

Universidad Técnica Federico Santa María

22

43

Contraste Contraste

de de

χχ22 de K. Pearsonde K. Pearson

Luis Seccatore G07 - 2

Contraste Bondad de AjusteContraste Bondad de Ajuste

44

Bondad de Ajuste Chi-cuadrado

1. Una característica atractiva que puede ser aplicada a cualquier distribución de datos discretos o continuos para la cual es posible calcular la función de distribución acumulada. Consiste en comparar la distribución acumulada teórica y empírica

2. Se aplica a datos que previamente han sido comprimidos en una tabla de frecuencia o un histograma.

Page 23: Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf · 2009-11-05 · Estadística de Prueba : Es una función de la muestra. Interesa que contenga

Universidad Técnica Federico Santa María

23

45

Bondad de Ajuste Chi-cuadrado

3. El número de observaciones en cada grupo o clase se compara con el número esperado de observaciones para ese grupo. El estadístico de prueba se calcula como un función de esa diferencia.

46

4. El estadístico de prueba depende de cómo se genera la tabla de frecuencia o el histograma.

El número de clases o grupos y cómo se define la pertenencia a cada grupo afectará a la potencia del contraste o prueba

5. La potencia también será afectada por el tamaño de la muestra y forma de la distribución nula (hipotética) y la subyacente (real) de los datos.

Se requiere un tamaño suficientemente grande con el propósito que la aproximación de chi-cuadrado sea válida .

�Bondad de Ajuste Chi-cuadrado

Page 24: Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf · 2009-11-05 · Estadística de Prueba : Es una función de la muestra. Interesa que contenga

Universidad Técnica Federico Santa María

24

Hipótesis Nula v/s Alternativa

H0: F (x) = F*(x) para toda x

H1: F (x) ≠ F*(x) para a lo menos una x

dondeF (x) es la verdadera, pero desconocida, distribución de x

F*(x) es una distribución completamente especificada: la función de

distribución acumulada hipotética

H0: datos provienen de una distribución especificada;la función de distribución de la v. a. observada es F*(x)

H1: datos no provienen de la distribución especificada;

la función de distribución observada es diferente a F*(x)

Oi : frecuencia Observada de la

i-ésima clase: Oi ≥ 5

Oi = nΣn

i=1

• Ya sea especificando los parámetros antes de tomar la muestra.

1. Especificar Distribución de H0: F*(x)

ui : límite superior de Ii

li : límite inferior de Ii

Ii : intervalo de clase i

uili

Ii

Oi

Clase i

K: número de clases; K ≥ 5. (12 – 20)

2. Construir Histograma, tal que:

n : tamaño de la muestra: n ≥ 25 (100- 200)

Contraste χ2 de Pearson

Page 25: Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf · 2009-11-05 · Estadística de Prueba : Es una función de la muestra. Interesa que contenga

Universidad Técnica Federico Santa María

25

• F*(x) función distribución acumulada

• pi = {F*(ui) – F*(li)}; probabilidad que el modelo, asigna a cada clase

• Ei = pi * n frecuencia teórica esperada de la i-ésima celda si H0 es cierta

3. Calcular la Frecuencia Esperada de cada Clase.

• Cuando n es grande y suponiendo pi pequeño, Oi será aproximadamente

Poisson con λ = npi � Ei = σi = λ

• (Oi - Ei ) es la discrepancia entre lo observado y lo estimado

• Al tomar muchas muestras, Oi tendrá una distibución binomial con

esperanza Ei = n*pi & σi = n * pi *(1-pi)

4. Calcular diferencias entre Oi & Ei para la clase i en Intervalo Ii

2

2

Contraste χ2 de Pearson

~ χ2K - c

K = número de celdas no vacías

c = es el número de parámetros

(incluyendo ubicación, escala y de

forma) para la distribución + 1;

así para una distribución Weibull

de 3 parámetros � c = 4

χ2 (Oi – Ei)2

EiΣK

i = 1

=

Oi – Ei

σi~ N(0, 1)

5. Estadístico de Prueba

• Si λ > 5 utilizamos la aproximación de la poisson por la normal

Oi – Ei

Ei

=√

Contraste χ2 de Pearson

•El estadístico de Prueba se define como

Page 26: Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf · 2009-11-05 · Estadística de Prueba : Es una función de la muestra. Interesa que contenga

Universidad Técnica Federico Santa María

26

51

χ21−α, K –c-1>

χ21−α, K -c

α

Rechazar H0 si:

K = no. de celdas no vacías

c = no. de parámetros

de la distribuciónχ2

obs

H1: NO

H0: datos provienen de una distribución dada

Distribución de χ2 si H0 es cierta

El estadístico de Prueba se define como

χ2 (Oi – Ei)2

EiΣK

i = 1=

Contraste χ2 de Pearson

obs

52

Ejemplo 3

23 23 24 27 29 31 32 33 33 35 36 37 40 42 43 43 44 45 48 48 54 54 56 57 57 58 58 58 58 59 61 61 62 63 64 65 66 68 68 70 73 73 74 75 77 81 87 89 93 97

Tamaño 50

Media 55,04

Mediana 57,50

Moda 58,0

Variancia 361,1820

Desv.Estándar 19,00479

Mínimo 23,0

Máximo 97,0

Rango 74,0

Q(,25) 40,0

Q(,75) 68,0

R.Intercuatílico 28,0

Sesgo 0,158196

Achatamiento -0,605570

Median = 57,525%-75% = (40, 68)Non-Outlier Range = (23, 97)

20

30

40

50

60

70

80

90

100

Page 27: Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf · 2009-11-05 · Estadística de Prueba : Es una función de la muestra. Interesa que contenga

Universidad Técnica Federico Santa María

27

53

-10 0 10 20 30 40 50 60i

20

30

40

50

60

70

80

90

100

X

19,5 39,5 59,5 79,5 99,5X

0

2

4

6

8

10

12

14

16

18

20

No

of o

bs

-2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5Theoretical Quantile

0,01 0,050,10 0,25 0,50 0,75 0,900,95 0,99

10

20

30

40

50

60

70

80

90

100

110

Obs

erve

d V

alue

20 30 40 50 60 70 80 90 100X i

20

30

40

50

60

70

80

90

100

X

i -1

Análisis Exploratorio

54

< 19,5 19,5 – 39,5 39,5 – 59,5 59,5 – 79,5 79,5 – 99,5 >99,5

Ei

0 12 18 15 5 0Oi

1,5 8,8 19,3 15,4 4,5 0,5

19,5 39,5 59,5 79,5 99,5X

02468101214161820

No

of o

bs

x = 55,05 s = 19,00

ν = 4 – (2 + 1) = 1

10,3 5

(12 – 10,3)2 (18 – 19,3)2 (15 – 15,4)2 (5 – 5)2

10,3 19,3 15,4 5

+ + += = 0,3785χ2

Ejemplo: Bondad Ajuste χ2

χ2tabla, ν: 1; α: 0,05 = 3,84 ¿Decisión?

^

Page 28: Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf · 2009-11-05 · Estadística de Prueba : Es una función de la muestra. Interesa que contenga

Universidad Técnica Federico Santa María

28

55

Ejemplo: Distribución Exponencial

Ejemplo:La vida útil de 70 computadoras ha tenido la siguiente

distribución exponencial con paramétro ג

� Años funcionamiento (0;1) (1;2) (2;3) (3;4) Más de 4 � Frecuencia 30 23 6 5 6

� Vida útil media = 0,5*30/70+1,5*23/70+…..5*6/70=1,6

56

(30 – 32,2)2 (23 – 17,5)2 (6 – 9,1)2 (6 – 5,6)2

32,2 17,5 9,1 5,6

+ += = 3,03χ2

Ejemplo: Distribución Exponencial

χ2tabla, ν= 3; α: 0,05 =

7,81¿Decisión?

� Vida útil media = 0,5*30/70+1,5*23/70+…..5*6/70=1,6

� H0: F (x) = Exp(ג)= 1- Exp(-1,6) v/s H1: F (x) ≠ Exp(ג)

� F(1)=0,46; F(2)=0,71; F(3)=0,84; F(4)=0,92

Page 29: Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf · 2009-11-05 · Estadística de Prueba : Es una función de la muestra. Interesa que contenga

Universidad Técnica Federico Santa María

29

57

Ventajas & Desventajas test Chi-2

Limitaciones:

• Requiere que los datos sean agrupados creando un histograma; la definición de las clases o grupos es más bien arbitraria. Se obtienen valores diferentes para el estadístico de prueba.

• La distribución del estadístico de prueba se conoce sólo aproximadamente; la potencia del contraste es baja.

• Requiere muestras de tamaño razonablemente grandes

Ventajas:

• Es lo suficientemente flexible para permitir que ciertos parámetros sean calculados desde los datos; se extrae un grado de libertad por cada parámetro estimado.

• Es aplicable tanto a distribuciones discretas como continuas

3. Frecuencia observada por celda• Para que la aproximación sea válida, la frecuencia esperada por

celda debe ser a lo menos 5 • si alguna de la frecuencias es menor que 5 � combinar celdas:

4. La prueba no es válida para muestras pequeñas;

1. El contraste es sensible a la elección de las celdas• No existe un método óptimo de selección del ancho de clase (ya

que el ancho óptimo depende de la distribución). • Las elecciones más razonables deberían producir resultados

similares, pero no idénticos. Una regla práctica de ancho es 0,3 s, donde s es la desviación ^^

2. Las clases superior e inferior deberían estar a más menos, 6 *s de la media muestral.^

Reglas Prácticas

Page 30: Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf · 2009-11-05 · Estadística de Prueba : Es una función de la muestra. Interesa que contenga

Universidad Técnica Federico Santa María

30

59

Contraste deContraste de

Bondad de Ajuste Bondad de Ajuste KolmogorovKolmogorov--

SmirnovSmirnov

( Distribuciones Continuas)( Distribuciones Continuas)

Test ( K-S)

Luis Seccatore G07 - 2

60

Función de Distribución Empírica

La muestra aleatoria de tamaño n � X : {x1, x2, x3, ..., xn} es ordenada de menor a mayor x(1), x(2), x(3), ..., x (n),

entonces, FE se define como:

FE( x (i)) = n (i) / n

donde n (i) es el número depuntos menores que X (i).

La función de distribución empírica acumulada (FE) se obtiene de la muestra de la siguiente manera:

20 30 40 50 60 70 80 90 100

x

0,0

0,2

0,4

0,6

0,8

1,0

FE

(x)

2 ó + valores idénticos

No hay valores observados en este tramo

Es una función escalón que aumenta en 1/n en el punto donde X toma un valor.

Page 31: Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf · 2009-11-05 · Estadística de Prueba : Es una función de la muestra. Interesa que contenga

Universidad Técnica Federico Santa María

31

Propósito: Probar si los datos de la muestra se comportan como si provinieran de una distribución dada F*(x)

Propósito del Test K-s

Se basa en la comparación de los valores función de distribución acumulada empírica FE(x)

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

-4,0 -3,0 -2,0 -1,0 0,0 1,0 2,0 3,0 4,0

Contra la F*(x) de la distribución de la cual se supone provienen los datos observados

Test K- S: Hipótesis

H0: F (x) = F*(x) para toda x

H1: F (x) ≠ F*(x) para a lo menos una x

dondeF (x) es la verdadera, pero desconocida, distribución de x

F*(x) es una distribución completamente especificada: la función de

distribución acumulada hipotética

H0: datos provienen de una distribución especificadala función de distribución de la v.a. observada es F*(x)

H1: datos no provienen de la distribución especificada.

la función de distribución observada es diferente a F*(x)

Page 32: Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf · 2009-11-05 · Estadística de Prueba : Es una función de la muestra. Interesa que contenga

Universidad Técnica Federico Santa María

32

1. Ordenar los valores muestrales de manera quex(1) ≤ x(2) ≤ x(3) • • • ≤ x(n)

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

-4,0 -3,0 -2,0 -1,0 0,0 1,0 2,0 3,0 4,0

2. Calcular la función de distribución acumulada empírica F n(x)

0 x < x(1)

i/n x (i) ≤ x < x(i+1)

1 x ≥ x(n)

FE(x) =

Contraste de Kolmogorov-Smirnov

3. Calcular F (x), función de distribución acumulada, totalmente especificada; parámetros de ubicación, escala y forma NO pueden ser estimados de los datos

64Rechazar H0 si: D máx > D tabla(α,n)

D n (x (i)) = máx { donde

4. Calcular la discrepancia máxima entre FE(x) & F*(x)

D max = máx Dn (x (i)) = máx |FE (x (i)) – F(x (i))|

Dn(xi)

| FE (x(i-1)) – F*(x(i))|

Dn(xi)

; |FE (x(i)) – F*(x(i))| }

Test de Kolmogorov-Smirnov

Page 33: Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf · 2009-11-05 · Estadística de Prueba : Es una función de la muestra. Interesa que contenga

Universidad Técnica Federico Santa María

33

65

Valores Críticos

1. La hipótesis nula respecto a la forma de la distribución es rechazada si el estadístico de prueba, D máx , es mayor que el valor crítico obtenido de una tabla de K-S

2.La tabla de K-S es:

• exacta para n ≤ 20 para contrastes de dos colas;

• para n > 20 y para contrastes de una cola, la tabla provee una buena aproximación que son exactos en la mayoría de los casos.

• para n > 40 el contraste se basa en la distribución asintótica del estadístico de prueba y no es muy exacta para cuando n es muy grande

66

Ejemplo 4 Test K-S en U(0,1)

2. Ho : F(x) = U(0, 1)Ha : F(x) ≠ U(0, 1)

3. Nivel Significancia, α = 0,05

1. Sea una muestra de tamaño n = 10:

0,621 0,503 0,203 0,477 0,710 0,581 0,329 0,480 0,554 0,382

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0

4. FE(x) F*(x) = U(0, 1)

5. Estadístico de Prueba D = máx |FE(x(i)) – F*(x(i))|

D = 0,29

6. Dtabla = 0,409

Page 34: Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf · 2009-11-05 · Estadística de Prueba : Es una función de la muestra. Interesa que contenga

Universidad Técnica Federico Santa María

34

67

Tes K-S: Ventajas & Desventajas

Ventajas:

1. El estadístico de prueba no depende de la distribución acumulativa que está siendo contrastada.

2. Es un contraste exacto si F*(x) es continua (no depende de un tamaño adecuado de la muestra para que la aproximación sea válida como el contraste chi-cuadrado)

Desventajas:

1. Es aplicable sólo a distribuciones continuas.

2. Tiende a ser más sensible cerca del centro de la distribución que en sus extremos.