intervals de confiança - upfsatorra/dades/inferencia2.pdf · intervals de confiança capítol 6 de...

27
Estadística Ciència Política . Curs 2005-2006 Intervals de confiança Capítol 6 de Moore

Upload: others

Post on 01-Jun-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Estadística Ciència Política . Curs 2005-2006

Intervals de confiança

Capítol 6 de Moore

Estadística Ciència Política . Curs 2005-2006

Mostra

n = 4

Mostra aleatòria

Població

m =

Tinc una confiança del 95% que µ estigui entre ….

µ desconeguda

Estadística Ciència Política . Curs 2005-2006

Confiança estadística

95% de les mostres

Distribució mostral de m, amb n = 4

Esperança = µ

Error Tipus (desv. típica) = σ/2

Suposem que

σ= 6

Si la mida de mostra n creix, el interval s’encongeix

Estadística Ciència Política . Curs 2005-2006

Interval de confiança = estimació +/- error d’estimació

Per µ: m +/- 1,96

•  s és la desviació típica de la mostra •  n és la mida de mostra

Per la proporció π: p +/- 1,96

•  s és

1.96 nivell de confiança del 95% 1.64 nivell de confiança del 90% 2.57 nivell de confiança del 99%

Estadística Ciència Política . Curs 2005-2006

Exemple

En una mostra de 800 estudiants, 32 no han aprobat una assignatura. Fer un interval de confiança del 95% per la proporció poblacional π

Estadística Ciència Política . Curs 2005-2006

zC =1.64 ---- C = 90% zC =1.96 ---- C = 95% zC =2.57 ---- C = 99%

Estadística Ciència Política . Curs 2005-2006

Ex. d’ interval de confiança:

. Variable N Mean StDev SE Mean DRP 44 35,09 11,19 1,69

Marge d’Error 1.96*1.69 = 3.3124 95% Marge d’Error 2.57*1.69 = 4.3433 -> 99%

El IC de la mitjana poblacional, nivell de confiança del 95%, és:

[35.09- 3.3124, 35.09 + 3.3124] [31.7776, 38.4024]

Per un nivell de confiança del 99%, el IC és

[30.7467, 39.4333]

Moore556, p.344

Estadística Ciència Política . Curs 2005-2006

Intervals de confiança en el cas de mostra petita

Estadística Ciència Política . Curs 2005-2006

Un exemple: Corn Flakes

“Peso Neto es 375 g

Mostra:

353.54 359.03 391.07 360.70

Interval de confiança de l’estimació de µ ?

Estadística Ciència Política . Curs 2005-2006

Un exemple: Corn Flakes Mostra: 353.54 359.03 391.07 360.70 Interval de confiança de l’estimació de

µ ? > dades = c(353.54, 359.03 , 391.07 ,

360.70) > t.test(dades) One Sample t-test data: dades t = 43.2337, df = 3, p-value = 2.724e-05 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: 339.1374 393.0326 sample estimates: mean of x 366.085

Estadística Ciència Política . Curs 2005-2006

CI95%

[ 339.14, 393.03]

Estadística Ciència Política . Curs 2005-2006

IC per la mitjana poblacional, cas de mostra petita

Donada la mostra de mida n, calculem la mitjana mostral

Amb nivell de confiança C= .95 (diem 95%): m estima µ amb error màxim de +/- E

s és la desviació tipica de les dades de la mostra (divisió per n-1!) n és la mida de la mostra, tC és el valor de taules de La distribució t de Student. df (graus de llibertat) = n-1

E = tC

L’interval de confiança de µ amb nivell de confiança C és: m +/- E

aquí necessitem que la població segueixi una llei normal

pdf of normal (green) and t-distributions of 5 (blue) and 25 (red) df

Estadística Ciència Política . Curs 2005-2006

Exercici: IC 95% en el cas de diners a la butxaca

> eur = scan() mean(euros) [1] 15.55483

10.00 5.50 14.26 0.00 23.00 10.00 25.00 7.00 30.00 10.00 30.00 15.78 4.00 15.27 20.00 2.00 5.00 30.00 0.50 0.00 20.00 5.00 8.00 52.00 50.00 2.00 20.00 30.00 5.00 70.00 10.00 20.00 0.00 6.00 10.00 11.38 30.00 15.00 20.00 15.00 45.00 25.00 0.00 24.00 1.60 0.00 5.00 10.00 15.00 0.00 10.00 12.00 30.00 20.00 10.00 0.00 23.00 7.00 5.00 34.00

o llista de números en Excel

m = 15.55483

s = 14.41863

Estadística Ciència Política . Curs 2005-2006

Ficha de Encuesta

Encuestas electorales

Estadística Ciència Política . Curs 2005-2006

FICHA TÉCNICA

Realización: Centro de Estudios Sociológicos. Trabajo de campo: Ámbito nacional. Entrevista personal en los domicilios de los encuestados de 18 años de edad o más, de ambos sexos, entre los días 19 y 24 de enero de 2005, en 167 municipios de 45 provincias.

Tamaño muestral: 2.495. Error muestral: para un nivel de confianza del 95,5 %, y p = q, el error real es de 2,0% para el conjunto de la muestra y en el supuesto de muestreo aleatorio simple.

El País 13/02/2005 20050211ElPaisEncuesta.pdf

Estadística Ciència Política . Curs 2005-2006

La Vanguardia 15/02/04

round(100*sqrt(1/1200),2) 2.89 (1/0.0356)^2 = 789.0418 789.0418 – 600 =189.0418 189/1200=0.1575

15.75 % dels 1200 (mostra estatal) són de Catalunya ?

Estadística Ciència Política . Curs 2005-2006

Estadística Ciència Política . Curs 2005-2006

FICHA TÉCNICA Realización del trabajo de campo: la encuesta ha sido realizada por el INSTITUTO OPINA el día 16 de febrero de 2006. Recogida de información: mediante entrevista telefónica asistida por ordenador (CATI). Universo de análisis: población mayor de 18 años residente en hogares con teléfono. Ámbito geográfico: España. Tamaño de la muestra: 1.000 entrevistas proporcionales: Error muestral: El margen de error para el total de la muestra es de + 3,10 % para un margen de confianza del 95 % y bajo el supuesto de máxima indeterminación (p=q=50%). Procedimiento de muestreo: selección polietápica del entrevistado: § Unidades primarias de muestreo (MUNICIPIOS) seleccionadas de forma aleatoria proporcional para cada provincia. § Unidades secundarias (HOGARES) mediante la selección aleatoria de números de teléfono. § Unidades últimas (INDIVIDUOS) según cuotas cruzadas de SEXO, EDAD y RECUERDO DE VOTO GENERALES 2004.

Pulsometor de la SER

Estadística Ciència Política . Curs 2005-2006

Molt simple:

1/ arrel (n)

Exemple, n = 1200, marge d’error és +/-

sqrt(1/1200) 0.02886751

es a dir, +/- 2.89 %

Estadística Ciència Política . Curs 2005-2006

Previsió de marge d’error: càlcul de mida de mostra

Estadística Ciència Política . Curs 2005-2006

Recordem que l’error d’estimació E és

E = z* s / arrel(n)

L’interval de confiança per un marge d’error de +/- E, necessita una mida de mostra n de

n = (z* s / E )2

z* és el valor de taules, que ve determinat pel nivell de confiança C Sovint, C = 95%, de manera que z* = 1.96, aproximadament 2.

Aquí s és un valor de la població sovint desconegut però que el podem aproximar emprant dades d’estudis previs o dades d’una mostra pilot.

En el cas de l’estimació d’una proporció:

E = z* arrel (p(1-p) / n) ≤ z* .5 arrel (1 / n)

De manera que en el cas de màxima incertesa (quan p=.5)

n = (z* .5 / E )2

Si C = 95%, aleshores tenim que z* és aproximadament 2, de manera que

n = (1/E )2

Per exemple, si volem un error de +/- .02 (+/- el 2%), la mida de mostra necessària és

(1/.02)^2 = 2500.

Comparació de mitjanes: µ1=µ2?

Estadística Ciència Política . Curs 2005-2006

library(ISwR) ashina attach(ashina) plot(vas.active, vas.plac, pch=grp) abline(0,1) t.test(vas.active, vas.plac, paired=TRUE)

Paired t-test: ashina {ISwR}

Estadística Ciència Política . Curs 2005-2006

Ashina's crossover trialDescriptionThe ashina data frame has 16 rows and 3 columns. It contains data from a crossover trial for the effect of an NO synthase inhibitor on headaches. Visual analog scale recordings of pain levels were made at baseline and at five time points after infusion of the drug or placebo. A score was calculated as the sum of the differences from baseline. Data were recorded during two sessions for each patient. Six patients were given treatment on the first occasion and the placebo on the second. Ten patients had placebo first and then treatment. The order of treatment and the placebo was randomized.

> ashina vas.active vas.plac grp 1 -167 -102 1 2 -127 -39 1 3 -58 32 1 4 -103 28 1 5 -35 16 1 6 -164 -42 1 7 -3 -27 1 8 25 -30 1 9 -61 -47 1 10 -45 8 1 11 -38 12 2 12 29 11 2 13 2 -9 2 14 -18 -1 2 15 -74 3 2 16 -72 -36 2

> t.test(vas.active, vas.plac, paired=TRUE)

Paired t-test

data: vas.active and vas.plac t = -3.2269, df = 15, p-value = 0.005644 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -71.1946 -14.5554 sample estimates: mean of the differences -42.875

(non-paired) t-test: energy

Estadística Ciència Política . Curs 2005-2006

> data(energy) > energy expend stature 1 9.21 obese 2 7.53 lean 3 7.48 lean 4 8.08 lean 5 8.09 lean 6 10.15 lean 7 8.40 lean 8 10.88 lean 9 6.13 lean 10 7.90 lean 11 11.51 obese 12 12.79 obese 13 7.05 lean 14 11.85 obese 15 9.97 obese 16 7.48 lean 17 8.79 obese 18 9.69 obese 19 9.68 obese 20 7.58 lean 21 9.19 obese 22 8.11 lean

attach(energy)

expend[stature=="obese"] [1] 9.21 11.51 12.79 11.85 9.97 8.79 9.69 9.68 9.19 > expend[stature=="lean"] [1] 7.53 7.48 8.08 8.09 10.15 8.40 10.88 6.13 7.90 7.05 7.48 [12] 7.58 8.11

> t.test(expend~stature, var.equal=T)

Two Sample t-test

data: expend by stature t = -3.9456, df = 20, p-value = 0.000799 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -3.411451 -1.051796 sample estimates: mean in group lean mean in group obese 8.066154 10.297778

>

(non-paired) t-test: energy

Estadística Ciència Política . Curs 2005-2006

> data(energy) > energy expend stature 1 9.21 obese 2 7.53 lean 3 7.48 lean 4 8.08 lean 5 8.09 lean 6 10.15 lean 7 8.40 lean 8 10.88 lean 9 6.13 lean 10 7.90 lean 11 11.51 obese 12 12.79 obese 13 7.05 lean 14 11.85 obese 15 9.97 obese 16 7.48 lean 17 8.79 obese 18 9.69 obese 19 9.68 obese 20 7.58 lean 21 9.19 obese 22 8.11 lean

t.test(expend[stature=="obese"], expend[stature=="lean"])

Welch Two Sample t-test

data: expend[stature == "obese"] and expend[stature == "lean"] t = 3.8555, df = 15.919, p-value = 0.001411 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 1.004081 3.459167 sample estimates: mean of x mean of y 10.297778 8.066154

> t.test(expend[stature=="obese"], expend[stature=="lean"], var.equal=T)

Two Sample t-test

data: expend[stature == "obese"] and expend[stature == "lean"] t = 3.9456, df = 20, p-value = 0.000799 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 1.051796 3.411451 sample estimates: mean of x mean of y 10.297778 8.066154

>