intervals de confiança - upfsatorra/dades/inferencia2.pdf · intervals de confiança capítol 6 de...
TRANSCRIPT
Estadística Ciència Política . Curs 2005-2006
Mostra
n = 4
Mostra aleatòria
Població
m =
Tinc una confiança del 95% que µ estigui entre ….
µ desconeguda
Estadística Ciència Política . Curs 2005-2006
Confiança estadística
95% de les mostres
Distribució mostral de m, amb n = 4
Esperança = µ
Error Tipus (desv. típica) = σ/2
Suposem que
σ= 6
Si la mida de mostra n creix, el interval s’encongeix
Estadística Ciència Política . Curs 2005-2006
Interval de confiança = estimació +/- error d’estimació
Per µ: m +/- 1,96
• s és la desviació típica de la mostra • n és la mida de mostra
Per la proporció π: p +/- 1,96
• s és
1.96 nivell de confiança del 95% 1.64 nivell de confiança del 90% 2.57 nivell de confiança del 99%
Estadística Ciència Política . Curs 2005-2006
Exemple
En una mostra de 800 estudiants, 32 no han aprobat una assignatura. Fer un interval de confiança del 95% per la proporció poblacional π
Estadística Ciència Política . Curs 2005-2006
zC =1.64 ---- C = 90% zC =1.96 ---- C = 95% zC =2.57 ---- C = 99%
Estadística Ciència Política . Curs 2005-2006
Ex. d’ interval de confiança:
. Variable N Mean StDev SE Mean DRP 44 35,09 11,19 1,69
Marge d’Error 1.96*1.69 = 3.3124 95% Marge d’Error 2.57*1.69 = 4.3433 -> 99%
El IC de la mitjana poblacional, nivell de confiança del 95%, és:
[35.09- 3.3124, 35.09 + 3.3124] [31.7776, 38.4024]
Per un nivell de confiança del 99%, el IC és
[30.7467, 39.4333]
Moore556, p.344
Estadística Ciència Política . Curs 2005-2006
Un exemple: Corn Flakes
“Peso Neto es 375 g
Mostra:
353.54 359.03 391.07 360.70
Interval de confiança de l’estimació de µ ?
Estadística Ciència Política . Curs 2005-2006
Un exemple: Corn Flakes Mostra: 353.54 359.03 391.07 360.70 Interval de confiança de l’estimació de
µ ? > dades = c(353.54, 359.03 , 391.07 ,
360.70) > t.test(dades) One Sample t-test data: dades t = 43.2337, df = 3, p-value = 2.724e-05 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: 339.1374 393.0326 sample estimates: mean of x 366.085
Estadística Ciència Política . Curs 2005-2006
IC per la mitjana poblacional, cas de mostra petita
Donada la mostra de mida n, calculem la mitjana mostral
Amb nivell de confiança C= .95 (diem 95%): m estima µ amb error màxim de +/- E
s és la desviació tipica de les dades de la mostra (divisió per n-1!) n és la mida de la mostra, tC és el valor de taules de La distribució t de Student. df (graus de llibertat) = n-1
E = tC
L’interval de confiança de µ amb nivell de confiança C és: m +/- E
aquí necessitem que la població segueixi una llei normal
Exercici: IC 95% en el cas de diners a la butxaca
> eur = scan() mean(euros) [1] 15.55483
10.00 5.50 14.26 0.00 23.00 10.00 25.00 7.00 30.00 10.00 30.00 15.78 4.00 15.27 20.00 2.00 5.00 30.00 0.50 0.00 20.00 5.00 8.00 52.00 50.00 2.00 20.00 30.00 5.00 70.00 10.00 20.00 0.00 6.00 10.00 11.38 30.00 15.00 20.00 15.00 45.00 25.00 0.00 24.00 1.60 0.00 5.00 10.00 15.00 0.00 10.00 12.00 30.00 20.00 10.00 0.00 23.00 7.00 5.00 34.00
o llista de números en Excel
m = 15.55483
s = 14.41863
Estadística Ciència Política . Curs 2005-2006
FICHA TÉCNICA
Realización: Centro de Estudios Sociológicos. Trabajo de campo: Ámbito nacional. Entrevista personal en los domicilios de los encuestados de 18 años de edad o más, de ambos sexos, entre los días 19 y 24 de enero de 2005, en 167 municipios de 45 provincias.
Tamaño muestral: 2.495. Error muestral: para un nivel de confianza del 95,5 %, y p = q, el error real es de 2,0% para el conjunto de la muestra y en el supuesto de muestreo aleatorio simple.
El País 13/02/2005 20050211ElPaisEncuesta.pdf
Estadística Ciència Política . Curs 2005-2006
La Vanguardia 15/02/04
round(100*sqrt(1/1200),2) 2.89 (1/0.0356)^2 = 789.0418 789.0418 – 600 =189.0418 189/1200=0.1575
15.75 % dels 1200 (mostra estatal) són de Catalunya ?
Estadística Ciència Política . Curs 2005-2006
FICHA TÉCNICA Realización del trabajo de campo: la encuesta ha sido realizada por el INSTITUTO OPINA el día 16 de febrero de 2006. Recogida de información: mediante entrevista telefónica asistida por ordenador (CATI). Universo de análisis: población mayor de 18 años residente en hogares con teléfono. Ámbito geográfico: España. Tamaño de la muestra: 1.000 entrevistas proporcionales: Error muestral: El margen de error para el total de la muestra es de + 3,10 % para un margen de confianza del 95 % y bajo el supuesto de máxima indeterminación (p=q=50%). Procedimiento de muestreo: selección polietápica del entrevistado: § Unidades primarias de muestreo (MUNICIPIOS) seleccionadas de forma aleatoria proporcional para cada provincia. § Unidades secundarias (HOGARES) mediante la selección aleatoria de números de teléfono. § Unidades últimas (INDIVIDUOS) según cuotas cruzadas de SEXO, EDAD y RECUERDO DE VOTO GENERALES 2004.
Pulsometor de la SER
Estadística Ciència Política . Curs 2005-2006
Molt simple:
1/ arrel (n)
Exemple, n = 1200, marge d’error és +/-
sqrt(1/1200) 0.02886751
es a dir, +/- 2.89 %
Estadística Ciència Política . Curs 2005-2006
Recordem que l’error d’estimació E és
E = z* s / arrel(n)
L’interval de confiança per un marge d’error de +/- E, necessita una mida de mostra n de
n = (z* s / E )2
z* és el valor de taules, que ve determinat pel nivell de confiança C Sovint, C = 95%, de manera que z* = 1.96, aproximadament 2.
Aquí s és un valor de la població sovint desconegut però que el podem aproximar emprant dades d’estudis previs o dades d’una mostra pilot.
En el cas de l’estimació d’una proporció:
E = z* arrel (p(1-p) / n) ≤ z* .5 arrel (1 / n)
De manera que en el cas de màxima incertesa (quan p=.5)
n = (z* .5 / E )2
Si C = 95%, aleshores tenim que z* és aproximadament 2, de manera que
n = (1/E )2
Per exemple, si volem un error de +/- .02 (+/- el 2%), la mida de mostra necessària és
(1/.02)^2 = 2500.
Comparació de mitjanes: µ1=µ2?
Estadística Ciència Política . Curs 2005-2006
library(ISwR) ashina attach(ashina) plot(vas.active, vas.plac, pch=grp) abline(0,1) t.test(vas.active, vas.plac, paired=TRUE)
Paired t-test: ashina {ISwR}
Estadística Ciència Política . Curs 2005-2006
Ashina's crossover trialDescriptionThe ashina data frame has 16 rows and 3 columns. It contains data from a crossover trial for the effect of an NO synthase inhibitor on headaches. Visual analog scale recordings of pain levels were made at baseline and at five time points after infusion of the drug or placebo. A score was calculated as the sum of the differences from baseline. Data were recorded during two sessions for each patient. Six patients were given treatment on the first occasion and the placebo on the second. Ten patients had placebo first and then treatment. The order of treatment and the placebo was randomized.
> ashina vas.active vas.plac grp 1 -167 -102 1 2 -127 -39 1 3 -58 32 1 4 -103 28 1 5 -35 16 1 6 -164 -42 1 7 -3 -27 1 8 25 -30 1 9 -61 -47 1 10 -45 8 1 11 -38 12 2 12 29 11 2 13 2 -9 2 14 -18 -1 2 15 -74 3 2 16 -72 -36 2
> t.test(vas.active, vas.plac, paired=TRUE)
Paired t-test
data: vas.active and vas.plac t = -3.2269, df = 15, p-value = 0.005644 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -71.1946 -14.5554 sample estimates: mean of the differences -42.875
(non-paired) t-test: energy
Estadística Ciència Política . Curs 2005-2006
> data(energy) > energy expend stature 1 9.21 obese 2 7.53 lean 3 7.48 lean 4 8.08 lean 5 8.09 lean 6 10.15 lean 7 8.40 lean 8 10.88 lean 9 6.13 lean 10 7.90 lean 11 11.51 obese 12 12.79 obese 13 7.05 lean 14 11.85 obese 15 9.97 obese 16 7.48 lean 17 8.79 obese 18 9.69 obese 19 9.68 obese 20 7.58 lean 21 9.19 obese 22 8.11 lean
attach(energy)
expend[stature=="obese"] [1] 9.21 11.51 12.79 11.85 9.97 8.79 9.69 9.68 9.19 > expend[stature=="lean"] [1] 7.53 7.48 8.08 8.09 10.15 8.40 10.88 6.13 7.90 7.05 7.48 [12] 7.58 8.11
> t.test(expend~stature, var.equal=T)
Two Sample t-test
data: expend by stature t = -3.9456, df = 20, p-value = 0.000799 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -3.411451 -1.051796 sample estimates: mean in group lean mean in group obese 8.066154 10.297778
>
(non-paired) t-test: energy
Estadística Ciència Política . Curs 2005-2006
> data(energy) > energy expend stature 1 9.21 obese 2 7.53 lean 3 7.48 lean 4 8.08 lean 5 8.09 lean 6 10.15 lean 7 8.40 lean 8 10.88 lean 9 6.13 lean 10 7.90 lean 11 11.51 obese 12 12.79 obese 13 7.05 lean 14 11.85 obese 15 9.97 obese 16 7.48 lean 17 8.79 obese 18 9.69 obese 19 9.68 obese 20 7.58 lean 21 9.19 obese 22 8.11 lean
t.test(expend[stature=="obese"], expend[stature=="lean"])
Welch Two Sample t-test
data: expend[stature == "obese"] and expend[stature == "lean"] t = 3.8555, df = 15.919, p-value = 0.001411 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 1.004081 3.459167 sample estimates: mean of x mean of y 10.297778 8.066154
> t.test(expend[stature=="obese"], expend[stature=="lean"], var.equal=T)
Two Sample t-test
data: expend[stature == "obese"] and expend[stature == "lean"] t = 3.9456, df = 20, p-value = 0.000799 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 1.051796 3.411451 sample estimates: mean of x mean of y 10.297778 8.066154
>