introducciÓn · 2017-04-25 · el blog de mate de aida csii: inferencia estadística. pág. 1...
TRANSCRIPT
el blog de mate de aida CSII: Inferencia estadística. Pág. 1
INTRODUCCIÓN
La inferencia estadística estudia cómo sacar conclusiones generales para toda la población a partir del
estudio de una muestra, y el grado de fiabilidad o significación de los resultados obtenidos.
Hemos estudiado estadística descriptiva: dada una población (conjunto de todos los individuos objeto
de nuestro estudio), podíamos determinar ciertos parámetros (media, desviación típica, varianza, …) que
nos permitían estudiar los caracteres de esta población.
Pero no podremos casi nunca tratar con poblaciones al completo, porque la población a estudiar es muy
grande, por falta de personal, o para una mayor rapidez. Por eso se suelen obtener los datos de tan sólo
una muestra de la población, es decir, un subconjunto extraído de la población, cuyo estudio nos permite
inferir características de toda la población.
La Estadística Inferencial se ocupa de extender o extrapolar las características de una población a
partir de las de la muestra (ejemplo: para conocer de antemano los resultados de unas elecciones, se
suelen hacer encuestas sobre intención de voto a una muestra de ciudadanos y se extrapola para toda la
población los resultados derivados de la encuesta).
MUESTREO
Para que la muestra sea representativa debe estar bien elegida.
La primera cuestión es el tamaño que debe tener. Parece evidente que, a mayor tamaño, más se acercan
los parámetros que calculemos a los de la población. En la práctica real, el número de elementos de una
muestra está determinado por una serie de factores: grado de fiabilidad deseado, dificultad en la
elección de los elementos que la compongan, tiempo necesario para la elección, gastos originados, …
La segunda y más importante cuestión es: ¿cómo deben ser elegidos los elementos que la compongan?
Para ser válidas, las muestras han de ser representativas, es decir, en ellas se deben reproducir en
igual porcentaje el carácter estudiado, que en la población total. Es decir, deben garantizar una
adecuada descripción de la población; esto es, que la media y la varianza de la muestra, parámetros
estadísticos de la muestra, sean lo más aproximadas posibles a la media y la varianza de la población
de estudio, parámetros de la población.
Los parámetros estadísticos que vamos a estudiar son:
x (media muestral)
ss (desviación típica muestral)
La elección de la muestra se llama muestreo. Existen básicamente dos tipos de muestreo, los
aleatorios y los no aleatorios.
En el muestreo aleatorio todos los miembros de la muestra han sido elegidos al azar, de forma que cada
miembro de la población ha tenido la misma probabilidad de ser incluido en la muestra.
El muestro aleatorio simple es el más sencillo y consiste en numerar los elementos de la población y
escoger al azar los n que deben formar la muestra.
El muestro aleatorio sistemático consiste en numerar los elementos de la población y a partir de uno
de ellos elegido al azar, tomar los siguientes mediante saltos numéricos iguales. El salto será el
coeficiente de elevación: h = N/n (cociente entre número de individuos de la población y número de
individuos de la muestra).
El muestro aleatorio estratificado se utiliza cuando la población puede dividirse en estratos (por
ejemplo, por edades). Se puede fijar de antemano el número de individuos de cada estrato, siendo de
esta forma el muestreo estratificado con reparto proporcional. Esto se hace cuando se supone que la
pertenencia a un estrato u otro influye en la variable que estamos estudiando.
el blog de mate de aida CSII: Inferencia estadística. Pág. 2
MUESTREO PROBABILÍSTICO
Consiste en elegir una muestra de una población al azar. Podemos distinguir varios tipos:
Muestreo aleatorio simple:
Para obtener una muestra, se numeran los elementos de la población y se seleccionan al azar los n
elementos que contiene la muestra.
Muestreo aleatorio sistemático:
Se elige un individuo al azar y a partir de él, a intervalos constantes, se eligen los demás hasta
completar la muestra.
Por ejemplo si tenemos una población formada por 100 elementos y queremos extraer una muestra de
25 elementos, en primer lugar debemos establecer el intervalo de selección que será igual a 100/25 = 4.
A continuación elegimos el elemento de arranque, tomando aleatoriamente un número entre el 1 y el 4, y
a partir de él obtenemos los restantes elementos de la muestra.
2, 6, 10, 14,..., 98
Muestreo aleatorio estratificado:
Se divide la población en clases o estratos y se escoge, aleatoriamente, un número de individuos de cada
estrato proporcional al número de componentes de cada estrato.
ESTRATOS 1E 2E 3E TOTAL
nº de individuos en la población 1N 2N 3N N
nº de individuos en la muestra 1n 2n 3n n
3
3
2
2
1
1
N
n
N
n
N
n
N
n
Ejemplo 1: En una fábrica que consta de 600 trabajadores queremos tomar una muestra de 20.
Sabemos que hay 200 trabajadores en la sección A, 150 en la B, 150 en la C y 100 en la D. ¿Cuántos
debemos tomar de cada sección?
Adeestrabajadorxx
76,6200600
201
1
Bdeestrabajadorxx
5150600
202
2
Cdeestrabajadorxx
5150600
203
3
Ddeestrabajadorxx
33,3100600
204
4
Ejercicio 2: Los 1300 alumnos de un centro se reparten así: 426 de 1º, 359 de 2º, 267 de 3º, 133 de 4º
y 115 de 5º. ¿Cómo se elegirá una muestra de 100 alumnos mediante muestreo estratificado con reparto
proporcional?
Solución:
77,32426·1300
100
1151332673594261300
1001
54321 nnnnnn
Análogamente:
85,8;23,10;54,20;62,27 5432 nnnn .
La parte entera de estos números suma: 32 + 27 + 20 + 10 + 8 = 97.
Faltan 3 para llegar a 100. Aumentaremos una unidad a los tres cocientes cuya parte decimal sea mayor:
521 , nynn . Por tanto, los 100 individuos de la muestra se obtienen eligiendo aleatoriamente los
siguientes alumnos: 33 de 1º, 28 de 2º, 20 de 3º, 10 de 4º y 9 de 5º.
el blog de mate de aida CSII: Inferencia estadística. Pág. 3
Esto es razonable si la característica que se analiza depende del curso en el cual se encuentra el alumno
(estatura, número de horas de estudio semanales…).
Muestreos no aleatorios
Los muestreos no aleatorios carecen del grado de representatividad de los aleatorios, pero permiten un
gran ahorro en los costes. Se eligen los elementos en función de que sean representativos según la
opinión del investigador. Presentan el inconveniente de que la precisión de los resultados no es muy
grande y es difícil medir el error de muestreo.
Dentro de ellos podemos distinguir entre:
- Muestreo con reemplazamiento (o reposición) si una vez elegido un elemento se devuelve al
colectivo, lo que supone que puede ser elegido de nuevo.
- Muestreo sin reemplazamiento (o sin reposición) si una vez elegido un elemento se separa
del colectivo para que no pueda ser elegido de nuevo.
Por ejemplo, si sacamos un número de una urna, podemos volverlo a poner en ella o no, antes de la
siguiente extracción. En el primer caso, ese número puede salir de nuevo más veces, mientras que en el
segundo sólo puede salir cada número una vez.
Las poblaciones son finitas o infinitas. Si, por ejemplo, sacamos 10 bolas sucesivamente, sin reposición,
de una urna que contiene 100 bolas, estamos tomando una muestra en una población finita; mientras que
si lanzamos 50 veces una moneda y contamos el número de caras, estamos ante una población infinita.
Una población finita en la que se efectúa muestreo con reposición, puede considerarse infinita
teóricamente, ya que se puede tomar cualquier número de muestras sin agotarla. Para muchos efectos
prácticos, una población muy grande se puede considerar como si fuera infinita.
DISTRIBUCIÓN NORMAL (REPASO)
La mayor parte de las variables aleatorias continuas tienen una distribución de probabilidad que
acumula muchos individuos en los valores centrales, pero el número de éstos va decreciendo según se
aleja la variable en cualquiera de los dos sentidos.
Lo normal es que haya pocos individuos con valores extremos, ya sea por debajo o por encima de la
media, y multitud de individuos que tomen valores intermedios, próximos a la media.
La apariencia gráfica de estas distribuciones es una curva, más o menos simétrica, en forma de campana
llamada campana de Gauss.
Si la gráfica de la función de densidad de una variable aleatoria continua se ajusta a una campana de
Gauss se dice que la variable presenta una distribución normal. Las características esenciales de una
distribución normal son la media y la desviación típica, de modo que las variables que presentan una
distribución normal de media y desviación típica , se representan por ,N .
La campana de Gauss o curva normal es una
curva simétrica con un máximo en x = , puntos
de inflexión en x = y una asíntota
horizontal en y = 0, es decir, el eje de abscisas.
Observa la representación gráfica de la campana de Gauss:
el blog de mate de aida CSII: Inferencia estadística. Pág. 4
Las características fundamentales de dicha curva son las siguientes:
1) f(x) es simétrica respecto a la media de la distribución .
2) El máximo de f(x) se alcanza en x= y dos puntos de inflexión en x1=+ y x2=-.
3) El eje OX es una asíntota de f(x).
4) El área comprendida bajo la curva entre los límites es 0,6826; entre 2 es de
0,9544; y entre 3 es 0,9974 (68’26 %, 95,44 % y 99,74 % del total, respectivamente):
6826,0 XP
9544,022 XP
9974,033 XP
La función se desplaza a la izquierda o derecha según sea el valor de la media y es más alta y estrecha o
más baja y ancha según sea el valor de la desviación típica.
Ejercicio 3: El cociente intelectual de un grupo de personas (C.I.) se distribuye N(110,10). Por tanto:
El 68,26 % de ellas tiene un C.I. entre 100 y 120.
El 95,44 % de ellas tiene un C.I. entre 90 y 130.
El 99,74 % de ellas tiene un C.I. entre 80 y 140.
el blog de mate de aida CSII: Inferencia estadística. Pág. 5
Calcula: a) 130xP b) 130100 xP
a) 9544,013090 xP
0456,09544,0113090 xPxP .
Entonces:
0228,00456,0·2
1130 xP
b) 0,9544 – 0,6826 = 0,2718;
1359,02718,0·2
1 ;
0,6826 + 0,1359 = 0,8185
Ejercicio 4: Los pesos, en kilogramos, de los soldados de un reemplazo, se distribuyen según N(66,8).
Queremos saber qué proporción de ellos pesa:
a) Más de 66 kg.
b) Entre 66 y 82 kg.
c) Menos de 58 kg.
d) Menos de 70 kg.
e) Más de 80 kg.
f) Entre 70 y 80 kg.
¿Cuáles de estas preguntas se pueden resolver con los datos que tenemos?
Solución:
Para resolverlo expresaremos los extremos de los intervalos en función de y de , (=66, =8).
a) Más de 66 kg: < 50 %.
b) Entre 66 y 82 kg: %72,472 x .
c) Menos de 58 kg: %87,15 x .
d) Menos de 70 kg: 5,0x . No tenemos datos.
e) Más de 80 kg: x 75,1 . No tenemos datos.
f) Entre 70 y 80 kg: 75,15,0 x . No tenemos datos.
DISTRIBUCIÓN NORMAL ESTÁNDAR. TIPIFICACIÓN DE LA VARIABLE
La distribución normal, N(0,1), de media 0 y desviación típica 1, se llama distribución estándar o normal
tipificada. Suele designarse por la letra Z. Está tabulada.
el blog de mate de aida CSII: Inferencia estadística. Pág. 6
Uso de las tablas:
Supongamos que k es un número real positivo. Veamos
los distintos casos que se nos pueden presentar:
kzP es el valor obtenido directamente al leer
la tabla. Las unidades y las décimas, de los valores
de k, los buscamos en la columna de la izquierda, y
las centésimas, en la fila superior.
Para calcular las demás probabilidades debemos llegar a expresiones en función de kzP , que es el
valor obtenido directamente al leer la tabla.
el blog de mate de aida CSII: Inferencia estadística. Pág. 7
5º.- Ejemplos:
7967,083,0 zP ; 9893,030,2 zP ; 8413,01 zP
Si 0k , las probabilidades
kzPkzP se encuentran
directamente en las tablas.
kzPkzP 1
Para abscisas negativas:
kzPkzPkzP 1
Las demás posibilidades se ven en los
siguientes ejemplos:
0314,09686,0186,1186,1 zPzP
)18,0()29,1(29,118,0 zPzPzP
3301,05714,09015,0
)56,0()9,1(9,156,0 zPzPzP
)56,0(1)9,1()56,0()9,1( zPzPzPzP
6836,02877,09713,07123,019713,0
)83,11(183,1 zPzP
1251,08413,09664,0)00,1()83,1( zPzP
kZPkZP 1
Ejemplo:
1075,08925,0124,1124,1 ZPZP
)()( 1221 kPkPkZkP
Ejemplo:
)5,0()76,1(76,15,0 ZPZPZP
2693,06915,09608,0
kZPkZPkZP 1
Ejemplo:
2358,07642,0172,0172,072,0 ZPZPZP
el blog de mate de aida CSII: Inferencia estadística. Pág. 8
Ejercicio 6: Calcula las siguientes probabilidades:
a) 0418,09582,0173,1173,1 ZPZP
b) 3267,05832,09099,0)21,0()34,1(34,121,0 ZPZPZP
c) 83,09893,0)83,0()3,2(3,283,0 zPZPZPZP
7860,02033,09893,07967,019893,083,019893,0 zP
d) )1()95,1(95,11195,1 ZPZPZPZP
1331,08413,09744,0
Tipificación de la variable:
Toda distribución ,N es una distribución N(0,1) si la variable la expresamos en “número de
desviaciones típicas que se separa de la media”.
x es ,N z es N(0,1)
a
a
b
b
ba,
ba,
a < x < b
bz
a
Tipificar una variable X que sigue una normal ,N , es ajustarla a una normal N(0,1) mediante el
cambio de variable:
XZ
Con lo cual el cálculo de probabilidades se reduce a:
aP
aXPaXP
(que está tabulada).
Ejercicio 7: En una N(66,8) calcula las probabilidades siguientes:
a) 70xP b) 80xP c) 8070 xP
Solución:
x es 8,66N z es N(0,1)
70 5,08
6670
80 75,18
6680
a) 6915,05,070 zPxP
b) 0401,075,19599,075,180 zPzPxP
c) 2684,06915,09599,0)75,15,0(8070 zPxP
Ejercicio 8: En una N(6,4) calcula las probabilidades siguientes:
a) 2266,07734,0175,0175,04
633
zPzPZPxP
el blog de mate de aida CSII: Inferencia estadística. Pág. 9
b) 0668,09332,015,114
61212
zPZPxP
c) 25,0)5,0()5,025,0(85 zPZPzPxP
2902,015987,06915,0125,05,025,015,0 zPzPzPzP
LA NORMAL COMO APROXIMACIÓN DE LA BINOMIAL
La distribución binomial B(n,p) puede aproximarse a una normal npqnpN , si n es grande y p y q no
están muy próximos a cero. Esta aproximación es buena si n·p 5 y n·q 5.
Normalización Tipificación
X sigue una binomial
B(n,p)
X sigue una normal
N(np, npq )
Z sigue una normal
N(0,1)
Como X es una variable discreta, para hallar probabilidades con X’, y por consiguiente con Z, que es una
variable continua, debemos hacer una corrección de continuidad:
5,0'5,0 XkPkXP
5,0' kXPkXP
5,0' kXPkXP
5,0' kXPkXP
5,0' kXPkXP
Ejercicio 9: En una distribución B(200;0,3), calcula 70XP .
48,67,0·3,0·200··;603,0·200· qpnpn ; n·p > 5 y n·q > 5.
x es B(200;0,3) x’ es N(60;6,48) z es N(0,1).
0708,047,1147,148,6
605,695,69`70
zPzPZPxPxP
Ejercicio 10: El 2 % de los tornillos fabricados por una máquina presentan defectos. En un lote de 2000
tornillos, ¿cuál es la probabilidad de que haya menos de 50 defectuosos?
Distribución B(2000;0,02), 26,6··;40· qpnpn ; n·p = 40 > 5 y n·q > 5 N(40;6,26).
x es B(2000;0,02) x’ es N(40;6,26) z es N(0,1).
9357,052,126,6
405,495,49`50
zPZPxPxP
DISTRIBUCIÓN MUESTRAL DE MEDIAS
Imagina que de la población formada por todos los alumnos del instituto extraes aleatoriamente una
muestra de 40 alumnos y les preguntas por su edad, encontrando que la edad media obtenida es de 15,8
años.
Pero, ¿qué ocurriría si extrajésemos otra muestra? ¿Coincidirían las medias? ¿Y coincidirían con la
media de la población? Lo cierto es que parece lógico pensar que aunque no tengan porqué coincidir, si
deberían estar bastante próximas. Pero, ¿cuánto de próximas? ¿Dependería esta proximidad del
tamaño de las muestras que elegimos?
el blog de mate de aida CSII: Inferencia estadística. Pág. 10
Parece necesario que estudiemos la variabilidad de las medias obtenidas de las muestras que
repetidamente se extraigan.
Consideremos una población formada por N elementos, con media y desviación típica , de la que
tomamos muestras de tamaño n. Cada muestra tendrá una media y desviación típica que pueden ser
diferentes a las de otra muestra.
TEOREMA CENTRAL DEL LÍMITE: Dada una población de media y desviación típica , no
necesariamente normal, la distribución de las medias de las muestras de tamaño n:
Tiene la misma media, , que la población:
posiblesmuestrasden
xxx i
xº
......21
La desviación típica de la variable aleatoria X es igual al cociente entre la desviación típica de la
población y n . (Disminuye al aumentar n).
nx
Si tenemos una población con distribución normal y extraemos de ella muestras de tamaño n, la
distribución muestral de medias sigue también una distribución normal
nNN
xx
,, . Si
se toman muestras de tamaño grande (n 30), de una población, con una distribución cualquiera, la
distribución de la variable X se aproxima a una distribución normal.
TEOREMA CENTRAL DEL LÍMITE
Si una población tiene media μ y desviación típica σ , y tomamos muestras de tamaño n (n>30, ó cualquier
tamaño si la población es "normal"), las medias de estas muestras siguen aproximadamente la
distribución:
n,N
Consecuencias:
1. Permite averiguar la probabilidad de que la media de una muestra concreta esté en un cierto
intervalo.
2. Permite calcular la probabilidad de que la suma de los elementos de una muestra esté, a priori, en un
cierto intervalo.
n,nNxn
ii
1
3. Permite inferir la media de la población a partir de una muestra.
Ejemplo 11: Las bolsas de sal envasadas por una máquina tienen μ = 500 g y σ = 35 g. Las bolsas se
empaquetaron en cajas de 100 unidades.
1. Calcula la probabilidad de que la media de los pesos de las bolsas de un paquete sea menor que 495 g.
2. Calcula la probabilidad de que una caja 100 de bolsas pese más de 51 kg.
Solución:
La totalidad de las bolsas producidas por la máquina es una población de media g500 y g35 .
Cada caja es una muestra de 100 individuos. Las medias x de los pesos de las bolsas de una caja se
distribuye normal de media g500 y 5,3;5005,3100
35Nesx
n
.
el blog de mate de aida CSII: Inferencia estadística. Pág. 11
5,3;500100
35,500 NN
1º.) 0764,09236,0143,143,15,3
500495495
zPzPzPxP
2º.)
100
1i
ix es 3505000010035100500 ,N,·N . Por tanto:
0021,09979,0186,2186,2350
500005100051000
zPzPzPxP
Es decir, poco más de dos cajas de cada 1000 pesarán más de 51 kg.
INTERVALOS CARACTERÍSTICOS
Si la variable x tiene una distribución de media μ, se llama intervalo característico correspondiente a
una probabilidad p a un intervalo centrado en la media, kk , , tal que la probabilidad de que x
pertenezca a dicho intervalo es p: pkxkP .
Ejercicio 12: Halla el intervalo de N(0,1) correspondiente a p = 0,9.
Si dentro hay 0,9, entonces fuera hay 0,1. Como es muy simétrico, las colas tendrán 0,05 cada una:
95,005,0 kzPkzP
Mirando en las tablas: P(1,64) = 0,9495 y P(1,65) = 0,9505. Entonces: k es el punto medio de 1,64 y 1,65
9,0645,1645,1645,1 zPk el 90 % está en 645,1;645,1
Intervalo característico en una distribución N(0,1)
En una N(0,1), si (-k,k) es el intervalo característico correspondiente a la probabilidad p:
pkzkP k es el valor crítico correspondiente a p.
Designamos la probabilidad p mediante 1 . Entonces el valor crítico es 2/z y se tiene:
12/ 2/2/2/ zzzPzzP
Intervalo característico en distribuciones normales cualesquiera
Sea x, ,N . Buscamos el intervalo kk , tal que 1, pkkxP .
Es decir, el intervalo donde esté el %1·100 de los individuos.
Si x es ,N
xz es N(0,1).
Entonces el intervalo característico de
xz correspondiente a 1p es: 2/2/ , aa zz .
Es decir: 2/2/ aa zx
z
con probabilidad 1p . O sea:
·,····· 2/2/2/2/2/2/ aaaaaa zzzxzzxz .
Ejercicio 13: En una distribución N(66,8), obtén los intervalos característicos:
A) para el 90 % B) para el 95 % C) para el 99 %.
A) Si dentro hay 0,9, entonces fuera hay 0,1. Como es muy simétrico, las colas tendrán 0,05 cada una.
Mirando la tabla:
645,12
65,164,1
9505,065,1
9495,064,1
k
P
P 9,0645,1645,1 zP
el blog de mate de aida CSII: Inferencia estadística. Pág. 12
el 90 % está en 645,1;645,1 16,79;84,528·645,166;8·645,166 .
Esto significa que el 90 % de los individuos está en este intervalo 9,016,79;84,52 xP .
B) 95 %: dentro hay 0,95, fuera hay 0,05 y las colas tendrán 0,025 cada una.
975,0025,01025,0 kzPkzP Mirando la tabla: 96,1975,0 zP
Por tanto, el 95 %: 68,81;32,508·96,166;8·96,166 95,068,81;32,50 xP .
C) 99 %: dentro hay 0,99, fuera hay 0,01 y las colas tendrán 0,005 cada una.
995,0005,01005,0 kzPkzP Mirando la tabla:
575,22
58,257,2
9951,058,2
9949,057,2
k
P
P. Entonces: 995,0575,2575,2 zP
99 %: 6,86;4,458·575,266;8·575,266 99,06,86;4,45 xP .
Ejercicio 14: Las bolsas de azúcar envasadas por una cierta máquina tienen g500 y g35 . Las
bolsas se empaquetan en cajas de 100 unidades. Halla el intervalo característico de x para una
probabilidad del 95 %.
Solución:
La totalidad de las bolsas producidas por la máquina es una población de media g500 y g35 .
Cada caja es una muestra de 100 individuos. Las medias x de los pesos de las bolsas de una caja se
distribuye normal de media g500 y 5,3;5005,3100
35Nesx
n
.
El valor crítico correspondiente a p = 0,95 es 1,96 (buscamos en la tabla el correspondiente a 1-0,05:2).
El intervalo característico es: 9,506;1,4935,3·96,1500,5,3·96,1500 .
Ejercicio 15: Los pesos en kilogramos de los soldados de un reemplazo siguen una distribución normal
N(69,8). Las guardias en un regimiento están formadas por 12 soldados.
a) Halla la probabilidad de que la media de los pesos de los soldados de una guardia sea
superior a 71 kg.
b) Obtén el intervalo característico para x correspondiente a una probabilidad de 0,9.
c) ¿Cuál es la probabilidad de que la suma de los pesos de los soldados de una guardia
sea menor que 800 kg?
d) ¿Cuál es la probabilidad de que un miembro de la guardia, elegido al azar, pese más de
93 kilos?
Solución:
Las guardias se forman tomando 12 soldados al azar, la media de los pesos, x , es normal de media
69 y 31,212
8 (aunque n < 30, puesto que la población es normal). x es N(69;2,31).
a) 1922,08078,0187,0187,031,2
697171
zPzPzPxP
b) El valor crítico correspondiente a p = 0,9 es 1,645.
El intervalo característico es: 79,72;20,6531,2·645,169;31,2·645,169 .
Es decir, el 90 % de las guardias tienen un peso medio comprendido entre 65,20 y 72,79 kg.
c) 12 · 69 = 828; 12 · 2,31 = 27,72. Por tanto, x es N(828;27,72).
1562,08438,0101,1101,172,27
828800800
zPzPzPxP
el blog de mate de aida CSII: Inferencia estadística. Pág. 13
d) x es N(69,8): 0013,03138
699393
zPzPzPxP
La distribución binomial B(n,p) puede aproximarse a una normal npqnpN , si n es grande y p y q no
están muy próximos a cero. Esta aproximación es buena si n·p 5 y n·q 5.
Ejercicio 16: El 3 % de las personas son daltónicas. P(A)=0,03; 97,0AP . Tomamos 7 personas al
azar. Halla:
a) La probabilidad de que 2 personas sean daltónicas.
b) Halla los parámetros de la distribución.
c) Si tomamos 200 personas, calcula los parámetros.
d) Tomando 200 personas, ¿cuál es la probabilidad de que el número de daltónicos sea más de
4 y como máximo 7?
Solución:
a) n = 7; p = 0,03; B(7;0,03); 01623,097,0·03,02
72 52
xP
b) 21,003,0·7· pn ; 4513,097,0·03,0·7·· qpn .
c) B(200;0,03); 603,0·200 ; 41,297,0·03,0·200 . Entonces será: N(6;2,41).
d)
62,062,0
41,2
65,7
41,2
65,45,7'5,474 zPzPxPxP
4648,02·5,062,0 zP
Ejercicio 17: Una máquina fabrica tornillos. El 5 % de ellos son defectuosos. Se empaquetan en cajas de
400. Calcula la probabilidad de que en una caja haya más de 30 defectuosos.
Solución:
x es el número de tornillos defectuosos en una caja de 400. Es binomial con n = 400 y p = 0,05;
B(400;0,05). Sus parámetros son: 2005,0·400 ; 36,495,0·05,0·400 .
x es muy parecida a una normal: x’ es N(20;4,36).
008,09920,0141,2141,236,4
205,305,30'30
zPzPzPxPxP
Distribución muestral de proporciones
Supongamos una variable aleatoria que sólo puede tomar dos valores: sí o no, éxito o fracaso, … En este
caso, la población objeto de estudio sigue una distribución binomial y lo que tratamos de estimar es qué
proporción p de esta población tiene uno de estos dos valores.
Si en lugar de toda la población consideramos una serie de muestras de tamaño n, obtendremos para
cada una de estas muestras, unas proporciones p1, p2, … de individuos de la población que poseen esta
característica.
La variable aleatoria de las proporciones muestrales la representaremos por P , recorre los valores p1,
p2, … y se puede demostrar que:
La media de la variable aleatoria P , p
, es igual a la proporción poblacional p.
La desviación típica de la variable aleatoria P , p
, es aproximadamente igual a la raíz cuadrada
positiva del cociente entre p·(1-p) y n:
n
qp
n
ppp
·)1·(
el blog de mate de aida CSII: Inferencia estadística. Pág. 14
La distribución de la variable aleatoria P , se aproxima a una normal
n
qppNN
pp
·,, .
Esta aproximación es tanto mejor cuanto mayor sea n y más próximo sea p a 0,5. Así, si n·p y n·(1-p)
son mayores que cinco, podemos considerar que tenemos una buena aproximación; en otro caso
conviene aumentar el tamaño de la muestra.
Ejercicio: Una máquina fabrica tornillos. El 5 % de ellos son defectuosos. Se empaquetan en cajas de
400.
a) ¿Cómo se distribuye la proporción de tornillos defectuosos en las cajas?
b) Encuentra un intervalo en el cual se encuentre el 90 % de las proporciones de tornillos
defectuosos.
c) Encuentra un intervalo en el cual se encuentre el 99 % de las proporciones de tornillos
defectuosos en las cajas.
Solución:
a) Población: totalidad de tornillos producidos.
Proporción de tornillos defectuosos: p = 0,05 (distribución normal).
Parámetros: media: p = 0,05; 011,0400
95,0·05,0·
n
qp
b) Probabilidad del 90 % 645,105,02/9,01 2/ z
Intervalo: 068,0;032,0018,005,0011,0·645,105,0
Es decir, el 90 % de las cajas tienen una proporción de tornillos defectuosos entre 0,032 y 0,068.
c) El 90 % significa: 028,0011,0·575,2·;575,2005,02/99,01 2/2/ zz
Intervalo: 078,0;022,0028,005,0;028,005,0
Ejercicio: Supongamos que el 15 % de los jóvenes de 18 a 25 años son miopes.
a) ¿Cómo se distribuye la proporción rp de jóvenes miopes en muestras de 40 individuos?
b) Halla el intervalo característico de las proporciones muestrales correspondiente al 80 %.
Solución:
a) n = 40; p = 0,15; B(40;0,15); n · p = 40 · 0,15 = 6 > 5 npqnpNpnB ,, .
Por tanto, el número de miopes en cada muestra se aproxima a una distribución normal con:
615,0·40 ; 26,285,0·15,0·40 .
La proporción de miopes en la muestra: 40
xpr . Por tanto rp es 0565,0;15,0
40
26,2,
40
6NB
b) Hallaremos 2/z correspondiente a 1,02
2,08,01
28,19,01,0 1,01,01,0 zzzPzzP
Por tanto el valor crítico correspondiente a 8,01 es 28,12/ z
Entonces el intervalo será: 222,0;078,00565,0·28,115,0
Es decir, el 80 % de las muestras de 40 jóvenes de esas edades contienen una proporción de miopes
comprendida entre 0,078 y 0,222.
el blog de mate de aida CSII: Inferencia estadística. Pág. 15
ESTIMACIÓN
Es el procedimiento utilizado para conocer las características de una población, a partir del
conocimiento de la muestra.
Imaginemos que preguntamos a una muestra de 40 alumnos por el recorrido en km que tienen que hacer
todos los días para llegar al instituto, y que la media de tal muestra es de 3 km. Tomando como base la
muestra, ¿qué estimación puede hacerse sobre la media poblacional (es decir, la de todo el Instituto)?
Podemos hacer una primera aproximación, utilizando la media muestral de 3 km. Sin embargo, este valor
está sesgado debido a que sólo representa a una muestra.
Podríamos decir que la media buscada es próxima a 3, pero, ¿cuánto de próxima? ¿Digamos que 200
metros más o menos? Esto significaría que la media estaría entre 2,8 y 3,2. Esto último se denomina
estimar por intervalo, y es el método que vamos a ver.
Con una muestra aleatoria, de tamaño n, podemos efectuar una estimación de un valor de un parámetro
de la población; pero también necesitamos precisar un:
Intervalo de confianza
Se llama así a un intervalo que contiene al parámetro desconocido con un nivel de confianza fijado de
antemano.
Nivel de confianza
Probabilidad de que el parámetro a estimar se encuentre en el intervalo de confianza.
Error de estimación máximo
Es el radio de anchura del intervalo de confianza.
Si dijéramos que la media se encuentra en el intervalo (2,8;3,2) con un nivel de confianza del 95 %, lo
que decimos es que si hiciéramos muestras de tamaño 40, y fuéramos contabilizando sus medias, en el
95 % de los casos, la media calculada estaría en dicho intervalo.
Además el valor 0,23 (200 metros), que mide la mitad de la anchura del intervalo, se denomina error
máximo de la estimación.
Lo anteriormente argumentado se expresa en términos estadísticos como: “A un nivel de confianza del
95 %, la media poblacional es 3 km, con un error máximo de estimación de 0,2 km.”
Aprenderemos a realizar estimaciones sobre la media y la proporción de una característica en una
población.
ESTIMACIÓN DE LA MEDIA DE UNA POBLACIÓN
Intervalo de confianza para la media
Supongamos una población con media, , desconocida y que deseamos estimar, y desviación típica, ,
conocida. Recurrimos a una muestra de tamaño n en la cual obtenemos una media muestra x . (La
distribución normal de medias se aproxima a una distribución normal
nN
, ).
Si la población de partida es normal, o si el tamaño de la muestra es mayor o igual a 30, entonces el
intervalo de confianza de con un nivel de confianza de %100·1 es:
el blog de mate de aida CSII: Inferencia estadística. Pág. 16
nzx
nzx aa
·,· 2/2/
Demostración: Sabemos que la distribución normal de medias se aproxima a una distribución normal
nN
, y, por tanto, la distribución tipificada:
n
XZ
seguirá una distribución normal N(0,1).
Se observa que: azZzP aa 12/2/ . Sustituyendo: az
n
XzP aa
12/2/
.
En realidad, si x es una media muestral, como es un valor de X , sabemos que al menos en el a1 %
de los casos se cumple que:
2/2/ aa z
n
xz
Despejando: n
zxn
zx aa
·· 2/2/ . Luego el intervalo de confianza de la media con un nivel
de confianza del %100·1 es:
nzx
nzx aa
·,· 2/2/
Ejercicio 18: Queremos valorar el grado de conocimientos en historia de una población de varios miles
de alumnos. Sabemos que 3,2 . Intentaremos estimar pasando una prueba a 100 alumnos.
a) Calcula el intervalo característico para x correspondiente a una probabilidad de 0,95.
b) Una vez realizada la prueba a 100 alumnos concretos, se ha obtenido una media de 32,6x .
Halla el intervalo de confianza de con un nivel de confianza del 95 %.
Solución: Las medias, x , de todas las distribuciones posibles de tamaño 100 se distribuyen
23,0;100
3,2,,
NN
nN
.
a) 96,1)(975,0025,01025,005,095,01 2/ ztablakzPkzP .
Tenemos: 95,045,0;45,095,023,0·96,1;23,0·96,1 xPxP .
Intervalo correspondiente a la probabilidad de 0,95: 45,0;45,0 .
Es decir, en 95 % de las muestras, su media dista de menos de 0,45.
el blog de mate de aida CSII: Inferencia estadística. Pág. 17
b) El intervalo de confianza para (nivel de confianza del 95 %) es:
77,6;87,545,032,6;45,032,645,0;45,0 xx
Significa que en el 95 % de las muestras, el intervalo correspondiente contiene a .
Ejercicio 19: Para estimar la media de los resultados que obtendrían al resolver un test los alumnos de
4º de ESO de toda una comunidad autónoma, se les pasa dicho test a 400 de ellos escogidos al azar. Los
resultados vienen dados en la siguiente tabla. A partir de ellos, estima con un nivel de confianza del 95
% el valor de la media de la población.
ix if
1 24
2 80
3 132
4 101
5 63
Solución: Los parámetros correspondientes a ésta tabla son: 25,3x ,
12,1 .
Nivel de confianza del 95 %:
96,105,095,01 025,02/ zz .
El radio del intervalo es:
36,3;14,311,025,3;11,025,311,010976,0400
12,1·96,1·2/
nz
Por tanto tenemos una confianza del 95 % de que la nota media de la
población total esté comprendida entre 3,14 y 3,36.
Por tanto:
El intervalo de confianza, para la media de una población, con un nivel de confianza de 1- α , siendo x la
media de una muestra de tamaño n y σ la desviación típica de la población, es:
nzx
nzx aa
·,· 2/2/
El error máximo de estimación es: n
zE a
·2/
Cuanto mayor sea el tamaño de la muestra, n, menor es el error.
Cuanto mayor sea el nivel de confianza, 1-α, mayor es el error.
Tamaño de la muestra 2
2
e
·zn /a
Si aumentamos el nivel de confianza, aumenta el tamaño de la muestra.
Si disminuimos el error, tenemos que aumentar el tamaño de la muestra.
Ejemplo 20: El tiempo que tardan las cajeras de un supermercado en cobrar a los clientes sigue una ley
normal con media desconocida y desviación típica 0,5 minutos. Para una muestra aleatoria de 25 clientes
se obtuvo un tiempo medio de 5,2 minutos.
1. Calcula el intervalo de confianza al nivel del 95 % para el tiempo medio que se tarda en cobrar a
los clientes.
2. Indica el tamaño muestral necesario para estimar dicho tiempo medio con un el error de ± 0,5
minutos y un nivel de confianza del 95 %.
el blog de mate de aida CSII: Inferencia estadística. Pág. 18
Solución:
1º.)
396,5;004,525
5,0·96,12,5;
25
5,0·96,12,5
2º.) 484,396,15,0
·96,15,0 nnnn
Relación entre el nivel de confianza, error admisible y tamaño de la muestra
El error máximo admisible viene dado por el radio del intervalo: n
zE a
·2/ .
Cuanto mayor sea el tamaño de la muestra, menor es el error (más estrecho es el intervalo, es decir,
más afinaremos en la estimación).
Cuanto mayor sea 1 , es decir, cuanto más seguros queramos estar de nuestra estimación, mayor es
el error. Cuanto mayor queramos 1 , es decir, cuanto más seguros queramos estar de nuestra
estimación, mayor debe ser el tamaño de la muestra.
Si predeterminamos (o nos fijan) el error máximo admisible y el nivel de confianza, podemos obtener el
tamaño de la muestra, despejando de la fórmula anterior: así n es el menor entero mayor que 2
2/ ·
e
za .
Ejercicio 21: De la duración de un proceso sabemos que s5,0 . ¿Cuál es el número de medidas que
hay que realizar para que, con un 99 % de confianza, el error de la estimación no exceda de 0,1 s?
Solución:. Nivel de confianza del 99 %: 575,201,099,01 2/ z .
76,165875,121,0
5,0·575,25,0·575,21,0 nn
n
Por tanto se deben realizar 166 medidas (el menor entero mayor que 165,76).
Hallar el nivel de confianza conociendo E y n
Si se nos fija el error admisible, E, y el tamaño de la muestra, n, el nivel de confianza con el que se
realiza la estimación se obtiene del siguiente modo:
nEz
nzE aa
·· 2/2/ .
Conocido 2/az , la curva normal nos dará el valor de 2/ . De aquí se obtiene el nivel de confianza
1 .
el blog de mate de aida CSII: Inferencia estadística. Pág. 19
Ejercicio 22: Al medir el tiempo de reacción, un psicólogo sabe que la desviación típica del mismo es 0,5
segundos. Desea estimar el tiempo medio de reacción con un error máximo de 0,1 segundos, para lo cual
realiza 100 experiencias. ¿Con qué nivel de confianza podrá dar el intervalo 1,0;1,0 xx ?
Solución:. 9772,0225,0
10·1,0
100
5,0·1,0 2/2/2/ zPzzPzz
9544,010456,00228,09772,0122
zP
Si x es el tiempo medio obtenido con las 100 experiencias, podremos asegurar con un nivel de
confianza del 95,44 % que el tiempo de reacción está comprendido entre 1,0x y 1,0x .
Ejercicio 23: Un coronel desea estimar la estatura media de todos los soldados de su regimiento con un
error menor de 0,5 cm utilizando una muestra de 30 soldados. Sabiendo que la desviación típica es
cm3,5 , ¿cuál será el nivel de confianza con el que se realiza la estimación?
Solución:. 6985,052,052,03,5
30·5,0
30
3,5·5,0 2/2/2/ zPzzPzz
3970,016030,03015,06985,0152,02
zP
El nivel de confianza sería del 39,7 %, demasiado bajo. Esto es porque la muestra es demasiado
pequeña.
Estimación de una proporción
Se quiere estimar la proporción, p, de individuos con una cierta característica que hay en una población.
Para ello se recurre a una muestra de tamaño n, en la que se obtiene una proporción muestral rp .
El intervalo de confianza de p con un nivel de confianza %100·1 es:
n
ppzp
n
ppzp rr
arrr
ar
1··,
1·· 2/2/
Demostración:
La proporción, en muestras de tamaño n, se distribuye según una normal
n
pppN
)1·(, .
Luego el intervalo característico de rp para una probabilidad 1 es:
n
qpzp
n
qpzp aa
··,
·· 2/2/ . Es decir:
1
··2/
n
qpzppP ar . Por tanto:
1
··,
·· 2/2/
n
qpzp
n
qpzppP arar . Es necesario que n > 30.
el blog de mate de aida CSII: Inferencia estadística. Pág. 20
Error máximo admisible en una proporción
n
ppz
n
qpzE rr
aa
1··
·· 2/2/
Ejercicio: Tomada una muestra de 300 personas mayores de 15 años en una gran ciudad, se encontró
que 104 de ellas leían el periódico regularmente. Halla, con un nivel de confianza del 90 %, un intervalo
para estimar la proporción de lectores de periódicos entre los mayores de 15 años.
Solución:. Nivel de confianza del 90 %: 645,11,09,01 2/ z ; 347,0300
104rp
045,0
300
653,0·347,0·645,1
1··2/
n
ppzE rr
a
Intervalo pedido: 392,0;302,0045,0347,0;045,0347,0 .
Conclusión: Con un nivel de confianza del 90 %, la proporción de lectores de periódicos, en el colectivo
total, está entre 0,302 y 0,392.
Ejercicio: A la vista del resultado anterior, se pretende repetir la experiencia para conseguir una cota
de error de 0,01 con el mismo nivel de confianza del 90 %. ¿Cuántos individuos debe tener la muestra?
Solución:. Conocemos: 645,12/ z ; 01,0E . Entonces:
6,6131653,0·347,0·
01,0
645,1653,0·347,0·645,101,0
1··
2
2/
n
nn
ppzE rr
a
Conclusión: La muestra deberá tener 6132 personas.
Ejercicio: A partir de una muestra de 100 individuos se ha estimado una proporción mediante el
intervalo de confianza (0,17;0,25). ¿Cuál es el nivel de confianza con el que se ha hecho la estimación?
Solución:. rp es el punto medio del intervalo: 21,0rp . E (mitad de la longitud del intervalo): E= 0,04.
98,0
100
79,0·21,0·04,0
1·· 2/2/2/
aa
rra zz
n
ppzE
1635,098,0198,02
2/ zPzPzzP
6730,013270,01635,02
. Es decir, la estimación de p mediante (0,17;0,25) se
ha realizado con un nivel de confianza del 67,30 %.