introducciÓn · 2017-04-25 · el blog de mate de aida csii: inferencia estadística. pág. 1...

el blog de mate de aida CSII: Inferencia estadística. Pág. 1

INTRODUCCIÓN

La inferencia estadística estudia cómo sacar conclusiones generales para toda la población a partir del

estudio de una muestra, y el grado de fiabilidad o significación de los resultados obtenidos.

Hemos estudiado estadística descriptiva: dada una población (conjunto de todos los individuos objeto

de nuestro estudio), podíamos determinar ciertos parámetros (media, desviación típica, varianza, …) que

nos permitían estudiar los caracteres de esta población.

Pero no podremos casi nunca tratar con poblaciones al completo, porque la población a estudiar es muy

grande, por falta de personal, o para una mayor rapidez. Por eso se suelen obtener los datos de tan sólo

una muestra de la población, es decir, un subconjunto extraído de la población, cuyo estudio nos permite

inferir características de toda la población.

La Estadística Inferencial se ocupa de extender o extrapolar las características de una población a

partir de las de la muestra (ejemplo: para conocer de antemano los resultados de unas elecciones, se

suelen hacer encuestas sobre intención de voto a una muestra de ciudadanos y se extrapola para toda la

población los resultados derivados de la encuesta).

MUESTREO

Para que la muestra sea representativa debe estar bien elegida.

La primera cuestión es el tamaño que debe tener. Parece evidente que, a mayor tamaño, más se acercan

los parámetros que calculemos a los de la población. En la práctica real, el número de elementos de una

muestra está determinado por una serie de factores: grado de fiabilidad deseado, dificultad en la

elección de los elementos que la compongan, tiempo necesario para la elección, gastos originados, …

La segunda y más importante cuestión es: ¿cómo deben ser elegidos los elementos que la compongan?

Para ser válidas, las muestras han de ser representativas, es decir, en ellas se deben reproducir en

igual porcentaje el carácter estudiado, que en la población total. Es decir, deben garantizar una

adecuada descripción de la población; esto es, que la media y la varianza de la muestra, parámetros

estadísticos de la muestra, sean lo más aproximadas posibles a la media y la varianza de la población

de estudio, parámetros de la población.

Los parámetros estadísticos que vamos a estudiar son:

x (media muestral)

ss (desviación típica muestral)

La elección de la muestra se llama muestreo. Existen básicamente dos tipos de muestreo, los

aleatorios y los no aleatorios.

En el muestreo aleatorio todos los miembros de la muestra han sido elegidos al azar, de forma que cada

miembro de la población ha tenido la misma probabilidad de ser incluido en la muestra.

El muestro aleatorio simple es el más sencillo y consiste en numerar los elementos de la población y

escoger al azar los n que deben formar la muestra.

El muestro aleatorio sistemático consiste en numerar los elementos de la población y a partir de uno

de ellos elegido al azar, tomar los siguientes mediante saltos numéricos iguales. El salto será el

coeficiente de elevación: h = N/n (cociente entre número de individuos de la población y número de

individuos de la muestra).

El muestro aleatorio estratificado se utiliza cuando la población puede dividirse en estratos (por

ejemplo, por edades). Se puede fijar de antemano el número de individuos de cada estrato, siendo de

esta forma el muestreo estratificado con reparto proporcional. Esto se hace cuando se supone que la

pertenencia a un estrato u otro influye en la variable que estamos estudiando.


MUESTREO PROBABILÍSTICO

Consiste en elegir una muestra de una población al azar. Podemos distinguir varios tipos:

Muestreo aleatorio simple:

Para obtener una muestra, se numeran los elementos de la población y se seleccionan al azar los n

elementos que contiene la muestra.

Muestreo aleatorio sistemático:

Se elige un individuo al azar y a partir de él, a intervalos constantes, se eligen los demás hasta

completar la muestra.

Por ejemplo si tenemos una población formada por 100 elementos y queremos extraer una muestra de

25 elementos, en primer lugar debemos establecer el intervalo de selección que será igual a 100/25 = 4.

A continuación elegimos el elemento de arranque, tomando aleatoriamente un número entre el 1 y el 4, y

a partir de él obtenemos los restantes elementos de la muestra.

2, 6, 10, 14,..., 98

Muestreo aleatorio estratificado:

Se divide la población en clases o estratos y se escoge, aleatoriamente, un número de individuos de cada

estrato proporcional al número de componentes de cada estrato.

ESTRATOS 1E 2E 3E TOTAL

nº de individuos en la población 1N 2N 3N N

nº de individuos en la muestra 1n 2n 3n n

3

3

2

2

1

1

N

n

N

n

N

n

N

n

Ejemplo 1: En una fábrica que consta de 600 trabajadores queremos tomar una muestra de 20.

Sabemos que hay 200 trabajadores en la sección A, 150 en la B, 150 en la C y 100 en la D. ¿Cuántos

debemos tomar de cada sección?

Adeestrabajadorxx

76,6200600

201

1

Bdeestrabajadorxx

5150600

202

2

Cdeestrabajadorxx

5150600

203

3

Ddeestrabajadorxx

33,3100600

204

4

Ejercicio 2: Los 1300 alumnos de un centro se reparten así: 426 de 1º, 359 de 2º, 267 de 3º, 133 de 4º

y 115 de 5º. ¿Cómo se elegirá una muestra de 100 alumnos mediante muestreo estratificado con reparto

proporcional?

Solución:

77,32426·1300

100

1151332673594261300

1001

54321 nnnnnn

Análogamente:

85,8;23,10;54,20;62,27 5432 nnnn .

La parte entera de estos números suma: 32 + 27 + 20 + 10 + 8 = 97.

Faltan 3 para llegar a 100. Aumentaremos una unidad a los tres cocientes cuya parte decimal sea mayor:

521 , nynn . Por tanto, los 100 individuos de la muestra se obtienen eligiendo aleatoriamente los

siguientes alumnos: 33 de 1º, 28 de 2º, 20 de 3º, 10 de 4º y 9 de 5º.


Esto es razonable si la característica que se analiza depende del curso en el cual se encuentra el alumno

(estatura, número de horas de estudio semanales…).

Muestreos no aleatorios

Los muestreos no aleatorios carecen del grado de representatividad de los aleatorios, pero permiten un

gran ahorro en los costes. Se eligen los elementos en función de que sean representativos según la

opinión del investigador. Presentan el inconveniente de que la precisión de los resultados no es muy

grande y es difícil medir el error de muestreo.

Dentro de ellos podemos distinguir entre:

- Muestreo con reemplazamiento (o reposición) si una vez elegido un elemento se devuelve al

colectivo, lo que supone que puede ser elegido de nuevo.

- Muestreo sin reemplazamiento (o sin reposición) si una vez elegido un elemento se separa

del colectivo para que no pueda ser elegido de nuevo.

Por ejemplo, si sacamos un número de una urna, podemos volverlo a poner en ella o no, antes de la

siguiente extracción. En el primer caso, ese número puede salir de nuevo más veces, mientras que en el

segundo sólo puede salir cada número una vez.

Las poblaciones son finitas o infinitas. Si, por ejemplo, sacamos 10 bolas sucesivamente, sin reposición,

de una urna que contiene 100 bolas, estamos tomando una muestra en una población finita; mientras que

si lanzamos 50 veces una moneda y contamos el número de caras, estamos ante una población infinita.

Una población finita en la que se efectúa muestreo con reposición, puede considerarse infinita

teóricamente, ya que se puede tomar cualquier número de muestras sin agotarla. Para muchos efectos

prácticos, una población muy grande se puede considerar como si fuera infinita.

DISTRIBUCIÓN NORMAL (REPASO)

La mayor parte de las variables aleatorias continuas tienen una distribución de probabilidad que

acumula muchos individuos en los valores centrales, pero el número de éstos va decreciendo según se

aleja la variable en cualquiera de los dos sentidos.

Lo normal es que haya pocos individuos con valores extremos, ya sea por debajo o por encima de la

media, y multitud de individuos que tomen valores intermedios, próximos a la media.

La apariencia gráfica de estas distribuciones es una curva, más o menos simétrica, en forma de campana

llamada campana de Gauss.

Si la gráfica de la función de densidad de una variable aleatoria continua se ajusta a una campana de

Gauss se dice que la variable presenta una distribución normal. Las características esenciales de una

distribución normal son la media y la desviación típica, de modo que las variables que presentan una

distribución normal de media y desviación típica , se representan por ,N .

La campana de Gauss o curva normal es una

curva simétrica con un máximo en x = , puntos

de inflexión en x = y una asíntota

horizontal en y = 0, es decir, el eje de abscisas.

Observa la representación gráfica de la campana de Gauss:


Las características fundamentales de dicha curva son las siguientes:

1) f(x) es simétrica respecto a la media de la distribución .

2) El máximo de f(x) se alcanza en x= y dos puntos de inflexión en x1=+ y x2=-.

3) El eje OX es una asíntota de f(x).

4) El área comprendida bajo la curva entre los límites es 0,6826; entre 2 es de

0,9544; y entre 3 es 0,9974 (68’26 %, 95,44 % y 99,74 % del total, respectivamente):

6826,0 XP

9544,022 XP

9974,033 XP

La función se desplaza a la izquierda o derecha según sea el valor de la media y es más alta y estrecha o

más baja y ancha según sea el valor de la desviación típica.

Ejercicio 3: El cociente intelectual de un grupo de personas (C.I.) se distribuye N(110,10). Por tanto:

El 68,26 % de ellas tiene un C.I. entre 100 y 120.




Calcula: a) 130xP b) 130100 xP

a) 9544,013090 xP

0456,09544,0113090 xPxP .

Entonces:

0228,00456,0·2

1130 xP

b) 0,9544 – 0,6826 = 0,2718;

1359,02718,0·2

1 ;

0,6826 + 0,1359 = 0,8185

Ejercicio 4: Los pesos, en kilogramos, de los soldados de un reemplazo, se distribuyen según N(66,8).

Queremos saber qué proporción de ellos pesa:

a) Más de 66 kg.

b) Entre 66 y 82 kg.

c) Menos de 58 kg.

d) Menos de 70 kg.

e) Más de 80 kg.

f) Entre 70 y 80 kg.

¿Cuáles de estas preguntas se pueden resolver con los datos que tenemos?

Solución:

Para resolverlo expresaremos los extremos de los intervalos en función de y de , (=66, =8).

a) Más de 66 kg: < 50 %.

b) Entre 66 y 82 kg: %72,472 x .

c) Menos de 58 kg: %87,15 x .

d) Menos de 70 kg: 5,0x . No tenemos datos.

e) Más de 80 kg: x 75,1 . No tenemos datos.

f) Entre 70 y 80 kg: 75,15,0 x . No tenemos datos.

DISTRIBUCIÓN NORMAL ESTÁNDAR. TIPIFICACIÓN DE LA VARIABLE

La distribución normal, N(0,1), de media 0 y desviación típica 1, se llama distribución estándar o normal

tipificada. Suele designarse por la letra Z. Está tabulada.


Uso de las tablas:

Supongamos que k es un número real positivo. Veamos

los distintos casos que se nos pueden presentar:

kzP es el valor obtenido directamente al leer

la tabla. Las unidades y las décimas, de los valores

de k, los buscamos en la columna de la izquierda, y

las centésimas, en la fila superior.

Para calcular las demás probabilidades debemos llegar a expresiones en función de kzP , que es el

valor obtenido directamente al leer la tabla.


5º.- Ejemplos:

7967,083,0 zP ; 9893,030,2 zP ; 8413,01 zP

Si 0k , las probabilidades

kzPkzP se encuentran

directamente en las tablas.

kzPkzP 1

Para abscisas negativas:

kzPkzPkzP 1

Las demás posibilidades se ven en los

siguientes ejemplos:

0314,09686,0186,1186,1 zPzP

)18,0()29,1(29,118,0 zPzPzP

3301,05714,09015,0

)56,0()9,1(9,156,0 zPzPzP

)56,0(1)9,1()56,0()9,1( zPzPzPzP

6836,02877,09713,07123,019713,0

)83,11(183,1 zPzP

1251,08413,09664,0)00,1()83,1( zPzP

kZPkZP 1

Ejemplo:

1075,08925,0124,1124,1 ZPZP

)()( 1221 kPkPkZkP

Ejemplo:

)5,0()76,1(76,15,0 ZPZPZP

2693,06915,09608,0

kZPkZPkZP 1

Ejemplo:

2358,07642,0172,0172,072,0 ZPZPZP


Ejercicio 6: Calcula las siguientes probabilidades:

a) 0418,09582,0173,1173,1 ZPZP

b) 3267,05832,09099,0)21,0()34,1(34,121,0 ZPZPZP

c) 83,09893,0)83,0()3,2(3,283,0 zPZPZPZP

7860,02033,09893,07967,019893,083,019893,0 zP

d) )1()95,1(95,11195,1 ZPZPZPZP

1331,08413,09744,0

Tipificación de la variable:

Toda distribución ,N es una distribución N(0,1) si la variable la expresamos en “número de

desviaciones típicas que se separa de la media”.

x es ,N z es N(0,1)

a

a

b

b

ba,

ba,

a < x < b

bz

a

Tipificar una variable X que sigue una normal ,N , es ajustarla a una normal N(0,1) mediante el

cambio de variable:

XZ

Con lo cual el cálculo de probabilidades se reduce a:

aP

aXPaXP

(que está tabulada).

Ejercicio 7: En una N(66,8) calcula las probabilidades siguientes:

a) 70xP b) 80xP c) 8070 xP

Solución:

x es 8,66N z es N(0,1)

70 5,08

6670

80 75,18

6680

a) 6915,05,070 zPxP

b) 0401,075,19599,075,180 zPzPxP

c) 2684,06915,09599,0)75,15,0(8070 zPxP

Ejercicio 8: En una N(6,4) calcula las probabilidades siguientes:

a) 2266,07734,0175,0175,04

633

zPzPZPxP


b) 0668,09332,015,114

61212

zPZPxP

c) 25,0)5,0()5,025,0(85 zPZPzPxP

2902,015987,06915,0125,05,025,015,0 zPzPzPzP

LA NORMAL COMO APROXIMACIÓN DE LA BINOMIAL

La distribución binomial B(n,p) puede aproximarse a una normal npqnpN , si n es grande y p y q no

están muy próximos a cero. Esta aproximación es buena si n·p 5 y n·q 5.

Normalización Tipificación

X sigue una binomial

B(n,p)

X sigue una normal

N(np, npq )

Z sigue una normal

N(0,1)

Como X es una variable discreta, para hallar probabilidades con X’, y por consiguiente con Z, que es una

variable continua, debemos hacer una corrección de continuidad:

5,0'5,0 XkPkXP

5,0' kXPkXP

5,0' kXPkXP

5,0' kXPkXP

5,0' kXPkXP

Ejercicio 9: En una distribución B(200;0,3), calcula 70XP .

48,67,0·3,0·200··;603,0·200· qpnpn ; n·p > 5 y n·q > 5.

x es B(200;0,3) x’ es N(60;6,48) z es N(0,1).

0708,047,1147,148,6

605,695,69`70

zPzPZPxPxP

Ejercicio 10: El 2 % de los tornillos fabricados por una máquina presentan defectos. En un lote de 2000

tornillos, ¿cuál es la probabilidad de que haya menos de 50 defectuosos?

Distribución B(2000;0,02), 26,6··;40· qpnpn ; n·p = 40 > 5 y n·q > 5 N(40;6,26).

x es B(2000;0,02) x’ es N(40;6,26) z es N(0,1).

9357,052,126,6

405,495,49`50

zPZPxPxP

DISTRIBUCIÓN MUESTRAL DE MEDIAS

Imagina que de la población formada por todos los alumnos del instituto extraes aleatoriamente una

muestra de 40 alumnos y les preguntas por su edad, encontrando que la edad media obtenida es de 15,8

años.

Pero, ¿qué ocurriría si extrajésemos otra muestra? ¿Coincidirían las medias? ¿Y coincidirían con la

media de la población? Lo cierto es que parece lógico pensar que aunque no tengan porqué coincidir, si

deberían estar bastante próximas. Pero, ¿cuánto de próximas? ¿Dependería esta proximidad del

tamaño de las muestras que elegimos?


Parece necesario que estudiemos la variabilidad de las medias obtenidas de las muestras que

repetidamente se extraigan.

Consideremos una población formada por N elementos, con media y desviación típica , de la que

tomamos muestras de tamaño n. Cada muestra tendrá una media y desviación típica que pueden ser

diferentes a las de otra muestra.

TEOREMA CENTRAL DEL LÍMITE: Dada una población de media y desviación típica , no

necesariamente normal, la distribución de las medias de las muestras de tamaño n:

Tiene la misma media, , que la población:

posiblesmuestrasden

xxx i

xº

......21

La desviación típica de la variable aleatoria X es igual al cociente entre la desviación típica de la

población y n . (Disminuye al aumentar n).

nx

Si tenemos una población con distribución normal y extraemos de ella muestras de tamaño n, la

distribución muestral de medias sigue también una distribución normal

nNN

xx

,, . Si

se toman muestras de tamaño grande (n 30), de una población, con una distribución cualquiera, la

distribución de la variable X se aproxima a una distribución normal.

TEOREMA CENTRAL DEL LÍMITE

Si una población tiene media μ y desviación típica σ , y tomamos muestras de tamaño n (n>30, ó cualquier

tamaño si la población es "normal"), las medias de estas muestras siguen aproximadamente la

distribución:

n,N

Consecuencias:

1. Permite averiguar la probabilidad de que la media de una muestra concreta esté en un cierto

intervalo.

2. Permite calcular la probabilidad de que la suma de los elementos de una muestra esté, a priori, en un

cierto intervalo.

n,nNxn

ii

1

3. Permite inferir la media de la población a partir de una muestra.

Ejemplo 11: Las bolsas de sal envasadas por una máquina tienen μ = 500 g y σ = 35 g. Las bolsas se

empaquetaron en cajas de 100 unidades.

1. Calcula la probabilidad de que la media de los pesos de las bolsas de un paquete sea menor que 495 g.

2. Calcula la probabilidad de que una caja 100 de bolsas pese más de 51 kg.

Solución:

La totalidad de las bolsas producidas por la máquina es una población de media g500 y g35 .

Cada caja es una muestra de 100 individuos. Las medias x de los pesos de las bolsas de una caja se

distribuye normal de media g500 y 5,3;5005,3100

35Nesx

n

.


5,3;500100

35,500 NN

1º.) 0764,09236,0143,143,15,3

500495495

zPzPzPxP

2º.)

100

1i

ix es 3505000010035100500 ,N,·N . Por tanto:

0021,09979,0186,2186,2350

500005100051000

zPzPzPxP

Es decir, poco más de dos cajas de cada 1000 pesarán más de 51 kg.

INTERVALOS CARACTERÍSTICOS

Si la variable x tiene una distribución de media μ, se llama intervalo característico correspondiente a

una probabilidad p a un intervalo centrado en la media, kk , , tal que la probabilidad de que x

pertenezca a dicho intervalo es p: pkxkP .

Ejercicio 12: Halla el intervalo de N(0,1) correspondiente a p = 0,9.

Si dentro hay 0,9, entonces fuera hay 0,1. Como es muy simétrico, las colas tendrán 0,05 cada una:

95,005,0 kzPkzP

Mirando en las tablas: P(1,64) = 0,9495 y P(1,65) = 0,9505. Entonces: k es el punto medio de 1,64 y 1,65

9,0645,1645,1645,1 zPk el 90 % está en 645,1;645,1

Intervalo característico en una distribución N(0,1)

En una N(0,1), si (-k,k) es el intervalo característico correspondiente a la probabilidad p:

pkzkP k es el valor crítico correspondiente a p.

Designamos la probabilidad p mediante 1 . Entonces el valor crítico es 2/z y se tiene:

12/ 2/2/2/ zzzPzzP

Intervalo característico en distribuciones normales cualesquiera

Sea x, ,N . Buscamos el intervalo kk , tal que 1, pkkxP .

Es decir, el intervalo donde esté el %1·100 de los individuos.

Si x es ,N

xz es N(0,1).

Entonces el intervalo característico de

xz correspondiente a 1p es: 2/2/ , aa zz .

Es decir: 2/2/ aa zx

z

con probabilidad 1p . O sea:

·,····· 2/2/2/2/2/2/ aaaaaa zzzxzzxz .

Ejercicio 13: En una distribución N(66,8), obtén los intervalos característicos:

A) para el 90 % B) para el 95 % C) para el 99 %.

A) Si dentro hay 0,9, entonces fuera hay 0,1. Como es muy simétrico, las colas tendrán 0,05 cada una.

Mirando la tabla:

645,12

65,164,1

9505,065,1

9495,064,1

k

P

P 9,0645,1645,1 zP


el 90 % está en 645,1;645,1 16,79;84,528·645,166;8·645,166 .

Esto significa que el 90 % de los individuos está en este intervalo 9,016,79;84,52 xP .

B) 95 %: dentro hay 0,95, fuera hay 0,05 y las colas tendrán 0,025 cada una.

975,0025,01025,0 kzPkzP Mirando la tabla: 96,1975,0 zP

Por tanto, el 95 %: 68,81;32,508·96,166;8·96,166 95,068,81;32,50 xP .

C) 99 %: dentro hay 0,99, fuera hay 0,01 y las colas tendrán 0,005 cada una.

995,0005,01005,0 kzPkzP Mirando la tabla:

575,22

58,257,2

9951,058,2

9949,057,2

k

P

P. Entonces: 995,0575,2575,2 zP

99 %: 6,86;4,458·575,266;8·575,266 99,06,86;4,45 xP .

Ejercicio 14: Las bolsas de azúcar envasadas por una cierta máquina tienen g500 y g35 . Las

bolsas se empaquetan en cajas de 100 unidades. Halla el intervalo característico de x para una

probabilidad del 95 %.

Solución:

La totalidad de las bolsas producidas por la máquina es una población de media g500 y g35 .

Cada caja es una muestra de 100 individuos. Las medias x de los pesos de las bolsas de una caja se

distribuye normal de media g500 y 5,3;5005,3100

35Nesx

n

.

El valor crítico correspondiente a p = 0,95 es 1,96 (buscamos en la tabla el correspondiente a 1-0,05:2).

El intervalo característico es: 9,506;1,4935,3·96,1500,5,3·96,1500 .

Ejercicio 15: Los pesos en kilogramos de los soldados de un reemplazo siguen una distribución normal

N(69,8). Las guardias en un regimiento están formadas por 12 soldados.

a) Halla la probabilidad de que la media de los pesos de los soldados de una guardia sea

superior a 71 kg.

b) Obtén el intervalo característico para x correspondiente a una probabilidad de 0,9.

c) ¿Cuál es la probabilidad de que la suma de los pesos de los soldados de una guardia

sea menor que 800 kg?

d) ¿Cuál es la probabilidad de que un miembro de la guardia, elegido al azar, pese más de

93 kilos?

Solución:

Las guardias se forman tomando 12 soldados al azar, la media de los pesos, x , es normal de media

69 y 31,212

8 (aunque n < 30, puesto que la población es normal). x es N(69;2,31).

a) 1922,08078,0187,0187,031,2

697171

zPzPzPxP

b) El valor crítico correspondiente a p = 0,9 es 1,645.

El intervalo característico es: 79,72;20,6531,2·645,169;31,2·645,169 .

Es decir, el 90 % de las guardias tienen un peso medio comprendido entre 65,20 y 72,79 kg.

c) 12 · 69 = 828; 12 · 2,31 = 27,72. Por tanto, x es N(828;27,72).

1562,08438,0101,1101,172,27

828800800

zPzPzPxP


d) x es N(69,8): 0013,03138

699393

zPzPzPxP

La distribución binomial B(n,p) puede aproximarse a una normal npqnpN , si n es grande y p y q no

están muy próximos a cero. Esta aproximación es buena si n·p 5 y n·q 5.

Ejercicio 16: El 3 % de las personas son daltónicas. P(A)=0,03; 97,0AP . Tomamos 7 personas al

azar. Halla:

a) La probabilidad de que 2 personas sean daltónicas.

b) Halla los parámetros de la distribución.

c) Si tomamos 200 personas, calcula los parámetros.

d) Tomando 200 personas, ¿cuál es la probabilidad de que el número de daltónicos sea más de

4 y como máximo 7?

Solución:

a) n = 7; p = 0,03; B(7;0,03); 01623,097,0·03,02

72 52

xP

b) 21,003,0·7· pn ; 4513,097,0·03,0·7·· qpn .

c) B(200;0,03); 603,0·200 ; 41,297,0·03,0·200 . Entonces será: N(6;2,41).

d)

62,062,0

41,2

65,7

41,2

65,45,7'5,474 zPzPxPxP

4648,02·5,062,0 zP

Ejercicio 17: Una máquina fabrica tornillos. El 5 % de ellos son defectuosos. Se empaquetan en cajas de

400. Calcula la probabilidad de que en una caja haya más de 30 defectuosos.

Solución:

x es el número de tornillos defectuosos en una caja de 400. Es binomial con n = 400 y p = 0,05;

B(400;0,05). Sus parámetros son: 2005,0·400 ; 36,495,0·05,0·400 .

x es muy parecida a una normal: x’ es N(20;4,36).

008,09920,0141,2141,236,4

205,305,30'30

zPzPzPxPxP

Distribución muestral de proporciones

Supongamos una variable aleatoria que sólo puede tomar dos valores: sí o no, éxito o fracaso, … En este

caso, la población objeto de estudio sigue una distribución binomial y lo que tratamos de estimar es qué

proporción p de esta población tiene uno de estos dos valores.

Si en lugar de toda la población consideramos una serie de muestras de tamaño n, obtendremos para

cada una de estas muestras, unas proporciones p1, p2, … de individuos de la población que poseen esta

característica.

La variable aleatoria de las proporciones muestrales la representaremos por P , recorre los valores p1,

p2, … y se puede demostrar que:

La media de la variable aleatoria P , p

, es igual a la proporción poblacional p.

La desviación típica de la variable aleatoria P , p

, es aproximadamente igual a la raíz cuadrada

positiva del cociente entre p·(1-p) y n:

n

qp

n

ppp

·)1·(


La distribución de la variable aleatoria P , se aproxima a una normal

n

qppNN

pp

·,, .

Esta aproximación es tanto mejor cuanto mayor sea n y más próximo sea p a 0,5. Así, si n·p y n·(1-p)

son mayores que cinco, podemos considerar que tenemos una buena aproximación; en otro caso

conviene aumentar el tamaño de la muestra.

Ejercicio: Una máquina fabrica tornillos. El 5 % de ellos son defectuosos. Se empaquetan en cajas de

400.

a) ¿Cómo se distribuye la proporción de tornillos defectuosos en las cajas?

b) Encuentra un intervalo en el cual se encuentre el 90 % de las proporciones de tornillos

defectuosos.

c) Encuentra un intervalo en el cual se encuentre el 99 % de las proporciones de tornillos

defectuosos en las cajas.

Solución:

a) Población: totalidad de tornillos producidos.

Proporción de tornillos defectuosos: p = 0,05 (distribución normal).

Parámetros: media: p = 0,05; 011,0400

95,0·05,0·

n

qp

b) Probabilidad del 90 % 645,105,02/9,01 2/ z

Intervalo: 068,0;032,0018,005,0011,0·645,105,0

Es decir, el 90 % de las cajas tienen una proporción de tornillos defectuosos entre 0,032 y 0,068.

c) El 90 % significa: 028,0011,0·575,2·;575,2005,02/99,01 2/2/ zz

Intervalo: 078,0;022,0028,005,0;028,005,0

Ejercicio: Supongamos que el 15 % de los jóvenes de 18 a 25 años son miopes.

a) ¿Cómo se distribuye la proporción rp de jóvenes miopes en muestras de 40 individuos?

b) Halla el intervalo característico de las proporciones muestrales correspondiente al 80 %.

Solución:

a) n = 40; p = 0,15; B(40;0,15); n · p = 40 · 0,15 = 6 > 5 npqnpNpnB ,, .

Por tanto, el número de miopes en cada muestra se aproxima a una distribución normal con:

615,0·40 ; 26,285,0·15,0·40 .

La proporción de miopes en la muestra: 40

xpr . Por tanto rp es 0565,0;15,0

40

26,2,

40

6NB

b) Hallaremos 2/z correspondiente a 1,02

2,08,01

28,19,01,0 1,01,01,0 zzzPzzP

Por tanto el valor crítico correspondiente a 8,01 es 28,12/ z

Entonces el intervalo será: 222,0;078,00565,0·28,115,0

Es decir, el 80 % de las muestras de 40 jóvenes de esas edades contienen una proporción de miopes

comprendida entre 0,078 y 0,222.


ESTIMACIÓN

Es el procedimiento utilizado para conocer las características de una población, a partir del

conocimiento de la muestra.

Imaginemos que preguntamos a una muestra de 40 alumnos por el recorrido en km que tienen que hacer

todos los días para llegar al instituto, y que la media de tal muestra es de 3 km. Tomando como base la

muestra, ¿qué estimación puede hacerse sobre la media poblacional (es decir, la de todo el Instituto)?

Podemos hacer una primera aproximación, utilizando la media muestral de 3 km. Sin embargo, este valor

está sesgado debido a que sólo representa a una muestra.

Podríamos decir que la media buscada es próxima a 3, pero, ¿cuánto de próxima? ¿Digamos que 200

metros más o menos? Esto significaría que la media estaría entre 2,8 y 3,2. Esto último se denomina

estimar por intervalo, y es el método que vamos a ver.

Con una muestra aleatoria, de tamaño n, podemos efectuar una estimación de un valor de un parámetro

de la población; pero también necesitamos precisar un:

Intervalo de confianza

Se llama así a un intervalo que contiene al parámetro desconocido con un nivel de confianza fijado de

antemano.

Nivel de confianza

Probabilidad de que el parámetro a estimar se encuentre en el intervalo de confianza.

Error de estimación máximo

Es el radio de anchura del intervalo de confianza.

Si dijéramos que la media se encuentra en el intervalo (2,8;3,2) con un nivel de confianza del 95 %, lo

que decimos es que si hiciéramos muestras de tamaño 40, y fuéramos contabilizando sus medias, en el

95 % de los casos, la media calculada estaría en dicho intervalo.

Además el valor 0,23 (200 metros), que mide la mitad de la anchura del intervalo, se denomina error

máximo de la estimación.

Lo anteriormente argumentado se expresa en términos estadísticos como: “A un nivel de confianza del

95 %, la media poblacional es 3 km, con un error máximo de estimación de 0,2 km.”

Aprenderemos a realizar estimaciones sobre la media y la proporción de una característica en una

población.

ESTIMACIÓN DE LA MEDIA DE UNA POBLACIÓN

Intervalo de confianza para la media

Supongamos una población con media, , desconocida y que deseamos estimar, y desviación típica, ,

conocida. Recurrimos a una muestra de tamaño n en la cual obtenemos una media muestra x . (La

distribución normal de medias se aproxima a una distribución normal

nN

, ).

Si la población de partida es normal, o si el tamaño de la muestra es mayor o igual a 30, entonces el

intervalo de confianza de con un nivel de confianza de %100·1 es:


nzx

nzx aa

·,· 2/2/

Demostración: Sabemos que la distribución normal de medias se aproxima a una distribución normal

nN

, y, por tanto, la distribución tipificada:

n

XZ

seguirá una distribución normal N(0,1).

Se observa que: azZzP aa 12/2/ . Sustituyendo: az

n

XzP aa

12/2/

.

En realidad, si x es una media muestral, como es un valor de X , sabemos que al menos en el a1 %

de los casos se cumple que:

2/2/ aa z

n

xz

Despejando: n

zxn

zx aa

·· 2/2/ . Luego el intervalo de confianza de la media con un nivel

de confianza del %100·1 es:

nzx

nzx aa

·,· 2/2/

Ejercicio 18: Queremos valorar el grado de conocimientos en historia de una población de varios miles

de alumnos. Sabemos que 3,2 . Intentaremos estimar pasando una prueba a 100 alumnos.

a) Calcula el intervalo característico para x correspondiente a una probabilidad de 0,95.

b) Una vez realizada la prueba a 100 alumnos concretos, se ha obtenido una media de 32,6x .

Halla el intervalo de confianza de con un nivel de confianza del 95 %.

Solución: Las medias, x , de todas las distribuciones posibles de tamaño 100 se distribuyen

23,0;100

3,2,,

NN

nN

.

a) 96,1)(975,0025,01025,005,095,01 2/ ztablakzPkzP .

Tenemos: 95,045,0;45,095,023,0·96,1;23,0·96,1 xPxP .

Intervalo correspondiente a la probabilidad de 0,95: 45,0;45,0 .

Es decir, en 95 % de las muestras, su media dista de menos de 0,45.


b) El intervalo de confianza para (nivel de confianza del 95 %) es:

77,6;87,545,032,6;45,032,645,0;45,0 xx

Significa que en el 95 % de las muestras, el intervalo correspondiente contiene a .

Ejercicio 19: Para estimar la media de los resultados que obtendrían al resolver un test los alumnos de

4º de ESO de toda una comunidad autónoma, se les pasa dicho test a 400 de ellos escogidos al azar. Los

resultados vienen dados en la siguiente tabla. A partir de ellos, estima con un nivel de confianza del 95

% el valor de la media de la población.

ix if

1 24

2 80

3 132

4 101

5 63

Solución: Los parámetros correspondientes a ésta tabla son: 25,3x ,

12,1 .

Nivel de confianza del 95 %:

96,105,095,01 025,02/ zz .

El radio del intervalo es:

36,3;14,311,025,3;11,025,311,010976,0400

12,1·96,1·2/

nz

Por tanto tenemos una confianza del 95 % de que la nota media de la

población total esté comprendida entre 3,14 y 3,36.

Por tanto:

El intervalo de confianza, para la media de una población, con un nivel de confianza de 1- α , siendo x la

media de una muestra de tamaño n y σ la desviación típica de la población, es:

nzx

nzx aa

·,· 2/2/

El error máximo de estimación es: n

zE a

·2/

Cuanto mayor sea el tamaño de la muestra, n, menor es el error.

Cuanto mayor sea el nivel de confianza, 1-α, mayor es el error.

Tamaño de la muestra 2

2

e

·zn /a

Si aumentamos el nivel de confianza, aumenta el tamaño de la muestra.

Si disminuimos el error, tenemos que aumentar el tamaño de la muestra.

Ejemplo 20: El tiempo que tardan las cajeras de un supermercado en cobrar a los clientes sigue una ley

normal con media desconocida y desviación típica 0,5 minutos. Para una muestra aleatoria de 25 clientes

se obtuvo un tiempo medio de 5,2 minutos.

1. Calcula el intervalo de confianza al nivel del 95 % para el tiempo medio que se tarda en cobrar a

los clientes.

2. Indica el tamaño muestral necesario para estimar dicho tiempo medio con un el error de ± 0,5

minutos y un nivel de confianza del 95 %.


Solución:

1º.)

396,5;004,525

5,0·96,12,5;

25

5,0·96,12,5

2º.) 484,396,15,0

·96,15,0 nnnn

Relación entre el nivel de confianza, error admisible y tamaño de la muestra

El error máximo admisible viene dado por el radio del intervalo: n

zE a

·2/ .

Cuanto mayor sea el tamaño de la muestra, menor es el error (más estrecho es el intervalo, es decir,

más afinaremos en la estimación).

Cuanto mayor sea 1 , es decir, cuanto más seguros queramos estar de nuestra estimación, mayor es

el error. Cuanto mayor queramos 1 , es decir, cuanto más seguros queramos estar de nuestra

estimación, mayor debe ser el tamaño de la muestra.

Si predeterminamos (o nos fijan) el error máximo admisible y el nivel de confianza, podemos obtener el

tamaño de la muestra, despejando de la fórmula anterior: así n es el menor entero mayor que 2

2/ ·

e

za .

Ejercicio 21: De la duración de un proceso sabemos que s5,0 . ¿Cuál es el número de medidas que

hay que realizar para que, con un 99 % de confianza, el error de la estimación no exceda de 0,1 s?

Solución:. Nivel de confianza del 99 %: 575,201,099,01 2/ z .

76,165875,121,0

5,0·575,25,0·575,21,0 nn

n

Por tanto se deben realizar 166 medidas (el menor entero mayor que 165,76).

Hallar el nivel de confianza conociendo E y n

Si se nos fija el error admisible, E, y el tamaño de la muestra, n, el nivel de confianza con el que se

realiza la estimación se obtiene del siguiente modo:

nEz

nzE aa

·· 2/2/ .

Conocido 2/az , la curva normal nos dará el valor de 2/ . De aquí se obtiene el nivel de confianza

1 .


Ejercicio 22: Al medir el tiempo de reacción, un psicólogo sabe que la desviación típica del mismo es 0,5

segundos. Desea estimar el tiempo medio de reacción con un error máximo de 0,1 segundos, para lo cual

realiza 100 experiencias. ¿Con qué nivel de confianza podrá dar el intervalo 1,0;1,0 xx ?

Solución:. 9772,0225,0

10·1,0

100

5,0·1,0 2/2/2/ zPzzPzz

9544,010456,00228,09772,0122

zP

Si x es el tiempo medio obtenido con las 100 experiencias, podremos asegurar con un nivel de

confianza del 95,44 % que el tiempo de reacción está comprendido entre 1,0x y 1,0x .

Ejercicio 23: Un coronel desea estimar la estatura media de todos los soldados de su regimiento con un

error menor de 0,5 cm utilizando una muestra de 30 soldados. Sabiendo que la desviación típica es

cm3,5 , ¿cuál será el nivel de confianza con el que se realiza la estimación?

Solución:. 6985,052,052,03,5

30·5,0

30

3,5·5,0 2/2/2/ zPzzPzz

3970,016030,03015,06985,0152,02

zP

El nivel de confianza sería del 39,7 %, demasiado bajo. Esto es porque la muestra es demasiado

pequeña.

Estimación de una proporción

Se quiere estimar la proporción, p, de individuos con una cierta característica que hay en una población.

Para ello se recurre a una muestra de tamaño n, en la que se obtiene una proporción muestral rp .

El intervalo de confianza de p con un nivel de confianza %100·1 es:

n

ppzp

n

ppzp rr

arrr

ar

1··,

1·· 2/2/

Demostración:

La proporción, en muestras de tamaño n, se distribuye según una normal

n

pppN

)1·(, .

Luego el intervalo característico de rp para una probabilidad 1 es:

n

qpzp

n

qpzp aa

··,

·· 2/2/ . Es decir:

1

··2/

n

qpzppP ar . Por tanto:

1

··,

·· 2/2/

n

qpzp

n

qpzppP arar . Es necesario que n > 30.


Error máximo admisible en una proporción

n

ppz

n

qpzE rr

aa

1··

·· 2/2/

Ejercicio: Tomada una muestra de 300 personas mayores de 15 años en una gran ciudad, se encontró

que 104 de ellas leían el periódico regularmente. Halla, con un nivel de confianza del 90 %, un intervalo

para estimar la proporción de lectores de periódicos entre los mayores de 15 años.

Solución:. Nivel de confianza del 90 %: 645,11,09,01 2/ z ; 347,0300

104rp

045,0

300

653,0·347,0·645,1

1··2/

n

ppzE rr

a

Intervalo pedido: 392,0;302,0045,0347,0;045,0347,0 .

Conclusión: Con un nivel de confianza del 90 %, la proporción de lectores de periódicos, en el colectivo

total, está entre 0,302 y 0,392.

Ejercicio: A la vista del resultado anterior, se pretende repetir la experiencia para conseguir una cota

de error de 0,01 con el mismo nivel de confianza del 90 %. ¿Cuántos individuos debe tener la muestra?

Solución:. Conocemos: 645,12/ z ; 01,0E . Entonces:

6,6131653,0·347,0·

01,0

645,1653,0·347,0·645,101,0

1··

2

2/

n

nn

ppzE rr

a

Conclusión: La muestra deberá tener 6132 personas.

Ejercicio: A partir de una muestra de 100 individuos se ha estimado una proporción mediante el

intervalo de confianza (0,17;0,25). ¿Cuál es el nivel de confianza con el que se ha hecho la estimación?

Solución:. rp es el punto medio del intervalo: 21,0rp . E (mitad de la longitud del intervalo): E= 0,04.

98,0

100

79,0·21,0·04,0

1·· 2/2/2/

aa

rra zz

n

ppzE

1635,098,0198,02

2/ zPzPzzP

6730,013270,01635,02

. Es decir, la estimación de p mediante (0,17;0,25) se

ha realizado con un nivel de confianza del 67,30 %.

introducciÓn · 2017-04-25 · el blog de mate de aida csii: inferencia estadística. pág. 1...

Documents