Matemáticas aplicadas a las Ciencias Sociales II
Departamento de Matemáticas. I.E.S. “Fuente Lucena”. Alhaurín el Grande. 126
Tema 8.- Inferencia
1. INTRODUCCIÓN
Hasta ahora hemos llevado a cabo un estudio descriptivo de variables aleatorias: teníamos
un conjunto de datos, normalmente procedentes de una muestra, y a partir de ellos
obteníamos información organizándolos para el cálculo de unos parámetros (de
centralización, de dispersión) o utilizando dicha información en diversos tipos de gráficos.
Sin embargo, no podíamos “ir más allá”, esto es, realizar predicciones sobre toda la
población. En este tema, y con ayuda de las distribuciones de probabilidad, vamos a
empezar a predecir resultados.
En primer lugar, dedicaremos un apartado al estudio de las muestras, viendo el papel que
juegan en los estudios estadísticos, comprobando su utilidad, estudiando las características
que deben tener y conociendo algunos métodos para extraerlas. Seguidamente,
introduciremos las primeras nociones de estadística inferencial: su objeto es el desarrollo de
técnicas que nos permitan conocer o comprobar el valor de los parámetros de una población
a partir de los datos de una muestra obteniendo unos resultados con un cierto grado de
incertidumbre que se mide en, términos de probabilidad. Vamos a centrarnos en la
estadística inductiva, cuyo objeto es estimar los parámetros de una, población mediante,
intervalos de confianza. Esto será la base para que, en estudios posteriores, se continúe
profundizando en la estadística hipotético-deductiva, cuyo objetivo es comprobar mediante
métodos matemáticos hipótesis realizadas sobre el valor de algún parámetro de la población
a partir de una muestra aleatoria extraída de ella.
La estadística inferencial tiene multitud de aplicaciones en todos los sectores de la actividad
humana: psicología, economía, investigación científica, política... como podremos
comprobar a lo largo del tema.
2. MUESTREO ALEATORIO
Ya sabemos la diferencia entre población (conjunto de todos los individuos objeto de un
estudio) y muestra (subconjunto extraído de la misma
para inferir características de toda la población) Un
ejemplo que rápidamente se nos viene a la cabeza es
el de las encuestas que frecuentemente aparecen en
los medios de comunicación relativas a diversos
aspectos de la actualidad política o sobre temas que
interesan a la sociedad: “Valoración de los distintos
líderes políticos”, “Encuesta sobre intención de
voto”, “Opinión sobre una determinada cuestión
medioambiental”. En el cuadro de la derecha
podemos observar la ficha técnica y los resultados
correspondientes a una encuesta sobre "¿Quién cree
usted que tiene más respeto y preocupación por el
medio ambiente'?"
RESULTADOS
- Los jóvenes 50 %
- Los mayores 26 %
- Ambos 17 %
- Ninguno 2 %
- NS/NC 4 %
FICHA TÉCNICA
Ámbito: Toda España
Universo: 18 años y más
Muestra: 2488 entrevistas
Error muestral: +/-2
Intervalo de confianza: 95.5%
Realización: 6 a 10 de marzo de 1996. CIS
Matemáticas aplicadas a las Ciencias Sociales II
Departamento de Matemáticas. I.E.S. “Fuente Lucena”. Alhaurín el Grande. 127
A lo largo del tema iremos entendiendo los conceptos que aparecen en la ficha técnica de
cualquier encuesta que aparece en, los medios de comunicación, y en particular, de saber la
fiabilidad que presenta.
En este sentido, juega un papel muy importante la elección de la muestra, de manera que,,
muestras de tamaño pequeño, pueden predecir con bastante fiabilidad los resultados,
2.1. POR QUÉ SE RECURRE A LAS MUESTRAS:
En la práctica, es muy frecuente recurrir a una muestra para inferir datos de
población por alguno de los siguientes motivos:
La población es demasiado numerosa (por ejemplo, la totalidad de tocios los
españoles que pueden votar)
La población es muy difícil o imposible de controlar (por ejemplo, la
totalidad de las personas que entran en unos grandes almacenes a lo largo de
una semana)
El proceso de medición es destructivo. (Por ejemplo, si deseamos conocer la
duración media de las bombillas que hay en una tienda, el proceso es dejar
encendida la bombilla que se funda)
Por cuestiones de tiempo. (Por ejemplo, en un sondeo electoral, los datos
deben conocerse rápidamente)
2.2. CARACTERÍSTICAS DE UNA MUESTRA:
Para que una muestra nos sirva para realizar un estudio, debe ser representativa de
toda la población, es decir, debe representar a todos los elementos o grupos de dicha
población por igual.
Para ello, debemos fijarnos en dos aspectos: el tamaño de la muestra, y cómo se
realiza la selección de los individuos
que la forman. Es evidente que si la
muestra es demasiado pequeña no
podremos extraer conclusiones
realmente significativas.
Comprobaremos, sin embargo, cómo
con tamaños muestrales relativamente
pequeños obtendremos resultados
bastante aproximados. En cuanto a la
selección de los elementos de una
muestra, deben ser elegidos
aleatoriamente, es decir, al azar.
Veremos a continuación diversas
técnicas para formar una muestra:
En las elecciones, presidenciales
norteamericanas de 1936, en las que ganó
Roosevelt, una revista hizo una encuesta a
más de cuatro millones de sus lectores y se
equivocó en el pronóstico. Otra encuesta,
realizada sólo a 4.500 personas, acertó en el
éxito de Roosevelt. La razón es que en el
primer caso la muestra no era
representativa de la sociedad
norteamericana, ya que sólo participaron
lectores de esa revista, mientras que la 2ª
encuesta se realizó entre personas de todos
los estamentos e ideologías de la sociedad
norteamericana.
Matemáticas aplicadas a las Ciencias Sociales II
Departamento de Matemáticas. I.E.S. “Fuente Lucena”. Alhaurín el Grande. 128
Muestreo aleatorio simple.
Se numeran los individuos de la población y se sortea entre ellos los
que se elegirán. Por ejemplo, para elegir una muestra representativa
de los alumnos del Centro, se introduce en una urna una papeleta con
el número de matrícula de cada uno y se elige al azar el número de
papeletas que constituirá la muestra,
Muestreo aleatorio sistemático:
Se numeran los individuos de la población, se elige al azar uno de
ellos y, a parir del mismo, se toman los restantes mediante saltos
numéricos iguales, El salto se llama coeficiente de elevación, y es el
cociente entero del número de individuos de la población, N, entre el
tamaño de la muestra, n. Así, si en una, clase de 30 alumnos se desea
extraer una muestra de seis alumnos, utilizando el orden de lista, se
elige uno al azar, por ejemplo, el 12º, y como el coeficiente es
30/6=5,vamos dando saltos de cinco en cinco; la muestra estaría
formada por los alumnos: l2º, 17º, 22º, 27º, 2º y 7º.
Muestreo aleatorio estratificado:
Si la población puede dividirse en estratos o grupos (por ejemplo, en
razón del sexo, de la edad,...), elegimos una muestra en cada estrato
cuyo tamaño será proporcional al peso que tenga en la población.
Dentro de cada estrato elegimos la muestra aleatoriamente.
Ejemplo:
En un instituto hay 40 estudiantes de Ciencias Sociales y 60 de
Ciencias de la Salud. Deseamos escoger una muestra de 20 alumnos
representativa de los mismos. Para repartirla entre los dos grupos de
alumnos, como la proporción de cada uno es:
CCSS: 40
0 '4 0 '4 20 8100
alumnos
CC SALUD: 60
0 '6 0 '6 20 12100
alumnos.
Los 8 alumnos de CCSS y los 12 de CC de la Salud se elegirían
aleatoriamente dentro de cada grupo.
Muestreo aleatorio por conglomerados o áreas:
Cuando tenemos a la población distribuida por estratos, hay veces que
nos interesará, en vez de realizar un muestreo estratificado como en el
caso anterior, elegir aleatoriamente algunos de los estratos y después
tomar una muestra proporcional en cada uno de ellos.
Matemáticas aplicadas a las Ciencias Sociales II
Departamento de Matemáticas. I.E.S. “Fuente Lucena”. Alhaurín el Grande. 129
Ejemplo:
En el IES Fuente Lucena en este curso (2003-2004), los alumnos se
distribuyen por cursos de la siguiente manera:
CURSO 1ºA 1ºB 1ºC 1ºD 2ºA 2ºB 2ºC 2ºD 2ºE 3ºA 3ºB 3ºC 3ºD 3ºE 4ºA 4ºB 4ºC 1ºBA 1ºBB 1ºBC 2ºBA 2ºBB 2ºBC Nº AL. 30 30 32 30 31 32 33 31 28 31 28 30 27 25 32 24 28 28 11 20 17 11 22
Queremos elegir una muestra de 30 alumnos a partir de un grupo de
cada nivel. Para ello, elegimos aleatoriamente un grupo de cada curso;
supongamos que obtenemos lº A, 2º B, 3º A, 4º 'B, 1º B y 2º A. La
muestra de cada grupo ha de representar a todo el nivel.
Como en total hay 611 alumnos en el instituto:
De lº hay que elegir 122
0 '1997 0 '1997 30 6611
6 alumnos
De 2º 155
0 '2537 0 '2537 30 7 '6611
8 alumnos
De 3º 141
0 '2308 0 '2308 30 6 '9611
7 alumnos
De 4º 84
0 '1375 0 '1375 30 4 '12611
4 alumnos
De lº de Bachillerato 59
0 '0966 0 '0966 30 2 '9611
3 alumnos
De 2º de Bachillerato 49
0 '0802 0 '0802 30 2 '4611
2 alumnos
Podemos ver que redondeamos los cálculos cuando es preciso.
2.3. TÉCNICAS PARA OBTENER UNA MUESTRA ALEATORIA:
En la pregunta anterior hemos comentado que para tomar una muestra aleatoria se
“eligen” individuos al azar para ver cuáles forman parte de la misma. Esta elección
puede llevarse a cabo de diversas formas:
Elección mediante extracción:
En una urna se introducen tantas bolas o papeletas numeradas como
individuos hay en una población, (éstos han sido previamente
numerados) y se escogen al azar tantas bolas o papeletas como
individuos tenga la muestras. La elección puede ser sin o cono
reemplazamiento, con la precaución en este segundo caso de desechar
los elementos repetidos.
Matemáticas aplicadas a las Ciencias Sociales II
Departamento de Matemáticas. I.E.S. “Fuente Lucena”. Alhaurín el Grande. 130
Utilización de números aleatorios:
La calculadora tiene la tecla RAN#, que genera números aleatorios
entre 0.000 y 0.999. Multiplicando uno de estos números por N
(tamaño de la población) obtenemos un número decimal cuya parte
entera está comprendida entre 0 y N-1. Por tanto, si tomamos la parte
entera del número obtenido mediante la secuencia N * RAN# + 1 =,
obtenemos un número elegido al azar entre 1 y N. Si repetimos este
proceso n veces, habremos obtenido una muestra aleatoria de n
elementos. Tendríamos que repetir la operación tantas veces como
elementos repetidos apareciesen. Si la población tuviese más de 1000
elementos, habría que obtener los números aleatorios con ordenador,
pues necesitaremos que tengan más de tres cifras decimales para
poder separar todos los elementos de la población.
Cuando no dispongamos de calculadora, podemos utilizar las tablas
de números aleatorios, que están formadas por grupos de dígitos
elegidos al azar y ordenados por filas y columnas. A continuación
reproducimos la tabla de Fisher y Yates. Para utilizarla podemos
empezar por cualquier número y continuar hacia arriba, hacía abajo, a
la derecha, a la izquierda o en diagonal. Puede utilizarse el número de
cifras que nos interesen, y tanto para el muestreo aleatorio simple
como para el sistemático.
TABLA DE NÚMEROS ALEATORIOS
Matemáticas aplicadas a las Ciencias Sociales II
Departamento de Matemáticas. I.E.S. “Fuente Lucena”. Alhaurín el Grande. 131
Ejemplo:
Para elegir 12 alumnos de un instituto en el que hay 940,
mediante muestreo sistemático, el coeficiente de elevación es
24020
12 ; elegimos en la tabla de números aleatorios un
número al azar comprendido entre 1 y 20. Para ello
seleccionamos una columna de números, por ejemplo la
primera, y en ella, por ejemplo, los dos últimos dígitos, hasta
encontrar un número entre 1 y 20, que resulta ser el 6. Corno
el coeficiente de elevación, es 20, la muestra que resulta es: 6,
26, 46, 66, 86, 106, 126, 146, 166, 186, 106 y 226.
3. DISTRIBUCIÓN DE LAS MEDIAS MUESTRALES
Para realizar inferencias estadísticas vamos a basarnos en la distribución de las medias
muestrales. Para entender mejor de qué distribución estamos hablando, empecemos con un
ejemplo:
Ejemplo:
Supongamos la siguiente población de tres elementos, 1,3,5P , y consideremos
todas las muestras de tamaño 2 que podemos formar con estos elementos
(considerando que puede haber reemplazamiento.):
Muestra: (1,1) (1,3) (1,5) (3,1) (3,3) (3,5) (5,1) (5,3) (5,5)
Y las medias ix 1 2 3 2 3 4 3 4 5
Bien, vamos a considerar la variable aleatoria X = “Distribución de las medias
muestrales de tamaño 2”, esto es, la variable aleatoria formada por la media de cada
una de las muestras de tamaño 2 que podemos formar (mediante reemplazamiento)
con los elementos de la población. Al ser una variable aleatoria discreta, podemos
calcular la frecuencia absoluta de cada uno de sus valores (cada una de las medías) y
calcular los parámetros estadísticos asociados. Para ello, distribuimos los datos en. la
siguiente tabla y realizamos los cálculos necesarios:
La media es 27
39
X
La varianza es 2 293 93 81 12 4
39 9 9 3
xS
La desviación típica es 4 2 2 3
3 33xS
Comparemos estos parámetros con los correspondientes a la población, esto es, con
la distribución teórica:
ix if i ix f 2
ix 2
i ix f
1 1 1 1 1
2 2 4 4 8
3 3 9 9 27
4 2 8 16 32
5 1 5 25 25
9 27 93
Matemáticas aplicadas a las Ciencias Sociales II
Departamento de Matemáticas. I.E.S. “Fuente Lucena”. Alhaurín el Grande. 132
Como 1,3,5P y los tres elementos son equiprobables, la distribución de
probabilidad es:
Por tanto, 3 2 235 8
33 3
8 2 2 2 6
3 33
¿Existe alguna relación entre los parámetros de la distribución poblacional y la
distribución de las medias muestrales de tamaño 2?
- La media coincide: X
- En cuanto a las desviaciones típicas: 2
xS
Este resultado es generalizable, a distribuciones de medias muestrales de cualquier
tamaño:
Así, si consideramos todas las muestras de tamaño 3 y calculamos la media de cada
una de ellas, la variable aleatoria formada por todas las medias muestrales verifica
que:
- Su media es 3.
- Su desviación típica es 2 6
3
En general, considerando todas las muestras de tamaño n que pueden formarse a
partir de una población dada, cada muestra da lugar a una distribución estadística de
la que podemos calcular su media. Cada una de las medias 1 2, , , ,iX X X forman
la llamada distribución muestral de las medias, o distribución de medias muestrales,
notada X , y cuyos parámetros estadísticos son:
media =
X
Sn
ix ip i ix p 2
ix 2
i ix p
1 1
3
1
3
1 1
3
3 1
3
1 9 3
5 1
3
5
3
25 25
3
93
3
35
3
Matemáticas aplicadas a las Ciencias Sociales II
Departamento de Matemáticas. I.E.S. “Fuente Lucena”. Alhaurín el Grande. 133
4. TEOREMA CENTRAL DEL LÍMITE:
Los resultados anteriores pueden ampliarse. Hasta ahora hemos hablado solamente de
parámetros estadísticos sin tener en cuenta el tipo de población de la que partíamos. Si
además resulta que la población inicial de la que extraemos las muestras es normal, o,
aunque no lo sea, el tamaño muestral es grande, entonces la distribución de las medias
muestrales va a ser normal (primer caso) o se va a aproximar con bastante exactitud a una
normal (segundo caso). Este resultado es lo que se conoce como Teorema Central del
Límite. Fue enunciado, por primera vez, por Pierre Simon de Laplace, y demostrado de
manera rigurosa por Liapounov en 1901. Su enunciado es el siguiente
Sea X una variable aleatoria de una población de media y desviación típica . Entonces
se verifica que:
1. La distribución de medias muestrales de tamaño n tiene media y desviación
típican
2. La distribución de las medias muestrales se aproxima a una distribución normal a
medida que crece el tamaño de la muestra.
¿Qué entendemos por “cuando n crece”?
- Si la población de partida es normal, la distribución de las medias muestrales
de tamaño n también es normal, cualquiera que sea n.
- Si la población de partida no es normal, para 30n podemos aproximar la
distribución de las medias muestrales de tamaño n como normal.
El teorema Central del Límite es el resultado fundamental que nos va a permitir llevar a
cabo, y de una manera sencilla, la inferencia estadística, pues finalmente vamos a trabajar
con distribuciones normales, cuyo manejo, a partir de las tablas, sabemos que es muy
sencillo.
Observación:
Es importante desde el principio, no confundir la distribución de la población con la
distribución de las medias muestrales. Sus medias coinciden, pero son variables
aleatorias distintas.
Ejemplo:
El cociente intelectual de unos universitarios se distribuye normalmente con media
100 y desviación típica 11.
a) Se elige una persona al azar. Hallar la probabilidad de que su CI esté
entre 100 y 103.
b) Se elige al azar una muestra de 25 personas. Encontrar la probabilidad de
que la media de sus cocientes intelectuales esté entre 100 y 103.
Matemáticas aplicadas a las Ciencias Sociales II
Departamento de Matemáticas. I.E.S. “Fuente Lucena”. Alhaurín el Grande. 134
Hemos de darnos cuenta de la diferencia que hay entre los dos apartados: en a) estarnos
hablando de una población normal X = “Coeficiente intelectual de unos universitarios”, y
tenemos que hallar la probabilidad de un intervalo de la misma, mientras que en b), la
variable ya no es X, sino la distribución de las medias muestrales para n = 25.
a) 100,11X N y tenemos que calcular 100 103p X . Tipificando
100
11
XZ
es 0,1N y se verifica que
100 100 103 100
100 10311 11
p X p Z
0 0'27 0'6064 0.5 0'1064p Z
b) Como X es normal, X , distribución de las medias muestrales, también es
normal, independientemente del valor de n. Como en este caso n = 25, los
parámetros de esta distribución son 100 y 11 11
2'2525
S , es decir,
100, 2 '2X N
La probabilidad que nos están pidiendo es 100 103p X , y como
100
2 '2
XT
es N(0,1) tenemos
100 100 103 100
100 10311 11
p X p T
0 1'36 0'9131 0.5 0'4131p Z
Recordatorio:
A partir de ahora hemos de manejar con soltura la distribución N(0,1). Teniendo en
cuenta que es simétrica respecto el origen, y utilizando la notación siguiente, es muy
fácil tomar los datos de la misma que con mayor frecuencia vamos a utilizar.
Normalmente vamos a utilizar intervalos centrados en 0, ,k k , y a su
probabilidad, p, la llamaremos 1
Es decir, 1p k Z k p
A k lo llamaremos valor crítico y a ,k k intervalo característico.
Teniendo en cuenta que fuera de ,k k quedan dos intervalos de probabilidad 2
,
al valor crítico k lo vamos a notar 2Z y tenemos las siguientes desigualdades:
22
p Z Z
y 2 2 1p Z Z Z
Matemáticas aplicadas a las Ciencias Sociales II
Departamento de Matemáticas. I.E.S. “Fuente Lucena”. Alhaurín el Grande. 135
Los valores críticos más utilizados corresponden a las probabilidades 0’9, 0’95 y
0’99 y son (véase la tabla de la normal) respectivamente, 1’645, 1’96, 2’575. En la.
siguiente tabla recogemos toda esta información:
Trasladando esta información a una distribución normal cualquiera ,N el
intervalo característico correspondiente a una probabilidad 1p es:
2 2,Z Z
Ejemplo:
En la distribución N(66, 8) el intervalo característico para el 90% es:
66 1'645 8,66 1'645 8 52'84,79'16
5. INFERENCIA ESTADÍSTICA
Con lo visto hasta ahora, dada una población de media y desviación típica conocidas,
sabemos como se distribuyen las medias de las muestras de tamaño n y, por tanto, hemos
sido capaces de averiguar la probabilidad de que la media de una de esas muestras cumpla
ciertas condiciones, por ejemplo, que se encuentre en un determinado intervalo. Es decir, a
partir de un cierto conocimiento de una población, hemos obtenido conclusiones sobre
cómo se comportan determinadas muestras de la misma.
En esta pregunta, vamos a dar un paso más: obtenida una muestra concreta, vamos, a partir
de sus parámetros, a inferir el valor de alguno de los parámetros de la población de partida.
Inferir significa hablar de un “grado de certeza”, de manera que llegaremos a conclusiones
como las siguientes:
- La media de las estaturas de los alumnos de un instituto está comprendida
entre 1’72 y 1’76 con un grado de certeza del 90%.
- El porcentaje de votos que conseguirá el alumno X en las elecciones al
Consejo Escolar estará comprendido entre el 34% y el 36% con un grado de
certeza del 95%.
Es decir, la, estimación la vamos a realizar mediante intervalos. Cuanto mayor sea su
amplitud, mayor es el error que podemos cometer en la estimación. Y esta estimación no se
realiza con total seguridad, sino con un cierto grado de certeza (80%, 90%, 99%...) que se
llama nivel de confianza.
1 2 2Z
0’9 0’05 1’645
0’95 0’025 1’96
0’99 0’005 2’575
Matemáticas aplicadas a las Ciencias Sociales II
Departamento de Matemáticas. I.E.S. “Fuente Lucena”. Alhaurín el Grande. 136
Aparecen tres variables que hay que tener en cuenta:
- El tamaño de la muestra a partir de la cual se realiza la inferencia.
- El margen de error: será la mitad de la amplitud del intervalo con el se
realiza la estimación.
- El nivel de confianza: grado de certeza con el que se realiza la estimación.
Ejercicio:
Utilizando el sentido común, responde a las siguientes preguntas, referidas al primer
ejemplo citado anteriormente, suponiendo que el intervalo [1’72, 1’76] se ha
obtenido a partir de una muestra de 65 alumnos:
a) Si disminuimos el tamaño de la muestra y mantenemos el nivel de confianza,
la longitud del intervalo ¿aumentará, disminuirá, quedará igual?
b) Si aumentamos el tamaño de la muestra y mantenemos la longitud del
intervalo el nivel de confianza ¿aumentará, disminuirá, quedará igual?
c) Si mantenemos el tamaño de la muestra y disminuimos el tamaño del
intervalo, el nivel de confianza ¿aumentará, disminuirá, quedará igual?
Pues bien, a continuación estudiaremos estas cuestiones con mayor precisión.
5.1. ESTIMACIÓN DE LA MEDIA DE UNA POBLACIÓN:
a) Si la desviación típica es conocida:
Supongamos que la media de una población es desconocida y deseamos
estimarla. Vamos a utilizar los resultados de la pregunta anterior:
Sabemos que si una población X tiene una media y una desviación típica
, entonces la distribución de las medias muestrales de tamaño n es una
distribución ,X Nn
Por tanto, y utilizando la nomenclatura de los intervalos críticos, podemos
decir que el 1 100% de las medias muestrales, se encuentran en el
intervalo 2 2,Z Z
n n
.
2 2, 1p x Z Zn n
Es decir, el 1 100% de las medias muestrales están de a una
distancia menor que 2Zn
.
Matemáticas aplicadas a las Ciencias Sociales II
Departamento de Matemáticas. I.E.S. “Fuente Lucena”. Alhaurín el Grande. 137
De manera que, dada una media muestral conocida, podernos asegurar que
aunque sea desconocida podemos dar una aproximación que se encuentra
a menos de 2Zn
de ella, con una probabilidad 1
Con lo que podemos estimar , desconocida, a partir de la. media X de una
muestra mediante el intervalo de confianza:
2 2,X Z X Zn n
Observación:
Una vez extraída una muestra, su media X estará o no en el
intervalo2 2,Z Z
n n
, de manera que ya no podemos
hablar de la probabilidad de que tal cosa ocurra, aunque por ser
desconocida nosotros, ignoremos si ocurre o no. Por eso, en lugar de
hablar de probabilidad, diremos que tenemos un nivel de confianza
1 de que esté en ese intervalo, y significa que si para todas y
cada una de las muestras de tamaño n calculásemos, el intervalo de
confianza, en el 1 100% de los casos estaría en dicho
intervalo.
Ejemplo:
Deseamos valorar el grado de conocimientos de historia de una
población de varios miles de alumnos universitarios. Sabemos que
2'3 . Tomamos una muestra de 100 alumnos y obtenemos una
media de 6’32 puntos. Dar un intervalo de confianza del verdadero
valor de la media con un nivel de confianza del 95%.
Sabemos que la distribución de las medias muestrales es
2'3
, ,0 '23100
N N
Si 1 0'95 , entonces 20 '025 1 0 '975 1'962 2
Z
Matemáticas aplicadas a las Ciencias Sociales II
Departamento de Matemáticas. I.E.S. “Fuente Lucena”. Alhaurín el Grande. 138
De donde el intervalo de confianza es
6'32 1'96 0'23,6'32 1'96 0'23 5'87,6'77 con un nivel de
confianza del. 95%.
Este nivel de confianza significa que en el 95% de las muestras de
tamaño 100 que pudiésemos tomar, el intervalo hallado contendría al
verdadero valor de la media.
Observación:
El razonamiento anterior es válido si la población de partida es
normal o, caso de que no lo fuese, el tamaño muestra fuese mayor o
igual que 30.
b) Si la desviación típica de la población es desconocida:
Habrá que estimarla a partir de la muestra. La forma más correcta de hacerlo
es mediante el parámetro muestral
2
1
i ix x fS
n
Sin embargo, para valores relativamente grandes de n, se puede tomar
directamente la desviación típica de la muestra, nS . En este caso, el intervalo
de confianza es 2 2,n nS S
x Z x Zn n
5.2. RELACIÓN ENTRE NIVEL DE CONFIANZA, ERROR ADMISIBLE Y TAMAÑO DE
LA MUESTRA:
Dado un intervalo con un nivel de confianza 1 , 2 2,Z Z
n n
,
sabemos que el 1 100% de las muestras cumplen que su media X se
encuentra en el interior del anterior intervalo, o lo que es lo mismo, que la distancia
entre y X verifica que 2x Zn
.
El, valor 2E Zn
se denomina error máximo admisible, pues para las medias
muestrales que se hallan en el intervalo es la máxima desviación respecto a la media
real de la población que puede haber. Depende de y n del siguiente modo:
- Cuanto mayor sea el tamaño de la muestra, menor es E, puesto que el
intervalo se hace más estrecho al estar n en el denominador.
- Cuanto mayor sea 1 , es decir, cuanto más seguros queramos estar de
nuestra estimación, mayor es E, ya que al aumentar 1 , aumenta también
2Z .
Matemáticas aplicadas a las Ciencias Sociales II
Departamento de Matemáticas. I.E.S. “Fuente Lucena”. Alhaurín el Grande. 139
En la tabla siguiente comprobamos lo expresado anteriormente para los niveles de
confianza usados más frecuentemente.
Podernos observar que cuanto mayor es 1 , mayor es 2Z y, por tanto, E.
5.3. CÁLCULO DEL TAMAÑO DE LA MUESTRA DADOS E Y :
A partir de la expresión del error máximo admisible, y fijado un nivel de confianza
1 , no tenemos más que despejar n en esa fórmula.
2
2 2
2
Z ZE Z n n
E En
Observaciones:
El tamaño de la muestra es tanto mayor cuanto mayor sea 2Z , o sea, cuanto
menor sea y mayor sea 1 . Es decir, para aumentar el nivel de
confianza aumentaremos el tamaño de la muestra.
El tamaño de la muestra es tanto mayor cuanto menor sea E. Es decir, cuanto
menor es E, el intervalo es más estrecho y somos más precisos en la
estimación; por tanto, mayor debe ser el tamaño de la muestra.
Ejemplo:
Al medir un tiempo de reacción, un psicólogo sabe que la desviación típica
del mismo es 0’5 segundos. ¿Qué número de medidas deberá realizar para
que con un 99% de confianza, el error de estimación no exceda de 0’1
segundos?
Para un nivel de confianza del 99%,
20 '01 1 0 '995 2 '5752
Z
Como 0'5 , sustituyendo: 2 2
2 22'575 0 '512 '875 165'76
0 '1
Zn
E
Por tanto, se deben realizar 166 medidas.
1 2Z
0’9 0’1 1’645
0’95 0’05 1’96
0’99 0’01 2’575
Matemáticas aplicadas a las Ciencias Sociales II
Departamento de Matemáticas. I.E.S. “Fuente Lucena”. Alhaurín el Grande. 140
5.4. CÁLCULO DEL NIVEL DE CONFIANZA CONOCIENDO E Y n:
Si tenemos fijado el error máximo admisible y el tamaño de la muestra, el nivel de
confianza se obtiene despejando 2Z en la fórmula del error:
2
E nZ
A partir de 2Z , en la tabla de la normal hallamos
2
, y de aquí el nivel de
confianza 1
Ejemplo:
Deseamos estimar la altura media de los alumnos de un instituto con un error
menor de 0’5 cm utilizando una muestra de 30 alumnos. Sabiendo que la
desviación típica es 5’3 cm, ¿cuál será el nivel de confianza con el que se
realiza la estimación?
2
0'5 300'52
5'3
E nZ
2 0'52 0'6985p Z Z p Z
0 '52 1 0 '6985 0 '3015 0 '60302
p Z
Y el nivel de confianza es 1 1 0'6030 0'3970
El nivel de confianza es del 39.7%, muy bajo. Esto es debido a que se
pretendía afinar mucho (error muy pequeño) con una muestra también
pequeña.
6. DISTRIBUCIÓN DE LAS PROPORCIONES MUESTRALES
En una cierta población, la proporción de individuos que posee una cierta característica es p.
Consideramos todas las posibles muestras de tamaño n que se pueden extraer de esa
población. En cada una de las muestras habrá una proporción pr de individuos con esa
característica. ¿Cómo se distribuyen todos los posibles valores de pr? Empecemos viéndolo
con un ejemplo.
Ejemplo
El 15% de los jóvenes de 18 a 25 años son miopes (este dato no es real). Nos proponemos
elegir al azar a 40 jóvenes y nos preguntamos qué proporción, pr, de miopes habrá en esa
muestra. Para cada individuo de la muestra (aún no extraída) la probabilidad de ser miope es
0 '15p .
Como en la muestra hay 40n individuos, el número X de miopes sigue una distribución
binomial B(40, 0’15). Puesto que 40 0 '15 6n p es mayor que 5, podemos aproximar la
Matemáticas aplicadas a las Ciencias Sociales II
Departamento de Matemáticas. I.E.S. “Fuente Lucena”. Alhaurín el Grande. 141
binomial por una normal ,N np npq . Por tanto, el número x de miopes en cada muestra
se aproxima a una distribución normal:
X = “Nº de miopes en una muestra” es 40 0'15, 40 0'15 0'85 6,2'26N N
La proporción de miopes en una muestra es º
40 40
n de miopes de la muestra xpr
Por tanto, pr es 6 2'26
, 0'15,0'056540 40
N N
.
Hemos visto, pues, que la proporción de miopes en una muestra aún no extraída, de tamaño
40, sigue una distribución normal de media 0 '15pr p y desviación típica
0 '0565pq
n .
6.1 DISTRIBUCIÓN DE LAS PROPORCIONES MUESTRALES.
Si en una población la proporción de individuos que posee una cierta característica C
es p, la proporción, pr, de individuos con dicha característica en la muestra de
tamaño n sigue una distribución normal de media p y desviación típica pq
n.
,pq
pr es N pn
(si 5np y 5nq )
Ejemplo
1. Una máquina produce tornillos. Se sabe que el 5% de ellos son
defectuosos. Se empaquetan en cajas de 400.
a) ¿Cómo se distribuye la proporción pr de tomillos defectuosos en
las cajas?
b) Encontrar un intervalo en el cual se encuentre el 90% de las
proporciones de tomillos defectuosos.
c) Encontrar un intervalo en el cual se encuentre el 99 % de las
proporciones de tomillos defectuosos en las cajas.
a) La totalidad de los tornillos producidos por la máquina es la población.
La proporción de tornillos defectuosos en la población es p = 0,05.
Cada caja es una muestra de 400 elementos: n = 400.
Como acabamos de ver, la proporción de tornillos defectuosos en las
cajas sigue una distribución normal.
0'05,0 '011N , ya que 0 '05p y 0'05 0'95
0'011400
pq
n
Matemáticas aplicadas a las Ciencias Sociales II
Departamento de Matemáticas. I.E.S. “Fuente Lucena”. Alhaurín el Grande. 142
b) Una probabilidad del 90% significa que
21 0 '9 0 '05 1'6452
Z
El intervalo correspondiente es
0'05 1'645 0'011,0'05 1'645 0'011 0'032,0'068 .
Esto quiere decir que el 90% de las cajas tienen una proporción de tornillos
defectuosos comprendida entre 0’032 y 0’068.
c) El 99% significa: 21 0 '99 0 '005 2 '5752
Z
El intervalo correspondiente es
0'05 2'575 0'011,0'05 2'575 0'011 0'022,0'078 .
6.2 ESTIMACIÓN DE UNA PROPORCIÓN O DE UNA PROBABILIDAD
Desconocemos la proporción, p, de individuos con una cierta característica que hay
en una población. Deseamos conocerla. Para ello nos valdremos de lo que sabemos
sobre la distribución de las proporciones, pr, en las muestras de tamaño n.
La proporción, pr, en muestras de tamaño n se distribuye según ,pq
N pn
Los intervalos característicos son: 2 2,pq pq
p Z p Zn n
Es decir, 2 2, 1pq pq
p pr p Z p Zn n
o
2 2 1pq pq
p p Z pr p Zn n
Estas igualdades pueden ponerse también del siguiente modo:
2 2 1pq pq
p pr Z p pr Zn n
La igualdad anterior pretende servir para estimar el valor de p mediante un intervalo.
El error máximo admisible, 2
pqE Z
n tiene el grave inconveniente de que está
dado en función de p. Por tanto, una vez extraída la muestra y obtenida la proporción
muestral, pr, estimamos los valores de p y q así: p pr , 1q pr
De este modo, el error máximo admisible (cota de error) para la estimación de p es:
Matemáticas aplicadas a las Ciencias Sociales II
Departamento de Matemáticas. I.E.S. “Fuente Lucena”. Alhaurín el Grande. 143
2
1pr prE Z
n
Se obtiene así el siguiente intervalo de confianza de p con un nivel de confianza de
1 100% :
2 2
1 1,
pr pr pr prpr Z pr Z
n n
Ejemplo
Tomada al azar una muestra de 300 personas mayores de 15 años en una gran
ciudad, se encontró que 104 de ellas leían el periódico regularmente.
Hallemos, con un nivel de confianza del 90%, un intervalo para estimar la
proporción de lectores de periódicos entre los habitantes de esa ciudad
mayores de 15 años.
Nivel de confianza del 290% 0'1 1'645Z
La proporción muestral es 104
0.347300
pr
El error máximo admisible (cota de error) es:
2
1 0'347 0'6531'645 0'045
300
pr prE Z
n
Por tanto, el intervalo pedido es
0'347 0'045,0'347 0'045 0'302,0'392 .
Conclusión: Afirmamos con un nivel de confianza del 90% que, en el
colectivo total, la proporción de lectores de periódicos está comprendida
entre 0,302 y 0,392.
Matemáticas aplicadas a las Ciencias Sociales II
Departamento de Matemáticas. I.E.S. “Fuente Lucena”. Alhaurín el Grande. 144
Problemas de inferencia
1) Explicar por qué, en cada uno de los siguientes casos, es imprescindible -o casi
imprescindible- recurrir a una muestra.
a) En un almacén hay 4.200 vasos de vidrio. Se quiere estudiar su resistencia a la rotura.
Para hacerlo, se les somete a presiones crecientes hasta que se parten.
b) Para estudiar el tiempo de reacción de ciertas sustancias, el experimentador las hace
reaccionar en 25 ocasiones, tomando medidas en cada una de ellas.
c) El profesor, para ver si sus explicaciones han sido entendidas por sus alumnos, realiza
varías preguntas entre ellos.
2) Disponemos del censo electoral de una población que consta de
27.800 electores. Deseamos extraer una muestra de 200 individuos.
a) ¿Cómo debe realizarse mediante muestreo aleatorio sistemático?
b) ¿Y mediante muestreo aleatorio simple?
Utiliza la función "RANDOM" de la calculadora.
3) Imaginemos que de la población anterior sabemos que el 20% tiene entre 18 y 25 años, el
35% entre 26 y 40, y el 45% más de 40 años. ¿Cómo se extraería una muestra de 200
individuos con estratos proporcionales a esos porcentajes?
4) En las distribuciones normales cuyos parámetros se dan, halla el intervalo característico
que se indica en cada caso:
5) Indica cómo se distribuyen las medias muestrales en cada uno de los siguientes casos:
A B C D E
PO
B.
DISTRIBUCIÓN NORMAL DESCONOCIDA NORMAL DESCONOCIDA DESCONOCIDA
MEDIA 20 20 3’75 3’75 112
DESVIACIÓN TÍPICA 4 4 1’2 1’2 15
TAMAÑO MUESTRA, n 16 100 4 12 100
A B C D E
MEDIA 0 0 112 3.512 3.512
DES. TÍPICA 1 10 15 550 550
PROBABILIDAD 95 90 95 99 80
Matemáticas aplicadas a las Ciencias Sociales II
Departamento de Matemáticas. I.E.S. “Fuente Lucena”. Alhaurín el Grande. 145
6) El tiempo de espera, en minutos, de los pacientes de un cierto servicio de ugencias, es
N(14,4).
a) ¿Cómo se distribuye el tiempo medio de espera de 16 pacientes?.Se ha atendido a
16 pacientes.
b) ¿Cuál es la probabilidad de que el tiempo medio de su espera esté comprendido
entre 12 y 15 minutos?
7) La estatura de los jóvenes varones (de 18 a 25 años) de una ciudad se distribuye
normalmente. Sabemos que el 90% de las medias de las muestras de 81 jóvenes están en el
intervalo característico (173.4, 175,8). Halla la media y la desviación típica de la
población de jóvenes.
8) El cociente intelectual (C.I.) de los alumnos de un centro se distribuye N(110, 15). Nos
proponemos extraer una muestra aleatoria de tamaño n = 25.
a) ¿Cuál es la distribución de las medias que pueden extraerse?
b) ¿Cuál es la probabilidad de que el C.I. medio de los 25 alumnos de la muestra
obtenida sea superior a 115?
c) Calcula el intervalo característico de las medias muestrales correspondientes
a un nivel 1 0'95 .
9) Los estudiantes de Bachillerato de una cierta comunidad autónoma duermen un número de
horas diarias que se distribuye según una ley normal de media desconocida y
desviación típica 3. A partir de una muestra de tamaño 30 se ha obtenido una media
muestral igual a 7 horas. Halla un intervalo de confianza al 96% para la media de horas de
sueño .
10) Para estimar la media de los resultados que obtendrían al resolver un cierto test los
alumnos de 4º de ESO de toda una comunidad autónoma, se les pasa dicho test a 400 de
ellos elegidos al azar, apareciendo los resultados en la tabla adjunta. A partir de ellos,
estima con un nivel de confianza del 95% el valor de la media de los resultados.
ix 1 2 3 4 5
if 24 80 132 101 63
11) Un ganadero de reses bravas quiere estimar el peso medio de los toros de su ganadería
con un nivel de confianza del 95%. Para ello, toma una muestra de 30 toros y los pesa.
Obtiene una media de 507 Kg. y una desviación típica de S = 32 Kg. ¿Cuál es el intervalo
de confianza para la media de la población?
12) Para estimar el peso medio de las chicas de 16 años de una ciudad, se toma una muestra
aleatoria de 100 de ellas, computándose una media de 52’5 Kg. y una desviación típica de
5.3 Kg. ¿Con qué nivel de confianza se hace la siguiente afirmación? “El peso medio de
las chicas de 16 años de esta ciudad está entre 51 y 54 Kg.”
13) Se sospecha que el número de unidades que contiene cada dosis de un medicamento no
llega a las 10.000 que se indican en el envase. El laboratorio que lo fabrica afirma que el
Matemáticas aplicadas a las Ciencias Sociales II
Departamento de Matemáticas. I.E.S. “Fuente Lucena”. Alhaurín el Grande. 146
contenido medio de la dosis es de 10.000 unidades. Para comprobarlo, tomamos al azar
100 dosis y determinamos el número de unidades de cada una, obteniendo una media de
9.940 unidades y una desviación típica de 120 unidades. Si suponemos que la distribución
del número de unidades en la población es normal, ¿qué podemos decir acerca de la
afirmación del laboratorio para un nivel de confianza del 99%?
14) ¿Qué error se comete si se realiza una encuesta a 1.000 personas de ambos sexos de 18
años o más con un nivel de confianza del 95’5%?
15) El cociente intelectual de un cierto colectivo tiene una media desconocida y
desviación típica 8. ¿De qué tamaño debe ser la muestra con la cual se estime la media con
un nivel de confianza de 99% y un error admisible E = 3?
16) La duración de las bombillas fabricadas por una empresa sigue una distribución normal
de media desconocida y desviación típica 50 horas. Para estimar la duración se
experimenta con una muestra de tamaño n. Calcula el valor de n para que, con un nivel de
confianza del 95%, se consiga un error en la estimación inferior a 5 horas.
17) Al medir el diámetro de los cojinetes producidos por una empresa, se estima que la
desviación típica de dicho diámetro es de 0’05 cm. Se han hecho 121 mediciones. ¿Se
puede afirmar, con el 99% de confianza, que el error en la estimación de la media no
excederá a 0’01 cm?
18) La duración de las bombillas de 100 vatios que fabrica una empresa sigue una
distribución normal con una desviación típica de 120 horas. Su vida media está
garantizada durante un mínimo de 800 horas. Se escoge al azar una muestra de 50
bombillas de un lote y, después de comprobarlas, se obtiene una vida media de 750 horas.
Con un nivel de significación 0'01 , ¿haremos caso a la garantía que ofrece la
empresa?
19) Una frutería vende naranjas con un peso medio de 145 gr. y una desviación típica de 30
gr. Se toma una muestra de 100 naranjas.
a) Halla la probabilidad de que el peso medio sea superior a 140 gr.
b) ¿Cuál es la probabilidad de que el peso medio de dicha media tome valores
comprendidos entre 140 gr. y 150 gr.?
20) La estatura de las personas adultas de una ciudad es una variable aleatoria que sigue una
ley normal de media 170 cm. y varianza 144 cm2.
a) Calcula la probabilidad de que la estatura media de una muestra de 36 adultos
elegidos al azar sea superior a 174 cm.
b) Determina el tamaño que debe tener una muestra para que la probabilidad de
que su media sea menor que 175 cm sea 0.072.
21) Después de su elaboración y posterior envasado, la duración de consumo de una leche
maternal es normal con media 360 días y desviación típica 40 días. Se toma una muestra
de 64 de ellas. Calcula la probabilidad de que la duración de la media muestral sea mayor
de 369’8 días. Escribe el desarrollo teórico que usas para resolver el problema.