Download - Tema 8.- Inferencia · poder separar todos los elementos de la población. Cuando no dispongamos de calculadora, podemos utilizar las tablas de números aleatorios, que están formadas

Matemáticas aplicadas a las Ciencias Sociales II

Departamento de Matemáticas. I.E.S. “Fuente Lucena”. Alhaurín el Grande. 126

Tema 8.- Inferencia

1. INTRODUCCIÓN

Hasta ahora hemos llevado a cabo un estudio descriptivo de variables aleatorias: teníamos

un conjunto de datos, normalmente procedentes de una muestra, y a partir de ellos

obteníamos información organizándolos para el cálculo de unos parámetros (de

centralización, de dispersión) o utilizando dicha información en diversos tipos de gráficos.

Sin embargo, no podíamos “ir más allá”, esto es, realizar predicciones sobre toda la

población. En este tema, y con ayuda de las distribuciones de probabilidad, vamos a

empezar a predecir resultados.

En primer lugar, dedicaremos un apartado al estudio de las muestras, viendo el papel que

juegan en los estudios estadísticos, comprobando su utilidad, estudiando las características

que deben tener y conociendo algunos métodos para extraerlas. Seguidamente,

introduciremos las primeras nociones de estadística inferencial: su objeto es el desarrollo de

técnicas que nos permitan conocer o comprobar el valor de los parámetros de una población

a partir de los datos de una muestra obteniendo unos resultados con un cierto grado de

incertidumbre que se mide en, términos de probabilidad. Vamos a centrarnos en la

estadística inductiva, cuyo objeto es estimar los parámetros de una, población mediante,

intervalos de confianza. Esto será la base para que, en estudios posteriores, se continúe

profundizando en la estadística hipotético-deductiva, cuyo objetivo es comprobar mediante

métodos matemáticos hipótesis realizadas sobre el valor de algún parámetro de la población

a partir de una muestra aleatoria extraída de ella.

La estadística inferencial tiene multitud de aplicaciones en todos los sectores de la actividad

humana: psicología, economía, investigación científica, política... como podremos

comprobar a lo largo del tema.

2. MUESTREO ALEATORIO

Ya sabemos la diferencia entre población (conjunto de todos los individuos objeto de un

estudio) y muestra (subconjunto extraído de la misma

para inferir características de toda la población) Un

ejemplo que rápidamente se nos viene a la cabeza es

el de las encuestas que frecuentemente aparecen en

los medios de comunicación relativas a diversos

aspectos de la actualidad política o sobre temas que

interesan a la sociedad: “Valoración de los distintos

líderes políticos”, “Encuesta sobre intención de

voto”, “Opinión sobre una determinada cuestión

medioambiental”. En el cuadro de la derecha

podemos observar la ficha técnica y los resultados

correspondientes a una encuesta sobre "¿Quién cree

usted que tiene más respeto y preocupación por el

medio ambiente'?"

RESULTADOS

- Los jóvenes 50 %

- Los mayores 26 %

- Ambos 17 %

- Ninguno 2 %

- NS/NC 4 %

FICHA TÉCNICA

Ámbito: Toda España

Universo: 18 años y más

Muestra: 2488 entrevistas

Error muestral: +/-2

Intervalo de confianza: 95.5%

Realización: 6 a 10 de marzo de 1996. CIS



A lo largo del tema iremos entendiendo los conceptos que aparecen en la ficha técnica de

cualquier encuesta que aparece en, los medios de comunicación, y en particular, de saber la

fiabilidad que presenta.

En este sentido, juega un papel muy importante la elección de la muestra, de manera que,,

muestras de tamaño pequeño, pueden predecir con bastante fiabilidad los resultados,

2.1. POR QUÉ SE RECURRE A LAS MUESTRAS:

En la práctica, es muy frecuente recurrir a una muestra para inferir datos de

población por alguno de los siguientes motivos:

La población es demasiado numerosa (por ejemplo, la totalidad de tocios los

españoles que pueden votar)

La población es muy difícil o imposible de controlar (por ejemplo, la

totalidad de las personas que entran en unos grandes almacenes a lo largo de

una semana)

El proceso de medición es destructivo. (Por ejemplo, si deseamos conocer la

duración media de las bombillas que hay en una tienda, el proceso es dejar

encendida la bombilla que se funda)

Por cuestiones de tiempo. (Por ejemplo, en un sondeo electoral, los datos

deben conocerse rápidamente)

2.2. CARACTERÍSTICAS DE UNA MUESTRA:

Para que una muestra nos sirva para realizar un estudio, debe ser representativa de

toda la población, es decir, debe representar a todos los elementos o grupos de dicha

población por igual.

Para ello, debemos fijarnos en dos aspectos: el tamaño de la muestra, y cómo se

realiza la selección de los individuos

que la forman. Es evidente que si la

muestra es demasiado pequeña no

podremos extraer conclusiones

realmente significativas.

Comprobaremos, sin embargo, cómo

con tamaños muestrales relativamente

pequeños obtendremos resultados

bastante aproximados. En cuanto a la

selección de los elementos de una

muestra, deben ser elegidos

aleatoriamente, es decir, al azar.

Veremos a continuación diversas

técnicas para formar una muestra:

En las elecciones, presidenciales

norteamericanas de 1936, en las que ganó

Roosevelt, una revista hizo una encuesta a

más de cuatro millones de sus lectores y se

equivocó en el pronóstico. Otra encuesta,

realizada sólo a 4.500 personas, acertó en el

éxito de Roosevelt. La razón es que en el

primer caso la muestra no era

representativa de la sociedad

norteamericana, ya que sólo participaron

lectores de esa revista, mientras que la 2ª

encuesta se realizó entre personas de todos

los estamentos e ideologías de la sociedad

norteamericana.



Muestreo aleatorio simple.

Se numeran los individuos de la población y se sortea entre ellos los

que se elegirán. Por ejemplo, para elegir una muestra representativa

de los alumnos del Centro, se introduce en una urna una papeleta con

el número de matrícula de cada uno y se elige al azar el número de

papeletas que constituirá la muestra,

Muestreo aleatorio sistemático:

Se numeran los individuos de la población, se elige al azar uno de

ellos y, a parir del mismo, se toman los restantes mediante saltos

numéricos iguales, El salto se llama coeficiente de elevación, y es el

cociente entero del número de individuos de la población, N, entre el

tamaño de la muestra, n. Así, si en una, clase de 30 alumnos se desea

extraer una muestra de seis alumnos, utilizando el orden de lista, se

elige uno al azar, por ejemplo, el 12º, y como el coeficiente es

30/6=5,vamos dando saltos de cinco en cinco; la muestra estaría

formada por los alumnos: l2º, 17º, 22º, 27º, 2º y 7º.

Muestreo aleatorio estratificado:

Si la población puede dividirse en estratos o grupos (por ejemplo, en

razón del sexo, de la edad,...), elegimos una muestra en cada estrato

cuyo tamaño será proporcional al peso que tenga en la población.

Dentro de cada estrato elegimos la muestra aleatoriamente.

Ejemplo:

En un instituto hay 40 estudiantes de Ciencias Sociales y 60 de

Ciencias de la Salud. Deseamos escoger una muestra de 20 alumnos

representativa de los mismos. Para repartirla entre los dos grupos de

alumnos, como la proporción de cada uno es:

CCSS: 40

0 '4 0 '4 20 8100

alumnos

CC SALUD: 60

0 '6 0 '6 20 12100

alumnos.

Los 8 alumnos de CCSS y los 12 de CC de la Salud se elegirían

aleatoriamente dentro de cada grupo.

Muestreo aleatorio por conglomerados o áreas:

Cuando tenemos a la población distribuida por estratos, hay veces que

nos interesará, en vez de realizar un muestreo estratificado como en el

caso anterior, elegir aleatoriamente algunos de los estratos y después

tomar una muestra proporcional en cada uno de ellos.



Ejemplo:

En el IES Fuente Lucena en este curso (2003-2004), los alumnos se

distribuyen por cursos de la siguiente manera:

CURSO 1ºA 1ºB 1ºC 1ºD 2ºA 2ºB 2ºC 2ºD 2ºE 3ºA 3ºB 3ºC 3ºD 3ºE 4ºA 4ºB 4ºC 1ºBA 1ºBB 1ºBC 2ºBA 2ºBB 2ºBC Nº AL. 30 30 32 30 31 32 33 31 28 31 28 30 27 25 32 24 28 28 11 20 17 11 22

Queremos elegir una muestra de 30 alumnos a partir de un grupo de

cada nivel. Para ello, elegimos aleatoriamente un grupo de cada curso;

supongamos que obtenemos lº A, 2º B, 3º A, 4º 'B, 1º B y 2º A. La

muestra de cada grupo ha de representar a todo el nivel.

Como en total hay 611 alumnos en el instituto:

De lº hay que elegir 122

0 '1997 0 '1997 30 6611

6 alumnos

De 2º 155

0 '2537 0 '2537 30 7 '6611

8 alumnos

De 3º 141

0 '2308 0 '2308 30 6 '9611

7 alumnos

De 4º 84

0 '1375 0 '1375 30 4 '12611

4 alumnos

De lº de Bachillerato 59

0 '0966 0 '0966 30 2 '9611

3 alumnos

De 2º de Bachillerato 49

0 '0802 0 '0802 30 2 '4611

2 alumnos

Podemos ver que redondeamos los cálculos cuando es preciso.

2.3. TÉCNICAS PARA OBTENER UNA MUESTRA ALEATORIA:

En la pregunta anterior hemos comentado que para tomar una muestra aleatoria se

“eligen” individuos al azar para ver cuáles forman parte de la misma. Esta elección

puede llevarse a cabo de diversas formas:

Elección mediante extracción:

En una urna se introducen tantas bolas o papeletas numeradas como

individuos hay en una población, (éstos han sido previamente

numerados) y se escogen al azar tantas bolas o papeletas como

individuos tenga la muestras. La elección puede ser sin o cono

reemplazamiento, con la precaución en este segundo caso de desechar

los elementos repetidos.



Utilización de números aleatorios:

La calculadora tiene la tecla RAN#, que genera números aleatorios

entre 0.000 y 0.999. Multiplicando uno de estos números por N

(tamaño de la población) obtenemos un número decimal cuya parte

entera está comprendida entre 0 y N-1. Por tanto, si tomamos la parte

entera del número obtenido mediante la secuencia N * RAN# + 1 =,

obtenemos un número elegido al azar entre 1 y N. Si repetimos este

proceso n veces, habremos obtenido una muestra aleatoria de n

elementos. Tendríamos que repetir la operación tantas veces como

elementos repetidos apareciesen. Si la población tuviese más de 1000

elementos, habría que obtener los números aleatorios con ordenador,

pues necesitaremos que tengan más de tres cifras decimales para

poder separar todos los elementos de la población.

Cuando no dispongamos de calculadora, podemos utilizar las tablas

de números aleatorios, que están formadas por grupos de dígitos

elegidos al azar y ordenados por filas y columnas. A continuación

reproducimos la tabla de Fisher y Yates. Para utilizarla podemos

empezar por cualquier número y continuar hacia arriba, hacía abajo, a

la derecha, a la izquierda o en diagonal. Puede utilizarse el número de

cifras que nos interesen, y tanto para el muestreo aleatorio simple

como para el sistemático.

TABLA DE NÚMEROS ALEATORIOS



Ejemplo:

Para elegir 12 alumnos de un instituto en el que hay 940,

mediante muestreo sistemático, el coeficiente de elevación es

24020

12 ; elegimos en la tabla de números aleatorios un

número al azar comprendido entre 1 y 20. Para ello

seleccionamos una columna de números, por ejemplo la

primera, y en ella, por ejemplo, los dos últimos dígitos, hasta

encontrar un número entre 1 y 20, que resulta ser el 6. Corno

el coeficiente de elevación, es 20, la muestra que resulta es: 6,

26, 46, 66, 86, 106, 126, 146, 166, 186, 106 y 226.

3. DISTRIBUCIÓN DE LAS MEDIAS MUESTRALES

Para realizar inferencias estadísticas vamos a basarnos en la distribución de las medias

muestrales. Para entender mejor de qué distribución estamos hablando, empecemos con un

ejemplo:

Ejemplo:

Supongamos la siguiente población de tres elementos, 1,3,5P , y consideremos

todas las muestras de tamaño 2 que podemos formar con estos elementos

(considerando que puede haber reemplazamiento.):

Muestra: (1,1) (1,3) (1,5) (3,1) (3,3) (3,5) (5,1) (5,3) (5,5)

Y las medias ix 1 2 3 2 3 4 3 4 5

Bien, vamos a considerar la variable aleatoria X = “Distribución de las medias

muestrales de tamaño 2”, esto es, la variable aleatoria formada por la media de cada

una de las muestras de tamaño 2 que podemos formar (mediante reemplazamiento)

con los elementos de la población. Al ser una variable aleatoria discreta, podemos

calcular la frecuencia absoluta de cada uno de sus valores (cada una de las medías) y

calcular los parámetros estadísticos asociados. Para ello, distribuimos los datos en. la

siguiente tabla y realizamos los cálculos necesarios:

La media es 27

39

X

La varianza es 2 293 93 81 12 4

39 9 9 3

xS

La desviación típica es 4 2 2 3

3 33xS

Comparemos estos parámetros con los correspondientes a la población, esto es, con

la distribución teórica:

ix if i ix f 2

ix 2

i ix f

1 1 1 1 1

2 2 4 4 8

3 3 9 9 27

4 2 8 16 32

5 1 5 25 25

9 27 93



Como 1,3,5P y los tres elementos son equiprobables, la distribución de

probabilidad es:

Por tanto, 3 2 235 8

33 3

8 2 2 2 6

3 33

¿Existe alguna relación entre los parámetros de la distribución poblacional y la

distribución de las medias muestrales de tamaño 2?

- La media coincide: X

- En cuanto a las desviaciones típicas: 2

xS

Este resultado es generalizable, a distribuciones de medias muestrales de cualquier

tamaño:

Así, si consideramos todas las muestras de tamaño 3 y calculamos la media de cada

una de ellas, la variable aleatoria formada por todas las medias muestrales verifica

que:

- Su media es 3.

- Su desviación típica es 2 6

3

En general, considerando todas las muestras de tamaño n que pueden formarse a

partir de una población dada, cada muestra da lugar a una distribución estadística de

la que podemos calcular su media. Cada una de las medias 1 2, , , ,iX X X forman

la llamada distribución muestral de las medias, o distribución de medias muestrales,

notada X , y cuyos parámetros estadísticos son:

media =

X

Sn

ix ip i ix p 2

ix 2

i ix p

1 1

3

1

3

1 1

3

3 1

3

1 9 3

5 1

3

5

3

25 25

3

93

3

35

3



4. TEOREMA CENTRAL DEL LÍMITE:

Los resultados anteriores pueden ampliarse. Hasta ahora hemos hablado solamente de

parámetros estadísticos sin tener en cuenta el tipo de población de la que partíamos. Si

además resulta que la población inicial de la que extraemos las muestras es normal, o,

aunque no lo sea, el tamaño muestral es grande, entonces la distribución de las medias

muestrales va a ser normal (primer caso) o se va a aproximar con bastante exactitud a una

normal (segundo caso). Este resultado es lo que se conoce como Teorema Central del

Límite. Fue enunciado, por primera vez, por Pierre Simon de Laplace, y demostrado de

manera rigurosa por Liapounov en 1901. Su enunciado es el siguiente

Sea X una variable aleatoria de una población de media y desviación típica . Entonces

se verifica que:

1. La distribución de medias muestrales de tamaño n tiene media y desviación

típican

2. La distribución de las medias muestrales se aproxima a una distribución normal a

medida que crece el tamaño de la muestra.

¿Qué entendemos por “cuando n crece”?

- Si la población de partida es normal, la distribución de las medias muestrales

de tamaño n también es normal, cualquiera que sea n.

- Si la población de partida no es normal, para 30n podemos aproximar la

distribución de las medias muestrales de tamaño n como normal.

El teorema Central del Límite es el resultado fundamental que nos va a permitir llevar a

cabo, y de una manera sencilla, la inferencia estadística, pues finalmente vamos a trabajar

con distribuciones normales, cuyo manejo, a partir de las tablas, sabemos que es muy

sencillo.

Observación:

Es importante desde el principio, no confundir la distribución de la población con la

distribución de las medias muestrales. Sus medias coinciden, pero son variables

aleatorias distintas.

Ejemplo:

El cociente intelectual de unos universitarios se distribuye normalmente con media

100 y desviación típica 11.

a) Se elige una persona al azar. Hallar la probabilidad de que su CI esté

entre 100 y 103.

b) Se elige al azar una muestra de 25 personas. Encontrar la probabilidad de

que la media de sus cocientes intelectuales esté entre 100 y 103.



Hemos de darnos cuenta de la diferencia que hay entre los dos apartados: en a) estarnos

hablando de una población normal X = “Coeficiente intelectual de unos universitarios”, y

tenemos que hallar la probabilidad de un intervalo de la misma, mientras que en b), la

variable ya no es X, sino la distribución de las medias muestrales para n = 25.

a) 100,11X N y tenemos que calcular 100 103p X . Tipificando

100

11

XZ

es 0,1N y se verifica que

100 100 103 100

100 10311 11

p X p Z

0 0'27 0'6064 0.5 0'1064p Z

b) Como X es normal, X , distribución de las medias muestrales, también es

normal, independientemente del valor de n. Como en este caso n = 25, los

parámetros de esta distribución son 100 y 11 11

2'2525

S , es decir,

100, 2 '2X N

La probabilidad que nos están pidiendo es 100 103p X , y como

100

2 '2

XT

es N(0,1) tenemos

100 100 103 100

100 10311 11

p X p T

0 1'36 0'9131 0.5 0'4131p Z

Recordatorio:

A partir de ahora hemos de manejar con soltura la distribución N(0,1). Teniendo en

cuenta que es simétrica respecto el origen, y utilizando la notación siguiente, es muy

fácil tomar los datos de la misma que con mayor frecuencia vamos a utilizar.

Normalmente vamos a utilizar intervalos centrados en 0, ,k k , y a su

probabilidad, p, la llamaremos 1

Es decir, 1p k Z k p

A k lo llamaremos valor crítico y a ,k k intervalo característico.

Teniendo en cuenta que fuera de ,k k quedan dos intervalos de probabilidad 2

,

al valor crítico k lo vamos a notar 2Z y tenemos las siguientes desigualdades:

22

p Z Z

y 2 2 1p Z Z Z



Los valores críticos más utilizados corresponden a las probabilidades 0’9, 0’95 y

0’99 y son (véase la tabla de la normal) respectivamente, 1’645, 1’96, 2’575. En la.

siguiente tabla recogemos toda esta información:

Trasladando esta información a una distribución normal cualquiera ,N el

intervalo característico correspondiente a una probabilidad 1p es:

2 2,Z Z

Ejemplo:

En la distribución N(66, 8) el intervalo característico para el 90% es:

66 1'645 8,66 1'645 8 52'84,79'16

5. INFERENCIA ESTADÍSTICA

Con lo visto hasta ahora, dada una población de media y desviación típica conocidas,

sabemos como se distribuyen las medias de las muestras de tamaño n y, por tanto, hemos

sido capaces de averiguar la probabilidad de que la media de una de esas muestras cumpla

ciertas condiciones, por ejemplo, que se encuentre en un determinado intervalo. Es decir, a

partir de un cierto conocimiento de una población, hemos obtenido conclusiones sobre

cómo se comportan determinadas muestras de la misma.

En esta pregunta, vamos a dar un paso más: obtenida una muestra concreta, vamos, a partir

de sus parámetros, a inferir el valor de alguno de los parámetros de la población de partida.

Inferir significa hablar de un “grado de certeza”, de manera que llegaremos a conclusiones

como las siguientes:

- La media de las estaturas de los alumnos de un instituto está comprendida

entre 1’72 y 1’76 con un grado de certeza del 90%.

- El porcentaje de votos que conseguirá el alumno X en las elecciones al

Consejo Escolar estará comprendido entre el 34% y el 36% con un grado de

certeza del 95%.

Es decir, la, estimación la vamos a realizar mediante intervalos. Cuanto mayor sea su

amplitud, mayor es el error que podemos cometer en la estimación. Y esta estimación no se

realiza con total seguridad, sino con un cierto grado de certeza (80%, 90%, 99%...) que se

llama nivel de confianza.

1 2 2Z

0’9 0’05 1’645

0’95 0’025 1’96

0’99 0’005 2’575



Aparecen tres variables que hay que tener en cuenta:

- El tamaño de la muestra a partir de la cual se realiza la inferencia.

- El margen de error: será la mitad de la amplitud del intervalo con el se

realiza la estimación.

- El nivel de confianza: grado de certeza con el que se realiza la estimación.

Ejercicio:

Utilizando el sentido común, responde a las siguientes preguntas, referidas al primer

ejemplo citado anteriormente, suponiendo que el intervalo [1’72, 1’76] se ha

obtenido a partir de una muestra de 65 alumnos:

a) Si disminuimos el tamaño de la muestra y mantenemos el nivel de confianza,

la longitud del intervalo ¿aumentará, disminuirá, quedará igual?

b) Si aumentamos el tamaño de la muestra y mantenemos la longitud del

intervalo el nivel de confianza ¿aumentará, disminuirá, quedará igual?

c) Si mantenemos el tamaño de la muestra y disminuimos el tamaño del

intervalo, el nivel de confianza ¿aumentará, disminuirá, quedará igual?

Pues bien, a continuación estudiaremos estas cuestiones con mayor precisión.

5.1. ESTIMACIÓN DE LA MEDIA DE UNA POBLACIÓN:

a) Si la desviación típica es conocida:

Supongamos que la media de una población es desconocida y deseamos

estimarla. Vamos a utilizar los resultados de la pregunta anterior:

Sabemos que si una población X tiene una media y una desviación típica

, entonces la distribución de las medias muestrales de tamaño n es una

distribución ,X Nn

Por tanto, y utilizando la nomenclatura de los intervalos críticos, podemos

decir que el 1 100% de las medias muestrales, se encuentran en el

intervalo 2 2,Z Z

n n

.

2 2, 1p x Z Zn n

Es decir, el 1 100% de las medias muestrales están de a una

distancia menor que 2Zn

.



De manera que, dada una media muestral conocida, podernos asegurar que

aunque sea desconocida podemos dar una aproximación que se encuentra

a menos de 2Zn

de ella, con una probabilidad 1

Con lo que podemos estimar , desconocida, a partir de la. media X de una

muestra mediante el intervalo de confianza:

2 2,X Z X Zn n

Observación:

Una vez extraída una muestra, su media X estará o no en el

intervalo2 2,Z Z

n n

, de manera que ya no podemos

hablar de la probabilidad de que tal cosa ocurra, aunque por ser

desconocida nosotros, ignoremos si ocurre o no. Por eso, en lugar de

hablar de probabilidad, diremos que tenemos un nivel de confianza

1 de que esté en ese intervalo, y significa que si para todas y

cada una de las muestras de tamaño n calculásemos, el intervalo de

confianza, en el 1 100% de los casos estaría en dicho

intervalo.

Ejemplo:

Deseamos valorar el grado de conocimientos de historia de una

población de varios miles de alumnos universitarios. Sabemos que

2'3 . Tomamos una muestra de 100 alumnos y obtenemos una

media de 6’32 puntos. Dar un intervalo de confianza del verdadero

valor de la media con un nivel de confianza del 95%.

Sabemos que la distribución de las medias muestrales es

2'3

, ,0 '23100

N N

Si 1 0'95 , entonces 20 '025 1 0 '975 1'962 2

Z



De donde el intervalo de confianza es

6'32 1'96 0'23,6'32 1'96 0'23 5'87,6'77 con un nivel de

confianza del. 95%.

Este nivel de confianza significa que en el 95% de las muestras de

tamaño 100 que pudiésemos tomar, el intervalo hallado contendría al

verdadero valor de la media.

Observación:

El razonamiento anterior es válido si la población de partida es

normal o, caso de que no lo fuese, el tamaño muestra fuese mayor o

igual que 30.

b) Si la desviación típica de la población es desconocida:

Habrá que estimarla a partir de la muestra. La forma más correcta de hacerlo

es mediante el parámetro muestral

2

1

i ix x fS

n

Sin embargo, para valores relativamente grandes de n, se puede tomar

directamente la desviación típica de la muestra, nS . En este caso, el intervalo

de confianza es 2 2,n nS S

x Z x Zn n

5.2. RELACIÓN ENTRE NIVEL DE CONFIANZA, ERROR ADMISIBLE Y TAMAÑO DE

LA MUESTRA:

Dado un intervalo con un nivel de confianza 1 , 2 2,Z Z

n n

,

sabemos que el 1 100% de las muestras cumplen que su media X se

encuentra en el interior del anterior intervalo, o lo que es lo mismo, que la distancia

entre y X verifica que 2x Zn

.

El, valor 2E Zn

se denomina error máximo admisible, pues para las medias

muestrales que se hallan en el intervalo es la máxima desviación respecto a la media

real de la población que puede haber. Depende de y n del siguiente modo:

- Cuanto mayor sea el tamaño de la muestra, menor es E, puesto que el

intervalo se hace más estrecho al estar n en el denominador.

- Cuanto mayor sea 1 , es decir, cuanto más seguros queramos estar de

nuestra estimación, mayor es E, ya que al aumentar 1 , aumenta también

2Z .



En la tabla siguiente comprobamos lo expresado anteriormente para los niveles de

confianza usados más frecuentemente.

Podernos observar que cuanto mayor es 1 , mayor es 2Z y, por tanto, E.

5.3. CÁLCULO DEL TAMAÑO DE LA MUESTRA DADOS E Y :

A partir de la expresión del error máximo admisible, y fijado un nivel de confianza

1 , no tenemos más que despejar n en esa fórmula.

2

2 2

2

Z ZE Z n n

E En

Observaciones:

El tamaño de la muestra es tanto mayor cuanto mayor sea 2Z , o sea, cuanto

menor sea y mayor sea 1 . Es decir, para aumentar el nivel de

confianza aumentaremos el tamaño de la muestra.

El tamaño de la muestra es tanto mayor cuanto menor sea E. Es decir, cuanto

menor es E, el intervalo es más estrecho y somos más precisos en la

estimación; por tanto, mayor debe ser el tamaño de la muestra.

Ejemplo:

Al medir un tiempo de reacción, un psicólogo sabe que la desviación típica

del mismo es 0’5 segundos. ¿Qué número de medidas deberá realizar para

que con un 99% de confianza, el error de estimación no exceda de 0’1

segundos?

Para un nivel de confianza del 99%,

20 '01 1 0 '995 2 '5752

Z

Como 0'5 , sustituyendo: 2 2

2 22'575 0 '512 '875 165'76

0 '1

Zn

E

Por tanto, se deben realizar 166 medidas.

1 2Z

0’9 0’1 1’645

0’95 0’05 1’96

0’99 0’01 2’575



5.4. CÁLCULO DEL NIVEL DE CONFIANZA CONOCIENDO E Y n:

Si tenemos fijado el error máximo admisible y el tamaño de la muestra, el nivel de

confianza se obtiene despejando 2Z en la fórmula del error:

2

E nZ

A partir de 2Z , en la tabla de la normal hallamos

2

, y de aquí el nivel de

confianza 1

Ejemplo:

Deseamos estimar la altura media de los alumnos de un instituto con un error

menor de 0’5 cm utilizando una muestra de 30 alumnos. Sabiendo que la

desviación típica es 5’3 cm, ¿cuál será el nivel de confianza con el que se

realiza la estimación?

2

0'5 300'52

5'3

E nZ

2 0'52 0'6985p Z Z p Z

0 '52 1 0 '6985 0 '3015 0 '60302

p Z

Y el nivel de confianza es 1 1 0'6030 0'3970

El nivel de confianza es del 39.7%, muy bajo. Esto es debido a que se

pretendía afinar mucho (error muy pequeño) con una muestra también

pequeña.

6. DISTRIBUCIÓN DE LAS PROPORCIONES MUESTRALES

En una cierta población, la proporción de individuos que posee una cierta característica es p.

Consideramos todas las posibles muestras de tamaño n que se pueden extraer de esa

población. En cada una de las muestras habrá una proporción pr de individuos con esa

característica. ¿Cómo se distribuyen todos los posibles valores de pr? Empecemos viéndolo

con un ejemplo.

Ejemplo

El 15% de los jóvenes de 18 a 25 años son miopes (este dato no es real). Nos proponemos

elegir al azar a 40 jóvenes y nos preguntamos qué proporción, pr, de miopes habrá en esa

muestra. Para cada individuo de la muestra (aún no extraída) la probabilidad de ser miope es

0 '15p .

Como en la muestra hay 40n individuos, el número X de miopes sigue una distribución

binomial B(40, 0’15). Puesto que 40 0 '15 6n p es mayor que 5, podemos aproximar la



binomial por una normal ,N np npq . Por tanto, el número x de miopes en cada muestra

se aproxima a una distribución normal:

X = “Nº de miopes en una muestra” es 40 0'15, 40 0'15 0'85 6,2'26N N

La proporción de miopes en una muestra es º

40 40

n de miopes de la muestra xpr

Por tanto, pr es 6 2'26

, 0'15,0'056540 40

N N

.

Hemos visto, pues, que la proporción de miopes en una muestra aún no extraída, de tamaño

40, sigue una distribución normal de media 0 '15pr p y desviación típica

0 '0565pq

n .

6.1 DISTRIBUCIÓN DE LAS PROPORCIONES MUESTRALES.

Si en una población la proporción de individuos que posee una cierta característica C

es p, la proporción, pr, de individuos con dicha característica en la muestra de

tamaño n sigue una distribución normal de media p y desviación típica pq

n.

,pq

pr es N pn

(si 5np y 5nq )

Ejemplo

1. Una máquina produce tornillos. Se sabe que el 5% de ellos son

defectuosos. Se empaquetan en cajas de 400.

a) ¿Cómo se distribuye la proporción pr de tomillos defectuosos en

las cajas?

b) Encontrar un intervalo en el cual se encuentre el 90% de las

proporciones de tomillos defectuosos.

c) Encontrar un intervalo en el cual se encuentre el 99 % de las

proporciones de tomillos defectuosos en las cajas.

a) La totalidad de los tornillos producidos por la máquina es la población.

La proporción de tornillos defectuosos en la población es p = 0,05.

Cada caja es una muestra de 400 elementos: n = 400.

Como acabamos de ver, la proporción de tornillos defectuosos en las

cajas sigue una distribución normal.

0'05,0 '011N , ya que 0 '05p y 0'05 0'95

0'011400

pq

n



b) Una probabilidad del 90% significa que

21 0 '9 0 '05 1'6452

Z

El intervalo correspondiente es

0'05 1'645 0'011,0'05 1'645 0'011 0'032,0'068 .

Esto quiere decir que el 90% de las cajas tienen una proporción de tornillos

defectuosos comprendida entre 0’032 y 0’068.

c) El 99% significa: 21 0 '99 0 '005 2 '5752

Z

El intervalo correspondiente es

0'05 2'575 0'011,0'05 2'575 0'011 0'022,0'078 .

6.2 ESTIMACIÓN DE UNA PROPORCIÓN O DE UNA PROBABILIDAD

Desconocemos la proporción, p, de individuos con una cierta característica que hay

en una población. Deseamos conocerla. Para ello nos valdremos de lo que sabemos

sobre la distribución de las proporciones, pr, en las muestras de tamaño n.

La proporción, pr, en muestras de tamaño n se distribuye según ,pq

N pn

Los intervalos característicos son: 2 2,pq pq

p Z p Zn n

Es decir, 2 2, 1pq pq

p pr p Z p Zn n

o

2 2 1pq pq

p p Z pr p Zn n

Estas igualdades pueden ponerse también del siguiente modo:

2 2 1pq pq

p pr Z p pr Zn n

La igualdad anterior pretende servir para estimar el valor de p mediante un intervalo.

El error máximo admisible, 2

pqE Z

n tiene el grave inconveniente de que está

dado en función de p. Por tanto, una vez extraída la muestra y obtenida la proporción

muestral, pr, estimamos los valores de p y q así: p pr , 1q pr

De este modo, el error máximo admisible (cota de error) para la estimación de p es:



2

1pr prE Z

n

Se obtiene así el siguiente intervalo de confianza de p con un nivel de confianza de

1 100% :

2 2

1 1,

pr pr pr prpr Z pr Z

n n

Ejemplo

Tomada al azar una muestra de 300 personas mayores de 15 años en una gran

ciudad, se encontró que 104 de ellas leían el periódico regularmente.

Hallemos, con un nivel de confianza del 90%, un intervalo para estimar la

proporción de lectores de periódicos entre los habitantes de esa ciudad

mayores de 15 años.

Nivel de confianza del 290% 0'1 1'645Z

La proporción muestral es 104

0.347300

pr

El error máximo admisible (cota de error) es:

2

1 0'347 0'6531'645 0'045

300

pr prE Z

n

Por tanto, el intervalo pedido es

0'347 0'045,0'347 0'045 0'302,0'392 .

Conclusión: Afirmamos con un nivel de confianza del 90% que, en el

colectivo total, la proporción de lectores de periódicos está comprendida

entre 0,302 y 0,392.



Problemas de inferencia

1) Explicar por qué, en cada uno de los siguientes casos, es imprescindible -o casi

imprescindible- recurrir a una muestra.

a) En un almacén hay 4.200 vasos de vidrio. Se quiere estudiar su resistencia a la rotura.

Para hacerlo, se les somete a presiones crecientes hasta que se parten.

b) Para estudiar el tiempo de reacción de ciertas sustancias, el experimentador las hace

reaccionar en 25 ocasiones, tomando medidas en cada una de ellas.

c) El profesor, para ver si sus explicaciones han sido entendidas por sus alumnos, realiza

varías preguntas entre ellos.

2) Disponemos del censo electoral de una población que consta de

27.800 electores. Deseamos extraer una muestra de 200 individuos.

a) ¿Cómo debe realizarse mediante muestreo aleatorio sistemático?

b) ¿Y mediante muestreo aleatorio simple?

Utiliza la función "RANDOM" de la calculadora.

3) Imaginemos que de la población anterior sabemos que el 20% tiene entre 18 y 25 años, el

35% entre 26 y 40, y el 45% más de 40 años. ¿Cómo se extraería una muestra de 200

individuos con estratos proporcionales a esos porcentajes?

4) En las distribuciones normales cuyos parámetros se dan, halla el intervalo característico

que se indica en cada caso:

5) Indica cómo se distribuyen las medias muestrales en cada uno de los siguientes casos:

A B C D E

PO

B.

DISTRIBUCIÓN NORMAL DESCONOCIDA NORMAL DESCONOCIDA DESCONOCIDA

MEDIA 20 20 3’75 3’75 112

DESVIACIÓN TÍPICA 4 4 1’2 1’2 15

TAMAÑO MUESTRA, n 16 100 4 12 100

A B C D E

MEDIA 0 0 112 3.512 3.512

DES. TÍPICA 1 10 15 550 550

PROBABILIDAD 95 90 95 99 80



6) El tiempo de espera, en minutos, de los pacientes de un cierto servicio de ugencias, es

N(14,4).

a) ¿Cómo se distribuye el tiempo medio de espera de 16 pacientes?.Se ha atendido a

16 pacientes.

b) ¿Cuál es la probabilidad de que el tiempo medio de su espera esté comprendido

entre 12 y 15 minutos?

7) La estatura de los jóvenes varones (de 18 a 25 años) de una ciudad se distribuye

normalmente. Sabemos que el 90% de las medias de las muestras de 81 jóvenes están en el

intervalo característico (173.4, 175,8). Halla la media y la desviación típica de la

población de jóvenes.

8) El cociente intelectual (C.I.) de los alumnos de un centro se distribuye N(110, 15). Nos

proponemos extraer una muestra aleatoria de tamaño n = 25.

a) ¿Cuál es la distribución de las medias que pueden extraerse?

b) ¿Cuál es la probabilidad de que el C.I. medio de los 25 alumnos de la muestra

obtenida sea superior a 115?

c) Calcula el intervalo característico de las medias muestrales correspondientes

a un nivel 1 0'95 .

9) Los estudiantes de Bachillerato de una cierta comunidad autónoma duermen un número de

horas diarias que se distribuye según una ley normal de media desconocida y

desviación típica 3. A partir de una muestra de tamaño 30 se ha obtenido una media

muestral igual a 7 horas. Halla un intervalo de confianza al 96% para la media de horas de

sueño .

10) Para estimar la media de los resultados que obtendrían al resolver un cierto test los

alumnos de 4º de ESO de toda una comunidad autónoma, se les pasa dicho test a 400 de

ellos elegidos al azar, apareciendo los resultados en la tabla adjunta. A partir de ellos,

estima con un nivel de confianza del 95% el valor de la media de los resultados.

ix 1 2 3 4 5

if 24 80 132 101 63

11) Un ganadero de reses bravas quiere estimar el peso medio de los toros de su ganadería

con un nivel de confianza del 95%. Para ello, toma una muestra de 30 toros y los pesa.

Obtiene una media de 507 Kg. y una desviación típica de S = 32 Kg. ¿Cuál es el intervalo

de confianza para la media de la población?

12) Para estimar el peso medio de las chicas de 16 años de una ciudad, se toma una muestra

aleatoria de 100 de ellas, computándose una media de 52’5 Kg. y una desviación típica de

5.3 Kg. ¿Con qué nivel de confianza se hace la siguiente afirmación? “El peso medio de

las chicas de 16 años de esta ciudad está entre 51 y 54 Kg.”

13) Se sospecha que el número de unidades que contiene cada dosis de un medicamento no

llega a las 10.000 que se indican en el envase. El laboratorio que lo fabrica afirma que el



contenido medio de la dosis es de 10.000 unidades. Para comprobarlo, tomamos al azar

100 dosis y determinamos el número de unidades de cada una, obteniendo una media de

9.940 unidades y una desviación típica de 120 unidades. Si suponemos que la distribución

del número de unidades en la población es normal, ¿qué podemos decir acerca de la

afirmación del laboratorio para un nivel de confianza del 99%?

14) ¿Qué error se comete si se realiza una encuesta a 1.000 personas de ambos sexos de 18

años o más con un nivel de confianza del 95’5%?

15) El cociente intelectual de un cierto colectivo tiene una media desconocida y

desviación típica 8. ¿De qué tamaño debe ser la muestra con la cual se estime la media con

un nivel de confianza de 99% y un error admisible E = 3?

16) La duración de las bombillas fabricadas por una empresa sigue una distribución normal

de media desconocida y desviación típica 50 horas. Para estimar la duración se

experimenta con una muestra de tamaño n. Calcula el valor de n para que, con un nivel de

confianza del 95%, se consiga un error en la estimación inferior a 5 horas.

17) Al medir el diámetro de los cojinetes producidos por una empresa, se estima que la

desviación típica de dicho diámetro es de 0’05 cm. Se han hecho 121 mediciones. ¿Se

puede afirmar, con el 99% de confianza, que el error en la estimación de la media no

excederá a 0’01 cm?

18) La duración de las bombillas de 100 vatios que fabrica una empresa sigue una

distribución normal con una desviación típica de 120 horas. Su vida media está

garantizada durante un mínimo de 800 horas. Se escoge al azar una muestra de 50

bombillas de un lote y, después de comprobarlas, se obtiene una vida media de 750 horas.

Con un nivel de significación 0'01 , ¿haremos caso a la garantía que ofrece la

empresa?

19) Una frutería vende naranjas con un peso medio de 145 gr. y una desviación típica de 30

gr. Se toma una muestra de 100 naranjas.

a) Halla la probabilidad de que el peso medio sea superior a 140 gr.

b) ¿Cuál es la probabilidad de que el peso medio de dicha media tome valores

comprendidos entre 140 gr. y 150 gr.?

20) La estatura de las personas adultas de una ciudad es una variable aleatoria que sigue una

ley normal de media 170 cm. y varianza 144 cm2.

a) Calcula la probabilidad de que la estatura media de una muestra de 36 adultos

elegidos al azar sea superior a 174 cm.

b) Determina el tamaño que debe tener una muestra para que la probabilidad de

que su media sea menor que 175 cm sea 0.072.

21) Después de su elaboración y posterior envasado, la duración de consumo de una leche

maternal es normal con media 360 días y desviación típica 40 días. Se toma una muestra

de 64 de ellas. Calcula la probabilidad de que la duración de la media muestral sea mayor

de 369’8 días. Escribe el desarrollo teórico que usas para resolver el problema.

Download - Tema 8.- Inferencia · poder separar todos los elementos de la población. Cuando no dispongamos de calculadora, podemos utilizar las tablas de números aleatorios, que están formadas

Top Related