nÚcleo iii: probabilidad y estadÍstica · 141 nÚcleo iii: probabilidad y estadÍstica el...

61
141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen el siguiente diálogo: Si las estadísticas no mienten … ¡Mienten! Bueno, nada … ¿Mienten las estadísticas? Dicho de otra forma, ¿nos pueden engañar a partir de estudios estadísticos correctos?. En cursos anteriores ya has tenido ocasión de trabajar con fenómenos aleatorios, así como con elaboración e interpretación de estudios estadísticos. Pero quizá, aunque ya eres consciente de que estos fenómenos debidos al azar mantienen un orden y pueden ser estudiados matemáticamente, te has planteado algunas preguntas que están sin resolver: Siempre me han dicho que Estadística y Probabilidad están estrechamente relacionadas, pero no llego a ver esa relación. Sé que es difícil que, al lanzar una moneda al aire 100 veces, salgan 80 caras, pero ¿puedo asegurar que la moneda está trucada? Estoy cansad@ de ver sondeos electorales, pero ni sé qué quiere decir la “Ficha técnica” ni sé si me puedo fiar de los resultados que pronostican. También lo estoy de encontrar en los medios de comunicación conclusiones a partir de estudios estadísticos. ¿Me puedo fiar de ellas? Al final de este tema esperamos que domines el cálculo de probabilidades, que veas clara la relación entre Probabilidad y Estadística y que tengas argumentos para saber interpretar estudios estadísticos y cómo y con qué fiabilidad se pueden deducir conclusiones a partir de ellos. En definitiva, que puedas apreciar el interés de una rama de las Matemáticas con importantes implicaciones en nuestra sociedad.

Upload: vuongdan

Post on 01-Aug-2018

226 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

141

NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA

El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen el siguiente diálogo: − Si las estadísticas no mienten …

− ¡Mienten! − Bueno, nada …

¿Mienten las estadísticas? Dicho de otra forma, ¿nos pueden engañar a partir de estudios estadísticos correctos?.

En cursos anteriores ya has tenido ocasión de trabajar con fenómenos aleatorios, así como con elaboración e interpretación de estudios estadísticos. Pero quizá, aunque ya eres consciente de que estos fenómenos debidos al azar mantienen un orden y pueden ser estudiados matemáticamente, te has planteado algunas preguntas que están sin resolver: • Siempre me han dicho que Estadística y Probabilidad están estrechamente relacionadas, pero no

llego a ver esa relación. • Sé que es difícil que, al lanzar una moneda al aire 100 veces, salgan 80 caras, pero ¿puedo

asegurar que la moneda está trucada? • Estoy cansad@ de ver sondeos electorales, pero ni sé qué quiere decir la “Ficha técnica” ni sé si

me puedo fiar de los resultados que pronostican. • También lo estoy de encontrar en los medios de comunicación conclusiones a partir de estudios

estadísticos. ¿Me puedo fiar de ellas? Al final de este tema esperamos que domines el cálculo de probabilidades, que veas clara la relación entre Probabilidad y Estadística y que tengas argumentos para saber interpretar estudios estadísticos y cómo y con qué fiabilidad se pueden deducir conclusiones a partir de ellos.

En definitiva, que puedas apreciar el interés de una rama de las Matemáticas con importantes implicaciones en nuestra sociedad.

Page 2: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

142

Page 3: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

143

TEMA 9: PROBABILIDAD El azar es el origen y fundamento de los juegos, especialmente de los llamados de mesa y, también, de las loterías, apuestas y quinielas (aunque en estas últimas el azar queda mediatizado por los millonarios presupuestos de los clubes que contra. tan jugadores superestrellas para asegurar el triunfo); y el juego, precisamente, es el origen del estudio de la probabilidad cuando, allá por el siglo XVII, Pascal, en su correspondencia con Fermat, comentando las aparentes paradojas que le formulaba su amigo el Caballero de Meré, empedernido jugador de dados, formuló los fundamentos de esa medida de la incertidumbre.

En esta unidad repasaremos esos fundamentos, el escenario teórico en el que se desarrolla la probabilidad y su cálculo, persiguiendo el objetivo de dominar sus entresijos y poder, en las próximas unidades, entender los principios básicos de la inferencia estadística y apreciar y medir el riesgo inherente a la toma de decisiones basadas en la información contenida en una pequeña muestra. Se termina la unidad con una referencia al teorema de Bayes, lo que nos permitirá apreciar la influencia que ejerce la experimentación en la probabilidad de un suceso y, por tanto, ajustar su valor con más elementos de juicio. Esa situación se pone especialmente de manifiesto cuando los hechos obligan a rectificar asignaciones a prior¡ de probabilidades que resultan inaceptables.

1 UN PROBLEMA PARA EMPEZAR (Y PARA RECORDAR)

En una Universidad en la que sólo hay estudiantes de Arquitectura, Ciencias y Letras, terminan la carrera el 5% de Arquitectura, el 10% de Ciencias y el 20% de Letras. Se sabe que el 20% estudia Arquitectura, el 30% Ciencias y el 50% Letras. Elegimos un estudiante al azar. a) ¿Cuál es la probabilidad de que sea de Arquitectura y haya terminado la carrera? b) ¿Cuál es la probabilidad de que haya terminado la carrera? c) Nos dice que ha terminado la carrera. ¿Cuál es la probabilidad de que sea Arquitectura? Resolución Empleemos la estrategia que empleemos, codificamos los sucesos: A: “Estudian Arquitectura” C: “Estudian Ciencias” L: “Estudian Letras” T. “Termina la carrera” T’: “No termina la carrera”

Estrategia 1: Mediante una tabla de contingencia

A C L Total

T 1 3 10 14

T’ 19 27 40 86

Total 20 30 50 100

a) P(A ∩ T) = = 0’01 = 1 %

b) P(T) = = 0’14 = 14 %

c) P(A/T) = ≅0’07 = 7 %

Page 4: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

144

Estrategia 2: Mediante los teoremas de la probabilidad

Tenemos las siguientes probabilidades: • P(A) = 0’20, P(C) = 0’30, P(L) = 0’50

• P(T/A) = 0’05, P(T/C) = 0’10, P(T/L) = 0’20 a) P(A ∩ T) = P(A) · P(T/A) = 0’20 · 0’05 = 0’01

b) P(T) = P(A) · P(T/A) + + P(C) · P(T/C) + P(L) · P(T/L) = 0’20 · 0’05 + 0’30 · 0’10 + 0’50 · 0’20

= 0’01 + 0’03 + 0’1 = 0’14 = 14 %

c) P(A/T) = ≅ 0’07 = 7 %

Comentarios Es posible que ya hayas, en cursos anteriores, trabajado con problemas como el anterior; por tanto, conocerás diferentes estrategias de resolución de ese tipo de problemas. De hecho, puede ser conveniente que completes el desarrollo de la 2ª estrategia con la construcción de un diagrama de probabilidad. Los cambios que en este curso se proponen no afectan tanto al método de resolución como a la forma; es decir, haremos sobre todo hincapié en una mayor formalización que afectará tanto a la codificación de los sucesos como a la aplicación de diferentes fórmulas.

EL AZAR. SUCESOS ALEATORIOS.

2 LAS LEYES DEL AZAR

Se llaman fenómenos aleatorios (o debidos al azar) aquéllos que, aunque se repitan en las mismas condiciones, producen un resultado que no tiene por qué ser el mismo, o sea, es imprevisible. Entonces, ¿cómo vamos a estudiar reglas que rijan lo imprevisible?.

Estamos acostumbrados a oír frases como ésta: “En el próximo puente se esperan diez millones de desplazamientos en coche”. Y los responsables de tráfico son capaces de predecir el flujo de vehículos en la salida de las ciudades e incluso los muertos que habrá por accidentes de tráfico. Las moléculas de un gas se mueven a gran velocidad y rebotan contra las paredes del recipiente que las contiene. Pero la presión que ejerce el gas sobre dichas paredes es la misma en todos los puntos. Isaac Asimov, en su trilogía de novelas El ciclo de Trentor (Fundación, Fundación e Imperio y Segunda Fundación) describe la existencia de una ciencia –la Psicohistoria– que es capaz de describir el comportamiento futuro de la Humanidad. ¿Tiene algún viso de realidad?

Hay muchos ejemplos sobre regularidades en situaciones totalmente aleatorias. ¿Se te ocurren algunos? Fíjate en que siempre hay un elemento en común: el gran número de individuos que componen la población sobre la que se realiza la previsión. Las reglas que vamos a estudiar sobre fenómenos aleatorios se van a referir no a lo que pueda suceder en un caso aislado, sino a una gran cantidad de elementos de una población. Así, al lanzar una vez una moneda bien construida no seremos capaces de prever el resultado, pero sí sabemos que al lanzarla muchas veces, aproximadamente en la mitad de las ocasiones obtendremos cara.

Page 5: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

145

Page 6: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

146

2.1 Probabilidad de Laplace La probabilidad de un suceso aleatorio es igual al cociente del número de casos que le son favorables entre el número de casos posibles del experimento. (Siempre que todos los casos tengan la misma posibilidad de ocurrir). Si A es un suceso aleatorio:

Observa que:

• P(A) es el cociente de dos números positivos. Por lo tanto se cumple que P(A) ≥ 0.

• El número de casos favorables a A nunca puede ser mayor que el número de casos posibles. Por lo tanto P(A) ≤ 1.

0 ≤ P(A) ≤ 1

2.2 Frecuencia y probabilidad Hemos visto que hay dos formas de asignar la probabilidad a un suceso:

• Suponiendo que todos los resultados elementales tienen la misma posibilidad de realizarse (son equiprobables). Esta probabilidad (de Laplace) se puede conocer de antemano, sin necesidad de realizar el experimento, por eso la denominaremos probabilidad “a priori”.

• Utilizando la frecuencia relativa del suceso en un número elevado de experiencias. Esta probabilidad requiere la realización del experimento. La denominaremos probabilidad “a posteriori”.

Cuanto mayor es el número de experiencias, más se acerca la frecuencia relativa a la probabilidad teórica (ley de los grandes números)

Actividad resuelta Se extrae una carta de una baraja española (40 cartas). Calcula la probabilidad de que salga: a) Un tres. b) Un oro. c) Un tres de oros. Resolución Como hay 40 cartas, 4 treses, 10 oros y sólo 1 tres de oros, tendremos:

P(tres) = = 0’10 = 10 % P(oro) = =’025 = 25 %

P(tres de oros) = = 0’025 = 2’5 %

Actividad propuesta 1. En un centro escolar hay 1000 alumnos repartidos así:

Chicos Chicas

Estudian Francés 40 60

Estudian Inglés 270 630

Se elige al azar uno de ellos. a) ¿Cuál es la probabilidad de que sea chico?

b) ¿Cuál es la probabilidad de que estudie francés? c) ¿Cuál es la probabilidad de que sea una chica y estudie inglés?

Page 7: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

147

3 SUCESOS ALEATORIOS

3.1 Definiciones En el estudio de un cierto fenómeno aleatorio, llamaremos • Espacio muestral: conjunto de todos los casos posibles: Ω

• Suceso elemental: todo elemento del espacio muestral: ω∈Ω

• Experimento: procedimiento por el que se selecciona un suceso elemental • Suceso: todo subconjunto del espacio muestral: ∀A⊂ Ω

• Dos sucesos algo especiales: Suceso seguro: Ω ⊂ Ω Suceso imposible: φ ⊂ Ω

• Dado un suceso A, diremos que se ha verificado si, tras la realización del experimento, se obtiene un suceso elemental que pertenece a A.

• A implica B si al verificarse A también lo hace B: A ⇒ B o A⊂B

A=B ⇔ A⊂B y B⊂A

• Dos sucesos A y B que no tienen sucesos elementales en común se llaman incompatibles. Es decir, dos sucesos tales que A∩B=∅

Actividad resuelta Halla los espacios muestrales de los siguientes experimentos: a) Tirar dos monedas y apuntar sus resultados. b) Tirar tres monedas y apuntar sus resultados. Resolución a) Al tirar dos monedas pueden obtenerse dos caras, suceso cc; una cruz y una cara, suceso +c; una

cara y una cruz, suceso c+ o dos cruces, suceso ++.

El espacio muestral será: E = {cc, c+, +c, ++} b) En este caso, para obtener todo los resultados, conviene utilizar un diagrama en árbol:

1 moneda 2 monedas 3 monedas ccc cc cc+ c c+c c+ c++ +cc +c +c+

+ ++c ++ +++

El espacio muestral será: E = {ccc, cc+, c+c, c++, +cc, +c+, ++c, +++}

Page 8: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

148

3.2 Operaciones y propiedades

Suceso Definición Notación

Suma o unión Suceso que se verifica si lo hacen A o B o los dos A o B , A∪B

Producto o intersección Suceso que se verifica si lo hacen a la vez A y B A y B , A∩B

Suceso contrario de A Suceso que se verifica cuando no lo hace A no A, Ac, , A’

Propiedades 1. A ∪ (B∪C) = (A∪B) ∪ C A ∩ (B∩C) = (A∩B) ∩ C

2. A∪B = B∪A A∩B = B∩A

3. A∪Ω = Ω A∩∅ = ∅

4. A ∪ (B∩C) = (A∪B)∩ (A∪C) A ∩ (B∪C) = (A∩B) ∪ (A∩C)

5. A ∪ = Ω A∩ = ∅

6. Leyes de Morgan

7. Resta de sucesos: A – B = A ∩

Actividad resuelta Sean los sucesos: A = {ser oyente de RNE}, B = {ser oyente de la SER} y C = {ser oyente de M80}. Expresa mediante las operaciones de sucesos: a) Ser oyente de, al menos, una emisora. b) Ser oyente de RNE, pero no de la SER ni de M80. c) Oír sólo dos emisoras. d) No oír ninguna emisora. Resolución:

a) Es equivalente a ser oyente de alguna de las tres emisoras, o sea: A ∪ B ∪ C.

b) A ∩ B' ∩ C' = A – (B ∪ C)

c) (A ∩ B ∩ C') ∪ (A ∩ B' ∩ C) ∪ (A' ∩ B ∩ C)

d) A' ∩ B' ∩ C' = (A∪B∪C)’

Actividades propuestas 2. En el experimento aleatorio “Lanzamiento de un dado”, escribe los sucesos:

a) Salir par. b) Salir un múltiplo de 3. c) Salir par o múltiplo de 3.

3. En una ciudad hay dos periódicos A y B. Describe, mediante las operaciones con sucesos, las siguientes situaciones:

a) Ser lector de algún periódico. b) Leer sólo uno de ellos. c) Leer los dos.

Page 9: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

149

d) No leer ninguno. PROBABILIDAD CONDICIONADA. PROBABILIDAD TOTAL.

4 PROBABILIDAD DE UN SUCESO. PROBABILIDAD CONDICIONADA.

4.1 Definición axiomática de probabilidad de un suceso La definición de probabilidad de Laplace tiene dos pegas: el no ser válida como tal si el espacio muestral es infinito y no ser una definición autosuficiente, puesto que se supone la equiprobabilidad de los sucesos elementales para luego definir probabilidad.

Dada una familia S de sucesos, se llama medida de probabilidad definida sobre S a toda aplicación

P: S → R

que cumpla los siguientes axiomas:

A1.- P(A) ≥ 0

A2.- P(Ω) = 1

A3.- Si A∩B = ∅ ⇒ P(A∪B) = P(A) + P(B)

La frecuencia relativa, ¿es una medida de probabilidad?

4.2 Propiedades

1. P( ) = 1 − P(A)

2. P(∅) = 0

3. Si A⊂B ⇒ P(A) ≤ P(B)

4. 0 ≤ P(A) ≤ 1 ∀A∈ S 

5. P(A∪B) = P(A) + P(B) − P(A∩B) ∀A,B∈ S

Todas estas propiedades se pueden demostrar fácilmente a partir de los axiomas que definen la probabilidad. Inténtalo. Es posible que te puedan ayudar estos dibujos:

Actividad resuelta En un banco hay dos alarmas, A y B. En caso de atraco, la probabilidad de que se activen A, B o ambas a la vez es:

P(A) = 0’75, P(B) = 0’85, P(A∩B) = 0’65

a) Calcula la probabilidad de que se active alguna de las dos. b) Calcula la probabilidad de que no se active ninguna. Resolución a) P(A∪B) = P(A) + P(B) – P(A∩B) = 0’75 + 0’85 – 0’65 = 0’95

Page 10: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

150

b) P( ∩ ) = P = 1 – P(A∪B) = 1 – 0’95 = 0’05

Page 11: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

151

Actividades propuestas 4. En una ciudad hay dos periódicos A y B. Se sabe que los porcentajes de ciudadanos que leen A,

B o los dos son, 50 %, 45 % y 20 %.

a) Halla la probabilidad de ser lector de algún periódico. b) Halla la probabilidad de leer sólo uno de ellos. c) Halla la probabilidad de leer los dos. d) Halla la probabilidad de no leer ninguno.

5. En una empresa hay 150 trabajadores. Se sabe que:

• 60 son hombres, de los que 5 son viudos. • Hay 52 mujeres casadas.

• En total, 69 personas son solteras y 16 viudas Designa con su inicial cada suceso. Con estos datos,

a) Confecciona una tabla de doble entrada Se elige una persona al azar en la empresa.

a) Calcula P(H), P(M), P(S), P(C), P(V) b) Calcula la probabilidad de que sea una mujer casada. c) Calcula la probabilidad de que sea una mujer o que sea una persona casada. d) Sabemos que la persona elegida es mujer. ¿Cuál es la probabilidad de que esté casada?. e) La persona elegida está casada. ¿Cuál es la probabilidad de que se trate de una mujer?.

4.3 Probabilidad condicionada Al contestar a las preguntas d) y e) de la actividad anterior, nos encontramos con que se nos da una condición previa que ya se cumple; estamos hablando de probabilidad condicionada, ya que la probabilidad de que la persona esté casada no es la misma sin poner ninguna condición (tenemos 150 posibilidades), que imponiendo la condición de que sea mujer (hay 90 mujeres).

El número que asignamos como probabilidad a un suceso varía según de la información que tenemos sobre él. En el momento en que tenemos más información, el número de casos posibles es más reducido y la probabilidad aumenta. Dados dos sucesos A y B, llamamos suceso A condicionado al suceso B a aquel suceso que se verifica cuando se verifique A sabiendo que ya se ha verificado B. Se escribe A/B.

Tienes que distinguir claramente cuándo se está hablando de A∩B de cuándo se habla de A/B: la diferencia fundamental consiste en que:

• si se considera A∩B, los casos posibles son todos los del espacio muestral Ω

• si se trata de A/B, sabemos que se ha verificado ya el suceso B, luego los casos posibles son sólo los de B.

Page 12: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

152

Se llama probabilidad del suceso A condicionada al suceso B a:

Se trata de una medida de probabilidad, pues cumple los tres axiomas citados (¡compruébalo!). Consecuencia: Puesto que también es

y A∩B = B∩A, se deduce que P(A∩B) = P(A/B) · P(B) = P(B/A) · P(A)

Dos sucesos A y B se llaman independientes si P(A/B)=P(A), P(B/A)=P(B) Luego A y B son independientes si y sólo si

P(A∩B) = P(A) · P(B)

Nota importante: Has de tener en cuenta que hablaremos de probabilidad condicionada cuando se realice más de un experimento aleatorio. Actividades resueltas Un escritor presenta un libro a dos editores distintos. La probabilidad de que se lo acepte cada uno de ellos es, respectivamente, 0’5 y 0’4. Calcula la probabilidad de que: a) Lo acepten los dos. b) Lo rechacen los dos. c) Al menos uno lo acepte. Resolución Si llamo: A: "Un editor lo acepta" y B: "El otro editor lo acepta", estos sucesos son independientes entre sí.

Además sé: P(A) = 0’5, P(A') = 0’5 P(B) = 0’4, P(B') = 0’6 a) Me piden P(A y B) = P(A) · P(B) = 0’5 · 0’4 = 0’2

b) Me piden P(A' y B') = P(A') · P(B') = 0’5 · 0’6 = 0’3 c) Me piden P(A o B) = P(A) + P(B) – P(A y B) = 0’5 + 0’4 – 0’2 = 0’7.

También puede ser: P(A o B) = 1 – P(A' y B') = 1 – 0’3 = 0’7 Actividades propuestas

6. Las academias A y B preparan a los opositores para la Policía Local. De 120 aspirantes preparados por la academia A, aprobaron 90. El total de suspensos fue de 100 de los 400 presentados entre ambas academias. Estudia la posible dependencia o independencia de los sucesos “aprobar” y “suspender” respecto a estudiar en cada una de las dos academias.

7. Tres máquinas A, B y C producen el 50%, 30% y 20% respectivamente de un tipo determinado de artículo. Los porcentajes de artículos defectuosos fabricados por cada una de las máquinas son respectivamente el 3%, 4% y 5%.

Toda la producción se mezcla al final del día. ¿Cuál es la probabilidad de que, al seleccionar un artículo al azar, sea defectuoso?

8. En una universidad en que la población estudiantil es muy numerosa, y basándose sobre la experiencia de años anteriores, se admite que el 25% de los estudiantes son vegetarianos; entre los vegetarianos, el 58% llevan gafas; entre los no vegetarianos, el 62% llevan gafas. Calcular el porcentaje de estudiantes con gafas en esta universidad.

Page 13: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

153

5 UTILIZAMOS EL SUCESO CONTRARIO

5.1 Tenemos dos experimentos Lucas es un hipocondríaco que considera que tiene todas las enfermedades. Cuando cumplió los 40 años, recopiló información en la que se decía que el 10 % de los mayores de 40 años tenía la enfermedad A y que el 15 % la enfermedad B. a) ¿Cuál es la probabilidad que tenía Lucas de padecer ambas enfermedades? b) ¿Y la de no padecer ninguna? c) ¿Qué probabilidad tenía de padecer alguna? Resolución El espacio muestral (que podría obtenerse mediante un diagrama en árbol) es:

E = {A∩B, A∩B’, A’∩B, A’∩B’}

Los sucesos A y B son independientes entre sí, ya que tener una enfermedad no depende de la otra. a) Nos piden P(A∩B) = P(A) · P(B) = 0’10 · 0’15 = 0’015 = 1’5 %

b) Nos piden P(A’∩B’) = P(A’) · P(B’) = 0’90 · 0’85 = 0’765 = 76’5 %

c) Nos piden P(A∪B)

El suceso A∪B = (A∩B’) ∪ (A’∩B) ∪(A∩B) ⇒ P(A∪B) = P(A∩B’) + P(A’∩B) + P(A∩B)

Pero también

A∪B = ⇒ P(A∪B) = 1 – P(A’∩B’)

Por tanto, es más cómodo utilizar la 2ª opción, mediante la probabilidad del suceso contrario.

P(A∪B) = 1 – P(A’∩B’) = 1 – 0’765 = 0’235 = 23’5 %

5.2 Tenemos tres experimentos Cuando Lucas cumplió los 50, se volvió más raro aún y se enteró de que el 30 % de los mayores de 50 años padecían la enfermedad A, el 25 % la enfermedad B y el 20 % la enfermedad C. a) ¿Cuál es la probabilidad que tenía Lucas de no padecer ninguna enfermedad? b) ¿Qué probabilidad tenía de padecer alguna? Resolución En este caso el espacio muestral es:

E = {A∩B∩C, A∩B∩C’, A∩B’∩C, A∩B’∩C’, A’∩B∩C, A’∩B∩C’, A’∩B’∩C, A’∩B’∩C’}

a) Nos piden P(A’∩B’∩C’) = P(A’) · P(B’) · P(C’) = 0’70 · 0’75 · 0’80 = 0’42 = 42 %

b) Nos piden P(A∪B∪C)

En este caso, el suceso A∪B∪C = (A∩B’∩C’) ∪ (A∩B’∩C) ∪(A∩B∩C) ∪ ..... ; es decir, está formado por 7 sucesos; por tanto, es más sencillo volver a utilizar el suceso contrario ya que:

A∪B∪C = ⇒ P(A∪B∪C) = 1 – P(A’∩B’∩C’ = 1 – 0’42 = 0’68 = 68 %

Resumen Si en algún problema te encuentras con la frase “alguna”, suele ser más conveniente utilizar la probabilidad del suceso contrario, “ninguna”. En cualquier caso, puede ser conveniente construir previamente el diagrama de árbol para obtener todos los sucesos.

Page 14: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

154

Actividad resuelta Las probabilidades de que un esposo y una esposa estén vivos dentro de 20 años están dadas por 0’8 y 0’ 9 respectivamente. Hallar la probabilidad de que en 20 años a) Ambos vivan b) Ninguno de ellos viva c) Al menos viva uno Resolución Tenemos dos sucesos independientes entre sí: H: “El esposo vive ...”, P(H) = 0’8; M: “La esposa vive ...”, P(M) = 0’9

a) P(H ∩ M) = P(H) · P(M) = 0’8 · 0’9 = 0’72

b) P(H’ ∩ M’) = P(H’) · P(M’) = 0’2 · 0’1 = 0’02

c) P(H ∪ M) = P(H) + P(M) – P(H ∩ M) = 0’8 + 0’9 – 0’72 = 0’98, o también:

P(H ∪ M) = 1 – P(H’ ∩ M’) = 1 – 0’02 = 0’98

Para poder contestar a las preguntas anteriores, puede ser interesante construir un diagrama en árbol:

Suceso

M H ∩ M

0’9

H 0’8 0’1

M’ H ∩ M’

M H’ ∩ M

0’2 0’9

H’ 0’1

M’ H’ ∩ M’

NOTA: Si en vez de dos sucesos fueran tres o más, el proceso es idéntico.

Actividades propuestas 9. Un ordenador personal está infectado por un virus y tiene cargados dos programas antivirus que

actúan independientemente el uno del otro. El programa P1 detecta la presencia del virus con una probabilidad del 90% y el programa P2 lo detecta con una probabilidad de 0’8.

¿Cuál es la probabilidad de que el virus sea detectado? 10. Se reparten, al azar, cinco premios entre cuatro mujeres y. seis hombres. Calcula la probabilidad

de que: a) Las cuatro mujeres resulten premiadas.

b) Se premie a alguna mujer.

Page 15: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

155

6 DEL DIAGRAMA EN ÁRBOL A LA PROBABILIDAD TOTAL

Antes de que leas el desarrollo de este punto, has de tener en cuenta que, como sucede en muchas ocasiones, se te ofrecen diferentes estrategias de resolución de problemas relacionados con la probabilidad condicionada. Tu tarea será tomar la decisión que creas más adecuada: diagrama, tabla de contingencia, aplicación de fórmulas, ..

6.1 El diagrama en árbol Veamos qué ocurre en la actividad propuesta nº 8: Llamamos: V = {“alumno vegetariano”} G={“alumno con gafas”}

Tendremos las siguientes probabilidades: P(V) = 0’25 P(G/V) = 0’58

P(no V) = 0’75 P(G/no V) = 0’62 El diagrama de árbol que habrás construido es el siguiente:

G 0’58

V 0’25 042

No G G

0’75 0’62 No V

0’38 No G

Observa que si hubieras querido poner en la 1ª columna la característica G, no hubieras podido completar la probabilidad correspondiente porque no se da en los datos del problema. Este detalle es muy importante para situaciones futuras en las que debas decidir como construir el diagrama. Como lo que se quiere calcular es P(G), a partir del diagrama se deduce que:

P(G) = 0’25 · 0’58 + 0’75 · 0’62 = 0’61 O, lo que es lo mismo, que

P(G) = P(V) · P(G/V) + P(no V) · P(G/no V) Lo cual es totalmente lógico, pues estamos diciendo que

P(G) = P(G∩V) + P(G∩noV)

Lo que hemos hecho ha sido aplicar el Teorema de la probabilidad total.

Page 16: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

156

6.2 Teorema de la probabilidad total • Se dice que {A1,A2,...An} es una partición del conjunto A si

= A

Ai ∩Aj = ∅ ∀i≠j

• Si {Hi}i=1,...,n es una partición de Ω ⇒

Puedes intentar demostrarlo a partir de los axiomas y propiedades ya demostradas (fíjate que los conjuntos A∩Hi no tienen elementos en común).

Actividad resuelta En una universidad existen tres facultades. En la Facultad A, el número de alumnos matriculados es de 400; en la B, 600; y en la C, 1000. Se sabe que el porcentaje de alumnos que suspenden en la Facultad A es del 25%; en la B, el 20% y en la C del 30%. Se elige al azar un alumno de esa universidad y se pide: a) ¿Cuál es la probabilidad de suspender? b) ¿Cuál es la probabilidad de aprobar? Resolución • Tenemos los siguientes sucesos:

A: “El alumno es de la universidad A”, B: “El alumno es .. B”, C: “El alumno es ... C”

S: “El alumno suspende”, S’: “El alumno aprueba” • También conocemos estas probabilidades:

P(A) = , P(B) = , P(C) = (Ten en cuenta que el total son 2000)

P(S/A) = 0’25, P(S/B) = 0’20, P(S/C) = 0’30 a) Nos están pidiendo P(S). Podemos aplicar el Teorema de la probabilidad total:

P(S) = P(A) · P(S/A) + P(B) · P(S/B) + P(C) · P(S/C) = · 0’25 + · 0’20 + · 0’30 =

= 0’05 + 0’06 + 0’15 = 0’36 = 36 %

b) Nos están pidiendo P(S’).

P(S’) = 1 – P(S) = 1 – 0’36 = 0’64= 64%.

Page 17: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

157

Resolución alternativa Con los datos del problema, construimos una tabla de contingencia:

A B C Total

S 100 120 300 520

S’ 300 480 700 1480

Total 400 600 1000 2000

Y ahora podemos aplicar la definición de probabilidad:

P(S) = = 0’36 = 36 %

Actividades propuestas 11. El equipo directivo de cierta empresa del sector de la hostelería está constituido por 25 personas,

de las que un 60% son mujeres. El gerente tiene que seleccionar a una persona de dicho equipo, para que represente a la empresa en un certamen internacional. Decide lanzar una moneda: si sale cara, selecciona a una mujer y si sale cruz, a un hombre.

Sabiendo que 5 mujeres y 3 hombres del equipo directivo no hablan inglés, determina, justificando la respuesta, la probabilidad de que la persona seleccionada hable inglés.

12. Nuestro ordenador está infectado por un virus y tiene cargados tres programas antivirus que actúan independientemente cada uno de los otros. El programa P1 detecta la presencia del virus con una probabilidad del 90%, el programa P2 lo detecta con una probabilidad de 0’8 y la probabilidad de que lo detecte el programa P3 es 3/4.

¿Cuál es la probabilidad de que el virus no sea detectado?

6.3 Teorema de Bayes Vamos a retomar la actividad propuesta 8: En una universidad en que la población estudiantil es muy numerosa, y basándose sobre la experiencia de años anteriores, se admite que el 25% de los estudiantes son vegetarianos; entre los vegetarianos, el 58% llevan gafas; entre los no vegetarianos, el 62% llevan gafas. Nos podemos plantear esta pregunta: Un estudiante de la Universidad de la que ya conocemos el estudio lleva gafas. Cuál es la probabilidad de que sea vegetariano? Resolución 1 En el problema se nos pide calcular P(V/G). Construimos esta tabla de contingencia en la que suponemos que el número de estudiantes es 1000.

V V’ Total

G 145 465 610

G’ 105 285 390

Total 250 750 1000 Tendremos:

P(V/G) = ≅ 0’24 = 24 %

Page 18: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

158

Resolución 2 Se nos pide que calculemos una probabilidad condicionada, P(V/G), pero conocemos las probabilidades con las condiciones inversas a las pedidas.

Si construyes la tabla de contingencia asociada al diagrama de árbol que ya hemos visto:

G No G Total

V 0’25 · 0’58 0’25 · 0’42 0’25

No V 0’75 · 0’62 0’75 · 0’38 0’75

Total 0’61 0’39 1

La probabilidad de que sea vegetariano sabiendo que lleva gafas es:

≅ 0’24 = 24 %

es decir, los casos posibles son los de G y los favorables, los de G∩V, con lo que podemos escribir

Has utilizado, sin saberlo, el Teorema de Bayes:

Si {Hi}i=1,...,n es una partición de Ω, se verifica que

Se puede demostrar a partir de los axiomas y propiedades de la probabilidad, así como el teorema de la probabilidad total. Para ello, recuerda que:

P(A∩B) = P(A/B) · P(B)

P(B∩A) = P(B/A) · P(A)

A∩B = B∩A

Este teorema pone de manifiesto la relación entre las probabilidades P(Ai), llamadas a priori por conocerse antes de la ocurrencia del suceso B y las probabilidades P(Ai/B), obtenidas a posteriori, pues su cálculo se realiza después de contar con una información adicional suministrada por aquel suceso. Afortunadamente, hay muy pocas situaciones en las que la única estrategia posible de resolución sea la aplicación del Teorema de Bayes. Ejemplo Disponemos de tres urnas. La urna A contiene 6 bolas rojas y 4 negras, la B 3 rojas y 7 negras y la C, respectivamente 8 y 2. Elegimos una urna al azar y extraemos al azar una bola, que resulta ser roja. ¿Cuál es la probabilidad de que hayamos elegido la urna B? Resolución mediante el teorema de Bayes Tenemos este esquema:

Urna A 6r 4n

Urna B 3r 7n

Urna C 8r 2n

Page 19: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

159

Nos piden que hallemos P(B/r), ya que la bola ha salido roja.

Sabemos las siguientes probabilidades:

P(A) = P(B) = P(C) = , P(r/A) = , P(r/B) = , P(r/C) =

Si aplicamos el teorema de Bayes, tendremos:

P(B/r) = =

=

NOTA: Recuerda que, como se mencionó anteriormente, no es la única estrategia de resolución del problema.

Actividades propuestas 13. En una empresa hay 150 trabajadores. Conocemos los siguientes datos:

60 personas fuman

80 trabajadores son varones hay 30 mujeres fumadoras

a) ¿Cuál es la probabilidad de que una persona elegida al azar sea una mujer fumadora? b) ¿Y de que sea mujer?

c) Se elige una persona al azar y es mujer. ¿Cuál es la probabilidad de que fume? d) Se elige una persona al azar. ¿Cuál es la probabilidad de que fume?

14. Suponiendo que la riqueza es independiente del sexo, calcular: a) Las probabilidades que faltan en la tabla

Rico/a Pobre Total

Europa 0’61

Africa 0’08 0’39

Total 0’40

b) La probabilidad de que sabiendo que una persona no es pobre sea africana. c) La probabilidad de que una persona sea rica o europea.

15. De los créditos concedidos por un banco, un 42 % lo son para clientes nacionales, un 33 % para clientes de la Unión Europea y un 25 % para individuos del resto del mundo. De esos créditos, son destinados a vivienda un 30 %, un 24 % y un 14 % según sean nacionales, de la UE o del resto del mundo. Elegido un cliente al azar, ¿qué probabilidad hay de que el crédito concedido no sea para vivienda?

16. Un joyero compra los relojes a dos proveedores distintos. El primero le sirve el 60% de los relojes, de los cuales el 0,4% son defectuosos. El segundo le proporciona le resto, siendo defectuosos el 1,5%. Un día el joyero, al vender el reloj, observa que éste no funciona. Hallar la probabilidad de que el reloj provenga del primer proveedor.

Page 20: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

160

7 UNA ACTIVIDAD RESUMEN

En un pueblo de la montaña hay 1000 habitantes con las siguientes características:

• 600 hombres y 400 mujeres • De los hombres usan Internet 150 y de las mujeres 300.

Un programa de TV escoge el citado pueblo para un concurso en el que se sortea un premio al azar. a) ¿Qué probabilidad hay de que sea un hombre?

b) ¿Que probabilidad hay de que use Internet? c)¿Qué probabilidad hay de que sea un hombre internauta?

d) ¿Qué probabilidad hay de que sea un hombre o de que use Internet? e) Sólo se sortea entre los que usan Internet. ¿Qué probabilidad hay de que sea un hombre?

Se sortean dos premios iguales entre todos los habitantes del pueblo. f) ¿Qué probabilidad hay de que sean dos hombres?

Resolución Codificamos los sucesos:

H: “ser hombre”, M: “Ser mujer”, I: “Usa Internet”, I’. “No usa Internet” Escribimos las probabilidades que conocemos:

P(H) = = 0’60 = 60 %, P(I/H) = = 0’25 = 25 %,

P(M) = 0’40 = 40 %, P(I/M) = = 0’75 = 75 %,

Construimos una tabla de contingencia:

I I’ Total

H 150 450 600

M 300 100 400

Total 450 550 1000

En las cinco primeras preguntas tenemos un solo experimento aleatorio: “Se sortea un premio” a) Nos piden P(H) = 60 % (Se nos da en la información inicial)

b) Nos piden P(I) = = 0’45 = 45 %

c) Nos piden P(H∩I) = = 0’15 = 15 %

d) Nos piden P(H∪I) = P(H) + P(I) – P(H∩I) = = 0’90 = 90 %

e) Nos piden P(H/I) = = 0’333.. = 33’33 %

Para la última pregunta tenemos dos experimentos aleatorios dependientes:

f) Nos piden P(H1∩H2) = P(H1) · P(H2/H1) = ≅ 0’36 = 36 %

Page 21: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

161

TEMA 10: MUESTREO El empleo de encuestas es uno de los métodos de investigación más utilizados en la actualidad. La realidad es difícilmente abarcable en su totalidad; por ello, se hace necesario seleccionar una parte lo más pequeña posible, pero representativa, del total, en la que sea posible medir las características deseadas. El muestreo estadístico es el instrumento que la Matemática ha generado para tal fin. La muestra de estudio ha de ser lo más pequeña posible por el tiempo y costes; además, el aumento de datos no siempre acarrea una certeza considerablemente mayor, pues es más importante que los datos sean representativos de la población que se desea estudiar. Por ejemplo, si se desea estimar la altura media de los hombres de 20 años, no es lógico preguntar exclusivamente, a los individuos que salen de presenciar un partido de baloncesto, pues, aunque no es necesario ser alto para que guste el baloncesto, es más probable que el baloncesto guste a los altos. Esta consideración pone de manifiesto la necesidad de estudiar cómo hay que seleccionar una muestra para que sea representativa. Parece que el azar debe jugar un papel importante en la elección. Además de algunos conocimientos estadísticos, necesitamos conocer herramientas imprescindibles en la toma de decisiones relativas a determinadas poblaciones basándose en la información obtenida por una muestra. A esta cuestión dedicaremos este tema y el siguiente y que se basa en una rama de la Estadística llamada Estadística inferencial, a establecer conclusiones sobre determinados parámetros poblaciones utilizando la información obtenida por una muestra representativa.

1 UNA ACTIVIDAD PARA TODO EL TEMA

En segundo de Bachillerato hay 80 alumnos que provienen de cuatro zonas próximas al centro escolar. Las zonas y el número de alumnos de cada una de ellas se representan en la siguiente tabla:

Zona B

8 alumnos

Zona A

36 alumnos

Zona D

12 alumnos

Zona C

24 alumnos

Como trabajo de clase, nos proponemos hacer un estudio estadístico con el fin de determinar algunas características socioeconómicas de las familias de todo segundo. Para ello decidimos obtener datos de una muestra de 20 alumnos, a los que haremos las siguientes preguntas: a) ¿Hay vídeo en tu casa?

b) ¿Tenéis ordenador? c) ¿Qué nota sacaste en Matemáticas?

Page 22: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

162

Comentarios Si bien para poder contestar a preguntas como las anteriores basta con conocer los conceptos estadísticos más básicos, para poder extraer conclusiones harán falta conceptos y estrategias un poco más complejas para las que necesitaremos recordar los contenidos sobre la distribución normal.

Los dos tipos de problemas que resuelven las técnicas estadísticas son: estimación y contraste de hipótesis. En ambos casos se trata de generalizar la información obtenida en una muestra a una población. Estas técnicas exigen que la muestra sea aleatoria. En la práctica rara vez se dispone de muestras aleatorias, por la tanto la situación habitual es la que se esquematiza en la figura:

Entre la muestra con la que se trabaja y la población de interés, o población diana, aparece la denominada población de muestreo: población (la mayor parte de las veces no definida con precisión) de la cual nuestra muestra es una muestra aleatoria. En consecuencia la generalización está amenazada por dos posibles tipos de errores: error aleatorio que es el que las técnicas estadísticas permiten cuantificar y críticamente dependiente del tamaño muestral, pero también de la variabilidad de la variable a estudiar y el error sistemático que tiene que ver con la diferencia entre la población de muestreo y la población diana y que sólo puede ser controlado por el diseño del estudio.

Page 23: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

163

Datos reales de las 80 familias

V O N V O N 1 1 0 6 45 1 1 5 2 1 0 5 46 1 0 4 3 0 0 3 47 1 0 6 4 1 1 5 48 1 0 8 5 1 0 2 49 0 0 7 6 1 0 1 50 1 0 5 7 1 0 5 51 0 1 2 8 1 0 2 52 1 0 9 9 0 0 8 53 1 1 10

10 1 1 5 54 0 0 3 11 1 0 10 55 1 0 6 12 0 0 4 56 1 1 4 13 1 0 6 57 1 1 5 14 1 0 4 58 0 1 3 15 1 0 5 59 1 0 5 16 1 1 4 60 1 1 4 17 0 0 5 61 1 0 6 18 0 0 6 62 0 0 2 19 1 0 6 63 1 0 7 20 1 1 9 64 0 1 6 21 1 0 6 65 1 0 4 22 1 1 4 66 1 0 5 23 0 1 8 67 0 0 9 24 1 1 4

ZO

NA

C

68 0 0 10 25 1 0 6 69 0 1 5 26 1 0 9 70 1 0 4 27 1 1 5 71 1 1 9 28 1 0 6 72 0 0 7 29 0 1 9 73 1 1 6 30 1 0 4 74 1 0 3 31 1 0 6 75 1 0 6 32 0 0 5 76 0 1 5 33 1 1 6 77 1 0 7 34 0 0 6 78 1 0 5 35 1 0 2 79 0 1 1

ZON

A A

36 1 0 7

ZO

NA

D

80 1 0 7 37 1 0 6 38 1 1 5 39 0 0 6 40 1 1 7 41 1 1 4 42 0 0 8 43 0 0 6

Seguimos los siguientes criterios:

V: “Poseen vídeo” O: “ Tienen ordenador”

N: “Nota de Matemáticas” 1: SÍ 0: NO

Porcentajes de la población:

Vídeos (V): 56/80 = 70 %

Ordenadores (O): 26/80 = 32’5 %

Media y desviación típica de las notas:

Notas (N): µ = 5’5, σ = 2’04

ZO

NA

B

44 1 0 5

Page 24: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

164

2 MUESTREO

Suponiendo que una empresa quiere lanzar al mercado un nuevo teléfono móvil y que desea saber la aceptación que tendrá, realiza un estudio sobre la opinión de todos los posibles compradores. Ahora bien, conocer estos datos es prácticamente imposible además de económicamente muy costoso. Por ello, bastará contactar con un pequeño grupo de la población llamada muestra, de tal forma que, a partir de la información que se obtenga de ella, se extraerán consecuencias para toda la población.

La estadística inferencial se encarga de extraer conclusiones acerca de la población a partir de los resultados obtenidos de una muestra. A partir de la información obtenida de la muestra, se deben obtener las conclusiones acerca de la población de la forma más coherente posible y, además, con cierto grado de confianza. Por ejemplo, si en la muestra el 80 % de los preguntados están dispuestos a comprar el nuevo teléfono, ¿se puede deducir que el 80 % de los posibles compradores se decidirán a hacer lo mismo? Obviamente no, puesto que depende de las características de la muestra, es decir, de cómo se haya elegido la muestra y el grado de confianza que manifieste. Por tanto, es muy importante que la muestra sea representativa de la población. Por ejemplo si el nuevo teléfono móvil que la empresa pretende lanzar al mercado tiene un precio en torno a los 600 €, y en la muestra seleccionada la mayoría de los encuestados son jóvenes entre 12 y 18 años, no parece muy razonable que se decidan a comprarlo. Las conclusiones que se puedan deducir de esa información muestral no tendrán mucho valor y seguramente serán erróneas. Para evitar este tipo de inconvenientes y que las conclusiones sobre la población sean fiables, es fundamental que el proceso de selección de la muestra sea el adecuado. Es decir, que la muestra sea representativa y aleatoria.

Si la muestra elegida no es representativa de la población se dice que tiene sesgo porque está desviado de nuestro objetivo. El sesgo proviene de favorece la elección de unos elementos de la muestra en detrimento de otros. A continuación se van a describir los distintos tipos de muestreos, con sus ventajas e inconvenientes, utilizando los datos del problema inicial.

2.1 Términos habituales en el muestreo Población. Es el conjunto total de individuos susceptibles de poseer la información buscada. Aunque se utilicen las palabras «población» e «individuo», no se refiere exclusivamente a personas: por ejemplo, la población puede estar formada por todos los árboles de un bosque. Muestra. Es la parte de la población en la que se miden las características estudiadas.

El número de individuos de la muestra se llama tamaño. Muestreo. Es el proceso seguido para la extracción de una muestra. El muestreo puede ser probabilístico o no. Nosotros nos referiremos siempre al probabilístico, que es aquel en el que la muestra se elige por métodos aleatorios; además, permite acotar el posible error y fijar la fiabilidad del trabajo. Encuesta. Es el proceso de obtener la información buscada entre los elementos de la muestra.

Parámetro. Es la característica que se estudia de la población. En este curso, normalmente, estudiaremos la media.

La información que contiene la muestra sobre el parámetro se obtiene construyendo un estimador del parámetro, que dependerá de la muestra elegida.

Page 25: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

165

2.2 Métodos de muestreo En el mundo probabilístico no se emplea el azar, sino el criterio del investigador. Este tipo de muestreo se utiliza con frecuencia en el mundo periodístico para conocer la opinión de los oyentes o lectores sobre una cuestión de actualidad. Suele presentar grandes sesgos y es poco fiable. El muestreo probabilístíco puede hacerse de diversas maneras:

• Aleatorio simple. • Sistemático.

• Estratificado En este tema trabajaremos con el muestreo aleatorio simple.

Siguiendo con nuestra idea inicial de realizar una encuesta a 20 de los 80 alumnos de Bachillerato, veamos cómo podemos elegir la muestra.

Lo ideal es obtenerla por procedimientos aleatorios; no vale hacerlo a ojo, ni preguntar a los 20 primeros que lleguen a clase, ni a los 20 más altos, ni a 20 chicas, etc. El método aleatorio empleado puede ser: Muestreo aleatorio simple Esquemáticamente se realiza de la siguiente manera: se escriben los nombres de los 80 alumnos en 80 papeletas; se doblan dichas papeletas; se meten en una urna; una persona toma, una a una, 20 papeletas. Preguntaremos a los 20 alumnos correspondientes. (El método sería el mismo si en vez de nombres asignamos a cada alumno un número del 1 al 80)

Este método de muestreo debe satisfacer dos criterios: 1. Cada individuo debe tener la misma probabilidad de ser elegido para la muestra. Esto es, la

probabilidad de cualquier alumno debe ser 1/80. 2. La selección de un individuo no debe afectar a la probabilidad de que sea seleccionado otro

cualquiera. Esto implica que la elección debería hacerse con reemplazamiento; aunque ello comporte que algún alumno pueda ser elegido más de una vez.

Nota: Si la elección se hace sin reemplazamiento, la probabilidad de elección del primer alumno es 1/80; la del segundo, 1/79; la del vigésimo 1/61. Obviamente, las probabilidades son distintas; así, el proceso deja de ser aleatorio simple.

Muestreo sistemático Para realizar el muestreo sistemático se ordenan previamente los individuos de la población; después se elige uno de ellos al azar; a continuación, a intervalos constantes, se eligen todos los demás hasta completar la muestra. En nuestro caso, hay que elegir uno de cada 4 (80:20 = 4); podemos, pues, sortear un número del 1 al 4. En el supuesto de que saliera el 3, la muestra elegida estaría formada por los individuos 3, 7, 11 .... 75, 79, que hacen un total de 20.

Análogo resultado se obtendría si sorteáramos el primer número entre los 80. Si, por ejemplo, saliese el 29, la muestra sería 29, 33, 37 ..., 77, 1, 5 .... 25.

Nota: Este método vulnera los criterios de aleatoriedad, pues una vez elegido el primer individuo, los demás tienen la probabilidad 1 o 0 de salir. Además, si la población de partida presenta algún tipo de regularidad, la muestra puede no ser representativa de ella.

Page 26: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

166

Muestreo estratificado (proporcional) Este tipo de muestreo divide la población total en clases homogéneas, llamadas estratos; por ejemplo, por grupos de edades, por sexo, por número de habitantes de las distintas poblaciones. Hecho esto, la muestra se escoge aleatoriamente en número proporcional al de los componentes de cada clase o estrato.

En nuestro ejemplo, elegimos los alumnos proporcionalmente a sus zonas de procedencia: 9 de A, 2 de B, 6 de C y 3 de D.

Nota: La mayoría de las encuestas a personas se hacen por este tipo de muestreo estratificado: con proporción de sexos, de edad, de municipios, etc.

Seleccionada la muestra ya estamos en condiciones de comenzar el estudio con los datos reales de los 80 alumnos de la tabla del problema inicial. (Inicialmente, estos datos serían desconocidos.)

Actividad resuelta a) Utiliza el método aleatorio simple para obtener una muestra de 20 alumnos entre los 80 que se

dan en la tabla de los datos reales. b) Para la muestra hallada, calcula el porcentaje de poseedores de vídeo y de ordenador, y su

nota media en Matemáticas. Compara tus resultados con los totales de la población. Resolución Aquí daremos una solución particular; a ti te saldrá otra muestra absolutamente distinta. (Aconsejamos que lo hagas con tus datos y que contrastes tus resultados con el nuestro.)

Para elegir la muestra vamos a utilizar la calculadora. (La mayoría de ellas dispone de una función que proporciona números aleatorios.) Las teclas SHIFT y · generan números entre 0,000 y 0,999. Tomando las tres últimas cifras, se tendrían entre 000 y 999; si además ignoramos los que salgan mayores de 80 podremos, con paciencia, obtener una muestra aleatoria.

Así, hemos obtenidos los siguientes números: 43, 32, 44, 62, 47, 20, 20, 41, 17, 23, 78, 24, 36, 61, 63, 24, 27, 66, 22, 37

Notas Observa que algunos individuos han salido repetidos; por ejemplo, el 20, y el 24. En este caso sería más representativo sustituir los elementos repetidos por otros, pero se vulneraría el método aleatorio simple.

En las encuestas profesionales, la población está formada por muchos elementos, por tanto, la probabilidad de repetición de individuos es prácticamente 0.

Para todos y cada uno de los individuos seleccionados miramos en la tabla sus respuestas a las tres preguntas. Si alguno está repetido se contabiliza tantas veces como esté; así, las respuestas de los números 20 y 24 se cuentan dos veces cada una. Sumados los datos, se tiene que:

Poseen vídeo (V): 15/20 75 % Poseen ordenador (O): 8/20 40 %

Notas (N): = 5,64 (s ≅ 1,71)

Curiosamente, todos los resultados han salido un poco más altos que los reales.

Page 27: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

167

Actividades propuestas 1. Para el total de los 80 alumnos de la tabla de la actividad inicial, ¿cómo elegirías una muestra de

16 alumnos por el método de muestreo sistemático?

2. En una ciudad se quiere hacer una encuesta para conocer el porcentaje de ciudadanos que aprueban la gestión del Ayuntamiento en cuestiones medioambientales (limpieza de calles, contaminación, cuidado de parques, etc.). Se pretende que la muestra sea representativa por sexo y edad; para la edad se establecen tres estratos: 10 a 25 años (jóvenes), 25 a 60 años (adultos) y mayores de 60. El número de personas de cada grupo es: 10 - 25, 3.000; 25 - 60, 8.500; mayores de 60, 2.500. Por sexo, la distribución es: 6.800 hombres y 7.200 mujeres, que se suponen proporcionales a cada grupo de edad. Si el tamaño de la muestra es de 500 personas, determina, redondeando si es necesario, el tamaño muestral correspondiente a cada estrato.

3 DISTRIBUCIÓN DE PROBABILIDAD DE LA MEDIA MUESTRAL

El resultado de la actividad resuelta anterior nos debe llevar a desconfiar (moderadamente) de las conclusiones obtenidas a partir de una muestra. Fíjate que si nos atenemos al resultado hallado, el 75 % de los alumnos tiene vídeo de una familia con tres o más hermanos: la muestra ha dado un 5 % más que el valor real. Podríamos haber obtenido otros resultados. De hecho, por azar, podríamos haber seleccionado una muestra de 20 individuos sin vídeo (aunque la probabilidad de que tal suceso se de sea prácticamente cero). Así pues, nunca podemos tener la seguridad de que la muestra elegida sea realmente representativa. Además, piensa que en la práctica no podemos comparar el resultado con el real, por la sencilla razón de que, si conocieras el dato auténtico, sería absurdo hacer una encuesta. No obstante, las medias muestrales se comportan estadísticamente bien, y siguen leyes perfectamente previsibles. Esto nos permitirá hacer inferencias precisas a partir de ellas; incluso determinar el riesgo que asumimos al hacerlas.

La idea de inferencia es la de deducción arriesgada. Estas inferencias se hacen a partir de los parámetros muestrales (estos parámetros suelen llamarse estimadores). Los estimadores más utilizados son la media muestral (la que utilizaremos normalmente), o la proporción muestral.

Ejemplo Se quiere conocer el tiempo de conexión a Internet de los usuarios que utilizan un mismo servidor. Para obtener información sobre el tiempo medio, m, de conexión se pregunta a 50 personas sobre su tiempo de conexión y se calcula la media de las respuestas. ¿Coinciden ambos valores?

Si se pregunta a otras 50 personas, ¿coincidirá la nueva media con la antigua?

Ambas preguntas, y otras relacionadas con ellas, pueden contestarse utilizando la idea de distribución muestral que refleja el comportamiento del estimador (en este caso la media), al tomar distintas muestras. La distribución de un estimador al tomar muestras de tamaño n en una población se llama distribución muestral. Estas distribuciones se comportan de forma muy semejante a una distribución que ya debes conocer: la distribución normal.

Antes de comenzar con la distribución muestral vamos a recordar el trabajo con la normal.

Page 28: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

168

3.1 Repaso de la distribución normal (lectura comprensiva) La mayor parte de las variables aleatorias continuas, tienen una distribución de probabilidad que acumula muchos individuos en los valores centrales, pero el número de éstos va decreciendo según se aleja la variable en cualquiera de los dos sentidos. Lo normal es que haya pocos individuos con valores extremos, ya sea por debajo o por encima de la media, y multitud de individuos que tomen valores intermedios, próximos a la media.

La apariencia gráfica de estas distribuciones es una curva, más o menos simétrica, en forma de campana. Mientras Karl Friedrich Gauss estudiaba los errores que se producen al medir una determinada magnitud, comprobó que éstos se distribuyen según una determinada función, de la cual dedujo la fórmula y cuya gráfica tiene forma de campana. Por esto se conoce con el nombre de «campana de Gauss.

Si la gráfica de la función de densidad de una variable aleatoria continua se ajusta a una campana de Gauss, se dice que la variable presenta una distribución normal. Las características esenciales de una distribución normal son la media y la desviación típica, de modo que las variables que presentan una distribución normal de media µ y desviación típica σ, se representan por N(µ,σ).

La campana de Gauss o curva normal es una curva simétrica con un máximo en x=µ, puntos de inflexión en x = µ ± σ y una asíntota horizontal en y = 0, es decir, el eje de abscisas.

Para cada par (µ,σ) existe una campana de Gauss distinta, pero todas ellas verifican:

El área bajo la curva entre dos abscisas cualesquiera representa la probabilidad de que la variable tome algún valor entre esas dos abscisas. Para obtener la probabilidad sería necesario conocer el área correspondiente. Para ello es necesario recurrir a tablas ya construidas mediante técnicas numéricas, pero no es posible tener una tabla para cada uno de los posibles valores de µ y σ. Al final del tema dispones de la tabla correspondiente a una distribución normal N(0,1).

Por ser una distribución normal, el área bajo una curva normal cualquiera es 100. Esta área se distribuye, expresando la probabilidad en tantos por ciento, del siguiente modo:

El área bajo la curva entre los dos puntos de inflexión vale 0’6826, es decir, que el 68’26% de los individuos toma valores centrales en una distribución normal.

El área bajo la curva entre µ – 2σ y µ + 2σ es 0’9545, esto es, sólo el 5 % de los individuos presenta un valor de la variable que difiere de la media dos veces más que la desviación

El área bajo la curva entre µ – 3σ y µ + 3σ es 0’9973 o, lo que es lo mismo, que prácticamente la totalidad de los individuos tiene un valor de la variable que difiere de la media, de tres

Page 29: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

169

típica. veces la desviación típica. Actividad resuelta El cociente intelectual de los 5600 alumnos de 1º de Bachillerato de una provincia se distribuye según una distribución normal N(112,6). Calcula aproximadamente cuántos de ellos tienen: a) más de 112; b) entre 106 y 118; c) menos de 100

Resolución Si recordamos los porcentajes correspondiente a una curva normal en este caso tendríamos:

a) P(x > 112) = 50 %, ya que la media es 112. Habrá unos 2800 alumnos que cumplan esta

condición. b) P(106 < x < 118) = 68’26 %. Habrá 0’6826 · 5600 ≅ 3823 alumnos

c) P(x < 100) = 100 % – ( 50 + 34’13 + 13’59) = 2’28 %. Habrá 0’0228 · 5600 ≅ 128 alumnos.

3.2 Cálculo de probabilidades en una distribución normal. Manejo de tablas. Cálculo de probabilidades en una distribución normal N(0,1) Sea Z una variable que sigue una distribución normal N(0, l). Veamos con ejemplos, y en orden creciente de dificultad, los casos más frecuentes que se suelen presentar. (Utilizar la Tabla del final del tema con los valores de Φ(z) ó Φ(Z) para 0 ≤ z ≤ 3'49)

1. p(Z ≤ 1’35)

La probabilidad pedida es igual al área sombreada (figura de la izquierda), y se encuentra directamente en la tabla solo con buscar 1’3 en la columna y 5 en la fila; su intersección nos da la probabilidad

p(Z ≤ 1’35) = 0’9115

Esto quiere decir que el 91’15 % de las observaciones se distribuye entre –∞ y 1’35.

2. p(Z ≤ –1’35)

La probabilidad pedida es igual al área sombreada de la figura de la izquierda. La tabla solo proporciona probabilidades para valores de Z positivos. Pero teniendo en cuenta la simetría de la función de densidad, y que el área encerrada por toda la curva es igual a la unidad, resulta: p(Z≤–1’35) = p(Z>1’35) = 1 – p(Z ≤ 1’35) = 1 – 0’9115 = 0’0885

Page 30: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

170

Page 31: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

171

3. p(0’5 ≤ Z ≤ 1’5)

La probabilidad pedida es el área sombreada de la figura de la izquierda. Su cálculo lo realizaremos restando al área mayor la menor: p(0’5≤ Z≤1’5) = p(Z ≤ 1’5) – p(Z ≤ 0’5) =

0’9332 – 0’6915 = 0’2417

4. p(–1’8 ≤ Z ≤ –0’3)

La probabilidad pedida es igual al área sombreada de la figura de la izquierda, y como consecuencia de la simetría de la función de densidad se tiene: p(–1’8 ≤ Z ≤ –0’3) = p(0’3 ≤ Z ≤ 1’8) =

p(Z ≤ 1’8) – p(Z ≤ 0’3) = 0’9641 – 0’6179 = 0’3462

5. p(–0’3 ≤ Z ≤ 1’35)

La probabilidad pedida es igual al área sombreada de la figura de la izquierda:

p(–0’3 ≤ Z ≤ 1’35) = p(Z ≤ 1’35) – p(Z ≤ –0’3) =

p(Z ≤ 1’35) – p(Z > 0’3) = p(Z ≤ 1’35) – [1 – p(Z ≤ 0’3)] =

0’9115 – (1 – 0’6179) = 0’9115 – 0’3821 = 0’5284 Lo que quiere decir que el 52’84 % de las observaciones se encuentran entre –0’3 y 1’35.

Cualquier otro caso que se pueda presentar cabe reducirlo, adecuadamente, a los que acabamos de exponer. Cálculo de probabilidades en una distribución normal N(µ ,σ)

Para calcular probabilidades en una distribución normal cualquiera no podemos utilizar directamente las tablas. Ahora bien, si X es una variable aleatoria de parámetros µ y σ , podemos realizar las siguientes transformaciones:

µ – σ ≤ X ≤ µ + σ

– σ ≤ X – µ ≤ σ

– 1 ≤ ≤ 1

Resultando que la nueva variable aleatoria

Z =

tiene media 0 y desviación típica 1, y se llama variable aleatoria tipificada. Tenemos una N(0,1). NOTA: Si en una distribución continua, nos piden, por ejemplo, la probabilidad de que una

persona mida exactamente 170 cm, la respuesta estricta sería ninguna. Interpretaremos, por tanto que medir 170 cm significa medir entre 169’5 cm y 170’5 cm. Es decir:

P(X = 170) = P(169’5 ≤ X ≤ 170’5)

Page 32: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

172

Actividades resueltas 1. En una N(6,4), calcula las probabilidades:

a) P(X ≤ 12) b) P(X ≥ 3) c) P(5 ≤ X ≤ 8)

Resolución

a) P(X ≤ 12) = P = P(Z ≤ 1’5) = Φ(1’5) = 0’9332

b) P(X ≥ 3) = P = P(Z ≥ –0’75) = P(Z ≤ 0’75) = Φ(0’75) = 0’7734

c) P(5 ≤ X ≤ 8) = P = P(–0’25 ≤ Z ≤ 0’5) = p(Z ≤ 0’5) – p(Z ≤ –0’25) =

p(Z ≤ 0’5) – p(Z > 0’25) = p(Z ≤ 0’5) – [1 – p(Z ≤ 0’25)] = 0’6915 – (1 – 0’5987) = 0’2902

2. El número de visitantes que diariamente acude a una atracción se distribuye según una normal

N(2000,250). a) Halla la probabilidad de que un día determinado el número de visitantes no supere los 2100. b) Calcula la probabilidad de que un día cualquiera el número de visitantes sean más de 1500 c) En un mes de 30 días, ¿en cuántos días cabe esperar que el número de visitantes supere los

2210? Resolución

a) P(x ≤ 2100) = P = P(z ≤ 0’4) = φ(0’4) = 0’6554

b) P(x > 1500) = P(z > –2) = P(z < 2) = φ(2) = 0’9772

c) P(x > 2210) = P = P(z > 0’84) = 1 – φ(0’84) = 1 – 0’7995 = 0’2005

En un mes: 30 · 0’2005 = 6’015 (6 días por mes) 3. Se ha aplicado a 300 alumnos de 1º ESO un test de agresividad y se ha observado que se

distribuyen normalmente con media 30 y desviación típica 12. Se pide: a) ¿Qué proporción de alumnos tendrá una puntuación en dicho test entre 20 y 35? b) ¿Cuántos alumnos tendrán una puntuación superior a 42?

Resolución Se trata de una distribución N(30, 12). Calculemos las probabilidades pedidas: a) p(20 < X ≤ 35) = p(– 0’83 < Z ≤ 0’42) = p(Z ≤ 0’42) – [1 – p(Z ≤ 0’83) =

0’6628 – (1 – 0’7967) = 0’4595 Es decir, aproximadamente el 46 % de los alumnos tiene una puntuación entre 20 y 35.

b) p(X > 42) = 1 – p(X ≤ 42) = 1 – p(Z ≤ 1) = 1 – 0’8413 = 0’1587

Es decir, el 15’87 % de los individuos tiene puntuaciones superiores a 42. El número de individuos se obtendrá multiplicando el total de alumnos por la proporción; es decir: 300 · 0’1587 = 48 alumnos.

Page 33: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

173

TABLA: FUNCIÓN DE DISTRIBUCIÓN DE LA NORMAL TIPIFICADA

z 0 1 2 3 4 5 6 7 8 9

0.0 0.1 0.2 0.3 0.4

5000 5040 5080 5120 5160 5199 5239 5279 5319 5359 5398 5438 5478 5517 5557 5596 5636 5675 5714 5753 5793 5832 5871 5910 5948 5987 6026 6064 6103 6141 6179 6217 6255 6293 6331 6368 6406 6443 6480 6517 6554 6591 6628 6664 6700 6736 6772 6808 6844 6879

0.5 0.6 0.7 0.8 0.9

6915 6950 6985 7019 7054 7088 7123 7157 7190 7224 7257 7291 7324 7357 7389 7422 7454 7486 7517 7549 7580 7611 7642 7673 7703 7734 7764 7794 7823 7852 7881 7910 7939 7967 7995 8023 8051 8078 8106 8133 8159 8186 8212 8238 8264 8289 8315 8340 8365 8389

1.0 1.1 1.2 1.3 1.4

8413 8438 8461 8485 8508 8531 8554 8577 8599 8621 8643 8665 8686 8708 8729 8749 8770 8790 8810 8830 8849 8869 8888 8907 8925 8944 8962 8980 8997 9015 9032 9049 9066 9082 9099 9115 9131 9147 9162 9177 9192 9207 9222 9236 9251 9265 9279 9292 9306 9319

1.5 1.6 1.7 1.8 1.9

9332 9345 9357 9370 9382 9394 9406 9418 9429 9441 9452 9463 9474 9484 9495 9505 9515 9525 9535 9545 9554 9564 9573 9582 9591 9599 9608 9616 9625 9633 9641 9649 9656 9664 9671 9678 9686 9693 9699 9706 9713 9719 9726 9732 9738 9744 9750 9756 9761 9767

2.0 2.1 2.2 2.3 2.4

9772 9778 9783 9788 9793 9798 9803 9808 9812 9817 9821 9826 9830 9834 9838 9842 9846 9850 9854 9857 9861 9864 9868 9871 9875 9878 9881 9884 9887 9890 9893 9896 9898 9901 9904 9906 9909 9911 9913 9916 9918 9920 9922 9925 9927 9929 9931 9932 9934 9936

2.5 2.6 2.7 2.8 2.9

9938 9940 9941 9943 9945 9946 9948 9949 9951 9952 9953 9955 9956 9957 9959 9960 9961 9962 9963 9964 9965 9966 9967 9968 9969 9970 9971 9972 9973 9974 9974 9975 9976 9977 9977 9978 9979 9979 9980 9981 9981 9982 9982 9983 9984 9984 9985 9985 9986 9986

3.0 3.1 3.2 3.3 3.4

9987 9987 9987 9988 9988 9989 9989 9989 9990 9990 9990 9991 9991 9991 9992 9992 9992 9992 9993 9993 9993 9993 9994 9994 9994 9994 9994 9995 9995 9995 9995 9995 9996 9996 9996 9996 9996 9996 9996 9997 9997 9997 9997 9997 9997 9997 9997 9997 9997 9998

Page 34: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

174

3.3 Distribución de la media muestral Tenemos una muestra aleatoria de tamaño n procedente de una población normal con media µ y desviación típica σ.

Elegida una muestra, hallaremos en ella la media y la desviación típica s. Pero, ¿hasta qué punto esas y s serán representativas de la media µ y la desviación típica σ de la población?

Una muestra es representativa cuando describe acertadamente las características de la población original: sus parámetros serán aproximadamente iguales a los de la población. Pero cada muestra tendrá una media y desviación típica que pueden ser diferentes a las de otra muestra; así pues, nunca podremos estar seguros de que los parámetros obtenidos en la muestra elegida sean buenos estimadores de los parámetros poblacionales; no obstante, siempre se cumplen dos características:

1. La media de las medias muestrales es igual a la media real de la población; esto es, si en una población de N elementos tomamos todas las muestras (Mi) de tamaño n, y si 1 es la media de la muestra M1, 2 es la media de la muestra M2 ...., i es la media de la muestra Mi .., entonces,

siendo la media de las medias muestrales y µ la media de la población.

2. La desviación típica de las medias muestrales vale

Como consecuencia tenemos un resultado muy importante:

La distribución de las medias muestrales de tamaño n, extraídas de una población normal N(µ,σ), se ajusta a una normal:

N

Estos resultados nos permiten cuantificar el valor de una media muestral con ayuda de la tabla normal. Así, por ejemplo:

• El 50 % de las medias muestrales será inferior a la media µ de la población.

• El 68’26 % de las muestras tendrá una media perteneciente al intervalo

La interpretación gráfica de este hecho es

Page 35: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

175

Actividades resueltas El tiempo que tardan los clientes en ser atendidos en un banco sigue una distribución normal de media 6 minutos y desviación típica de 2 minutos. Si se observa una muestra aleatoria de 20 clientes, ¿cuál es la probabilidad de que el tiempo medio que estén en el banco supere los 7 minutos? Resolución

El tiempo medio de permanencia en el banco, , seguirá una distribución normal de media µ = 6

minutos y desviación típica minutos.

→ N(6,0’45)

La probabilidad pedida es:

P = P = P(Z > 2’22) = 1 – P(Z ≤ 2’22) = 1 – 0’9868 = 0’0132

La probabilidad que nos piden es de un 1’32 %.

Actividades propuestas 3. Una muestra de 64 empleados de una empresa refleja que tienen una antigüedad media de 14

años con una desviación típica de 2 años. ¿Cuál es la desviación típica de la distribución de la media muestral?

4. Los ingresos mensuales de los becarios de una empresa siguen una distribución normal con media 400 € y desviación típica de 100 €. En una muestra de 36 becarios, ¿cuál es la probabilidad de que los ingresos medios estén entre 370 y 410 €?

3.4 Teorema central del límite La distribución de las medias muestrales es normal incluso en el caso de que éstas procedan de poblaciones no normales, siempre que el tamaño de la muestra sea suficientemente grande (n ≥ 30)

Esto podría demostrarse mediante el Teorema central del límite.

Si una muestra aleatoria de tamaño n procede de una población con media µ y desviación típica σ, en el caso de que el tamaño de la muestra sea lo suficientemente grande (n > 30), la media muestral

se ajusta aproximadamente a una distribución normal de media µ y desviación típica :

→ N

Page 36: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

176

Ejemplo La media y desviación típica poblacional de las notas de los 80 alumnos dados en la tabla inicial son: µ = 5’5, σ = 2’04. Entonces, las medias muestrales de tamaño n = 30 se ajustan a la normal:

= N(5’5, 0’37)

Así como la N(µ,σ) de la variable de partida, se tipifica mediante el cambio

La N , de las medias muestrales de tamaño n, se tipificará haciendo

Veremos la distinción en la actividad resuelta siguiente. Actividades resueltas 1. En el último año, el peso de los recién nacidos en una maternidad se ha distribuido según una

normal de media µ = 3100 gramos y desviación típica σ = 150 gramos.

a) ¿Cuál es la probabilidad de que un recién nacido pese más de 3130 gramos? b) ¿Qué distribución seguirán las muestras de tamaño 100 de recién nacidos? c) ¿Cuál será la probabilidad de que la media de una muestra de 100 recién nacidos sea

superior a 3130 gramos? Resolución Los pesos se ajustan a la normal N(3100,150). Si X es la variable peso, se tipifica por el cambio:

Z =

a) P(x > 3130) = = P(Z > 0’2) = 1 – P(Z < 0’2) = 1 – 0’5793 = 0’4207

Esto es, más de un 42 % de los bebés pesa más de 3130 gramos. b) La media muestral será = 3100 gramos. La desviación típica de las medias muestrales de

tamaño 100, vale:

Así pues, la distribución muestral será una normal N(3100,15) c) La normal N(3100,15) se tipifica haciendo:

Z =

P( > 3130) = = P(Z > 2) = 1 – P(Z < 2) = 1 – 0’9772 = 0’0228

Por tanto, sólo el 2’28 % de las muestras tendrá una media por encima de 3130 gramos.

Page 37: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

177

2. El número de días de estancia de los enfermos de un hospital sigue una distribución normal de media 8’1 días y desviación típica 9 días. Se selecciona una muestra al azar de 100 enfermos. a) Razona cuál es la distribución de la media muestral. b) ¿Cuál es la probabilidad de que la media muestral esté comprendida entre 8 y 10 días?

Resolución

a) Como la muestra es de 100 individuos, la media muestral se ajusta a = N(8’1,3).

b) P(8 < < 10) = P( < 10) – P( < 8) = P – P =

P(Z < 0’63) – P(Z < –0’03) = 0’7357 – P(Z > 0’03) = 0’7357 – (1 – P(Z < 0’03) = 0’7357 – 1 + 0’5120 = 0’2477.

3. La emisión de óxido de nitrógeno de los vehículos de cierta marca sigue una distribución normal con media m = 1’2 y desviación típica 0’4. Si tomamos una muestra de tamaño 16 de las emisiones,¿cuál será la distribución en el muestreo de la media muestral? Si se toma una nueva muestra de tamaño 100, ¿en qué caso será más precisa la media muestral?

Resolución

Como la distribución de la población X es N(1’2,0’4), la distribución de la media muestral también será normal:

;

Si ahora se toma una muestra de tamaño 100, la desviación típica de la nueva media muestral será:

Así, el estimador construido con más observaciones tiene una desviación típica menor y, por tanto, es más preciso.

Actividades propuestas

5. Supongamos que la estatura media de las alumnas de segundo de Bachillerato es de 165 cm, con desviación típica 8 cm.

a) Halla los parámetros de las medias muestrales de tamaño n = 36 y n = 64. b) ¿Cuál es la probabilidad de que una muestra de 36 alumnas tenga una media de 167 o más

cm? ¿Y de que una muestra de 64 alumnas supere esa misma medida? c) ¿Tiene algo de extraño que una muestra de tamaño 36 dé una media de 170 cm?

6. La duración (en años) de un dispositivo electrónico sigue una distribución normal de parámetros µ = 10 y σ = 2. Calcula la probabilidad de que un dispositivo electrónico dure más de 12 años.

Page 38: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

178

4 INTERVALO DE PROBABILIDAD PARA LA MEDIA MUESTRAL

La media muestral siempre se estudia como una variable continua; por tanto, la probabilidad de que una media muestral tome un valor concreto, por ejemplo = 5’83333, vale cero. En consecuencia, sólo podemos dar respuesta a preguntas del tipo:

a) ¿Cuál es la probabilidad de que la media muestral sea menor o mayor que un valor dado? b) ¿Cuál es la probabilidad de que la media muestral esté entre dos valores dados, esto es, que

pertenezcan a un intervalo prefijado? Los valores de tales probabilidades dan la medida de la confianza que podemos tener en la obtención de determinados resultados. Si bien nos dedicaremos al intervalo de confianza con más detenimiento en el tema siguiente, en este tema vamos a hacer una pequeña incursión.

Al intervalo simétrico respecto de la media poblacional lo llamaremos intervalo de probabilidad.

Como la distribución de medias muestrales es normal de media = µ y desviación típica

; esto es, , se tendrá, por ejemplo, que

• = 0’6826

• = 0’9545

• = 0’9973

probabilidades correspondientes a intervalos de radio una, dos o tres desviaciones típicas. El resto de las muestras, esto es, el 31’74 %, el 4’55 % o el 0’27 %, tendrán una media menor o mayor que los extremos de los intervalos indicados, respectivamente. (Lo puedes ver de forma gráfica en el repaso sobre la distribución normal)

En general, el 100 · (1 – α) % de las muestras de tamaño n tendrá una media comprendida entre

y

siendo α/2 el valor de probabilidad que queda a cada lado del intervalo.

O lo que es lo mismo, la probabilidad de que la media muestral esté entre esos dos valores es 1 – α:

= 1 – α

Al intervalo se le llama

intervalo de probabilidad para la media.

Page 39: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

179

El valor α es una medida del riesgo que asumimos, y 1 – α es el nivel de confianza que tenemos de que la media muestras pertenezca al intervalo dado.

Así, si α = 0’05, el 95 % de las muestras tendrán una media comprendida entre

y

pues α/2 = 0’025.

El 5 % restante tendrá una media menor o mayor que esos valores (un 2’5 %, menor; otro 2’5 %, mayor). Esto significa que el 97’5 % (2’5 + 95 = 97’5) de las muestras tendrá una media inferior a

Este último dato es el que nos permite determinar que Z0’025 = 1’96, pues ése es el valor de Z que cumple que

P(Z < Z0’025) = 0’975 como puedes comprobar en la tabla normal tipificada.

En general, el valor de Zα/2 es aquel que deja por debajo de él una probabilidad de 1 – . Estos

valores se determinan con ayuda de la tabla normal tipificada. Niveles de confianza usuales

Porcentaje 68’26 90 95 95’44 99 99’74

Zα/2 1 1’645 1’96 2 2’575 3

Ejemplo La media y desviación típica de las notas del último examen de los 80 alumnos considerados de la tabla inicial son µ = 5’5 y σ = 2’04; entonces, el 68’26 % de las muestras de tamaño 20, extraídas de esa población, tendrán una media perteneciente al intervalo

= (5’13,5’87)

Esto es, la probabilidad de que la media de la muestra, , esté entre 5’13 y 5’87 es 0’6826:

P(5’13 < <5’87) = 0’6826 Análogamente, el 95’44 % de las muestras de tamaño 36, extraídas de esa población, tendrán una media perteneciente al intervalo

= (4’82,6’18)

Esto es, para cualquier muestra de tamaño 36, su media, , estará entre 4’82 y 6’18, con una probabilidad del 95’44 %:

P(4’82 < < 6’18) = 0’9544

Page 40: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

180

Actividad resuelta Halla los intervalos de probabilidad con una confianza de 0’9, 0’95 y 0’99, para el peso medio de una muestra de 100 recién nacidos, sabiendo que la población sigue una distribución normal de media µ = 3100 gramos y desviación típica σ = 150. Interpreta el resultado.

Solución:

Si 1 – α = 0’9 ⇒ α = 0’1 y α/2 = 0’05

Habrá que determinar el valor de Z correspondiente a una probabilidad de 0’95. Es Zα/2 = 1’645, valor intermedio de 1’64 y 1’65:

P(Z ≤ 1,645) = 0’95 (ver tabla normal)

El intervalo correspondiente es

= (3075’235,3124’675)

Para 1 – α = 0’95, Zα/2 = Z0’025 = 1’96, cuyo intervalo es

= (3070’6,3129’4)

Si 1 – α = 0’99, Zα/2 = Z0’005 = 2’575, pues P(Z ≤ 2’575) = 0’9950

Su intervalo de probabilidad es

= (3061’375,3138’625)

Estos resultados nos dicen que el 90 % de las muestras de tamaño 100 tendrán una media entre 3075’235 y 3124’675 gramos, el 95 % entre 3070’6 y 3129’43 y el 99 % entre 3061’375,3138’625 gramos. Observa que para disminuir el riesgo, debemos aumentar los intervalos.

Actividades propuestas 7. Si la estatura de las alumnas de segundo de Bachillerato se ajusta a la normal N(165, 8), en cm,

halla, para las muestras de tamaño 64:

a) El porcentaje de ellas que dará una media entre 163 y 167. b) El intervalo de probabilidad con un nivel de confianza del 80 %.

8. El nivel medio de colesterol (en mg/dl), en individuos sanos, depende de la edad y el sexo; para los hombres con menos de 21 años su distribución es normal con media µ = 160 y desviación típica σ = 10. Un nivel fuera de µ ± 2σ resulta extraño: indica que puede haber alguna anomalía. Lo mismo cabe decir de las muestras: un nivel muestral fuera de resulta extraño.

a) ¿Cuál es el intervalo de probabilidad admisible (no extraño) para las muestras de tamaño i) 1 ii) 9 iii) 100

b) ¿Qué porcentaje de individuos o muestras se encuentra en los intervalos hallados?

Page 41: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

181

Page 42: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

182

TEMA 11: ESTIMACIÓN ESTADÍSTICA En España hay algo más de 30 millones de votantes. Una encuesta a 5.000 de ellos predeciría con bastante exactitud el resultado de unas elecciones generales; de hecho, este tipo de encuestas suele realizarse sobre una muestra inferior. Parece misterioso que la opinión de 1 de cada 6.000 votantes, que supone elegir a 5.000 entre 30 millones, refleje con precisión la intención de todos. Sólo se necesita que la muestra esté bien seleccionada.

Pero no siempre se hacen las encuestas bien. En 1936, la prestigiosa revista The Literary Digest hizo una estimación de las elecciones presidenciales norteamericanas; tras enviar unos 10 millones de tarjetas a suscriptores de su revista, propietarios de coche y de teléfono, se recibieron 2.376.523 respuestas, otorgando a Landon un porcentaje de voto del 57 %, frente a un 43 % dado a Roosevelt.

Celebradas las elecciones, Roosevelt ganó con el 62,5 % de los votos. El porqué de este enorme error parece muy claro: los suscriptores de la revista, los propietarios de coches y de teléfono, formaban, en 1936, un estrato socioeconómico no representativo del total de la sociedad norteamericana. La muestra, a pesar de su gran tamaño, estaba sesgada. Por tal motivo, hay que recurrir a muestras aleatorias, que garanticen una adecuada descripción de la población de partida. No obstante, a pesar de todas las precauciones nunca estaremos seguros de que nuestro resultado sea correcto: la posibilidad de error es evidente. Por eso, las conclusiones deberán matizarse, indicando la confianza y el error asumido.

En la teoría del muestreo, que hemos visto en el tema anterior obteníamos información acerca de las muestras que extraíamos al azar de poblaciones conocidas. Ahora bien, desde el punto de vista práctico es mucho más interesante inferir información sobre una población basándonos en la información contenida en una muestra.

Para realizar este tipo de inferencia, utilizaremos dos métodos: • La estimación de parámetros.

• El contraste de hipótesis. En este tema, y de forma excepcional, no comenzaremos con una actividad, ya que los conceptos que necesitaremos para resolver situaciones de estimación estadística requieren conceptos específicos del tema que aún no conocemos. De hecho, iremos intercalando diferentes ejemplos que nos deben de servir de ayuda para una mejor comprensión.

1 ESTIMACIÓN A PARTIR DE UNA MUESTRA

El objetivo fundamental de la inferencia estadística es hacer inferencias o extraer conclusiones sobre algún parámetro de la población basándose en los datos obtenidos en una muestra aleatoria. Los parámetros de la población que más interesan son la media y la proporción (nosotros nos dedicaremos sólo a la media). Asimismo, el objetivo principal de muchos estudios estadísticos es analizar el valor de parámetros que no se conocen. La forma más elemental y directa de utilizar una muestra para obtener información sobre un parámetro desconocido de la población es construir un estimador, que es una función de los valores de la muestra y proporciona un valor numérico que constituye la estimación del parámetro.

Por ejemplo, un comerciante podría estar interesado en conocer el gasto medio diario de sus clientes. Para ello, puede recurrir a una muestra representativa de la población de clientes y, a partir de esos datos, podría estimar la media de la población.

Page 43: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

183

1.1 Estimación puntual La estimación puntual utiliza un solo valor obtenido a partir de la muestra para estimar un parámetro de la población. Dada una muestra aleatoria simple de tamaño n procedente de una población con media µ, se puede utilizar el valor de la media muestral, , para estimar la media de la población, µ; es la llamada estimación puntual de la media.

Ejemplo

Supongamos que un comerciante decide anotar el gasto de los diez primeros clientes que entran en su tienda un día determinado y resultan los siguientes valores, redondeados, en euros:

5, 23, 7, 13, 18, 6, 4, 3, 11, 5 El gasto medio de esta muestra es 9’5 €; se dice este valor que es una estimación puntual de la media poblacional y, por tanto, se puede estimar que el gasto medio diario de los clientes de 9’5 € .

1.2 Estimación por intervalo Si el comerciante estima que el gasto medio diario de sus clientes se encuentra entre 8 y 10 €, entonces la estimación realizada es mediante el intervalo (8, 10).

La estimación por intervalo de un parámetro poblacional consiste en determinar, basándose en la información de la muestra, un intervalo en el cual probablemente se encuentre dicho parámetro. Este intervalo suele ir acompañado de una medida que refleja la confianza que se tiene acerca del que el valor del parámetro se encuentra en dicho intervalo, y se llama nivel de confianza.

Por ejemplo, si el intervalo (8, 10) está dado con un nivel de confianza del 90 %, se expresa que el comerciante confía en un 90% de que el gasto medio de sus clientes se encuentre entre 8 y 10 €.

El nivel de confianza expresado en tanto por uno, se designa por 1 – α, e indica la confianza que se tiene acerca de que el verdadero valor del parámetro se encuentra en dicho intervalo.

Un intervalo de confianza tiene un límite inferior y un límite superior. Ahora bien, estos límites inferior y superior variarán dependiendo de la muestra elegida. De hecho, es muy probable que con otras muestras se obtuvieran intervalos como (8’20, 9’90) o (7’90, 9’30), por ejemplo. Actividad resuelta Si la renta per cápita de los habitantes de una región es 12000 € con desviación típica de 7000 €,¿a qué intervalo pertenecerá la renta per cápita de una muestra de 400 individuos, elegidos al azar, en esa región con una probabilidad del 0'9544? Resolución Recuerda que si bien la renta per cápita no se distribuye normalmente, sí lo hacen las medias muestrales ya que n ≥ 30.

Teniendo en cuenta que para una probabilidad de 0'9544, Zα/2 = 2 (recuerda los niveles de confianza usuales), el intervalo será:

= (11300, 12700)

Esto es, el 95'44 % de las muestras de tamaño n = 400 tendrán una renta media comprendida entre 11300 y 12700 €.

Page 44: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

184

2 INTERVALO DE CONFIANZA PARA LA MEDIA

El método de estimación permite expresar mediante un número la información disponible en la muestra sobre el parámetro; ese número es el valor en la muestra del estimador elegido. Se trata de una cantidad habitualmente cercana al valor desconocido del parámetro. Sin embargo, los estimadores no aportan información sobre la precisión con que se realiza la estimación. Por ello es conveniente construir, no solo una estimación numérica, sino también un intervalo que contenga el verdadero valor del parámetro con gran probabilidad. Un intervalo así recibe el nombre de intervalo de confianza y la probabilidad 1 – α de que el parámetro se encuentre en él se llama coeficiente de confianza. Un intervalo de confianza con coeficiente de confianza 1 – α es un intervalo que contiene el verdadero valor del parámetro con probabilidad 1 – α. Si la confianza es 1 – α , suele decirse que el nivel de significación es α .

Ten en cuenta que si Z es una distribución N(0,1), un intervalo de probabilidad 1 – α se obtiene dejando una probabilidad igual a a ambos lados como puedes ver en la figura:

NOTA: Los intervalos de confianza se basan en la misma idea que los intervalos de probabilidad.

2.1 La desviación típica σ es conocida Sea una población normal que sigue una distribución N(µ,σ) con desviación típica conocida. Queremos estimar la media µ mediante un intervalo de confianza. Pare ello, se toma una muestra aleatoria de tamaño n y se obtiene una media muestral . • Debes recordar que la distribución en el muestreo de la variable aleatoria es una normal.

• También debes recordar que la media muestral , obtenida a partir de una muestra de tamaño n, pertenece al intervalo

con una probabilidad 1 – α; esto es:

Si se hacen transformaciones en las desigualdades anteriores, llegaríamos al siguiente resultado:

(también con una probabilidad 1 – α)

Al intervalo se le llama intervalo de confianza para la media

poblacional µ de una población N(µ,σ) con un nivel de confianza 1 – α.

Page 45: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

185

Niveles usuales de significación y de confianza. Valor crítico. Los niveles de confianza habituales son del 0’90 o 0’95 (en porcentajes, 90 y 95 %). Una confianza del 95 % comporta un riesgo del 5 %. Esto significa que en 100 muestreos, cabe esperar que cinco de ellos den resultados erróneos. Nota: Observa que la confianza va creciendo en la medida en que aumenta el radio del intervalo

haciendo mayor Zα/2, como puede verse en la tabla siguiente.

Nive1 de confianza Nive1 de significación Valor crítico

1 – α α Zα/2 = Zc

0’80 0’90 0’95 0’98

0’99

0’20 0’10 0’05 0’02

0’01

1’28 1’645 1’96 2’33

2’575

Los valores de Zα/2 se obtiene en la tabla de la distribución normal. Recuerda que una variante de esta tabla la dábamos al trabajar con el muestreo. Conocer los valores de la tabla no es obligatorio, pero has de tener en cuenta que los valores que están en negrita son los más habituales, por lo que es conveniente que los recuerdes sin necesidad de buscar en la tabla de la distribución normal. Actividades resueltas 1. Para una muestra de 400 personas elegidas al azar se obtiene una renta per cápita media de

12150 €. Si la desviación típica de la renta per cápita para la población es de 7000 €, da: a) El intervalo de confianza, con un nivel de significación de 0’1. b) El intervalo de confianza para un nivel de significación de 0’05.

Resolución En este caso tenemos: n = 400, = 12150, σ = 7000

a) Para un nivel de significación de 0’1, Zα/2 = 1’645. El intervalo de confianza será:

= (11574’25,12725’75)

Esto significa que la renta per cápita del total de la población estará entre esas dos cantidades, con una probabilidad de 0’9.

b) Para un nivel de significación de 0’05, Zα/2 = 1’96. El intervalo de confianza será:

= (11464, 12836)

Luego, la renta per cápita de la población estará entre esas dos cantidades, con una probabilidad de 0’95.

Observa que al aumentar la confianza lo hace también el intervalo: se está más seguro de un resultado en la medida que se amplían los márgenes de éste.

Page 46: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

186

2. Una máquina se encarga de llenar cajas de cereales de 500 g. El peso de estas cajas sigue una distribución normal con desviación típica de 4 g. En una muestra aleatoria simple de 50 cajas se obtuvo un peso medio de 498 g. Hallar un intervalo de confianza del 95% para el peso medio de todas las cajas llenadas por esa máquina.

Resolución

La población sigue una distribución N(µ,4), y la muestra de tamaño n = 50 tiene una media muestral = 498 g.

Si el nivel de confianza es 0’95, entonces: 1 – α = 0’95 ⇒ α = 0’05 ⇒ = 0’025

P(Z < Zα/2) = . Consultando la tabla N(0,1) se obtiene Zα/2 = 1’96 (valor conocido).

El intervalo para la media poblacional con un nivel de confianza del 95 % es el siguiente:

= = (496’89, 499’11)

Se tiene el 95 % de confianza de que el peso medio de las cajas de cereales se encuentre entre 496’89 y 499’11 gramos.

3. Se desea estudiar el gasto anual de fotocopias, en euros, de los estudiantes de una universidad. Para ello, se ha elegido una muestra aleatoria de 9 de estos estudiantes, resultando los valores siguientes para estos gastos:

100, 150, 90, 70, 75, 105, 200, 120, 80 Se supone que la variable aleatoria objeto de estudio sigue una distribución normal de media desconocida y de desviación típica igual a 12. Determina un intervalo de confianza del 95% para la media del gasto semanal en fotocopias.

Resolución En este caso, no se nos da la media, pero podemos hallarla, 110. Por tanto, la media muestral se

ajusta a una = N(110,4).

Una confianza del 95% implica un valor crítico zc = 1'96 (P(z ≤ zc) = 0'975 ⇒ zc = 1'96)

El intervalo de confianza para la media será: (110 – 1'96 · 4, 110 + 1'96 · 4) = (102'16, 117'84) LA POBLACIÓN NO SIGUE UNA DISTRIBUCIÓN NORMAL (n > 30) Si la población no sigue una distribución normal, al tomar una muestra aleatoria de tamaño n suficientemente grande (n > 30) y con una media muestral , procedente de una población con media µ y desviación típica σ conocida, según el teorema central del límite, se tiene:

→ N(0,1)

El intervalo aproximado para la media poblacional µ a un nivel de confianza 1 – α es el mismo que para una población normal. Esto es:

Page 47: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

187

Actividad resuelta Una muestra de 49 coches de una empresa de alquiler dio como resultado que por término medio recorren 140 km a la semana. Por experiencia se sabe que el número de kilómetros semanales recorridos por toda la flota de coches tiene una desviación típica de 30 km. Determina un intervalo con un nivel de confianza del 95 % para la media poblacional. Resolución En este caso, no tenemos una población normal, pero n = 49 > 30. De la muestra conocemos:

= 140, σ = 30

Si el nivel de confianza es 0’95, entonces: 1 – α = 0’95 ⇒ α = 0’05 ⇒ = 0’025

P(Z < Zα/2) = . Consultando la tabla N(0,1) se obtiene Zα/2 = 1’96.

El intervalo de confianza al 95 % será:

= = (131’6, 148’4)

2.2 La desviación típica σ es desconocida Suele suceder que la desviación típica de la población de partida también sea desconocida (resultaría extraño que se conozca σ y no la media µ). En este caso no tendríamos más remedio que sustituir σ por la desviación típica muestral, s.

Consideramos una muestra de tamaño n (n > 30) procedente de una población normal o no, con media µ y desviación típica desconocida σ; obtendremos a partir de dicha muestra la media muestral y desviación típica muestral, s. El intervalo de confianza para la media poblacional µ con un nivel de confianza 1 – α, sería

Por necesidades estadísticas, será la desviación típica poblacional, s, la que se use para determinar los extremos del intervalo. Sustituir σ por s introduce cierta inexactitud, aunque no es grave cuando n es grande.

A se le llama error típico o error estándar de la media; este valor aproxima bien la desviación

típica, , de la distribución de medias muestrales.

Actividades resueltas 1. Para una muestra de 30 alumnos se obtuvo una nota media en el último examen de matemáticas

de = 5‘83, con una desviación típica s = 1’92. Determina el intervalo de confianza al 80 %. Resolución

Una confianza del 80 % indica que 1 – α = 0’8, luego = 0’1.

Zα/2 = Z0’1 ≅ 1’28, pues P(Z < 1’28) = 0’8997 ≅ 0’90

Como se desconoce la desviación típica poblacional, utilizamos el intervalo de confianza:

= = (5’38,6’28)

Page 48: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

188

2. Para estimar el tiempo medio de atención de los estudiantes en un centro universitario, se eligió al azar una muestra de 100 estudiantes y se obtuvo un tiempo medio de 2'6 minutos y una desviación típica de 0'3 minutos. Obtener un intervalo de confianza del 95% para el tiempo medio de atención a los estudiantes en dicho centro.

Resolución La población no sigue una distribución normal y, además, la desviación típica σ es desconocida. La muestra es de tamaño n = 100, la media muestral es = 2'6 minutos y la desviación típica muestral es s = 0'3 minutos.

Si 1 – α = 0’95 ⇒ α = 0’05 ⇒ = 0’025

Como P(Z < Zα/2) = , se obtiene, consultando la tabla N(0,1), Zα/2 = 1’96.

Un intervalo aproximado para la media poblacional µ con un nivel de confianza del 95 % es:

= = (2'54,2'66)

Actividades propuestas 1. La vida media de una muestra escogida al azar de 121 bombillas es de 3.000 horas y la

desviación típica es de 220 horas. Calcula el intervalo de confianza aproximado para la media poblacional con un nivel de confianza del 99 %.

2. Una investigación examina los gastos de consumo de una muestra de 64 familias españolas elegidas al azar. La media muestral es de 6000 € y la desviación típica s = 600 €. Construir un intervalo de confianza al 95 % para todas las familias españolas.

3. En una gran ciudad, la altura media de sus habitantes tiene una desviación típica de 8 cm. a) Si la altura media de dichos habitantes fuera de 175 cm, ¿cuál sería la probabilidad de que la

altura media de una muestra de 100 individuos fuera superior a 176 cm? b) Si se considera una muestra aleatoria de 100 individuos de esta ciudad, se obtiene una altura

media de 178 cm. Determina un intervalo de confianza del 95 % para la altura media de los habitantes de esta ciudad.

4. En una oposición en la que participaron miles de candidatos se hizo un examen de tipo test. La desviación típica de las calificaciones fue σ = 10.

a) Si se elige una muestra de tamaño 100, con media muestral de 71 puntos, ¿cuál será el intervalo de confianza para la media poblacional con una probabilidad del 90 %?

b) Ídem, si n = 40, µ = 74 y σ = 0’05.

Page 49: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

189

3 ERROR ADMITIDO Y TAMAÑO DE LA MUESTRA

3.1 Error admitido Cuando decimos que la media poblacional µ pertenece al intervalo:

con un nivel de confianza de 1 – α, estamos admitiendo un error máximo de

E = Zα/2 ·

Esto es, afirmamos que la diferencia entre la estimación para la media, y su valor real, µ, es menor que el valor de E.

O también que

=1 – α

El error puede controlarse variando Zα/2 y n.

Actividad resuelta Para una muestra de 400 personas elegidas al azar se obtiene una renta per cápita de 12150 € con una desviación típica de 7000 €, da: a) El error cometido al dar el intervalo de confianza, con un nivel de significación de 0’1. b) El error cometido al dar el intervalo de confianza, con un nivel de significación de 0’05. Resolución Ya vimos (actividad resuelta 1 del apartado 2.1.) que a partir de una muestra de 400 personas, se estimaba la renta per cápita mediante el intervalo de confianza:

(12150 – 575’75, 12150 + 575’75) = (11574’25, 12725’75)

El error máximo cometido es:

= 575’75 €

con una confianza del 90 %. En la misma actividad, para un nivel de significación de 0’05 (confianza del 95 %), la estimación de la media se podía dar el intervalo de confianza con un error máximo de

= 686 €

En este caso, el intervalo de confianza era (11464,12836).

Page 50: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

190

3.2 Tamaño muestral Ya debemos saber que un procedimiento para aumentar la confianza puede ser aumentar el tamaño de la muestra. Entonces lo razonable será preguntarnos: ¿Cómo deberá ser de grande la muestra para tener una confianza, por ejemplo, del 99 %? El tamaño muestral mínimo de una encuesta depende de la confianza que se desee para los resultados y del error máximo que se esté dispuesto a asumir. El tamaño mínimo n de la muestra se deduce de las expresiones de las cotas de error.

E = Zα/2 · ⇒ ⇒ n =

Para tamaños de muestra mayores que n el error será aún menor que E.

NOTA: No es necesario aprenderse de memoria el valor de n, pero sí que es conveniente conocer la expresión que nos da el error.

Actividades resueltas 1. La media de edad de los alumnos que se presentan a las PAU es 18’1 años y la desviación

típica 0’6 años. a) De los alumnos anteriores se escoge, al azar, una muestra de 100. ¿Cuál es la probabilidad

de que la edad media de la muestra esté comprendida entre 17’9 y 18’2 años? b) ¿Qué tamaño debe tener una muestra de dicha población para que su media esté

comprendida entre 17’9 y 18’3 años con una confianza del 99’5 %? “Esta actividad es bastante dura, pero puede ser interesante que veas el desarrollo matemático”.

Resolución La variable “edad de los alumnos” sigue una normal N(18’1, 0’6)

La distribución de las medias muestrales es normal de media 18’1 y de desviación típica

; es decir, tenemos una N(18’1, 0’06).

a) P(17’9 < <18’2) = = P(–3’33 < Z < 1’67) =

P(Z < 1’67) – P(Z ≤ –3’33) = P(Z < 1’67) – 1 + P(Z ≤ 3’33) = 0’9525 – 1+ 0’9996 = 09521

b) P(17’9 < <18’3) = = 0’995

= 0’995 ⇒ – 1 + = 0’995 ⇒

2P = 1’995 ⇒ = 0’9975

Si buscamos en las tablas de la normal, para esa probabilidad debe ser:

= 2’81 ⇒ n = 71’1 ⇒ La muestra ha detener, al menos, 72 alumnos.

Page 51: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

191

2. Se desea realizar una investigación para estimar el peso medio de los hijos recién nacidos de madres fumadoras. Se admite un error máximo de 50 gramos, con una confianza del 95 %. Si por estudios anteriores se sabe que la desviación media del peso medio de tales recién nacidos es de 400 gramos, ¿qué tamaño mínimo de muestra se necesita en la investigación?

Resolución Para una confianza del 95 %, 1 – α = 0’05 ⇒ Zα/2 = 1’96

Como E = Zα/2 · y se desea que E < 50, se tendrá

1’96 · < 50 ⇒ ⇒ > 15’68 ⇒ n > 245’86

El tamaño mínimo de la muestra debe ser n = 246.

Actividades propuestas 5. En una encuesta se pregunta a 10.000 estudiantes de Bachillerato sobre su consumo de refrescos

semanal, encontrándose una media de 5 botes, con una desviación típica de 2 .

a) Halla los intervalos de confianza para la media al 80 % y al 95 % de probabilidad. b) Si aceptamos un error de 0’25 botes para la media poblacional, con un nivel de confianza del

80 %, ¿a cuántas personas es necesario entrevistar? ¿Y si queremos un nivel de confianza del 95 %?

6. Se sabe que el contenido de fructosa de cierto alimento sigue una distribución normal cuya varianza es 0’25.

Se desea estimar el valor de la media poblacional mediante el valor de la media de la muestra, admitiéndose un error máximo de 0’2 con una confianza del 95 %. ¿Cuál ha de ser el tamaño de la muestra?

7. Se ha tomado una muestra aleatoria de 100 personas a los que se ha medido el nivel de glucosa en sangre, y se ha obtenido una media muestral de 110 mg/cc con una desviación típica de 20 mg/cc.

a) Obtén un intervalo de confianza, al 90 %, para el nivel de glucosa en sangre de la población. b) ¿Qué error máximo se comete con la estimación anterior?

Page 52: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

192

4 CONTRASTE DE HIPÓTESIS

Habrás observado a lo largo de este bloque, que la media muestral suele ser diferente de la media poblacional. Lo normal es que esas diferencias sean pequeñas, y estén justificadas por el azar; pero, ¿podría suceder que no fuesen debidas al azar?

1. Hace algunos años, la media de estatura de los españoles adultos era de 170 cm, con σ = 9 cm. Pasado el tiempo, un muestreo realizado una media de 172 cm. ¿Puede afirmarse que esa diferencia de 2 cm es debida al azar? ¿No es posible que la estatura media haya aumentado?

2. Supongamos que, respecto a una determinada ley, el 52 % de los ciudadanos está en contra. Pasado el tiempo, una encuesta realizada a 400 personas indica que los ciudadanos en contra han descendido hasta el 49 %. ¿Ha cambiado realmente la opinión pública, o tal resultado es debido al azar?

3. El porcentaje de aprobados en las PAU en un determinado distrito universitario ha sido del 82%. En una ciudad de ese distrito, el porcentaje de aprobados fue del 86 %. ¿Puede afirmarse con un nivel del 90 % que los resultados de esa ciudad son superiores a la media?

El contraste de hipótesis es el instrumento que permite decidir si esas diferencias pueden interpretarse como simples fluctuaciones debidas al azar, o bien, son de tal importancia que requieren una explicación distinta. Ambas opciones se estiman con técnicas similares a las de intervalo de confianza. Como allí, las conclusiones se formularán en términos de probabilidad, pues hay riesgo de error. Esto es, puede decidirse que no hay diferencias, habiéndoles, o, por el contrario, asegurar que las hay, sin haberlas. Dado que ambos errores pueden considerarse graves, estadísticamente hay que estar muy seguros de la afirmación que se hace. Por ello, la probabilidad con la que se opte por una u otra hipótesis debe ser grande, generalmente superior a 0’9. (Por ejemplo, para concluir que un medicamento es más eficaz que otro hay que estar, estadísticamente, muy seguros.)

4.1 Un problema típico En un estudio se afirma que el sueldo medio mensual en una Comunidad Autónoma es de 1250 € con una desviación típica de 50 €. • Esta hipótesis estadística se denominará hipótesis nula, H0: µ = 1250.

• Frente a la hipótesis nula, existe una hipótesis contraria, la hipótesis alternativa, H1: µ ≠ 1250.

Par poder contrastar la hipótesis nula (H0 : µ = 1250), se elige una muestra aleatoria formada, por ejemplo, por 100 personas, y se obtiene la media muestral, por ejemplo = 1200 €.

Para contrastar la media poblacional µ = 1250 tomaremos la media muestral , que llamaremos estadístico del contraste. Este estadístico es una variable aleatoria que tiene por distribución en el

muestreo una normal N . En nuestro ejemplo sería N(1250,5).

La diferencia 1250 – 1200 puede ser debida al azar, en cuyo caso se dice que no es significativa, o puede ser debida a otras causas, en cuyo caso diremos que es significativa.

Para saber cuando es significativa o no, fijaremos un nivel de confianza, por ejemplo, 1 –α = 0’90, y entonces aceptaremos la hipótesis nula si la media muestral, una vez tipificada cae dentro del intervalo (–zα/2, zα/2); en nuestro caso, (–1’96,1’96), que llamaremos región de aceptación: en caso contrario, rechazaremos la hipótesis nula, ya que una vez tipificado, el estadístico de contraste caerá en la región contraria, que llamaremos región crítica o región de rechazo.

A continuación desarrollaremos los conceptos que se han mencionado en este problema.

Page 53: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

193

4.2 Hipótesis nula e hipótesis alternativa. Estadístico del contraste. Una hipótesis estadística es una afirmación sobre el valor de algún parámetro de la distribución de la población. Conviene destacar que la hipótesis se formula sobre algún parámetro de la población y las conclusiones sobre la validez de la hipótesis se basan en la información muestral. En un contraste de hipótesis se presentan dos opciones contrapuestas que se denominan hipótesis nula H0 e hipótesis alternativa H1. • La hipótesis nula, H0, es aquella que se considera verdadera y que se quiere contrastar.

• La hipótesis alternativa, H1, es la hipótesis contraria a la nula. El contraste de hipótesis es un procedimiento para decidir cuál de las dos hipótesis es la verdadera.

El estadístico del contraste es una función de los valores muestrales. Es una variable aleatoria que sigue una distribución en el muestreo y que toma un valor para cada muestra. En nuestro caso, será generalmente, la media muestral.

4.3 Contraste unilateral y bilateral Las hipótesis estadísticas pueden ser de dos tipos: hipótesis simples e hipótesis compuestas. En las hipótesis simples se indica un único valor del parámetro poblacional, mientras que en las hipótesis compuestas se especifica un intervalo de valores. Así, la hipótesis µ ≥ 1250 es compuesta; sin embargo, µ = 1250 sería una hipótesis simple (nosotros trabajaremos con hipótesis simples).

Sea una media µ y la hipótesis nula simple, por ejemplo, H0: µ=µ0, frente a una alternativa compuesta de la forma H1: µ<µ0, o bien H1: µ>µ0. Las hipótesis alternativas de este tipo se llaman hipótesis alternativas unilaterales, y el contraste correspondiente es de una cola o unilateral. Otra posibilidad es que a la hipótesis nula simple, por ejemplo, H0: µ=µ0, se enfrente la hipótesis alternativa compuesta, H1: µ≠µ0. En este caso, la hipótesis alternativa se dice que una hipótesis alternativa bilateral, y el contraste a llevar a cabo es de dos colas o bilateral (este contraste es al que nos dedicaremos en este curso). Ejemplo

Si el peso medio anunciado por un fabricante de paquetes de azúcar de una determinada marca es de 1 kg, entonces la hipótesis nula es que efectivamente el peso medio es de 1 kg, es decir:

H0 : µ = 1

La alternativa es que el peso medio no es de 1 kg, o sea: H1 : µ ≠ 1

El contraste es de dos colas o bilateral ya que la hipótesis alternativa se puede escribir como: H1 : µ < 1 o µ > 1

4.4 Región crítica (o de rechazo) y región de aceptación La región crítica o, región de rechazo está formada por el conjunto de muestras para las cuales se rechaza la hipótesis nula H0.

Por su parte, la región de aceptación está constituida por el conjunto de muestras para las cuáles se acepta la hipótesis nula H0.

El valor o valores que separa la región crítica de la región de aceptación recibe el nombre de valor o valores críticos. En el contraste bilateral, la situación se refleja en el gráfico siguiente:

Región crítica Región de aceptación Región crítica

Page 54: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

194

4.5 Contraste de hipótesis sobre la media poblacional Habitualmente tendremos una población que sigue una distribución de media µ y desviación típica σ conocida, sea o no una distribución normal.

Hipótesis nula H0: µ = µ0 frente a hipótesis alternativa H1: µ ≠ µ0

Se considera un test de hipótesis o contraste de hipótesis en el cual la hipótesis nula es que la media poblacional toma un valor concreto; es decir:

H0: µ = µ0

Para ello se observa una muestra aleatoria simple de tamaño n y se calcula su media muestral , que nos servirá para estimar µ.

Si se supone que la hipótesis alternativa es que la media poblacional toma un valor menor o mayor que el valor, en todo caso distinto, se puede expresar por:

H1: µ ≠ µ0

Se trata, pues, de un contraste bilateral en el que se utiliza la media muestral para favorecer la decisión de si la hipótesis nula es o no cierta. Una vez fijadas las hipótesis, es necesario indicar el nivel de significación o, lo que es equivalente, una regla de decisión tal que la probabilidad de rechazar la hipótesis nula, cuando es cierta, sea α.

El contraste se basa en que la variable aleatoria:

z = → N(0,1)

Se rechazará la hipótesis nula si la media muestral es mucho menor o mucho mayor que el valor especificado no. Es decir, si z < –zα/2, o z > zα/2:

Contraste de hipótesis para la media de una población cuando la desviación típica es desconocida (tamaños muestrales grandes n > 30) Para tamaños muestrales grandes (n > 30), procedentes de una población, sea o no normal, de media y desviación típica desconocida, se pueden utilizar los mismos procedimientos de contraste desarrollados para los casos en los cuales la desviación típica es conocida, basta sustituir σ por la desviación típica muestral s.

Page 55: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

195

4.6 Resumen En general, los pasos que daremos para realizar un contraste de hipótesis serán los siguientes: 1. Seleccionar la característica de la población sobre la que se quiere contrastar la hipótesis.

2. Definir la hipótesis nula y la hipótesis alternativa. 3. Determinar el nivel de significación.

4. Hallar la región de aceptación y de rechazo. 5. Describir la regla de decisión e interpretarla; es decir, rechazar la hipótesis nula H0 si el valor

del parámetro que especifica no pertenece al intervalo de confianza . Actividades resueltas 1. El consumo diario en carne por persona en una determinada ciudad sigue una distribución

normal con desviación típica de 80 g. Por otra parte, los carniceros de un mercado central afirman que el consumo medio diario de carne por persona es de 113’4 g. Para contrastar esta hipótesis, a un nivel de significación de 0’05, se elige una muestra al azar de 4096 personas y se obtiene que consumen por término medio al día 116 g. Se pide: a) Determinar la hipótesis nula y la hipótesis alternativa. b) Hallar la región de aceptación y de rechazo, así como los valores críticos. c) Describir la regla de decisión.

Resolución Se trata de contrastar la media poblacional µ de una población normal con desviación típica conocida. En concreto, se contrastará la hipótesis nula formulada por los carniceros del mercado central al afirmar que el consumo medio diario en carne por persona es de µ = 113’4 g, frente a la hipótesis alternativa de que no es ese valor, es decir, µ ≠ 113’4 g.

a) Hipótesis nula H0: µ = 113’4

Hipótesis alternativa H1: µ ≠ 113’4

b) El nivel de significación es α = 0’05 y, por tanto, = 0’025

Como P(z < zα/2) = 0’975 ⇒ zα/2 = 1’96, la región de aceptación estará comprendida ente los valores críticos –zα/2 = –1’96 y zα/2 = 1’96, siendo la región de rechazo la comprendida para valores inferiores a –zα/2 = –1’96 y superiores a zα/2 = 1’96.

c) En la población se conoce σ = 80 g, y en la muestra n = 4096 y = 116 g.

Por tanto:

Como z = 2’08, está en la región de rechazo, ya que 2’08 > 1’96, se rechaza la hipótesis nula. Esto es, se rechaza la afirmación realizada por los carniceros del mercado central de que el consumo diario por persona en esta ciudad es de 113’4 g.

Page 56: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

196

2. El presidente de un grupo de agencias de viaje asegura que durante el último mes obtuvieron unas ventas medias de 3 millones de euros. Con el fin de contrastar este dato, se toma una muestra al azar de 100 sucursales y se obtienen unas ventas medias de 2’9 millones de euros y una desviación típica de 0’35 millones de euros. ¿Se acepta a un nivel de significación del 10% la afirmación del presidente del grupo?

Resolución En este caso, tenemos una población con desviación típica desconocida y tamaño muestral grande.

Se consideran las siguientes hipótesis: • Hipótesis nula H0: µ = 3

• Hipótesis alternativa H1: µ ≠ 3

A un nivel de significación α = 0’10, entonces = 0’05 y zα/2 = 1’645.

El estadístico de contraste es:

Por tanto, como –2’86 se localiza en la región crítica, se rechaza la afirmación del presidente sobre las ventas medias mensuales del grupo, a un nivel de significación del 10 %.

3. Hace algunos años, la medía de estatura de los españoles adultos (varones) era de 170 cm, con

σ = 9 cm. Pasado el tiempo, un muestreo realizado a 36 adultos da una media de 172 cm.

a) ¿Podemos afirmar, con una confianza del 90 %, que esa diferencia de 2 cm es debida al azar?

b) ¿No es posible que la estatura media haya aumentado? c) ¿Cambiarían las conclusiones si esa media de 172 cm se hubiese obtenido tras un muestreo

de tamaño n = 900? Solución No es el típico problema de contraste de hipótesis, pero puede ser conveniente que veas un enfoque diferente del contraste. a) El intervalo de confianza para la media poblacional, para 1 – α = 0’9, es

= (169’5,174’5)

El 90 % de las medias quedan entre 169,5 y 174,5 cm. Como 170 cm se encuentra en ese intervalo, no puede descartarse que esa muestra proceda de una población de media µ = 170 cm.

Page 57: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

197

b) A pesar de lo dicho, es posible que la media haya aumentado. De hecho, para =172 y σ = 9, la probabilidad de que una media poblacional µi esté por encima de 170 cm es:

P(µi > 170) = = P(Z > –1’33) = 0’9082 (Casi del 91 %)

Para n = 900, el intervalo de confianza al 90 % es

= (171’5,172’5)

El valor µ = 170 queda claramente fuera del intervalo. Prácticamente es seguro que la población ha aumentado su estatura media. De hecho, la probabilidad de que una media poblacional µi esté por encima de 170 cm es

P(µi > 170) = = P(Z > –6’67) = 1

El 100 % de las medias muestrales es mayor que 170 cm.

Este resultado es seguro, salvo catástrofe a la hora de muestrear.

Actividades propuestas

8. En una determinada población juvenil, el peso, en kg, sigue una distribución normal, N(50, 10). Si se extrae una muestra aleatoria de 25 jóvenes y para un nivel de significación del 5 %, ¿en qué condiciones se rechazaría la hipótesis de que la media de la población es de 50 kg?

9. Se sabe que la renta anual de los individuos de una localidad sigue una distribución normal de media desconocida y de desviación típica 2400 euros. Se ha observado la renta anual de 16 individuos de esa localidad escogidos al azar, y se ha obtenido un valor medio de16000 euros.

Contrasta, a un nivel de significación del 5%, si la media de la distribución es de 14500 euros. a) ¿Cuáles son las hipótesis nula y alternativa del contraste?

b) Determina la forma de la región crítica. c) ¿Se acepta la hipótesis nula con el nivel de significación indicado?

Page 58: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

198

5 ANALOGÍA ENTRE EL CONTRASTE DE HIPÓTESIS Y EL INTERVALO DE CONFIANZA

Supongamos que el gremio de restaurantes de Madrid afirma que el precio medio del menú del día es 8 € y queremos contrastar esta hipótesis. Para ello haremos: Hipótesis nula H0: µ = 8 €

Hipótesis alternativa H1: µ ≠ 8 €

Fijamos un nivel de significación, α = 0’05, de donde 1 – α = 0’95.

El estadístico del contraste es , y sigue una N(0,1).

Se determina la región de aceptación (–zα/2, zα/2), que para α = 0’05 resulta (–1’96,1’96).

Elegimos una muestra aleatoria de 40 restaurantes y hallamos el precio medio de la muestra y la desviación típica muestral; sean, por ejemplo:

= 8’25 €, s = 0’80 €

Efectuamos los cálculos para el valor particular de = 8’25:

Como 1’976 ∉ (–1,96,1’96), rechazamos por muy poco la hipótesis nula, y decimos que “al nivel de significación del 5 % existe evidencia suficiente de que el precio medio del menú del día es distinto de 8 €”.

Hallamos ahora un intervalo de confianza para la media poblacional al nivel del 5 % para el enunciado anterior:

= = (8'002,8'498)

Por tanto, para esta muestra el intervalo de confianza no cubre por muy poco el valor medio poblacional µ = 8 al nivel de significación del 5 %.

Acabamos de ver que existe una gran relación entre el intervalo de confianza para el parámetro de una distribución y un contraste de hipótesis relativo al mismo. Así, por ejemplo, si formulamos la hipótesis de que la media µ de una distribución toma un determinado valor µ0, obteniendo un intervalo de confianza para una muestra particular, cuando dicho intervalo no contenga el valor µ0 equivaldrá a rechazar la hipótesis nula µ = µ0.

NOTA: Los intervalos de confianza se utilizan para estimar parámetros población, mientras que los

contrastes de hipótesis se usan para tomar decisiones acerca de dichos parámetros.

Page 59: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

199

Page 60: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

200

ANEXO III: ACTIVIDADES DE PROBABILIDAD Y ESTADÍSTICA 1. Una urna contiene dos bolas blancas y dos rojas. Se hacen cuatro extracciones con

reemplazamiento. Encuentra: a) Los sucesos A: «sólo ha salido una bola negra»; B: «la segunda extracción es bola negra».

b) P(A), P(B), P(A ∩ B), P(A ∪ B), P(A – B)

2. En una clase infantil hay 6 niñas y 10 niños. Si se escoge a 3 alumnos al azar, halla la probabilidad de: a) Seleccionar 3 niños.

b) Seleccionar 2 niños y una niña. c) Seleccionar, al menos, un niño.

3. En cierta población laboral, un 80 % son peones sin cualificar (suceso P) y un 50 % son mujeres (suceso M). Se sabe, además, que el 40 % son peones femeninos y que un 45 % de los trabajadores cuyos padres tienen estudios (suceso PE), son mujeres. Di si son independientes los sucesos:

a) P y M b) PE y M

c) P y M'. 4. En un IES hay organizadas actividades extraescolares de carácter deportivo. De los alumnos de

2º de Bachillerato, participan en esas actividades 25 chicas y 20 chicos. En ese curso hay un total de 60 chicos y 40 chicas. Si se escoge un alumno al azar, calcula la probabilidad de que:

a) Sea chico. b) Sea chico y no participe en dichas actividades.

c) Participe en las actividades. d) Participe en las actividades sabiendo que es chica.

e) Sea chica, sabiendo que participa. 5. Un experimento consiste en lanzar un dado y extraer una bola de una urna que contiene una bola

blanca, dos rojas, una verde y una azul. Construya un espacio muestral apropiado a dicha experiencia para calcular la probabilidad de obtener un número mayor que tres y una bola roja. Obtenga dicha probabilidad.

6. Con motivo del centenario de una localidad, se han programado conciertos el 80% de los sábados. Del total de conciertos, un 25% son de piano, un 60% de orquesta y el 15% restante de rock. Un individuo, que desconoce el programa de conciertos, acude a la ciudad un sábado cualquiera. ¿Cual es la probabilidad de que pueda asistir a un concierto de piano?

7. Los paquetes recibidos en un almacén tienen un peso medio de 300 kg y una desviación típica de 50 kg. ¿Cuál es la probabilidad de que 25 de esos paquetes, elegidos al azar, excedan el límite de carga del montacargas donde se van a meter, que es de 8200 kg?

8. El cociente intelectual de unos universitarios se distribuye normalmente con media 100 y desviación típica 11.

a) Se elige una persona al azar. Hallar la probabilidad de que su CI esté entre 100 y 103. b) Se elige al azar una muestra de 25 personas. Encontrar la probabilidad de que la media de

sus cocientes intelectuales esté entre 100 y 103.

Page 61: NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA · 141 NÚCLEO III: PROBABILIDAD Y ESTADÍSTICA El humorista Forges publicó hace tiempo un chiste en un diario, en el que dos personas mantienen

201

9. El perímetro torácico de los individuos adultos (hombres) en una población se distribuye según la ley normal N(90, 6) cm. a) ¿Cómo se distribuyen las medias de las muestras de tamaño 81 extraídas de esa población?

b) ¿Cuál es la probabilidad de que una de esas medias sea menor de 87 cm? ¿Y de que sea mayor de 91 cm?

10. Suponemos que la altura de los alumnos de segundo de bachillerato de una ciudad determinada sigue una distribución normal de 165 cm de media y desviación típica de 11 cm. Se toma una muestra al azar de 121 de estos alumnos y se calcula su media. ¿Cuál es la probabilidad de que esta media sea menor de 164 cm?

11. Un estudio de mercado ha determinado que el precio de los libros científicos sigue una distribución normal de desviación típica 9’5 euros. Se desea estimar el precio medio de los libros científicos; para ello se elige una muestra aleatoria formada por 34 libros y se determina que la media muestral es = 22’05 euros.

Hallar el intervalo de confianza para el precio medio de los libros científicos al nivel del 99 %. 12. Supongamos una población N(µ,8). Se extrae de ella una muestra aleatoria simple. Si se sabe

que la probabilidad de cometer un error de 3’92 o más al estimar la media µ mediante la media muestral es de 0’05, ¿qué tamaño ha de tener la muestra?

13. El nivel medio de protombina de una población normal es de 20 mg/100 ml de plasma con una desviación típica de 4 mg/100 ml. Se toma una muestra de 40 individuos en los que la media es 18’5 mg/100 ml. ¿Es la muestra comparable con la población, con un nivel de confianza del 95 %?

14. Se cree que el tiempo medio de ocio que dedican al día los estudiantes de Bachillerato sigue una distribución normal de media 350 minutos y desviación típica poblacional de 60 minutos. Para contrastar esta hipótesis, se toma una muestra aleatoria formada por 100 alumnos, y se observa que el tiempo medio es 320 minutos. ¿Qué se puede decir de esta afirmación al nivel del 10 %?

15. Un sociólogo está estudiando la duración del noviazgo en una extensa área rural. Se tomó una muestra aleatoria formada por 56 familias y se obtuvo que La duración media de su noviazgo fue 3’4 años, con una desviación típica de 1’2 años. a) Hallar un intervalo de confianza para la duración media del noviazgo para la población de

familias en dicha área al nivel de confianza del 85 %. b) Repetir el apartado a) para niveles del 95 % y 99 %.

c) Comparar las longitudes de los intervalos obtenidos en a) y b) e interpretar según los distintos valores del nivel de confianza.

d) ¿Cuál debería ser el tamaño de la muestra para estar seguro al nivel del 90 % de que el error máximo cometido es del 5 %

16. La altura de un grupo de jóvenes se distribuye según una normal de media desconocida y varianza 25 cm2.

Se selecciona una muestra aleatoria y con una confianza del 95% se ha construido un intervalo para la media poblacional cuya amplitud es de 2'45 cm.

a) ¿Cuál es sido el tamaño de la muestra seleccionada? b) Determina el límite superior y el inferior del intervalo de confianza si la muestra escogida da

una altura media de 170 cm.