practica 2 resuelta

9
PRACTICA 2a: Probabilidad y variables aleatorias. 1. Se dice que una variable aleatoria discreta es una variable de Poisson , si su función de densidad es del tipo: donde Se puede probar que para una variable de este tipo, tanto la media como la desviación típica son iguales a (el parámetro de la distribución). Experimentalmente, se ha determinado que el número de veces que una planta de energía nuclear emite gases radiactivos al cabo del año responde a una variable de este tipo, con . a) Por término medio, ¿cuántas emisiones radiactivas realizará la planta cada año? Tres (véase el párrafo anterior). b) ¿Cuál es la probabilidad de que la planta no realice ninguna emisión, en un año determinado? ¿Y la de que realice alguna emisión? Descripción + Distribuciones + Distribuciones de Probabilidad. Escogemos la distribución de Poisson. Después, botón derecho + opciones de Análisis; introducimos la media de la variable, 3. La probabilidad de que no realice ninguna emisión es P(X=0)=0,0497871 (aparece abajo, a la izquierda: probabilidad de masa), y la de que realice alguna emisión es P(X>0)=0,950213 (área de cola superior). c) ¿Cuál es la probabilidad de que realice exactamente dos emisiones? ¿Y de que realice entre 2 y 4 emisiones? Botón derecho + opciones de ventana. Valores para la variable: 2. Con esto, P(X=2)= 0,224042 (probabilidad de masa). Para calcular , tenemos en cuenta que esa probabilidad es igual a P(X<5)-P(X<2); así que pulsamos botón derecho y añadimos 5: restando los áreas de cola correspondientes a 2 y 5, tenemos 0,815263-0,199148 = 0,616115. d) Se han contabilizado cincuenta plantas de este tipo en una zona de la Comunidad Europea. ¿Cuántas de ellas se prevé que realizarán durante este año entre dos y cuatro emisiones? Basta calcular el 0,616115 * 100 = 61,6115 % de 50. Aproximadamente 31. 2. Los datos sobre las toneladas de CO 2 emitidas anualmente un cierto año por los países del planeta sugirieron que esta variable se distribuía normalmente con una media próxima a 14, y con una desviación típica de 0’47. a) ¿Qué porcentaje de países emitió, dicho año, entre 13 y 15 toneladas de CO 2 ?

Upload: anibalsmithpastortrevino

Post on 09-Jul-2016

1 views

Category:

Documents


0 download

DESCRIPTION

ver

TRANSCRIPT

Page 1: PRACTICA 2 Resuelta

PRACTICA 2a: Probabilidad y variables aleatorias.

1. Se dice que una variable aleatoria discreta es una variable de Poisson , si su función de densidad es del tipo:

donde Se puede probar que para una variable de este tipo, tanto la media como la desviación típica son iguales a (el parámetro de la distribución). Experimentalmente, se ha determinado que el número de veces que una planta de energía nuclear emite gases radiactivos al cabo del año responde a una variable de este tipo, con .

a) Por término medio, ¿cuántas emisiones radiactivas realizará la planta cada año?

Tres (véase el párrafo anterior).

b) ¿Cuál es la probabilidad de que la planta no realice ninguna emisión, en un año determinado? ¿Y la de que realice alguna emisión?

Descripción + Distribuciones + Distribuciones de Probabilidad. Escogemos la distribución de Poisson. Después, botón derecho + opciones de Análisis; introducimos la media de la variable, 3. La probabilidad de que no realice ninguna emisión es P(X=0)=0,0497871 (aparece abajo, a la izquierda: probabilidad de masa), y la de que realice alguna emisión es P(X>0)=0,950213 (área de cola superior).

c) ¿Cuál es la probabilidad de que realice exactamente dos emisiones? ¿Y de que realice entre 2 y 4 emisiones?

Botón derecho + opciones de ventana. Valores para la variable: 2. Con esto, P(X=2)= 0,224042 (probabilidad de masa). Para calcular , tenemos en cuenta que esa probabilidad es igual a P(X<5)-P(X<2); así que pulsamos botón derecho y añadimos 5: restando los áreas de cola correspondientes a 2 y 5, tenemos 0,815263-0,199148 = 0,616115.

d) Se han contabilizado cincuenta plantas de este tipo en una zona de la Comunidad Europea. ¿Cuántas de ellas se prevé que realizarán durante este año entre dos y cuatro emisiones?

Basta calcular el 0,616115 * 100 = 61,6115 % de 50. Aproximadamente 31.

2. Los datos sobre las toneladas de CO2 emitidas anualmente un cierto año por los países del planeta sugirieron que esta variable se distribuía normalmente con una media próxima a 14, y con una desviación típica de 0’47.

a) ¿Qué porcentaje de países emitió, dicho año, entre 13 y 15 toneladas de CO2?

Descripción + Distribuciones + Distribuciones de Probabilidad. Escogemos la distribución normal. Botón derecho + opciones de análisis: introducimos la media (14) y la desviación típica (0,47). Después, opciones de ventana, e introducimos los valores 13 y 15. Restando los áreas de cola inferior para cada caso, 0,983317-0,0166825= 0,9666345. Por lo tanto, un 96’66% de los países.

b) ¿Qué porcentaje de países emitió menos de 13,5 toneladas? ¿Y una cantidad menor o igual de 13,5 toneladas?

Botón derecho + opciones de análisis; introducimos 13,5; el área de cola inferior es 0,143702; por lo tanto, 0,143702* 100 = 14,3702%. Los dos porcentajes pedidos coinciden porque lo hacen las dos probabilidades pedidas: en el caso de variables continuas, la probabilidad de que la variable tome un valor concreto se considera nula (es, en un cierto sentido, una limitación de la teoría).

c) ¿Qué porcentaje de países emitió más de 16 toneladas?

Prácticamente 0%.

d) ¿Por encima de qué niveles se encontraba el 10% de países más contaminante?

Botón amarillo + CDF inverso. Buscamos el valor por debajo del cuál queda un área de 0,9 en la función de densidad. El valor pedido es 14,6023.

e) ¿Por debajo de qué niveles se encontraba el 15% de países más respetuosos?

Desde la ventana anterior, botón derecho + opciones de ventana; introducimos 0,15. El valor pedido es 13,5129.

Page 2: PRACTICA 2 Resuelta

f) Calcula los cuartiles y la mediana, e interprétalos.

El primer cuartil se calcula buscando el valor por debajo del cuál queda un área de 0,25; análogamente para el tercero, con un área de 0,75, y para la mediana, con un área de 0,5. Por lo tanto, el primer cuartil es 13,68, lo cuál indica que el 25% de países menos contaminantes tenían tasas por debajo de 13’68. El tercer cuartil es 14’317; por lo tanto, el 25% de países más contaminantes tenían tasas por encima de ese valor. Finalmente, la mediana, 14, nos indica que la mitad de los países estaban por debajo de esa tasa, y la otra mitad por encima.

g) Sobre una muestra aleatoria de 50 países, ¿cuántos cabría esperar que emitieran más de 14’5 toneladas de CO2

si el comportamiento actual se distribuyera del mismo modo?

Procediendo como en el apartado c), calculamos que la probabilidad de emitir más de 14’5 toneladas de CO 2 es 14’3702%. Calculamos el 14’3702% de 50 y obtenemos un total de 7 países.

3. La magnitud de los terremotos, medidos en la escala Richter, en una determinada región sigue una distribución exponencial de parámetro 2 (se recuerda que la distribución exponencial responde a una función de densidad del tipo , donde es el parámetro de la distribución; se recuerda además, que la media de esta variable es ).

a) ¿Cuál es la magnitud media de los seísmos que se producen en dicha región?

Según lo de arriba, la magnitud media es 1/2 = 0,5.

b) ¿En qué porcentaje de ocasiones se registran seísmos de magnitud entre 1 y 2?

Descripción + Distribuciones + Distribuciones de Probabilidad. Escogemos la distribución exponencial. Botón derecho + opciones de análisis: introducimos la media (0,5). Después, opciones de ventanta + valores para la variable = 1 y 2. Después, restando los correspondientes áreas de cola inferior, tenemos 0,981684-0,864665 = 0,117019. Por lo tanto, 0,117019 * 100 =11,7019%.

c) ¿En qué porcentaje de ocasiones se registran seísmos de magnitud superior a 2?

En la misma ventana P(X>2)= 0,0183156 (área de cola superior). Por lo tanto, 1,83%.

d) Calcula los cuartiles, la mediana, y el percentil 90, e interprétalos.

Q1 = 0,143831; M=0,346574; Q3 = 0,693147. El percentil 90 es 1,15129. La interpretación es análoga a la del ejercicio anterior.

e) ¿Por encima de qué magnitud se sitúa el 15% de seísmos más fuertes?

Como el 2 e. La solución es 0’9484.

4. Las poblaciones de dos especies animales en competición, X e Y, pueden modelizarse a partir de distribuciones normales. En concreto, X se comporta como una distribución N(250, 30), e Y como N(300,10). ¿Con qué probabilidad sucederá que la población de X supere a la de Y? (NOTA: debes utilizar el hecho de que la resta de normales es también normal, es decir: si

, , entonces ; además, en ese casto lo que necesitamos calcular es P(X-Y>0))

La variable X-Y es normal de media 250-300= -50, y desviación típica . Calculamos entonces P(X-Y>0) (escogiendo la distribución normal, introduciendo los valores correspondientes para media y desviación típica, etc.) y obtenemos un valor de 5,69%.

5. Calcula los siguientes puntos críticos, visualizando la función de densidad de la distribución correspondiente:

a)

Se nos pide el valor que en la normal N(0,1) deja a la derecha un área de 0,025 (por lo tanto, a la izquierda uno de 0,975). En la opción de CDF inverso introducimos 0,975, y obtenemos 1,95997.

Page 3: PRACTICA 2 Resuelta

b)

Buscamos el valor que en la t de Student de 151 grados de libertad, deja a la derecha un área de 0,05 (a la izquierda uno de 0,95). Elegimos entonces la t de Student, con botón derecho introducimos el número de grados de libertad y en la opción CDF inverso obtenemos 1,65501. Obsérvese que la t de Student proporciona un valor muy similar al de la normal.

c)

Buscamos el valor que en la chi-cuadrado de 16 grados de libertad deja a la derecha un área de 0,3 (a la izquierda, uno de 0,7). Elegimos la chi-cuadrado, introducimos el número de grados de libertad y en la opción CDF inverso obtenemos 18,4179.

d)

Buscamos el valor que en la F de Snedecor de 20, 15 grados de libertad deja a la derecha un área de 0,95 (grande!). Lo lógico será por lo tanto que esté próximo a 0. Procediendo como antes, se obtiene 0’45387.

6. Visualiza la curva de densidad de una distribución normal N(2,3).

a) Genera números aleatorios que simulen una muestra de la población, y guárdalos.b) Compara (atendiendo a los parámetros estadísticos, el histograma, el diagrama de cajas, etc.) lo que obtienes con

las propiedades de la distribución. En particular, ¿podrías considerar “normales” los datos que has generado?

Para el apartado a), elegimos una distribución normal N(2,3). Después, botón guardar + números aleatorios. Podemos llamar NORMAL a la nueva variable. Se genera una muestra de 100 datos que simula una muestra correspondiente a una población N(2,3). Para (b), si realizamos un análisis descriptivo de los datos (Descripción + Datos Numéricos + Análisis Unidimensional; Datos = NORMAL), lo natural es que tanto los parámetros estadísticos (en concreto, coeficientes de asimetría y curtosis tipificados) y los gráficos (histogramas, diagramas de caja, etc.) avalen la normalidad de los datos generados.

7. A partir de una distribución t de Student de 10 grados de libertad, genera números aleatorios que simulen una muestra. Realiza un análisis descriptivo de los datos, y comprueba que en general posee una curtosis elevada. Repite el experimento tres veces, e indica si en alguna ocasión los datos generados podrían pasar por normales (a partir de los coeficientes de asimetría y curtosis tipificados). ¿Y si en vez de 10 grados de libertad, introduces 1000?

Puesto que los datos generados son aleatorios, cada alumno obtendrá un resultado diferente. En general, en el caso de 10 grados de libertad lo más habitual es obtener muestras con curtosis elevada, aunque en ocasiones pueda quedar dentro del rango admitido para normalidad. Sin embargo, según se incrementa el número de grados de libertad, la t de Student se aproxima cada vez más a una normal. Por lo tanto, en el caso de 1000 grados de libertad lo habitual es obtener valores muy bajos de asimetría y curtosis, como corresponde a una distribución normal.

PRACTICA 2b: Probabilidad y variables aleatorias.

1. Se dice que una variable aleatoria X es una binomial, de parámetros n y p, abreviadamente X = B(n,p), si su función de densidad es:

donde . Típicamente, esta variable responde a la siguiente pregunta: dado un experimento que únicamente puede tener dos resultados posibles, que denominamos éxito (y que ocurre con probabilidad p) y fracaso (que ocurre por tanto con probabilidad q=1-p), ¿cuál es la probabilidad de que al repetir n veces el experimento, obtengamos exactamente x éxitos? Se puede probar que la media de esta variable es np, y su varianza, npq.

Page 4: PRACTICA 2 Resuelta

a) Las palmeras de una zona sufren una plaga del escarabajo picudo rojo (Rhynchophorus ferrugineus). Se estima que hay aproximadamente un 25% de palmeras enfermas. Si en un jardín hay 20 palmeras, ¿cuál es la probabilidad de que haya entre 3 y 7 palmeras enfermas? ¿Y más de 3? ¿Y menos de 7? (NOTA: reconoce previamente en el problema, el esquema de la binomial; para Statgraphics, el valor de p recibe el nombre de “probabilidad de evento”, mientras que n es el número de ensayos).

b) ¿Cuál es la cantidad de palmeras enfermas que cabría esperar encontrar en el jardín? ¿Cuál es la probabilidad de que el número de palmeras enfermas sea efectivamente ese?

c) ¿Tiene sentido temer que más de la mitad de las palmeras del jardín estén enfermas? ¿Por qué? (NOTA: argumenta la respuesta calculando previamente una probabilidad).

a) Es una binomial, donde n = 200, p=0,25, es decir X=B(200,0.25), siendo X el número de palmeras enfermas dentro de un grupo de 20 (las que hay en el jardín). La probabilidad de que X esté entre 3 y 7 es P(X<8)-P(X<3)= 0,8981880,0912605 = 0,8069275 (80,69%). P(X>3)=0,774844 (77,48%), P(x<7)=0,785782.

b) El número medio de palmeras es np= 20 x 0,25 = 5. La probabilidad de que el número de palmeras enfermas sea 5 es P(X=5)= 0,202331; en porcentaje, 20,23%.

c) La probabilidad de que eso pase (P(X>10) es escasa, 0,00394207. No tiene mucho sentido.

2. Se considera que el número de incendios y conatos anuales en una zona de España sigue una distribución normal de media 43 y desviación típica 12.

a) ¿Con qué probabilidad podemos esperar más de 50 incendios en dicha zona?

b) Con este modelo, ciertos servicios y ayudas se movilizan automáticamente cuando el número de incendios supera el percentil 85. ¿Por encima de qué número de incendios se estaría en esta situación?

c) ¿Cuál es la probabilidad de que se registren entre 40 y 60 incendios? ¿Y menos de 40?

d) Proporciona un intervalo que contenga el número de incendios que cabe esperar en el 90% de los casos? (SUGERENCIA: un intervalo razonable que responde a la condición que se pide, es el comprendido entre los percentiles 5 y 95; trata de entender por qué).

a) P(X>50)=0,279833. b) A partir de 55 incendios.c) P(40<X<60)= 0,92171-0,401292 = 0,520418. P(X<40)=0,40192. Por lo tanto, porcentajes de 52,04% y 40,192%,

respectivamente.d) El percentil 95 es aprox. 63, y el percentil 5, 23. Por lo tanto, (23,63).

3. En una región, se han observado determinadas subespecies X1 y X2 de una especie vegetal X. Si el número de ejemplares de X1 sigue una distribución y el número de ejemplares de X2 sigue una :

a) ¿Qué distribución sigue el número de ejemplares de X? (NOTA: observa que el número de ejemplares de X es la suma de X1 y X2 y recuerda que la suma de normales es también normal; concretamente, si , , entonces

).

Normal de media 900 y desviación típica

b) ¿Cuál es la probabilidad de que la población de X supere los 950 ejemplares?

8,275%.

c) ¿Cuál es la probabilidad de que la población de X esté por debajo de 800 ejemplares?

0,277%.

4. Calcula los siguientes puntos críticos, y responde en cada caso a la pregunta que se plantea. Para esto, visualiza la función de densidad de la variable aleatoria correspondiente, y ten en cuenta su forma y características.

a) z0,5

Page 5: PRACTICA 2 Resuelta

¿Podrías haber dado el valor sin recurrir a Statgraphics? ¿Por qué?

0,5. Se podría haber dado directamente ya que la curva de densidad de N(0,1) es simétrica respecto al eje Y.

b) t0.95, 20

¿Por qué sale negativo el valor?

El valor es -1.72472. La curva de densidad de la t de Student es simétrica respecto del eje Y. Por lo tanto, si buscamos un valor que deja a la derecha un área de 0,95 (mayor de 0,5), el valor debe ser negativo.

c)

¿Por qué sale tan grande?

37,5662. La chi-cuadrado tiene una cola muy larga a la derecha; buscamos el valor que deja a su derecha un área de 0,01 (muy pequeño), luego no es raro que quede un valor alto.

d) ¿Por qué sale un valor tan bajo?

1.1064. Siendo los grados de libertad tan altos, en la curva de densidad vemos que casi toda la probabilidad se concentra en torno al 1.

5. La función de Weibull (http://en.wikipedia.org/wiki/Weibull_distribution) es otra variable aleatoria más, que cabe añadir a la colección de la que forman parte la normal, la exponencial, t de Student, chi-cuadrado, etc. Esta distribución se ha utilizado en meteorología y en el llamado análisis de supervivencia (http://en.wikipedia.org/wiki/Survival_analysis). La distribución de Weibull posee función de densidad

donde son los parámetros de la distribución (llamados respectivamente tasa de fallo o escala y parámetro de forma, respectivamente).

a) Visualiza la función de densidad de una variable Weibull de parámetros 8 (forma) y 7 (escala). ¿Es simétrica?

Forma,Escala8,7

Weibull Distribución

x

dens

idad

0 2 4 6 8 10 120

0,1

0,2

0,3

0,4

0,5

Es ligeramente asimétrica hacia la izquierda.

b) Genera, utilizando la opción Guardar + Números Aleatorios, un conjunto de números aleatorios que imiten una muestra tomada de una población que siga la distribución anterior.

Como en 6 a).

c) Realiza un análisis descriptivo de los datos anteriores, visualizando asimismo el histograma y el diagrama de cajas de los datos. Indica si los datos pueden considerarse normales a partir de los coeficientes de asimetría y curtosis estandarizados. Anota el valor del coeficiente de variación.

Puede suceder que los datos sean identificados como normales, o que no (cada uno generaréis datos diferentes, y habrá de todo). Si se identifican como normales, no hay ningún error: un mismo conjunto de datos puede ser modelizado mediante diferentes variables aleatorias (normal, Weibull, etc.)

Page 6: PRACTICA 2 Resuelta

d) Haz lo mismo para una variable Weibull de parámetros 2 y 9. ¿Cuál de las dos variables, la de ahora o la generada en el apartado anterior, es más dispersa? Explícalo a partir de los gráficos de las respectivas curvas de densidad.

La curva de densidad de la primera distribución (la del apartado anterior) está mucho más concentrada en torno a la media que la segunda (la de este apartado). En consecuencia, lo lógico es que el coeficiente de variación de los datos generados en este segundo caso sea mayor que el obtenido en el apartado anterior.