Práctica 2 vgaribay
1
PRÁCTICA 2. DISTRIBUCIONES DE PROBABILIDAD
OBJETIVOS: Cálculo de probabilidades y percentiles con diferentes modelos. Comprobación de aproximaciones estudiadas entre distribuciones. Simulación de datos de diferentes modelos probabilísticos. Ajuste gráfico de modelos a una muestra. Manipulación de datos por filas. Ilustración de la L.G.N y del T.C.L. Recordatorio de las herramientas del análisis descriptivo univariante.
Datos a utilizar, en los ficheros: Cardata.sgd, Municipios.sgd y robles.sgd.
1.- CÁLCULO DE PROBABILIDADES Calcular probabilidades y percentiles, y realizar la gráfica de la función de densidad o de la función de probabilidad con las distribuciones estudiadas.
Camino1: Plot / Probability Distributions o Camino2: Describe /Distribution Fitting / Probability Distributions
eligiendo inicialmente la distribución normal estándar: Normal (0,1)
Abrir todos los análisis numéricos y los dos primeros análisis gráficos
1.1� Calcular P(N(0,1)<z), z=-3, -2, -1, 0, 1, 2, 3 Ventana Cumulative Distribution / Botón secundario / Pane Options
y
Práctica 2 vgaribay
2
1.2� Calcular los percentiles 0,5; 2,5; 5; 10; 90; 95; 97,5; 99,5 Ventana Inverse CDF / Botón secundario / Pane Options
y 1.3� Comparar cinco v.a. N(,0.5) y otras cinco N(20,), variando y . Ventana Probaility Distributions / Botón secundario / Analysis Options
1.4� Calcular probabilidades y percentiles con la distribución binomial b(20,0.4). Barra de Herramientas / Botón Analisis, marco la distribución Binomial
Ventana Probaility Distributions / Botón secundario / Analysis Options p=0.4 n=20
Práctica 2 vgaribay
3
Pane Options en Ventana Cumulative Distribution (probs. acumuladas) e Inverse CDF (percentiles)
1.5� Calcular probabilidades y percentiles con la dist. exponencial con media 2. Barra de Herramientas / Botón Analisis, marco la distribución Exponencial
Ventana Probaility Distributions / Botón secundario / Analysis Options media=2
Pane Options en Ventana Cumulative Distribution (probs. acumuladas) e Inverse CDF (percentiles)
Práctica 2 vgaribay
4
2.- COMPROBACIÓN DE APROXIMACIONES Mediante este ejercicio se pretende verificar con algunos ejemplos las aproximaciones entre distribuciones que hemos estudiado en clase: Binomial-Normal, Binomial-Poisson y Poisson-Normal. Para ello dibujamos las probabilidades o densidades de algunas de estas distribuciones mediante el menú: Describe / Distribution Fitting / Probability Distributions... Llevamos los gráficos a StatGallery para comprobar la bondad de las aproximaciones. Copy pane to Statgallery. Al pegar el segundo o tercer gráfico elegimos “Overlay”. Conviene hacer una selección adecuada del intervalo de valores en el eje X en los gráficos (Graphic options) para ver las cosas mejor. También calcularemos las probabilidades de algunos sucesos y valoraremos la bondad de la aproximación así como el interés de la corrección por continuidad. 2.1- Aproximación binomial-normal válida: b(n,p) ~ N(np,(npq)1/2), npq>5.
2.1.1� Dibujar b(100;0,5) y N(50;5) superpuestas. Plot / Probability Distributions + Binomial
p=0.5 n=100
Ventana Densidad- Mass Function > Botón secundario > Copy Pane to StatGallery
Ventana StatGallery > Botón Secundario > Paste
Barra de Herramientas / Botón Analisis, marco la distribución Normal
o bien, nuevo Plot / Probability Distributions Normal
Parámetros Mean=50 Std.Dev=5
Práctica 2 vgaribay
5
Ventana Densidad- Mass Function > Botón secundario > Copy Pane to StatGallery
Ventana StatGallery > Botón Secundario > Paste + Replace
2.1.2� Calcular P(X<60) con la binomial 100 0,5 … Ventana Cumulative Distribution > Botón Secundario > Pane Options + 60
p(X<60)= 0,971556 (solución exacta) … y p(X<60) y P(X<59,5) con la normal. Análisis: Descripción de la N(0,1) / Ventana Cumulative Distribution > Botón Secundario > Pane Options + 60
p(X<60)= 0,97725 (aprox. N sin corrección)
Ventana Cumulative Distribution > Botón Secundario > Pane Options + 59.5
p(X<60)= 0,971284 (aprox. N con corrección)
Práctica 2 vgaribay
6
2.2- Aproximación binomial-normal no válida: npq<5.
2.2.1� Dibujar b(300;0,01) y N(3;1,7234) superpuestas. Cambiar los parámetros de la Binomial y la Normal, repitiendo los pasos del apartado anterior Ventana Prob. Distributions > Botón Secundario > Analysis Options nuevos parámetros En las descripciones Binomial y Normal
2.2.2� Calcular P(X<4) con la binomial y P(X<4) y P(X<3,5) con la normal. Ventana Cumulative Distribution > Botón Secundario > Pane Options + 4
p(X<4)= 0,647234 (solución exacta) … y ahora p(X<4) y P(X<3,5) con la normal. Análisis: Descripción de la N(0,1) / Ventana Cumulative Distribution > Botón Secundario > Pane Options + 4
p(X<4)= 0,719128 (aprox. N sin corrección)
Ventana Cumulative Distribution > Botón Secundario > Pane Options + 3.5
p(X<4)= 0,614141 (aprox. N con corrección)
Práctica 2 vgaribay
7
2.3- Aproximación binomial-Poisson válida b(n,p) ~ P(np), p<0,1 y 1<np<10.
2.3.1� Dibujar superpuestas b(300;0,01), N(3;1,7234) y P (3). Plot / Probability Distributions Normal 3 1,7234 gráfico densidad a StatGallery Plot / Probability Distributions Binomial 0,01 300 gráfico probs. a StatGallery Overlay Plot / Probability Distributions Poisson 3 gráfico probs. a StatGallery Overlay
2.3.2� Calcular P(X<4) con la binomial y con la Poisson. En el Análisis Plot Poisson Ventana Cumulative Distribution > Botón Secundario > Pane Options + 4
p(X<4)= 0,647232 (aprox. Poisson) (Casi perfecta)
Práctica 2 vgaribay
8
2.4- Aproximación Poisson-normal válida: P () ~ N(, 1/2), >5.
2.4.1� Dibujar P (9) y N(9;3) superpuestas.
Plot / Probability Distributions Normal 9 3 gráfico densidad a StatGallery Plot / Probability Distributions Poisson 3 gráfico probs. a StatGallery Overlay
2.4.2� Calcular P(X<10) con la Poisson y P(X<10) y P(X<9,5) con la normal.
Poisson / Ventana Cumulative Distribution > Botón Secundario > Pane Options + 10
p(X<10)= 0,587408 (valor exacto) Normal / Ventana Cumulative Distribution > Botón Secundario > Pane Options + 10
p(X<10)= 0,630561 (aprox. Noram sin corrección) Normal / Ventana Cumulative Distribution > Botón Secundario > Pane Options + 9,5
p(X<9,5)= 0,566186 (aprox. Noram sin corrección)
Práctica 2 vgaribay
9
3.- SIMULACIÓN DE DATOS ASOCIADOS A DISTRIBUCIONES
Generar o simular una muestra aleatoria de un modelo.
3.1� Genera tres muestras de tamaño 500 de la distribución N(3; 1).
Dos alternativas: forma 1- Generate Data con operadores (en tabla de datos)… (sólo algunas distribuciones)
REXPONENTIAL(n,mean) RGAMMA(n,shape,scale) RINTEGER(n,min,max) RLOGNORMAL(n,mu,sigma) RNORMAL(n,mu,sigma) RUNIFORM(n,min,max) RWEIBULL(n,shape,scale)
Datos / selecciono columna / Botón secundario en cabecera / Generate Data RNORMAL(500;3;1)
Repito en Columnas 2 y 3
forma 2- Describe / Distribution Fitting / Probability Distributions ( o Plot / Probability Distributions)
Normal (3,1)
Marcar opción Random Numbers
Ventana Random Numbres / Botón Secundario / Pane Options poner n=500 (100 por defercto)
Barra Herramientas / Botón Disquete seleccionar destino en la hoja y nombre de la nueva variable
Repetir dos veces Save (botón Disquete) hasta crerar 3 columnas (con 500 observaciones cada una)
Práctica 2 vgaribay
10
3.2� Generar dos muestras de tamaño 500 de la distribución U(0; 1). forma 1- Repetir el proceso de 3.1 pero cambiando RNORMAL(500;3;1) por RUNIFORM(500;0;1)
forma 2- Repetir el proceso de 3.1 pero seleccionando Uniform (01) en lugar de Normal (3,1) ( o Herramientas / Botón Analisis Uniform),
3.3� Generar 200 números aleatorios de la distribución de Poisson (2). forma 2- Repetir el proceso de 3.1 pero seleccionando Poisson (2) en lugar de Normal (3,1) Herramientas / Botón Analisis Poisson, + Botón Parametros 2
Ventana Random Numbers / Botón secundario / Size= 200 + Botón Save 3 veces
Práctica 2 vgaribay
11
3.4� Realizar un análisis estadístico descriptivo de las muestras anteriores comprobando visualmente el parecido del histograma con el modelo. Describe / Numeric data / One Variable Analysis normal1
Plot / Probability Distributions Normal (3,1)
Superpuestos los listogramas acumulados: Teórico y Muestral
Práctica 2 vgaribay
12
4.- AJUSTE GRÁFICO
Describe / Distribution Fitting / Fitting Uncensored Data
4.1� Ajustar las variables anteriores por modelos correctos e incorrectos. Muestra1 Normal (3,1)
Práctica 2 vgaribay
13
Muestra1 Unifrome (0,1)
Muestra1 Poisson (2)
Práctica 2 vgaribay
14
4.2� Hacer la transformación 2X+3 a la muestra de la N(3; 1) y comprobar la normalidad. Datos / Nueva Columna / Doble Click en cabecera / Formula Define 2*normal1+3
4.3� Hacer la transformación X2 a la muestra de la N(3;1) y comprobar que no se ajusta a la normal. Datos / Nueva Columna / Doble Click en cabecera / Formula Define normal1^2 P-Value=0,0136716
4.4� Combinar linealmente las tres variables normales y comprobar el ajuste a la normalidad. Datos / Nueva Columna / Doble Click en cabecera / Formula Define
3* normal1-2,5*normal2+1,5*normal3 P-Value=0,307374
Práctica 2 vgaribay
15
4.5� Sumar las dos variables uniformes y ver que no se ajustan a un modelo uniforme. Datos / Nueva Columna / Doble Click en cabecera / Formula Define uni1+uni2 P-Value=
4.6� Comprobar qué distribución ajusta gráficamente mejor las variables mpg y accel del fichero Cardata.sgd. Doble click sobre él para abrit con Statgraphics Describe / Distribution Fitting / Fitting Uncensored Data mpg
Selecciono ajustes a varias distribuciones: Normal, Uniforme, Exponencial, Log-Normal …
con Quantile Plot en el menú de Gráficos
Práctica 2 vgaribay
16
Describe / Distribution Fitting / Fitting Uncensored Data accel
5.- CONVERGENCIA DE LA MEDIA MUESTRAL
Comprobar el cumplimiento de la Ley Fuerte de los Grandes Números: la media muestral converge a la media poblacional.
5.1� Generar 500 datos de una exponencial de media 2 Seleccionar la columna / Generate Data / rexponential(?;?) o Plot / Prob. Distributions exponential(2)
Ventana Random Numbers / Botón Secundario / Pane Options Size=500
Botón Diskete guardo las 500 observaciones independientes de la exponencial(2)
Práctica 2 vgaribay
17
5.2� En la siguiente columna generar una variable contador Seleccionar la columna / Generate Data / count(?;?;?) o bien Data Book / Seleccionar Col_2 / Doble Click en cabecera / Formula / Define / COUNT(1;500;1)
5.3� Crear una columna donde cada celda i guarde el valor resultado de sumar las celdas 1 hasta i de la variable exponencial creada Data Book / Seleccionar la columna3 / Botón secundario/Generate Data / runtot(?)
5.4� Dividir la última columna por la columna contador. Data Book /Seleccionar Col_4 /Doble Click en cabecera /Formula/Define/ exp2_acumulada/Contador
Práctica 2 vgaribay
18
5.5� Plot de la última columna y ver la convergencia a la media muestral a la teórica (2): Plot /Scatterplots / X-Y Plot, x=Contador Y= Media_Muestral_i
o bien Plot /Time Sequencie Plots /X Plot media_muestral_i
Práctica 2 vgaribay
19
6.- CONVERGENCIA A LA DISTRIBUCIÓN NORMAL Comprobar el cumplimiento del Teorema Central del Límite: la distribución de la suma y de la media muestral convergen a la distribución normal. 6.1� Generar una a una 10 columnas con 500 datos de una distribución de U(0,1) Seleccionar la columna / Generate Data / runiform(?;?) o Seleccionar la columna / Generate Data / runiform (?;?) o Plot / Prob. Distributions Uniform(0,1)
Ventana Random Numbers / Botón Secundario / Pane Options Size=500
Botón Diskete guardo las 500 observaciones independientes de la Uniform(0,1)
Repetir hasta 10 veces poniendo nombre a cada columna: uniform1, uniform2 … hasta uniform10
6.2� Describir una de las columnas y ajustarla al modelo uniforme. Describe / Distribution Fitting / Fitting Uncensored Data uniform1 ajuste Uniforme
Práctica 2 vgaribay
20
6.3� Generar columnas con las sumas de las 2, 5, 10 primeras columnas. Describe / Numeric Data / Rowwise Statistics (disquetesuma)).
Columnas 1 y 2
Repetir para suma de las columnas 1 a 5
y finalmente, calculo y guardo las 500 medias de las columnas 1 a 10
Práctica 2 vgaribay
21
6.4� Hacer un ajuste a un modelo normal de la primera columna y de las sumas creadas. Describe / Distribution Fitting / Fitting Uncensored Data uniform1 ajuste Normal
Analisis Uniform1 Ventana Histograma / Copy to StataGallery / Paste Ajuste de la variable Media2 a la Normal Botón Analisis / variable Media2
Ajuste de la variable Media5 a la Normal Botón Analisis / variable Media5
Práctica 2 vgaribay
22
Ajuste de la variable Media10 a la Normal Botón Analisis / variable Media10
6.5� Pegar los cuatro histogramas ajustados en los paneles de StatGallery. Hemos reunido los histogramas de cada análisis en StatGallery mediante
Analisis Uniform1 Ventana Histograma / Copy to StataGallery / Paste Analisis Media2 Ventana Histograma / Copy to StataGallery / Paste Analisis Media5 Ventana Histograma / Copy to StataGallery / Paste Analisis Media10 Ventana Histograma / Copy to StataGallery / Paste
Práctica 2 vgaribay
23
6.6� Comprobar que la media y la varianza muestrales de las sumas se parecen a los valores poblacionales conocidos n y n1/2 siendo
Calculamos las sumas -por ejemplo- a partir de las medias, multiplicando en cada caso por el número de observaciones promediadas (2, 5 o 10). Aparecen así 3 nuevas columnas: suma2, suma5 y suma10 Data Book / Col_4 doble click / Formula / Define 2* media2 ; 5*media5 ; 10*media10
suma2 suma5 suma10
Describe / Numeric Data / One-Variable Analiysis suma2
n=2 n = 2*0,5=2 y n1/2 =(1/raíz(12)) raíz(2)= 0,408
Describe / Numeric Data / One-Variable Analiysis suma5 o Botón Analisis suma5
Práctica 2 vgaribay
24
n=5 n = 2*0,5=2,5 y n1/2 =(1/raíz(12)) raíz(5)= 0,645
Describe / Numeric Data / One-Variable Analiysis suma10 o Botón Analisis suma10
n=10 n = 10*0,5=5 y n1/2 =(1/raíz(12)) raíz(10)= 0,913
6.7� Repetir el ejercicio con promedios en lugar de sumas. Notar que ahora se tiene
Describe / Numeric Data / One-Variable Analiysis media2 o Botón Analisis media2
n=2 = 0,5 y n1/2 =(1/raíz(12))/ raíz(2)= 0,204
Describe / Numeric Data / One-Variable Analiysis media5 o Botón Analisis media5
n=5 = 0,5 y n1/2 =(1/raíz(12))/ raíz(5)= 0,129
Describe / Numeric Data / One-Variable Analiysis media10 o Botón Analisis media10
n=10 = 0,5 y n1/2 =(1/raíz(12))/ raíz(10)= 0,091
Práctica 2 vgaribay
25
EJERCICIOS Ejercicio 2.1: Sea X es una variable aleatoria N(10,3). a) Halla la gráfica de su función de densidad.
b) Calcula la probabilidad P(X<9.5).
c) Halla el percentil 97.5%.
Ejercicio 2.2: Sea X una variable aleatoria que sigue una distribución exponencial de media 17.
a) Calcular la probabilidad P(X>25).
b) Hallar x tal que P(X<x) = 0.3 Ejercicio 2.3: Se sabe que la densidad X de ciertos ladrillos cuando se hornean a 125ºC es
una variable aleatoria normal con media 3.85 gr/cm3 y desviación típica 0.05
gr/cm3. Si
los límites de tolerancia son (3.75 gr/cm3, 4.00 gr/cm3), hallar el porcentaje de
ladrillos
que se salen de dicho intervalo.
Ejercicio 2.4: La tasa de artículos defectuosos producidos por una cadena de producción es del 2%. Hallar la probabilidad de que en una muestra de 500 artículos extraídos
al azar
e independientemente haya más de 20 defectuosos.
Ejercicio 2.5: En cierta factoría de montaje en serie se estima que el 30% de los días de
trabajo se produce algún paro parcial por averías menores y se supone que hay
independencia entre lo que ocurre en días distintos. Cada vez que se acumulan tres
días
con paros parciales, la empresa decide hacer un paro total para poner a punto el
sistema.
Obtener la probabilidad de que transcurran más de 10 días sin producirse un paro
total.
Ejercicio 2.6: Las llamadas que llegan a cierta centralita telefónica en determinado periodo de tiempo siguen un Proceso de Poisson de tasa 180 llamadas a la hora. La
capacidad de la central telefónica permite atender un máximo de 5 llamadas por
minuto.
Calcular:
a) La probabilidad de que en un minuto determinado se reciban más llamadas de las
que se pueden atender.
b) La probabilidad de que en un intervalo de 5 minutos se produzcan más de 10
llamadas. Ejercicio 2.7: a) Buscar la distribución que mejor se ajusta gráficamente a la variable Poblacion
del
fichero de datos Municipios.sgd entre la Gamma, la Normal y la Uniforme, y escribe a continuación el valor del/los parámetro/s.
b) Con los datos de robles.sgd, buscar la distribución que mejor se ajusta gráficamente
a la variable X=(10*Fosforo-Calcio)^2 entre la Normal, la Lognormal, la Uniforme
y la Binomial. Usando la distribución elegida, halla el valor de x tal que
Práctica 2 vgaribay
26
P(X>x)=0.2.
ESTADÍSTICA 1er Curso
c) Con los datos de robles.sgd, buscar la distribución que mejor se ajusta gráficamente
a la variable X=Zinc/Manganeso entre la Poisson, la Gamma, la Exponencial y la
Normal. Usando la distribución elegida, halla P(X≤1). Ejercicio 2.8: Comprobar la convergencia de la media con las distribuciones Uniforme Discreta en
{0,1,…,10}, B(1/6) y N(10,5). Observar que en el segundo caso la media es una
proporción. Ejercicio 2.9: Comprobar el Teorema Central del Límite con datos procedentes de las
distribuciones:
U(0,3), (3,1.5) y g(0.1). Tener en cuenta que para el programa la variable con
distribución
geométrica representa el nº de ensayos antes del primer éxito. Sucede lo mismo con
la
Pascal. Ejercicio 2.10: Simular 200 datos de 5 variables con distribución B(0.6) y comprobar que su suma es
Binomial. Ídem con las distribuciones Normal, Geométrica y Exponencial. ¿A qué
distribución se ajusta la suma en cada caso? Ejercicio 2.11: a) Calcular de forma teórica la probabilidad de obtener 3 doses en 5 tiradas.
b) Calcula la misma probabilidad simulando 300 datos binomiales, contando los casos
correspondientes a 3 doses y hallando la proporción sobre los 300. (Operadores
select y sum, o bien frecuencia relativa de la categoría correspondiente).
Ejercicio 2.12: Se pretende obtener la distribución del mayor resultado al lanzar 4 veces
un dado legal.
Generar 4 columnas de datos resultados de lanzar cuatro dados 100 veces (usar la
distribución Uniforme Discreta entre 1 y 6 o bien el operador Rinteger(100;1;6)).
En la siguiente columna considerar el estadístico máximo de los cuatro
resultados
de cada fila (Describir / Datos Numéricos / Estadísticas por Filas). Representarla gráficamente y observar la calidad del ajuste a diferentes distribuciones.
Repetir el proceso anterior con el mínimo y la mediana.