Download - Unidad_III_VA_PAB_TM

5/11/2018 Unidad_III_VA_PAB_TM - slidepdf.com

http://slidepdf.com/reader/full/unidadiiivapabtm 1/80

CAPITULO 4 GENERACION DEVARIABLES ALEATORIAS

En esta sección se trataran procedimientos para muestrear una variedad de distribuciones deprobabilidad discretas y continuas ampliamente usadas. En el capítulo 1, “introducción a la

simulación” se discutió y se mostraron ejemplos de sistemas diversos donde se dejo clara la

importancia de las distribuciones estadísticas para modelar actividades que son generalmente

impredecibles o inciertas. Por ejemplo, los tiempos entre arribo y los tiempos de servicio en las

colas, y la demanda de un producto, son generalmente impredecibles por naturaleza, al menos en

cierta extensión. Usualmente tales variables son modeladas como variables aleatorias con una

distribución estadística, y los procedimientos estadísticos estándar existen para estimar los

parámetros de la distribución hipotética y para probar la validez del modelo estadístico asumido

(como son las pruebas de Ajuste de Bondad), que se cubrirá en la siguiente sección.

Se asume que una distribución ha sido completamente especificada, y se han visto procesos para

generar muestras de esta distribución para ser usadas como insumo para un modelo de

simulación. El propósito de esta sección es explicar e ilustrar algunas técnicas ampliamente usadas

para generar variables aleatorias, y no para llevar a cabo una investigación profunda de las

técnicas más eficientes. En la práctica, la mayoría de quién realiza la simulación usará las rutinas

existentes en las bibliotecas disponibles en los lenguajes de programación, o en las rutinas de los

lenguajes de simulación. Sin embargo, algunos lenguajes de programación no tienen rutinas

internas de todas las distribuciones utilizadas. Aunque esto no es muy común, es importante

entender como se lleva a cabo la generación de variables aleatorias.

En este capítulo se discuten las técnicas de transformación inversa, el método de convolución y

más brevemente la técnica de aceptación-rechazo. Otra técnica el método de composición, es

discutida por Fisherman [1978] y Law y Kelton [1991]. Todas las técnicas en este capítulo

consideran que se conoce como fuente la uniformidad U(0,1) de los números aleatorios R 1,R2,....,

donde cada Ri tiene una función de densidad de probabilidad (FDP )

Y la función de densidad acumulada de probabilidad (FDA )

1, 0 1

0, R

x f x

en otro caso

0, 0

, 0 1

1, 1

R

x

F x x x

x



4.1.- Métodos de Generación de Variables Aleatorias

Hay una variedad de métodos para generar variables aleatorias. Cada método se aplica solo a un

subconjunto de distribuciones y para una distribución en particular un método puede ser mas

eficiente que otro.

4.1.1 Transformación Inversa

Si la variable aleatoria X tiene una FDA F (x ), entonces la variable R = F (x ) esta distribuidauniformemente entre 0 y 1. Por lo tanto, X se puede obtener generando números uniformes y

calculando x = F -1

(R).

Analíticamente, el método se representa como:

( ) ( ) x

F X f t dt

(9)

1( ) X F R (10)

1.0

u

x0

FDA

F(x)



donde f (x ) es la función de densidad de probabilidad de la distribución deseada. Para ver porqué el

X generado con este método en realidad tiene la distribución deseada, tome un valor X 0 y calcule la

probabilidad acumulada:

0 0 0( ) ( ( ) ( )P X X P R F X F X (11)

Puesto que F (X0) pertenece al intervalo [0,1], la segunda igualdad plantea que R es un número

uniformemente distribuido en dicho intervalo, y como F (x ) es la función de probabilidad acumulada

de X , se concluye que esta variable tendrá la distribución deseada.

Este método nos permite generar variables aleatorias siempre que se pueda determinar F -1

(x )

analíticamente o empíricamente.

Ejemplo (determinación analítica):

Sea X exponencial con f (x ) = e -x

. La FDA es F (x ) = 1 - e -x

=Ro .Si R es uniforme entre 0 y 1, entonces 1-R también estadistribuida uniformemente entre 0 y 1. Por lo tanto podemosgenerar variables aleatorias exponenciales generando R y después calculando.

Ejemplo (determinación empírica):

El tamaño de los paquetes en una red fueron medidos y encontrados trimodales conlas siguientes probabilidades:

Tamaño (bytes) Probabilidad

64 0.7

128 0.1

512 0.2

La FDA viene dada por:

y la inversa esta dada por:

F x

x

x

x

x

( )

.

.

.

.

0 0

0 7

08

10

0 64

64 128

128 512

512

1

1 X Ln R

1

X Ln R



4.1.2 Método de Aceptación-Rechazo

Esta técnica se puede usar si existe otra función de densidad g (x ) tal que cg (x ) supera la función

de densidad f (x ), es decir, cg (x ) > f (x ) para todos los valores de x . Si esta función existe, entonces

se pueden aplicar los siguientes pasos:

1. Genere x con la densidad g (x ).

2. Genere y uniforme en [0, cg (x )].

3. Si y f (x ), devuelva x y retorne. De lo contrario repita desde el paso 1.

El algoritmo permanece rechazando las variables x y y hasta que la condición y f (x ) sea

satisfecha.

Ejemplo:

Consideremos la función de densidad beta(2,4):

18.0

8.07.0

7.00

512

128

64

)(1

u

u

u

uF

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.91

0 64 128 192 256 320 384 448 512 576

x

f(x)

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.91

0 64 128 192 256 320 384 448 512 576

x

F(x)

f x x x( ) ( ) 20 1 3 0 x 1



Esta función se muestra en la figura y puede ser limitada por el rectángulo de altura 2,11. Por lo

tanto podemos usar c = 2,11 y g (x ) = 1 para 0 x 1. La variables beta (2,4) pueden ser

generadas como sigue:1. Genere x uniforme en [0, 1].

2. Genere y uniforme en [0, 2,11].

3. Si y 20x (1-x )3

, devuelva x y retorne. De lo contrario vuelva al paso 1.

Los pasos 1 y 2 generan un punto (x , y ) distribuido uniformemente en el rectángulo en la figura. Siel punto cae sobre la densidad f (x ), entonces el paso 3 rechaza x .La eficiencia del método depende de que tan bien g (x ) limita a f (x ). Si hay una brecha muy grande

entre cg (x ) y f (x ), entonces un gran número de puntos generados en los pasos 1 y 2 serán

rechazados. Similarmente, si la generación de variables aleatorias con g (x ) es compleja, entonces

el método puede ser ineficiente.

4.1.3 Método de Composición

Este método se puede usar si la FDA F (x ) deseada se puede expresar como una suma ponderada

de otras n FDA F 1 (x ), ..., F n (x ):

El número de funciones n puede ser finito o infinito, y las n FDA son compuestas para formar la

FDA deseada; de aquí el nombre de la técnica. Esto también se puede ver como que la FDA

deseada es descompuesta en otras n FDA; por esto la técnica a veces es llamada

descomposición .

0

0.8

1.6

2.4

3.2

0 0.25 0.5 0.75 1

x

f(x)

F x p F x p pi i

i

n

i i( ) ( )

1

0 1, yi=1

n

Rechace Beta (2,4)

Acepte



La técnica también se puede usar si la función de densidad f (x ) puede ser descompuesta como

una suma ponderada de otras n densidades:

En cualquier caso, los pasos a seguir son:

1. Genere un entero aleatorio I tal que P (I = i ) = p i . Esto puede ser hecho con el

método de transformación inversa.

2. Genere x con la i -esima densidad f i (x ) y retorne.

Ejemplo:

Consideremos la densidad de Laplace dada por

La siguiente figura muestra la densidad para a = 2.

Esta densidad es una composición de dos densidades exponenciales. La probabilidad de que x sea positiva es 1/2, y de que sea negativa también es 1/2. Usando la técnica de composiciónpodemos generar variables de Laplace de la siguiente forma:

1. Genere R1 U (0,1), y R2 U (0,1).

2. Si R1 < 0.5, retorne x = -a ln R2 , de lo contrario retorne x = a ln R2.

4.1.4 Método de Convolución

f x p f x p pi i

i

n

i i( ) ( )

1

0 1, yi=1

n

f xa

e x

a( )

12

- < x <

0

0.1

0.2

0.3

0.4

-2 -1 0 1 2

x

f(x)



Esta técnica puede ser usada si la variable aleatoria x puede ser expresada como la suma de n

variables aleatorias y 1 , ..., y n que puedan ser generadas fácilmente:

En este caso x se puede generar n variables aleatorias y 1 , ..., y n y sumándolas. Si x es la suma de

dos variables aleatorias y 1 y y 2 , entonces la densidad de x puede se obtenida analíticamente porla convolución de las densidades de y 1 y y 2 ; de aquí el nombre de la técnica a pesar de que la

convolución no es necesaria para la generación de números aleatorios.

Nótese la diferencia entre composición y convolución. La primera se usa cuando la densidad o

FDA puede ser expresada como la suma de otras densidades o FDA. La segunda se usa cuando

la variable misma puede ser expresada como la suma de otras variables.

A continuación se dan unos ejemplos de aplicación de esta técnica:

Una variable Erlang-k es la suma de k exponenciales. Una variable Binomial de parámetros n y p es la suma de n variable Bernulli conprobabilidad de éxito p .

La chi-cuadrado con v grados de libertad es la suma de cuadrados de v normales N (0,1).

La suma de un gran número de variables de determinada distribución tiene una distribuciónnormal. Este hecho es usado para generar variables normales a partir de la suma denúmeros U (0,1) adecuados.

Una variable Pascal es la suma de m geométricas.

La suma de dos uniformes tiene una densidad triangular.

A continuación se presenta un diagrama de flujo que ayuda a decidir cual de las técnicas

anteriores se debe usar:

x y y yn 1 2 ...

Si ¿Es la FDA

No

Use inversión

Si ¿Es la FDA una

No

Use composición

Si ¿Es la densidad una

No

Use composición

Si ¿Es la variable una

No

Use convolución



4.1.5 Caracterización



Características especiales de ciertas distribuciones permiten generar sus variables usando

algoritmos especialmente ajustados para ellas. Todos estos algoritmos están clasificados bajo una

técnica llamada caracterización.

Ejemplos de variables generadas usando caracterización son:

Si los tiempos entre llegadas son exponenciales con media 1/ , el número de

llegadas n en cierto intervalo T es Poisson con parámetro T . Por lo tanto unaPoisson puede ser obtenida generando exponenciales hasta que su suma supereT y devolviendo el número de exponenciales usadas.

El a -esimo menor número en una secuencia de a + b + 1 variables U (0,1) tienedistribución beta(a , b ).

La razón de dos normales estándar en Cauchy(0,1).

Una chi-cuadrado con un número par de grados de libertad 2(v ) es un gamma

(2,v /2).

Si x 1 y x 2 son dos gammas (a , b ) y (a , c ) respectivamente, la razón x 1 / (x 1 +x 2 ) es beta(b ,c ).

4.2. Simulando Distribuciones Continuas de Probabilidad

En la simulación de procesos se emplean valores discretos para tiempo entre fallas, arribos, etc.

Realmente se esta aproximando estos valores de tiempo, dado que en la práctica estos tiempospueden tomar cualquier valor, no únicamente valores discretos. Un número de variables discretas

de esta naturaleza existe en la realidad, por ejemplo; el tiempo entre llamadas recibidas; el tiempo

entre el inicio del servicio y el término del mismo en una ventanilla de servicio bancario; el tiempo

entre salida de aviones en un aeropuerto. Se puede usar un enfoque para simular estas

ocurrencias; sin embargo en esencia, para representar variables aleatorias continuas, será

necesario usar una distribución continua en el análisis.

Muchas funciones de densidad de probabilidad tienen parámetros que controlan sus características

de forma y escala. Dos de las mas comunes son el parámetro α (alfa) que define la forma de la

distribución y el parámetro β (beta) que describe los valores de escala de en el rango de ladistribución. La media y la desviación estándar son definidas en términos de los parámetros α y β.

Una de las ventajas de emplear distribuciones continuas es que se puede desarrollar una ecuación

matemática para servir como un proceso generador.



4.2.1 Distribución Uniforme

Una distribución Uniforme sobre el rango de 0 a 1 es la base para generar valores de

distribuciones de probabilidad estándar. Una aplicación común es para representar el tiempo de

duración de una actividad cuando se tiene una mínima información de la duración de la actividad.

Algunas veces el tiempo para completar se considera que varía aleatoria y uniformemente entre

dos valores. Dadas estas condiciones, la distribución Uniforme es una buena estimación preliminar

para la duración de una actividad

La función de densidad de la distribución Uniforme de probabilidad es definida como sigue:

1;

( )0

para a x b

b a f x para cualquier otro caso

Media:

Varianza:

f(x)

1/(b-a)

x

a b

Distribución Uniforme de probabilidad para el intervalo (a,b)

Para obtener la distribución acumulada de probabilidad, usando la distribución original de

probabilidad y a través del cálculo, así;

a b

2

( ) / b a 212



x

adx x p xP )()(

substituyendo p(x)=1/(b-a), entonces

1 1 1( ) ( )

( ) ( ) ( )

x x

a aF x dx dx x a

b a b a b a

por lo que,

0 ;

( )

1 ;

;

para x a

F x

para x b

b X a

para a xb a

Usando el procedimiento de transformación inversa involucra establecer una variable aleatoria

uniforme R (donde R se encuentra entre cero y uno ) igual a F(x) y resolver para x. Así,

X = a + R(b - a)

Ejemplo

El tiempo requerido para lavar un auto esta uniformemente distribuido con un tiempo mínimo de 8

minutos y un máximo de 12 minutos. Simule el tiempo de servicio para procesar 10 automóviles.

Use un proceso generador uniforme en su análisis. ¿Cuál es el tiempo promedio para los 10

autos que se procesan?

Sea x = Tiempo de servicio

Así;8 8

( )12 8 4

X a X X F x

b a

Como x = a + R . (b-a) , entonces x = 8 + 4R



Carro No. Aleatorio x

1 .4764 9.9056 x =105.8228/10=105823

2 .8416 11.3664

3 .9434 11.7736 tiempo esperado µ=10

4 .3420 9.368Tiempo promedio

__

x =10.5823

5 .6827 10.7308

6 .8521 11.4084

7 .1129 8.4516

8 .5806 10.3224

9 .9285 11.714

10 .6955 10.7820

105.8228

4.2.2 Distribución Exponencial

Es usada extensivamente en modelos de colas. Es la única distribución continua con la propiedad

de pérdida de memoria: recordar el tiempo desde el último evento no ayuda a predecir el tiempo

hasta el próximo evento. Es usada para modelar el tiempo entre eventos sucesivos, por ejemplo:

El tiempo entre llegadas.

El tiempo entre fallas.

Un proceso generador uniforme para esta distribución puede ser desarrollado con el uso de la

técnica de transformación inversa. La función de densidad de la distribución Exponencial de

probabilidad es la siguiente:

( ) x f x e , para 0 < x < ; 0 para x<0 Media: λ Varianza: λ

2



donde λ es la tasa de servicio o el número de unidades servidas por unidad de tiempo.

Para desarrollar el proceso generador, se debe encontrar primeramente la función de densidad

acumulada de probabilidad:

00 0

( ) ( ) | 1 x x

x x x xF x f x dx e dx e e

así :

-λx

P(x) = 1 - e

Ahora entrando la variable aleatoria R, igual a F(x) , y resolviendo para x

( ) 1 x R F x e

1 xe R

-λx = 1n(1 - R)

entonces,

1(1 ) X Ln R

y esta expresión puede ser reemplazada por

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0

1 .

5 3

4 .

5 6

7 .

5 9

1 0

. 5 1 2

1 3

. 5 1 5

1 6

. 5 1 8

1 9

. 5 2 1

2 2

. 5 2 4

λ=1

λ=5



1( ) X Ln R

Ejemplo 1

El tiempo entre fallas para una operación particular de manufactura puede ser descrito por una

distribución exponencial con una media de 100 horas. Simule el tiempo de 5 fallas. Use el proceso

generador exponencial en su análisis.

1/100 = .01 hora

x= tiempo entre fallas

xe x p 01.01.)(

X = - (1/ λ) Ln (R) λ =.01

X = - (1/.01) Ln (R) = -100 Ln (R)

Falta No. Aleatorio x

1 .4466 80.6

2 .6427 44.2

3 .5902 52.7

4 .0318 344.8

5 .5901 52.7

Ejemplo 2

El tiempo entre arribos de los clientes que entran a una tienda puede ser descrito por una

distribución exponencial con media de 8 minutos. Simule el arribo de 10 clientes a la tienda. Useun proceso generador exponencial en su análisis.

60/8 =7.5 clientes/hora

como ( ) x f x e para λ=7.5 clientes por hora, entonces,7.5( ) 7.5 x f x e



x=-(1/ λ) . ln(R)

x=(-1/7.5) . ln (R) = -8 Ln (R)

Cliente No. Aleatorio x

1 .6279 .062 horas = 3.72 min.

2 .8234 .026 horas = 1.56 min.

3 .5273 .085 horas = 5.1 min.

4 .1820 2.27 horas = 13.62 min.

5 .6383 .060 horas = 3.60 min.

6 .1471 .256 horas = 15.36 min.

7 .3208 .152 horas = 9.12 min.

8 .8224 .026 horas = 1.56 min.

9 .6331 .061 horas = 3.66 min.

10 .5482 .080 horas = 4.80 min.

4.2.3 Distribución Normal

La distribución Normal es una función de distribución de probabilidad muy popular.

21

21( ) , ; 02

x

f x e para x

Media:

Varianza: 2

Debido a su estructura complicada, la función de la distribución Normal no tiene unarepresentación inversa. Consecuentemente, la técnica de transformación inversa no puede serdirectamente aplicada para muestrear de una distribución Normal.



El método de convolución para generar variables normales toma ventaja del Teorema de Limite

Central, el cual asegura que la suma de n variables aleatorias idénticamente distribuidas U(0,1) e

independientes Y1, Y2, .....,Yn con media n y varianza nσ2

esta aproximadamente distribuida

normalmente con media y varianza 2.

Si tomamos n números aleatorios para representar las anteriores variables aleatorias,

entonces, debido a que los números aleatorios tienen una distribución Uniforme cuyo rango varia

de 0 a 1 con =0.5 y 2= 1/12 , la variables es definida como :

n

i

i R x1

esta aproximadamente distribuida normalmente con media 0.5n y varianza de n/12.

Esto sigue que la variable Z esta definida como

x

Z , entonces

2 / 1

1

)12 / (

5.0

n

n R

Z

n

i

i

esta aproximadamente distribuida normalmente con media cero y varianza 1.

La aproximación en este método mejora conforme n crece. Pero entre mayor sea n, mas tiempose requiere para generar la muestra. Un valor n que es suficientemente grande para proveer una

exactitud razonable y simplificar los cálculos es 12. Esto produce la siguiente ecuación:

12

1

6i

i R Z

Ahora, la variable Z puede ser usada para generar aproximadamente, variables aleatorias

normales con media y desviación estándar usando la ecuación siguiente:

)6(12

1

i i

R x

Entonces, para generar cada muestra distribuida normalmente usando este método se deben

generar 12 números aleatorios para ser utilizados en la ecuación anterior.

Un procedimiento más sencillo para generar variables aleatorias Normales estándar

independientes partiendo de 2 números aleatorios independientes es el siguiente método directo:



El Método de Box-Muller partiendo de dos números aleatorios uniformes Ri y Ri+1 calcula dos

variables aleatorias Normales independientes N(µ,σ ) usando

1

1 ( 2 (1 )) (2 )i i

X Ln R Cos R

12

12 ( 2 (1 )) (2 )

i i X Ln R Sin R

13

Desarrollo:

Dado que no es posible obtener analíticamente la función inversa de la probabilidad acumulada, se

recurre a métodos alternativos. Uno de los métodos más empleados considera dos variables condistribución estándar normal Z 1 y Z 2 (media nula y varianza igual a uno), y las expresa en

coordenadas polares como sigue:

Z1=β sin θ

Z2=β cos θ (14)

Se sabe que Β=Z12+Z2

2tiene una distribución chi-cuadrado con grado de libertad 2, la cual es

equivalente a una distribución exponencial con media 2. Entonces, el radio B puede ser generado

con:

Β=(-2lnR1)2 (15)

distribuido en

Θ=2πR 2 (16)

Finalmente, los valores Z 1 y Z 2 con distribución normal estándar se obtienen generando B y θ con

las ecuaciones (15) y (16) respectivamente. El valor de X con una distribución normal con media2

se calcula con:

X=µ+Zσ (17)

Lo cual nos genera las ecuaciones 12 y 13

Una desventaja del método de Box-Muller es su poca eficiente en el cálculo del seno y el

coseno. Este problema se puede solucionar usando el Método Polar ( Marsaglia )cuyo

procedimiento es el siguiente:



a) Genere dos números aleatorios Ri y Ri+1 uniformemente distribuidosb) Haga ν1 =2R1-1, ν2=2R2-1, y r=ν1

2+ν2

2.

c) Si r >1 vaya al inciso a); de lo contrario haga

1/ 2

2ln r s

r

y retorne:

X1=µ+σν

1s

X2=µ+σν2s

como dos N(µ,σ ) independientes

Inconveniente: Se rechazan determinadas pares de variables. La proporción de rechazo

es: p = 1-π/4 = 0.2146

Otro forma de generar variables aleatorias es el gene rador de Scheimer que de la distribuciónaproximada a la normal estándar

0.135 0.135(1 )

0.1975

R R Z

donde X=µ+Zσ

Otro método para generar variables aleatorias normales es el Método de Rechazo de Forsythe ,

que procede de la siguiente manera;

a) Genere dos uniformes R1 y R2 U (0,1).

b) Haga x = -ln R1.

c) Si 1

2(1 )

2

x

R e

regrese al inciso a).

d) Genere R2.

e) Si R2 > 0.5, retorne X= + x ; de lo contrario retorne X= - x .

4.2.4 Distribución Weibull

La distribución Weibull es introducida como un modelo para tiempo entre falla en maquinas oequipos, o la vida esperado de los componentes electrónicos. Es usada comúnmente en análisisde confiabilidad y se usa para modelar tiempo de vida de componentes Cuando el parámetro de



ubicación es fijado a cero, su función de densidad de probabilidad esta dada por la ecuaciónsiguiente:

)(1)( x

e x x f , x 0; f(x) = 0, en cualquier otro

caso

Media: 1

G

Varianza:

22

2

2 12

G G

donde > 0 y > 0 son los parámetros de escala y forma de la distribución respectivamente.

Para generar una variable Weibull, siga los pasos siguientes:

Paso 1. La función de distribución continua esta dada por

( )

( ) 1 , 0

x

F X e x

1

0( )

x x

F x x e dx

si

xu

, y

11 x

du dx

entonces ;

0

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

0.2

0

2 . 4

4 . 8

7 . 2

9 . 6

1 2

1 4

. 4

1 6

. 8

1 9

. 2

2 1

. 6 2 4

2 6

. 4

2 8

. 8

3 1

. 2

3 3

. 6 3 6

3 8

. 4

4 0

. 8

4 3

. 2

4 5

. 6

00

( ) | 1

x x

u u xF x e du e e

Weibull(20,10)

Weibull(20,1.5) Weibull(20,3.602)



Paso 2. Sea( )

( ) 1

x

F X Re

Paso 3. Resolviendo para X en términos de R produce

1

(1 ) X Ln R

Ahora entrando la variable aleatoria R, igual a F(x) , y resolviendo para x

1

x

e R

1

x

R e

(1 )x

Ln R

1

1x

Ln R

1

1 x Ln R lo que hace valido que 1

x Ln R Weibull(α,β)

4.2.5 Distribución Erlang

Una variable aleatoria con distribución Erlang puede ser generada sobre la base del método

proveído para muestreo de la distribución Exponencial. Es generalmente usada en modelos de

cola como una extensión de la exponencial cuando el coeficiente de variación (razón entre la

desviación estándar y la media) es menor que 1, por ejemplo:

Modelar tiempos de servicio: un taquilla con tiempo de servicios Erlang(λ , m )puede ser representada como m taquillas con tiempos de servicio exponenciales.

Modelar el tiempo de reparación y el tiempo entre fallas.

1

( ) ; 0 , 0,( 1)!

x

m

m

x e f x para x m entero

m

Media: λm Varianza: λ

2m



1

0

( ) 1!

i

x m

i

x

F x ei

Por definición, una distribución m-Erlang con parámetro λ es el resultado de la sumatoria (Técnica

de convolución ) de m idénticas distribuciones Exponenciales cada una con parámetro λ.

Por esto, dada la distribución Exponencial para cada variable xi,

( )i x

i i f x e

La variable aleatoria Erlang Y es definida como

Y = X1 + X2 +….....+ Xm

Se tiene de demostraciones anteriores que

Xi = (-1/ λ) 1n Ri para i = 1,2,3.... m

de esto se tiene que

Y = (-1/ λ)( 1n R1 + 1nR 2 +.....+ 1n Rm )

0

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

0 6 1 2

1 8

2 4

3 0

3 6

4 2

4 8

5 4

6 0

6 6

7 2

7 8

8 4

9 0

9 6

Erlang(4,2)

Erlang(10,4)



o

Y = (-1/ λ) 1n(R1*R 2 *.....*Rm)

4.2.6 Distribución Gamma

La distribución Gamma puede ser usada para representar el tiempo requerido para completar una

actividad o grupo de actividades. La distribución Gamma pude ser utilizada para generar valores

que representan el tiempo total requerido para completar n desempeños independientes de la

actividad. Es una generalización de la Erlang y tiene parámetros no enteros. Se usa en modelos de

colas para modelar tiempos de servicio y tiempos de reparación. El parámetro β es llamado

parámetro de forma y θ es llamado parámetro de escala.

1( ) , 0 x f x x e x

E(x)=1

, V(x)=

2

1

Varias técnicas de aceptación-rechazo para generar variables aleatorias Gamma han sido

desarrolladas, Fox y Scharge [1978]; Fishman, 1978; Law y Kelton [1991]. Uno de los mas

eficientes es dado por Cheng [1977]; el número promedio de pruebas esta entre 1.13 y 1.47 para

cualquier valor del parámetro de forma β≥1

Si el parámetro de forma β = k, una posibilidad es usar la técnica de Convolución (Como sehizo en la Distribución Erlang). Debido a que la distribución Erlang es un caso especial de una

distribución Gamma más generalizada. Por otro lado, la técnica de aceptación-rechazo descrita

aquí será un método altamente eficiente para la distribución Erlang especialmente si β = k es

grande. La rutina genera variables aleatorias Gamma con parámetro de escala θ y un parámetro

de forma β, esto es, con media1

y varianza

2

1

.



Los pasos a seguir son los siguientes:

Paso 1. Calcule a = (2 β-1)1/2

, b = 2 β-Ln4 + 1/a

Paso 2. Genere R1 y R2.

Paso 3. Calcule X = β[R1 /(1-R1)]a

Paso 4a. Si X > b- Ln(R12R2), rechace X y regrese al paso 2.

Paso 4b. Si X ≤ Ln(R12R2) use X como la variable buscada. Las variables generadas en el

paso 4b tendrán media y varianza ambas igual a β. Si se desea tener con media 1

y varianza

2

1

, entonces incluya

Paso 5. Remplace X por X/βθ2.

La idea básica de todos los métodos de aceptación-rechazo es nuevamente ilustrar aquí, pero la

prueba de esto no es la intención de este libro. En el paso 3, X = β[R 1 /(1-R1)]a

no esta distribuida

en forma Gamma, pero el rechazo de cierto valores de X en el paso 4ª garantiza que los valores

aceptados en el paso 4b tienen una distribución Gamma.

Ejemplo

Los tiempos muertos de una máquina de de gran producción de dulces se han determinado tener

una distribución gamma con media de 2.2 minutos y una varianza de 2.1 minutos. Por lo que

1/θ=2.2 y 1/βθ2=2.10, la cual implica que β=2.30 y θ=0.4545.

0

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

0.2

0

3 .

5 7

1 0

. 5 1 4

1 7

. 5 2 1

2 4

. 5 2 8

3 1

. 5 3 5

3 8

. 5 4 2

4 5

. 5 4 9

(2,2)

(6,2) (6,6)



Paso 1. a=1.90, b=3.74

Paso 2. Genere R1=0.832, R2=0.021.

Paso 3. Calcule X=2.3(0.832/0.168)1.9

=48.1

Paso 4. X=48.1 > 3.74-Ln[(0.832)2

0.021]=7.97, por lo que se rechaza X y se regresa al

paso 2.

Paso 2. Genere R1=0.434 y R2=0.716.

Paso 3. Calcule X=2.3(0.434/0.566)1.9

=1.389

Paso 4. Debido a que X01.389 ≤ 3.74 –Ln[(0.434)2

0.716]=5.74, se acepta X.

Paso 5. Divida X entre βθ=1-045 para obtener X=1.329.

Este ejemplo tomo 2 pruebas para generar una variable aleatoria distribuida Gamma, pero enpromedio para generar una 1000 variables Gamma, el método requerirá entre 1130 y 470 pruebas,

o en forma equivalente, entre 2260 y 2940 números aleatorios.

4.2.7 Distribución Beta

Dos parámetros son necesarios para definir una distribución Beta a y b . Variando estos valores se

produce una variedad de forma de la distribución. Los valores generados de esta distribución

tendrán un rango entre 0 y 1. Por esta razón, es particularmente útil para representar fenómenos

relacionados con proporciones. La proporción de artículos defectuosos encontrados en un lote

determinado puede ser descrita por esta distribución. La distribución Beta también puede ser

usada el tiempo para completar una actividad, cuando se tiene poca o nada de información

disponible sobre la duración de una actividad.

Se usa para representar variables que están acotadas, por ejemplo, entre 0 y 1. El rango de la

variable puede ser cambiado por otro rango [x min , x max ] sustituyendo x en la ecuación siguiente por

(x - x min ) / (x max - x min ).

Se usa para modelar:

La fracción de paquetes que requieren retransmisión

La fracción de llamadas a procedimientos remotos que tardan mas de determinado

tiempo.



Media:

Varianza:

Generación:

1. Genere dos gamas y tome la razón:

2. Si a y b son enteros:

Genere a + b + 1 números uniformes U (0,1).

Retorne el a -esimo menor número como beta(a , b ).3. Si a y b son ambos menores que 1:

Genere u 1 y u 2 ambos U (0,1).

Haga

1

1a X R y

1

2b R . Si x + y > 1 vaya al paso previo, de lo

contrario retorne x /(x + y ) como el valor de beta(a , b ).4. Si a y b son ambos mayores que 1, un algoritmo basado en el método delrechazo puede ser fácilmente implementado.

4.2.8 Distribución Chi-cuadrada

f xx x

a b x a b

a b x x dxa b

a b

a b

a b

( )( )

( , )

( , ) ( )( ) ( )

( )

1 1

1 1

0

1

10 1 0 0

1

, ,

a a b / ( )ab a b a b / [( ) ( )] 2 1

beta( , )( , )

( , ) ( , )a b

a

a b

1

1 1

0

0.5

1

1.5

2

2.5

0

0 .

1

0 .

2

0 .

3

0 .

4

0 .

5

0 .

6

0 .

7

0 .

8

0 .

9 1

beta(2,2)

beta(2,4) beta(4,2)



Se usa cuando tenemos una suma de cuadrados de normales estándar, por ejemplo, para modelar

varianzas muéstrales.

Generación:

1. El siguiente método se basa en el hecho de que la 2(v ) es una (2, v /2).

Para v par:

Para v impar:

2. Genere v N (0,1) y retorne la suma de sus cuadrados.

4.2.9 Distribución F

La F es la razón entre dos chi-cuadradas. Se usa para modelar la razón entre varianzas muéstrales

como por ejemplo en la prueba-F en regresión y análisis de varianza.

f xx e

v x

b e x dx b b b b b b

v x

v

x b

( )( / )

( ) ( ) ( ), , ( ) ! , , ,...

( ) / /

/

2 2 2

2

1

0

2 20

1 1 0 1 2

, (1 / 2) = si

0

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

0.2

0 2 4 6 8 1 0

1 2

1 4

1 6

1 8

2 0

2 2

2 4

2

1

21

2( ) ln

/

v ui

i

v

2 2 2

1 0 1( ) ( ) ( , )v v N

f xn m

n m x

n

m x x n m

nn

n m

( )( / )

( / , / )

/ ( )/

( )/

2

2 2

2

2 21 0

, y enteros positivos.

v =4

v =8



Media:

Varianza:

Generación:

Por caracterizaron. Genere dos chi-cuadrados 2(n ) y 2

(m ) y calcule:

4.2.10 Distribución Lognormal

Una distribución Normal puede ser usada para representar el tiempo para realizar una actividad.

Un ejemplo puede ser el tiempo de ciclo para completar la operación de un carrusel de almacenaje

y recuperación de un sistema automatizado de almacenaje.

Es el logaritmo de una normal. Se usa frecuentemente en modelos de regresión y análisis de

experimentos donde se aplican transformaciones logarítmicas.

El producto de un gran número de variables aleatorias positivas tiende a la lognormal. Por lo tanto,

también se usa para modelar errores que son el producto de efectos de un gran número de

factores.

m

mm

22y

2 2

2 44

2

2

m n m

n m mm

( )

( ) ( )

y

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0 1 2 3 4 5 6 7 8 9 1 0

1 1

1 2

1 3

1 4

1 5

F n mn n

m m( , )

( ) /

( ) /

2

2

F (4,4) F (4,4)

F (4,8)



Media:

Varianza:

Generación:

Genere x ~ N (0,1) y retorne .

4.2.11 Distribución Pareto

Es útil para ajustar observaciones a una distribución. Dada una muestra de tamaño n x 1 , ..., x n ,

el estimador máximo verosímil del parámetro a es:

Media:

f x x

e x

x x

x( ) ,

( ) .

(ln ) / 1

20

2 22

y > 0.

y son la media y la desviacion de log y NO de

e 22 /

e e2 2 2

1 ( )

0

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0 .

1 1

1 .

9

2 .

8

3 .

7

4 .

6

5 .

5

6 .

4

7 .

3

8 .

2

9 .

1 1 0

1 0

. 9

1 1

. 8

ex

a

nxii

n

1

11ln

f x ax x a

F x x

a

a

( ) ,

( )

( )

1 1 0

1

a

aa

11, para

LN(0,100)



Varianza:

Generación:

Por transformación inversa: Genere u ~ U (0,1) y retorne .

4.2.12 Distribución T Student

Se aplica cundo se tenga la razón entre una normal y la raíz de una 2 y comúnmente se usa en

el calculo de intervalos de confianza. Si x ~ N (0,1) y y ~2(v ), entonces

x

y

tiene distribución t

con v grados de libertad.

La f (x ) de la t es muy similar a la de la normal estándar: tiene forma de campana y es simétrica

respecto a cero. Para grados de libertad grandes (v >30), la t se puede aproximar por la normalestándar.

a

a aa

( ) ( ),

1 22

2para

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

5

1

1 .

2

1 .

4

1 .

6

1 .

8 2

2 .

2

2 .

4

2 .

6

2 .

8 3

3 .

2

3 .

4

3 .

6

3 .

8

11u

a /

N

v vt v

( , )

( ) / ~ ( )

0 1

2

f x

v x v

v v x v

v

( )( ) / ( / )

( ) ( / ), ,

( )/

/

1 2 1

2

21 2

1 2 entero positivo.

Pareto(5)



Varianza: v /(v -2), para v > 2.

Generación:

Por caracterizaron. Genere x ~ N (0,1), y ~2(v ), y retorne

x

y

como t (v ).

4.3.- Simulando Distribuciones Discretas de Probabilidad

Existe un número de distribuciones discretas teóricas de probabilidad; las distribuciones discretas

mas frecuentemente usadas en la simulación de modelos son la Bernoulli, Binomial, Poisson,

Geométrica, Pascal y Uniforme discreta. Por lo tanto limitaremos nuestro análisis a estas

distribuciones.

El proceso generador puede ser desarrollado para distribuciones discretas de probabilidad usando

el método de transformación inversa. Pero un enfoque simple es utilizar un proceso de conteo

conocido como el método de composición.

4.3.1 Distribución Bernoulli

Esta es la más simple de las distribuciones discretas. Toma solo dos valores que se denotan como

fracaso (x = 0) o éxito (x = 1), con probabilidades 1-p y p respectivamente.

Se usa para modelar la probabilidad de que un resultado sea de una clase específica o tenga una

característica específica.

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

- 1 0

- 8

. 5 -

7

- 5

. 5 -

4

- 2

. 5 -

1

0 .

5 2

3 .

5 5

6 .

5 8

9 .

5

t (4)



Un sistema de computación esta funcionando o no.

Un paquete en una red llego a su destino o no.

Esta distribución junto con sus derivadas, se puede usar solo si los ensayos son independientes e

idénticamente distribuidos de forma tal que la probabilidad de éxito en cada ensayo sea p y no sea

afectada por el resultado en ensayos anteriores.

f x

p

p

x

x( )

1

0

0

1

si

si

en otro caso

0

0.2

0.4

0.6

0.8

1

0 1

Bernoulli(0.6)



Generación:

Use transformación inversa. Genere R U(0,1). Si R p retorne 1, de otra formaretorne 0.

4.3.2 Distribución Binomial

La función de masa de probabilidad, que es e modelo matemático para la distribución Binomial, se

expresa como sigue:

xn x p p xn x

n x p

)1(

)!(!

!)(

Media: np

Varianza: np (1-p )Donde,

n= es el número de pruebas independientes

p= es la probabilidad de éxito en cualquier prueba

x= es la

variable

aleatoria que

representa el

número de

éxitos en n

pruebas.

0

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

0 2 4 6 8 1 0

1 2

1 4

1 6

1 8

2 0

Binomial(0.6,20)



Dados los parámetros n y p, el proceso generador Binomial simplemente implica muestrear n veces

y calcular el número x de éxitos. En cada prueba una variable aleatoria uniforme R es generada y

comparada con la probabilidad de éxito p. Si R es menor que (<) p , la prueba es considerada un

éxito y contabilizada ; si es mayor que (>) que p, la prueba es considerada una falla. Después den pruebas el número de éxitos es el valor de la variable aleatoria Binominal.

4.3.3 Distribución Poisson

Se usa extensivamente en modelos de colas para modelar el número de llegadas en cierto

intervalo:

Número de consultas a un servidor en un intervalo t .

Número de fallas en componentes por unidad de tiempo. Número de consultas a una base de datos en t segundos.

Número de errores de tecleo por forma.

Si los datos son obtenidos en la forma d el número de arribos por unidad de tiempo, entonces los

datos pueden ser descritos por una distribución Poisson.

La función de masa de probabilidad para la distribución Poisson se define como sigue:

!

)(

)( x

eT

x p

T x

, para 0 < x <

Media: . Varianza: .

donde,

T= al número de arribos por período de tiempo T

x =al número de arribos en el intervalo de tiempo



Si el número de arribos por período de tiempo puede ser descrito por la distribución Poisson,

entonces el tiempo entre arribos puede ser descrito por la distribución exponencial.

Utilizando esta relación se simula el tiempo de arribo utilizando el proceso generador exponencial y

se cuenta el número de arribos que ocurren en el período de tiempo (T).

El método de composición para generar variables aleatoria Poisson es el siguiente:

Paso 1 Identifique la longitud del período T. Inicialice a cero “el contador de arribos”, n y “el

contador de intervalo de tiempo” t.

Paso 2 Genere el intervalo de tiempo para un arribo utilizando el generador de proceso

exponencial.

Paso 3 Sume el tiempo entre arribos en el paso 2 a t; sume 1 al contador de número de arribo n.

Paso 4 si t>T en el paso 3, entonces deseche el ultimo arribo y reste 1 del contador de número de

arribos, n, y vaya a el paso 5 de otra forma vaya al paso 2.

Paso 5 El valor de n es la variable aleatoria para la distribución Poisson.

Problema

El número de clientes que llegan a un banco está descrita por una distribución poisson con una

media de 4 arribos cada ½ hora. Simule el arribo de los clientes sobre un período de 1 hora.

(Recordar la relación reciproca entre el tiempo entre arribos (dist. Exponencial) y el No. de arribos

por período de tiempo (Dist. Poisson)).

= 4 / ½ horas = 8/hora; por lo que el tiempo entre arribos = 7.5 min.

0

0.05

0.1

0.15

0.2

0.25

0.3

0 1 2 3 4 5 6 7 8 9 1 0

1 1

1 2

Poisson(5)



x = - (1/ ) Ln (R)

n R Tiempo entre

arribos

Tiempo transcurrido

1 .5582 .0729 .0729

2 .4459 0876 .1605

3 .1824 .2126 .3731

4 .7041 .0439 .4170

5 .3555 .1293 .5463

6 .9717 .0036 .5499

7 .5571 .0731 .6230

8 .4674 .0951 .7181

9 .8461 .0209 .7390

10 .1838 .2117 .9507

11 .1834 .2120 1.1627

10 arribos/ hora

tiempo de entre arribo = 6 min.

Cuando λ ≥ 15, la técnica de aceptación-rechazo se convierte en algo caro ( por la cantidad de

cálculos que se realizan ), pero afortunadamente se usa una técnica para aproximar basada en la

distribución Normal que trabaja bastante bien. Cuando λ , es grande,

Tiene una distribución aproximadamente Normal con media cero y varianza 1, lo cuál sugiere ser

una técnica de aproximación. Primero genere una variable Normal estándar Z, usando la ecuación

1( 2 ( )) (2 )

i i Ln R Sin R o

1( 2 ( )) (2 )

i i Ln R Cos R

N Z



(Usadas en la generación de variables aleatorias Normales 12 13 y )

entonces genere la variable Poisson requerida, N , usando

N= 0.5 Z 20

donde 0.5 es una función de redondeo ( Si 0.5 Z < 0, entonces N=0 ) el término “0.5”

usado en la formula hace que la función de redondeo se convierta en una función de redondeo

cercana al entero más próximo. La ecuación 36 no es una técnica de aceptación-rechazo, pero

puede ser usada como una alternativa de este método, que provee un método algo eficiente para

generar variables Poisson con media grande.

4.3.4 Distribución Geométrica

El número de ensayos hasta e incluyendo el primer éxito en una secuencia Bernoulli es una

Geométrica. Es la equivalente discreta de la exponencial en cuanto a la propiedad de pérdida de

memoria: recordar el pasado no ayuda a predecir el futuro.

( ) (1 ) , 0,1,2,.... x p x p p x Media: 1/ p

Varianza:

donde 0<p<1, representa el número de fracasos hasta que se produce el primer éxito en un

experimento de Bernouilli de parámetro p.

Su función de Densidad Acumulada FDA esta dada por ( ) 1 (1 ) , 0,1,2,... xF x p x

La variable geométrica se puede relacionar fácilmente con la variables exponencial:

Sea. exp , 1 , 0 y

Y Y F y e y

Sea x>0, entonces ( 1)( 1) ( 1) 1 (1 ) x x

Y Y P x Y x F x F x e e

12

p

p



Como 0,1e

, tomemos λ tal que 1 e p

para conseguir la expresión de probabilidad

puntual de una distribución G(p). Basta tomar λ = -Ln(1-p). Después se toma un valor y según una

[ (1 )] Exp Ln p y se toma x=[y]. Ya se vio que para ello hay que hacer(1 )

LnR y

Ln p

, con

R≡ U(0,1), por lo que se concluye que(1 )

LnR x

Ln p

Donde [x] denota el menor entero mayor o igual a x.

Problema

Genere tres valores para una distribución Geométrica en el rango (X≥1) con media 2. La media es

1/p por lo que p=2. Calculando1

1.443(1 ) Ln p

y usando los números aleatorios 0.932,

0.105, y 0.687, tenemos

X1=-1.443Ln(0.932) = 0.10169

X2=-1.443Ln(0.105) = 3.2522

X3=-1.443Ln(0.687) = 0.541732

Como X denota el menor entero mayor o igual a x, entonces

X1=1 X2=4 y X3=1

4.3.5 Distribución Pascal

Es una extensión de la geométrica. En una secuencia de ensayos Bernoulli, el número de ensayos

hasta e incluyendo el m -esimo éxito tiene distribución de Pascal.

Es útil para modelar el número de intentos para obtener cierto número de éxitos:

( ) 1 X x xe e e e



Número de intentos para transmitir un mensaje de m paquetes.

Número de bits a enviar para recibir exitosamente una señal de m bits.

Media: m / p .

Varianza: m (1-p )/ p 2.

Generación:

Genere m geométricas G (p ) y retorne la suma como una Pascal(p , m ).

4. 3.6 Distribución Uniforme (discreta)

Toma un número finito de valores, todos con la misma probabilidad. Se usa cuando se cree que los

valores sobre un intervalo son equiprobables:

Número de pistas a acceder en un disco.

El número del dispositivo de entrada/salida seleccionado para la próxima operación.

El nodo de origen y destino del próximo paquete en una red.

f x x

m

p p x m m p mm x m( ) ( ) , , ,..., ; ;

1

1

1 1 0 1 entero positivo.

0

0.02

0.04

0.06

0.08

0.1

0.12

0.14

2 3 4 5 6 7 8 9 10 11 12

Pascal(0.6,2)



Media: (n + m )/2

Varianza:

Generación:

Genere R ~ U (0,1) y retorne [m + (n - m + 1)u ].

4.4. Distribuciones Empíricas Continuas

Si el modelador no ha sido capaz de encontrar una distribución teórica que provea un buen

modelo para el suministro de datos, puede ser necesario usar la distribución empírica de los datos.

El método de transformación inversa puede ser aplicado en tales situaciones, dado que la función

de la distribución de probabilidad es conocida

Ejemplo 1Suponga que se conocen los tiempos de reparación de piezas quebradas. Los datos se muestran a

continuación:

Intervalo

(horas)

Frecuencia Frecuencia

Relativa

Frecuencia

Acumulada

f xn m

x m m n m n n m

F xx m

n m

x m

m x n

n x

( ) , , ,..., ; .

( )

1

11

0

1

11

y enteros y

si

si

si

( )n m 1 1

12

2

0

0.1

0.2

0.3

0.4

0.5

1 3 5 7 9 1 1

1 3

1 5

1 7

1 9

UD(6,15)



0≤x≤0.5 31 0.31 0.31

0.5<x≤1.0 10 0.10 0.41

1.0<x≤1.5 25 0.25 0.66

1.5<x≤2.0 34 0.34 1.00

Por ejemplo. Hay 31 observaciones entre 0 y 0.5 de hora, 10 entre 0.5 y 1 hora, y así

sucesivamente.

La verdadera distribución acumulada, de F(x), de los tiempos de reparación ( la línea curva de la

figura siguiente) puede ser estimada tomando como base la FDP ( F(x) estimada )

0.5 1.0 1.5 2.0

0.2

0.4

0.6

0.8

1.0

Tiempos de Reparación

F r e c u e n c i a A c u m u l a d a

(0,0)

(0.50,0.31)

(1.0,0.41)

(1.5,0.66)

(2.0,1.0)

Estimación de F(x)

F(x)

F(x)

x



La forma verdadera de F(x) es desconocida y será en la práctica siempre desconocida, a menos

que se tenga disponible una cantidad enrome de datos.

Para poder generar variables aleatorias que se tengan el comportamiento de esta distribución

empírica es necesario encontrar las ecuaciones de cada tramo de recta en la gráfica. Por lo queprimero obtenemos la pendiente de cada recta como se muestra en la figura siguiente

Por ejemplo si tomamos el segundo tramo de recta y sean P 1(0.31,0.5) y P2(0.41,1), entonces la

pendiente m2 se calcula como

.2 .4 .6 .8 1

.5

1

2

1.5

(0,.25)

(0.31,.5)

(0.41,1)

(0.66,1.5)

(1,2)

Frecuencia Acumulada

TiemposdeReparación

m1=0.81

m2=0.5

m3=2.0

m4=1.47

F(x)

x



Una vez conocida la pendiente podemos obtener la

ecuación de la recta con la expresión

Y entonces obtener la ecuación de su recta

Resolviendo para y, tenemos que y = 0.50+0.50(x-0.31).

Haciendo lo mismo para los otros tramos de recta, tenemos;

1 0.25 .81

2 0.50 0.5( .31)

3 1 2( 0.41)4 1.5 1.47( 0.66)

tramo x

tramo x y

tramo xtramo x

Se aplica la técnica de transformación inversa directamente para generar los tiempos de

reparación de la rotura X, haciendo que R (numero pseudoaleatorio) tome el lugar de x (dado que

el eje x representa a F(x) y F(x)=R), y X el lugar de y en la formula obtenida para el tramo de recta

2, tenemos que;

Haciendo lo mismo para todos los tramos de recta, se obtiene la expresión para generar la variable

aleatoria X

2 12

2 1

1 0.50.5

.41 .31

y ym

x x

12

1

y ym

x x

0.50.5 ; 0.5( 0.31) 0.5

0.31

y x y

x

0.50 0.5( 0.31) X R

0.25 0.81 , 0 0.31

0.50 0.5( 0.31), 0.31 0.41

1 2( 0.41), 0.41 0.66

1.5 1.47( 0.66), 0.66 1

R Si R

R Si R X

R Si R

R Si R



Si generamos algunas variables aleatorias con estas expresiones, tenemos

i Numero

Aleatorio

Ri

Tramo de

Recta

Variable

Aleatoria

Xi

1 .5545 3 1.2890

2 .8921 4 1.8411

3 .2176 1 0.4240

4 .7023 4 1.5621

5 .3876 2 0.5388

Ejemplo 2

Considere la variable aleatoria que tiene como FDP

1/ 6, 0 2

( ) 1/ 3, 2 3

1/12, 3 7

x

p x x

x

Como se muestra en la figura siguiente

1 2 3 4 5 6 7 x

P(x)

1/6

1/3

1/12



La FDA de esta distribución esta dada por;

1) 0 2

6

1 1( ) ) 2 2 3

3 32 1

) 3 3 73 12

a x x

P X b x x

c x x

obtenida de la forma siguiente

a)66

1

0

xdx

x

b)3

)2(

3

1

3

1|

6 22

xdx

x x

x



c)

x

x

dx x

33

12|

3

)2(

3

1

desarrollando el proceso generador, utilizando el proceso de transformación inversa, donde

R=F(x), tenemos que;

a) En R=1/6 (X) , para 0<X<2, implica que 0<R<1/3, en cuyo caso X=6 R

b) En R=1/3 + 1/3(X-2), para 2<X<3 , implica que 1/6<R<2/3, en cuyo caso X=3(R-1/3)+2

c) En R=2/3+1/12(X-3), para 3<X<7, implica que 2/3<R<1, en cuyo caso X=12(R-2/3)+3

Por lo que X (variable aleatoria) puede ser generada por

16 0

3

1 1 23( ) 2

3 3 3

2 212( ) 3 13 3

R x

X R R

R x

Ejemplo 3

Desarrolle un proceso generador para las siguientes funciones de densidad de probabilidad.

1, 0

2( )1

, 02

x

x

e x

f x

e x

Para generar la función de densidad acumulada de probabilidad (FDA), tenemos que

1 1 1 1( ) | ( )

2 2 2 2

x x x x x xF x e e e e e



Como R = F(x) = ½ e ; X =Ln (2R), para R < ½ , y

0 -x0

01 1 1 1( ) | ( ) ( 1) ½ - ½e2 2 2 2

x x x x x xF x e e e e e

La FDA de esta distribución esta dada por;

1, 0

2( )

1 1

, 02 2

x

x

e x

F x

e x

Como R = F(X) = ½ - ½ e-x

; R - ½ = - ½ e-x

; X = - Ln (1- 2R) , para ½ R 1

Por lo que X (variable aleatoria) puede ser generada por

1(2 ) 0

21(1 2 ), 1

2

Ln R R

X Ln R R

Problemas Propuestos

1. En un proceso de producción de chips microprocesadores el 2% de los mismos salendefectuosos. Cada día se toma una muestra aleatoria de 50 unidades. Si la muestra contiene másde 2 defectuosos, el proceso debe ser parado. Determinar la probabilidad de que el proceso seaparado por el esquema de muestreo.

2. Un autobús llega cada 20 minutos a una parada determinada comenzando su servicio a las 6:40AM y terminando a las 8:40 AM. Un pasajero determinado no conoce la planificación pero llega deforma uniformemente distribuida entre las 7:00 AM y las 7:30 AM cada mañana. ¿Cuál es laprobabilidad de que el pasajero espere más de 5 minutos por el bus?.

3. Supongamos que la vida de una lámpara industrial en miles de horas se encuentra distribuidaexponencialmente con una razón λ=1/3 (esto es, se produce un fallo cada 3000 horas). Calcular laprobabilidad de que la lámpara dure más de 3000 horas. Calcular la probabilidad de que una



lámpara dure entre 2000 y 3000 horas. Calcular la probabilidad de que dure otras 1000 horas si haestado funcionando durante 2500 horas.

4. El profesor de un colegio se va a casa durante el verano, pero desea dejar una luz encendida enel colegio para desanimar a los ladrones. Para ello instala un dispositivo de dos bombillas, de talmodo que se encienda la segunda caso de fallar la primera. La caja en la que vienen las bombillaspone: "vida media de 1000 horas, exponencialmente distribuida". El profesor vuelve al cabo de 90días (2160 horas). ¿Cuál es la probabilidad de que se encuentre una bombilla encendida?.

5. Un determinado examen médico es llevado a cabo en tres etapas por un médico. Cada etapadura un tiempo exponencialmente distribuido con una media de tiempo de servicio de 20 minutos.Encontrar la probabilidad de que el examen dure 50 minutos o menos. Además, determinar laduración media del examen.

6. El tiempo que se permanece en la cola de un autoservicio se ha visto que sigue una distribuciónN(10,9). ¿Cuál es la probabilidad de que un cliente espere entre 9 y 12 minutos?

7. El tiempo perdido desde la demanda de un determinado artículo X se puede aproximar por unadistribución normal con un valor medio de 25 días y una varianza de 9. Se desea conocer un valorde tiempo perdido tal que sea sólo excedido un 5% de las veces que se formule un pedido.

8. Se sabe que el tiempo que tarda en fallar un componente electrónico viene dado por unadistribución Weibull con ν=0, α=1/3 y β=200 horas. Calcular: a) la vida media (o tiempo medioque tarda en fallar el componente); b) la probabilidad de que un componente falle antes de 2000horas.

9. Un sensor electrónico determina la calidad de chips semiconductores, rechazando aquéllos quefallan. Bajo demanda, el sensor dará el máximo y mínimo número de rechazos durante cada horade producción durante las últimas 24 horas. También da la media. Sin información adicional, eldepartamento de control de calidad ha asumido que el número de chips rechazados viene dadoaproximadamente por una distribución triangular. El volcado de datos actual indica que el númeromínimo de chips rechazados por hora fue 0, el máximo 10 y la media 4. Calcular: a) la moda; b) lamediana; c) un número de chips tal que sólo el 5% de las veces el número de chips rechazados

por hora sea superior a él.

10. Un avión tiene sistemas hidráulicos duplicados. El avión conmuta automáticamente al sistemade reserva si falla el sistema primario. Si ambos sistemas fallan, el avión puede sufrir un accidente.Supóngase que la vida del sistema hidráulico está distribuida exponencialmente con una media de2000 horas de vuelo. a) Si los sistemas hidráulicos son inspeccionados cada 2500 horas ¿cuál esla probabilidad de que el avión sufra un accidente antes de ese tiempo? b) ¿Qué probabilidad depeligro puede esperarse si la inspección se hace cada 3000 horas en lugar de cada 2500 horas? c)Si se quiere reducir la posibilidad de accidente a 2%, ¿cada cuántas horas de vuelo hay querevisar el sistema hidráulico?

11. Un cartero tiene una ruta consistente en 5 segmentos y el tiempo que tarda en cubrir cadasegmento está normalmente distribuido con una media y varianza tales como las que se detalla:

segmento A: N(38,16); segmento B: N(99,29); segmento C: N(85,25); segmento D: N(73,20); ysegmento E: N(52,12). Además de los recorridos, el cartero necesita organizar el correo en laoficina, lo que requiere un tiempo N(90,25). Llegar al punto de partida de la ruta requiere un tiempoN(10,4), y volver requiere un tiempo N(15,4). El cartero finalmente debe hacer tareasadministrativas que le llevan un tiempo N(30,9). a) ¿Cuál es el tiempo de trabajo esperado para elcartero en un día?. b) ¿Cuál es la probabilidad de que tenga que trabajar más de 8 horas duranteun día? c) ¿Cuál es la probabilidad de que trabaje más de 8 horas 2 o más días en una semana de6 días? d) ¿Cuál es la probabilidad de que un día cualquiera la ruta sea completada en 8h±24minutos?



12. A una oficina de expedición de licencias llegan los clientes aleatoriamente a un ritmo de =50clientes por hora. Hay 20 funcionarios, cada uno de los cuales despacha µ=5 clientes por hora enpromedio. a) ¿Qué porcentaje de tiempo está cada funcionario ocupado?. b) ¿Cuál es el númeromedio de funcionarios ocupados?. c) El jefe de la oficina se pregunta si puede disminuir el númerode funcionarios, en caso de poderse hacer ¿cuál es el número mínimo que se precisa para quepuedan ser atendidos todos los clientes?

13. Hay dos personas compitiendo para obtener un empleo. Abel dice que es más rápidodespachando que Benito, pero Benito dice que él es mucho más uniforme en su trabajo. Lasllegadas llegan de acuerdo con un proceso de Poisson con una razón de 2 por hora (1/30 porminuto). Las estadísticas de Abel dan un tiempo medio de servicio de 24 minutos con unadesviación estándar de 20 minutos. Las estadísticas de Benito dan un tiempo medio de 25 minutos,con una desviación estándar de tan sólo 2 minutos. Si la longitud promedio de la cola es el criteriode selección ¿qué trabajador debería ser seleccionado?.

14. Los tiempos de llegada así como los tiempos de servicio en una peluquería se ha visto queestán distribuidos exponencialmente. Llegan 2 clientes por hora y son atendidos 3 clientes porhora. Calcular la probabilidad de encontrar 0, 1, 2, 3, y 4 o más clientes en el sistema. Calcular laprobabilidad de que el peluquero esté ocupado, el número medio de clientes en el sistema, eltiempo medio consumido por cliente en ese sistema, el tiempo medio que un cliente se pasa

esperando en la cola y el número medio de clientes que hay en la cola.

15. Supóngase que los mecánicos de un gran taller, con muchos mecánicos, llegan aleatoriamentea un almacén de herramientas con una razón de Poisson de 10 por hora. Se sabe que hay un sólodependiente en ese almacén que atiende a cada mecánico en un tiempo medio de 4 minutos y unadesviación estándar de aproximadamente 2 minutos. Se sabe que los tiempos de servicio siguenuna distribución de Erlang de orden k. Un mecánico produce 1500 Pesos/hora cuando estátrabajando. ¿Cuánto cuesta la espera en la cola por la visita de un mecánico al almacén y cuál esel costo medio por hora por ese concepto para el conjunto de todos los mecánicos?

16. Las llegadas a un aeropuerto van todas ellas a la misma pista de aterrizaje. En un determinadomomento del día estas llegadas siguen una distribución de Poisson a razón de 30 por hora. Eltiempo que tarda un avión en tomar tierra es constante, 90 segundos. a) Calcúlese longitud media

de la cola, tiempo de espera medio en la cola, ocupación del sistema y tiempo medio de respuestapara este aeropuerto. b) Si un aterrizaje retrasado cuesta 50,000 pesos de combustible por hora enpromedio, calcúlese el costo promedio por hora de la espera de los aviones para aterrizar y elcosto promedio por avión.

17. La peluquería descrita en el problema 14 puede sólo alojar 3 clientes, uno en servicio y 2esperando. Los clientes restantes deben darse la vuelta si encuentran la peluquería llena.Establecer las medias de rendimiento para este sistema.

18. Considérese el problema 15 de los mecánicos que van al almacén de herramientas.Supongamos que las llegadas son un proceso de Poisson a razón de 2 mecánicos por minuto ycon tiempos de servicio con una media de 40 segundos distribuidos exponencialmente. ¿Cuántosdependientes hacen falta para que el sistema sea estable?. Analícese el rendimiento del sistema

con el mínimo número de dependientes necesario.

19. Hay 2 trabajadores encargados de 10 máquinas en una fábrica. Las máquinas funcionandurante un tiempo medio de 20 minutos y entonces requieren un tiempo de servicio medio de 5minutos; ambos tiempos se hallan distribuidos exponencialmente. Determinar las diversas medidasde rendimiento de este sistema.

20. Un almacén de madera es servido por una flota de 10 camiones. Hay una grúa disponible paradescargar los troncos de los camiones. Tarda un promedio de 1 hora en descargar un camión.Después de la descarga cada camión tarda un promedio de 3 horas en volver al almacén con la



siguiente carga de troncos. a) Es necesario realizar ciertas suposiciones sobre las distribuciones detiempos para poder analizar este problema de acuerdo con los modelos estudiados. Háganse y justifíquense. b) Con una grúa, ¿cuál es el número promedio de camiones esperando a serdescargados?¿cuántos camiones llegarán por término medio al almacén cada hora?¿quéporcentaje de camiones encuentran al llegar la grúa ocupada?¿es éste el mismo que la proporciónde tiempo que la grúa está ocupada?. c) Supóngase que se instala una segunda grúa en elalmacén. Responda a las mismas preguntas que en el apartado b). Haga una tabla comparando elresultado para una o 2 grúas. d) Si el valor de los troncos que llegan al almacén es de 20.000pesos por camión y la grúa cuesta 5000 pesos/hora (esté trabajando o no), establezca cuál es elnúmero óptimo de grúas sobre la base del costo por hora. e) Además de los costos supuestos enel apartado d), si la dirección decide considerar el costo de los camiones parados y susconductores ¿cuál es el número óptimo de grúas? Un camión y su conductor tienen un costoestimado en 4.000 pesos por hora y se considera que están parados mientras están esperando enla cola para ser descargados.

21. Supóngase que se han recogido 100 tiempos de reparación de una máquina. Esos datosaparecen en la tabla siguiente en términos del número de observaciones para los diferentesintervalos.

Intervalo (horas) Frecuencia Frecuencia relativa Frecuencia acumulada

0 x 0.5 31 0.31 0.31

0.5 x 1.0 10 0.10 0.411.0 x 1.5 25 0.25 0.66

1.5 x 2.0 34 0.34 1.00

Supóngase además que todas las reparaciones duran más de 15 minutos. Establecer elmecanismo para generar valores de una variable aleatoria que tenga su misma distribución.

22. Al final del día, el número de embarques en los muelles de carga de una compañía es 0, 1 o 2,con una frecuencia relativa de ocurrencia de 0.50, 0.30 y 0.20 respectivamente. Establecer elesquema de generación de una variable aleatoria discreta que tenga esta distribución, supuesto

que el número de embarques se modela como una distribución discreta.

23. Considérese la distribución uniforme discreta en {1, 2, ..., k} con una función fdp dada porp(x)=1/k, con x =1, 2, ..., k y una función de distribución dada por:

F(x) = 0 si x 11/k si 1 x<2

2/k si 2 x<3.................. ..................

(k-1)/k si (k-1) x<k

1 si k x

¿Cómo generar una variable aleatoria X que tenga esa distribución?

24. Una firma de ventas por catálogo envía sus encargos a un almacén central. Los encargos sonagrupados en cestas que van recorriendo el almacén en un vehículo. Las cestas entran en el áreade empaquetado en grupos de 10. Los empaquetadores pueden ver fácilmente cuántos encargoshay en la cola. Se está haciendo una simulación del área de empaquetado. Parece existir unarelación entre la longitud de la cola y la velocidad de empaquetado. Si eso ocurre, la velocidad deservicio puede cambiar como una función de la longitud de la cola. Se ha realizado un estudio de laoperación, obteniéndose los resultados de la tabla siguiente:

Observación i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15



Longitud de la cola x 20 30 30 50 30 40 40 60 30 20 40 40 50 20 40Velocidad de (paquetes en 20 24 29 24 27 33 31 39 23 18 34 32 36 21 30Empaquetado 10 minutos)Encontrar la relación entre la velocidad de empaquetado y la longitud de la cola.

25. Los camiones llegan a un gran almacén en una forma totalmente aleatoria la cual puede sermodelada como un proceso de Poisson con razón de llegada de λ=10 camiones por hora. Elcontrolador de la entrada envía los camiones alternativamente hacia las terminales norte o sur. Unanalista ha desarrollado un modelo para estudiar el proceso de carga/descarga en la terminal sur, ynecesita un modelo del proceso de llegada a esa terminal. Establézcase el esquema para generartiempo entre llegadas.

26. Los tiempos de servicio en la ventanilla de un cajero se hallan normalmente distribuidos conuna media de µ=7.3 minutos y varianza 2=11.7 minutos. Generar 10 tiempos de servicio.

27. Generar tres valores de una variable de Poisson con λ=0.2.

28. El autobús llega a una parada determinada según un proceso de Poisson con una media de unbus cada 15 minutos. Generar una variable aleatoria, N, que represente el número de llegadas deautobús durante un intervalo de tiempo de 1 hora.

29. Los tiempos de parada para una máquina de hacer caramelos se ha comprobado que vienendados por una variable aleatoria de distribución gamma con una media de 2.2 minutos y unavarianza de 2.10 minutos2. Genérese una secuencia de tiempos de parada que se ajuste a esadistribución.

30. Un espía trata de determinar el número de tanques que tiene el ejército enemigo. El enemigomarca cada tanque con un número. Sabe que el número más bajo es 100 y los tanques estánnumerados secuencialmente desde 100 hasta algún número desconocido dado por 100+b. Elespía se coloca en un cruce de carreteras durante un día, observa los tanques que pasan y anotasus números, obteniendo lo siguiente: 1783, 1522, 920, 587, 3653, 146, 2937, 1492, 736, 372,3104, 3535. ¿Cuántos tanques se puede estimar que tiene el ejército enemigo?.

31. Desarrolle una variable aleatoria con la siguiente función de densidad de probabilidad2

2

, 0( )

0

x

x

e x f x

e x

32. Desarrolle el esquema para una distribución triangular con la siguiente función de densidad deprobabilidad

1( 2), 2 3

2

1( ) 2 , 3 6

2 3

0,

x x

x f x x

Cualquier otro caso

33. Desarrolle un generador para la variable aleatoria cuya función de densidad de

probabilidad es



1, 0 2

3

1( ) , 2 10

24

0

x

f x x

Cualquier otro caso

34. Dada la siguiente variable continua para una función de densidad de probabilidad con rango de-3 a 4, desarrolle un generador para la variable.

2

0, 3

1, 3 0

2 6( )

1, 0 4

2 32

4 4

x

x x

F x x

x

x

Referencias Bibliográficas

Bratley, P., L. Box, Y L.E. Scharge [1987], A Guide to Simulation , 2nd ed., Springer-Verlag, New

York.

Box, G.E.P., Y M-F.Muller [1958], “A Note to Generation of Random Normal Deviates, ” Annals of

Mathematical Statisticas, Vol. 29, pag. 610-11.

Cheng, R.C.H. [1977], The Generation of gamma variables,” Applied Statistician , Vol. 26, No. 1,

pag. 71-75.

Dagpunar, John [1988], Principles od random Variate Generation , Claredon Press, Oxford.

Devroye, Luc [1986], Non-Uniform Random Variate Generation , Springer-Verlag, New Cork.

Fishman, George S. [1978], Principles of Discrete Event Simulation , wiley, New Cork.

Law, A.M., Y W.D. Kelton [1991], Simulation Modeling & Análisis , 2nd ed., McGraw-hill, New York.

Ripley, Brand D. [1978], Stochastic Simulation , Wiley, New York.

Schmeiser, Bruce W. [1979], “Approximations to the inverse Cummulative Normal Function for use

on Hand Calculators”, Applied Statistics , Vol. 28, pag. 175-176.

Schmeiser, Bruce W. [1980], Random variate generation: A Survey”, in Simulation with Discrete

Models: A State of de Art View , T.I Oren, C.M. Shub, and P.F. Roth, eds., IEEE.



SCHMIDT, J.W., Y R.E. TAYLOR [1970], Simulation and Análisis of Industrial Systems , Irwin,

Homewood,Ill.

www.virtual.unal.edu.co/cursos/sedes/ manizales/4030011/lecciones/cap3/cap_3_pag_13.html



CAPITULO 5 PRUEBAS DE AJUSTE DEBONDAD

5.1 Introducción

El suministro de datos es la fuerza motora para un modelo de simulación. En la simulación de un

sistema de colas, el suministro típico de datos son las distribuciones del tiempo entre arribos y los

tiempos de servicios. Para la simulación de un sistema de inventarios, el suministro de datos

incluyen la distribución de la demanda y del tiempo de reposición. Para la simulación de un sistema

de confiabilidad, la distribución de tiempo entre fallas de un componente en un ejemplo de

suministro de datos.

La determinación de la distribución apropiada de los datos a suministrar es la tarea principal desde

el punto de vista del tiempo y de los recursos requeridos. A pesar de lo sofisticado que quiera ser

el analista, los modelos que fallan en el suministro de datos conducirán a resultados cuyainterpretación puede conducir a toma de decisiones (recomendaciones) erróneas.

Estos son cuatro pasos en el desarrollo de un modelo útil para el suministro de datos:

1.- Reúna datos del sistema real de interés. Esto frecuentemente requiere un tiempo sustancial y

comprometer recursos. Desafortunadamente, en algunos casos no es posible reunir datos (por

ejemplo, cuando se esta extremadamente limitado por el tiempo, cuando el proceso de suministro

no existe aún, o cuando las leyes o reglas prohíben el reunir datos.) Cuando los datos no están

disponibles, la opinión de un experto en el proceso debe considerarse para tener una sugerencia

de relevancia (educada).

2.- Identifique la distribución de probabilidad que representa al proceso de suministro de datos.

Cuando los datos están disponibles, este paso típicamente inicia desarrollando la distribución de

frecuencias, o histograma de los datos. Basado en la distribución de frecuencias y en el

conocimiento estructural del proceso, una familia de distribuciones es elegida. Afortunadamente

varias distribuciones bien conocidas proveen prácticamente una buena aproximación.

3.- Elija los parámetros que determinan la instancia específica de la familia de distribuciones.

Cuando los datos están disponibles estos parámetros pueden ser estimados de los datos.

4.- Evalué la distribución elegida y sus parámetros asociados para realizar una prueba de ajuste de

bondad. La prueba de ajuste de bondad evalúa informalmente usando métodos gráficos, o

formalmente usando pruebas estadísticas. Las pruebas Chi-cuadrada, Kolmogorov-Smirnov y

Anderson-Darling son pruebas estándar de las pruebas de ajuste de bondad. Si no se esta

satisfecho con la distribución elegida, entonces el analista regresa al paso 2, elige una familia



diferente de distribuciones, y repite el procedimiento. Se puede usar una distribución empírica , si

después de varias iteraciones este procedimiento fallan obtener el ajuste a una distribución a los

datos reunidos.

Aunque en la actualidad hay programas disponibles para lograr los pasos 2,3, y 4 – incluyendoprogramas específicos tales como ExpertFit, y programas integrados tales como SIMAN, Stat:Fit

del ProModel, Statistica, MiniTab - es todavía importante comprender el alcance de los programas,

de forma tal que se usen apropiadamente.

Desafortunadamente, no existen programas disponibles para situaciones en las que no hay datos

disponibles o en los que existe una relación entre dos o más variables de interés.

5.2 Estimación de Parámetros

En muchas instancias la media de la muestra, o la media y la varianza de la muestra, son usadas

para estimar los parámetros de la distribución hipotetizada. En los párrafos siguientes, tres

conjuntos de ecuaciones son dados para calcular la media y la varianza e la muestra. Las

ecuaciones 1 y 2 pueden ser usadas cuando un conjunto de datos discretos o continuos están

disponibles. Las ecuaciones 3 y 4 son usadas cuando los datos son discretos y han sido

agrupados en una distribución de frecuencias. Las ecuaciones 5 y 6 son usadas cuando los datos

son discretos o continuos y han sido ubicados en intervalos de clase. Las ecuaciones 5 y 6 son

aproximaciones y deberán ser usadas únicamente cuando no hay datos disponibles.

Si las observaciones en la muestra de tamaño n son X 1,X 2 ,,....X n , la media de la muestra (_

X ) esta

definida por

_1

n

i

i

X

X n

y la varianza de la muestra S2, esta definida por

_2 2

2 1

1

n

i

i

X n X

Sn

Si los datos son discretos y agrupados en una distribución de frecuencias, las ecuaciones 1 y 2

pueden ser modificadas para dar una eficiencia computacional mucho mayor. LA media de la

muestra es calculada por

_1

k

j j

j

f X

X n

y la varianza de la muestra por

_2 2

12

1

k

j j

j

f X n X

Sn

donde k es el numero de

valores de X y f j es la frecuencia observada de X j de X.



Ejemplo

Los datos siguientes pueden se analizados para obtener n = 100, f1=12, X1=0,

f2=10, X2=1,.....,, y

y

Arribos por

periodoFrecuencia

Arribos por

periodoFrecuencia

0 12 6 7

1 10 7 5

2 19 8 5

3 17 9 3

4 10 10 3

5 8 11 1

de la ecuación 3

_ 364

100 X y

22 2080 100(3.64)

7.6399S

donde S=2.76.

Cuando los datos son dados en intervalos de clase, no es posible obtener el valor exacto de la

media y varianza de la muestra. En tal caso, la media y varianza de la muestra se calculan

aproximadamente usando las ecuaciones siguientes:

_1

c

j j

j

f m

X n

y

_2 2

12

1

c

j j

j

f m n X

Sn

donde f j es la frecuencia observada en el jvo

intervalos de clase, m j es el punto medio del jvo

intervalo de clase, y c en el numero de intervalos de clase.

1

364n

j

j

X

2

12080

n

j j

j

f X



Ejemplo

Considere los datos de la vida de un Chip donde que son eliminados o perdidos.

Vida de Chip

(días)

Frecuencia

0 ≤X j < 3

3 ≤X j < 6

6 ≤X j < 9

9 ≤X j < 12

12 ≤X j < 15

15 ≤X j < 18

18 ≤X j < 21

21 ≤X j < 24

24 ≤X j < 27

27 ≤X j < 30

30 ≤X j < 33

33 ≤X j < 36

.

.

.

42 ≤X j < 45

.

.

.

23

10

5

1

1

2

0

1

1

0

1

1

.

.

.

1

.

.

.



57 ≤X j < 60

.

.

.

78 ≤X j < 81

.

.

.

143 ≤X j < 147

1

.

.

.

1

.

.

.

1

Para determinar los valores aproximados de_

X y S2

se usan las ecuaciones 5 y 6. Los siguientes

valores son determinados:

f1=23, m1=1.5, f2=10, m2=4.5,....., y

Con n=50,_

X se obtiene de la ecuación 5

_ 61412.28

50 X . Entonces S

2se obtiene usando la ecuación 6 como

Estimadores sugeridos para distribuciones frecuentemente usadas en simulación

49

1

614 j j

j

f m

49

2

1

37,226.5 j j

j

f m

22 37,226.5 50(12.28)

605.84949

S



Distribución Parámetro(s) Estimador(es)

sugerido(s)

Poisson α _^

X

Exponencial λ ^

_

1

X

Uniforme sobre (0,b) b ^ 1nb

n

Normal µ, σ2 ^_^

2 2, X S

Gamma β,θ ^

^

_

1

X

Weibull con ν = 0 α, β _

^ X

S

^

^ ^1

1 ^'

1

( )

( )

j

j j

j

f

f

Ve las ecuaciones 12

y 15 para^

1( ) j f y

^'

1( )

j f

Iterar hasta que

converger

1

^

1

1 n

i

i

X n



5.3 Pruebas de Ajuste de Bondad

Las pruebas de Ajuste de Bondad proveen una guía útil para evaluar la sustentabilidad de un

modelo potencial para el suministro de datos. Sin embargo, no existe una sola distribución en

aplicaciones reales, de las que no deberás ser esclavo para el veredicto de tales pruebas. Es

especialmente importante entender el efecto del tamaño de la muestra. Si muy pocos datos están

disponibles, entonces una prueba de ajuste bondad puede rechazar a alguna distribución

candidato; pero si hay muchos datos disponibles, entonces una prueba de ajuste de bondad puede

rechazar a todas las pruebas candidato. Por esto, fallar en rechazar una distribución candidato

deberás ser tomada como una sola pieza de evidencia a favor de esta elección, mientras que

rechazar un modelo de suministro de datos es únicamente una pieza de evidencia contra la

elección.

5.3.1 Prueba Chi-Cuadrada ( 2 )

Antes de poder usar un proceso generador en un estudio de simulación, se debe demostrar que

los datos empíricos pueden ser conocidos. Un número de pruebas estadísticas puede ser

utilizado para probar la bondad de ajuste de una distribución teórica a un conjunto dado de datos.

Una de las pruebas más frecuentemente utilizada es la Chi-cuadrada (2).

La prueba 2es un procedimiento para probar la Hipótesis de que una muestra aleatoria de

tamaño n de la variable aleatoria X sigue una forma distribucional específica. La prueba 2sirve

para determinar si existe alguna diferencia significativa entre las frecuencias esperadas (las

basadas en la distribución teórica) y las frecuencias actuales (las representadas por los datos).

La prueba es valida para tamaños de muestra grandes, para consideraciones de ambos tipos de

distribuciones discretas y continuas, cuando los parámetros son estimados por máxima verisimilitud.

Los pasos seguidos para probar el proceso son:



1. Establezca la prueba de hipótesis, H0 , en la que los n datos observados sonsacados de la población que es descrita por una distribución teórica conocida.

2. Establezca la hipótesis alternativa, H1, en la que los n datos observados noson sacados de la población del paso 1.

3. Identificar el nivel de significacia, , en el cual la prueba será efectuada [ (1-

) nivel de significancia de la prueba estadística].

4. Usando la siguiente relación matemática

e

e

f

f f 2

02 )(

donde 2 cal = valor calculado de x

fo = frecuencias observadas

fe = frecuencias teóricas observadas

Calcules fe i como n pi , donde pi es la probabilidad teórica hipotetizada asociada con el ivo

intervalo.

pruébese la 2 cal con 2

tabla

si 2 cal > 2

Tabla entonces rechace Ho y acepte H1

si 2 cal < 2

Tabla entonces rechace H1 y acepte Ho

El valor de 2en la tabla es encontrado en la tabla de ji-cuadrada y es definido por el número de

grados de libertad (g.l.). Y estos se definen para la mayoría de las pruebas de bondad como;

g.l.=k-s-1

donde;

k= No. de categorías (clases)

s= No. de parámetros del la distribución de probabilidad hipotetizada

Ejemplo: Ajustando una Distribución Poisson Usando la Prueba de Ajuste de Bondad Chi-

Cuadrada ( 2

)

No. de Arribos/Hora Frecuencia Frecuencia (fo-fe)2



(x) Observada

(fo)

Esperada

(fe)

f e

0 70 75.05 3.3398

1 84 75.05 1.0673

2 34 37.52 0.3302

3 12 * 16 12.51 *16 .38 0.0088

4 o Más 4 3.87

204 2 cal = 1.7461

*Calculando si 2 cal , se asume que cada clase de datos tiene una fe de al menos 5, debido a que

cada valor esperado para x>4 es 3.87 observaciones, se agrupan la 3°y 4° clase.

Número promedio de arribos 1204

204

0

0

f

xf

usando =1 la función de densidad Poisson, se pueden calcular la probabilidad de los varios

números de clientes que entran al banco. Estos se expresan como sigue ;

Función de densidad de la distribución Poisson:

36788.!0

)1()0(

1

e xP

36788.!1

)1()1(

1

e

xP

18394.!2

)1()2(

1

e

xP

( )( )

!

x eP x

x



06131.!3

)1()3(

1

e

xP

3

0

( 4) 1 ( 4) ..01899i

P x P x

El número de grados de libertad para este problema en particular es 2, debido a que existen 4

intervalos de clases de datos en el conjunto original y la distribución Poisson tiene un parámetro,

, por lo que g.l.=4-1-1=2 . Si probamos la hipótesis, Ho , a un nivel de confianza del 95%,

entonces =.05. Refiriéndose a la tabla 2se encuentra para =.05 y g.l.=2, 2

Tabla = 5.991.

Debido a que 2 cal es menor que 2

Tabla , se rechaza H1, y se concluye que los datos pueden ser

simulados adecuadamente con el proceso generador Poisson.

El valor mínimo de fe i es 5, y de obtenerse un valor menor a este valor, se combina este con losintervalos de clase inmediatos superiores hasta que el valor combinado sea al menos 5. Lo mismo

debe hacerse con las columnas de fo y de

e

e

f

f f 2

02 )( .

La recomendación para el número de intervalos de clase para datos continuos se resume en la

tabla siguiente;

Tamaño de la muestra

n

Numero de intervalos de clase

k

20

50

100

>100

No use la prueba Chi-cuadrada

De 5 a 10

De 10 a 20

5

n De n hasta

Ejemplo: Ajustando una Distribución Exponencial Usando la Prueba de Ajuste de Bondad

Chi-Cuadrada (2)

Realice una prueba de ajuste de bondad de los datos siguientes para una distribución Exponencial.



Los 60 datos siguientes representan el tiempo en segundos del tiempo entre arribos de los carros

en una cierta intersección.

12 7 26 6 18 15 44 28 9 44 16 19 37 29 8

10 9 18 35 17 20 31 8 24 15 18 30 11 28 68

7 19 4 26 25 37 46 9 18 14 7 34 26 9 49

9 16 32 7 4 6 23 8 36 19 5 21 9 3 22

La media es de 20.1 segundos.

La función de densidad de probabilidad de la distribución exponencial esta dada por:

y su respectiva función acumulada de probabilidad por:

20.1( ) 1 0 x

F x e

Se realizan los cálculos para obtener la frecuencia esperada de los diferentes intervalos de clase:

0

20.1(0) 1 1 1 0F e

10

20.1(10) 1 1 .60804 0.391958F e

20

20.1(20) 1 1 0.369714 0.630285724F e

30

20.1(30) 1 1 0.224801 0.77519839F e

40

20.1(40) 1 1 0.136695 0.863304574F e

50

20.1(50) 1 1 0.08311 0.916887652F e

20.11( ) , 0

20.1

x

f x e para x



60

20.1(60) 1 1 0.050535733 0.949464266F e

70

20.1(70) 1 1 0.0307278 0.969272184F e

p1=[F(10)-F(0)]*60 = 0.391958*60 = 23.51748

p2=[ [F(20)-F(10)]*60 = 0.238327724*60=14.29966

p3=[ [F(30)-F(20)]*60 = 0.1449698*60=8.698188

p4=[ [F(40)-F(30)]*60 = 0.088106184*60=5.286371

p5=[ [F(50)-F(40)]*60 = 0.053583078*60=3.21498468

p6=[ [F(60)-F(50)]*60 = 0.032576614*60=1.95459684

p7=[ [F(70)-F(60)]*60 = 0.019807918*60=1.188475

Ahora se elabora la tabla para el calculo de la χ2calculada

Celda Frecuencia

Observada

Foi

Frecuencia

Esperada

Fei = npi

2( )i i

i

Fo Fe

Fe

0-10 19 23.51748 0.8677641

10-20 16 14.29966 0.20218355

20-30 12 8.698188 1.25336601

30-40 8 5.286371 1.39297494

40-50 4 3.21498468

50-60 0 1.95459684

60-70 1 1.188475

Totales n = 60 60

Cuando Fei = npi es menor que 5 se debe combinar con la celda inmediata superior. Lo cual

sucede para las últimas 3 filas, resultando la tabla siguiente:



Celda Frecuencia

Observada

Foi

Frecuencia

Esperada

Fei = npi

2( )i i

i

Fo Fe

Fe

0-10 19 23.51748 0.8677641

10-20 16 14.29966 0.20218355

20-30 12 8.698188 1.25336601

30-40 8 5.286371 1.39297494

40-50 5 6.3580564 0.29007547

50-60

60-70

Totales n = 60 58.159755 4.286658

Así la χ2 calculada =4.286658. Ahora se obtiene la χ

2de la tabla, con grados de libertad igual a 5-1-

1=3, y con un nivel de significancia =0.05

χ2Tabla,3,0.05 =7.81

Como la χ2 calculada =4.286658 es menor que χ

2Tabla=7.81, se puede decir que los tiempos entre

arribos de los carros siguen comportamiento que se apega a una distribución exponencial.

5.3.2 Prueba Kolmogorov-Smirnov

Otra prueba de ajuste de bondad que se usa frecuentemente es la prueba Kolmogorv-Smirnov(KS). Una ventaja de esta prueba sobre la prueba Chi Cuadrada es que no requiere que los datossean agrupados en intervalos de clase ( en el caso de considerar una distribución de probabilidadcontinua, esta agrupación es arbitraria) y elaborar un histograma con los datos (lo cual, debido a subase subjetiva, puede resultar en una perdida de alguna información pertinente). Cuando secambia el número de intervalos de clase y el ancho del intervalo afecta el valor calculado ytabulado de la Chi-cuadrada. Una hipótesis puede ser aceptada cuando los datos son agrupadosde una manera, pero pueden ser rechazados si se agrupan de otra. Otra ventaja de la prueba KSes que se realiza bien aún para cantidades pequeñas de datos (tamaños de muestra n pequeña).

La desventaja principal de la prueba KS es que se aplica únicamente a distribuciones continuas.También, la forma original de la prueba KS requiere que todos los parámetros de la distribucióncandidata bajo prueba sean conocidos (por ejemplo los parámetros no pueden ser estimados



usando los datos obtenidos). Dado que los parámetros actuales de la distribución de los datos sonraramente conocidos, esto limita seriamente la aplicabilidad de la prueba original KS. Másrecientemente, una nueva forma de la prueba KS ha sido desarrollada, la cual permite laestimación de parámetros usando los datos obtenidos., pero esta prueba reciente se aplica más demanera mas favorable únicamente para las distribuciones Normal , Exponencial y Weibull. Notaque la prueba KS ha sido aplicada a otras distribuciones continuas (y también a distribucionesdiscretas) usando parámetros que son estimados sobre la base de los datos obtenidos. Aunqueesta práctica puede resultar en que obtengamos buenos ajustes, el usuario debe ser cuidadosoque producirá una prueba conservadora en la cual la oportunidad de rechazar una distribucióncandidato puede ser mayor que lo deseado.

La prueba KS es conducida desarrollando una distribución de probabilidad empírica acumuladabasada en los datos obtenidos y comparándola con la función de distribución de probabilidadacumulada de la distribución teórica candidato. Si X 1, X2, ….,Xn son datos observados ordenadosen una forma ascendente, entonces la función de distribución de probabilidad empírica estadefinida como;

( ) in

Número de X xF x

n

Por lo tanto Fn(x) es una función paso tal que Fn(x) = i / n para i = 1,2,….,n.

Esta prueba esta basada en la desviación absoluta mayor entre las fdp empírica y teórica paratodo valor dado de x. Esta desviación es comparada con los valores críticos de KS tabulados paradeterminar si la desviación puede ser atribuida a los efectos aleatorios y por lo tanto sea unadistribución candidato a ser aceptada tener un buen ajuste a los datos observados. Másespecíficamente, la prueba tiene los pasos siguientes:

Paso 1: Ordene los datos en forma ascendentePaso 2: Usando la fdp teórica F(x), calcule

)(

1 i N ixF

N

imax

D

N

i xF max

i N i D

1)(

1

Paso 3: Sea D= max( D+, D

-)

Paso 4: Encuentre el valor crítico de la tabla KS para un nivel de significancia y un tamaño demuestra N.

Paso 5: Si D al valor crítico, acepte la distribución candidato como aquella que tiene un buenajuste a los datos observados; de otra forma rechace.

Ejemplo: Ajustando una Distribución Uniforme Usando la Prueba de Ajuste de BondadKolmogorov-Smirnov

En este ejemplo se usa la prueba KS para examinar bajo un nivel de significancia de =0.05 si unconjunto de datos representa números aleatorios (por ejemplo esta la distribución uniforme entre 0

y 1). Suponga que cinco datos son dados: 0.53, 0.35, 0.03, 0.94, y 0.22Solución. Para la distribución Uniforme la fdp es F(x)= 1/(b-a) axbPara este caso particular a=0 y b=1. Por lo tanto F(x)=x. Ahora se ordenan los valores en formaascendente y se realizan los cálculos relativos.La tabla siguiente resume los cálculos realizados:

i F(xi) i/n i/n - F(xi) F(xi) – (i-1)/n1 0.03 0.20 0.17 0.03

2 0.22 0.40 0.18 0.023 0.35 0.60 0.25 -0.05



4 0.53 0.80 0.27 -0.07

5 0.94 1.00 0.06 -.14D

+= 0.27 D

-=0.14

De acuerdo a los cálculos, D = max( 0.27, 0.14 ) = 0.27. El valor crítico de KS de la tabla para untamaño de 5 y un nivel de significancia de 0.05 es 0.565. Debido a que D es menor que este valor

crítico, la hipótesis de que los datos dados pertenecen a una distribución Uniforme es aceptada.

Ejemplo: Ajustando una Distribución Exponencial Usando la Prueba de Ajuste de BondadKolmogorov-Smirnov

En este ejemplo se usa una prueba KS para observar bajo un nivel de significancia =0.05 si undado conjunto de datos observados representan a una distribución Exponencial. Suponga que lossiguientes 10 puntos representan los tiempos entre arribos de los clientes a un cajero bancario (eltiempo esta en minutos): 3.10, 0.20, 12.10, 1.40, 0.05, 7.00, 10.90, 13.70, 5.30, 9.10.Los datos son obtenidos dentro de un período de 63 minutos. De acuerdo a la teoría, si ladistribución de los tiempos entre arribos dentro de T unidades de tiempo es exponencial, lostiempos de arribo son uniformemente distribuidos entre 0 y T. Para encontrar los tiempos de arribosimplemente añadimos los tiempos entre arribos. Por lo cual t 1, t1+t2, t1+t2+t3, ….. t1+t2+….+t10 son lostiempos de arribo del primer al décimo cliente. Dividiendo estos tiempos entre la longitud delperiodo de obtención de los datos(63 en este caso), resulta un conjunto normalizado de datos loscuales están distribuidos entre o y 1. Entonces se procede a aplicar el procedimiento para probar elajuste a la distribución uniforme.

La tabla siguiente resume los cálculos realizados:i

i

j ii t X 1

F(xi) i/n i/n - F(xi) F(xi) – (i-1)/n

1 3.10 0.049 0.1 0.051 0.049

2 3.30 0.052 0.2 0.148 -0.0483 15.40 0.344 0.3 0.056 0.044

4 16.80 0.267 0.4 0.133 -0.0335 16.85 0.267 0.5 0.233 -0.133

6 23.85 0.379 0.6 0.221 -0.121

7 34.75 „.552 0.7 0.148 -0.0488 48.45 0.769 0.8 0.031 0.0699 53.75 0.853 0.9 0.047 0.053

10 62.85 0.998 1.0 0.002 0.098D

+= 0.233 D

-=0.098

De acuerdo a la tabla anterior, D=0.233. Eligiendo un nivel de significancia de 0.05 y un tamaño demuestra de 10, el valor crítico de la tabla KS es 0.409. Debido a que el valor calculado de laprueba estadística es menor que el valor en la tabla KS, no existe razón para no aceptar que losdatos dados están distribuidos de acuerdo a una distribución Uniforme con parámetros 0 y 1.Equivalentemente, se concluye que ellos tiempos entre arribos están Exponencialmentedistribuidos.

Consideraciones para usar las pruebas de ajuste de bondad.La pregunta que naturalmente nace es cuando usar la prueba Chi-Cuadrada y cuando usar laprueba KS. Generalmente, para cantidades grandes de números (mayor que 30) y distribucionesdiscretas, la prueba Chi-Cuadrada es más apropiada. Para cantidades pequeñas de números ydistribuciones continuas, la prueba KS es recomendada. (También la prueba KS se ha aplicadocon éxito en distribuciones discretas).



5.3.2.1 Otra forma de realizar la prueba

1.- Se colocan los n datos históricos en una tabla de frecuencias con m n intervalos. Para

cada intervalo se tendrá la frecuencia observada i (FOi). Se calcula la media y la varianza de los

datos.

2.- Se divide la frecuencia observada de cada intervalo por el número total de datos. A este

resultado para obtener la probabilidad observada i (POi).

3.- Se calcula la probabilidad acumulada observada de cada intervalo (POAi) del paso 2.

4.- Se propone una distribución de probabilidad de acuerdo con la forma de la tabla de frecuencias

obtenida en 1.

5.- Con la distribución propuesta se calcula la probabilidad esperada para cada uno de los

intervalos (PEi) mediante la integración de la distribución propuesta.

6.- Se calcula la probabilidad acumulada esperada (PEAi) para dado intervalo de clase.

7.- Se calcula el valor absoluto de la diferencia entre POAi y PEAi para cada intervalo y se

selecciona la máxima diferencia, llamándola DM.

8.- El estimador DM se compara con un valor límite correspondiente a la tabla de la distribución

Kolmogorov-Smirnov con n datos y a un nivel de confiabilidad de 1- α. Si el estimador DM es

menor o igual a el valor límite de la tabla, entonces no se puede rechazar que la información

histórica sigue la distribución propuesta en el paso 4.

Ejemplo: Ajustando una Distribución Uniforme Usando la Prueba de Ajuste de BondadKolmogorov-SmirnovDistribución Uniforme a=0, b=13

ii LSab

xF

1

)( ii LS xF 13

1)(

Intervalo FO FOA POA PEA |POA –PEA|

0 – 1 6 6 0.146 0.0769 0.0694

1 – 3 6 12 0.293 0.2307 0.0619 DM=0.0694

3 – 5 5 17 0.414 0.3846 0.0300

5 – 7 7 24 0.585 0.5384 0.0469

7 – 9 6 30 0.738 0.6923 0.0394 d5%,41=0.2123



9 – 11 6 36 0.878 0.8641 0.0319

11 - 13 5 41 1.000 1.0000 0.0000

como DM = 0.0694 es menor que d5%,41 = 0.2123, entonces, los datos si siguen una

distribución Uniforme.

Ejemplo: Ajustando una Distribución Exponencial Usando la Prueba de Ajuste de BondadKolmogorov-Smirnovλ=6

F(xi)=1-Exp(LSi / λ )

i LS

i e xF

1)(

6

1)(

i LS

i e xF


0 – 3 20 20 0.3921 0.3934 0.0013

3 – 6 12 32 0.6274 0.6321 0.0049 M=0.0483

6 – 9 7 39 0.7647 0.7768 0.0121

9 – 12 4 43 0.8431 0.8446 0.0215

12 – 15 2 45 0.8823 0.9179 0.0356 d5%,51=0.1904

15 – 18 1 46 0.9019 0.9502 0.0483

>18 5 51 1.0000 1.0000 0.0000

como DM = 0.0483 es menor que d5%,51 = 0.1904, entonces, los datos si siguen una

distribución Exponencial.

Ejemplo: Ajustando una Distribución Normal Usando la Prueba de Ajuste de BondadKolmogorov-Smirnov

=8,s =2

i

i

x Z

i

i

LS Z




0 – 1 0 0 0.0 0.00023 0.000025

2 – 3 1 1 00.018 0.0061 0.01197

4 – 5 8 9 0.164 0.06681 0.09719 DM= 0.09719

6 – 7 12 21 0.382 0.30854 0.0766

8 – 9 20 41 0.745 0.69146 0.05354 d5%,55 = 0.1833

10 – 11 10 51 0.927 0.9332 0.00619

12 – 13 3 54 0.982 0.9938 0.01379

14 – 15 1 55 1.000 0.99977 0.00023

16 -17 0 55 1.000 1.0000 0.0000

como DM = 0.09719 es menor que d5%,55 = 0.1833, entonces, los datos si siguen una distribución

Normal.

5.3.3 Prueba Anderson-Darling: Una Prueba de Ajuste de Bondad paraMuestras de tamaño n Pequeño.

5.3.3.1 Introducción

La mayoría de los métodos estadísticos asumen una cierta distribución en la derivación de sus

resultados. Sin embargo, cuando se asume que nuestros datos siguen una distribución específica,

tomamos un riesgo serio. Si nuestra consideración es errónea, los resultados obtenidos pueden ser

no validos. Por ejemplo, los niveles de confidencia de los intervalos de confianza (IC) o las

pruebas de hipótesis implementados [2, 7] pueden estar completamente equivocados.

Las consecuencias de especificar mal una distribución puede resultar ser muy costoso. Una forma

de tratar con este problema es verificar las consideraciones de la distribución cuidadosamente.

Existen 2 enfoques principales para verificar la distribución a considerar [2, 3, y 6]. Uno implica

procedimientos empíricos, los cuales son fáciles de entender e implementar y son basados en

intuición y en las propiedades gráficas de la distribución que se desea probar. Los procedimientos

empíricos pueden ser usados para verificar y validar la distribución a considerar. Varias de ellas

han sido discutidas a profundidad en otros artículos [8,9, y 10].



Hay también otros procedimientos estadísticos más formales para probar cierta distribución en

referencia a un conjunto de datos. Estas son las pruebas de Ajuste de Bondad (AB). Ellas están

numéricamente interrelacionadas (convolucionadas) y generalmente requiere un programa

específico para realizar la gran cantidad de cálculos. Pero sus resultados son cuantificables y más

confiables que los de un procedimiento empírico. Aquí, estamos interesados en aquellosprocedimientos de AB especializados para muestras pequeñas. Entre ellas, están las pruebas

Anderson-Darling (AD) y la Kolmogorov_Smirnov (KS).

Se provee un revisión general de algunos puntos importantes asociados con la implementación de

las prueba de ajuste de bondad AD, especialmente cuando se trata de las consideraciones de las

distribuciones Exponencial, Normal y Lognormal. Estas distribuciones son ampliamente usadas en

trabajos de calidad y confiabilidad. Primero revisaremos algunas consideraciones teóricas para

ayudad a entender (y aplicar) estas pruebas de AB. Entonces, desarrollaremos varios ejemplos

numéricos y gráficos que ilustrarán como implementar e interpretar las pruebas AB para ajustar

varias distribuciones.

5.3.3.2 Algunas Bases Estadísticas

Establecer la distribución de un conjunto de datos ( o variables aleatoria) es crucial para el correcto

establecimiento de algunos procedimientos estadísticos. Pro ejemplo, la prueba t de muestra

pequeña y el IC, para la media poblacional, requiere que la distribución de la de la población sea

Normal. Por lo que, primero se requiere establecer ( vía una prueba de AB) si la distribuciónNormal aplica antes de que implementemos correctamente estos procedimientos estadísticos.

Las pruebas de AB están especialmente basadas en dos elementos de la distribución: la función

de distribución acumulada (FDA) o la función de densidad de probabilidad (FDP). La prueba Chi-

cuadrada esta basada en la FDP.

Ambas pruebas de AB, la AD y la KS usan la distribución acumulada de probabilidad (FDA) y por lo

tanto pertenece a la clase de “pruebas de distancia”.

Se han seleccionado las pruebas AD y KS entre varias pruebas de distancia por dos razones.

Primero, ellas están entre las mejores pruebas de distancia para muestras pequeñas (Y también

pueden ser usadas para muestras grandes). Segundo, debido a que se encuentran disponibles

varios paquetes estadísticos para las pruebas Ad y KS, estos son ampliamente usados en la

práctica.

Para implementar las pruebas de distancia, seguimos una bien definida serie de pasos:



Primero, se asume una distribución pre-especificada (ejemplo Normal). Entonces, se estiman los

parámetros de la distribución (ejemplo la media y la varianza) de los datos o se obtienen de

experiencias previas. Tale proceso produce una distribución hipotética, también llamada hipótesis

nula (o Ho), con varias partes que deben ser conjuntamente verdaderas. La negación de la

distribución asumida (o sus parámetros) es una hipótesis alternativa (también llamada H 1).

Entonces se prueba la distribución asumida (hipotetizada) usando el conjunto de datos.

Finalmente, Ho es rechazada cundo cualquiera de los datos que componen Ho no es avalada por

los datos.

5.3.3.2 Ejemplo: Ajustando una Distribución Normal Usando la Pruebade Ajuste de Bondad Anderson-Darling

LA prueba Anderson-Darling (AD) es ampliamente usada en la práctica. Por ejemplo, MIL-HDBKs 5

y 17 [4, 5, y 2], usan la prueba AD para probar las distribuciones Normal y Weibull. Mas adelantese realizan dos ejemplos usando la prueba AD; Primero probando los datos para la distribución

Normal y después, para probar los datos para la distribución Weibull. Si existe la necesidad de

probar los datos para la distribución Lognormal, entonces se realiza la transformación logarítmica

de los datos originales y entonces se utiliza la prueba AD para el conjunto de datos transformado

para la distribución Normal.

La prueba de ajuste de bondad AD para la distribución Normal (Referencia [5] Sección 8.3.4.1)

Tiene la siguiente forma funcional:

0 0 11

1 2 ln ln 1 ;.....n

i n ii

i AD F Z F Z nn

(1)

Donde Fo es la distribución asumida (Normal) con los parámetros asumidos o estimados de la

muestra (µ, σ); Z( i ) es el ivo

valor estandarizado de la muestra de tamaño n, ln es el logaritmo

natural (base e) y el subíndice i va de 1 a n .

La hipótesis Nula, que la verdadera distribución es F0 con los parámetros asumidos, es entonces

rechazada (con un nivel de significancia ≤ 0.05, para una muestra de tamaño n ) si la pruebaestadística AD es mayor que el valor crítico (VC). La regla de rechazo es:

Rechace si: AD > VC = 0.752 / (1 + 0.75/n + 2.25/ n2)



Se ilustra este procedimiento probando la Normalidad los datos del problema 6 de la sección 8.3.7

de [5]. El conjunto de datos, (Tabla 1), contiene una pequeña muestra de seis lotes, sacados de

forma aleatoria de la misma población.

Tabla 1. Datos para la prueba de ajuste de bondad AD

338.7 308.5 317.7 313.1 322.7 294.2

Para probar la Normalidad de la muestra, primero se obtienen puntos de estimación de los

parámetros de la distribución Normal: media y desviación estándar de la muestra (Tabla 2).

Tabla 2. Estadísticas descriptivas de los datos del prob. 6.

Variable N Media Mediana

Conjunto de Datos 6 315.82 315.4

Bajo la consideración de la distribución Normal, Fo es normal (µ = 315.8, σ =14.9).

Entonces se implementa la estadística AD (1) usando los datos (Tabla 1) como también la

probabilidad Normal y los parámetros estimados (Tabla 2). Para el elemento más pequeñotenemos:

315.8, 14.8

294.2 315.8(294.2)

14.8P Normal

0 0( ) ( 1.456) 0.0727F z F

La Tabla 3 muestra los resultados inmediatos de la estadística AD que combinamos con la formula

(1).Cada componente es mostrado en la columna correspondiente de la tabla, identificada por su

nombre.

Tabla 3. Valores inmediatos para la prueba de ajuste de bondad AD para Normalidad



i X F(Z) ln F(Z) n+1-

i

F(n+1-i) 1-F(n1i) ln(1-F)

1 294.2 0.072711 -2.62126 6 0.938310 0.061690 -2.78563

2 308.5 0.311031 -1.16786 5 0.678425 0.321575 -1.13453

3 313.1 0.427334 -0.85019 4 0.550371 0.449629 -0.79933

4 317.7 0.550371 -0.59716 3 0.427334 0.572666 -0.55745

5 322.7 0.678425 -0.38798 2 0.311031 0.688969 -0.37256

6 338.7 0.938310 -0.06367 1 0.072711 0.927289 -0.07549

i 1 2

6

i

ln F(Z)+ln F(n+1-i)

1 2{ln ( ) ln 1 ( 1 }

6

iF Z F n i

1 -1/6 -5.40689 0.90114833

2 -3/6 -2.30239 1.1151195

3 -5/6 -1.16952 1.3746

4 -7/6 -1.15461 1.347045

5 -9/6 -0.76054 1.14081

6 -11/6 -0.13916 0.25512666

6

1

1 2{ln ( ) ln 1 ( 1 } 6

6i

i AD F Z F n i

, AD = 6.16992505-6 = 0.16992505

La estadística AD (1) produce un valor de 0.1699 < 0.633, el cual no es significativa:

0.752 0.7520.1699 0.6333

0.75 2.25 1 0.125 0.06251 6 36

AD VC

Así, la prueba de ajuste de bondad AD no rechaza que esta muestra haya sido sacada de una

población con distribución Normal (315.8, 14.9). Y se puede asumir Normalidad para los datos.



Los procedimientos de la prueba de ajuste de bondad AD, aplicados a este ejemplo se resume en

la tabla 4.

Finalmente, si deseamos ajustar a una distribución Lognormal, primero obtenemos el logaritmo de

los datos y entonces implementar el procedimiento de la prueba AD de los datos transformados losdatos originales son Lognormal, entonces este logaritmo esta Normalmente distribuido, y se puede

usar la misma estadística AD (1) para probar el comportamiento Lognormal.

Tabla 4. Resumen paso a paso para las pruebas de normalidad AD

Ordene la muestra original X ( Col. 1, Tabla 3) y estandarice x

Z

Establezca la Hipótesis Nula: Asuma la distribución Normal (µ,σ)

Obtenga los parámetros de la distribución: µ=315.8; σ=14.9 (Tabla 2)

Obtenga la probabilidad acumulada F(Z) ( col. 2, tabla 3) Obtenga el logaritmo de obtenido previamente ln[F(Z)] (Col. 3)

Ordene en forma descendente (n-i+1) las probabilidades acumuladas F(Z) (Cols. 4 y 5).

Encuentre los valores de 1-F(Z) para lo anterior (Col. 6).

Encuentre el logaritmo de lo anterior: ln[1-F(Z)] ( Col. 7)

Evalúe vía (1): La prueba estadística AD=0.1699 y VC=0.633

Como AD < VC asuma que la distribución es Normal (315.8, 14.9)

Cuando sea posible, use un programa de computadora y use la prueba de valor p

Para problemas de pruebas de ajuste de bondad de tamaño de muestra grande, frecuentemente

es mejor usar la prueba Chi-cuadrad [11]. No requiere conocer los parámetros de la distribución –

Algo de que ambas pruebas Ad y KS teóricamente hacen y no afectan su potencial. Por otro lado,

la prueba Chi-cuadrada requiere que el numero de datos se suficientemente grande para la prueba

estadística para converger a la referenciada distribución Chi-cuadrada – algo que las pruebas AD y

KS no requieren.

5.3.3.4 Ejemplo: Ajustando una distribución Weibull usando una pruebade Ajuste de Bondad Anderson-Darling

Ahora se desarrolla un ejemplo para probar si un conjunto de datos se apegan a una distribución

Weibull. Se usaran los datos de la Tabla 5. Los datos consisten en seis medidas sacadas de una

go, los parámetros son

desconocidos y serán estimados del conjunto de datos.

Tabla 5. Conjunto de datos para probar la consideración de una Weibull.



11.7216 10.4286 8.0204 7.5778 1.4298 4.1154

Se obtienen las estadísticas descriptivas (Tabla 6). Entonces, usando métodos gráficos en [11], se

obtienen las estimaciones de los puntos de los parámetros de la distribución Weibull asumida:

Weibull (α= 8.7; β

Variable N Media Mediana Desviación

Estándar

Mínimo Máximo Q1

Conjunto de

Datos

6 7.22 7.8 3.86 1.43 11.72 3.44

La versión Weibull de la prueba de ajuste de bondad AD es diferente de la utilizada con la

distribución Normal, tratada con anterioridad. Esta versión para la Weibull es explicada a detalle en

[2, 5] y esta definida por:

11

1 2ln 1 exp

n

i n ii

i AD Z Z n

n

* 0.21 y AD AD

n

(2)

Donde

*

*

i

i

X

Z

y donde el asterisco en los parámetros de la Weibull denota las estimaciones

correspondientes. La probabilidad (Valor p) del Nivel de Significancia Observado (NSO) es ahora

usado para probar las consideraciones WEIBULL. Si NSO < 0.05 entonces la consideración de

Weibull es rechazada y el error cometido es menor del 5%. La formula para el NSO esta dada por:

* *

1

1 exp[ 0.1 1.24 ln( ) 4.48( )] NSO

AD AD

Para implementar la prueba de ajuste de bondad AD, primero obtenemos las probabilidades

correspondientes AD bajo la distribución asumida H0 . Por ejemplo, el primer dato (1.4298≈ 1.43)

18.7; 1.3 1(1.43) 1 exp( ) 1 exp

X P Z



1.31.43

1 exp 1 0.909 0.0918.7

Entonces, se usan estos valores para trabajar con las formulas AD y AD*

en (2). Se dan a

continuación en la Tabla (7) los resultados inmediatos para en conjunto de datos en la Tabla 5:

Tabla 7. Valores para la prueba de ajuste de bondad AD para la distribución Weibull

Fila Conjunto

de Datos

Z(i) Probabilidad

Weibull e-Z(i) Ln(1-e

-) Zn-i+1 I

votermino

1 1.430 0.09560 0.091176 0.685308 -2.39496 1.47336 0.64472

2 4.115 0.37789 0.314692 0.908824 -1.15616 1.26567 1.21092

3 7.578

0.83566

0.566413

0.433587

-0.56843

0.89967

1.22342

4 8.020 0.89967 0.593296 0.406704 -0.52206 0.83566 1.58401

5 10.429 1.26567 0.717949 0.282051 -0.33136 0.37789 1.06387

6 11.722 1.47336 0.770846 0.229154 -0.26027 0.09560 0.65242

La estadística de la prueba de ajuste de bondad AD son: : AD = 0.37936 y AD* = 1.08(.37936)=

0.409788. Los valores correspondientes para el NSO, o la probabilidad de rechazar la distribución

Weibull (8.7;1.3) erróneamente con esos resultados, es NSO = 0.3466 (mucho mayor que el error

α=0l05).

Por lo que se acepta la hipótesis nula de que la distribución en prueba es Weibull (de la población

de donde los datos son obten idos) ( α=8.7; β=1.3). Por lo que, la prueba AD fue capaz de

reconocer que los datos fueron Weibull. El procedimiento de la prueba de AB para este caso se

resume en la Tabla 8.

Tabla 8. resumen paso a paso de la prueba de ajuste de bondad Anderson-Darling

Ordene la muestra original X ( Col. 1, Tabla 3) y estandarice

*

*

i

i

X

Z

(Cols. 1 y 2

Tabla 7)

Establezca la Hipótesis Nula: Asuma la distribución Weibull Obtenga los parámetros de la distribución:

Obtenga la probabilidad acumulada exp(-Z) ( Cols. 3 y 4)

Obtenga el logaritmo de obtenido previamente ln[1- exp(-Z)] (Col. 5)

Ordene Zi en forma descendente (n-i+1) (Col. 6).

Evalúe vía (1): La prueba estadística AD*=0.4104 y NSO =0.3466

Como NSO =0.3466 > α = 0.05, asuma Weibull (



Cuando sea posible use Software para la prueba AD como Stat:fit del PROMODEL y elMinitab

Finalmente, recordemos que la distribución Exponencial, con media α, es únicamente una caso

especial de la Weibull (α,β) donde el parámetro de forma β-1. Por lo que, si se esta interesado en

la prueba de ajuste de bondad AD para considerar la Exponencialidad de los datos, será suficiente

estimar la media (α) y entonces implementar el procedimiento anteriormente seguido para la

Weibull para este caso especial, usando la formula (2)

Sin embargo, no existe estadísticas AD (formulas ) para todas las distribuciones de probabilidad.

Por lo que, si existe la necesidad de ajustar otras distribuciones diferentes a las ya discutidas, es

mejor usar las pruebas de ajuste de bondad Anderson-Darling [12] y la Chi-cuadrada [11].

Problemas Propuestos

1. ¿Verifica la hipótesis de uniformidad con α=0.05 bajo el test de K-S la secuencia siguiente: 0.44,0.81, 0.14, 0.05, 0.93?

2. Considérese la secuencia de números siguiente y compruébese si verifica uniformidad según laprueba Chi-Cuadrada:

0.34 0.90 0.25 0.89 0.87 0.44 0.12 0.21 0.46 0.670.83 0.76 0.79 0.64 0.70 0.81 0.94 0.74 0.22 0.740.96 0.99 0.77 0.67 0.56 0.41 0.52 0.73 0.99 0.020.47 0.30 0.17 0.82 0.56 0.05 0.45 0.31 0.78 0.050.79 0.71 0.23 0.19 0.82 0.93 0.65 0.37 0.39 0.420.99 0.17 0.99 0.46 0.05 0.66 0.10 0.42 0.18 0.49

3. Dada la secuencia de números aleatorios uniformes 0.1306, 0.0422, 0.6597, 0.7965, 0.7696obtener a partir de ellos una secuencia de números que se ajusten a una distribución exponencialcon λ=1.

4. Se ha estado contabilizando el número de vehículos que han llegado a una intersección a travésde una determinada calle entre las 7:00 AM y las 7:05 AM, obteniéndose los datos siguientes:

Llegadas Frecuencia(días)




0 1 6 2 12 6 18 11 0 7 1 13 1 19 02 1 8 5 14 0 20 03 1 9 2 15 0 21 04 3 10 5 16 2 22 05 1 11 4 17 2 23 1

Constrúyase la representación en forma de histograma de esos datos y realice una prueba deajuste de bondad para determinar la distribución de probabilidad a la que mejor se ajusta.

5. Se sabe que el tiempo de retraso desde que se cursa una orden hasta que se dispone de lopedido viene dado por una variable aleatoria con distribución gamma. Se tiene la siguiente tabla detiempos de retraso (en días) asociados con 20 órdenes:



1 - 70.292 6 - 25.292 11 - 30.125 16 - 16.3142 - 10.107 7 - 14.713 12 - 17.137 17 - 28.0733 - 48.386 8 - 39.166 13 - 44.024 18 - 39.0194 - 20.480 9 - 17.421 14 - 10.552 19 - 32.3305 - 13.053 10- 13.905 15 - 37.298 20 - 36.547

Calcular los correspondientes parámetros de esta distribución.

6. Se ha realizado un prueba sobre una muestra aleatoria de 50 chips de microprocesador a 1.5veces la tensión nominal y se ha anotado su vida en días (o tiempo hasta que falla el chip),obteniéndose lo siguiente: 79.919, 3.081, 0.062, 1.961, 5.845, 3.027, 6.505, 0.021, 0.013, 0.123,6.769, 59.899, 1.192, 340760, 5.009, 18.387, 0.141, 43.565, 24.420, 0.433, 144.695, 2.663,17.967, 0.091, 9.003, 0.941, 0.878, 3.371, 2.157, 7.579, 0.624, 5.380, 3.148, 7.078, 23.960, 0.590,1.928, 0.300, 0.002, 0.543, 7.004, 31.764, 1.005, 1.147, 0.219, 30217, 14.382, 1.008, 2.336, 4.562.Se sospecha que siguen una distribución Weibull (con =0). Estímense los parámetroscorrespondientes usando la prueba Chi-Cuadrada

7. Se ha estado observando el número de vehículos que han pasado por una calle durante 5minutos a una determinada hora durante 100 días y se han obtenido los resultados que se detallanen la siguiente tabla de frecuencia:

Nº de coches Frecuencia Nº de coches Frecuencia Nº de coches Frecuencia0 12 4 10 8 51 10 5 8 9 32 19 6 7 10 33 17 7 5 11 1

Una vez construido el histograma parece que la variable aleatoria X={número de llegadas} sigueuna distribución Poisson. Se ha procedido a la determinación del parámetro alfa a través delestimador correspondiente, y se obtiene el valor 3.64. Se pide comprobar si esta suposición dePoisson supera la prueba Chi-Cuadrada.

8. Comprobar si la suposición Weibull del ejercicio 6 supera la prueba Anderson-Darling.

5.4 Referencias bibliograficas

A. M. Law and D. W. Kelton. Simulation Modeling and Analysis . Industrial Engineering

and Management Science. McGraw-Hill Inc., 2nd edition, 1991.

An Introduction to Probability Theory and Mathematical Statistics, Rohatgi, V.K., Wiley, NY, 1976.

A Practical Guide to Statistical Analysis of Material Property Data, Romeu, J.L. and C. Grethlein,

AMPTIAC, 2000.

J. Banks, J. S. Carson, and B. L. Nelson. Discrete-event system simulation .

Prentice-Hall, Inc., Upper Saddle River, New Jersey 07458, 2nd edition, 1996.

Banks, J., Carson, J.S., II, and Goldsman, D., "Discrete-Event Computer Simulation," Handbook of

Statistical Methods for Engineers and Physical Scientists, 2nd ed., (H.M. Wadsworth, Ed.),

McGraw-Hill, New York, 1998.

B. Concebís, “Discrete Systems Simulation”, Mc Graw-Hill, 1994



Christos Alexopoulos, Andrew F. Seila, “Advanced Methods for Simulation Output Analysis”,

Proceedings of the 1998 Winter Simulation Conference,D.J. Medeiros, E.F. Watson, J.S. Carson

and M.S. Manivannan, eds

Ch. Harrel,B. Gh osh, yR. Borden,”Simulation using ProModel”,Mc Graw -Hill, 2003 Second edition

Empirical Assessment of Normal and Lognormal Distribution Assumptions, Romeu, J.L., RACSTART,Volume 9, Number 6, http://rac.alionscience.com/pdf/NLDIST.pdf.

Empirical Assessment of Weibull Distribution, Romeu, J.L., RAC START, Volume 10, Number 3,

http://rac.alionscience.com/pdf/WEIBULL.pdf.

Kolmogorov-Smirnov GoF Test, Romeu, J.L., RAC START, Volume 10, Number 6.

Lawrence Leemis,” Simulation Input Modeling,”Proceedings of the 1999 Winter Simulation

ConferenceP. A. Farrington, H. B. Nembhard, D. T. Sturrock, and G. W. Evans, eds.

Methods for Statistical Analysis of Reliability and Life Data, Mann, N., R. Schafer, and N.

Singpurwalla, John Wiley, NY, 1974.

MIL-HDBK-5G, Metallic Materials and Elements.

MIL-HDBK-17 (1E), Composite Materials Handbook.

Practical Statistical Tools for Reliability Engineers,Coppola, A., RAC, 1999.

S. Ross, “Simulación, Pearson”, 1999 segunda edición.

Statistical Confidence, Romeu, J.L., RAC START, Volume 9, Number 4,

http://rac.alionscience.com/pdf/STAT_CO.pdf.

Statistical Assumptions of an Exponential Distribution, Romeu, J.L., RAC START, Volume 8,

Number 2,http://rac.alionscience.com/pdf/E_ASSUME.pdf.

The Chi-Square: a Large-Sample Goodness of Fit Test, Romeu, J.L., RAC START, Volume 10,

Number 4,http://rac.alionscience.com/pdf/Chi_Square.pdf.

RAC significa (Reliability Analysis Center) por sus siglas en ingles.

Download - Unidad_III_VA_PAB_TM

Top Related