07 - bernoulli e hiper to print2 [modo de...

30
DISCRETAS DISCRETAS Binomial Geométrica Pascal Hipergeometrica Multinomial Autor Dr. Hernán Rey Ultima actualización: Abril 2010

Upload: others

Post on 05-Feb-2021

1 views

Category:

Documents


0 download

TRANSCRIPT

  • DISCRETASDISCRETAS

    Binomial

    Geométrica

    Pascal

    Hipergeometrica

    Multinomial

    AutorDr. Hernán Rey

    Ultima actualización: Abril 2010

  • Una VA tiene distribución Bernoulli (p), si su función de probabilidad es:

    PROCESO BERNOULLI

    1 0 1Xp x p x p x 1 1 0,1p

    Si bien los valores 0 y 1 del soporte resultan convenientes, la variable Bernoulli permite (transformación mediante) describir los resultados de cualquier experimento dicotómico (que tiene dos posibles resultados). Por ej., el estado de un elemento de un circuito digital, la posición de

    Se denomina experimento Bernoulli a aquel cuyos resultados quedan completamente descriptos por una VA Bernoulli. Llamaremos S=[X=1] al evento exitoso y F=[X=0] al evento fracaso.

    Entonces, la VA Bernoulli cuenta el número de éxitos en un experimento Bernoulli.

    Por ej., el estado de un elemento de un circuito digital, la posición de una llave (abierta o cerrada), el estado de funcionamiento de un equipo (funciona o no), etc.

  • Se denomina Proceso Bernoulli de parámetro p a una secuencia de VAs Xii.i.d., con distribución Bernoulli(p). Cada VA está asociada a un experimento Bernoulli, y el “índice temporal” refleja el número de experimento.

    El proceso Bernoulli permite dar origen a muchos otros procesos de interés.

    La condición de independencia entre las VAs nos permite obtener la conjunta de n cualesquiera VAs del proceso.

    Se define el Proceso Binomial como 1 2n nS X X X donde las Xi, i=1,2,… están asociadas a un proceso Bernoulli de parámetro p.

    Para un n fijo, el valor de Sn es la cantidad de éxitos al efectuar nexperimentos Bernoulli i.i.d. La distribución de probabilidad de Sn será la de la suma de n VAs Bernoulli(p) i.i.d. Por sucesos equivalentes:

    parámetro p.

    1 20 0 0 0n nS X X X 0 1n

    nP S p

    1n

    n rrS

    np r p p

    r

    0,1, ,r n ,Bi n p

  • Sea n1

  • Dado que las VAs del proceso Bernoulli son independientes, la suma de una VA Bi(n1,p) y una Bi(n2,p) es una Bi(n1+n2,p).

    0 1 1E X p p p Hemos visto con anterioridad que si X es una VA Bernoulli(p), luego,

    2 2 20 1 1E X p p p 2 2 1X p p p p

    Si R es Bi(n,p), dado que ésta puede ser descripta como la suma de nVAs Bernoulli(p) i.i.d., entonces:

    E R np 2 1R np p Respecto a la moda, podemos verificar las siguientes afirmaciones:

    1 1R Rp r p r r n p

    1 1R Rp r p r r n p

    La función de probabilidad de la Bi(n,p) es primero creciente y alcanza su máximo en floor (m), o sea el entero más próximo hacia -, con m=(n+1)p. Si m

    es entero, hay dos modas consecutivas en m-1 y m.

  • 0.2

    0.25

    0.3

    0.35

    0.4

    PD

    FBinomial(n=14,p=0.1)Binomial(n=14,p=1/3)Binomial(n=14,p=0.5)Binomial(n=14,p=0.75)

    0 1 2 3 4 5 6 7 8 9 10 11 12 13 140

    0.05

    0.1

    0.15

    x

    PD

    F

  • Otra VA que puede definirse es la geométrica de parámetro p. Para ello, se define Y1 como la VA que representa la cantidad de experimentos en un proceso Bernoulli necesarios para obtener el primer evento exitoso.

    Por sucesos equivalentes:

    1 1 2 10 0 0 1n nY n X X X X

    1

    11

    n

    Yp n p p

    1,2,n Geo p

    Esta distribución presenta una estrecha relación con la Binomial. Nuevamente por sucesos equivalentes:Nuevamente por sucesos equivalentes:

    01 0 1 10

    n n

    n

    nP Y n P S p p p

    1

    1 1 11 1 1n n

    P Y n P Y n P Y n p p

    1 1

    1 1n

    YF n P Y n p 1,2,n

  • Veamos ahora sus momentos.

    1

    1 11 0 0

    11 1

    n n

    n n n

    E Y np p P Y n pp

    1 1

    2 21 1

    1 1

    1Y Yn n

    E Y n p n n n p n E Y

    2

    11 1 1 1

    n nn n p p p p p

    21 0

    1 1 1 1n n

    n n p p p p pp

    2

    2 3 2

    2 11 21 1

    pp p p p

    p p p p

    1

    2

    2 2 2

    2 1 11 1Y

    p p

    p p p p

  • 0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    PD

    FGeo(p=0.1)Geo(p=1/3)Geo(p=0.5)Geo(p=0.75)

    Cuanto menor es p, más lento es el decrecimiento de la función. Por ser una progresión geométrica, la moda siempre se encuentra en n=1.

    0 3 6 9 12 150

    0.1

    x

    11 1 11

    11

    1

    a bb

    a

    P Y a b pP Y a b Y a p P Y b

    P Y a p

    Esto muestra que la probabilidad de necesitar un excedente de b tiros para obtener el primer éxito es independiente de cuántos tiros se hayan hecho anteriormente !!!

    La geométrica es la única VA. discreta que posee falta de memoria, es decir,

  • Esto implica que si Z es una VA Geo(p), ladistribución de la VA Z|Z>z0 será una Geo(p)distribución de la VA Z|Z>z0 será una Geo(p)

    desplazada z0 lugares hacia la derecha !!!

  • Otra distribución que puede derivarse del proceso Bernoulli es la Pascal (también llamada a veces Binomial Negativa). La variable asociada Yrrepresenta la cantidad de experimentos necesarios hasta obtener exactamente r éxitos. Si r=1, obtenemos la geométrica.

    La Pascal puede interpretarse usando la Binomial.

    1 1 1r n nP Y n P S r X Como las Xi son iid en el proceso Bernoulli,

    111

    1 1 11

    n rrr n n

    nP Y n P S r P X p p p

    r

    Otra manera de interpretar la Pascal es como una suma de r VAs geométricas iid. La primer variable cuenta los experimentos hasta el primer éxito, es decir es Geo(p). La segunda cuenta entre el primer y el segundo éxitos, que también será Geo(p) e independiente de la anterior.

    1r

    r rE Y p

    22

    1rY

    r pp

    1 12

    r

    r j jj

    Y Y Y Y

    (desde el éxito j al j+1 se realizan los experimentos Bernoulli XYj , XYj+1,…, XYj+1, que son independientes de cualesquiera otros Xi)

  • Respecto a la moda de la Pascal, cabe un análisis similar al de la binomial, del que surge:

    1

    1r rY Y

    r pp n p n n

    p

    0.45

    Pas(r=3,p=0.2)Pas(r=3,p=0.3)

    La función de probabilidad de la Pas(r,p) es primero creciente y alcanza su máximo en floor (m), con m=(r-(1-p))/p. Si m es entero, hay dos modas consecutivas en m-1 y m.

    0.7

    Notar que la binomial y la Pascal pueden también relacionarse de acuerdo a:

    r nP Y n P S r

    3 5 10 15 20 25 300

    0.05

    0.1

    0.15

    0.2

    0.25

    0.3

    0.35

    0.4

    x

    PD

    F

    Pas(r=3,p=0.3)Pas(r=3,p=0.5)Pas(r=3,p=0.75)

    1 2 4 6 8 10 12 14 16 180

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    x

    PD

    F

    Pas(r=1,p=0.6)Pas(r=2,p=0.6)Pas(r=3,p=0.6)Pas(r=4,p=0.6)Pas(r=5,p=0.6)

  • EJERCICIO

    En una cierta ciudad hay dos hospitales. En el más grande nacen 45 bebés por día y en el pequeño 15. Aunque la proporción general de varones ronda el 50%, en cada hospital puede estar por arriba o debajo de esa cantidad en un cierto día. Al final de un año, ¿qué hospital tendría el mayor número de días con más del 65% de los nacimientos siendo varones?a) El hospital grande.b) El hospital pequeño.b) El hospital pequeño.c) Ninguno; el número de días será aproximadamente el mismo.Asuma que la probabilidad de que un bebé sea varón es ½.

    El psicólogo Tversky y sus colegas hicieron un estudio que mostró que 4 de cada 5 personas responde a). Responda la pregunta luego de simular el problema. ¿Es correcta la respuesta intuitiva de la gente?

  • A continuación pueden observarse en una tabla el resultado de 9 simulaciones independientes.

    Número de experimento

    Número de días del año con

    más de 65% de nacimientosvarones en hospital grande

    Número de días del año con

    más de 65% de nacimientosvarones en hospital chico

    1 10 62

    2 6 56

    3 11 583 11 58

    4 3 48

    5 8 60

    6 5 50

    7 4 47

    8 6 55

    9 5 53

  • A qué se debe este resultado anti-intuitivo?

    Sean G y C las VAs. que representan la proporción de varones que nacen por día en los hospitales grandes y chicos respectivamente. Veamos el comportamiento de dichas variables a lo largo de un año.

    0.65

    0.7

    0.8

    0.9

    1

    Pro

    porc

    ión d

    e v

    aro

    nes q

    ue n

    acen p

    or

    día

    en c

    ada h

    ospital

    Hospital grandeHospital chico

    0 50 100 150 200 250 300 3500.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.65

    Dia del año

    Pro

    porc

    ión d

    e v

    aro

    nes q

    ue n

    acen p

    or

    día

    en c

    ada h

    ospital

  • Si analizamos el comportamiento medio de la variable a lo largo de este año (simulado), vemos que en ambos hospitales la proporción media de varones es 0.5 (que coincide con la proporción asumida para cada nacimiento).

    Sin embargo, difieren en sus varianzas. Del gráfico se observa que:

    2 2 G CComo se asume que cada nacimiento es independiente de los anteriores y que la probabilidad de que sea un hombre es 0.5 (y constante), la cantidad de varones que nacen en un día en el hospital iconstante), la cantidad de varones que nacen en un día en el hospital i(Ri) está descripta por la VA. Binomial (ni,p=0.5), cuya ley es:

    1

    2

    i

    i

    ni

    R i

    i

    np r

    r

    con ri = 0,1,…,ni

    2i

    i

    nE R

    4i

    i

    nVar R

    2 2

    0.5

    1 1

    4 45 4 15G C

    E G E C

    Como y G C

    G C

    R RG C

    n n

  • Ahora podemos construir otras dos variables Binomiales que respondan la pregunta del problema. DG y DC cuentan la cantidad de días del año donde nacen más del 65% de varones en los hospitales grande y chico respectivamente. La probabilidad de que el evento a contar suceda en un día cualquiera se obtiene a partir de las variables G y C:

    ( 0.65)Gp P G 0.14

    0.16

    0.18

    0.2

    Proporcion de varones del hospital grandeProporcion de varones del hospital chico

    PG = 0.0178

    ( 0.65)Cp P C

    0 0.1 0.2 0.3 0.4 0.5 0.6 0.65 0.7 0.8 0.9 10

    0.02

    0.04

    0.06

    0.08

    0.1

    0.12

    x

    PD

    F

    PC = 0.1509

  • Luego, DG es una Binomial (n=365,p=pG), mientras que DC es una Binomial (n=365,p=pC). La tabla mostrada anteriormente contenía muestras de estas VAs.

    0.1

    0.12

    0.14

    0.16 Hospital grandeHospital chico

    0 10 20 30 40 50 60 70 800

    0.02

    0.04

    0.06

    0.08

    Cantidad de dias del anio con mas de 65% de nacimientos de varones

    PD

    F

  • EJERCICIOS

    • Sea Y~U(0,1) y la distribución condicional de X|Y=y una Binomial(n,p=y). Hallar E(X|Y=y), E(X2|Y=y) y Var(X).

    E X Y y ny

    22

    2

    var

    1

    E X Y y X Y y E X Y y

    n y y ny

    var var varX E X Y E X Y

    2 2

    2

    2

    var var var

    1 var var

    21 1 1 1

    2 12 2 12 12

    X E X Y E X Y

    E nY Y nY nE Y nE Y n Y

    n nn n n

    De hecho, la marginal de X es una VAUniforme discreta entre 0 y n

  • EJERCICIO

    * 2 N N N1

    N

    ii

    S X

    X1,X2, . . . es una secuencia de VAs, todas de media 2. Sea N una VA Geo(p=2/3), independiente de las Xi. Hallar la esperanza de la suma de NVAs Xi, sabiendo se suman al menos dos VAs.

    Hay que hallar E(S*)

    Para interpretar esto, pensemos en que a la conjunta de S y N, primero se la trunca para la condición N≥2. Luego, sus marginales serán S*=S|N≥2 y

    *

    *

    1

    N

    ii

    S XOPCION 1

    | 2E S N Hallar

    trunca para la condición N≥2. Luego, sus marginales serán S*=S|N≥2 y N*=N|N≥2, y al fijar un N=n (no inferior a 2) tendremos la condicional S*|N*=n.

    * * * * * *2X XE S E E S N E N E N E N Para calcular E[N*], notar que al ser N una Geo(p), la distribución de N* es la de N|N≥2 que es igual a la de N|N>1, que es una Geo(p) desplazada una unidad hacia la derecha. Entonces su media será 1/p + 1. Reemplazando se llega a que E(S|N≥2) vale 5.

    * *

    * * * * *

    1 1

    N N

    i i Xi i

    E S N E X N E X N N

  • Y además

    Por ser N una VA Geo(p),

    OPCION 2

    ( ) | 2 2 | 2 2E S E S N P N E S N P N La esperanza de S puede descomponerse según:

    2 1 1P N P N p 2P N p

    1| 2 | 1 | 1 XE S N E S N E X N

    1

    E Np

    1 1

    N N

    i i Xi i

    E S E E S N E E X N E E X N E N

    Reemplazando,

    1 XPor otro lado,

    21 1 1 1| 2

    1 1X X X X

    p pE S N p

    p p p p p

    5

  • Supongamos ahora que se realizan experimentos dicotómicos pero que las distribuciones asociadas a cada uno de ellos NO SON INDEPENDIENTES. Podemos igual obtener una nueva VA. pero ya no estará asociada al proceso Bernoulli.

    Un ejemplo de esto puede ser el experimento donde se extraen bolillas SIN REPOSICION. En cada extracción, todas las bolillas de la urna son equiprobables. Supongamos que de un total de N bolillas, R poseen una determinada característica deseada. Luego se extraen n≤N bolillas sin reposición. Se define entonces la variable K:”cantidad de bolillas de las nque poseen la característica deseada”.

    El soporte de esta variable es max(0,n-(N-R)), …,min(n,R). Debido a la equiprobabilidad de cada extracción, podemos definir la función de probabilidad usando la definición de probabilidad clásica de Laplace.

    K

    R N R

    k n kp k

    N

    n

    Hipergeometrica (N,R,n)

    R

    E K nN

    2 11

    K

    R R N nnN N N

  • Sería razonable que si R y N-R son mucho mayores que n, entonces no debería haber grandes diferencias entre considerar las extracciones con o sin reposición. Para ello, consideramos que cuando N tiende a infinito, R/N tiende a p (la probabilidad de éxito de la Bernoulli). Luego,

    1 1

    1 1

    K

    Np N Np

    nk n k Np Np Np kp k

    N k N N N k

    n

    1 1

    1 1

    n

    N Np N Np N Np n k

    N k N k N n

    k factores que convergen a p

    n-k factores que convergen a 1-p

    lim 1n kk

    KN

    np k p p

    k

  • Qué sucede si los experimentos en vez de ser dicotómicos (éxito o fracaso), tienen m posibles resultados? Por ejemplo, se tiene una urna con N bolas de m diferentes colores. Al extraer n bolas, se define la conjunta X1,X2,…,Xm, donde cada Xi representa la cantidad de bolas extraídas del i-esimo color.

    Veamos primero el caso sin reposición. De las N bolas, Ni son de color i, con lo cual, N=N1+N2+…+Nm. Al extraer n bolas, según lo dicho antes, surge X1+X2+…+Xm=n.

    1 2m

    m iN NN N

    1 2

    1 2

    11 2, , , 1 2, ,m

    m i

    im iX X X m

    N NN N

    k kk kp k k k

    N N

    n n

    Multi - Hipergeometrica (n,N1,N2,…,Nm)

  • Veamos ahora el caso con reposición. El total de n-uplas que se pueden extraer habiendo N bolas en total en la urna es Nn. Por lo tanto, la distribución buscada en este caso será:

    1 21 2

    1 2

    , ,1 2

    , , , 1 2, ,m m

    m

    k k k kk km n

    X X X m n

    N N N Pp k k k

    N

    1 2, ,, ,i

    m

    kmk k k iNp k k k P

    Multinomial (n,N1/N,N2/N,…,Nm/N)

    1 21 2

    , ,, , , 1 2

    1

    , , mm

    k k k iX X X m n

    i

    p k k k PN

    Al ser con reposición,

    ii

    Np

    N donde

    1

    1m

    ii

    p

  • BONUS TRACKSBONUS TRACKS

  • EJERCICIOS

    • Retomemos el problema de llegar a una decisión justa con una moneda falsa. Hallar la media de tiros en cada estrategia.

    Tire la moneda dos veces. Si sale HT, elija A. Si sale TH, elija B. Sino, repita el procedimiento.

    En este caso se asocia una variable geométrica a la cantidad de tiros hasta llegar a la decisión. El parámetro es:

    2 1exitop P HT TH p p

    1

    p Si p=1/sqrt(2) 2.41 1

    2 1p

    p p

    Si p=1/sqrt(2) 2.41

    Tire la moneda dos veces. Si sale HH, elija A. Sino, elija B. 2

    Las otras dos estrategias planteadas para p=1/sqrt(2) son:

    Tire la moneda una vez. Si sale T, elija B. Sino, tire de vuelta. Si sale H, elija A y sino B.

    1 11 2 1.707

    2 2

  • Sea X una VA discreta con soporte en {1,2,3,…} y posee la propiedad de perdida de memoria:

    P X a b X a P X b

    Sea P(X=1)=p. Luego, P(X>1)=1-p y para todo n>1 se verifica:

    con a y b enteros positivos. Probar entonces que X sigue una distribución geométrica con p=P(X=1).

    EJERCICIO

    1 1 1 1 P X n P X n P X n P X n X P X n X

    Opcion 1

    1 1 1 1 P X n X P X n X P X

    1 2 1 1 1 1 1 P X n X P X n X p

    2 1 1 1 1 P X n P X n p P X n p

    1

    1 1,2,

    n

    P X n p p n

  • Sea GX(n)=P(X>n). Como X no tiene memoria,

    X X XP X a b G a b P X a P X b G a G b

    Opcion 2

    Notar que GX(1) = P(X>1) = 1-P(X=1) = 1-p. Aplicando la relación de arriba,

    2

    1, 1 2 1 1 1X X Xa b G G G p

    3

    2, 1 3 2 1 1X X Xa b G G G p

    1 1X XP X n P X n P X n G n G n

    1 1,2,n

    XG n p n

    1

    1 1,2,

    n

    P X n p p n

  • Luzzi, un fabricante de bombillas de luz, posee dos fabricas. La fabrica A vende en lotes que consisten en 1000 bombillas regulares y 2000 de bajo consumo. Por muestreo aleatorio se ha verificado que por lote presentan en promedio 2 bombillas regulares defectuosas y 11 de bajo consumo. En la fabrica B se hacen 2000 regulares y 1000 de bajo consumo, apareciendo en promedio una cantidad de defectuosas por lote de 5 y 6 respectivamente.El gerente de la fabrica A dice: “Somos claramente los mejores productores ya que nuestras tasas de defectuosas son de 0.2% y

    PREGUNTA

    productores ya que nuestras tasas de defectuosas son de 0.2% y 0.55%, contra un 0.25% y 0.6% en la fabrica B."“Al contrario“, dice el gerente de la fabrica B, “cada lote de 3000 bombillas que fabricamos presenta en promedio 11 defectuosas, mientras que la fabrica A tiene 13. Entonces nuestra tasa es de 0.37% frete al 0.43% de la fabrica A."Quien tiene razón?