articulo distribucion normal bivariada

10
903 Recibido: Octubre, 2006. Aprobado: Septiembre, 2007. Publicado como ENSAYO en Agrociencia 41: 903-912. 2007. RESUMEN Los análisis estadísticos con una sola variable tienen la limita- ción de proveer conocimientos parciales no suficientes para ca- racterizar fenómenos multivariados complejos como las precipi- taciones, tormentas, escorrentías e inundaciones. Para el enten- dimiento integral de estos fenómenos se requiere estudiar la den- sidad conjunta de las variables correlacionadas que los caracte- rizan. En hidrología se ha supuesto que las variables de interés siguen una distribución gamma, por lo que la distribución gamma bivariada es la más utilizada en esta disciplina. En este trabajo se presenta la generalización de una distribución gamma bivariada a una familia de distribuciones bivariadas. Esta familia (que da la posibilidad de utilizar cualquier distribución continua como marginal, por ejemplo, la lognormal, inversa de Gauss o logísti- ca), aunada a las familias existentes, puede ser útil para modelar los fenómenos hidrológicos. Una ventaja de esta familia es que su distribución conjunta tiene una expresión explícita simple que permite su utilización con paquetes matemáticos como Mathematica o Matlab. Palabras clave: Distribución bivariada, distribución gamma, distri- bución inversa de Gauss, distribuciones marginales, familias multivariadas. INTRODUCCIÓN Y ue et al. (2001) revisaron algunas distribucio- nes bivariadas propuestas para las aplicacio- nes hidrológicas y mencionan que su compli- cación matemática es el principal obstáculo para su uso. La generalización bivariada de una distribución univariada generalmente no es única como en el caso de la distribución normal; para la distribución gamma, por ejemplo, cualquier distribución bivariada con mar- ginales gamma puede considerarse una distribución gamma bivariada. Plackett (1965), cita a Fréchet, quien considerando dos variables aleatorias X y Y, con distri- bución conjunta H(x, y) y distribuciones marginales F(x) y G(y), obtuvo las siguientes desigualdades cono- cidas como cotas de Fréchet (Kotz et al., 2000). UNA FAMILIA DE DISTRIBUCIONES BIVARIADAS Y SUS APLICACIONES EN HIDROLOGÍA A FAMILY OF BIVARIATE DISTRIBUTIONS AND ITS APPLICATIONS IN HYDROLOGY R. Antonio Salazar-Gómez 1 e I. Roberto Cruz-Medina 2 1 Instituto Tecnológico del Valle del Yaqui. Block 611 Valle del Yaqui, Bácum Sonora (rasalazarg@hotmaillcom) 2 Instituto Tecnológico de Sonora, Cinco de Febrero 818 Obregón, Sono- ra. 85000 ([email protected]) ABSTRACT Statistical analyses with a single variable have the limitation of providing partial knowledge that is insufficient for characterizing complex multivariate phenomena such as precipitations, storms, run-offs and floods. For the integral understanding of these phenomena, it is necessary to study the joint density of the correlated variables that characterize them. In hydrology, it has been assumed that the variables of interest follow a gamma distribution, therefore, the bivariate gamma distribution is the most widely used distribution in this discipline. In this paper a generalization of a bivariate gamma to a family of bivariate distributions is presented. This family (which provides the possibility of using any continuous distribution as marginal, for example, the lognormal, inverse Gaussian or logistic), added to the existing families, can be useful for modeling hydrological phenomena. One advantage of this family is that its joint distribution has a simple explicit expression that permits its use with mathematical packages such as Mathematica or Matlab. Key words: Bivariate distribution, gamma distribution, inverse Gaussian distribution, marginal distributions, multivariate families. INTRODUCTION Y ue et al. (2001) revised some bivariate distributions proposed for hydrological applications and mentioned that their mathematical complication is the principal obstacle for their use. The bivariate generalization of a univariate distribution is generally not unique, as in the case of the normal distribution; for the gamma distribution, for example, any bivariate distribution with gamma marginals can be considered a bivariate gamma distribution. Plackett (1965) cites Fréchet, who, considering two random variables X and Y, with joint distribution H(x, y) and marginal distributions F(x) and G(y), obtained the following inequalities known as the Fréchet bounds (Kotz et al., 2000). H(x, y) min [F(x), G(y)] (1) H (x, y) min F(x) + G(y)1 (2)

Upload: diego-andres-garcia

Post on 12-Dec-2015

13 views

Category:

Documents


0 download

DESCRIPTION

Como utilizar a distribucion normal bivariada

TRANSCRIPT

Page 1: Articulo Distribucion Normal Bivariada

903

Recibido: Octubre, 2006. Aprobado: Septiembre, 2007.Publicado como ENSAYO en Agrociencia 41: 903-912. 2007.

RESUMEN

Los análisis estadísticos con una sola variable tienen la limita-ción de proveer conocimientos parciales no suficientes para ca-racterizar fenómenos multivariados complejos como las precipi-taciones, tormentas, escorrentías e inundaciones. Para el enten-dimiento integral de estos fenómenos se requiere estudiar la den-sidad conjunta de las variables correlacionadas que los caracte-rizan. En hidrología se ha supuesto que las variables de interéssiguen una distribución gamma, por lo que la distribución gammabivariada es la más utilizada en esta disciplina. En este trabajose presenta la generalización de una distribución gamma bivariadaa una familia de distribuciones bivariadas. Esta familia (que dala posibilidad de utilizar cualquier distribución continua comomarginal, por ejemplo, la lognormal, inversa de Gauss o logísti-ca), aunada a las familias existentes, puede ser útil para modelarlos fenómenos hidrológicos. Una ventaja de esta familia es que sudistribución conjunta tiene una expresión explícita simple quepermite su utilización con paquetes matemáticos comoMathematica o Matlab.

Palabras clave: Distribución bivariada, distribución gamma, distri-

bución inversa de Gauss, distribuciones marginales, familias

multivariadas.

INTRODUCCIÓN

Yue et al. (2001) revisaron algunas distribucio-nes bivariadas propuestas para las aplicacio-nes hidrológicas y mencionan que su compli-

cación matemática es el principal obstáculo para suuso. La generalización bivariada de una distribuciónunivariada generalmente no es única como en el casode la distribución normal; para la distribución gamma,por ejemplo, cualquier distribución bivariada con mar-ginales gamma puede considerarse una distribucióngamma bivariada. Plackett (1965), cita a Fréchet, quienconsiderando dos variables aleatorias X y Y, con distri-bución conjunta H(x, y) y distribuciones marginalesF(x) y G(y), obtuvo las siguientes desigualdades cono-cidas como cotas de Fréchet (Kotz et al., 2000).

UNA FAMILIA DE DISTRIBUCIONES BIVARIADAS YSUS APLICACIONES EN HIDROLOGÍA

A FAMILY OF BIVARIATE DISTRIBUTIONS AND ITS APPLICATIONS IN HYDROLOGY

R. Antonio Salazar-Gómez1 e I. Roberto Cruz-Medina2

1Instituto Tecnológico del Valle del Yaqui. Block 611 Valle del Yaqui, Bácum Sonora(rasalazarg@hotmaillcom) 2Instituto Tecnológico de Sonora, Cinco de Febrero 818 Obregón, Sono-ra. 85000 ([email protected])

ABSTRACT

Statistical analyses with a single variable have the limitation ofproviding partial knowledge that is insufficient for characterizingcomplex multivariate phenomena such as precipitations, storms,run-offs and floods. For the integral understanding of thesephenomena, it is necessary to study the joint density of thecorrelated variables that characterize them. In hydrology, it hasbeen assumed that the variables of interest follow a gammadistribution, therefore, the bivariate gamma distribution is themost widely used distribution in this discipline. In this paper ageneralization of a bivariate gamma to a family of bivariatedistributions is presented. This family (which provides thepossibility of using any continuous distribution as marginal, forexample, the lognormal, inverse Gaussian or logistic), added tothe existing families, can be useful for modeling hydrologicalphenomena. One advantage of this family is that its jointdistribution has a simple explicit expression that permits its usewith mathematical packages such as Mathematica or Matlab.

Key words: Bivariate distribution, gamma distribution, inverse

Gaussian distribution, marginal distributions, multivariate families.

INTRODUCTION

Yue et al. (2001) revised some bivariatedistributions proposed for hydrologicalapplications and mentioned that their

mathematical complication is the principal obstacle fortheir use. The bivariate generalization of a univariatedistribution is generally not unique, as in the case ofthe normal distribution; for the gamma distribution,for example, any bivariate distribution with gammamarginals can be considered a bivariate gammadistribution. Plackett (1965) cites Fréchet, who,considering two random variables X and Y, with jointdistribution H(x, y) and marginal distributions F(x) andG(y), obtained the following inequalities known as theFréchet bounds (Kotz et al., 2000).

H(x, y) ≤ min [F(x), G(y)] (1)

H (x, y) ≤ min F(x) + G(y)−1 (2)

Page 2: Articulo Distribucion Normal Bivariada

904 VOLUMEN 41, NÚMERO 8

AGROCIENCIA, 16 de noviembre - 31 de diciembre, 2007

H(x, y) ≤ min [F(x), G(y)] (1)

H(x, y) ≥ min F(x) + G(y)−1 (2)

Morgenstern, citado por D’este (1981) propuso la dis-tribución bivariada con distribuciones marginales F(x)y F(y):

H x y F x G y F x G y,a f a f a fm r= ( ) + − ( ) −1 1 1α (3)

y Farlie (1960), la generalizó con la expresión:

H x y F x G y A F B G,a f a fl q= ( ) + ( ) ( )1 α (4)

donde las funciones A(F) y B(G) son funciones acota-das, con sus primeras diferenciales también acotadas,α es un parámetro de asociación y si se acepta, sinpérdida de generalidad, que las cotas superiores deA(F) y B(G) son iguales a uno, la expresiónpara la función bivariada (4) es única. La familia (4)de distribuciones bivariadas se conoce como las distri-buciones Farlie-Gumbel-Morgenstern. D’este (1981)puntualiza que la distribución gamma bivariada deri-vada de la ecuación (3) de Morgenstern tiene una cotasuperior de 1/π=0.3183 para el coeficiente de correla-ción y concluye que esta distribución gamma bivariadasólo es útil para variables con correlación débil.

El método de Plackett (1965) para la construcciónde una distribución conjunta H(x,y), satisface la ecua-ción (5) y depende del parámetro Ψ≥0 donde:

Ψ =− − +( )

−( ) −( )H F G H

F H G H

1(5)

Karian y Dudewics (2000) proporcionan una des-cripción completa del método, cuando Ψ=1 las varia-bles son independientes y se alcanzan las cotas deFréchet; la función de densidad conjunta, denominadafamilia lambda generalizada (FLG), tiene la expresión:

h x yf x g y F G FG

S FG, /a f a f

c h=

( ) + −( ) + −( )

− −( )

Ψ Ψ

Ψ Ψ

1 1 2

4 12 3 2 (6)

donde, S=1+(F+G)(Ψ−1); f(x) y g(y) representan lasfunciones de densidad de las distribuciones F(x) y G(y).

Koehler y Symanowsky (1995) presentan una fa-milia multivariada con funciones de distribución y dedensidad en forma explícita que se denotará como FKS.

Morgenstern, cited by D’este (1981), proposed thebivariate distribution with marginal distributions F(x)and F(y):

H x y F x G y F x G y,a f a f a fm r= ( ) + − ( ) −1 1 1α (3)

and Farlie (1960), generalized it with the expression:

H x y F x G y A F B G,a f a fl q= ( ) + ( ) ( )1 α (4)

where functions A(F) and B(G) are bounded functions,with first differentials also bounded, α is an associationparameter, and if it is accepted, without loss ofgenerality, that the upper bounds of |A(F)| and |B(G)|are equal to one, the expression for the bivariate function(4) is unique. The family (4) of bivariate distributionsis known as the Farlie-Gumbel-Morgensterndistributions. D’este (1981) points out that the bivariategamma distribution derived from equation (3) ofMorgenstern has an upper bound of 1/π=0.3183 forthe correlation coefficient and concludes that thisbivariate gamma distribution is only useful for variableswith weak correlation. The Plackett method (1965) for the construction of ajoint distribution H(x,y), satisfies equation (5) anddepends on the parameter Ψ≥0 where:

Ψ =− − +( )

−( ) −( )H F G H

F H G H

1(5)

Karian and Dudewics (2000) provide a completedescription of the method, when Ø = 1 the variablesare independent and the Fréchet bounds are attained;the joint density function, known as the generalizedlambda family (GLF), has the following expression:

h x yf x g y F G FG

S FG, /a f a f

c h=

( ) + −( ) + −( )

− −( )

Ψ Ψ

Ψ Ψ

1 1 2

4 12 3 2 (6)

where, S=1+(F+G)(Ψ−1); f(x) and g(y) represent thedensity functions of the distributions F(x) and G(y).

Koehler and Symanowsky (1995) present amultivariate family with explicit distribution and densityfunctions that will be denoted as FKS. To generate thisfamily the authors define a group of exponentialvariables and a group of independent gamma variables,define various transformations to the p-dimensionalhypercube with uniform margins (0, 1) to obtain p

Page 3: Articulo Distribucion Normal Bivariada

905SALAZAR-GÓMEZ y CRUZ-MEDINA

UNA FAMILIA DE DISTRIBUCIONES BIVARIADAS Y SUS APLICACIONES EN HIDROLOGÍA

Para generar esta familia los autores definen un con-junto de variables exponenciales y un conjunto de va-riables gamma independientes, definen varias trans-formaciones al hipercubo p-dimensional con márgenesuniformes (0, 1) para obtener p variables uniformesUi, y se reemplazan las variables Ui por las funcionesde distribución Fi(xi). Para dos variables, la función dedensidad contiene tres parámetros de asociación (α11,α12 y α22), sin embargo, la función puede simplificarsede forma que contenga únicamente al parámetro α12,(α11=α22=0) y si este parámetro se denota por α, ladensidad bivariada es:

h x y f x g y F x G y

C C

,/ /a f a f a f= ( ) ( )

+FHG

IKJ

− +( ) −α+

1 1

122

1221

α α

α

α(7)

donde:

C12=C21=F(x)1/α1++G(y)1/α2+−F(x)1/α1+G(y)1/α2+ (8)

Johnson y Tenenbein (1981), generaron una fami-lia de distribuciones bivariadas por el método de lacombinaciones lineales ponderadas (CLP), el cual seinicia con dos variables independientes e idénticamentedistribuidas (iid) U’ y V’ con función de densidad w(t),para definir las variables U y V:

U=U’ y (9.a)V=cU’+(1−c)V’ (9.b)

donde, c∈(0,1) es una constante que afecta la depen-dencia entre las variables; w(t) una función de densi-dad que se puede utilizar para evaluar la sensibilidadde la distribución conjunta H(x,y). Los autores utilizancomo distribución w (t) a las distribuciones uniforme,normal, exponencial y doble exponencial, pero no pro-porcionan la expresión explícita de la función de den-sidad conjunta h(x, y) generada por estas distribucio-nes.

Las familias de distribuciones presentadas no seaplican frecuentemente debido a la complejidad de susfunciones de densidad. El objetivo del presente trabajofue obtener una familia de distribuciones bivariadas demenor complejidad. La hipótesis que se plantea es queel procedimiento de Moran (1969), descrito en la si-guiente sección para obtener una distribución gammabivariada, se puede generalizar para cumplir el objeti-vo buscado.

uniform variables Ui, and the Ui variables are replacedby the distribution functions Fi(xi). For two variables,the density function contains three associationparameters (α11, α12, α22), however, the function canbe simplified in such a way that it contains only theparameter α12, (α11=α22=0), and if this parameter isdenoted by α, the bivariate density is:

h x y f x g y F x G y

C C

,/ /a f a f a f= ( ) ( )

+FHG

IKJ

− +( ) −α+

1 1

122

1221

α α

α

α(7)

where:

C12=C21=F(x)1/α1++G(y)1/α2+−F(x)1/α1+G(y)1/α2+ (8)

Johnson and Tenenbein (1981) generated a familyof bivariate distributions by the weighted linearcombination method (WLC), which starts with twoindependent variables that are identically distributed(iid) U’ and V’ with density function w(t), to define thevariables U and V:

U=U’ and (9.a)V=cU’+(1−c)V’ (9.b)

where, c∈(0,1) is a constant that affects the dependenceamong the variables; w(t) is a density function that canbe used to evaluate the sensitivity of the joint distributionH(x,y). These authors use the uniform, normal,exponential and double exponential distribution as w(t),but do not provide the explicit expression of the jointdensity function h(x, y) generated by these distributions.

The families of distributions presented in this sectionare not frequently applied due to the complexity oftheir density functions. The objective of the presentstudy was to obtain a family of bivariate distributionsof lower complexity. The hypothesis proposed in thispaper is that the procedure of Moran (1969), describedin the following section to obtain a bivariate gammadistribution, can be generalized to comply with theobjective.

MATERIALS AND METHODS

Moran (1969), starting from a bivariate normal distribution with

correlation coefficient ρ, obtained one of the first generalizations of

the bivariate gamma distribution using the following results:

1) Dependence among variables with a bivariate normal distribution

is completely specified by the correlation coefficient; this property

Page 4: Articulo Distribucion Normal Bivariada

906 VOLUMEN 41, NÚMERO 8

AGROCIENCIA, 16 de noviembre - 31 de diciembre, 2007

MATERIALES Y MÉTODOS

Moran (1969), partiendo de una distribución normal bivariada

con coeficiente de correlación ρ, obtuvo una de las primeras genera-

lizaciones de la distribución gamma bivariada utilizando los siguien-

tes resultados:

1) La dependencia entre variables con una distribución normal

bivariada está completamente especificada por el coeficiente de

correlación; esta propiedad de la distribución normal bivariada

la hace ideal para expresar la dependencia lineal entre varia-

bles.

2) La función acumulativa de probabilidad o función de distribu-

ción (FD) de cualquier variable univariada continua tiene distri-

bución uniforme U(0,1), en el intervalo (0, 1).

3) El teorema de cambio de variable que permite la obtención de la

función de densidad de una función de una variable aleatoria

con cierta distribución específica (Casella y Berger 1990).

Moran (1969) supone dos variables aleatorias W y Z, con distri-

bución normal bivariada, cuya densidad es:

f w z w wz zw z, , expa fd i d i d i=

−−

−− +

RS|T|

UV|W|

1

2 1

1

2 12

2 1/2 22 2

π ρ ρρ

(10)

y define a las variables aleatorias U y V como las distribuciones

acumulativas de W y Z, por medio de las expresiones:

U W e dttw

= =−

−∞zΦ( )

1

2

2

2

π y (11.a)

V e dt Ztz

= =−

−∞z1

2

2

2

πΦ( ) (11.b)

Estas variables aleatorias (U y V) heredan la dependencia de las

variables W y Z y tienen una distribución uniforme (resultado 2

anterior) en el intervalo (0, 1). Luego define a las variables X y Y en

forma implícita como:

U F X f s dsx

= =−∞z, ,θ θ1 1a f a f (12.a)

V G Y g s dsy

= =−∞z, ,θ θ2 2a f a f (12.b)

Según Moran (1969), f (x,θ1) y g (y,θ2) son las funciones de

densidad de dos variables gamma, y F y G son sus funciones de

of the bivariate normal distribution makes it ideal for expressing

linear dependence among variables.

2) The cumulative distribution function (CDF) of any continuous

univariate variable has uniform distribution U(0, 1) in the interval

(0, 1).

3) The change of variable theorem which allows to obtain the density

function of a function of a random variable with a specific

distribution (Casella and Berger, 1990).

Moran (1969) assumes two random variables W and Z, with

bivariate normal distribution, whose density is:

f w z w wz zw z, , expa fd i d i d i=

−−

−− +

RS|T|

UV|W|

1

2 1

1

2 12

2 1/2 22 2

π ρ ρρ

(10)

and defines the random variables (U and V) as the cumulative

distributions of W and Z, by means of the expressions:

U W e dttw

= =−

−∞zΦ( )

1

2

2

2

π and (11.a)

V e dt Ztz

= =−

−∞z1

2

2

2

πΦ( ) (11.b)

These random variables (U and V) inherit the dependence of

variables W and Z and have a uniform distribution (result 2 above) in

the interval (0, 1). Then the variables X and Y are defined implicitly

as:

U F X f s dsx

= =−∞z, ,θ θ1 1a f a f (12.a)

V G Y g s dsy

= =−∞z, ,θ θ2 2a f a f (12.b)

According to Moran (1969), f(x,θ1) and g (y,θ2) are the density

functions of two gamma variables, and F and G are their distribution

functions. With the theorem of change of variable, the joint density

function of a bivariate gamma distribution is obtained.

Generalization of the Moran bivariate distribution

To generalize the Moran (1969) bivariate distribution, the

principal result of this work, note that variables X and Y in the

expressions (12.a and 12.b) may have diverse continuous distributions.

Using the transformations (13.a) and (13.b) with inverse

transformations (14.a) and (14.b):

Page 5: Articulo Distribucion Normal Bivariada

907SALAZAR-GÓMEZ y CRUZ-MEDINA

UNA FAMILIA DE DISTRIBUCIONES BIVARIADAS Y SUS APLICACIONES EN HIDROLOGÍA

distribución. Por medio del teorema de cambio de variable se obtie-

ne la función de densidad conjunta de una distribución gamma

bivariada.

Generalización de la distribución bivariada de Moran

Para generalizar la distribución bivariada de Moran (1969), re-

sultado principal de este trabajo, nótese que las variables X y Y en

las expresiones (12.a y 12.b) pueden tener diversas distribuciones

continuas. Utilizando las transformaciones (13.a) y (13.b) con trans-

formaciones inversas (14.a) y (14.b):

X=F−1[U]=F−1[Φ(W)] y (13.a)

Y=G−1[V]=G−1[Φ(W)] (13.b)

W=Φ−1[F(X)] y (14.a)

Z=Φ−1[G(Y)] y (14.b)

El teorema de cambio de variable permite expresar la función

de densidad conjunta como:

h(x,y)=fw,z (Φ−1[F(X)], Φ−1[G(Y)]) 9J (15)

donde el Jacobiano de la transformación inversa J es:

J

wx

wx

zy

zy

wx

xzy

= =

∂∂

∂ (16)

La expresión del lado derecho es válida porque la variable W

sólo depende de la variable X y la variable Z sólo depende de Y.

Moran (1969) proporciona las derivadas de la expresión (16) para

distribuciones gamma, las expresiones, para cualquier distribución

derivable, se obtienen por medio de las fórmulas de la derivada de

una composición de funciones y la derivada de la inversa de una

función.

∂Φ

θπ θ

wx

F x

x

f x

f F xw f x

z

= = =−

11

1

1/2 212 1 2

a fb g a fa fb gd i

a f n s a f;exp / ;

Φ

(17.a)

∂Φ

θπ θ

zx

G y

y

g y

f F yz g x

z

= = =−

12

1

1/2 222 1 2

a fc h a fa fc hd i

a f n s a f;exp / ;

Φ

(17.b)

fz representa la función de densidad de la distribución normal

estándar y las variables W y Z están definidas por las ecuaciones

(14.a) y (14.b), así:

X=F−1[U]=F−1[Φ(W)] y (13.a)

Y=G−1[V]=G−1[Φ(W)] (13.b)

W=Φ−1[F(X)] y (14.a)

Z=Φ−1[G(Y)] y (14.b)

The change of variable theorem makes it possible to express the

joint density function as:

h(x,y)=fw,z (Φ−1[F(X)], Φ−1[G(Y)]) 9J (15)

where the Jacobian of the inverse transformation | J | is:

J

wx

wx

zy

zy

wx

xzy

= =

∂∂

∂ (16)

The expression on the right side is valid because variable W

depends only on variable X and variable Z depends only on Y. Moran

(1969) provides the derivates of the expression (16) for gamma

distributions, the expressions, for any derivable distribution, are

obtained by means of the formulas of the derivate of a composition

of functions and the derivate of the inverse of a function.

∂Φ

θπ θ

wx

F x

x

f x

f F xw f x

z

= = =−

11

1

1/2 212 1 2

a fb g a fa fb gd i

a f n s a f;exp / ;

Φ

(17.a)

∂Φ

θπ θ

zx

G y

y

g y

f F yz g x

z

= = =−

12

1

1/2 222 1 2

a fc h a fa fc hd i

a f n s a f;exp / ;

Φ

(17.b)

fz represents the density function of the standard normal

distribution and variables W and Z are defined by the equations

(14.a) and (14.b), as follows:

J w z f x g y= +2 1 2 2 21 2π θ θa f d i{ } a f a fexp / ; ; (18)

Substituting equation (18) in expression (15), the joint density

function of variables X and Y with marginal densities f(x,θ1) and g

(y,θ2) is obtained. These functions represent the densities of any

continuous variable, where θ1 and θ2 may be parameters of one

dimension or vectors. Developing expression (15), a density function

that will be called the generalized bivariate family of Moran (GFM)

is obtained:

Page 6: Articulo Distribucion Normal Bivariada

908 VOLUMEN 41, NÚMERO 8

AGROCIENCIA, 16 de noviembre - 31 de diciembre, 2007

J w z f x g y= +2 1 2 2 21 2π θ θa f d i{ } a f a fexp / ; ; (18)

Sustituyendo la ecuación (18) en la expresión (15) se obtiene la

función de densidad conjunta de las variables X y Y con densidades

marginales f (x,θ1) y g (y,θ2). Estas funciones representan las densi-

dades de cualquier variable continua, donde θ1 y θ2 pueden ser

parámetros de una dimensión o vectoriales. Desarrollando la expre-

sión (15) se obtiene una función de densidad que se denominará aquí

familia bivariada generalizada de Moran (FGM):

h x y w wz z

f x g y

( , ) exp

; ;

=−

−−

− +LNM

OQP

RS|T|

UV|W|

1

1

1

2 12

2 1/2 2

2 2

1 2

ρ ρρ ρ ρ

θ θ

d i d ia f a f

a f a fx

(19)

Ajuste de las distribuciones bivariadas

Para estimar el parámetro Ψ en la familia FLG Plackett (1965)

sugiere dividir la distribución conjunta en cuatro cuadrantes, utili-

zando las líneas x=x1 y y=y1 para algunas constantes x1 y y1, contar

el número de puntos (x, y) en cada cuadrante. Los conteos propor-

cionan los valores a, b, c y d:

a=n(x≤x1, y≤y1); b=n(x≤x1, y>y1),

b=n(x>x1, y≤y1) y d=n(x>x1, y>y1)

donde, n(A) es el número de elementos del evento A. El estimador

propuesto es: Ψ+=ad/bc, que tiene una distribución asintóticamente

normal con varianza:

V(Ψ+)=(Ψ+)2[1/a+1/b+1/c+1/d] (20)

Mardia, citado por Karian y Dudewics (2000) muestra que la

varianza se minimiza si x1 y y1 se seleccionan como las medianas de

las respectivas distribuciones. Karian y Dudewics (2000) proporcio-

nan un algoritmo para aproximar una distribución conjunta f (x, y),

por medio de la distribución h(x, y) de la familia FLG. Este algorit-

mo, con pequeñas modificaciones, se puede utilizar para ajustar una

distribución h(x, y) de la familia FLG, cuando se desconoce la dis-

tribución verdadera.

1) Seleccionar las distribuciones marginales f (x,θ1) y g (y,θ2) y por

medio de algún criterio (Kolmogorov-Smirnov, Anderson-Darling,

χ2-cuadrada).

2) Ajustar las distribuciones marginales con algún método (máxi-

ma verosimilitud, método de momentos o de percentiles si los

momentos no existen).

3) Graficar las distribuciones marginales para verificar la calidad

del ajuste univariado.

4) Seleccionar el valor de Ψ (como el valor Ψ+) propuesto por

Plackett.

h x y w wz z

f x g y

( , ) exp

; ;

=−

−−

− +LNM

OQP

RS|T|

UV|W|

1

1

1

2 12

2 1/2 2

2 2

1 2

ρ ρρ ρ ρ

θ θ

d i d ia f a f

a f a fx

(19)

Fit of the bivariate distributions

To estimate the parameter Ψ in the family FLG, Plackett (1965)

suggests dividing the joint distribution into four quadrants, using the

lines x=x1 and y=y1 for some constants x1 and y1, counting the

number of points (x, y) in each quadrant. The counts provide the

values a, b, c and d:

a=n(x≤x1, y≤y

1); b=n(x≤x

1, y>y

1),

b=n(x>x1, y≤y1) y d=n(x>x1, y>y1)

where, n(A) is the number of elements of event A. The proposed

estimator is: Ψ+=ad/bc, which has an asymptotically normal

distribution with variance:

V(Ψ+)=(Ψ+)2[1/a+1/b+1/c+1/d] (20)

Mardia, cited by Karian and Dudewics (2000) shows that the

variance is minimized if x1 and y1 are selected as the medians of the

respective distributions. Karian and Dudewics (2000) provide an

algorithm to approximate a joint distribution f(x,y) by means of the

distribution h(x,y) of the family FLG. This algorithm, with small

modifications, can be used to fit a distribution h(x,y) of the family

FLG, when the true distribution is unknown.

1) Select the marginal distributions f(x,θ1) and g (y,θ2) by means of

some criterion (Kolmogorov-Smirnov, Anderson-Darling, χ2-

squared).

2) Fit the marginal distributions with some method (maximum

likelihood, method of moments or percentiles if the moments do

not exist).

3) Graph the marginal distributions to verify the quality of the

univariate fit.

4) Select the value of Ψ (such as the value Ψ+) proposed by Plackett.

For fitting the FGM family, an algorithm similar to the above will

be used, substituting the last indication with: 4) estimate the value of ρ,

by ρ0, the correlation coefficient of the normalized values, that is:

ρ01

2

1

2

1

= =

= =

∑ ∑

w z

w z

i ii

n

ii

n

ii

n (21)

Koehler and Symanowsky (1995) used the maximum likelihood

method, with the computational complications inherent to this

Page 7: Articulo Distribucion Normal Bivariada

909SALAZAR-GÓMEZ y CRUZ-MEDINA

UNA FAMILIA DE DISTRIBUCIONES BIVARIADAS Y SUS APLICACIONES EN HIDROLOGÍA

Para el ajuste de la familia FGM se utilizará un algoritmo simi-

lar al anterior, sustituyendo la última indicación por: 4) estimar el

valor de ρ, por ρ0, el coeficiente de correlación de las variables

normalizadas, esto es,

ρ01

2

1

2

1

= =

= =

∑ ∑

w z

w z

i ii

n

ii

n

ii

n (21)

Koehler y Symanowsky (1995) utilizaron el método de máxima

verosimilitud, con las complicaciones computacionales propias de

este procedimiento (que se puede utilizar también para el ajuste de

las distribuciones de las dos familias anteriores). Estos autores men-

cionan que valores grandes de α11, α12 y α22 inducen una asociación

débil entre las variables X y Y; esta información es útil para selec-

cionar los valores iniciales del parámetro.

Comparación de las familias bivariadas

Las familias bivariadas FLG (6) y FGM (19) tienen sólo un

parámetro para modelar la dependencia, Ψ para la familia FLG y el

coeficiente de correlación ρ para la familia FGM. La familia FKS

tiene tres parámetros; sin embargo, para comparar el ajuste de estas

familias con igual número de parámetros, se utilizará la versión

simplificada (7).

Las comparaciones se efectuarán modelando las escorrentías del

Río Yaqui, en el estado de Sonora, México. La modelación de las

escorrentías en las regiones áridas y semiáridas de México es impor-

tante para planificar el uso de los escasos recursos hídricos de estas

regiones. En el caso del Río Yaqui, que irriga al valle del mismo

nombre en el sur de Sonora, las escorrentías de diciembre a junio

(DJ), que se desea modelar, tienen correlaciones significativas, pero

no están correlacionadas con las escorrentías de julio a septiembre

ocasionadas por las precipitaciones del periodo de lluvias de verano

asociadas al monzón mexicano. Las autocorrelaciones de las

escorrentías DJ no fueron significativas, pero su correlación con el

promedio del índice de oscilación del sur SOI (Ropelewsky y Jones,

1987) de octubre y noviembre es igual a −0.475, un valor significa-

tivo (p≤0.001). Para modelar y predecir las escorrentías DJ por

medio del índice SOI, se ajustaron distribuciones bivariadas para las

escorrentías acumuladas de diciembre-junio y el promedio del índi-

ce SOI de octubre y noviembre.

RESULTADOS Y DISCUSIÓN

Se dispuso de 47 registros (1956-2002) de lasescorrentías del periodo diciembre-junio (Cuadro 1),con un mínimo, máximo, mediana, media y desvia-ción estándar de 287.5, 4393.5, 632.05, 1102.3 y978.23 Hm3. Las distribuciones con mejor ajuste fue-ron: gamma desfasada, log logistic, lognormal y la

procedure (which can also be used for the fit of the distributions of

the two previous families). These authors mention that high values

of α11, α12 and α22 induce a weak association between variables X

and Y; this information is useful for selecting the initial values of the

parameter.

Comparison of the bivariate families

The bivariate FLG (6) and FGM (19) families have only one

parameter for modeling the dependence, Ψ for the FLG family and

the correlation coefficient ρ for the family FGM. The family FKS

has three parameters; however, to compare the goodness of fit of

these families with equal number of parameters, the simplified version

(7) will be used.

Comparisons will be made by modeling the runoffs of the Yaqui

River, in the State of Sonora, México. The modeling of the runoffs

in the arid and semi-arid regions of México is important for planning

the use of the limited water resources of these regions. It is the case

of the Yaqui River, which irrigates the valley of the same name in

the south of Sonora. The runoffs from December to June (DJ), which

will be modeled, have significant correlations, but are not correlated

with the runoffs from July to September caused by the summer

rainfalls associated with the Mexican monsoon. The autocorrelations

of the DJ runoffs were not significant, but their correlation with the

average of the southern oscillation index SOI (Ropelewsky and Jones,

1987) from October to November is equal to −0.475, a significant

value (p≤0.001). To model and predict the DJ runoffs with the SOI

index, bivariate distributions were adjusted for the accumulated runoffs

from December-June and the average of the SOI index of October

and November.

RESULTS AND DISCUSSION

There are 47 runoff available records (1956-2002)of the period December-June (Table 1), with aminimum, maximum, median, mean and standarddeviation of 287.5, 4393.5, 632.05, 1102.3 and 978.23Hm3. The distributions with best fit were: defasedgamma, log logistic, lognormal and the inverse Gaussiandistribution; the defased gamma distribution was selectedbecause it had the best fit with the Kolmogorov-Smirnovcriterion. The location, scale and form parameters areγ=287.48, β=1146.31 and α=0.7108. The averageSOI index of October and November (Table 1) has aminimum, maximum, median, mean and standarddeviation of −2.725, 1.850, −0.292, −0.109 and 0.981.The distributions with the best fit were the logistic andnormal; the normal distribution was selected becauseRopelewsky and Jones (1987) modified this indexprecisely so that it would have a standard normaldistribution.

If the runoff distribution and the SOI index wereindependent, the contour graph of the joint densityfunction would be like that presented in Figure 1.

Page 8: Articulo Distribucion Normal Bivariada

910 VOLUMEN 41, NÚMERO 8

AGROCIENCIA, 16 de noviembre - 31 de diciembre, 2007

Cuadro 1. Escurrimientos y promedios del índice SOI (por columnas) para el periodo 1956-2002.Table 1. Runoffs and averages of the SOI index (by columns) for the period 1956-2002.

Escurrimientos Dic-Jun (Hm3) Media del índice SOI Oct-Nov

295 3679 465 2831 1.445 −0.370 −0.490 −1.160427 712 1267 2762 1.015 −0.395 −0.405 −1.435996 644 4370 792 −0.660 −0.765 −0.320 −0.850381 425 3315 2190 −0.585 1.295 −2.725 −1.195

1936 679 1009 365 0.620 1.150 0.110 −0.180583 2279 4393 433 0.200 −0.755 −0.245 0.025

1193 480 792 1326 −0.025 1.850 −0.555 −1.500509 576 1175 287 0.610 0.150 −0.515 1.010487 635 566 453 −1.195 1.460 −0.380 1.085576 503 612 600 0.600 0.445 1.635 1.445

1256 1138 628 400 −1.540 −1.475 0.115 0.130437 2425 2128 −0.265 −0.520 −0.425

distribución inversa de Gauss; se seleccionó la distri-bución gamma desfasada por tener el mejor ajuste conel criterio de Kolmogorov-Smirnov. Los parámetrosde localización, escala y forma son γ=287.48,β=1146.31 y α=0.7108. El índice SOI promedio deoctubre y noviembre (Cuadro 1) tiene como mínimo,máximo, mediana, media y desviación estándar a−2.725, 1.850, −0.292, −0.109 y 0.981. Las distri-buciones con mejor ajuste fueron la logística y la nor-mal; de ellas se seleccionó la normal porque Ropelewskyy Jones (1987) modificaron este índice precisamentepara que tuviera una distribución normal estándar.

Si las distribuciones de las escorrentías y del índiceSOI fueran independientes, la gráfica de contornos dela función de densidad conjunta sería como la presen-tada en la Figura 1.

Figura 1. Gráfica de contornos de la densidad bivariada si lasescorrentías (X) y el índice SOI (Y) fueran indepen-dientes.

Figure 1. Contour graph of the bivariate density if the runoffs(X) and the SOI index (Y) were independent.

3

2

1

0

500

SOI

1000 1500

Escurrimiento Hm3

2000 2500 3000 3500 4000

−1

−2

−3

Generalized family of Moran

Figure 2 shows the contour graph of the fittedbivariate density function with a correlation of −0.475among the normalized variables. An advantage of thisfamily is that the conditional distributions have anexplicit form. The conditional distribution of the runoffs,with respect to the SOI index is:

h y x

Exp pw wz pz

g y

( / )

( ) ( )

;

/=−

−−

− +RS|T|

UV|W|

1

1

1

2 12

2 1 2

22 2

2

ρ

ρρ

θ

c h

c ha f

(22)

The mean of this conditional distribution can beobtained by numerical integration. The graph of theconditional means, which are the runoff least squaresestimators and generalize the regression equation, whenthe value of the SOI index is known, is shown in Figure3, which also shows the regression line. For a value ofthe SOI index equal to 2.5, the linear regression providesa negative run-off, whereas the conditional mean is294 Hm3. The fit of the distributions and the numericalcalculations were carried out by means of Mathematica®(Wolfram, 1998).

Plackett generalized lambda family

Using the estimator proposed by Plackett for theLamda parameter it is obtained: Ψ+=1/9, however,the contour graph of the fit density function is similarto the one presented in Figure 1, even when thecorrelation coefficient is −0.475.

Page 9: Articulo Distribucion Normal Bivariada

911SALAZAR-GÓMEZ y CRUZ-MEDINA

UNA FAMILIA DE DISTRIBUCIONES BIVARIADAS Y SUS APLICACIONES EN HIDROLOGÍA

Familia generalizada de Moran

En la Figura 2 se presenta la gráfica de contornosde la función de densidad bivariada ajustada que tieneuna correlación de −0.475 entre las variables normali-zadas. Una ventaja de esta familia es que permite obte-ner en forma explícita las distribuciones condiciona-les. La distribución condicional de las escorrentías,con respecto al índice SOI, es:

h y x

Exp pw wz pz

g y

( / )

( ) ( )

;

/=−

−−

− +RS|T|

UV|W|

1

1

1

2 12

2 1 2

22 2

2

ρ

ρρ

θ

c h

c ha f

(22)

La media de esta distribución condicional se puedeobtener por integración numérica. La gráfica de lasmedias condicionales, que generalizan a la ecuación deregresión y son los estimadores de mínimos cuadradosde las escorrentías cuando se conoce el valor del índiceSOI, se presenta en la Figura 3, en la cual se muestratambién la recta de regresión. Para un valor del índiceSOI igual a 2.5, la recta de regresión proporciona unaescorrentía negativa, mientras que la media condicio-nal es 294 Hm3. El ajuste de las distribuciones y loscálculos numéricos se efectuaron por medio de Mate-mática® (Wolfram, 1998).

Familia lambda generalizada de Plackett

Utilizando el estimador propuesto por Plackett parael parámetro Lambda, se obtiene: Ψ+=1/9, sin em-bargo, la gráfica de contornos de la función de densi-dad ajustada es similar a la presentada en la Figura 1aun cuando el coeficiente de correlación es −0.475.

Esta familia bivariada tiene el problema que paravalores grandes de Ψ puede proporcionar densidadesno válidas. Plackett (1965) y Karian y Dudewicz (2000)al obtener la raíz de la ecuación que produce, argu-mentan, la función de densidad válida (7), no conside-raron la posibilidad de que el argumento del denomi-nador S2−4Ψ(Ψ−1)FG resulte negativo. El denomina-dor es positivo si Ψ<1, pero resultará negativo paraalgún valor Ψ>1; en el caso analizado resulta negati-vo para valores de Ψ>1.35. Este ejemplo muestraque la familia lambda generalizada no está bien defini-da porque puede generar una función de densidad no

This bivariate family has the problem that for largevalues of Ψ, it can provide invalid densities. Plackett(1965) and Karian and Dudewicz (2000), whenobtaining the square root of the equation, argue thatthe density function (7) is valid, but they did not considerthe possibility that the argument of the denominatorS2−4Ψ(Ψ−1)FG results negative. The denominator ispositive if Ψ<1, but will be negative for some valueΨ>1; in this case it is negative for values of Ψ>1.35.

Figura 2. Gráfica de contornos de la densidad bivariada de lasescorrentías (X) y el índice SOI (Y) con correlaciónnegativa.

Figure 2. Contour graph of the bivariate density of the runoffs(X) and the SOI index (Y) with negative correlation.

3

2

1

0

SOI

1000

Escurrimiento Hm3

2000 3000 4000

−1

−2

−3

0 1 2

Índice SOI

Esc

urrim

ient

os

−2 −1

x x xxx x x x x

x x x x x x x x

4000

3000

2000

1000

Figure 3. Medias de las distribuciones condicionales y recta deregresión para escorrentías cuando se conoce el índiceSOI.

Figure 3. Means of the conditional distributions and regressionline for runoffs when the SOI index is known.

Page 10: Articulo Distribucion Normal Bivariada

912 VOLUMEN 41, NÚMERO 8

AGROCIENCIA, 16 de noviembre - 31 de diciembre, 2007

válida. Para la utilización de esta familia es necesarioanalizar, en cada caso particular, si la función conjun-ta de la ecuación (6) es válida.

Familia de Koehler y Symanowsky

En la expresión simplificada de Koehler ySymanowsky (7) se observa que para valores grandesde α la función de densidad conjunta tiende al produc-to de las funciones de densidad marginales (indepen-dencia entre las variables). Para un valor de α=10, lagráfica de contornos de la densidad bivariada es simi-lar a la Figura 1. Además, valores pequeños generancorrelaciones positivas, ésto es, el parámetro α sólopermite la modelación de correlaciones positivas. Re-visando la derivación de esta familia, se puede obser-var que sólo permite la modelación de correlacionespositivas, a menos que en el último cambio de variablealgunas de las variables Ui se sustituyan por 1−Fi(xi)en lugar de Fi(xi).

CONCLUSIONES

La familia generalizada de Moran desarrollada eneste trabajo es una alternativa para la modelación devariables bivariadas. En el ejemplo analizado modelaen forma adecuada la dependencia entre las escorrentíasdel Río Yaqui y el índice SOI. La familia bivariada dePlackett, conocida como familia lambda generalizada,no está bien definida para valores grandes del parámetroΨ, ésto es, en cada caso particular es necesario anali-zar si la función conjunta de la ecuación (6) es válida.Para la familia de Koehler y Symanowsky, la expre-sión proporcionada por los autores sólo permite lamodelación de correlaciones positivas.

LITERATURA CITADA

Casella, G., and R. L. Berger 1990. Statistical Inference. DuxburyPress. Belmont USA. 650 p.

D’este, G. M. 1981. A Morgenstern-type bivariate gammadistribution. Biometrika 68: 339-340.

Farlie D. J. G. 1960. The performance of some correlationscoefficients for a general bivariate distribution. Biometrika 47:307-323.

Johnson, M. E., and A Tenenbein. 1981. A bivariate distributionfamily with specified marginals, J. Amer. Stat. Assoc. 76: 198-201.

Karian Z. A., and E. J. Dudewics. 2000. Fitting StatisticalDistributions: The Generalized Lambda Distribution andGeneralized Bootstrap Methods. Chapman & Hall/CRC. BocaRatón Fl. USA. 456 p.

Koehler, K. J, and J. T. Symanowski. 1995. Constructing multivariatedistributions with specific marginal distributions. J. MultivariateAnal. 55: 261-282.

This example shows that the generalized lambda familyis not well defined because it can generate an invaliddensity function. For the use of this family, it isnecessary to analyze, in each particular case, whetherthe joint function of the equation (6) is valid.

Family of Koehler and Symanowsky

In the simplified expression of Koehler andSymanowsky (7), it is observed that for large values ofα, the joint density function tends toward the productof the marginal density functions (independence amongthe variables). For a value of α=10, the contour graphof the bivariate density is similar to Figure 1.Furthermore, small values generate positivecorrelations, that is, the parameter α only allows themodeling of positive correlations. Revising thederivation of this family, it can be observed that it onlyallows the modeling of positive correlations, unlessthat in the last change of variable some of the variablesUi are substituted by 1−Fi(xi) instead of Fi(xi).

CONCLUSIONS

The generalized Moran family developed in thepresent study is an alternative for the modeling ofbivariate variables. In the example analyzed itadequately models the dependence among the runoffsof the Yaqui River and the SOI index. The Plackettbivariate family, known as generalized lambda family,is not well defined for large values of the parameterΨ, that is, in each particular case it is necessary toanalyze whether the joint density function of equation(6) is valid. For the family of Koehler and Symanowsky,the expression provided by the authors only allows themodeling of positive correlations.

—End of the English version—

�������

Kotz S., N. Balakrishnan, and N. L. Johnson. 2000. ContinuousMultivariate Distributions Vol 1: Models and Applications. 2ndEd. John Wiley & Sons. N. Y. USA. 752 p.

Moran, P. A. P. 1969. Statistical inference with bivariate gammadistributions. Biometrika 56: 627-634.

Plackett, R. L. 1965. A class of bivariate distributions. J. Am. Stat.Assoc. 60: 516-522.

Ropelewski, C. F., and P. D. Jones. 1987. An extension of theTahiti-Darwin southern oscillation index». Monthly Weather Rev.115: 2161-2165.

Wolfram, S. 1998. The Mathematica Book. Fourth ed. CambridgeUniversity Press. Cambridge U. K. 1470 p.

Yue S., T. B. M. J. Quarda, and B. Bobée. 2001. A review ofbivariate gamma distributions for hydrological applications. J.Hydrology 246: 1-18.