gamma a datos de precipitación pluvial

Sobre el ajuste de la distribución Gamma a datos de precipitación pluvial

Héctor F. Coronel Brizio

Universidad Veracruzana

José Llanos Arias

Comisión Nacional del Agua

El ajuste de distribuciones de probabilidad a un conjunto de datos empíricos, es fundamental en el proceso de análisis de observaciones que nos permite plantear proposiciones acerca de la ocurrencia de eventos asociados con un fenómeno bajo estudio. Es evidente, entonces, la nece- sidad de evaluar estadísticamente la bondad del ajuste del modelo propuesto para que nuestras conclusiones no sean invalidadas por el uso de un modelo que resulte ser inconsistente con las observaciones. En un contexto meteorológico, el uso de la ley de probabilidades conocida como distribución Gamma, ha sido propuesta como un modelo para describir precipitaciones pluviales (Mosino-Alemán y García, Sin embargo, es común observar que el análisis se limita al ajuste de la distribución hipotética (en nuestro caso la distribución Gamma) a través de la estimación de sus parámetros, usualmente mediante el llamado método de los momentos, pero no se reali- za una prueba estadística para determinar la bondad de dicho ajuste; de tal forma que no es posi- ble determinar de manera objetiva, la consistencia de nuestro modelo a la luz de las observaciones recolectadas. Se presenta un análisis para datos de precipitacion pluvial total mensual en Jalapa, Veracruz, obtenidos de los registros de la Comisión Nacional del Agua, CNA. Primeramente, se revisan la técnica de máxima verosimilitud para la estimación de los paráme- tros de la distribución Gamma y una metodología para probar la bondad del ajuste que utiliza estadísticas de prueba basadas en la función de distribución empírica.

Palabras clave: distribución Gamma, precipitación pluvial, máxima verosimilitud, estadística, ajuste, distribución empírica.

La distribución Gamma

Se dice que una variable aleatoria X tiene distribución Gamma (con dos parámetros) si su función de densi- dad de probabilidad está dada por

donde m O y O son los parámetros de forma y escala de la distribución, respectivamente, y

La media, varianza y moda para esta distribución son, respectivamente,

La moda es particularmente útil porque puede inter- pretarse como el valor que ocurrirá en el largo plazo y con mayor frecuencia.

Estimación de parametros

La estimación de los parámetros de la distribución puede llevarse a cabo mediante la técnica de máxima verosimilitud. Suponiendo que ambos parámetros son desconocidos, el estimador del parámetro de forma, m, es la solución de la ecuación:

que corresponde a la derivada parcial, con respecto a m, del logaritmo de la función de verosimilitud. En la ecuación denota la media aritmética de las observaciones, log denota el logaritmo natural y

es la función digamma. Para una definición más deta- llada de esta funcion, se remite al lector a Abramowitz y Stegun (1964).

La ecuación puede ser resuelta mediante itera- ción y, una vez que se ha obtenido el valor de el estimador del parámetro de escala se obtiene mediante

La distribución asintótica de este tipo de estadísti- cas, es la de una suma ponderada de variables alea- torias independientes con distribución ji-cuadrada con un grado de libertad (Durbin, 1973).

Cuando los parámetros de la distribución hipotética F son conocidos, la distribución asintótica de cada una de ellas es independiente de F. Si, por el contrario, deben estimarse parámetros, la distribución asintótica dependerá tanto de la distribución, como de cuales parámetros se estimaron. Tablas de valores críticos para las distribuciones y casos más usuales, pueden encontrarse en D’Agostino y Stephens 986). Otra es- tadística de prueba comunmente usada es la de Kol- mogorov 933)

donde

Un gran número de estudios (Stephens, 1974) indi- can que la estadística A2 produce una prueba que resulta ser potente ante una gran variedad de alternativas y por ello es la que comunmente se recomienda.

A continuación se describe el procedimiento de prueba de bondad del ajuste, el cual está basado en el cálculo de las estadísticas a partir de las observaciones transformadas Zi = que corresponden a la aplicación de la transformación integral de probabilidad, utilizando estimaciones de los paráme- tros obtenidas por el método de máxima verosimilitud.

La metodología para probar la hipótesis nula de que la muestra aleatoria X1, Xn provino de una población con distribución Gamma con ambos parámetros desconocidos, requiere de los siguientes pasos:

Se calculan las estimaciones de los parámetros de la distribución, como se ha indicado en la sección

Para = n, calcúlense

Estadísticas de prueba basadas en la función de distribución empírica

Entre las estadísticas que han mostrado generar pruebas potentes ante una gran variedad de alternativas, se encuentran las estadísticas A2 de Anderson-Darling, W2 de Cramér-von Mises y la U2 de Watson. Las primeras dos, forman parte de una familia de medidas de discrepancia conocida como familia de Cramér-von Mises:

anterior En la definición anterior, F, denota la función de dis-

tribución empírica. Cuando = la estadística resultante es Ila-

mada W2 de Cramér-von Mises. Si tomamos = (F la estadística de prueba se conoce

como la estadística A2 de Anderson-Darling 954). La estadística U2 es una modificación de W2 (Watson,

a saber:

Ordene, en forma ascendente, los valores obtenidos en el paso anterior. La muestra ordenada se deno- tará por Z(1) Z(n).

Obtenga el valor calculado de alguna de las esta- dísticas de prueba utilizando las fórmulas siguientes:

donde

Si la hipótesis nula especifica completamente a Fo, la distribución asintótica de X2 es ji-cuadrada con k-1 grados de libertad. Si, por el contrario, algunos pará- metros se desconocen, éstos se deben estimar y rem- plazar pi por pi en la expresión anterior para obtener el valor que denotaremos por Es muy importante señalar que la distribución asintótica de X2, cuando se calcula utilizando valores estimados de p parámetros, dependerá del método de estimación apli- cado. En particular, si se utiliza el método de máxima verosimilitud para datos agrupados, la distribución será una ji-cuadrada con k-p-1 grados de libertad.

Una de las críticas más comunes a esta prueba es Consulte la tabla correspondiente a la estadística de la subjetividad involucrada en la selección de las cel- prueba utilizada. Si el valor obtenido excede el valor das y el número de ellas ya que esto tiene un efecto de tablas para un nivel de significancia a, se recha- tanto en la bondad de la aproximación ji-cuadrada, za el ajuste Gamma. como distribución de la estadística de prueba, como

en la potencia de la misma. En general, esta prueba es La distribución de las tablas asintóticas de valores recomendable para distribuciones discretas o conti-

críticos de las primeras tres estadísticas de prueba nuas multivariadas. para el caso de la distribución Gamma (D'Agostino y Para distribuciones continuas univariadas, las prue- Stephens, dependerá del valor del parámetro bas generalmente más potentes, son las basadas en la m, que se supone desconocido. Dado que los puntos función de distribución empírica descritas con anterio- críticos varían muy poco con m, puede usarse r?~ para ridad. obtener el valor de tablas, io cual resulta en una varia- ción muy pequeña con respecto al nivel de significan- Aplicación al análisis de precipitación pluvial cia nominal de la prueba. Por ejemplo, para un nivel de significancia del 10%, la diferencia entre el valor críti- A manera de ilustración de las técnicas descritas ante- co para m > (0.631) y correspondiente a m = riormente, se presenta un análisis para datos corres- (0.643) es de lo cual no representa un inconve- pondientes a precipitaciones pluviales (registros de niente para la mayoría de las aplicaciones. años para cada mes, observatorio meteorológico de

Jalapa, Veracruz) con la finalidad de ajustar una distri- Comentarios sobre la prueba basada bución de probabilidades para ser usada en procesos en la estadística X 2 inferenciales de cada mes del año.

El cuadro muestra los resultados de los ajustes ob- Probablemente la prueba de bondad de ajuste más tenidos mediante un programa de computador elabo- conocida sea la que se basa en la estadística ji-cua- rado por los autores. Con excepción de abril, la distri- drada de Pearson. Para probar la hipótesis nula de bución Gamma provee un modelo estadísticamente que una muestra aleatoria de tamaño n provino de una satisfactorio para describir la precipitación pluvial en población con distribución Fo se particiona el recorri- cada uno de los meses, de acuerdo con la prueba ba- do de la variable en, digamos, k intervalos (o celdas) sada en la estadística de Anderson-Darling para un

y se calculan, bajo la hipótesis nula, las proba- nivel de significancia del cinco por ciento. bilidades de que cada uno de los valores de la mues- Es importante señalar que, para asegurar la validez tra se encuentre en el k-ésimo intervalo. Si P1 de la prueba, se debe considerar el supuesto de que Pk (0) denotan dichas pobabilidades dependientes de en cada uno de los meses la precipitación observada un parámetro (posiblemente vectorial) y N,..., N, son es independiente de las precipitaciones ocurridas, las frecuencias observadas en cada celda o intervalo, para ese mismo mes, en años anteriores. Los análisis la estadística de prueba es preliminares, no mostraron evidencia en contra del

supuesto de independencia, por lo que se consideró razonable.

En las ilustraciones y se presentan gráficos com- parativos para las funciones de distribución empírica y la de la distribución Gamma con los parámetros estimados para febrero y abril únicamente. Como puede apreciarse, el modelo Gamma parece el apropiado para febrero, en contraste con el comportamiento que se observa en abril, para el que deberá sugerirse otro modelo que resulte más adecuado.

Estudio de Monte Carlo

Una de las distribuciones de probabilidad que también puede usarse como modelo para describir datos de precipitación, es la distribución de Weibull con dos pa- rámetros, cuya función de distribución está dada por

donde O y m, O corresponden a sus pará- metros de escala y de forma, respectivamente.

Por lo anterior, se realizó un estudio de simulación para comparar las potencias empíricas de las pruebas basadas en las estadísticas de Anderson-Darling y de Kolmogorov, ante alternativas tipo Weibull. El estudio se basó en cinco mil realizaciones de las pruebas para un tamaño de muestra n = y un nivel de significancia del utilizándose los valores estimados del parámetro de forma de la distribución Gamma para interpolar en las tablas de valores críticos. Los valores críticos de la estadística de Kolmogorov se obtuvieron por simulación basados en cinco mil repeticiones.

Se recomienda, en particular, el uso de la prueba basada en la estadística A2 de Anderson-Darling, ya que es una prueba más potente que otras utilizadas con mayor frecuencia, ante una gran variedad de alternativas. A partir del análisis para los datos de precipi- tación pluvial, es también evidente que un modelo que resulta adecuado para un mes en particular, puede no serlo para otro. De la misma forma, modelos que hayan sido usados con éxito para describir fenómenos simi- lares, pudieran depender del contexto geográfico y no necesariamente adecuarse cuando el mismo fenómeno se observa en una región, país o continente distinto.

En el cuadro se aprecian las potencias empíricas, expresadas como porcentajes de rechazo de la hipó- tesis nula, para alternativas Weibull seleccionadas. Agradecimientos Cabe mencionar que las potencias se mantienen esta- bles cuando se varía el valor del parámetro de forma de la distribución Gamma en la hipótesis nula. Los va- Juan Maldonado Pereda, lores utilizados en la hipótesis nula fueron y

Se observa que, en particular, la prueba basada en Referencias la estadística A2 resultó más potente ante este tipo de alternativas, IO cual es consistente con un gran núme- Abramowitz, M. y Stegun. Handbook of mathema- ro de estudios de simulación que, como se indicó an- tical functions. National Bureau of Standards. tes~ señalan, en general, la superioridad de la prueba Anderson, T.W. y D.A. Darling. A test of goodness- basada en la estadística de Anderson-Darling. of-fit. Journal of the American Statistical Asociation

Conclusiones D'Agostino, R.B. y M.A. Stephens. Goodness-of-fit

Recibido: enero, Aprobado: marzo,

A los revisores por sus valiosos comentarios, así como a Federico Acevedo Rosas, Máximo Vite Pérez y, especialmente, al licenciado

techniques. New York: Marcel Dekker. Durbin, J. Distribution theory for tests based on the

sample distribution function. Regional Conference Series proceso que termina con la estimación de los paráme- in Appl. Math., Philadelphia: SIAM. tros de la distribución hipotética. Aunque un análisis

Mosino-Alemán, P.A. y E. García. The variability of rainfall in Mexico and determination by means of the Gamma gráfico puede indicar fallas evidentes en la especifica- distribution. Geografiska Annaler, A:1-10. O. ción del modelo, es necesario utilizar criterios objetivos

para decidir si el modelo elegido es consistente con Stephens, M.A. EDF Statistics for goodness-of-fit and nuestras observaciones. En este sentido, deberán Ile- some comparisons. J. Am. Statistical Assoc. varse a cabo pruebas estadísticas, como las aquí des- Watson. G.S. Goodness of fit tests on a circle. critas, para evaluar la bondad del ajuste efectuado. Biometrika,

El ajuste de distribuciones de probabilidad no es un

Abstract

Coronel-Brizio, H., and J., Llanos-Arias, “Adjustment of the Gamma Distribution to Rainfall Data”. Hydraulic Engineering in México (in Spanish). Vol. XI. Num. pages January-April,

The adjustment of probability distributions to an empirical data set is a fundamental part of observation analysis that allows us to make probabilistic proposals on the occurance of events related to the phenomenon under study. The need to statistically evaluate the goodness-of-fit of the proposed model, to avoid inconsis- tencies in the results of the proposed model with observations, is apparent. In meteorology, the Gamma distribution has been proposed as a model to describe rainfall by a number of authors. However, in these stu- dies the analysis is limited to an adjustment of the hypothetical distribution (in this case the Gamma distribution) by estimating parameters usually with the moment method. No statistical tests are done to determine the goodness of fit of the adjustment. It is difficult then to objectively determine the comparability of our model with the data available. In this article, an analysis is presented of the total monthly rainfall data, for the city of Jalapa, obtained from the [National Water Commission] from to The maximum difference techni- que was revised to estimate the Gamma distribution parameters, then a method, using a statisical test based on an empirical distribution function, was used to test the goodness of fit.

Key Words: Gamma distribution, rainfall, maximum difference, statistics, adjustment, empirical distribution.

gamma a datos de precipitación pluvial

Documents