12 - uso de datos para estimar modelos econométricos

8/14/2019 12 - Uso de datos para estimar modelos economtricos

1/19

-197-

L USO DE DATOS AGREGADOS E INDIVIDUALES PARA ESTIMAR MODELOS ECONOMTRICOS

por Sergio

L. GonzlezDepartamento de Ingenieria Civil

Universidad de Puerto Rico

Resumen

Hay un sinnmero de aplicaciones en el campo del transporte que requierenestimar modelos economtricos. Ejemplo de estos son los modelos de generacinde viajes y los de accidentes de trnsito.

Las tcnicas existentes para estimar estos modelos incluyen: regresinsimple, regresin con restricciones, y el estimador mixto (Theil, 1971).

las dos ltimas permiten la incorporacin de informacin adicional sobreun subconjunto de los parmetros a estimarse: deterministica en el primercaso, y estocstica en el segundo. Sin embargo, esta informacin adicional,que puede consistir en elasticidades u otras funciones de los parmetros,ciee que corresponder a la misma unidad de anlisis que la muestra usadaen la estimacin. Por lo tanto, con estas tcnicas, no es posible combinardatos agregados con datos desagregados.

Debido a esta limitacin de los estimadores existentes, muchas fuentesie datos usualmente disponibles u obtenibles a bajo costo no pueden serutilizadas en el proceso de estimar modelos economtricos. Por ejemplo,en el caso de modelos de generacin de viajes, usualmente tenemos informacindisponible sobre el nmero de vehculos que entra y sale del rea de estudioconteos de trfico). Observe que aunque estos datos proveen informacinsobre un conjunto de los parmetros a estimarse, no pueden ser utilizadoscon los estimadores existentes, pues corresponden a un nivel ms agregadoque la muestra (ms especficamente, corresponden a observaciones agregadasde la variable dependiente).

En este trabajo, demostraremos la inhabilidad de los. estimadores exis-tentes para incorporar el tipo de datos agregados discutido previamente ydesarrollaremos un estimador aplicable a esta situacin. Este estimadorciee el potencial de reducir el costo de recopilacin de datos, pues, alincorporar los datos agregados, se espera una mayor eficiencia del mismo.El estimador desarrollado en este trabajo es una generalizacin de los mtodos

desarrollados por Willumsen (1978), Hendrickson y McNeil (1984), y otros,para estimar matrices de origen-destino al usar conteos de trfico.

1. Introduccin

Un sinnmero de aplicaciones en el campo del transporte requieren laestimacin de modelos economtricos como lo son los modelos de generacinde viajes y los de accidentes de trnsito (Fleet, _et_ _al_, 1968; Morlok, 1978;y Weber, 1971). Estos modelos usualmente se representan mediante la ecuaciny = f(x, ), en donde y es la variable dependiente del modelo, x el vector


2/19

-198-

de variables independientes, 0 el vector de parmetros a estimarse, y f repre-senta una funcin.

Basado en la representacin y los ejemplos de modelos econometricospresentados anteriormente, se puede observar que estos modelos pueden postu-

larse a diferentes niveles de agregacin de la unidad de anlisis; definidaaqu como la unidad de observacin de los variables dependientes e indepen-dientes usada en la formulacin del modelo. Por ejemplo, en el caso de losmodelos de demanda del transporte, las unidades de anlisis ms aceptadashoy en da son el individuo y la familia (Domencich y McFadden, 1975 yBen-Akiva y Lerman, 1985). Estos modelos postulados al nivel micro se den-ominan modelos desagregados. El trmino modelos agregados se utiliza alreferirse a modelos econometricos cuya unidad de anlisis es un grupo deindividuos como lo son los residentes de una zona de trfico o censal.

Indistintamente del nivel de agregacin de la unidad de anlisis, lastcnicas existentes para estimar los parmetros de los mismos (el vector?solamente se pueden utilizar cuando todas las observaciones en la muestracorresponden al mismo nivel de agregacin utilizado en la formulacin delmodelo. Por ejemplo, para estimar le parmetros de un modelo desagregadoal usar la tcnica de regresin lineal simple (Theil, 1971 y Judge et^ al,1980), necesitamos una muestra con los valores de las variables dependientee independientes para cada individuo en la muestra. Denominaremos este tipode muestra muestra desagregada.

Un grupo de tcnicas de estimacin conocidas con el nombre de estimadorescombinados (Judge _et_ a_l, 1980), permiten que adems de la muestra desagregada,se incorpore en la estimacin informacin adicional en la forma cerestricciones en un subconjunto de 0 . Esta informacin adicional, que puedeincluir elasticidades conocidas o estimadas, y otras funciones de 6, tiene

que corresponder tambin al nivel desagregado (o en trminos ms generalesal mismo nivel de agregacin de la unidad de anlisis). El problema de estimarmatrices de origen-destino con datos combinados satisface esta restriccin,por lo que, los mtodos existentes se pueden utilizar para este probler-de estimacin (Refirase a McNeil, 1983 y Hsu, 1985 para ms detalles sobreeste asunto).

or: sth !:>f'4i . '.' i ,1 t < *, t , ,

Sin embargo, esta limitacin de los estimadores existentes resulta ezque, mltiples fuentes de datos comnmente disponible u obtenibles a bajocosto no pueden utilizarse para el problema ms general de estimar modeloseconometricos. Por ejemplo, en el caso de modelos de generacin de viajeshay usualmente disponibles conteos de trfico del nmero de vehculos queentra y sale del rea de estudio (Pignataro, 1973). Conteos del nmero delpasajeros que abordan y se apean en una estacin de autobs o metro sonrecopilados frecuentemente por las agencias que operan estos medios detransporte colectivo (Attanucci et_ ja_^, 1981).

Preste atencin al hecho que tanto los conteos de trfico como los detransporte colectivo consisten en observaciones de la variable dependientedel modelo de generacin de viajes para todos los individuos en la poblaciique viajan entre las diferentes zonas de trfico o estaciones del metroautobs. Por esta razn, denominaremos estas muestras conteos agregados.Tambin observe que, aunque los conteos agregados se pueden considerar coarestricciones en un subconjunto de 0 , stos no pueden incorporarse en elJ


3/19

-199-

roceso de estimacin al utilizar los estimadores combinados disponibles,:es corresponden a un nivel de agregacin diferente al de la muestra:=agregada.

El propsito principal de este trabajo es desarrollar estimadores combi-Edos

para modelos economtricos que Dermitan la utilizacin de una muestrassagregada y conteos agregados en la estimacin de los parmetros de inters,incorporacin de los conteos agregados puede aumentar la eficiencia delroceso de estimacin y/o prediccin; por esta razn, este trabajo ampliarespacio muestral del problema de muestreo ptimo para la estimacin de:delos economtricos. Este trabajo est subdividido en cuatro secciones,la segunda, repasaremos la literatura de las tcnicas de estimacin para?delos economtricos y demostraremos que las tcnicas disponibles no seueden utilizar en el problema de estimacin de inters. A sta la seguirtercera seccin, en la que desarrollaremos varios estimadores consistentes ael problema de inters y discutiremos sus propiedades. Finalmente, i lacuarta seccin, presentaremos un breve resumen de este trabajo y discutiremosnuestras principales conclusiones.

Repaso de Literatura

En la literatura de econometra se ha discutido extensamente el principalgobierna de inters de este trabajo: el tpico de estimadores combinados.isca discusin, sin embargo, ha estado restringida al modelo de regresinlineal y a muestras de un mismo nivel de agregacin.

En esta literatura, el desarrollo de estimadores combinados se formula oel problema de incorporar al proceso de estimacin informacin adicional la

muestra. Usualmente, la informacin adicional se incorpora en la formarestricciones a los parmetros a estimarse. A continuacin discutiremoslos dos estimadores ms importantes de este tipo presentados en la literatura:resin lineal con restricciones y el estimador mixto.

!.l. Regresin lineal con restriccionesLos estimadores combinados desarrollados en la literatura

son extensiones el modelo de regresin lineal simple. Este modelo sepuede representar can la siguiente ecuacin:

y = X b + E ' (1)

Donde b(Kxi) (lase, el vector b cuyo orden es Kxl) es el vector de -armetros a estimarse; y(Nxl)> es e-L vector de observaciones de la variabledependiente; X(NXK)> es la matriz de observaciones de las variables indepen-dientes; y E(Nxl) el vectorde discrepancias o errores. Para ms detalles brelas suposiciones de este modelo refirase a Theil (1971) y Judge et_ al(1980).

La extensin ms simple del modelo de regresin lineal que puedeutilizarse para combinar datos en el proceso de estimacin se conoce como


4/19

-200-

regresin lineal con restricciones (RLCR), (Theil, 1971 y Judge j2t^ j|l_, 1980]Este estimador se aplica en la situacin cuando *(Mxl)> el vector cinformacin adicional a incorporarse en la estimacin, se puede represent;en la forma de restricciones lineales determinsticas en un subconjunto ).

Hacemos la observacin que hemos excluido las observaciones r+j+jjj eanuestra notacin. Esto es necesario pues, como la suma de las filas y lascolumnas son iguales, una de las observaciones de estos conteos depende lineal-mente de las otras y por lo tanto no provee informacin adicional.

En las prximas secciones utilizaremos esta notacin para desarrollar losestimadores de inters de este trabajo.

3.3.2. Estimadores para muestras aleatorias cuando p(x) se conoce

Como indicamos en la introduccin a este captulo, cuando p(x) se conoc apriori, el estimador de mxima verosimilitud de nuestro problema tieaa todaslas propiedades clsicas. Por lo tanto, una vez obtengamos las distribu-i cionesmustrales, el desarrollo de este estimador es trivial.

Cuando N es conocida a priori, el logaritmo natural de la funcin dmverosimilitud se puede expresar mediante la siguiente ecuacin general:

(25)

Observamos que esta funcin consiste de tres trminos principaleel primei ,:s el logaritmo de la funcin de verosimilitud de la muestra desgregada y el segundo y tercero las de los conteos agregados independien!y dependientes respectivamente. Podemos obtener la funcin combinada media:la suma de estos tres trminos porque las muestras son independientes.

Observamos adems, que en las funciones de verosimilitud, el r.:_:n indica una sumatoria sobre observaciones en la muestra, y no las de

poblacin como lo era en las ecuaciones anteriores.

En el caso en que N es desconocida, podemos obtener tambin un estimadde mxima verosimilitud clsico. En este caso, para poder estimar N,logaritmo de la funcin de verosimilitud incluye la versomilitud de Nj'en la muestra desagregada (refirase a Hsieh et_ jj^, 1983 para ms detalle:Esta funcin se expresa mediante la siguiente ecuacin:


14/19

-211-

(26)

En la prxima seccin desarrollaremos estimadores para el caso ms generalen donde p(x) no se conoce a priori.

3.3.3. Estimador con p(x) desconocida

Cuando p(x) es desconocida, la funcin de verosimilitud es del tipo no-

clsico discutido en Cosslett (1981a). Por esta razn, para el desarrollo deestos estimadores, seguimos el procedimiento desarrollado por Cosslett(1978, 1981a, 1981b) para derivar estimadores no-clsicos. Para hacer esto,comenzamos con la funcin de versomilitud de las muestras combinadas presentadaa continuacin. (Observe que desarrollamos en funcin para N desconocida,el caso de N conocida se puede obtener excluyendo la verosimilitud de Hjj**'').

(27)

en donde:

(28)

(29)


15/19

-212-

En donde hemos representado las funciones de densidad desconocidas, p(x;mediante un peso W-jn por cada individuo en la muestra. El vector w incluitodos estos pesos. Tambin observe que incluimos las restricciones (2

y (29) para que estos pesos representen una funcin de densidad adecuada.

Observamos que esta funcin incluye los parmetros w, cuyo nmero aumencon el nmero de observaciones. Esta es la razn principal por la cual Ipropiedades clsicas de los estimadores de mxima verosimilitud no aplic,a este caso. Para resolver esta situacin, que obviamente no puede result.en estimadores consistentes, Cosslett (1981a) desarrolla la funcin de veros:militud concentrada. Esta funcin se obtiene mediante la solucin del problede optimizacin representado por (27), (28) y (29) suponiendo N, a, b,constantes.

Hasta este momento no hemos podido resolver este problema de optimizacic

para el caso general, en el cual incluimos como muestras la desagregadaambos tipos de conteo agregado. Sin embargo, en Gonzlez (1985), demostramcque para los casos en que utilizamos la muestra desagregada con cualquieide los conteos agregados, la solucin a este problema se puede expresar como:

Wijn = l/Ni/D; ViJjn (30)

El logaritmo de la funcin de verosimilitud concentrada se obtiene sustituyencla ecuacin (30) en la (27). Observe que luego de esto, el nmero de parimetros a estimarse no aumenta con el tamao de la muestra.

Con esta expresin general de la funcin concentrada de verosimilitupodemos obtener un estimador consistente; el cual denominamos estimador combi

nado con modelo de sesgo (ECMS). Para lograr esto, primero sustituimos ela ecuacin (29) las distribuciones mustrales discutidas en la seccin 3.y 3.2, y luego maximizamos la funcin en el espacio de los parmetros nteres.

Los detalles tcnicos de estas derivaciones para los modelos Normay Poisson y una discusin y demostracin de las propiedades de este estimadose presentan en Gonzlez (1985).

Hasta este momento, hemos presentado un desarrollo terico que nos permitincorporar conteos agregados en la estimacin de modelos economtricosLa pregunta relevante es ahora: Qu ganamos al incorporar los conteos agregados en la estimacin? En la prxima seccin contestaremos esta pregunt

mediante la discusin de algunas propiedades del estimador ECMS y del estimadodesagregado basado en los resultados de un estudio de simulacin.

3.4. Propiedades de los estimadores

Al implementar la simulacin, nos percatamos que la eficiencia de loestimadores de 0 de la muestra desagregada y el ECMS para muestras aleatoriaeran iguales numricamente. En Gonzlez (1985) demostramos esta propiedaanalticamente.


16/19

-213-

Esta propiedad implica que, en este caso, al incorporar los conteosagregados en el proceso de estimar modelos economtricos, no aumentamos laeficiencia del estimador de 0 . Observe que esto resulta, pues al incorporarel conteo agregado al proceso de estimacin, tambin aumentamos el nmero deparmetros a estimar (N, a, b) y nuestro estimador utiliza toda la informa-

cin adicional al estimar estos parmetros. En el caso de estimadores paramuestras no aleatorias, existe el potencial de aumentar la eficiencia de con elestimador combinado (refirase a Gonzlez, 1985).

El resultado presentado en el prrafo anterior no implica que el estimador! desarrollado en este trabajo no es til. Observamos que nuestro estimadornos permite estimar los parmetros a, b, y N bajo la situacin en donde hayasesgo de muestra parcial. El estimador desagregado, sin embargo, solamenteI nos permite estimar N dado a y b. El estimar a, b, y N eficientemente es

:e suma importancia en el caso de modelos desagregados pues estos parmetrosn necesarios para expandir o agregar la muestra a la poblacin (refiraseKoppelman, 1976). Adems, en el caso de prediccin incremental ("pivot--int")

(refirase a Manheim, 1979 y Ben-Akiva y Lerman, 1985), estos par-I netrosentran directamente en la funcin de prediccin.

En Gonzlez (1985) presentamos los resultados de un estudio de simulacin::seado para comparar la eficiencia relativa del estimador desagregado y

el ECMS al estimar N. (Observe que no podemos incluir a, b en nuestra compara-n pues el estimador desagregado no puede estimar estos parmetros simulta- I reamente con N). Los resultados de este estudio de simulacin indican queI la eficiencia del ECMS relativa al estimador desagregado vara entre 0.86i y 3.13. El resultado positivo del 3.13 ocurre cuando la p = 0.50 y paraI isuestras de tamao mediano. Este resultado implica que la incorporacinI de los conteos agregados puede tener resultados sumamente positivos en la

I estimacin de modelos economtricos.

En el prximo captulo presentaremos un breve resumen de este trabajo.

4. Resumen

En este trabajo hemos demostrado que los estimadores combinados disponi-bles en la literatura no pueden utilizarse con muestras de diferentes nivelesre agregacin. Como resultado de sto, un sinnmero de conteos agregados.sualmente disponibles u obtenibles a bajo costo no pueden utilizarse alfatfm.ir nindu I OH uconomtrIcos. Bata situacin motiv ];i investigacin presen-

tada en este trabajo, en la cual desarrollaremos estimadores combinados conr.odelo de sesgo (ECMS) que pueden utilizarse con muestras desagregadas yconteos agregados.

La dificultad principal que encontramos en el desarrollo de estos estima-dores es la presencia de p(x), la funcin de densidad de las variables indepen-dientes, en la funcin de estimacin. Debido a esto, seguiremos el desarrollode Manski y McFadden (1981), y desarrollamos estimadores de mxima verosimili-:ad de muestras aleatorias para la situacin en dnde p(x) se conoce a priori;jsualmente basada en un censo de la porblacin. En el caso en que p(x) sedesconoce, seguimos el desarrollo de Cosslett (1981a) y derivamos un estimadorconsistente para muestras aleatorias.


17/19

-214-

El estimador no-clsico presentado en este trabajo no resulta en un mayoreficiencia en la estimacin del vector ; sin embargo, este estimado nospermite estimar a, b, y N; los parmetros del modelo de sesgo de muestrparcial, ms eficientemente. Esto ltimo tiene el potencial de mejorar lapredicciones de los modelos desagregados, pues estos parmetros estn incluidaen la funcin de prediccin.


18/19

-215-

Referencias

ATTANUCCI, J. P., BURNS, I. y WILSON.N. (1981) Bus Transit Monitoring Manual:

Vol. 1: Data Collection Program Design. NTIS Report PB-82-122227, EE.UU.

BENJAMN, J. R. y CORNELL, C.A. (1970) Probability Statistics, and Decisinfor Civil Engineers. McGraw-Hill, Nueva York.

BEN-AKIVA, M.E.yLERMAN, S.R. (1985) Discrete Choice Analysis: Theory andApplication to Travel Demand. MIT Press, Cambridge (en imprenta).

BEN-AKIVA, M.E., GUNN, H. y POL, H. (1983) Expansin of data from mixed randomand choice-based survey designs. International _______ Conference on NewSurvey Methods in Transport, Sidney, 12-16 Septiembre 1983, Australia.

BISHOP, Y., FIENBERG, S., y HOLLAND, P. (1975) Discrete Multivarate Analysis.MIT Press, Cambridge.

3R0G, W. y MEYBURG, A.H. (1980) The non-responde problem in travel surveys -an empirical investigation. 59th Annual Meeting of the TransportationResearch Board. Washington, D.C.,11-14 Enero 1980, EE.UU.

CAMPELL, J. T. (1934) The Poisson correlation function. Proceedings 0f theEdinburg Mathematical Society, Vol. 4, 18-26.

I0CHRAN, W.G. (1977) Sampling Techniques. John Wiley & Sons, Nueva York.

COSSLETT, S. (1978) Efficient Estimation of Discrete Choice Models from

Choice-Based Samples. Ph. D. Dissertation, Department of Economics,University of California at Berkeley, EE.UU.

COSSLETT, S. (1981a) Efficient estimation of discrete choice models. En C.Manski y D. McFadden (eds.), Structural Analysis of Discrete Data withEconometric Applications. MIT Press, Cambridge.

COSSLETT, S. (,1981b) Mximum likelihood estimator for choice based samples.Econoroetrica, Vol. 49, 1289-1316.

DOMENCICH, T.A. y McFADDEN, D. (1975) Urban Travel Demand: A BehaviouralAnalysis . North-Holland/Elsevier, Amsterdam.------ ------

FLEET, C.R. y ROBERTSON, S.R. (1968) Trip generation in the transportationplanning process. Highway Research Record 240, 11-31

GONZLEZ, S. (1985) Combining Survey and Aggregate Data for Model Estimation.Ph. D. Dissertation, Department of Civil Engineering, MIT, EE.UU.

HENDRICKSON, C, y McNEIL, S. (1984) Matrix entry estimation errors. NinthInternational Symposium or Transportation and Traffic Theory, Delft, 11-13Julio 1984, Holanda.


19/19

-216-

HESIEH, D., MANSKI, C. y McFADDEN, D. (1983) Estimation of response probabi-lities frora augmented restrospective observation. Department of Economics,MIT, EE.UU.

HSU, P. (185) Estimation of Parameters for Mltiple and Temporally DistributePopulations. Ph. D. Dissertation, Department of Civil Engineering, MIT,EE.UU.

JUDGE, G. G., GRIFFITHS, W.E., CRTER HILL, R. y LEE, T. (1980) The Theory aaPractice of Econometrics. John Wiley & Sons, Nueva York.

KOPPELMAN, F. (1976) Guidelines for aggregate travel predictions using disaggrchoice models. Transportation Research Record 610, 19-24

KRISHNAMOORTHY, A. S. (1951) Multivariate binomial and Poisson distributionsThe Indian Journal of Statistics, Vol. 11, N2, 117-124.

MANHEIM, M.L. (1979) Fundamentis of Transportation Systems Analysis-VolumeBasic Concepts. MIT Press, Cambridge.

MANSKI, C.F. y McFADDEN, D.(1981) Alternative estimators and sample designsfor discrete choice analysis. En C.Manski y D. McFadden (eds.), StructuralAnalysis of Discrete Data with Econometric Applications. MIT Press, Cambr::

McCARTHY, G.M. (1969) Mltiple regression analysis of household trip generan:a critique. Transportation Research Record 297, 31-43.

McNEIL, S. (1983). Quadratic Matrix Entry Estimation Methods. Ph.D. DissertalDepartment of Civil Engineering, Carnegie-Mellon University, EE.UU.

M0RL0K, E. K. (1978) Introduction to Transportation Engineering and Planning.McGraw Hill, Nueva York.

NUMERICAL ALGORITHMS GROUP (1984) NAG Fortran Mini Manual-Mark 11; IntroductaGuide to the NAG Fortran Manual. Numerical Algorithms Group, Oxford.

PIGNATARO, L. J. (1973) Traffic Engineering: Theory and Practice. Prentice alNueva Jersey.

THEIL, H. (1971) Principies of Econometrics. John Wiley & Sons, Santa Brbara.

THEIL, H. y GOLDBERGER, A.S. (1961) Pur and mixed statistical estimation ineconometrics. International Economic Review, Vol.2, 65-78.

WEBER, D.C. (1971) Accident rat.e potential: an application of mltipleregression analysis of a Poisson process. Journal of the American Statis:.:Association, Vol. 66, 285-288,------------------ j------------- >

WILLUMSEN, L. G. (1978) 0-D matrices from network data: a comparison ofalternative methods for their estimation. Proceedings PTRC Surnmer AnnuajMeeting, PTRC Education and Research Services Limited, Londres.

12 - uso de datos para estimar modelos econométricos

Documents