unidad 9-análisis de datos: perspectiva estadística de la … · 2009-12-03 · unidad 9 –...

MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO

Programa de Capacitación en Planeamiento, Regulación y Gestión Pública del Transporte Urbano Metropolitano (PTUBA)

UNIDAD 9-Análisis de Datos: perspectiva estadística de la explotación de la encuesta

TEMA 9.5 –MODELOS DE SELECCIÓN DISCRETA DE ALTERNATIVAS

AUTORA:

Lídia Montero Mercadé

DEIO-UPC

Versió 1.1

Buenos Aires, 7 a 11 Diciembre 2009

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.5-2 B. Aires - Diciembre 2.009

TABLA DE CONTENIDOS 9.5-1. MODELOS REPARTO MODAL: TIPOLOGÍA ______________________________________________________________________________________3 9.5-1.1 ELEMENTOS QUE INTERVIENEN EN EL REPARTO MODAL ______________________________________________________________________________3 9.5-1.2 LOS MODELOS AGREGADOS DE DISTRIBUCIÓN Y REPARTO MODAL ______________________________________________________________________7 9.5-1.2.1 EJEMPLO DE ORTÚZAR ET AL. 6.1________________________________________________________________________________________________12 9.5-2. MODELOS DE SELECCIÓN DE ALTERNATIVAS DISCRETAS _____________________________________________________________________17 9.5-2.1 TEORÍA DE LA UTILIDAD ALEATORIA_____________________________________________________________________________________________22 9.5-3. SELECCIÓN DE ALTERNATIVAS DISCRETAS: MNL______________________________________________________________________________36 9.5-3.1 PROPIEDADES DEL MODELO MNL _______________________________________________________________________________________________37 9.5-3.1.1 VARIACIONES INDIVIDUALES EN LOS GUSTOS ______________________________________________________________________________________37 9.5-3.1.2 PATRONES DE SUSTITUCIÓN ____________________________________________________________________________________________________39 9.5-3.1.3 BENEFICIO AL CONSUMIDOR (CONSUMER SURPLUS) _________________________________________________________________________________43 9.5-3.1.4 ROL DEL TÉRMINO INDEPENDIENTE Y CHOICE-BASED SAMPLES ________________________________________________________________________44 9.5-4. NLOGIT4.0: RESOLUCIÓN MODE-CHOICE GREENE ET AL _______________________________________________________________________46 9.5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: HL (LOGIT JERARQUICO) _________________________________________________________64 9.5-5.1 FORMULACIÓN DEL MODELO LOGIT JERÁRQUICO __________________________________________________________________________________64 9.5-5.2 MODELOS DE VALOR EXTREMO GENERALIZADO (GEV)______________________________________________________________________________67 9.5-5.3 PROPIEDADES DEL MODELO LOGIT JERÁRQUICO (NESTED LOGIT) ______________________________________________________________________67 9.5-5.4 CASO PARTICULAR: ÁRBOL DE DOS NIVELES _______________________________________________________________________________________70 9.5-5.5 EJEMPLOS ___________________________________________________________________________________________________________________72 9.5-5.6 CONSISTENCIA CON LA TEORÍA DE LA UTILIDAD ALEATORIA _________________________________________________________________________75 9.5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: OTROS PARADIGMAS _____________________________________________________________80 9.5-6.1 EL MODELO PROBIT MULTINOMIAL ______________________________________________________________________________________________80 9.5-6.2 PATRONES DE SUSTITUCIÓN NO IIA ______________________________________________________________________________________________84 9.5-6.3 VARIACIONES EN LOS GUSTOS NO OBSERVABLES (EFECTOS ALEATORIOS) _______________________________________________________________85 9.5-7. MODELOS DESAGREGADOS: EL MODELO LOGIT MIXTO _______________________________________________________________________88 9.5-7.1 DEFINICIÓN Y PROBABILIDADES DE ELECCIÓN _____________________________________________________________________________________92 9.5-7.2 EJEMPLO LOGIT JERÁRQUICO COMO CASO PARTICULAR LOGIT MIXTO ________________________________________________________________94 9.5-7.3 PATRONES DE SUSTITUCIÓN_____________________________________________________________________________________________________96 9.5-7.4 ESTIMACIÓN DEL MODELO LOGIT MIXTO__________________________________________________________________________________________97 9.5-7.5 CORRELACIÓN ENTRE SELECCIONES INDIVIDUALES: REPEATED CHOICES________________________________________________________________98 9.5-8. ESPECIFICACIÓN Y ESTIMACIÓN DE MODELOS DE SELECCIÓN DE ALTERNATIVAS DISCRETAS ________________________________100 9.5-8.1 ESPECIFICACIÓN: DETERMINACIÓN DEL CONJUNTO DE ALTERNATIVAS DISPONIBLES ____________________________________________________101 9.5-8.2 ESTIMACIÓN DE LOS MODELOS DESAGREGADOS: VEROSIMILITUD (SIMULADA)__________________________________________________________102 9.5-9. AGREGACIÓN EN DEMANDA: PREDICCIONES Y PORTABILIDAD _______________________________________________________________106



9.5-1. MODELOS REPARTO MODAL: TIPOLOGÍA

9.5-1.1 Elementos que intervienen en el reparto modal

Los modelos de reparto modal son probablemente los más importantes dentro del esquema de las cuatro fases. El transporte público utiliza los recursos energéticos e infraestructuras de manera más eficiente que el transporte privado y son imprescindibles para garantizar la calidad de vida de los habitantes de las ciudades medias y grandes, así como, satisfacer las cuotas de reducción de emisiones contaminantes a la atmósfera debidas al tráfico que han firmado los países europeos. El reparto modal resulta importante en entornos urbanos, pero también interurbanos. Se han desarrollado modelos sensibles a los atributos o características que influencian la elección individual del modo de transporte. Los modelos agregados de reparto modal suelen revelar una precaria validez.

Generación y Atracción de Viajes

Distribución

Reparto Modal

Asignación

DEMANDA

OFERTA



9.5-1.1 MODELOS REPARTO MODAL: CARACTERÍSTICAS A CONSIDERAR ...

La selección del modo de transporte depende de las características del VIAJERO

• Disponibilidad vehículo

• Renta • Estructura familiar • Densidad

residencial • Condicionantes del

resto del día

La selección del modo de transporte depende de las características del VIAJE

• Motivo del viaje • Hora del día • Origen-Destino:

multietapas.

La selección del modo de transporte depende de las características del MODO

• Tiempo de viaje • Tiempo de espera • Coste del viaje • Coste y

disponibilidad parking

• Confort • Regularidad • Seguridad




Los modelos de reparto modal son agregados si las variables explicativas que intervienen en la selección modal se consideran a nivel de zona de transporte o inter-zonas de transporte (por ejemplo: la densidad por zona o los tiempos de viajes modales entre zonas). Los modelos de reparto modal más obsoletos consideraron que las características más determinantes en el reparto modal eran las del viajero y por tanto, estos modelos se aplicaban después directamente de la etapa de generación/atracción de viajes y por tanto las características del viaje y del modo se omitían como variables explicativas, incluyéndose a lo sumo la disponibilidad de transporte público como un índice de accesibilidad. Esto resultó válido mientras el vehículo privado no estuvo al alcance de todo el mundo y no se daban índices elevados de congestión. En Europa, los modelos de reparto modal se aplicaron después de la etapa de distribución de los viajes y por tanto, las características del viaje, del modo y la competencia entre modos, se tuvieron en cuenta, pero resultaba más difícil de introducir las características del viajero, ya que éstas se habían agregado en la etapa de distribución anterior. Los modelos pioneros fueron bimodales (público, privado) e incluyeron una o dos características del modo y viaje como el tiempo de viaje o su coste generalizado y se observó una relación no lineal pero (monótona) creciente entre la incidencia de uso de uno de los modos sobre el resto con respecto a la diferencia de tiempos (o

coste, genéricamente, variable explicativa x) entre los modos: 21ijij xxx




Si xij1 < x ij

2 entonces p ij1 > p ij

2. Si x ij

1 > x ij2 entonces p ij

1 < p ij2.

Si x ij1=x ij

2 entonces p ij1=p ij

2=0.5

Las curvas empíricas que se observaron a partir de la captura de datos se denominaron curvas de dispersión (diversion curves), dado que al reparto modal se le atribuyó un mismo comportamiento que a la selección de rutas entre la tradicional y un bypass más largo, pero más rápido. Por ejemplo, en Londres se utilizaron curvas de dispersión público-privado para modelizar los viajes con destino al Centro y fuera del Centro para los distintos motivos de desplazamiento.

Técnicamente son poco sensibles a políticas de tarifas de transporte público, parking, etc ya que al ser modelos agregados las respuestas individuales de los viajeros ante cambios en política tarifaria resultan mal modelados. Las curvas logit se validaron contra la recogida de datos y surgen en el contexto de modelos de regresión generalizados con respuesta binaria, diferencia de tiempos (i,j) modales y función de enlace logít o lo que es equivalente una formulación en variable latente logística obtenida a partir de diferencias de tiempos OD modales con distribución de valor extremo máximo (ley de Gumbel, relacionada con la denominada log Weibull en contextos de fiabilidad y supervivencia, y con leyes de valor extremo mínimo o Gompertz para los estadísticos).

Probabilidad modo 1

00.10.20.30.40.50.60.70.80.9

1

-3.6

-3.2

-2.8

-2.4

-2.0

-1.6

-1.2

-0.8

-0.4 0.0 0.4 0.8 1.2 1.6 2.0 2.4 2.8 3.2 3.6 4.0

logitprobitgompitcloglog



9.5-1.2 ... REPARTO MODAL: MODELOS SINTÉTICOS

9.5-1.2 Los modelos agregados de distribución y reparto modal

Se pueden argumentar a partir de los modelos de maximización de entropía vistos en el apartado de modelos de distribución de viajes: en un contexto bimodal,

1,2m J,q I,p 0,g C,Cg

Jq ,Dg

Ip ,Og s.t.

gglogggH MAX

mpq

m qp,

mpq

mpq

qmp,

mpq

pmq,

mpq

m qp,

mpq

mpq

mpq

Es un problema de optimización convexo cuya función lagrangiana es:

m qp,

mpq

mpq

mq,

mpqqq

kj

mpqpp

m qp,

mpq

mpq

mpq CgCγgDβgOαggloggγβ,α,g,L

p q,

Donde las alfas y las betas representan respectivamente a los multiplicadores de Lagrange de las restricciones de generación y atracción total de las zonas y es el multiplicador de Lagrange de la restricción de coste total. Las condiciones de optimalidad de primer orden requieren que se anule de gradiente de la lagrangiana:



9.5-1.2 ... REPARTO MODAL: MODELOS SINTÉTICOS

mpqqp

mpq

mpqqp

mpqm

pq

γCβαexpgγCβαglog0gL

Y efectuando los cambios habituales de : ppp OAα- exp pI, qqq Dβ- Bexp qJ la solución puede expresarse como:

mpqqqpp

mpq γCexpDOAg B

Los coeficientes de balanceado As y Bs pueden calcularse con el algoritmo de Furness modificado y un valor inicial del parámetro a calibrar que sea la inversa del coste generalizado medio entre zonas. Reparto modal multimodal: Multimodal split

Son modelos agregados que pueden deducirse a partir de la formulación de entropía y la hipótesis de independencia entre modos, en que la probabilidad de seleccionar el modo m se puede expresar como,

k

kpq

mpq

Mpq

1pq

mpqm

pq γCexpγCexp

ggg

P pI, qJ, m=1...M

Este modelo se denomina logit multinomial



9.5-1.3 ... REPARTO MULTIMODAL: MODELOS SINTÉTICOS

Los modelos agregados más sencillos de reparto modal son los modelos logit multinomiales que a decir verdad no pueden reflejar toda la complicación que implica la selección entre M modos en un entorno. Genéricamente la elección modal podría estructurarse a nivel conceptual de muy diferentes maneres:

Por ejemplo, M=4

1 2 3 4

1 2 3 4

1 2 3 4 1 2 3 4

1 2 3 4 2 3 4

3 4

La jerarquía de dicotomías es una alternativa natural y atractiva cuando las categorías de la politomía representan un proceso ordenado de selección independiente estadísticamente, por ejemplo, en un proceso de selección modal de alternativas de transporte en la ciudad de Barcelona, un viajero podría concebir el siguiente proceso de selección de modo de transporte,




Privado Colectivo

Auto Taxi Bus Infraestrura Fija

Metro Renfe

Veamos un ejemplo de sentido común que justifique la importancia de la independencia de las alternativas por niveles a la hora de poder formular un modelo jerárquico consistentemente. El Ejemplo procede de Mayberry (1973).

Supóngase los habitantes de una ciudad pequeña que dispone de una única línea de autobús, no existen otros modos de transporte colectivo, y la única alternativa de transporte mecanizado disponible es el transporte privado (en alguna de sus modalidades que se consideran agrupadamente).

Un estudio determina que la probabilidad de seleccionar un modo privado o el autobús para ir al centro de compras son equiprobables: P(privado)=0.5 y P(bus)=0.5 (odds de privado vs bus = 1).

Supóngase que un intento de incrementar el uso del autobús lleva pintar la mitad de la flota de rojo, y la otra mitad de azul, el nivel de servicio de la línea se mantiene igual. La selección modal por sentido común tendría que ser:

P(privado)=0.5 , P(bus rojo)=0.25 y P(bus azul)=0.25.




Selección Modal al Centro Selección Modal al Centro

Privado Bus Rojo Bus Azul Privado Bus

0.5 0.25 0.25 Sentido Común 0.5

Rojo Azul 0.33 0.33 0.33 MNL

0.5 0.5

El problema es que el modelo de respuesta multinomial, no jerárquico no es adecuado, ya que los odds entre 2 categorías (modos) únicamente dependen de los costes de las 2 categorías, no se ve afectados por el coste de ninguna otra categoría, pero ésto es un problema si existen alternativas correlacionadas como es el caso de bus rojo y bus azul.

En efecto, los odds entre categorías se mantienen constantes, tal como eran antes de la brillante idea de pintar de 2 colores la flota, (odds de privado vs bus rojo = 1, privado vs bus azul = 1 y bus rojo vs bus azul = 1). Un modelo jerárquico mantendría el sentido común: odds de privado vs bus = 1 y en el segundo nivel, odds de bus rojo vs bus azul = 1. Las alternativas se agrupan en bloques de alternativas asociados o similares, no pueden haber alternativas de un grupo correlacionadas con alternativas de otro grupo.




9.5-1.2.1 Ejemplo de Ortúzar et al. 6.1 Se dispone de los datos de una encuesta de selección modal entre automóvil y tren en un corredor que conecta 4 zonas residenciales (A,B,C,D) y 3 zonas con alta actividad económica (U, V, W). El servicio de tren del corredor es muy bueno, pero el de coche sufre de fuertes congestiones resultando a menudo más rápido el tren que el coche privado.

Se recoge información sobre INVEHTT (in vehicle travel time en min), EXCTT (tiempo a pie más de espera en min), TCOST (coste del viaje en peniques, gasolina o tarifa según el caso), PKCOST (tarifa del parking asociada con un viaje en peniques). Los datos se han introducido en R:

> bimodal od.pair car.invehtt car.exctt car.tcost car.pkcost train.invehtt train.exctt train.tcost train.pkcost pcar_train 1 A.U 23 3 120 40 19 10 72 0 0.82 2 B.U 20 3 96 40 17 8 64 0 0.80 3 C.U 18 3 80 40 14 10 28 0 0.88 4 D.U 15 3 68 40 14 12 20 0 0.95 5 A.V 26 4 152 60 23 10 104 0 0.72 6 B.V 19 4 96 60 18 9 72 0 0.90 7 C.V 14 4 60 60 11 9 36 0 0.76 8 D.V 12 4 56 60 12 11 28 0 0.93 9 A.W 30 5 160 80 25 10 120 0 0.51 10 B.W 20 5 100 80 16 8 92 0 0.56 11 C.W 15 5 64 80 12 9 36 0 0.58 12 D.W 10 5 52 80 8 9 24 0 0.64 > summary(bimodal) od.pair car.invehtt car.exctt car.tcost car.pkcost train.invehtt train.exctt train.tcost train.pkcost pcar_train A.U :1 Min. :10.00 Min. :3 Min. : 52 Min. :40 Min. : 8.00 Min. : 8.000 Min. : 20 Min. :0 Min. :0.5100 A.V :1 1st Qu.:14.75 1st Qu.:3 1st Qu.: 63 1st Qu.:40 1st Qu.:12.00 1st Qu.: 9.000 1st Qu.: 28 1st Qu.:0 1st Qu.:0.6250 A.W :1 Median :18.50 Median :4 Median : 88 Median :60 Median :15.00 Median : 9.500 Median : 50 Median :0 Median :0.7800 B.U :1 Mean :18.50 Mean :4 Mean : 92 Mean :60 Mean :15.75 Mean : 9.583 Mean : 58 Mean :0 Mean :0.7542 B.V :1 3rd Qu.:20.75 3rd Qu.:5 3rd Qu.:105 3rd Qu.:80 3rd Qu.:18.25 3rd Qu.:10.000 3rd Qu.: 77 3rd Qu.:0 3rd Qu.:0.8850 B.W :1 Max. :30.00 Max. :5 Max. :160 Max. :80 Max. :25.00 Max. :12.000 Max. :120 Max. :0 Max. :0.9500 (Other):6



9.5-1.3 ... REPARTO MULTIMODAL: EJEMPLO 6.1 ORTÚZAR ET AL.

1. Estimar el modelo logit de reparto modal asumiendo que el valor del tiempo es de 8 peniques por minuto y que el valor del tiempo adicional (car.exctt o train.exctt) es el doble.

2. Estimar el impacto en el reparto modal para cada pareja OD de un incremento de los precios de la gasolina que doblase el coste del viaje en coche pero no alterara la tarifa de tren.

3. Estimar cual sería el trasvase de viajes del coche al tren si la tarifa del tren fuera gratuïta. bimodal$dinvehtc <- bimodal$car.invehtc - bimodal$train.invehtc bimodal$dexctc<- bimodal$car.exctc - bimodal$train.exctc bimodal$dtcost<- bimodal$car.tcost - bimodal$train.tcost bimodal$dpkcost<- bimodal$car.pkcost - bimodal$train.pkcost resposta <- cbind( 100*pcar_train, 100*(1-pcar_train) ) > summary(m1) Call: glm(formula = resposta ~ dinvehtc + dexctc + dtcost + dpkcost, family = binomial, data = bimodal) Deviance Residuals: Min 1Q Median 3Q Max -0.6230 -0.5210 -0.1814 0.1343 1.4477 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.954013 0.948514 2.060 0.039391 * dinvehtc -0.029494 0.008490 -3.474 0.000512 *** dexctc -0.023840 0.008772 -2.718 0.006572 ** dtcost -0.023844 0.011499 -2.074 0.038116 * dpkcost -0.021760 0.007237 -3.007 0.002639 ** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 143.9910 on 11 degrees of freedom Residual deviance: 5.7255 on 7 degrees of freedom AIC: 70.032




4. Estimar el modelo logit de reparto modal sin añadir información sobre el valor del tiempo y con variable explicativa para el coste del viaje como coste total (coste del viaje más coste del aparcamento). Determinar el valor del tiempo en viaje y en espera.

5. Estimar el impacto en el reparto modal para cada pareja OD de un incremento de los precios de la gasolina que doblase el coste del viaje en coche pero no alterara la tarifa de tren.

6. Estimar cual sería el trasvase de viajes del coche al tren si la tarifa del tren fuera gratuíta.

> # Estimar l'impacte d'augment del petroli que porti a car.tcost a doblar-se > pdf1 <- bimodal > pdf1$dtcost<- 2*pdf1$car.tcost - pdf1$train.tcost > op1 <-predict( m1, newdata = pdf1, type="response", se=T ) > cbind( op1$fit, pcar_train ) pcar_train 1 0.23220594 0.82 2 0.31668039 0.80 3 0.41641245 0.88 4 0.81976150 0.95 5 0.07312894 0.72 6 0.36781262 0.90 7 0.46129143 0.76 8 0.78844946 0.93 9 0.02128689 0.51 10 0.10326707 0.56 11 0.23820584 0.58 12 0.34514269 0.64

>

> # Estimació de l'efecte de tarifa 0 en tren > pdf2 <- bimodal > pdf2$dtcost<- pdf1$car.tcost > op2 <-predict( m1, newdata = pdf2, type="response", se=T ) > cbind( op2$fit, pcar_train ) pcar_train 1 0.48715482 0.82 2 0.49848339 0.80 3 0.71143465 0.88 4 0.93457805 0.95 5 0.19859714 0.72 6 0.50765945 0.90 7 0.60279094 0.76 8 0.87902530 0.93 9 0.05343402 0.51 10 0.12231493 0.56 11 0.37873679 0.58 12 0.50679168 0.64 >



9.5-1.3 ... REPARTO MULTIMODAL: EJEMPLO 6.1 ORTÚZAR ET AL. > bimodal$dinvehtt <- bimodal$car.invehtt - bimodal$train.invehtt > bimodal$dexctt<- bimodal$car.exctt - bimodal$train.exctt > m2 <- glm( resposta ~ dinvehtt + dexctt + I(dtcost + dpkcost), family=binomial, data=bimodal ) > m0 <- glm( resposta ~ 1, family=binomial, data=bimodal ) > summary( m2 ) Call: glm(formula = resposta ~ dinvehtt + dexctt + I(dtcost + dpkcost), family = binomial, data = bimodal) … Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 2.055498 0.598467 3.435 0.000593 *** dinvehtt -0.239916 0.061481 -3.902 9.53e-05 *** dexctt -0.363570 0.053045 -6.854 7.18e-12 *** I(dtcost + dpkcost) -0.022440 0.005309 -4.227 2.37e-05 *** … Null deviance: 143.9910 on 11 degrees of freedom Residual deviance: 5.7445 on 8 degrees of freedom AIC: 68.051 > anova(m0, m2, test='Chisq' ) Analysis of Deviance Table Model 1: resposta ~ 1 Model 2: resposta ~ dinvehtt + dexctt + I(dtcost + dpkcost) Resid. Df Resid. Dev Df Deviance P(>|Chi|) 1 11 143.991 2 8 5.744 3 138.247 9.027e-30 > anova(m0, m2, test='Cp' ) Analysis of Deviance Table Model 1: resposta ~ 1 Model 2: resposta ~ dinvehtt + dexctt + I(dtcost + dpkcost) Resid. Df Resid. Dev Df Deviance Cp 1 11 143.991 145.991 2 8 5.744 3 138.247 13.745

Valor temps de viatge invehicle > coef(m2)[2]/coef(m2)[4] dinvehtt 10.69168 Valor temps d’espera (exctt) > coef(m2)[3]/coef(m2)[4] dexctt 16.20221




> # Estimar l'impacte d'augment del petroli > que porti a car.tcost a doblar-se > pdf1 <- bimodal > pdf1$dtcost<- 2*pdf1$car.tcost - pdf1$train.tcost > op11 <-predict( m2, newdata = pdf1, type="response") > cbind( op11$fit, pcar_train ) pcar_train 1 0.26374399 0.82 2 0.35063672 0.80 3 0.44552313 0.88 4 0.83021417 0.95 5 0.08971594 0.72 6 0.39994766 0.90 7 0.48058654 0.76 8 0.79725029 0.93 9 0.02635723 0.51 10 0.11587476 0.56 11 0.25548490 0.58 12 0.36345975 0.64

> # Estimació de l'efecte de tarifa 0 en tren > pdf2 <- bimodal > pdf2$dtcost<- pdf1$car.tcost > op20 <-predict( m2, newdata = pdf2, type="response") > cbind( op20$fit, pcar_train ) pcar_train 1 0.51262193 0.82 2 0.52543387 0.80 3 0.72072881 0.88 4 0.93488346 0.95 5 0.22443410 0.72 6 0.53316760 0.90 7 0.61321718 0.76 8 0.88053469 0.93 9 0.06228529 0.51 10 0.13557114 0.56 11 0.39144007 0.58 12 0.51697541 0.64



9.5-2. MODELOS DE SELECCIÓN DE ALTERNATIVAS DISCRETAS

Los modelos de demanda de primera generación son agregados en el sentido en que se basan en magnitudes promedio a nivel zonal. Estos modelos se usaron masivamente hasta los inicios de los 80s.

Premio Nobel 2000 Dr. Mc Fadden “for his development of theory and methods for analyzing discrete choice” .

Discurso de recogida del Premio: Economic Choices, The American Economic Review Vol 91 No 3 (June 2001), 351-378.

Charles Manski, The Structure of Random Utility Models, Theory and Decision 8 (1977) 229-254

Los modelos de demanda de segunda generación se basan en las decisiones individuales de los viajeros y por tanto, se espera que puedan ofrecer modelos de selección modal más realistas. Estos modelos postulan que la probabilidad individual de seleccionar una determinada alternativa es una función de las características socioeconómicas del individuo y de lo atractivo de la alternativa, en términos relativos.

La presentación que sigue a continuación sigue marcadamente el hilo expositivo de Kenneth Train en su libro Discrete Choice Methods with Simulation (Cambridge Press)(2003). El texto se puede descargar gratuitamente con fines académicos desde la página web de K Train (http://elsa.berkeley.edu/~train/).



9.5-2. MODELOS DE SELECCIÓN ALTERNATIVAS DISCRETAS: INTRODUCCIÓN

Lo atractivo de una alternativa se suele englobar bajo el nombre de utilidad de la alternativa. La utilidad es tautológicamente lo que los individuos intentan maximizar. Las alternativas por ellas mismas no producen utilidad, sinó que ésta se deriva de sus características. La utilidad se compone de una parte observable o sistemática y una parte aleatoria, de ahí que la utilidad de la alternativa auto se pueda escribir como:

aleatoriaasistemáticautoautoauto VU

y

autoV sea una combinación lineal de variables explicativas relacionadas con características de la alternativa, por ejemplo:

NCARICTAVTVauto 1.13.05.221.125.0

En esta ecuación, una unidad más del tiempo de acceso (TA) implica una pérdida de utilidad de 2.5 unidades.

El coeficiente en la ecuación de la utilidad sistemática traduce la importancia y contribución de cada atributo del modo en la cuantificación de su utilidad. De ahí que un aumento en 1 unidad del tiempo de acceso tenga un impacto de más del doble que el tiempo de viaje (TV).

La constante se interpreta normalmente como la influencia neta de todas las características del modo que no son observables (por ejemplo, atributos de confort o conveniencia que resultan de difícil cuantificación e inclusión como parte sistemática de un modelo de selección de alternativas).




Los modelos desagregados se fundamentan en la teoría del comportamiento individual de los usuarios y no en analogías con modelos físicos.

Los modelos desagregados se construyen y estiman a partir de datos individuales y por tanto son más eficientes en cuanto al uso de la información, ya que requieren de menor volumen de datos.

Los modelos desagregados pueden incorporar todos los elementos de la variabilidad inherente en el proceso de selección. Son menos suceptibles a sufrir sesgo debido a la asociación entre los individuos y enmascaramientos del comportamiento individual debido a la agregación de la información a nivel zonal que sufren los modelos agregados. Existen ejemplos paradigmáticos de lo que se conoce como correlación ecológica.

Los modelos desagregados son modelos probabilísticos en el sentido que ofrecen una probabilidad de selección de cada una de las alternativas y por tanto, se debe trabajar con conceptos probabilísticos.

Por ejemplo, el número esperado de personas que en una determinada zona harán uso de un modo concreto es la suma de las probabilidades individuales,

hni ijhMautoj1

1




Una jerarquía de selecciones puede modelarse separadamente utilizando los conceptos de distribuciones condicionales (probabilidad condicionada), por ejemplo la probabilidad de seleccionar la ruta r, dentro del modo j,

hacia el destino q, dentro del grupo de usuarios h, sería hhqhqjhqjrhqjhqjrhqjr |||| .

Todas las variables explicativas observables pueden incluirse en el modelo y se les pueden estimar coeficientes, por tanto resultan modelos más flexibles y representativos de las políticas de movilidad, con coeficientes interpretables en términos de utilidad marginal.

Para realizar predicciones de la alternativa a seleccionar, el valor de la utilidad de todos las posibles opciones tiene que contrastarse (en principio, un valor real) y convertirse a probabilidad (un valor entre 0 y 1), para ello es necesario un cambio de escala desde la utilidad a la probabilidad y ese cambio se realiza a partir de la denominada función de enlace (link function) en terminología estadística. Supongamos el caso dicotómico, M=2 con

autoj 1 y busj 2 .

Si la función de enlace es la logit, entonces

0

expexpexp

exp1exp

1loglogit

busautobus

auto

auto

autoautoauto

auto

autoauto V

VVV

VVV

o

bien,

0expexp

exp

busbusautobus

busautoauto V

VVVVV




Si la función de enlace es la probit, entonces 0)(1

busautoZautoZautoautoautoZ VytipificadaVzZPzVV o bien,

12

1

21212

212122

22

2

11

2121exp

dxdxxVV

autobusauto

xxxx

.

Estos modelos son modelos de regresión generalizados o modelos lineales generalizados que no pueden estimarse por técnicas estándard de mínimos cuadrados (las incógnitas son los coeficientes que acompañan a las variables explicativas observables que caracterizan la utilidad de la alternativa).



9.5-2. SELECCIÓN DE ALTERNATIVAS DISCRETAS: UTILIDAD ALEATORIA

9.5-2.1 Teoría de la Utilidad Aleatoria

La base teórica para la selección de alternativas procede de la teoría de la utilidad aleatoria que postula:

1. Los individuos pertenecen a una población homogénea, actúan racionalmente y poseen información perfecta, de manera que ante una selección de alternativas siempre eligen la que maximiza su utilidad personal sujeta a restricciones legales, sociales, físicas y presupuestarias.

2. El conjunto de alternativas disponibles es A=1, 2 , …, k (categorías) y un conjunto de variables explicativas (factores y/o covariables) definen los atributos de los individuos, las alternativas y/o la interacción de ambos, genéricamente agrupadas en la matriz de diseño X nxp.

Un individuo i tiene como atributos la fila i -ésima de X, con un conjunto de alternativas disponibles A(i) (quizás todas) con variables explicativas vinculadas a cada una de ellas, más variables comunes a las alternativas pero específicas del individuo e interacciones entre ambas.

Las alternativas tienen que cumplir:

o Ser mutuamente excluyentes.

o El choice set (conjunto de alternativas) tiene que ser exhaustivo (todas las posibilidades deben estar contempladas).

o La cardinalidad del choice set debe ser finito.

La última de las características es la más restrictiva y diferencia la teoría de elección discreta de la regresión múltiple.




3. Cada alternativa j tiene asociada una utilidad para cada individuo i : ijU . Sin embargo, al estudiar el proceso de selección no se dispone de información completa sobre el sistema, sobre los elementos que considera un individuo al efectuar su selección, de manera que la utilidad de cada alternativa está compuesta

de: una componente sistemática ijV que es función (lineal) de las variables explicativas ijj w,x y una

componente aleatoria ij que refleja las particularidades de cada individuo y los errores de observación inherente al estudio empírico.

Los modelos de elección discreta de alternativas se derivan de la hipótesis comportamental de maximización de de la utilidad aleatoria (son RUM, random utility models). Son modelos que pueden contemplarse como una simple relación entre las variables explicativas y el resultado de la elección, sin detallar en como se realiza exactamente el proceso de selección.

La utilidad no es observable per se, sólamente los atributos que definen la utilidad sistemática. El término de error juega el rol de recoger el efecto de todos los factores que afectan a la selección de alternativas pero que no se incluyen en la utilidad sistemática, bien por simplificación o porqué no son directamente observables.

aleatoriaasistemátic

ijijij VU




Dos individuos con los mismos atributos y disponibilidad de alternativas pueden no seleccionar la misma alternativa, debido a la componente aleatoria. Considérense por simplicidad los modelos condicionales, donde

intervienen sólo variables explicativas ligadas a alternativas: los parámetros son comunes a los individuos

y alternativas y no se considera constante específica de alternativa, ijijijij VU jTxβ .

4. El individuo i selecciona la alternativa j si ésta tiene utilidad máxima:

jlVVVUVU ijililijilililijijij , y por tanto, la probabilidad de selección

de j viene dada por

iiilijiilijijili dfjlVVIjlVV, lo

que requiere establecer alguna distribución de probabilidad para los errores.

La distribución de ijili representa entre toda la población con idéntica utilidad observada para todas las alternativas l, la distribución de la parte de utilidad no observada.




Logit, GEV (General Extreme Value), probit y mixed logit son casos particulares que se derivan de la

especificación de la distribución de probabilidad de los factores no observados de la utilidad, if .

Los modelos de selección discreta logit son los más simples y se derivan de la hipótesis que il son i.i.d. de valor extremo. Es decir, los errores son no correlacionados entre las alternativas y tienen idéntica varianza, lo cual resulta muy restrictivo ya que los factores no observados ligados a una alternativa pueden ser similares a aquellos vinculados con alguna otra de las alternativas. Además si se desea aplicar un modelo logit de elección discreta a datos procedentes de un panel (secuencia de elecciones a lo largo del tiempo efectuadas por el mismo individuo), la independencia entre periodos resulta poco creíble. La estimación no requiere de simulación.

Los modelos GEV permiten una correlación entre los factores no observados (errores aleatorios) de las alternativas y colapsa al modelo logit cuando son i.i.d. Hay múltiples formas en los modelos GEV, con una estructura de correlaciones más o menos complicada, la más popular responde al denominado logit jerárquico, donde se definen nidos o nodos de grupos de alternativas, con estructura arborescente, donde los factores no observados de la utilidad tienen la misma varianza dentro de un nido y las alternativas pertenecientes a nidos distintos no presentan correlación. La estimación no requiere de simulación.

Los modelos probit asumen que los factores no observados (errores) tienen conjuntamente una distribución normal multivariante. Permiten cualquier patrón de asociación entre alternativas y heterocedasticidad. Son flexibles pero la estimación requiere de simulación.

Los modelos logit mixtos presuponen que los factores no observados siguen una distribución cualquiera pero satisface que puede descomponerse en dos partes; una parte donde se incluye toda la componente de correlaciones y heterocedasticidad y otra parte i.i.d. de valor extremo. Es muy flexible y Train (2002) demuestra que puede aproximar cualquier modelo de elección discreta y es totalmente general.




La identificación y especificación del modelo de elección discreta afecta a cualquier modelo y debe contemplar dos características comunes a todos los modelos basados en la maximización de la utilidad:

1. Sólamente son relevantes las diferencias en la utilidad entre alternativas.

2. La escala de la utilidad es arbitraria e irrelevante.

El valor absoluto de la utilidad es irrelevante para el individuo que efectua la elección y tambien para el investigador. Si se añade una constante común a la utilidad de todas las alternativas, sus diferencias siguen siendo las mismas y la alternativa con màxima utilidad es la misma,

jlVVjlUU ilijilij 00 o

iiilijiilijijili dfjlVVIjlVV

De hecho, sólo pueden identificarse en los modelos los parámetros que están relacionados con las diferencias en la utilidad entre alternativas, no aquellos ligados al valor absoluto de la utilidad de cada una de ellas.

Habitualmente, la utilidad observada (sistemática) es una combinación lineal de los factores observados de manera que puede expresarse:

jij κV jTxβ , donde la constante específica jκ captura el efecto medio en la utilidad de todos los

factores no observados (no incluídos en el modelo) de la alternativa j.




Cuando se incluyen constante específicas en la utilidad entonces resulta equivalente a suponer que la esperanza de los errores es cero, ésto es,

*ijijU j

Txβ con 0* ijijjijjij κUκ jTxβ .

Por tanto resulta razonable incluir una constante por alternativa, sin embargo, como sólo son relevantes las diferencias entre alternativas, únicamente van a ser relevantes las diferencias entre las constantes específicas y de hecho no son identificables todas ellas, las k constantes, solamente k-1, lo que requiere una normalización de una de las constantes a 0, la de la alternativa de referencia.

Los factores relativos a las alternativas varían con las alternativas, pero los factores relacionados con el individuo permanecen constantes en las distintas alternativas (no su efecto en la utilidad). Conviene normalizar el efecto de las variables comunes a las alternativas para una alternativa de referencia, por ej. j=1,

jij κV iTjj

T wγxβ pero 001 i1TxβiV 01 γ y por tanto T

j se interpretan como los efectos diferenciales en la utilidad respecto al grupo de referencia para las variables comunes a todas las alternativas (dependientes generalmente de las características socioeconómicas de los individuos). Si hay interacciones entre

individuo y alternativa no es necesaria la normalización: jij κV ijTjj

T wγxβ .

El número de términos de error estadísticamente independientes debe considerarse afectado por el hecho que hay k-1 diferencias de errores y por tanto,

iiilijiilijijiliilij dfjlVVIjlVVjlUU




if hace referencia a la distribución de las diferencias.

Si los errores son i.i.d. Gumbel entonces las diferencias son i.i.d. logísticas.

Si los errores son normales multivariantes entonces las diferencias afectarán al patrón de la matriz de varianzas-covarianzas entre las alternativas (no independientes) que pasará a ser de dimensión k-1 y la normalización relacionada con la escala, que se detalla a continuación, resulta más compleja de realizar.

La escala de la utilidad resulta irrelevante ya que si se multiplica por una constante positiva común a la utilidad de todas las alternativas, sus diferencias son proporcionalmente las mismas y la alternativa con màxima utilidad es la

misma, ijijij εVU y 0 λλελVλUU ijijijij~

entonces,

jlUUjlλUλUjlUU ilijilijilij ~~

La escala de la utilidad afecta a las magnitudes de los parámetros de los factores observables (variables explicativas), por tanto se debe normalizar la escala de la utilidad.

La escala de la utilidad está relacionada con la escala de la componente aleatoria (errores), ijij εVλλεV 2 y por tanto normalizar la escala del término de error equivale a normalizar la escala de la utilidad.

El partworth de un atributo es el coeficiente del atributo en la función de utilidad, es por tanto el coeficiente en la utilidad y es un término empleado asiduamente en marketing.




Si los errores son i.i.d. la normalización es trivial y habitualmente en el modelo logit se presupone que los errores

tienen una distribución de valor extremo estándard (parámetro de escala 1) con varianza por tanto 62πεV ij .

Si se normaliza para obtener unos errores i.i.d. con varianza 1 , 1ijεV , entonces si la utilidad original es

ijijijij εεVU ~~~~ jTxβ con 2λεV ij

~ , la utilidad normalizada es

ijijijij ελλελλUU jT

jT xβxβ ~~

.

Los coeficientes de las variables explicativas aparecen divididos por la desviación tipo de la parte no observada de la utilidad, de hecho, no son identificables los parámetros y la escala de la utilidad simultaneamente y por tanto, la normalización es imperativa.

Cuando se interpretan modelos i.i.d. logit y probit, debe tenerse en cuenta la normalización efectuada a la hora de

interpretar los coeficientes de las variables explicativas. Habitualmente, en modelos probit 1ijεV , y en logit

62πεV ij (pero si se contemplan las diferencias 32πεV i , distribución logística estándard).

Cuando se interpretan modelos i.i.d. logit (o probit) idénticos estimados sobre conjuntos de datos distintos, los coeficientes representan un reescalado respecto la varianza de los errores, pero los errores son la parte de la utilidad no observada y por tanto, la varianza de la componente no observada de la utilidad puede ser distinta en cada conjunto de datos. Hay un ejemplo muy ilustrativo de Kenneth Train (pp. 29) relativo a un modelo de reparto modal binario logit aplicado a los datos de Chicago y de Boston.




El cociente entre los partworths (coeficientes en la utilidad) de coste y tiempo está alrededor de 0.3 para ambas ciudades. La magnitud de los coeficientes es un 50% mayor en Boston que en Chicago y ésto se puede interpretar:

o La utilidad no observada tiene una varianza menor en Boston que en Chicago o bien,

o factores que no son tiempo y coste tienen menor impacto en Boston que en Chicago o bien

o que la importancia del coste y el tiempo en la utilidad son mayores en Boston que Chicago.

Si los errores son independientes, pero con escala distinta (errores heterocedásticos) entonces es posible normalizar la escala de una alternativa y estimar el resto de escalas de manera relativa a la escala de la alternativa normalizada. Esto resulta muy útil cuando se usan datos de distintos ámbitos geográficos o cuando se desean combinar datos de preferencias declaradas y de preferencias reveladas.

Si los errores no son independientes, la normalización no es trivial, ya que normalizar la escala de una alternativa no implica automáticamente normalizar las diferencias entre alternativas ya que intervienen términos de covarianzas entre las alternativas. La normalización debe especificarse adhoc dado el patrón o estructura de la matriz de varianzas-covarianzas entre las alternativas.

BostonCostTimekVChicagoCostTimekV

j

j

810692550781..'..




Por ejemplo, en matrices completas de varianzas-covarianzas entre alternativas, la normalización de las diferencias implica habitualmente una drástica reducción del número de parámetros de la matriz de varianzas-covarianzas, si K=4 entonces, la normalización de una de las diferencias lleva a una matriz reducida con K(K-1)/2-1 parámetros, es decir, 5 parámetros en lugar de los 10 originales (K(K+1)/2). Las interpretaciones deben referirse a la diferencia normalizada, lo que las hace resultar mucho más complejas.

La normalización es automática en modelos logit y logit jerárquicos (caso particular de modelos GEV), pero en modelos probit y mixed logit no es automática y se deben explicitar concretamente las hipótesis (hay diversas posibilidades), ya que afectan tanto a la especificación del modelo, como a la interpretación de los parámetros.




La ley logística estandard tiene parámetro a=0 y b=1, siendo simétrica y con varianza 32 .

Si ijili tiene distribución logística centrada en 0 (a=0), requiere que ijil ,

sean errores independientes y idénticamente distribuidos según una ley Gumbel.

Si Y tiene distribución Gumbel con parámetros de posición a (la moda) y de escala b>0, entonces la media

es ba 57721.01'ba , la varianza es 622b y la función de distribución de probabilidad es:

bayyY expexpyYF

La inversa de la función de distribución es 11 loglogbay YF .

En general, la diferencia de 2 v.a. Gumbel i.i.d con escala b>0 es una ley logística con parámetro a=0 y b>0 (el parámetro de escala de las gumbel), siendo simétrica alrededor del 0 y con varianza 322b .

Si se asume que hay 2 alternativas (k=2), otra posibilidad consiste en suponer una distribución logística para la

diferencia de utilidades ijili , entonces la probabilidad de seleccionar la alternativa j, notado Pi(j), es

bVbVbV

bVVVVj

ilij

ij

ilijilijijiliiij expexp

expexp1

1

(Logit binario).




1. Si b entonces la selección de alternativas es equiprobable y si 0b la varianza de la diferencia es 0 y por tanto la selección de las alternativas es determinista y depende exclusivamente de la diferencia entre utilidades sistemáticas (la alternativa con mayor utilidad observada se lleva el 100% de los viajes).

2. Por comodidad se puede considerar 1b entonces las leyes Gumbel han de tener una moda 0 y varianza

62 y la ley logística diferencia entre ambas tiene media 0 y varianza 32 .

3. Una propiedad de las leyes Gumbel es que el máximo de k variables Gumbel independientes de idéntica escala

b y parámetros de posición kaa1 sigue también una ley Gumbel con parámetro de escala b y posición

kj j baba1

explog .

4. Otra propiedad es que si Y es de ley Gumbel(a,b) y c, d son constantes reales, entonces dY+c sigue una ley Gumbel( da+c, db ).




Si se asume que hay k alternativas y los errores son independientes y idénticamente distribuidos según una ley Gumbel con moda 0 y b>0, entonces la probabilidad de seleccionar la alternativa j, notado Pi(j), es

kl il

ijijijililjliij bV

bVVVj

1exp

expmax

(Logit Multinomial)

Si 0b , la selección de alternativas es determinista (depende únicamente de la componente sistemática) y si b la selección es equiprobable.

El modelo logit multinomial es el más simple de los modelos de selección discreta. Se debe a Domenich y McFadden (1975) y presupone que los errores aleatorios de la utilidad son IID Gumbel.

La ley Gumbel es una ley de distribución de valores extremos, concretamente es el máximo de muchos valores aleatorios y capturan atributos no observables, medidas y errores de especificación. El aspecto clave reside en la independencia de las errores.




El paradigma teórico de la maximización de utilidad permite modelizar las aparentes irracionalidades:

aleatoriaasistemáticautoautoauto VU

1. Dos individuos con los mismos atributos observados y el mismo conjunto de alternativas pueden seleccionar opciones distintas.

2. No siempre los individuos seleccionan la alternativa con la utilidad sistemática (observada) máxima, ya que la componente aleatoria interviene en la selección.

3. Se requiere para que sea correcta la descomposición de la utilidad que los individuos sean homogeneos en el sentido que compartan el mismo conjunto de alternativas y sufran las mismas restricciones; éso se consigue segmentando la población.



9.5-3. SELECCIÓN DE ALTERNATIVAS DISCRETAS: MNL

kl il

ijijijililjliij bV

bVVVj

1exp

expmax

(MNL)

ijjijijij VU ijTjj

T wγxβ con errores iid Gumbel(0,1)

La determinación de las variables que van a ser incluídas en el modelos recae en estrategias de construcción de modelos estadísticos de regresión generalizada. Se pueden emplear procedimientos step(.) (stepwise existentes en los paquetes estadísticos) y comparar modelos mediante inferencia por diferencias de devianzas (si son encajados) o bien por AIC (Akaike Information Criteria) si no lo son. La explicabilidad del modelo final se puede cuantificar en base al coeficiente de determinación generalizado (R2 de Naglekerke). Se puede medir la capacidad predictiva mediante el estadístico c (área bajo la curva ROC). En cualquier caso, la selección del mejor modelo dada una colección de variables explicativas, recae en técnicas estandard de carácter estadístico.

Los modelos estadísticos de respuesta politómica toman una de las alternativas como de referencia y se estiman el resto de parámetros en términos relativos a la referencia. Cada alternativa tiene un término constante en la especificación de la utilidad sistemática, salvo la de referencia (se supone 0) y el resto de variables explicativas pueden ser:

Genéricas, ya que aparecen en la utilidad de todas las alternativas, con coeficientes idénticos

Específicas, sólo son aplicables a la utilidad de alguna de las alternativas.




9.5-3.1 Propiedades del modelo MNL

El modelo logit es aplicable como modelo de selección de alternativas (discretas) si:

1. Las variaciones individuales en los gustos están representadas en la componente sistemática (observable) de la utilidad. Si las variaciones del gustos son aleatorias (forman parte de la utilidad no observable) entonces no pueden tratarse mediante modelos logit.

2. El patrón de sustitución (efecto del cambio en alguna de las componentes observables de una alternativa) es proporcional entre las alternativas.

3. Si los factores no observables son independientes del tiempo en situaciones de selección repetida de alternativas. Si los factores no observables están correlacionadas en el tiempo no pueden capturarse mediante un modelo logit.

9.5-3.1.1 Variaciones individuales en los gustos

El valor o importancia de los factores que caracterizan las alternativas pueden variar según los individuos (enfrentados al proceso de selección). El precio de una tarifa de parking es más importante para los individuos con bajos ingresos que para los más ricos y ésta es una característica del individuo. Dos individuos con igual nivel socioeconómico pueden efectuar una elección distinta de tipo de vehículo, ya que depende de sus gustos individuales.




Por ejemplo, )/(€ hTarifaxxβVU ijjijijij , pero si se relaciona la tarifa con el salario medio por hora del individuo, entonces el efecto individual de la tarifa quedará absorbido en la componente observable y por tanto, no invalidará un modelo de selección logit donde se presenta una interacción de individuo-alternativa:

)/(€)/(€ hSalarioIhTarifaxIxVU iijijijijij

La limitación del modelo logit se da cuando se desea modelizar cambios en atributos no observables, es decir vinculados a la componente aleatoria de la utilidad. Por ejemplo, si se supone que la importancia de la tarifa tiene que ver con factores observables (salario) y no observables, de manera que iii bIθβ , donde ib no es observable; de ahí,

)/(€)/(€~ hSalarioIhTarifaxIxxbIxVU iijijijjiijijijij

Pero los errores ahora pueden ser correlacionados entre alternativas:

0 kijikkiijjiikij xbVxxbxbCOVCOV ,~,~y

cntVbVxxbVV ijijijjiij 2~ , la varianza no es constante en las distintas alternativas.

Cuando hay variaciones aleatorias de los gustos entonces los modelos logit facilitan una aproximación al gusto medio, pero para incorporarlas plenamente se necesita una modelización más compleja mediante modelos probit o logit mixtos.



9.5-3. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PROPIEDADES MNL

9.5-3.1.2 Patrones de sustitución Los patrones de sustitución son los cambios en la demanda (cuota de mercado de las alternativas) cuando los atributos observables cambian. Los modelos logit presentan un patrón de sustitución proporcional entre las alternativas y ésto puede verse como una restricción en el cociente de las cuotas de mercado (odds relativos) o bien en las elasticidades cruzadas de las probabilidades. El modelo satisface la independencia entre alternativas irrelevantes (IIA, Independence from Irrelevant Alternatives ) que puede formularse como:

Donde haya dos alternativas con probabilidad no nula de ser elegidas, el cociente de una sobre la otra (odds) no se ve afectado por la presencia o ausencia de ninguna alternativa entre todas las posibles.

referenciakVV

VVVV

rjir

ij

l ilir

l ilij

ir

iji

Trjrj

T

ir

ij wγγxxβw,xwx

expexpexp

expexpexpexp,

1. Observar que no depende de la utilidad de ninguna otra alternativa.

2. Si hubiera muchas alternativas, entonces McFadden demostró que se pueden obtener estimadores no sesgados de los parámetros si el modelo se estima a partir de una muestra aleatoria del conjunto de alternativas disponibles para cada individuo.

Esta propiedad se consideró beneficiosa porque permitía tratar el problema de la introducción de nuevas alternativas (no presentes en la etapa de calibración). Sin embargo, convierte el modelo en inválido en presencia de alternativas correlacionadas: paradoja del autobús rojo-azul.




9.5-3.1.2.1 Paradoja del autobús rojo-azul

Supóngase los habitantes de una ciudad pequeña que dispone de una única línea de autobús, no existen otros modos de transporte colectivo, y la única alternativa de transporte mecanizado disponible es el transporte privado (en alguna de sus modalidades que se consideran agrupadamente). Un estudio determina que la probabilidad de seleccionar un modo privado o el autobús para ir al centro de compras son equiprobables: P(privado)=0.5 y P(bus)=0.5 (odds de privado vs bus = 1).

Supóngase que se llega a pintar la mitad de la flota de rojo, y la otra mitad de azul, el nivel de servicio de la línea se mantiene igual. La selección modal por sentido común tendría que ser:

P(privado)=0.5 , P(bus rojo)=0.25 y P(bus azul)=0.25.

Selección Modal al Centro Selección Modal al Centro

Privado Bus Rojo Bus Azul Privado Bus

0.5 0.25 0.25 Sentido Común 0.5

Rojo Azul 0.33 0.33 0.33 MNL

0.5 0.5

El índice i indica individuo y j el modo, con valores arbitrarios j=1 privado, j=2 bus rojo y j=3 bus azul.




Si la utilidad percibida de cada modo viene reflejada en el valor del predictor lineal y ésta es constante, es decir nijpercntiij ,,,,x 131

, entonces el modelo de respuesta multinomial (MNL) daría como probabilidades de selección modal equiprobables,

nijpercntiij

r iir

iijiij ,,,,x

xexpxexp

x 13131

lo que va contra el sentido común.

El problema es que el modelo de respuesta multinomial, no jerárquico no es adecuado, ya que los odds entre 2 categorías (modos) únicamente dependen de las diferencias entre los predictores lineales (utilidades) de las 2 categorías, no se ve afectado por la utilidad de ninguna otra categoría, pero esto es un problema si existen alternativas correlacionadas como es el caso de bus rojo y bus azul.

En efecto, los odds entre categorías se mantienen constantes, tal como eran antes de la brillante idea de pintar de 2 colores la flota, (odds de privado vs bus rojo = 1, privado vs bus azul = 1 y bus rojo vs bus azul = 1). Un modelo jerárquico mantendría el sentido común: odds de privado vs bus = 1 y en el segundo nivel, odds de bus rojo vs bus azul = 1.




9.5-3.1.2.2 Elasticidad directa y cruzada

Si el cociente de probabilidades de dos alternativas cambia con la introducción de una nueva alternativa o bien por el cambio en la utilidad de una tercera, entonces no se cumple la independencia entre alternativas irrelevantes, que puede expresarse también en términos de elasticidades cruzadas de las probabilidades logit.

La elasticidad directa de la alternativa j a un atributo es el porcentaje de cambio en la probabilidad de usar la alternativa con respecto al cambio marginal de un atributo que forma parte de la utilidad (l-ésimo) y tiene por expresión:

lijlijijl

ij

ij

ijl

ijl

ijlijij

ijl

ij xx

xxx

1

loglog

1

La elasticidad cruzada directa es el porcentaje de cambio en la probabilidad de usar una alternativa con respecto al cambio marginal de un atributo de otra alternativa (fijemos el l-ésimo).

liklikikl

ij

ij

ikl

ikl

ijlijik

ikl

ij xx

xxx

loglog

Como consecuencia de la propiedad de independencia de alternativas irrelevantes, la elasticidad cruzada tiene un efecto idéntico en todas las alternativas (MNL es uniforme): una mejora en un atributo de una alternativa reduce la probabilidad del resto de alternativas en el mismo porcentaje. Este es un patrón de sustitución de decalaje proporcional. Patrones más complejos deben modelarse con modelos logit anidados, probit o logit mixto.




Por ejemplo, supóngase un reparto modal de auto, bus y metro de 0.4, 0.3 y 0.3. Si se mejora la calidad de la red de autobus sin ampliar su red y se consigue un incremento de la cuota de mercado del autobús del 0.3 al 0.37, entonces bajo un patrón de sustitución proporcional, implicaría que el decremento del auto y del metro sería proporcionalmente el mismo, es decir 0.36 y 0.27 para el auto y el metro. Este patrón no tiene porqué ser realista ya que es mucho más probable en un entorno urbano que el impacto se note más en el otro transporte público (el metro) que en el modo auto.

9.5-3.1.3 Beneficio al consumidor (consumer surplus) El anàlisis de la políticas de gestión del tráfico suelen evaluar el cambio percibido por el consumidor (utilidad). Por ejemplo, si se desea evaluar el impacto de la inclusión de un metro ligero, habrá que comparar costes de implantación con beneficios para los usuarios. Bajo la hipótesis logit, el beneficio para el consumidor toma una expresión cerrada y sencilla. Los ciudadanos seleccionan la alternativa modal que maximiza su utilidad y el

beneficio para el usuario es illii UβCS max1 donde dividir por iβ (valor absoluto del coeficiente de precio o de coste en la utilidad, muy crítica su precisión en la aplicación presentada) la utilidad marginal del ingreso es

IngresosXβdXdU ii : (derivada de la utilidad respecto los ingresos del individuo i, no depende de los ingresos es una constante), traslada la utilidad a unidades monetarias.

De ahí se puede demostrar que el beneficio esperado (€), es un término de log sum’s más una constante que se normaliza a 0:

cntVβVβUβCSl iliililliillii explogmaxmax 111



9.5-3. SELECCIÓN DE ALTERNATIVAS DISCRETAS: MÁS PROPIEDADES MNL

9.5-3.1.4 Rol del término independiente y choice-based samples El término independiente de la utilidad juega un rol de promedio de la parte de la utilidad no observada y todos los modelos con término independiente en la utilidad (salvo en la alternativa de referencia) cumplen el satisfacer las probabilidades marginales muestrales de las alternativas:

referenciakVVVV

jV

ikijik

ij

ik

ij

ik

iT

jjT

kr

ij wγxβw,xwx

expexpexpexp,

0

Si los individuos proceden de un m.a.s. entonces el promedio de las probabilidades predecidas por el modelo con

constantes específicas, ij , coincide con las probabilidades muestrales de las alternativas.

Si se intenta usar un modelo de elección discreta estimado en un estudio anterior para la predicción de las probabilidades individuales de elección de alternativa en la actualidad, entonces puede aparecer un ligero desajuste ya que las probabilidades marginales predecidas por el modelo pueden no ajustarse al reparto actual (cuota de mercado actual que puede conocerse a nivel agregado). La solución reside en actualizar convenientemente y en proceso iterativo las constantes específicas de alternativa en el modelo de elección discreta hasta que las probabilidades marginales predecidas coincidan con las probabilidades marginales de la realidad actual : los coeficientes de las variables explicativas son consistentes y deben mantenerse.



9.5-3. SELECCIÓN DE ALTERNATIVAS DISCRETAS: MÁS PROPIEDADES MNL

El rol de las constantes en la utilidad va más allá. A menudo si hay alternativas con poca cuota de mercado es habitual seleccionar para la estimación de los modelos discretos de elección muestras que no son m.a.s, es decir se seleccionan muestras donde se favorece la observación de elecciones con baja cuota de mercado; así se disponen de observaciones de las alternativas ‘raras’ sin necesidad de tener que aumentar demasiado la muestra (y por tanto el presupuesto destinado a la recogida de datos).

Si los planes de muestreo son complejos, la estimación de los parámetros de la utilidad pueden ser altamente complejos y requerir de software específico. Manski y Lerman (1977) demostraron un resultado muy útil que permite adaptar los modelos logit de selección discreta estimados bajo una muestra no aleatoria simple con los procedimientos habituales de la inferencia estadística. Si la utilidad contiene los términos independientes específicos de las alternativas y se estiman los modelos con la muestra choice-based y los procedimientos estadísticos habituales, entonces los estimadores de los coeficientes de las variables explicativas son consistentes con los que se obtendrían con una muestra aleatoria. Las constantes específicas de la utilidad en cada alternativa son sesgadas y deben reajustarse :

j

jjj CBS

MASlog

donde jMAS es la cuota de mercado de la alternativa j en la población y jCBS es la cuota de mercado en la muestra choice-based (no aleatoria).

Sólo es necesario disponer de las cuotas de mercado poblacionales a nivel agregado !



9.5-4. NLOGIT4.0: RESOLUCIÓN MODE-CHOICE GREENE ET AL

En los Data Set de NLOGIT: los datos originales del caso de estudio... Selección Modal (preferencias

reveladas) entre Sidney y Melbourne, GREENE CH 19 "ECONOMETRIC ANALYSIS" 5TH ED Table F21.2: Data Used to Study Travel Mode Choice, 840 Observations On 4 Modes For 210 Individuals.

Source: Greene and Hensher (1997). Son 210 individuos con información para cada modo.

Las alternativas : 1=Air, 2=Train, 3=Bus, 4=Car (Referencia).

? CLOGIT.DAT ? Original Data ? Mode = 0/1 for four alternatives: 1=Air, 2=Train, 3=Bus, 4=Car, ? Ttme = terminal waiting time, ? Invc = Invehicle cost for all stages, ? Invt = Invehicle time for all stages, ? Gc = Generalized cost measure = Invc + Invt þ value of time, ? Chair = Dummy variable for chosen mode is air, ? Hinc = Household income in thousands, ? Psize = Travelling party size. ? Transformed variables ? Indj = Indicator to select mode given not air, ? Indi = Indicator to select mode Air/Not air, ? Aasc = Choice specific dummy for Air, ? Tasc = Choice specific dummy for Train, ? Basc = Choice specific dummy for Bus, ? Casc = Choice specific dummy for Car, ? Psizea = Psize þ Aasc, ? Z = Tasc + Basc + Casc = Dummy variable for Not Air, ? Nij = 1 if Aasc = 1 and 3 if Aasc = 0, = number of choices in branch, ? Ni = 2 = number of branches in tree. read;nrec=840;nvar=19;names=mode,ttme,invc,invt,gc,chair,hinc, psize,indj,indi,aasc,tasc,basc,casc,hinca,psizea,z,nij,ni$ 0. 69. 59. 100. 70. 0. 35. 1. -2. 0. 1. 0. 0. 0. 35. 1. 0. 1. 2. 0. 34. 31. 372. 71. 0. 35. 1. 0. -1. 0. 1. 0. 0. 0. 0. 1. 3. 2. 0. 35. 25. 417. 70. 0. 35. 1. 0. -1. 0. 0. 1. 0. 0. 0. 1. 3. 2. 1. 0. 10. 180. 30. 0. 35. 1. 1. 1. 0. 0. 0. 1. 0. 0. 1. 3. 2. 0. 64. 58. 68. 68. 0. 30. 2. -2. 0. 1. 0. 0. 0. 30. 2. 0. 1. 2.

0. 44. 31. 354. 84. 0. 30. 2. 0. -1. 0. 1. 0. 0. 0. 0. 1. 3. 2.




Formato NLOGIT único:

Choice set dimension: cset (4, las posibilidades para un id en SP). Hay 2 escenarios por id (bloques).

Alternativa: una linea para cada id y bloque. Aquí 2 bloques con 4 individuos cada uno. Altij identifica número alternativa.

Choice: alternativa elegida (0 o 1).




Realizar una prospección de los datos mediante las técnicas estadísticas básicas conocidas (MCAID). The primary command for describing data is

DSTAT ; Rhs = a list of variables $

for descriptive statistics about your data. (See DSTAT for options.) You can request normal-quantile plots for your variables with ; Plot.

CROSSTAB ; Rhs = row variable ; Lhs = column variable $

for pairs of qualitative variables, PLOT to obtain scatter plots and time series (line) plots,

HISTOGRAM ; Rhs = variable $ --> Dstats;rhs=*$ Descriptive Statistics All results based on nonmissing observations. =============================================================================== Variable Mean Std.Dev. Minimum Maximum Cases Missing =============================================================================== ------------------------------------------------------------------------------ All observations in current sample ------------------------------------------------------------------------------ MODE | .250000 .433271 .000000 1.00000 840 0 TTME | 34.5893 24.9486 .000000 99.0000 840 0 INVC | 47.7607 32.3710 2.00000 180.000 840 0 INVT | 486.165 301.439 63.0000 1440.00 840 0 GC | 110.880 47.9784 30.0000 269.000 840 0 CHAIR | .276190 .447379 .000000 1.00000 840 0 HINC | 34.5476 19.6760 2.00000 72.0000 840 0 PSIZE | 1.74286 1.01035 1.00000 6.00000 840 0 INDJ | -.526190 1.23585 -2.00000 1.00000 840 0 INDI | -.250000 .829650 -1.00000 1.00000 840 0 AASC | .250000 .433271 .000000 1.00000 840 0 TASC | .250000 .433271 .000000 1.00000 840 0 BASC | .250000 .433271 .000000 1.00000 840 0 CASC | .250000 .433271 .000000 1.00000 840 0 HINCA | 8.63690 17.9121 .000000 72.0000 840 0 PSIZEA | .435714 .908527 .000000 6.00000 840 0 Z | .750000 .433271 .000000 1.00000 840 0 NIJ | 2.50000 .866541 1.00000 3.00000 840 0

NI | 2.00000 .000000 2.00000 2.00000 840 0




Comando NLOGIT para la estimación de modelos de elección discretos MNL y Nested Logit: NLOGIT Model There are a total of NALT alternatives in the choice set. The model is based on a 4 level tree structure. There may be up to 85 elemental alternatives (twigs), a total of 25 branches in the tree, 10 limbs in the tree, and 5 trunks. The model may contain one or more limbs. Each limb may contain one or more branches, and each branch may contain one or more twigs (choices). NLOGIT Usage Types of Observations: Data on the dependent variable may come in 4 forms: · Individual data: The Lhs variable consists of 0s and a 1 which indicates the choice that the individual made. · Proportions data: The Lhs variable consists of a set of sample proportions. The values are all between 0 and 1 and they sum to 1 over the set of choices in the choice set. · Frequency data: The Lhs variable consists of a set of frequency counts for the outcomes. Frequencies are integers. · Ranks: The Lhs variable consists of a complete set of ranks of the alternatives in the individual's choice set. Thus, if there are J alternatives available, the observation will consist of a full set of integers 1,...,J which indicate the individual's ranking of the alternatives. NLOGIT Command The mandatory command for this model is NLOGIT; Lhs = choice variable..... $ ; Choices = list of alternatives ; Tree = tree structure ; Model: Model structure $



9.5-4. NLOGIT4.0: RESOLUCIÓN MODE-CHOICE GREENE ET AL ; Lhs = the name of the choice variable. Must be coded 0/1, with only 1 record, the choice made, receiving the value 1.Note there may be two additional Lhs variables for the case in which the choice set varies across individuals. See the description below. Ranks data are specified by adding ; CHOICES = the list of labels for the alternatives. Use names with 8 or fewer characters, using LIMDEP's usual conventions. ; MODEL: gives the model structure. Gives the choice equations. Note the colon after the word MODEL. TREE Structure { } trunk specifies a trunk [ ] specifies a limb. ( ) specifies a branch within a limb Groups contain names of lower level entities. For example: Travel[(air,bus),(train,car)] MODEL structure specifies the equations The basic building block is the ‘utility function’ which defines the variables in the model and the parameters to be estimated. Utility functions are built up from the format U( choice ) = linear equation. Inclusive Value Parameters As noted earlier, there is an inclusive value parameter for each limb and for each branch in the model. For example, in the tree ; CHOICES = Air,Bus,Train,Car ; TREE = Travel[Public(Bus,Train), Private(Air,Car)]



9.5-4. NLOGIT4.0: RESOLUCIÓN MODE-CHOICE GREENE ET AL Along with the other parameters, we estimate t(Public:Travel), t(Private:Travel), s(Travel). To use these features, you add the specification ; IVSET: ... specification (see below) Note, once again, the presence of a colon in this specification. For purposes of this specification, ts and s s are treated the same. To force parameters to be equal, put the names of the branches and/or limbs together in parentheses in the IVSET specification. Other options: Elasticidades directas o cruzadas ; EFFECTS: variable ( list of outcomes ) You may request a set of descriptive statistics for your model by adding ;DESCRIBE to the model command. This will produce two sets of results. First, for each alternative, a table is given which lists the nonzero terms in the utility function and the means and standard deviations for the variables that appear in the utility function. ; CROSSTAB to request a cross tabulation of predicted outcome (the one with maximum predicted probability) against actual outcome. Other Optional Features: Restricted Choice Sets ; Lhs = Choice,Number of choices,Choice Set CHOICE,NALTI,ALTIJ. For restricted choice sets. Choice Based Sampling: ; CHOICES = list of labels / list of weights. Weights must be positive and sum to 1.0. Output Options ; KEEP = name to save predicted probabilities as a variable.




1. Calcular el modelo logit condicional donde intervengan las variables coste de viaje (invc) y tiempo de viaje in vehicle de las 4 alternativas: con constantes específicas de alternativa. Validar la consistencia de los partworths y su significación estadística. Comprobar si las predicciones del modelo agregadas coinciden con la cuota de mercado de las alternativas en la muestra. Calcular la disponibilidad a pagar dinero extra por cada unidad de reducción del tiempo de viaje (valorar).

--> nlogit ¿ Model NUL ;lhs=MODE ; CHOICES = Air,Bus,Train,Car ;model: U(Air)= ascAir/ U(Bus)= ascBus/ U(Train)= ascTrain $ +---------------------------------------------+ | Discrete choice and multinomial logit models| +---------------------------------------------+ Normal exit from iterations. Exit status=0. +---------------------------------------------+ | Discrete choice (multinomial logit) model | | Maximum Likelihood Estimates | | Model estimated: Apr 01, 2009 at 01:14:05PM.| | Dependent variable Choice | | Weighting variable None | | Number of observations 210 | | Iterations completed 1 | | Log likelihood function -283.7588 | | Number of parameters 3 | | Info. Criterion: AIC = 2.73104 | | Finite Sample: AIC = 2.73159 | | Info. Criterion: BIC = 2.77885 | | Info. Criterion:HQIC = 2.75037 | | R2=1-LogL/LogL* Log-L fncn R-sqrd RsqAdj | | Constants only -283.7588 .00000 -.00478 | | Response data are given as ind. choice. | | Number of obs.= 210, skipped 0 bad obs. | +---------------------------------------------+



9.5-4. NLOGIT4.0: RESOLUCIÓN MODE-CHOICE GREENE ET AL +---------------------------------------------+ | Notes No coefficients=> P(i,j)=1/J(i). | | Constants only => P(i,j) uses ASCs | | only. N(j)/N if fixed choice set. | | N(j) = total sample frequency for j | | N = total sample frequency. | | These 2 models are simple MNL models. | | R-sqrd = 1 - LogL(model)/logL(other) | | RsqAdj=1-[nJ/(nJ-nparm)]*(1-R-sqrd) | | nJ = sum over i, choice set sizes | +---------------------------------------------+ +--------+--------------+----------------+--------+--------+ |Variable| Coefficient | Standard Error |b/St.Er.|P[|Z|>z]| +--------+--------------+----------------+--------+--------+ ASCAIR | -.01709443 .18490682 -.092 .9263 ASCBUS | .06559728 .18116889 .362 .7173 ASCTRAIN| -.67634006 .22423757 -3.016 .0026

Escribid las utilidades modales sistemáticas con el modelo nulo.

Determinar las probabilidades modales predichas bajo el modelo nulo.

Siguiente paso, calcular el modelo nulo con comandos específicos para facilitar información mostral y de las predicciones:

--> nlogit ;lhs=MODE ; CHOICES = Air,Bus,Train,Car ;Crosstab ;Show ;Descriptives ;Means ;Pwt ;model: U(Air)= ascAir/ U(Bus)= ascBus/ U(Train)= ascTrain ; Utility=uti0 ; Prob = prob0 $



| Constants only => P(i,j) uses ASCs | | only. N(j)/N if fixed choice set. | | N(j) = total sample frequency for j | | N = total sample frequency. | | These 2 models are simple MNL models. | | R-sqrd = 1 - LogL(model)/logL(other) | | RsqAdj=1-[nJ/(nJ-nparm)]*(1-R-sqrd) | | nJ = sum over i, choice set sizes | +---------------------------------------------+ +--------+--------------+----------------+--------+--------+ |Variable| Coefficient | Standard Error |b/St.Er.|P[|Z|>z]| +--------+--------------+----------------+--------+--------+ ASCAIR | -.01709443 .18490682 -.092 .9263 ASCBUS | .06559728 .18116889 .362 .7173 ASCTRAIN| -.67634006 .22423757 -3.016 .0026 +-------------------------------------------------------------------------+ | Descriptive Statistics for Alternative AIR : | Utility Function | | 58.0 observs. | | Coefficient | All 210.0 obs.|that chose AIR | | Name Value Variable | Mean Std. Dev.|Mean Std. Dev. | | ------------------- -------- | -------------------+------------------- | | ASCAIR -.0171 ONE | 1.000 .000| 1.000 .000 | +-------------------------------------------------------------------------+ +-------------------------------------------------------------------------+ | Descriptive Statistics for Alternative BUS : | Utility Function | | 63.0 observs. | | Coefficient | All 210.0 obs.|that chose BUS | | Name Value Variable | Mean Std. Dev.|Mean Std. Dev. | | ------------------- -------- | -------------------+------------------- | | ASCBUS .0656 ONE | 1.000 .000| 1.000 .000 | +-------------------------------------------------------------------------+ +-------------------------------------------------------------------------+ | Descriptive Statistics for Alternative TRAIN : | Utility Function | | 30.0 observs. | | Coefficient | All 210.0 obs.|that chose TRAIN | | Name Value Variable | Mean Std. Dev.|Mean Std. Dev. | | ------------------- -------- | -------------------+------------------- | | ASCTRAIN -.6763 ONE | 1.000 .000| 1.000 .000 | +-------------------------------------------------------------------------+ ------------------------------------------------------+ | Cross tabulation of actual vs. predicted choices. | | Row indicator is actual, column is predicted. | | Predicted total is F(k,j,i)=Sum(i=1,...,N) P(k,j,i). | | Column totals may be subject to rounding error. |



9.5-4. NLOGIT4.0: RESOLUCIÓN MODE-CHOICE GREENE ET AL Matrix Crosstab has 5 rows and 5 columns. AIR BUS TRAIN CAR Total +---------------------------------------------------------------------- AIR | 16.00000 17.00000 8.00000 16.00000 58.00000 BUS | 17.00000 19.00000 9.00000 18.00000 63.00000 TRAIN | 8.00000 9.00000 4.00000 8.00000 30.00000 CAR | 16.00000 18.00000 8.00000 17.00000 59.00000

Total | 58.00000 63.00000 30.00000 59.00000 210.00000

Siguiente paso, calcular el modelo M1 con coeficientes genéricos del tiempo y coste del viaje en vehículo, con comandos específicos para facilitar información mostral y de las predicciones:

--> nlogit ;lhs=Mode ;choices=Air,Bus,Train,Car ;Crosstab ;Show ;model: U(Air)= ascAir+cst*INVC+time*INVT / U(Bus)= ascBus+cst*INVC+time*INVT / U(Train)= ascTrain +cst*INVC+time*INVT / U(Car)= cst*INVC+time*INVT ; Utility=uti1 ; Prob = prob1 $ +---------------------------------------------+ | Discrete choice and multinomial logit models| +---------------------------------------------+ +---------------------------------------------------------------+ | Model Specification: Table entry is the attribute that | | multiplies the indicated parameter. | +--------+------+-----------------------------------------------+ | Choice |******| Parameter | | |Row 1| ASCAIR CST TIME ASCBUS ASCTRAIN | +--------+------+-----------------------------------------------+ |AIR | 1| Constant INVC INVT none none | |BUS | 1| none INVC INVT Constant none | |TRAIN | 1| none INVC INVT none Constant | |CAR | 1| none INVC INVT none none | +---------------------------------------------------------------+ Normal exit from iterations. Exit status=0. +---------------------------------------------+




Siguiente paso, calcular el modelo M2 con coeficientes específicos del tiempo y coste del viaje en vehículo, con comandos para facilitar información mostral y de las predicciones.

--> nlogit ;lhs=Mode ;choices=Air,Bus,Train,Car ;Crosstab ?;Show ;Descriptives ;Effects: INVT(*) ;Means ;Pwt ;model: U(Air)= ascAir+cstAir*INVC+timeAir*INVT / U(Bus)= ascBus+cstBus*INVC+timeBus*INVT / U(Train)= ascTrain +cstTrain*INVC+timeTrain*INVT / U(Car)= cstCar*INVC+timeCar*INVT ; Utility=uti2 ; Prob = prob2 $ +---------------------------------------------+ | Discrete choice (multinomial logit) model Maximum Likelihood Estimates | | Model estimated: Apr 01, 2009 at 01:47:54PM.| | Dependent variable Choice | | Weighting variable None | | Number of observations 210 | | Iterations completed 6 | | Log likelihood function -235.8664 | | Number of parameters 11 | | Info. Criterion: AIC = 2.35111 | | Finite Sample: AIC = 2.35746 | | Info. Criterion: BIC = 2.52643 | | Info. Criterion:HQIC = 2.42199 | | R2=1-LogL/LogL* Log-L fncn R-sqrd RsqAdj | | Constants only -283.7588 .16878 .15401 | | Chi-squared[ 8] = 95.78475 | | Prob [ chi squared > value ] = .00000 | | Response data are given as ind. choice. | | Number of obs.= 210, skipped 0 bad obs. | +---------------------------------------------+ |Variable| Coefficient | Standard Error |b/St.Er.|P[|Z|>z]| +--------+--------------+----------------+--------+--------+ ASCAIR | .42125753 .75646562 .557 .5776 CSTAIR | .00818520 .00875407 .935 .3498 TIMEAIR | -.03664161 .00680296 -5.386 .0000



ASCBUS | .92693265 .47328770 1.958 .0502 CSTBUS | -.03905995 .01068841 -3.654 .0003 TIMEBUS | -.00403775 .00147775 -2.732 .0063 ASCTRAIN| -.25112335 .67535088 -.372 .7100 CSTTRAIN| -.984725D-04 .02889707 -.003 .9973 TIMETRAI| -.00623301 .00177424 -3.513 .0004 CSTCAR | -.06518545 .01885772 -3.457 .0005 TIMECAR | -.00386007 .00119656 -3.226 .0013 +------------------------------------------------------+ | Cross tabulation of actual vs. predicted choices. | | Row indicator is actual, column is predicted. | | Predicted total is F(k,j,i)=Sum(i=1,...,N) P(k,j,i). | | Column totals may be subject to rounding error. | +------------------------------------------------------+ Matrix Crosstab has 5 rows and 5 columns. AIR BUS TRAIN CAR Total +---------------------------------------------------------------------- AIR | 21.00000 13.00000 9.00000 14.00000 58.00000 BUS | 14.00000 29.00000 7.00000 14.00000 63.00000 TRAIN | 9.00000 7.00000 8.00000 7.00000 30.00000 CAR | 14.00000 14.00000 7.00000 24.00000 59.00000 Total | 58.00000 63.00000 30.00000 59.00000 210.00000 +---------------------------------------------------+ | Elasticity averaged over observations.| | Attribute is INVT in choice AIR | | Effects on probabilities of all choices in model: | | * = Direct Elasticity effect of the attribute. | | Mean St.Dev | | * Choice=AIR -2.5200 1.4359 | | Choice=BUS .8371 .8017 | | Choice=TRAIN 1.2109 1.0264 | | Choice=CAR .9678 .8144 | +---------------------------------------------------+ +---------------------------------------------------+ | Elasticity averaged over observations.| | Attribute is INVT in choice BUS | | Effects on probabilities of all choices in model: | | * = Direct Elasticity effect of the attribute. | | Mean St.Dev | | Choice=AIR .4897 .3911 | | * Choice=BUS -1.2519 .8436 | | Choice=TRAIN .6157 .4075 | | Choice=CAR .5423 .3149 | +---------------------------------------------------+ +---------------------------------------------------+

| Elasticity averaged over observations.| | Attribute is INVT in choice TRAIN | | Effects on probabilities of all choices in model: | | * = Direct Elasticity effect of the attribute. | | Mean St.Dev | | Choice=AIR .5427 .3979 | | Choice=BUS .4637 .3960 | | * Choice=TRAIN -3.0415 1.2180 | | Choice=CAR .5179 .4306 | +---------------------------------------------------+ +---------------------------------------------------+ | Elasticity averaged over observations.| | Attribute is INVT in choice CAR | | Effects on probabilities of all choices in model: | | * = Direct Elasticity effect of the attribute. | | Mean St.Dev | | Choice=AIR .4850 .4021 | | Choice=BUS .4409 .3643 | | Choice=TRAIN .5739 .4241 | | * Choice=CAR -1.2393 .7594 | +---------------------------------------------------+





Siguiente paso, calcular el modelo M3 con coeficiente específico del tiempo y genérico del coste del viaje en vehículo, con comandos para facilitar información mostral y de las predicciones.

? Model M3: Variables genèriques Cost i Temps In vehicle i coeficients específics Només Temps nlogit ;lhs=Mode ;choices=Air,Bus,Train,Car ;Crosstab ;Show ;Descriptives ;Effects:INVT(*) ;Means ;Pwt ;model: U(Air)= ascAir+cst*INVC+timeAir*INVT / U(Bus)= ascBus+cst*INVC+timeBus*INVT / U(Train)= ascTrain +cst*INVC+timeTrain*INVT / U(Car)= cst*INVC+timeCar*INVT ; Utility=uti3 ; Prob = prob3 $ +---------------------------------------------+ | Discrete choice (multinomial logit) model | | Maximum Likelihood Estimates | | Model estimated: Apr 01, 2009 at 02:07:20PM.| | Dependent variable Choice | | Weighting variable None | | Number of observations 210 | | Iterations completed 6 | | Log likelihood function -247.7482 | | Number of parameters 8 | | Info. Criterion: AIC = 2.43570 | | Finite Sample: AIC = 2.43911 | | Info. Criterion: BIC = 2.56321 | | Info. Criterion:HQIC = 2.48724 | | R2=1-LogL/LogL* Log-L fncn R-sqrd RsqAdj | | Constants only -283.7588 .12691 .11568 |

| Chi-squared[ 5] = 72.02111 | | Prob [ chi squared > value ] = .00000 | | Response data are given as ind. choice. | | Number of obs.= 210, skipped 0 bad obs. | +---------------------------------------------+ +--------+--------------+----------------+--------+--------+ |Variable| Coefficient | Standard Error |b/St.Er.|P[|Z|>z]| +--------+--------------+----------------+--------+--------+ ASCAIR | 1.68090591 .67959690 2.473 .0134 CST | -.01672435 .00634037 -2.638 .0083 TIMEAIR | -.03567867 .00648493 -5.502 .0000 ASCBUS | 1.05682229 .46882900 2.254 .0242 TIMEBUS | -.00734251 .00112654 -6.518 .0000 ASCTRAIN| .06764355 .64213168 .105 .9161 TIMETRAI| -.00713547 .00130589 -5.464 .0000 TIMECAR | -.00691560 .00108197 -6.392 .0000





2. Se van a entrar variables socioeconómicas en el modelo: Opción 1 - se dividirá el coste de viaje in-vehicle (invc) por el ingreso (income). Opción 2 – Se introduce el income con partworth específico por alternativa (modelo combinado). Valorar los modelos y compararlos entre ellos estadísticamente.

--> nlogit ;lhs=Mode ;choices=Air,Bus,Train,Car ;Crosstab ;Means ;model: U(Air)= ascAir+cst*InvcInco+timeAir*INVT / U(Bus)= ascBus+cst*InvcInco+timeBus*INVT / U(Train)= ascTrain +cst*InvcInco+timeTrain*INVT / U(Car)= cst*InvcInco+timeCar*INVT ; Utility=uti4 ; Prob = prob4 $ +---------------------------------------------+ | Discrete choice and multinomial logit models| +---------------------------------------------+ Normal exit from iterations. Exit status=0. +---------------------------------------------+ | Discrete choice (multinomial logit) model | | Maximum Likelihood Estimates | | Model estimated: Apr 01, 2009 at 03:43:09PM.| | Dependent variable Choice | | Weighting variable None | | Number of observations 210 | | Iterations completed 6 | | Log likelihood function -249.4726 | | Number of parameters 8 | | Info. Criterion: AIC = 2.45212 | | Finite Sample: AIC = 2.45553 | | Info. Criterion: BIC = 2.57963 | | Info. Criterion:HQIC = 2.50367 |

| R2=1-LogL/LogL* Log-L fncn R-sqrd RsqAdj | | Constants only -283.7588 .12083 .10952 | | Chi-squared[ 5] = 68.57227 | | Prob [ chi squared > value ] = .00000 | | Response data are given as ind. choice. | | Number of obs.= 210, skipped 0 bad obs. | +---------------------------------------------+ +---------------------------------------------+ | Notes No coefficients=> P(i,j)=1/J(i). | | Constants only => P(i,j) uses ASCs | | only. N(j)/N if fixed choice set. | | N(j) = total sample frequency for j | | N = total sample frequency. | | These 2 models are simple MNL models. | | R-sqrd = 1 - LogL(model)/logL(other) | | RsqAdj=1-[nJ/(nJ-nparm)]*(1-R-sqrd) | | nJ = sum over i, choice set sizes | +---------------------------------------------+ +--------+--------------+----------------+--------+--------+ |Variable| Coefficient | Standard Error |b/St.Er.|P[|Z|>z]| +--------+--------------+----------------+--------+--------+ ASCAIR | 1.18464707 .64041910 1.850 .0643 CST | -.09422046 .05037766 -1.870 .0614 TIMEAIR | -.03764330 .00669276 -5.624 .0000 ASCBUS | .99544626 .46092896 2.160 .0308 TIMEBUS | -.00778618 .00115118 -6.764 .0000 ASCTRAIN| -.06838297 .62977555 -.109 .9135 TIMETRAI| -.00704920 .00131529 -5.359 .0000 TIMECAR | -.00678909 .00108827 -6.238 .0000

Modelo Opción 1.a: coeficiente específico de tiempo (INVT) y genérico de InvcInco (Invc/Hinc).



9.5-4. NLOGIT4.0: RESOLUCIÓN MODE-CHOICE GREENE ET AL --> nlogit ;lhs=Mode ;choices=Air,Bus,Train,Car ;Crosstab ;Means ;model: U(Air)= ascAir+cst*InvcInco+time*INVT / U(Bus)= ascBus+cst*InvcInco+time*INVT / U(Train)= ascTrain +cst*InvcInco+time*INVT / U(Car)= cst*InvcInco+time*INVT ; Utility=uti5 ; Prob = prob5 $ +---------------------------------------------+ | Discrete choice and multinomial logit models| +---------------------------------------------+ Normal exit from iterations. Exit status=0. +---------------------------------------------+ | Discrete choice (multinomial logit) model | | Maximum Likelihood Estimates | | Model estimated: Apr 01, 2009 at 03:50:46PM.| | Dependent variable Choice | | Weighting variable None | | Number of observations 210 | | Iterations completed 5 | | Log likelihood function -267.8610 | | Number of parameters 5 | | Info. Criterion: AIC = 2.59868 | | Finite Sample: AIC = 2.60008 | | Info. Criterion: BIC = 2.67837 |

| Info. Criterion:HQIC = 2.63089 | | R2=1-LogL/LogL* Log-L fncn R-sqrd RsqAdj | | Constants only -283.7588 .05603 .04847 | | Chi-squared[ 2] = 31.79552 | | Prob [ chi squared > value ] = .00000 | | Response data are given as ind. choice. | | Number of obs.= 210, skipped 0 bad obs. | +---------------------------------------------+ +---------------------------------------------+ | Notes No coefficients=> P(i,j)=1/J(i). | | Constants only => P(i,j) uses ASCs | | only. N(j)/N if fixed choice set. | | N(j) = total sample frequency for j | | N = total sample frequency. | | These 2 models are simple MNL models. | | R-sqrd = 1 - LogL(model)/logL(other) | | RsqAdj=1-[nJ/(nJ-nparm)]*(1-R-sqrd) | | nJ = sum over i, choice set sizes | +---------------------------------------------+ +--------+--------------+----------------+--------+--------+ |Variable| Coefficient | Standard Error |b/St.Er.|P[|Z|>z]| +--------+--------------+----------------+--------+--------+ ASCAIR | -1.46868621 .41458015 -3.543 .0004 CST | -.08515545 .04853352 -1.755 .0793 TIME | -.00370198 .00072202 -5.127 .0000 ASCBUS | .29776404 .19200089 1.551 .1209 ASCTRAIN| -.39463742 .23317449 -1.692 .0906

Modelo Opción 1.b: coeficiente genérico de tiempo (INVT) y genérico de InvcInco (Invc/Hinc).




--> nlogit ;lhs=Mode ;choices=Air,Bus,Train,Car ;Crosstab ;Means ;model: U(Air)= ascAir+cst*INVC+time*INVT + ingrAir*HINC / U(Bus)= ascBus+cst*INVC+time*INVT + ingrBus*HINC / U(Train)= ascTrain +cst*INVC+time*INVT + ingrTrain*HINC / U(Car)= cst*INVC+time*INVT ; Utility=uti6 ; Prob = prob6 $ +---------------------------------------------+ | Discrete choice and multinomial logit models| +---------------------------------------------+ Normal exit from iterations. Exit status=0. +---------------------------------------------+ | Discrete choice (multinomial logit) model | | Maximum Likelihood Estimates | | Model estimated: Apr 01, 2009 at 04:03:16PM.| | Dependent variable Choice | | Weighting variable None | | Number of observations 210 | | Iterations completed 5 | | Log likelihood function -249.2565 | | Number of parameters 8 | | Info. Criterion: AIC = 2.45006 | | Finite Sample: AIC = 2.45347 | | Info. Criterion: BIC = 2.57757 | | Info. Criterion:HQIC = 2.50161 | | R2=1-LogL/LogL* Log-L fncn R-sqrd RsqAdj | | Constants only -283.7588 .12159 .11029 | | Chi-squared[ 5] = 69.00454 | | Prob [ chi squared > value ] = .00000 | | Response data are given as ind. choice. | | Number of obs.= 210, skipped 0 bad obs. | +---------------------------------------------+

+---------------------------------------------+ | Notes No coefficients=> P(i,j)=1/J(i). | | Constants only => P(i,j) uses ASCs | | only. N(j)/N if fixed choice set. | | N(j) = total sample frequency for j | | N = total sample frequency. | | These 2 models are simple MNL models. | | R-sqrd = 1 - LogL(model)/logL(other) | | RsqAdj=1-[nJ/(nJ-nparm)]*(1-R-sqrd) | | nJ = sum over i, choice set sizes | +---------------------------------------------+ +--------+--------------+----------------+--------+--------+ |Variable| Coefficient | Standard Error |b/St.Er.|P[|Z|>z]| +--------+--------------+----------------+--------+--------+ ASCAIR | -1.15318314 .70809016 -1.629 .1034 CST | -.00857568 .00625986 -1.370 .1707 TIME | -.00350123 .00074674 -4.689 .0000 INGRAIR | .00242978 .01045473 .232 .8162 ASCBUS | 2.07164796 .43003877 4.817 .0000 INGRBUS | -.05089720 .01207390 -4.215 .0000 ASCTRAIN| .81928195 .50127287 1.634 .1022 INGRTRAI| -.03268347 .01296784 -2.520 .0117 +------------------------------------------------------+ | Cross tabulation of actual vs. predicted choices. | | Row indicator is actual, column is predicted. | | Predicted total is F(k,j,i)=Sum(i=1,...,N) P(k,j,i). | | Column totals may be subject to rounding error. | +------------------------------------------------------+ Matrix Crosstab has 5 rows and 5 columns. AIR BUS TRAIN CAR Total +---------------------------------------------------------------------- AIR | 18.00000 14.00000 8.00000 19.00000 58.00000 BUS | 12.00000 29.00000 9.00000 12.00000 63.00000 TRAIN | 9.00000 8.00000 6.00000 6.00000 30.00000 CAR | 19.00000 12.00000 7.00000 22.00000 59.00000 Total | 58.00000 63.00000 30.00000 59.00000 210.00000

Modelo Opción 2: coeficiente genérico de tiempo (INVT) y coste (INVC) – Var. Individuo HINC (Ingresos)



9.5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: HL (LOGIT JERARQUICO)

9.5-5.1 Formulación del modelo logit jerárquico

Considérese la estructura de vector aleatorio para todas las posibles alternativas seleccionables por el individuo n-ésimo.

Si entonces aparece el modelo probit multinomial, para el que no hay una expresión cerrada para las probabilidades de las alternativas y se debe recurrir a integración numérica.

En el caso MNL, ),0( Gumbeln con JI2 y es la matriz de varianzas-covarianzas del vector aleatorio de errores de las utilidades de las alternativas.

El MNL es extremadamente simple y puede no ajustarse a la realidad de la selección de alternativas cuando éstas no son independientes (es decir, hay grupos de alternativas más similares que otras, como los distintos modos de transporte público versus el auto privado).

Tampoco resulta posible modelar las variaciones aleatorias en los gustos según los usuarios (es decir, la percepción de la tarifa varía con la renta, pero la variable percepción de la tarifa no es medible), en cuyo caso hay que trabajar con modelos de efectos aleatorios, en lugar de efectos fijos.

Los modelos probit multinomiales permiten más capacidad modelística, pero no son tratables en general. Otra extensión posible de los MNL son los modelos generalizados de valor extremo (GEV models), que se expondrán en el próximo apartado.



9.5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: LOGIT JERÁRQUICO

Una situación en que la estructura del proceso de selección alternativas se puede jerarquizar parece adecuado para los procesos combinados de selección de destino y modo de transporte. Primer nivel con la selección del destino y segundo nivel de la jerarquía de selección del modo de transporte. La función de utilidad se puede proponer con:

U(d, m) = U(d) + U(m | d )= V(d) + V(m | d )+ ε(d) + ε(m | d )

U(d) es la parte de la utilidad asociada al destino d y U(m | d ) es la parte de utilidad vinculada al coste de viaje con el modo m, dado que se ha elegido el destino d.

Se puede demostrar que si las componentes aleatorias ε son i.i.d Gumbel por niveles, entonces bajo ciertas

condiciones ( 21 bb ) aparece el modelo logit jerárquico o logit anidado (nested logit, Williams 1977), con una ecuación para la probabilidad conjunta:

r s iidsiiriir

iidmiidiidiidm bVbVV

bVbVV

12*

12*

expexpexpexp

xxxxxxx

con

s iidsiid bVbV 11

* explog xx

Las alternativas se agrupan en bloques de alternativas correlacionadas, no pueden haber alternativas de un grupo correlacionadas con alternativas de otro grupo.



A-Auto I-Taxi B-Bus M-Metro

T-transit


Se puede ver, que para un mismo destino, la estructura jeràrquica refleja una correlación ligada al término ε(d), U(d, m) = U(d) + U(m | d )= V(d) + V(m | d )+ ε(d) + ε(m | d ) U(d, m’) = U(d) + U(m’ | d)= V(d) + V(m’ | d )+ ε(d) + ε(m’ | d )

Si los ε(d)’s tienen covarianzas 0 entonces el HL se convierte en MNL.

Por cuestiones de identificabilidad, se suele suponer que 121 bb . La utilidad esperada compuesta de un nodo no terminal tiene dos elementos la parte EMU (Expected Maximum Utility) más la parte de variables comunes de todas las alternativas del nodo.

EMU: =

MBs iiTsiiT wVwV,

* explog

iT

iiiT zEMUzwV ,

Donde

zw

x, con z variables con valores comunes

al nodo T y w las variables específicas de alternativa dentro del nodo T. T , son parámetros a estimar.




9.5-5.2 Modelos de valor extremo generalizado (GEV)

Estos modelos constituyen una generalización de la propuesta logit que permite patrones de sustitución más complejos que el decalaje proporcional. Son modelos en que la parte no observable de la utilidad en las distintas alternativas muestra una distribución conjunta de Valor Extremo Generalizado. Esta distribución permite correlaciones entre las componentes aleatorias de la utilidad, pero si las correlaciones son cero entonces a un modelo logit (MNL) :la distribución conjunta es producto de distribuciones Gumbel. Los modelos logit jerárquicos son los representantes más conocidos de la familia de modelos GEV.

9.5-5.3 Propiedades del modelo logit jerárquico (nested logit)

Son modelos apropiados cuando el conjunto de alternativas puede descomponerse en subconjuntos jerárquicos denominados nidos o nodos (nests ). La estructura logit jerárquica se puede representar de manera arborescente, con árboles n-arios y de profundidad variable según las ramas. Se deben cumplir las siguientes propiedades:

Si dos alternativas estan en el mismo nodo, entonces el cociente de probabilidades es independiente de los atributos o de la existencia de todas las otras alternativas. IIA se cumple dentro del nodo.

Si dos alternativas están en nodos distintos, entonces su cociente de probabilidades puede depender de los atributos de otras alternativas de los dos nodos, pero no de alternativas de otros nodos.




McFadden y Williams demostraron por vías distintas e independientes que los modelos logit jerárquicos son consistentes con la teoría de la maximización de la utilidad. Sean las K alternativas particionadas en J

subconjuntos disjuntos, denominados JBB1 . La utilidad percibida por el individuo i-ésimo responde a una componente sistemática más una aleatoria,

ijjijijij VU iT

jjT wγxβ con errores de distribución de valor extremo generalizada con una

función de distribución

J

jBl jilj

1expexp

donde j mide el grado de dependencia en la parte no observable de la utilidad entre las alternativas del nodo j.

Si 1j entonces independencia intra nodo.

Si 0j entonces máxima dependencia intra nodo.

Las il ’s están correlacionadas dentro del mismo nodo, pero no lo están si pertenecen a nodos distintos.

Si todas las j son 1, entonces el logit jerárquico colapsa a logit MNL.

La probabilidad para la alternativa m del nodo j es,

J

jBl jilBl jiljimim

j

j

j

jVVV

1

1 expexpexp




Los odds para las alternativas m y m’ pertenecientes a nodos distintos y notados j y j’ son:

1

1

'

' '''' expexp

expexpj

j

j

j

Bl jiljim

Bl jiljim

im

im

VV

VV

independencia entre alternativas de nodos irrelevantes (IIN)

Los odds para las alternativas m y m’ pertenecientes al mismo nodo j: jim

jim

im

im

VV

'' expexp

.




9.5-5.4 Caso particular: árbol de dos niveles

La utilidad observada se descompone en dos partes: una parte constante para las alternativas de un nodo concreto (W, variable entre nodos) y una parte que varía según las alternativas del nodo (Y, variable intranodo), de manera que la utilidad se puede reescribir para el modo m dentro del nodo j y el individuo i, como:

imimijimimim YWVU

Ahora se puede reescribir la probabilidad conjunta logit jerárquica como producto de los probabilidades logit, una marginal por una condicional, es decir la probabilidad de elegir la alternativa m dentro del nodo j, es la probabilidad marginal de elegir el nodo j por la probabilidad condicional de elegir el modo m dado que se ha elegido el nodo j, ambas probabilidades toman la forma funcional de las probabilidades logit en el caso jerárquico de 2 niveles:

j

j

j

l

j

jj

Bkjikij

BkjikjimBim

BlililjijijiB

jij

BimiBim

YI

YYπ

IWIWπ

IEMUUtiliyMaximumExpected

πππ

explog

expexp

expexp

)(

||

Hay que notar que los coeficientes del modelo de nivel inferior están divididos por j que afecta a su vez en la definición de la utilidad esperada por nodo, de otro modo se pierde la consistencia con el paradigma de maximización de utilidad.




j es un parámetro a estimar y refleja el grado de independencia entre la parte no observada de la utilidad en el nodo j.

ijI se denomina utilidad inclusiva del nodo j.

ijj I es la utilidad esperada por seleccionar una alternativa del nodo j. La utilidad esperada es la misma que para un modelo logit simple, ya que condicionado al nodo, la selección de alternativas es IIA.

1- j refleja la correlación entre las alternativas del nodo j ( 0, ' imimCOV si las alternativas m y

m’ pertenecen a nodos distintos, pero si pertenecen al mismo nodo j jimimCorr 1, ' .

No hay que confundir utilidad marginal con utilidad condicional: 0, |'| jimjimCOV si las alternativas m y m’ pertenecen al mismo nodo j y de ahí que la propiedad IIA se cumpla en el interior del nodo.

Rango j Interpretación j Equivalencia RUM

10 j Patrón de sustitución mayor dentro del propio nodo que entre nodos Si

1j Patrón de sustitución proporcional: colapsa a MNLogit Si

1j Patrón de sustitución mayor entre otros nodos que dentro del propio nodo No siempre

0j No tiene No




9.5-5.5 Ejemplos

Ejemplo 1:

En el presente ejemplo se pretende ilustrar la práctica de la formulación y estimación de un modelo jerárquico donde cada etapa contiene un modelo logit multinomial, en un supuesto de selección de modo de transporte entre auto privado (C) , autobús (B) y metro (M), donde las 2 categorías de transporte colectivo se suponen correlacionadas.

Modelo MNL no jerárquico Modelo Jerárquico

Auto Bus Metro Auto Transporte Colectivo (No válido para alternativas

correlacionadas) Bus Metro

1. Sean las utilidades de las alternativas: iCU auto privado (C) , iBU autobús (B) y iMU metro (M).

2. Sean las utilidades sistemáticas de las alternativas: iCV auto privado (C) , iBV autobús (B) y iMV metro (M).

3. Las utilidades sistemáticas de los modos de transporte colectivo (TC) se dividen en componentes compartidas por los modos TC y componentes compartidas con el nivel anterior, auto privado, de manera que

TCiBiTCiB VVV / y TCiMiTCiM VVV / .




4. Una descomposición similar corresponde a las componentes aleatorias.

iCiCiC VU ,

TCiBiTCTCiBiTCiBiBiB YWVU // y TCiMiTCTCiMiTCiMiMiM YWVU // .

En el nivel superior, la selección entre auto privado (C) o transporte colectivo (TC) responde a otro logit binario,

iTCiC

iC

VVVCexpexp

exp

y CTC 1

Para el nivel inferior, selección de Bus o Metro dentro del grupo de alternativas de transporte colectivo, se tendrá el logit binario,

TCTCiBTCTCiM

TCTCiM

YYYTCM

//

/

expexpexp

y TCMTCB 1

TCTCMM y TCTCBB (Ojo ! MB 1 )

La condición de contorno que deben satisfacer las probabilidades es que su suma sea 1: 1 CMB




Ahora bien, la utilidad sistemática del transporte colectivo contiene la utilidad máxima esperada (EMU) derivada del nivel inferior que se define para modelos logísticos:

TCTCiBTCTCiMTCijTC YYI // expexplog

iTCijTCiTC WIV

Los modelos jerárquicos no deben limitarse a respuestas binarias en cada uno de los niveles, los modelos jerárquicos tienen sentido per se y son enormemente potentes, a pesar de sus limitaciones:

Comparten con los MNL el no poder tratar con las variaciones de gusto individuales, no son modelos de efectos aleatorios.

Pueden tratar interdependencias a nivel de nodo, pero no puede modelar asociaciones entre alternativas de distintos nodos.

La estructura del proceso jerárquico de decisiones puede no ser evidente y requerir de varias tentativas.

La estimación de HL a partir de la estimación secuencial de modelos MNL a nivel de nodo es simple, pero se han documentado problemas de eficiencia si los nodos de menos jerarquía se quedan con pocas observaciones, situación que se ha de evitar a toda costa.

La estimación de HL a partir de la estimación secuencial de modelos MNL produce modelos sobreparametrizados y requiere de normalización a la escala de los niveles inferiores. En muchos casos los modelos estimados son inconsistentes con la teoría de la utilidad aleatoria (RUM).



9.5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: CONSISTENCIA RUM

9.5-5.6 Consistencia con la Teoría de la Utilidad Aleatoria

La utilidad observada se descompone en dos partes: una parte constante para las alternativas de un nodo concreto (W, variable entre nodos) y una parte que varía según las alternativas del nodo (Y, variable intranodo), de manera que la utilidad se puede reescribir para el modo m dentro del nodo j y el individuo i, como:

jimijjimijjimijjimijimimjimijim YWVVVUUU |||||

La probabilidad conjunta logit jerárquica es el producto de probabilidades logit por niveles (nivel 0 hojas y nivel 1 nido), una marginal por una condicional, es decir la probabilidad de elegir la alternativa m dentro del nodo j, es la probabilidad marginal de elegir el nodo j por la probabilidad condicional de elegir el modo m dado que se ha elegido el nodo j, ambas probabilidades toman la forma funcional de las probabilidades logit en el caso jerárquico de 2 niveles.

Los términos no observables de la utilidad jimij |, son independientes. jim| tiene una distribución Gumbel con

parámetro de escala j , por tanto 6

2

|j

jim

V . Si el máximo jimU | dentro de un nodo tiene una distribución de

valor extremo con parámetro de escala j (son i.i.d idéntica escala) entonces 6

2

|j

jimij

V y de aquí que:

1

6

62

2

2

|

|

j

j

j

j

jimij

jim

VV




Alguno de los parámetros tiene que normalizarse y aquí reside la diferencia entre los modelos NNNL (non normalized nested logit) y los UMNL (Utility Maximization Nested Logit) consistentes con la teoría de la utilidad aleatoria. La diferencia entre los NNNL y los UMNL radica en el reescalado explicito de la componente sistemática de la utilidad para definir la utilidad inclusiva de un nodo ijI .

En los modelos UMNL, si se normaliza (reescalan a 1 las escalas de las hojas, nivel 0 con jj 1 ) aparecen los

RU1 UMNL y si se normaliza la escala de los nodos (nivel 1 con jj 1 ) aparecen los RU2 UMNL.

Los modelos nested logit consistentes con la teoria de la utilidad son aquellos que después de añadir una constante a todas las utilidades de las alternativas, el reparto modal (probabilidad de cada alternativa) se mantiene igual que antes de añadir la constante.

j

j

j

ll

l

j

j

j

Bkjikij

BkjikjimBim

BillilijjijiB

YI

YYπ

IWIWπ

explog

expexp

expexp

|

UMNL

j

j

j

l

j

Bkikij

BkikimBim

BlililjijijiB

YI

YYπ

IWIWπ

explog

expexp

expexp

|

NNNL




j

j

j

lljj

j

j

j

ll

l

j

j

j

Bkikij

BkikimBim

BillilijjijiB

Bkjikij

BkjikjimBim

BillilijjijiB

j

YI

YYπ

IWIWπ

YI

YYπ

IWIWπjRU

explog

expexp

expexp

explog

expexp

expexp11

|

11

|

UMNL

Pero

jimijjimijjimijjimijjimijjimijimim YWaYWaVVaUU ||||||~~

j j

j j

j

l

jj

j

j

j

l

j

Bk Bkikikijij

Bk BkikimikimBim

BlililjijijiBiB

jimjimj

Bkikij

BkikimBim

BlililjijijiB

j

YaYaII

YYYYπ

aIWaIWππaYYjRU

YI

YYπ

IWIWπjRU

explog~explog~

expexp~exp~exp

expexp~~11

explog

expexp

expexp11

|

||

|

UMNLUMNL

Sólo si jj iBiBj ππj ~ , es decir la escala por nido común entonces hay consistencia RUM.




j

j

j

l

j

j

j

j

ll

l

j

j

j

Bkjikij

BkjikjimBim

BlililjijijiB

Bkjikij

BkjikjimBim

BillilijjijiB

j

YI

YYπ

IWIWπ

YI

YYπ

IWIWπjRU

explog

expexp

expexp

explog

expexp

expexp12

||

UMNL

Pero


j j

j j

jj

l

jj

j

j

j

l

j

Bk Bkikjjikjijij

Bk BkjikjimjikimBimBim

BllililjjijijiBiB

jimjimj

Bkjikij

BkjikjimBim

BlililjijijiB

j

YaYaII

YYYYππ

aIWaIWππaYYjRU

YI

YYπ

IWIWπjRU

explog~explog~

expexp~exp~exp~

expexp~~UMNL

explog

expexp

expexpUMNL

||

||

|

1212

Siempre resultan consistentes con la RUM.




j

j

j

l

j

Bkikij

BkikimBim

BlililjijijiB

YI

YYπ

IWIWπ

explog

expexp

expexpNNNL

|

Pero


j j

j j

jj

l

jj

j

j

j

l

j

Bk Bkikikijij

Bk BkikimikimBimBim

BlililjijijiBiB

Bkikij

BkikimBim

BlililjijijiB

YaYaII

YYYYππ

aIWaIWππ

YI

YYπ

IWIWπ

explog~explog~

expexp~exp~exp~

expexp~NNNL

explog

expexp

expexpNNNL

|||

Sólo si jj iBiBjj

jj ππj ~

1, es decir la escala del nido común en todos los nidos, entonces hay

consistencia RUM.



9.5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: OTROS PARADIGMAS

9.5-6.1 El modelo probit multinomial

En la estructura de vector aleatorio para todas las posibles alternativas seleccionables por el individuo n-ésimo, si

entonces aparece el modelo probit multinomial.

Únicamente en el caso binario (J=2), aparecen modelos simples sin necesidades de tratamiento numérico. Si es el coeficiente de correlación lineal entre las utilidades de las 2 alternativas, la matriz de varianzas y covarianzas puede escribirse:

2

2

BBA

BAA

Entonces BABAiAiB N 2,0 22 y por tanto, la probabilidad de seleccionar la

alternativa A, notado Pi(A), es

iBiAiBiAiAiBiAiAiAiBiBiBiiA

VVVVUVVUA (Probit binario).

Por conveniencia, la escala de la función de utilidad 1 se asume 1, lo que equivale a afirmar que sólo se puede identificar los partworths normalizados (es decir, coeficiente en la utilidad dividido por escala).



9.5-7. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PROBIT

El modelo probit permite superar las 3 limitaciones del modelo MN Logit:

Puede representar variaciones individuales aleatorias en los gustos.

Puede representar cualquier patrón de sustitución, más general que el proporcional.

Puede usarse en datos longitudinales (paneles) para modelar correlaciones en la parte no observada de la utilidad a lo largo del tiempo.

El problema reside en que hay que recurrir a la integración numérica o a la simulación porqué no hay una fórmula analítica cerrada para la probabilidad de elección de las alternativas (culpa de la distribución normal multivariante que modela la componente no observada de la utilidad).

ii εε djlVVIjlUVVUj ililijijilililijijijiij

La probabilidad anterior no tiene una expresión cerrada, tiene dimensión J y debe evaluarse numéricamente, para facilitar la tarea resulta conveniente reescribir la integral.

Sea

ijBiililijijijilij djjlVVB

iεiii εεε | , que simplifica el

dominio de integración y además si se tiene en cuenta que sólo las diferencias en utilidad son caracterizables, la probabilidad de una alternativa puede reexpresarse como una integral de dimensión (J-1), sea la diferencia de utilidad respecto la alternativa j (la que estamos calculando),




ijBiljiijililjijililjijililj djlUjVVVUUU ~~

~~0~~,~,~ijε

ijij εε

Donde jlVB iljiljij 0~~|ε~~ij y la integral tiene dimensión J-1 en ese dominio.

Hay que tener en cuenta que la diferencia de normales también es normal y que ijε~ tiene una matriz de

covarianzas j~ de dimensión J-1 que puede calcularse eficientemente a partir de pre y post multiplicando ésta

por la matriz identidad de dimensión J-1 con una columna adicional de -1’s en la posición j.

Por ejemplo, Tjj

i

i

ii

iijj

j MMCOVM

32

12

23

212

332313

232212

131211~

110011

Ahora bien, los modelos tienen que normalizarse ya que sólo diferencias en utilidad son medibles y su escala es irrelevante, en general en los modelos logit y GEV una alternativa facilita una utilidad de esperanza nula y la escala responde a la distribución estándard, en los modelos probit es más complicado y debe normalizarse explícitamente no hay defecto. La normalización está relacionada con la identificabilidad de los parámetros y sólo los que son identificables y por tanto caracterizan la selección de la alternativa deben ser considerados en un modelo normalizado. Pero a veces no es evidente qué parámetros se asocian al nivel de referencia y a la escala.

Train propone un esquema de normalización que garantiza la identificabilidad de todos los parámetros y que siguiendo su exposición se describe a continuación a partir del ejemplo anterior.




Primero se diferencia de la primera alternativa j=1 (defecto en el método MNP del paquete R (sea J=3):

3323

232211

31

21

13

1211

1

332313

232212

131211~

101011

T

i

i

ii

iij MMCOVM

Después se normaliza la escala fijando a 1 la diagonal primera de la covarianza de las diferencias (defecto R) 121 )iV , lo que resulta,

3323

23

3323

23221

22

1**

*

**

**** ~

jljl

Si la matriz original tiene J(J+1)/2=6 elementos por identificar, ahora la matriz normalizada tiene J(J-1)/2-1=2 parámetros y son éstos los únicos identificables, es decir, habrá valores de las covarianzas entre alternativas que no podrán identificarse y son los únicos con contenido relevante para el modelo de elección de alternativa. Podría darse el caso que después de aplicar el procedimiento descrito, todavía no fueran identificables todos los parámetros con lo que habría de añadirse alguna restricción adicional.

Por ejemplo en un modelo de J=3 alternativas donde el investigador propone una matriz de covarianzas de los errores originales donde sólo están asociadas la 1 y la 2 alternativa,

11~

2212~

101011

1000101

21

21

1*

211111

1 Tj MMM




Sólo tiene un parámetro identificable, no 2 y dado un estimador de la segunda diagonal de la matriz de covarianzas (normalizada), se puede inferir el parámetro y de ahí la matriz de covarianzas original.

o Si las alternativas fuesen i.i.d, cual sería la matriz de covarianzas normalizada ?

11~

22~

101011

000000

21

21

1*

11111

Tj MMM

9.5-6.2 Patrones de sustitución no IIA

La matriz de covarianzas es la que caracteriza el patrón de sustitución, si las alternativas fuesen i.i.d. normales entonces se tendría una matriz diagonal, que acabaría normalizada y donde no sería posible identificar el parámetro único (quedaría absorbido en los partworths). El investigador debe determinar el patrón de sustitución más adecuado para los datos (la situación de elección discreta bajo estudio).

La primera tentativa podría ser modelar un patrón de sustitución no restringido mediante la estimación de la matriz de covarianzas completa (bien, de los J(J-1)/2-1 parámetros identificables). El problema reside en la falta de interpretabilidad de la matriz normalizada estimada, ya que no se puede inferir nada sobre la matriz original:

?~**

**

3323

231

1

Si se imponen restricciones a la matriz de covarianzas original , los parámetros estimados por los métodos estadísticos (MNP en R) son más interpretables!



9.5-7. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PROBIT NO IIA

9.5-6.3 Variaciones en los gustos no observables (efectos aleatorios)

Las variaciones de gusto individuales son intratables con los modelos de efectos fijos, hay que ir a parar a los modelos mixtos estadísticos, es decir, con coeficientes aleatorios.

El Ejemplo 7.3 del texto de Ortúzar & Willumsen considera un modelo binario de reparto modal con dos variables

explicativas numéricas, el coste y el tiempo y la función de utilidad 2211 XXU . Si se supone que la percepción del coste varía según los ingresos (I), entonces la utilidad se reformular como:

o 2211' XIXU y el modelo será correcto únicamente si 1 es una variable aleatoria con la

misma distribución que I1' .

o En general, si ijjiijU xβT con ,ββi N distribuido según una normal multivariante, entonces el

modelo resultante es un modelo condicional de selección de alternativas discretas probit multinomial (Daganzo y Sheffi trabajaron esta formulación).

Supóngase una utilidad lineal en los parámetros, de alternativa o específicos de usuario, pero que estos no son fijos sinó que varían aleatoriamente entre los individuos. La utilidad puede expresarse como,

jTi xβ jijU con pxx 1T

jx el vector de variables explicativas del individuo en la alternativa j y iβ el vector de coeficientes desconocidos que varían según el individuo.



9.5-7. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PROBIT ALEATORIO

La variabilidad de iβ induce correlación entre las opciones. El vector de coeficientes (partworths) para un individuo se puede expresar como la suma de la media poblacional β (desconocida) más la perturbación del individuo i y de ahí reescribir la utilidad (prescidiendo de las constantes específicas de la alternativa) como:

aleatoriaobservablealeatoriaobservable

ijU ijjT

ijjTij

Tijj

Tij

Tijj

Ti xβεxηxβεxηxβεxβ

Si ijiβ , se distribuyen según leyes normales multivariantes entonces sería un model probit de efectos

aleatorios. Se puede ver que la matriz de covarianzas de ij depende de la varianza de iβ y de las variables explicativas, de individuo o de alternativa.

Por ejemplo, en un caso de J=3 alternativas con una variable explicativa dependiente de alternativa, pero variaciones individuales aleatorias, sin constantes específicas, con errores i.i.d. de varianza 2

σ y con la variación individual i.i.d de varianza 2

σ , con variaciones individuales y utilidad observable independientes, entonces

aleatoriaobservable

iU 111111 iT

iTi

T xβεxηxβ y de ahí, 222222 iT

iTi

T xβεxηxβ iU y

333333 iT

iTi

T xβεxηxβ iU

donde T321 iii tienen una distribución normal trivariante con esperanza 0 (cada una) y varianza de

222 σσVV ijijijiij xεx y covarianzas 2

'''´ ,, ijijijijiijijiijij COVCOV xxεxεx .



9.5-7. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PROBIT ALEATORIO

De ahí,

100010001

2

233231

322221

312121

2

2223

232

231

232

2222

221

231

221

2221

σσσσσσσσσσσ

iiiii

iiiii

iiiii

iiiii

iiiii

iiiii

xxxxxxxxxxxxxxx

xxxxxxxxxxxxxxx

Una normalización habitual es imponer una varianza unidad para la componente no observable de la utilidad,

1εσ . Los únicos parámetros a estimar son 2, σβ . Se puede generalizar a más variables explicativas

directamente.



9.5-7. MODELOS DESAGREGADOS: EL MODELO LOGIT MIXTO

Los modelos lineales generalizados con respuesta binaria o politómica son el referente para el tratamiento estadístico de los modelos de efectos fijos de selección de alternativas discretas.

Los modelos de selección de alternativas discretas y efectos aleatorios permiten modelizar las preferencias individuales e incluir variables subjetivas. El tratamiento más prometedor dentro del análisis de la demanda en planificación del transporte viene del modelo logit mixto. Denominado por muchos expertos como el modelo del nuevo milenio ha sido propuesta por dos grupos de investigación que trabajaban en paralelo, el grupo del MIT (Ben Akiva & Bolduc, 1996) y el grupo de Berkeley (Mc Fadden & Train, 2000).

La función de utilidad aleatoria para una alternativa se puede expresar como una combinación lineal (algunos autores consideran la posibilidad de cualquier función, nosotros no) de variables explicativas (comunes o específicas de alternativa) con coeficientes no fijos, sinó aleatorios dependientes del individuo (éso sí, con una cierta distribución de probabilidad en la población), más una componente aleatoria de error no observado con distribución i.i.d. Gumbel independiente de la distribución de los coeficientes,

ijjTi εxβ jijU con pxx 1T

jx el vector de variables explicativas del individuo en la alternativa j y

iβ el vector de coeficientes desconocidos que varían según el individuo.




La variabilidad de iβ induce correlación entre las opciones. El vector coeficientes para un individuo se puede expresar como la suma de la media poblacional β (desconocida) más la perturbación del individuo i y de ahí reescribir la utilidad (prescidiendo de las constantes específicas de la alternativa) como:

observablenoaleatoriaobservable

ijU

ijjTij

Tijj

Tij

Tijj

Tiijj

Ti εxηxβεxηxβεxηβεxβ

La componente aleatoria refleja la asociación entre alternativas debido a la influencia de i y resulta posible conseguir un patrón muy general de correlaciones, variaciones de gusto y heterocedasticidad con la correcta especificación de los parámetros y las variables.

Si ijiβ , se distribuyen según leyes normales multivariantes entonces sería un model probit de efectos aleatorios.

Sea la distribución de τββ i ,f , dependiente de un parámetro de media y desviación (posición y escala, en general). Habitualmente se supone una distribución normal o lognormal (facilita la restricción en signos de los coeficientes).

Mc Fadden y Train han demostrado que cualquier modelo de selección de alternativas discretas basado en la maximización de la utilidad aleatoria puede aproximarse con la formulación logit mixta. Por ejemplo, un modelo HL (heterocedástico) se puede obtener definiendo una variable artificial (dummy) para cada nodo y permitiendo una variación aleatoria sobre los coeficientes de las dummies, de manera que se induce una correlación en la componente no observada de la utilidad a nivel de nodo y en cambio entre nodos no existen correlaciones.




La idea simplificada del modelo logit mixto es que las probabilidades de las alternativas se obtienen integrando las probabilidades ponderadas por la densidad de probabilidad de ββ i f , ésto en Estadística es una mixed function. El mixed logit es una mixtura de la función logit evaluada en distintos iβ con la mixing distribution βf .

βββ dfLijij con

l il

ijij V

VL

ββ

βexp

exp Mixed Logit

Dada una muestra, la función de verosimilitud no tiene una expresión cerrada y por tanto no se puede determinar el máximo analítico y se recurre a las técnicas de Monte-Carlo, concretamente a la maximización de la log-verosimilitud simulada (SLL). Esta técnica facilita estimadores consistentes y asintóticamente normales.

Si βf es una función degenerada con 1βf para un único vector β , entonces el modelo se convierte en el MN Logit clásico.

Si βf es una función de probabilidad de una variable discreta con H valores, hβ , Hhsf h ,,1hβ entoces aparecen los modelos latentes y las probabilidades se convierten en:

H

h l il

ijhij V

Vs

1 expexp

h

h

ββ




Si βf es la fdp de una normal multivariante τb,β |f entonces los parámetros de media y matriz de covarianzas son una incógnita que se deben estimar durante el proceso de ahí que la formulación clásica basada en maximización de la verosimilitud esté dando paso a la entrada de los esquemas bayesianos que ofrecen simultaneamente información sobre los parámetros de la τb,β |f y las iβ .

Si se supone que los coeficientes aleatorios son i.i.d, es decir, la matriz de covarianzas es diagonal con valor constante

2s (desconocido), y esperanza bl entonces la fdp conjunta será producto de fdp de los partworths. El cálculo de la LogV Simulada resulta simple de implementar. Incluso se puede pensar en otros modelos que permitan garantizar el signo o acote los valores, para un partworth específico (se omite el subíndice l), la b y la s no son parámetros de posición o escala ahora, son útiles sencillamente:

1. β lognormal, es decir, ),(log 2sbNβ . Las aplicaciones con Rayleigh suelen dar menos problemas.

2. sUβ ,0 o sbsbUβ , .

3. β triangular con moda b y rango entre b-s y b+s, con b y s valores a estimar.

En la página personal de Kenneth Train se puede descargar software de libre distribución para la estimación SLL de modelos logit mixtos con distribución de los efectos aleatorios normal o lognormal, en GAUSS o MATLAB, mediante el esquema clásico y el paradigma bayesiano (Bayes jerárquico).

Los paquetes comerciales ALOGIT y LIMDEP-NLOGIT/ACA ofrecen modulos de estimación rápidos y fiables para los modelos logit mixtos. Este último se puede descargar libremente, con restricciones de uso, en la página web que acompaña el texto de Hensher, Rose & Greene, Applied Choice Analysis (2005): http://www.cambridge.org/0521605776.




9.5-7.1 Definición y probabilidades de elección

El modelo logit mixto se define sobre una forma funcional para las probabilidades individuales de elección y explicitamente un modelo logit mixto es todo aquel modelo cuyas probabilidades se pueden expresar como,

βθ|ββ dfLijij con las probabilidades logit

ll il

ijij V

VL

lT

jT

xβxβ

ββ

βexp

expexp

exp

evaluadas en un punto concreto β y la función densidad de probabilidad de los parámetros θ|βf .

Para simplificar la notación se va a denominar τβθ , al vector de los parámetros de posición y escala de los coeficientes aleatorios. La utilidad se ha notado sin constantes específicas, ni variables explicativas asociadas a características de los individuos para relajar la notación.

Por tanto, el logit mixto es una suma ponderada según la distribución de los parámetros de las probabilidades logit. Existen dos conjuntos de parámetros a estimar:

Los parámetros de posición y escala de la función fdp θ|βf : τβθ , . No siempre suelen ser de interés.

Los partworths iβ que aparecen en la fórmula logit.

Los parámetros iβ juegan un papel semejante a los errores de la componente no observable de la utilidad ε : ambos términos deben integrarse para obtener las probabilidades de selección de cada alternativa e individuo.




El modelo logit mixto puede derivarse del paradigma de maximización de utilidad a partir de la perspectiva de los coeficientes aleatorios. El individuo i se enfrenta a J posibles alternativas y la utilidad de la alternativa j se define como:

ijijU jTi xβ donde T

iβ es el vector de coeficientes que acompañan la utilidad observada, variables según el

individuo lo que permite representar los gustos personales, con una fdp θ|βf y ij son los errores i.i.d. Gumbel.

El individuo conoce su Tiβ y su ij para todas las alternativas disponibles y selecciona la j-ésima si y sólo si

jlUU ilij .

Por tanto si Tiβ fuera observable, las probabilidades serían las logit estándard, es decir, la probabilidad de

selección condicionada a Tiβ es

βθβxβ

xβxβ

xββ

lT

jT

lTi

jTi df

lij

liij |

expexp

expexp

.

El planificador fija la distribución de probabilidad de los coeficientes aleatorios, habitualmente normal o lognormal y se deben estimar sus parámetros θ . También se han usado la distribución Rayleigh, uniforme y la triangular recientemente.




El modelo logit mixto puede emplearse sin una interpretación subyacente de coeficientes aleatorios y simplemente representar componentes del error que creen correlaciones entre las utilidades de distintas alternativas, de ahí que la utilidad se especifique desde este punto de vista,

ijij zU jTij

Txβ donde ji zx , son los vectores de variables de la utilidad observada, β son coeficientes

fijos y i son coeficientes aleatorios variables según el individuo lo que permite representar los gustos

personales, con una fdp D0,i f y ij son los errores i.i.d. Gumbel, independientes de i .

Por tanto, la parte no observable y por tanto estocástica de la utilidad es ijij z jTi , en función de jz se

pueden definir asociaciones entre alternativas.

En el modelo logit estàndard: ljz ilij 0),cov( 0j .

Si ljzzz ilij lTjj D0 ),cov( y 6)( 2 j

Tj DzzV ij . Aunque 2

llD sea diagonal, es decir los términos aleatorios no correlacionados con varianzas distintas, las alternativas están correlacionadas.

9.5-7.2 Ejemplo Logit Jerárquico como caso particular Logit Mixto

Por ejemplo, el modelo logit jerárquico con dos niveles no forzosamente binarios podría formularse en un esquema logit mixto especificando una variable dummy para cada nodo con 1s para todas las alternativas de ese nodo y ceros en el resto de alternativas. Sería necesario crear el factor Nodo e incluirlo como efecto aleatorio, centrado en 0 y distribuido normalmente.




Sea 1jmd si la alternativa m pertenece al nodo j y 0 de otro modo. Supóngase que 20 jij fν , , entonces

imjmijimim dν mTi zν .

Ahora si dos alternativas pertenecen al mismo nodo, sean m y m’ en el nodo j, entonces su covarianza es: 2jimjmijimjmijimim dνdν ),cov(),cov( '''

Ahora si una alternativa m pertenece al nodo j, entonces su varianza es:

622 πdνdνV jimjmijimjmijimimim ),cov(),cov()(

Ahora si dos alternativas pertenecen al mismo nodo, sean m y m’ en el nodo j, entonces su correlación es:

6222 πcorr jjimim ),( '

Ahora si dos alternativas pertenecen a distintos nodos, sean m y m’ en los nodos j y j’, entonces su covarianza es:

0 ),cov(),cov( ''''' immjijimjmijimim dνdν




9.5-7.3 Patrones de sustitución

El cociente de probabilidades entre dos alternatives, j y k, depende de todos los datos, incluyendo los atributos de alternativas distintas de j y k: los denominadores de la fórmula logit están dentro de la integral y por tanto no se cancelan, la elasticidad cruzada de la alternativa j ante un cambio del parámetro l de la alternativa k tiene por expresión:

βθ|β

xβexpxβexp

xβexpxβexp

imTik

T

imT

ijT

dfβxx

mm

lijij

ikl

ikl

ij

1

El porcentaje de cambio en la probabilidad de la alternativa j al cambio en la variable l-ésima de la alternativa k depende de la correlación entre las alternativas para distintos valores del parámetro β , la cual viene especificada por el planificador a través de la especificación de las variables que intervienen en la utilidad sistemática y el patrón de mixtura que refleja la fdp especificada para los coeficientes aleatorios.




9.5-7.4 Estimación del modelo logit mixto

La estimación de los modelos logit mixtos se realiza por simulación, ya que no existe una fórmula cerrada para la integral,

βθ|β

xβexpxβexp

βθ|ββil

Tij

T

dfdfLl

ijij

Las probabilidades se pueden aproximar por simulación para cualquier valor θ fijado, de hecho el algoritmo podría ser:

1. Extraer rβ un vector aleatorio con componentes distribuídas θ|βf .

2. Calcular el cociente logit rijL β .

3. Repetir los pasos 1 y 2, R veces (varios millares de veces).

4. La probabilidad simulada es la media de los cocientes logit:

R

r

rijij L

R 1

1 β . Es un estimador consistente,

no sesgado, dos veces diferenciable en θ y que facilita una logverosimilitud simulada

i

J

jijijdSLL

1logθ con 1ijd si el individuo i elige la alternativa j y 0 de otro modo.

El estimador máximo verosimil simulado (MSLE) es el vector θ que maximiza θSLL .




9.5-7.5 Correlación entre selecciones individuales: repeated choices El modelo logit mixto puede capturar la asociación entre respuestas del mismo individuo que suele darse en encuestas de preferencias declaradas o sencillamente pensar en los datos como un panel, no cross-sectional.

Sea la utilidad de la alternativa j en la situación de elección t para la persona i, ijtijtU jtTi xβ , condicional a

iβ , la probabilidad de la secuencia de elecciones del individuo i se puede expresar como producto de las probabilidades de cada situación de elección:

T

t lijTL

1 expexp

ltT

jtT

xβxβ

β

Se supone que los ijt son independientes dentro de cada tiempo, es decir que la utilidad en la situación t presenta

una componente de errores no observables i.i.d. Gumbel estándar, es decir tCOV iltijt 0, .

En prácticamente todas las aplicaciones, iβ se consideran fijos para un individuo en todo instante t, pero se puede emplear la idea de una variación del gusto aleatoria que dependa del instante para cada individuo de manera muy cómoda en el esquema logit mixto. Por ejemplo una correlación serial entre las situaciones de elección de una persona y con iβ escalar:

itititijtijtitijtijtitijt xbxβU 1 it i.i.d y b efecto fijo (a estimar).




La simulación de las probabilidades para cada individuo i, alternativa j y situación de elección t seguiría un esquema:

1. Calcular un valor aleatorio ri1 para el primer instante y calcular la probabilidad logit condicionada a

ri

ri b 11 .

2. Calcular un valor aleatorio ri2 para el segundo instante y calcular la probabilidad logit condicionada a

ri

ri

ri b 212 .

3. Continuar para t=3,...,T y al final calcular el producto de las T probabilidades logit.

4. Repetir los pasos 1 a 3, r=1,...,R.

5. Promediar los R resultados.

Si el número de variables explicativas es superior a 1 (lo habitual) y T es grande, el coste computacional puede ser muy elevado, pero es la única tentativa disponible. Las probabilidades resultantes del procedimiento anterior se usan para calcular la log verosimilitud simulada y en un proceso iterativo guiado por un método de optimización se conseguirá determinar los valores b y . Este es el esquema clásico: maximización de la log verosimilitud que suele presentar problemas numéricos que pueden superarse saltando a un esquema bayesiano, tanto más eficiente como más compleja sea la estructura de covarianzas modelada, en estas técnicas el proceso de optimización se sustituye por el cálculo numérico de esperanzas matemáticas.



9.5-8. ESPECIFICACIÓN Y ESTIMACIÓN DE MODELOS DE SELECCIÓN DE ALTERNATIVAS DISCRETAS

La estimación de los modelos discretos involucrados en el análisis desagregada de la demanda de transporte (también extensible a otras aplicaciones de carácter econométrico) son objeto de estudio y aplicación de procedimientos de estimación, selección y diagnosis de modelos estadísticos de regresión lineal generalizada (con respuesta de la familia exponencial) sin/con efectos aleatorios. El problema de la comprensión estadística de los modelos y de la disponibilidad de software para su estimación han sido históricamente las principales dificultades de la perspectiva desagregada en el análisis de la demanda.

La especificación del modelo es una parte que concierne más al ingeniero de transporte, ya que tiene que identificar en el contexto del estudio concreto cuáles son las opciones o alternativas disponibles por los usuarios, es lo que se denomina en terminología anglosajona: choice-set determination. Las alternativas a considerar tienen que ser todas las posibles a considerar por los usuarios, consciente o inconscientemente; ya que la reducción del conjunto posible de alternativas (por carecer de importancia aparente algunas de ellas o para simplificar el proceso de estimación) casi siempre conduce a la formulación y estimación de modelos que resultan sesgados.

La formulación de los modelos discretos de selección de alternativas en planificación depende en gran medida de:

o Formación del ingeniero, conjuntamente con el tiempo y recursos disponibles para la etapa modelística.

o El grado de interrelación entre las alternativas disponibles (a más interelación, más complejidad es requerida).

o La precisión requerida para las predicciones.



9.5-9. ESPECIFICACIÓN Y ESTIMACIÓN DE MODELOS DESAGREGADOS

9.5-8.1 Especificación: determinación del conjunto de alternativas disponibles

Esta etapa tiene que resolver cuáles son realmente todas las alternativas disponibles para cada individuo de la muestra y es un trade-off entre realismo y complejidad modelística. En los modelos de reparto modal el número de alternativas no suele ser demasiado grande, sin embargo, en los modelos de distribución donde la alternativa es la zona de transporte de destino, el conjunto de alternativas puede ser muy grande.

Las posibilidades son:

1. Especificar el subconjunto de alternativas efectivas en la muestra disponible (trabajo de campo).

2. Especificar para cada individuo todas las posibles alternativas existentes, independientemente de si son realistas o no se han constatado en el trabajo de campo.

3. Efectuar una agregación que lleve a una jerarquía de decisiones.

4. Obtener información individual directamente de la muestra, preguntando a los individuos por su percepción de las opciones disponibles.

5. Considerar el proceso de decisión dividido en dos etapas: una primera etapa para determinar el subconjunto de alternativas disponibles (reglas de decisión compensatorias y no compensatorias) y el segundo, establecer las probabilidades para las alternativas disponibles.




9.5-8.2 Estimación de los modelos desagregados: verosimilitud (simulada)

La forma funcional de la utilidad observada es una combinación lineal de variables explicativas. Las variables explicativas pij xx 1Tx en jijijV Tx pueden ser:

Variables cuantitativas.

Transformaciones de variables cuantitativas.

Regresores polinómicos formados a partir de variables cuantitativas.

Variables mudas (dummies) que representan variables cualitativas.

Variables mudas que representan interacciones entre variables cualitativas o cuantitativas.

La estimación de los parámetros a partir de una muestra aleatoria se realiza por maximización de verosimilitud.

Sea y, , la función de log-verosimilitud de una observación de Y de distribución caracterizada por

parámetros de posición y escala . Algebraicamente, la función de verosimilitud ,,, yfyL Y tiene

la misma estructura que yfY , únicamente el cambio de orden de los parámetros enfatiza el contexto de

estimación de los parámetros dada la observación y. El máximo de y, coincide con el máximo de la función

de verosimilitud yL , puesto que la función logaritmo es monótona.




Las propiedades más representativas de los estimadores máximo verosímiles son:

Son asintóticamente centrados: ˆ . Para muestras pequeñas suelen ser sesgados.

Son asintóticamente normales. La varianza del estimador MV (intuitivamente la variabilidad del máximo de

yL , o y, en distintas muestras) es inversamente proporcional a la curvatura observada: si la curvatura es grande, el máximo está bien definido por los datos y varia poco de muestra en muestra (poca varianza del estimador, hessiana de la log-verosimilitud con valores propios muy negativos), si por el contrario

la curvatura es pequeña, la función y, es muy plana en el máximo y pequeñas variaciones muestrales modificarán mucho su posición (varianza elevada del estimador, hessiana de la log-verosimilitud con valores propios poco negativos) . No confundir curvatura con condicionamiento de la hessiana ¡!!

Fisher denominó información observada a menos la segunda derivada de y, en el máximo (menos la hessiana en el caso multivariante) y es la inversa de la varianza asintótica del estimador. La varianza

estimada del estimador máximo verosímil es, 11

212

MVji

MVMVMV

IOy,y,V

.

Asintóticamente se verifica, I0,NIOV MVMVMVMV 2

121




Son asintóticamente eficientes, es decir, de mínima varianza (definida por la cota de Cramer-Rao en modelos que satisfacen ciertas condiciones de regularidad).

12112

ji

VVMV

y,EIy,V

.

La matriz de información esperada de Fisher se ha notado por IE .

Son invariantes, si h es una función del estimador, entonces el estimador MV de h es MVh .

La normalidad de los estimadores MV, 1 IEN p ,ˆ , bajo ciertas condiciones de regularidad en muestras grandes ofrece la base para construir test de hipótesis a través del denominado estadístico de Wald:

00 : por 20

1

0 p

TVW

ˆˆˆ . Donde ˆˆˆ IOIEIEV 1

.

Si TTT21 , con dim( 2 )=q<p i 0: 20 entonces 2

2

1

22 qTVW

ˆˆˆ .

Si dim( 2 )=1 entonces 020 : se toma la raíz cuadrada del estadístico de Wald y se trata habitualmente

el cociente como una normal estándar: 102

2 ,ˆ

ˆN

Vz

.




Según Ortúzar, una guía práctica para examinar la coherencia de los valores estimados de los parámetros, se podría resumir genéricamente en la siguiente tabla:

Variable Significativamente distinta de 0 No significativamente distinta de cero

Signo correcto OK Mantener en el modelo Relevante o de Política Signo incorrecto Problema serio Problema

Signo correcto OK Probar si es posible sacarla del modelo Adicional

Signo incorrecto Sacar del modelo Sacar del modelo

Si el trabajo de campo conduce a una muestra no aleatoria simple, es decir, una choice-based sample. Entonces los procesos estadísticos de estimación por verosimilitud se vuelven intratables, pero el usar los procedimientos como si la muestra fuera aleatoria conduce a inconsistencias en los estimadores. Si se conoce la proporción poblacional para cada alternativa, entonces es posible establecer ponderaciones o pesos a los individuos de la muestra no aleatoria y con éstos entrar en un procedimiento standard de estimación MV. El peso de cada individuo es el cociente entre la proporción poblacional y la proporción muestral de la alternativa seleccionada.



9.5-9. AGREGACIÓN EN DEMANDA: PREDICCIONES Y PORTABILIDAD

En los modelos desagregados de demanda bajo el paradigma de la utilidad aleatoria, el problema de la agregación consiste en obtener a partir de modelos individuales, medidas agregadas esperadas de comportamiento en la población (no en una muestra), como la cuota de mercado de algún modo público o los volúmenes en los arcos, etc.

El uso de variables promedio (por zonas de transporte) en el proceso de estimación de los parámetros en los modelos desagregados lleva a la obtención de estimadores sesgados (Daly & Ortúzar, TEC-1990). En principio, el error de agregación puede reducirse técnicamento hasta no representar un problema, sin embargo, el coste de esa reducción implica un trade-off entre precisión y recursos invertidos para la correcta predicción agregada.

Los métodos de agregación descritos en la literatura son:

o Método naïve de uso de variables promedio en las ecuaciones de selección individuales.

o Clasificación.

o Enumeración explícita

El método naïve consiste en reemplazar las variables contínuas de la utilidad de cada alternativa por sus valores promedio (zonales, por ejemplo si la agregación se desea a ese nivel).

)()( jij xx ffj aiij j



9.5-10 AGREGACIÓN EN DEMANDA: PREDICCIONES Y PORTABILIDAD

Si f(.) es lineal entonces el promedio de las f’s coincide con la imagen de los promedios de las variables explicativas (contínuas por simplicidad). De otro modo, NO. Imaginemos un caso muy sencillo con una zona definida por 2 usuarios, 1 i 2, y una elección MNL, para la alternativa j:

2)()(2 2121 jj VfVfjj , pero 22 2121 jja VVfj

jj

En general, para una población de M individuos la proporción de ellos que seleccionará la opción j es:

Mi iMa

iij ffjj ,,1

1 )()( jij xx

Si la muestra de m individuos disponible es representativa, entonces el método se denomina de enumeración (sample enumeration) y da buenos resultados en predicciones a corto plazo. A medio y largo plazo, la muestra disponible seguro que ya no es representativa de la población en ese momento y por tanto, las predicciones resultan inválidas.

mi ima

iij ffjj ,,1

1 )()( jij xx

Los métodos de clasificación responden a una estratificación en la población y están relacionados con los procedimientos de recomposición por post-estratificación en Teoría del Muestreo.

Hh hMMa

iij ffj h

j ,,1)()(

jij xx

donde Mh es el número de individuos por estrato en la población y jxh es el promedio de las variables explicativas en el estrato h-ésimo.

Si H=1 entonces coincide con el método naïve y si H=m entonces coincide con el método de enumeración explícita.

unidad 9-análisis de datos: perspectiva estadística de la … · 2009-12-03 · unidad 9 –...

Documents