programa de capacitación en planeamiento, regulación y gestión … · 2009-12-03 · pro9.1...

69
MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación y Gestión Pública del Transporte Urbano Metropolitano (PTUBA) TEMA 9: PROBLEMAS Y CASOS PRÁCTICOS AUTORA: Lídia Montero Mercadé DEIO-UPC Versió 1.1 Buenos Aires, 7 a 11 Diciembre 2009

Upload: others

Post on 18-Mar-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO

Programa de Capacitación en Planeamiento, Regulación y Gestión Pública del Transporte Urbano Metropolitano (PTUBA)

TEMA 9: PROBLEMAS Y CASOS PRÁCTICOS

AUTORA:

Lídia Montero Mercadé

DEIO-UPC

Versió 1.1

Buenos Aires, 7 a 11 Diciembre 2009

Page 2: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-2 Buenos Aires, 7 – 11 Diciembre 2009

TABLA DE CONTENIDOS

PRO8. ENUNCIADOS CASOS PRÁCTICOS MUESTREO ________________________________________________________________________________3 PRO8.1 EJERCICIOS CONCEPTUALES ____________________________________________________________________________________________________3 PRO8.2 MUESTREO ALEATORIO SIMPLE (ASSR): EJERCICIOS _______________________________________________________________________________5 PRO8.2.1 CUOTA DE MERCADO DE UNA LINEA DE TRANSPORTE PÚBLICO _________________________________________________________________________5 PRO8.2.2 RENDIMENTO DE UNA ENCUESTA DE MOVILIDAD DOMICILIARIA POR BUZONEO _____________________________________________________________6 PRO8.2.3 SONDEO DE OPINIÓN PRE-ELECTORAL _____________________________________________________________________________________________7 PRO8.2.4 UNO MÁS DIFÍCIL DE MUESTREO ALEATORIO SIMPLE_________________________________________________________________________________8 PRO8.3 MUESTREO ESTRATIFICADO. DIMENSIONAMIENTO __________________________________________________________________________________9 PRO8.3.1 TASA DE RESIDUOS DIARIOS POR HABITANTE________________________________________________________________________________________9 PRO8.3.2 ENCUESTA DE MOVILIDAD DOMICILIARIA EN UNA CIUDAD MEDIANA ___________________________________________________________________10 PRO8.3.3 ENCUESTA DE MOVILIDAD DOMICILIARIA EN UNA CAPITAL LATINOAMERICANA___________________________________________________________16 PRO9. EJERCICIOS DE ANÁLISIS ESTADÍSTICO DE ENCUESTAS _____________________________________________________________________25 PRO9.1 DESCRIPTIVA -ACTITUD ANTE PEAJE URBANO: CBD PRICING ________________________________________________________________________25 PRO9.2 REGRESIÓN MÚLTIPLE Y MODELOS DE ANÁLISIS DE LA COVARIANZA (TEÓRICO) _________________________________________________________27 PRO9.3 DIAGNOSIS EN LA REGRESIÓN LINEAL SIMPLE. DATOS DE ANSCOMBE 73 _______________________________________________________________29 PRO9.4 MODELOS DE GENERACIÓN Y ATRACCIÓN DE VIAJES: CIUDAD X _____________________________________________________________________31 PRO9.5 MODELOS DE CONTAJES Y RESPUESTA BINARIA: ACCIDENTES MORTALES – AGRESTI (2002) _______________________________________________34 PRO9.6 TASA DE VIAJES DIARIOS EN ENCUESTA DOMICILIARIA (MONTERO, 2007) ______________________________________________________________37 PRO9.7 SINIESTROS ANUALES EN SEGUROS DE VEHÍCULOS (BERMÚDEZ ET AL 2000)_____________________________________________________________40 PRO9.8 ELECCIÓN MODAL (GREENE & HENSHER 1997) ____________________________________________________________________________________47 PRO9.9 GENERACIÓN DIARIA DE RESIDUOS POR HABITANTE (ARC -MONTERO, 2008) ___________________________________________________________56 PRO9.10 DATOS DE INSPECCIONES TÉCNICAS DE VEHÍCULOS (CODINA, 2009) _________________________________________________________________66

Page 3: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-3 Buenos Aires, 7 – 11 Diciembre 2009

PRO8. ENUNCIADOS CASOS PRÁCTICOS MUESTREO

Pro8.1 Ejercicios Conceptuales

Sea Y el número de viajes diario por individuo y se le ha dado una distribución de Poisson con parámetro 3 viajes/día.

Usar un entorno adecuado para generar una muestra aleatoria para N=10000 individuos de Y. Calcular la descriptiva univariante habitual.

Seleccionar K=100 muestras aleatorias sin reposición de tamaño n=1000 de los individuos anteriores y para cada una de las muestras calcular su media.

Observar la distribución de valores de las medias muestrales y calcular sus estadísticos media y varianza.

Estudiar la relación entre los valores de los estadísticos muestrales de las medias y la distribución de valores originales en el conjunto de la población.

Sea Y un indicador de si un individuo viajó el día anterior; se le ha dado una distribución de Bernoulli con

parámetro 90. .

Usar un entorno adecuado para generar una muestra aleatoria para N=10000 individuos de Y. Calcular la descriptiva univariante habitual.

Seleccionar K=100 muestras aleatorias sin reposición de tamaño n=1000 de los individuos anteriores y para cada una de las muestras calcular su media.

Page 4: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-4 Buenos Aires, 7 – 11 Diciembre 2009

8-1 TEORIA DEL MUESTREO: EJERCICIOS

Observar la distribución de valores de las medias muestrales y calcular sus estadísticos media y varianza.

Estudiar la relación entre los valores de los estadísticos muestrales de las medias y la distribución de valores originales en el conjunto de la población.

Sea Y los ingresos mensuales por individuo en $ y se le ha dado una distribución de Normal con parámetro de

posición 4500 pesos mensuales y desviación estándar (escala) de 400$.

Usar un entorno adecuado para generar una muestra aleatoria para N=10000 individuos de Y. Calcular la descriptiva univariante habitual.

Seleccionar K=100 muestras aleatorias sin reposición de tamaño n=1000 de los individuos anteriores y para cada una de las muestras calcular su media.

Observar la distribución de valores de las medias muestrales y calcular sus estadísticos media y varianza.

Estudiar la relación entre los valores de los estadísticos muestrales de las medias y la distribución de valores originales en el conjunto de la población.

Cómo cambiarían los resultados si la desviación estándar fuera de 200$ con la misma media.

Se podría trabajar con páginas Web disponibles en la red para trabajar esos conceptos: http://lstat.kuleuven.be/java/.

Page 5: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-5 Buenos Aires, 7 – 11 Diciembre 2009

8-2 TEORIA DEL MUESTREO: EJERCICIOS MAS

Pro8.2 Muestreo Aleatorio Simple (ASSR): Ejercicios

Pro8.2.1 Cuota de Mercado de una linea de transporte público Una muestra ASCR está compuesta por 400 usuarios de autobús en un ámbito de estudio, de los cuales 40 son usuarios de la Linea A. Se pide:

1) Construir un intervalo de confianza a un nivell de confianza del 95% para la verdadera proporción de usuarios de la Línea A.

2) Supóngase que la extracción fuera ASSR y N=5.000: contruir un intervalo de confianza a un nivell de confianza del 95% para la verdadera proporción de usuarios de la Línea A.

3) Supóngase que la extracción fuera ASSR y N=1.000.000: contruir un intervalo de confianza a un nivell de confianza del 95% para la verdadera proporción de usuarios de la Línea A.

4) Si se deseara un error absoluto del 1% (1 punto), cuales tendrían que ser los tamaños muestrales bajo extracción ASSR para poblaciones de N=5.000 y N=1.000.000?

Page 6: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-6 Buenos Aires, 7 – 11 Diciembre 2009

8-2 TEORIA DEL MUESTREO: EJERCICIOS MAS

Pro8.2.2 Rendimento de una encuesta de movilidad domiciliaria por buzoneo Una empresa de estudios de mercado recibe el encargo de realizar una encuesta domiciliaria de movilidad por correo. Se tiene acceso a un fichero con N=200.000 individuos. Sea p el rendimiento desconocido del fichero, es decir, p es la proporción de individuos que devolverán rellenada la encuesta recibida por correo. Para estimar el

rendimiento p, llamemos p̂ a la tasa de retorno conseguida a partir de un test sobre una pequeña muestra de n individuos, elegidos con probabilidades iguales y sin reemplazo. La experiencia de la empresa es que el rendimiento en estos tipos de muestreos no suele superar el 3%.

1) ¿Cual es el tamaño muestral n necesario para estimar p con una precisión absoluta del 0,5% a un nivel de confianza del 95%?

2) ¿Cual es el tamaño muestral n necesario para estimar p con una precisión absoluta del 0,3% a un nivel de confianza del 95%?

3)¿Cual es el tamaño muestral n necesario para estimar p con una precisión absoluta del 0,1% a un nivel de confianza del 95%?

4) Si finalmente la muestra tiene un tamaño n=10.000 y se contabilizan 230 retornos, cual es el intervalo de confianza bilateral al 95% para el rendimiento p y para el número total de individuos del fichero?

Page 7: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-7 Buenos Aires, 7 – 11 Diciembre 2009

8-2 TEORIA DEL MUESTREO: EJERCICIOS MAS

Pro8.2.3 Sondeo de opinión pre-electoral Se desarrolla un sondeo de opinión preelectoral para recoger información sobre la opinión general de una

personalidad política y se obtiene un porcentaje de opiniones favorables del 20%, 2,0ˆ p . 1) Si la extracción es ASCR, cuántas personas han sido interrogadas para poder decir con un nivel de confianza del

95% que el verdadero porcentaje de opiniones favorables en la población no se desvía más de 2 puntos de p̂ ? 2) Si la extracción es ASSR, cuántas personas han sido interrogadas para poder decir con un nivel de confianza

del 95% que el verdadero porcentaje de opiniones favorables en la población no se desvía más de 2 puntos de p̂ (N=5.000.000)

Page 8: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-8 Buenos Aires, 7 – 11 Diciembre 2009

8-2 TEORIA DEL MUESTREO: EJERCICIOS MAS

Pro8.2.4 Uno más Difícil de Muestreo Aleatorio Simple El único operador de transporte de una ciudad mediana de N=500.000 habitantes, cada mes publica los horarios de las 30 lineas de transporte diferentes que sirve, pero tiene grandes oscilaciones mensuales en la carga total, pero no así en el reparto por línea. Una linea se considera de alta demanda si la carga diaria son como mínimo de 12000 pasajeros, y de demanda media, si la carga es como mínimo de 8000 unidades. Los usuarios del transporte público son aquellos que compran un mínimo de 3 títulos mensuales por año y se quiere dimensionar una muestra de usuarios para promocionar una tarifa rebajada para los que soliciten un título mensual con 15 días de antelación mínimo al mes siguiente, a cambio de que faciliten información sobre sus desplazamientos programados para el siguiente mes (y así hacer planificación de la operación en función de las cargas previstas para cada linea). La experiencia dice que entre los usuarios contactados (n1) son un 30%, n2, los que compran el título para el siguiente mes con 15 días de antelación (n2=0.3n1). El objetivo es estimar n1 (dimensionamiento de la muestra de usuarios a los que se les ofrece la promoción si facilitan información de sus desplazamientos) a partir de unos ciertos requerimientos de precisión absoluta y relativa sobre las cargas diarias de las lineas de demanda media y alta.

1) Determinar n1 para estimar las cargas de las lineas de demanda alta con un error absoluto de 1500 pasajeros a un grado de confianza del 95% (pasajeros).

2) Qué precisión absoluta comporta el tamaño muestral n1 sobre las lineas de demanda media?

3) Comparando 1 con 2, se constata que la precisión absoluta es mejor en 2 que en 1. Verifiquese que con precisión relativa es a la inversa.

4) Cual es el tamaño muestral n1 necesario para lograr en las lineas de demanda media la misma precisión relativa la obtenida en las lineas de demanda alta para el mismo tamaño muestral calculado en el apartado 1 ?

Page 9: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-9 Buenos Aires, 7 – 11 Diciembre 2009

8-3 TEORIA DEL MUESTREO: EJERCICIOS ESTRATIFICADO

Pro8.3 Muestreo estratificado. Dimensionamiento

Pro8.3.1 Tasa de residuos diarios por habitante Dimensionar la muestra de municipios por estratos (de 1 a 11) necesaria para la estimación de la tasa de generación diaria de residuos por habitante con un nivel de confianza del 95% y un error relativo global inferior al 10% e inferior al 20% por estrato.

Unidades Municipales

f.Rec Sel

Residuos Totales de

Fracción Resto (kg dia)

Nh/N Coeficient e Variación

Tasa generación

total (kg hab y dia)

Desviación Tasa

generación total (kg hab

y dia)

Estrato <15% 15-25% 25-35% 35+% Total general

Media Tasa

Generación total (kg

hab y dia)

1 19 47 97 84 247 3210825 0.2366 0.2060 0.296 1.436 2 7 22 26 42 97 995720 0.0929 0.2574 0.415 1.612 3 17 10 17 13 57 155510 0.0546 0.4887 1.059 2.167 4 3 5 12 5 25 316985 0.0239 0.4878 1.285 2.635 5 36 19 14 8 77 828280 0.0738 0.2978 0.736 2.472 6 54 79 33 28 194 322760 0.1858 0.2115 0.287 1.356 7 14 18 10 14 56 184940 0.0536 0.2947 0.402 1.365 8 6 12 11 15 44 8750 0.0421 0.3342 0.445 1.330 9 22 30 21 11 84 52515 0.0805 0.2929 0.535 1.828

10 49 50 16 38 153 61810 0.1466 0.2115 0.252 1.193 11 10 10 1690000 0.0096 0.4023 0.623 1.550

Total 227 292 267 258 1044 7828100 1.0000 0.3968 0.623 1.571

Page 10: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-10 Buenos Aires, 7 – 11 Diciembre 2009

8-3 TEORIA DEL MUESTREO: EJERCICIOS ESTRATIFICADO

Pro8.3.2 Encuesta de Movilidad Domiciliaria en una ciudad mediana

Se dispone de información relativa a la población por género y grupos de edad en las zonas de transporte del ámbito de estudio interior de un municipio de gran superficie y constituído por 10 distritos estrictamente urbanos. Se tiene información de una Encuesta de Movilidad anterior y se desea dimensionar estudios de muestreo bajo diversos supuestos para la actualidad (2010).

El ámbito de estudio se dividió en 118 ZAT internas, organizado en 14 barrios autocontenidos en sólo un distrito cada uno de ellos. La población en el interior del ámbito se sitúa en 608875 residentes (605065 del D1 al D10) y está en vías de crecimiento por su buena oferta logística. A nivel físico está sobre una llanura y la atraviesa un rio de oeste a este. Datos disponibles para el dimensionamiento (a 2006).

Page 11: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-11 Buenos Aires, 7 – 11 Diciembre 2009

8-3 TEORIA DEL MUESTREO: EJERCICIOS ESTRATIFICADO

Barrios según Distrito

Hombres Mujeres Población

Total

Zonas Interiores

Error medio por zona

Total Encuestas*

Promedio Encuestas/Zona

Promedio Población/Zona

1 21438 22909 44347 9 10.02% 845 94 4927

2 25973 31292 57265 11 9.75% 1091 99 5206

3 54107 57974 112081 21 9.63% 2135 102 5337

4 24044 27778 51822 10 9.77% 987 99 5182

2 7917 8109 16026 3 9.63% 305 102 5342

5 32933 35765 68698 13 9.67% 1309 101 5284

6 21604 22467 44071 8 9.47% 840 105 5509

7 12567 13200 25767 5 9.79% 491 98 5153

7 3904 33902 7806 1 7.95% 149 149 7806

8 13538 13400 26938 5 9.58% 513 103 5388

9 17435 18131 35566 7 9.87% 677 97 5081

10 28626 28573 57199 11 9.75% 1090 99 5200

10 36034 36116 72150 14 9.80% 1374 98 5154

11 5118 5103 10221 2 9.83% 195 98 5111

Rurales 15456 15421 30877 0 0 0 0

Total 320718 340177 660895 120 0.89% 12001 100 5250

*Dimensionamiento inicial de la muestra-cifras 2006: los resultados finales muestran algunas diferencias.

Page 12: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-12 Buenos Aires, 7 – 11 Diciembre 2009

8-3 TEORIA DEL MUESTREO: EJERCICIOS ESTRATIFICADO

En la tabla adjunta, se ilustran algunos resultados relativos al número de viajes y a los factores de expansión promedio por distrito que se obtuvieron en la toma de datos. Los ejercicios que siguen persiguen dimensionar la toma de datos en función a unos parámetros de precisiones relativas y absolutas que no corresponden con la realmente efectuada en la toma de datos.

Si la media de viajes diarios por individuo es de 3.42, la desviación típica es de 1.65 viajes y el coeficiente de variación de 0.4833526. Se desea dimensionar una muestra ASSR de residentes para conseguir una estimación del total de viajes diarios con un error absoluto de 20000 viajes.

Distrito Datos Total Expansion 1 Viajes Poblacion 143052 38.02 Viajes Muestra 3763

2 Viajes Poblacion 189459 38.48 Viajes Muestra 4923

3 Viajes Poblacion 361332 48.95 Viajes Muestra 7381

4 Viajes Poblacion 228917 59.32 Viajes Muestra 3859

5 Viajes Poblacion 219033 60.42 Viajes Muestra 3625

6 Viajes Poblacion 145978 48.76 Viajes Muestra 2994

7 Viajes Poblacion 92767 56.32 Viajes Muestra 1647

8 Viajes Poblacion 105726 51.83 Viajes Muestra 2040

9 Viajes Poblacion 114055 45.33 Viajes Muestra 2516

10 Viajes Poblacion 403449 53.15 Viajes Muestra 7591

Poblacion 2003768 49.67 Muestra 40339

Page 13: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-13 Buenos Aires, 7 – 11 Diciembre 2009

8-3 TEORIA DEL MUESTREO: EJERCICIOS ESTRATIFICADO

Calcular el error absoluto al nivel de confianza del 95% para el total diario poblacional de Y.

Se desea dimensionar una muestra ASCR de residentes para conseguir una estimación del total de viajes diarios con un error absoluto de 20000 viajes.

Al desplegar el trabajo de campo las cifras de viajes por residente y día resultantes son de 3.4907, con una desviación típica de 1.9076 viajes por habitante y día, y por tanto, un coeficiente de variación de 0.5465. Calcular la precisión relativa y absoluta resultante para el total de viajes diarios.

Se desea dimensionar una muestra ASSR de residentes para conseguir una estimación del total de viajes diarios con un error relativo del 1%.

Calcular un intérvalo de confianza al 90, 95% y 99% para el número medio de viajes diario por residente que viaja.

Determinar un intérvalo de confiana al 95% para la proporción de residentes que viajan en un día medio, se sabe por la Encuesta anterior que sólo un 6.5% no viajan y son gente mayor y amas de casa.

Determinar un intérvalo de confiana al 95% para la proporción de residentes que viajan en un día medio, al máximo nivel de indeterminación está por debajo del 0.9%

Determinar un intérvalo de confiana al 95% para la proporción de los que viajan en un día medio en autobús.

Dimensionar una muestra estratificada proporcional al tamaño de población residente (total y por estrato), de manera que la precisión absoluta total esté por debajo de 20000 viajes diarios al 95% de confianza. Calcular los errores absolutos y relativos por estrato.

Page 14: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-14 Buenos Aires, 7 – 11 Diciembre 2009

8-3 TEORIA DEL MUESTREO: EJERCICIOS ESTRATIFICADO

Distrito Poblacion Encuestas Encuestas

Que no viajan

Mean Stdev Cvy Variaza Intra

Proporcional nh

EAT ERT

1 43226 1071 82 3.5135 1.9003 0.5409 0.2580 894 5329 3.51%

2 55244 1363 100 3.6119 1.9652 0.5441 0.3526 1142 6230 3.12%

3 110431 2126 153 3.4718 1.8104 0.5215 0.5982 2283 8115 2.12%

4 65981 1078 58 3.5798 1.9298 0.5391 0.4061 1364 6686 2.83%

5 66936 1031 84 3.5160 1.9493 0.5544 0.4203 1384 6803 2.89%

6 45019 893 61 3.3527 1.9443 0.5799 0.2813 931 5565 3.69%

7 26491 449 27 3.6682 1.9490 0.5313 0.1663 548 4279 4.40%

8 32674 586 47 3.4812 1.8604 0.5344 0.1869 676 4536 3.99%

9 35428 737 58 3.4138 1.8764 0.5496 0.2061 733 4764 3.94%

10 123635 2222 162 3.4163 1.9255 0.5636 0.7576 2556 9132 2.16%

Total 605065 11556 832 3.4907 1.9076 0.5465 1.90612 12511 20000 0.95%

Dimensionar una muestra estratificada óptima de Neymann fijado el tamaño de la muestra total según el punto anterior (dimensionar por estrato), y determinar la precisión absoluta del total de viajes diarios al 95% de confianza. Calcular los errores absolutos y relativos por estrato.

Page 15: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-15 Buenos Aires, 7 – 11 Diciembre 2009

8-3 TEORIA DEL MUESTREO: EJERCICIOS ESTRATIFICADO

Muestreo Estratificado Óptima de Neyman con dimensionado global fijado según estratificado proporcional con varianza intraestrato ponderada de 1.90612 Distrito Poblacion Encuestas No viajan Mean Stdev Cvy Variaza

Intra Proporcional nh

Optimo nh

EAT ERT

1 43226 1071 82 3.5135 1.9003 0.5409 894 891 5337 3.51%

2 55244 1363 100 3.6119 1.9652 0.5441 1142 1178 6133 3.07%

3 110431 2126 153 3.4718 1.8104 0.5215 2283 2169 8330 2.17%

4 65981 1078 58 3.5798 1.9298 0.5391 1364 1382 6643 2.81%

5 66936 1031 84 3.5160 1.9493 0.5544 1384 1416 6724 2.86%

6 45019 893 61 3.3527 1.9443 0.5799 931 950 5508 3.65%

7 26491 449 27 3.6682 1.9490 0.5313 548 560 4230 4.35%

8 32674 586 47 3.4812 1.8604 0.5344 676 660 4592 4.04%

9 35428 737 58 3.4138 1.8764 0.5496 733 721 4801 3.97%

10 123635 2222 162 3.4163 1.9255 0.5636 2556 2583 9084 2.15%

Total 605065 11556 832 3.4907 1.9076 0.5465 1.90612 12511 12511 19992 0.95%

Valorar los beneficios de una estratificación dirigida a la estimación del total de viajes diarios por residentes del ámbito.

Page 16: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-16 Buenos Aires, 7 – 11 Diciembre 2009

8-3 TEORIA DEL MUESTREO: EJERCICIOS ESTRATIFICADO

Pro8.3.3 Encuesta de Movilidad Domiciliaria en una capital latinoamericana

56

58

59

43

38

61

57

3655

37 60

51 39

41

35

44

34

21

54

42

53

18

29

40

50

33

52

47

1145

48

22

17

20

15

4931

2310 30

12

19

13

8

14

26

6

3

16

32

2

25

28

7

27

4

249

1

46

5

Se dispone de información relativa a la población por género y grupos de edad en las zonas de transporte del ámbito de estudio interior de constituído por 55 macrozonas. Se tiene información de una Encuesta de Movilidad y se desea dimensionar estudios de muestreo bajo diversos supuestos. La densidad de puntos indica el tamaño muestral (cada punto son 2 encuestas).

Page 17: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-17 Buenos Aires, 7 – 11 Diciembre 2009

8-3 TEORIA DEL MUESTREO: EJERCICIOS ESTRATIFICADO

Información sobre las características del individuo 6. OCUPACIÓN ACTUAL 1. PERSONA

(parentesco con jefe hogar)

2. NIVEL FORMACIÓN

3. ACTIVIDAD QUE REALIZA

4. NIVEL DE INGRESOS MENSUAL

(pesos)(familia)

5. CONDICIÓN ENTREVISTADO (si trabaja)

7. ACTIVIDAD ECONÓMICA DEL SITIO DE TRABAJO (si

trabaja)

1.Agricultura, Ganadería, Caza y Silvicultura, Pesca,

2.Explotación de minas y canteras

1. Jefe Hogar (principal sostén)

1.Preescolar 1.Ocupado 1.Menos de 5.000 1.Situación

regular 1.Grandes y medianos comerciantes,

3. Industrias Manufactureras

2. Pareja de jefe 2.Primaria

completa 2.Desempleado 2. 5.000 a 8.000 2.Buscando

trabajo 2.Profesionales, altos empleados 4. Suministro de

Electricidad, Gas y Agua

5. Construcción

3. Hijo(a) 3.Primaria incompleta 3.Estudiante 3. 8.000 a

10.000 3. Trabajo Temporal

3. Pequeños comerciantes, trabajadores especializados independientes

6. Comercio al por mayor y al por menor; Reparación vehículos efectos personales y enseres domésticos

4. Padre 4.Secundaria , Básica completa

4. Ama de casa 4. 10.000 a 12.000 4. Día libre 4. Administrativos,

técnicos, docentes, 7. Hoteles y Restoranes

5. Madre 5.Secundaria , Básica incompleta

5. Trabajo + Estudio

5. 12.000 a 15.000

5. Vacaciones

5. Vendedores

8. Transporte, Almacenamiento y Comunicaciones

9. Intermediación Financiera

6. Otro familiar 6. Superior completa

6. Jubilado/a

6. 15.000 a 20.000

6. Enfermo

6. Operarios, oficios, choferes y otros obreros

10. Administración Pública, Defensa, Org. extraterritoriales

Page 18: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-18 Buenos Aires, 7 – 11 Diciembre 2009

11. Enseñanza

especializados

12. Servicios Sociales y de Salud

13. Servicio Doméstico 7. Superior Incompleta 7. Rentas 7. 20.000 a

25.000 7. Permiso

7. Peones, domésticas y obreros no especializado. Personal de la FFAA y Policia

14. Inmobiliarias

8. Changas 15. Eliminación de desperdicios, aguas residuales, saneamiento

7. Otro no familiar

8. Otra 8. Otros 8. más de 25.000

8. Otro

9.Otros (especificar) 16.Otros (especifique)

Información sobre las características del hogar

SECCION III – DATOS DE LA FAMILIA/VIVIENDA

1. Datos de la vivienda 2. Tipo de Vivienda 3. Tenencia de la Vivienda 4. Número de vehículos particulares

propiedad del hogar 1. Casa 1. PROPIA Pagada no 1. Número de familias en la

vivienda

2. Apartamento 2. PROPIA Pagándose 1. ¿Dispone de vehículo para realizar su desplazamiento?

si

¿En caso afirmativo especificar cuáles?

1. Automvovil 3. Pieza en vivienda colectiva

Monto mensual hipoteca (pesos)

2. Camioneta

2. ¿Cuantas personas de este hogar duermen habitualmente en esta vivienda, incluyendo los que están temporalmente fuera?

4. Vivienda en asentamiento consolidada

3. ALQUILADA

3. Camión

5. Vivienda precaria en asentamiento

Monto mensual alquiler (pesos)

4. Motocicleta

6. Otros 4. OTRA FORMA 5. Bicicleta

3. Número de personas entre 5 y 15 años en la vivienda

cual Monto mensual (pesos)

6. Tracción Animal

Page 19: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-19 Buenos Aires, 7 – 11 Diciembre 2009

8-3 TEORIA DEL MUESTREO: EJERCICIOS ESTRATIFICADO

Información sobre los viajes realizados el día anterior (hasta 4 etapas)

VIAJE 1 ETAPA 1 ETAPA 2

Tiempo (minutos) Tiempo (minutos) PROPÓSITO O Descripción D

DESCRIPCION DEL VIAJE

Camina Espera En

Vehíc Camina Camina Espera En

Vehíc Camina 1. A pie (más 1 cuadra)

1. Casa

6. Trámites 1. Casa

2. Conductor auto

Especificar Estacionamiento en D E1 E2 E3 E4 E1 E2 E3 E4

2. Trabajo

7. Recreación-social

2. Trabajo

3. Pasajero Auto

3. Educación

8. Acompañar a otra persona

3. Educación 4. Pasajero Taxi

5. Pasajero Colectivo Urbano

4. Compras 9. Otro - cual 4. Compras

Especificar Nombre Línia Bus

Utilizada

6. Pasajero Colectivo Interurbano

5. Atención de salud

5. Atención de salud

7. Pasajero Tte. Escolar

HORA INICIO HORA FINAL 6. Trámites 8. Moto/ Motocicleta

7. Recreación-

social 9. Bicicleta

ZONA ORIGEN ZONA FINAL 8. Acompañar 10.Carro tracción animal

a otra persona 11.Otros

9. Otro - Cual

E1.sin Pago E2.Parquing Horas Zona Inicio

Zona Inicio

E3.Parquing Fijo E4.Parquing

Propio Zona Final

Zona Final

Page 20: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-20 Buenos Aires, 7 – 11 Diciembre 2009

8-3 TEORIA DEL MUESTREO: EJERCICIOS ESTRATIFICADO

Se les suministra la información relativa a la grabación de la Encuesta: documentada con el significado de los campos grabados en las distintas columnas. La distribución del número de individuos por hogar y el número de vehiculos (auto o moto) por hogar es:

0

200

400

600

800

1000

1200

0 1 2 3 4 5 6 7 8 9 10 11 12 13

10876543210

Cuenta de formular

numperso

novehtot

0

500

1000

1500

2000

2500

3000

0 1 2 3 4 5 6 7 8 10

131211109876543210

Cuenta de formular

novehtot

numperso

Mayormente no disponen de auto y se podrían clasificar los hogares según su disponibilidad de 0, 1, 2+ vehículos.

Los tamaños de los hogares se podrían agrupar por número de individuos (1, 2, 3, 4, 5+).

La caracterización de las macrozonas está en el archivo ZATS Descripción.xls. La caracterización de los viajes, personas y hogares está disponible en formato excel.

Page 21: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-21 Buenos Aires, 7 – 11 Diciembre 2009

8-3 TEORIA DEL MUESTREO: EJERCICIOS ESTRATIFICADO

56

58

59

43

38

61

57

3655

37 60

51 39

41

35

44

34

21

54

42

53

18

29

40

50

33

52

47

1145

48

22

17

20

15

4931

2310 30

12

19

13

8

14

26

6

3

16

32

2

25

28

7

27

4

249

1

46

5

0 1.5 3 4.5Miles

POBTOT5123 and below (6)5124 to 12999 (8)13000 to 18999 (14)19000 to 24999 (8)25000 to 29999 (11)30000 to 38999 (7)39000 to 49999 (5)50000 and above (2)

0 1.5 3 4.5

Miles

POBTOT5123 and below (6)5124 to 12999 (8)13000 to 18999 (14)19000 to 24999 (8)25000 to 29999 (11)30000 to 38999 (7)39000 to 49999 (5)50000 and above (2)

Page 22: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-22 Buenos Aires, 7 – 11 Diciembre 2009

8-3 TEORIA DEL MUESTREO: EJERCICIOS ESTRATIFICADO

56

58

59

43

38

61

57

3655

37 60

51 39

41

35

44

34

21

54

42

53

18

29

40

50

33

52

47

1145

48

22

17

20

15

4931

2310 30

12

19

13

8

14

26

6

3

16

32

2

25

28

7

27

4

249

1

46

5

Factor de Muestreo (%)

0 1.5 3 4.5

Miles

factorm0.5044 to 0.67490.6749 to 0.84540.8454 to 1.01581.0158 to 1.18631.1863 to 1.35681.3568 to 1.5273Other

Factor de Muestreo (%)

0 1.5 3 4.5

Miles

factorm0.5044 to 0.67490.6749 to 0.84540.8454 to 1.01581.0158 to 1.18631.1863 to 1.35681.3568 to 1.5273Other

Page 23: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-23 Buenos Aires, 7 – 11 Diciembre 2009

8-3 TEORIA DEL MUESTREO: EJERCICIOS ESTRATIFICADO

56

58

59

43

38

61

57

3655

37 60

51 39

41

35

44

34

21

54

42

53

18

29

40

50

33

52

47

1145

48

22

17

20

15

4931

2310 30

12

19

13

8

14

26

6

3

16

32

2

25

28

7

27

4

249

1

46

5

0 1.5 3 4.5Miles

POBTOT5124 to 1401314014 to 2290222903 to 3179231793 to 4068140682 to 4957149572 to 58461Other

ZATS Charts500002500012500

gtsrhgrh

0 1.5 3 4.5

Miles

POBTOT5124 to 1401314014 to 2290222903 to 3179231793 to 4068140682 to 4957149572 to 58461Other

ZATS Charts500002500012500

gtsrhgrh

Generación de viajes total estimado sin regreso al hogar (naranja) y de regreso al hogar (blanco). Sobre fondo indicador de la población total de las macrozonas de transporte

Page 24: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-24 Buenos Aires, 7 – 11 Diciembre 2009

8-3 TEORIA DEL MUESTREO: EJERCICIOS ESTRATIFICADO

Se desea dimensionar una muestra ASSR de residentes para conseguir una estimación del total de viajes diarios con un error relativo global inferior al 1% al 90% de confianza. En primera aproximación, la media de viajes por residente y día se sitúa en 1.887, su desviación estándar en 1.071 y su coeficiente de variación en 0.568.

La muestra de individuos contiene un total de 3473 residentes y el detalle de todos los desplazamientos realizados el día anterior. Calcular el intérvalo de confianza para el número medio de viajes por residente y día al 95%. Calcular el intérvalo de confianza para el número total de viajes por residente y día al 95%.

Y para la probabilidad de usar el autobús, podriais dar alguna estimación para su error absoluto al 95% de confianza? Si la probabilidad de usar el autobús fuera del 10%, cual sería su error relativo esperado al 95% de confianza.

Realizados los cálculos pertinentes para determinar a nivel de macrozona el número de viajes por residente encuestado y día (media, desviación típica y coeficiente de variación), según los datos de la grabación de viajes por individuo y día, se puede plantear un dimensionamiento más fino para otras ocasiones.

Dimensionar una muestra estratificada proporcional según el criterio de error relativo sobre el número total de viajes inferior al 1% con un nivel de confianza del 95% (dimensionar por estrato). Calcular los errores absolutos y relativos por estrato.

Dimensionar una muestra estratificada óptima de Neymann fijado el tamaño de la muestra total según el punto anterior (dimensionar por estrato), y determinar la precisión absoluta del total de viajes diarios al 95% de confianza. Calcular los errores absolutos y relativos por estrato.

Calcular la precisión relativa y absoluta resultante de la muestra de datos disponible para el total de viajes diarios por macrozona. ¿Y para la proporción de usuarios del transporte público?

Page 25: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-25 Buenos Aires, 7 – 11 Diciembre 2009

PRO9. EJERCICIOS DE ANÁLISIS ESTADÍSTICO DE ENCUESTAS

Pro9.1 Descriptiva -Actitud ante peaje urbano: CBD Pricing

Determinar una regla de decisión para la aceptación de medidas de tránsito y circulación dirigidas a la reducción de las emisiones contaminantes (podría proceder de una encuesta de opinión sobre el peaje urbano aplicado al centro de Londres).

La hipotética función de score debería clasificar a los individuos en tres zonas: verde (acceptación clara), naranja (zona de duda) y roja (rechazo claro).

Determinar el porcentaje de aceptaciones, el porcentaje de rechazos reales a quienes se ha etiquetado como aceptación clara y el porcentaje de aceptaciones reales a quienes se ha tachado de rechazos claros.

Se dispone de una muestra de individuos de los que se ha recogido información sobre características socioeconómicas y de opinión. Se dispone de un archivo de datos y de la siguiente metainformación:

El valor 99999999 en las variables continuas indica valor faltante (missing).

Page 26: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-26 Buenos Aires, 7 – 11 Diciembre 2009

Diccionario de datos o características de la matriz de datos:

Archivo con los datos de la grabación en los campos descritos: kioto.txt o opina_raw.RData.

Etapas del análisis descriptivo elemental (resolución Teo9-1_M2-1PETC.PDF):

1. Depuración Global Más Categorización De Las Var. Cuantitativas

2. Asociación Global Entre Resp.Cuantitativa Y Explicativa Con I Niveles (Factor)

3. Asociación Global Entre Cualitativas (Factores) Con I Niveles Y J Niveles

4. Asociación Por Niveles De La Resp. Cualitativa Con J Niveles Y Los Factores

5. Asociación Por Niveles De La Resp Cuantitativa Y Factores Con I Niveles

Opinión real (variable de respuesta) 1 positivo/aceptación 2 negativo/rechazo

Antigüedad en el trabajo (años) Vivienda

1 alquiler 2 escritura publica 3 contrato privado 4 ignora contrato 5 padres 6 otros

Edad Estado civil

1 soltero 2 casado 3 viudo 4 separado 5 divorciado

Tipo de trabajo 1 empleado fijo 2 empleado temporal 3 autonomo 4 otros

Gastos (miles €) Ingresos (miles €) Patrimonio (miles €) Patrimonio por amortizar (miles €) Préstamos solicitados (miles €) Plazo del préstamo más largo (meses) Precio de los bienes financiados (miles €)

Page 27: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-27 Buenos Aires, 7 – 11 Diciembre 2009

Pro9.2 Regresión múltiple y modelos de análisis de la covarianza (teórico)

Los datos que siguen muestran los resultados de diversos modelos lineales generales para una respuesta Y de distribución normal y variables explicativas: una covariante X y un factor dicotómico A (genéricamente nivel 1 y nivel 2). Se supondrá la reparametrización por defecto de R. El modelo nulo tiene una suma de cuadrados residuales de 5460 con n-p=18 g.l. La regresión lineal Y ~ X tiene un coeficiente de determinación de 0.76762. El estimador del parámetro de la

variable X en la regresión lineal simple es 1.048. El modelo lineal general con el factor A, Y~A, facilita un coeficiente estimado para la variable muda de –3.767

y una suma de cuadrados residuales de 5396. El modelo lineal general aditivo, Y~A+X, tiene un coeficiente de determinación de 0.5908. El modelo lineal general con interacciones reduce la suma de cuadrados residuales en 531 unidades respecto el

modelo lineal general aditivo. El modelo lineal general con interacciones que contempla la variable X centrada en la su media de 53.58

muestra: Coeficientes Estimadores Errores estàndard

Termino independiente 62.9454 3.4049

X centrada 0.9283 0.2099

Dummy grup 2 4.8244 5.2340

Dummy para interacción grup 2 - X 1.5675 0.7245

1. ¿Qué fracción de la variabilidad de los datos, Y, explica el modelo de regresión lineal simple? 2. ¿Cuál es la suma de cuadrados residual del modelo de regresión lineal simple? 3. ¿Cuál es la suma de cuadrados residual del modelo ANCOVA aditivo Y ~ A+X?

Page 28: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-28 Buenos Aires, 7 – 11 Diciembre 2009

4. Rellenar la siguiente tabla indicando el número de parámetros necesarios para incluir en el modelo ANCOVA completo las distintas fuentes de explicabilidad. Indicar los grados de libertad de la suma de cuadrados residual del modelo (Y ~ A*X).

Fuente parámetros g.l

X A Interacción A:X Residual Total

5. ¿ Cuál es el coeficiente de determinación del modelo ANCOVA completo? 6. ¿Existe evidencia estadística de la influencia del Factor A? 7. Identificar los coeficientes e intepretar el modelo de ANCOVA con interacciones. 8. Existe evidencia que la relación entre Y e X es diferente para los dos grupos definidos por el Factor A? 9. Calcular el intérvalo de confianza al 95% para el valor predicho predicho con el modelo ANCOVA completo en la

media de X y para el grupo de referencia. 10. Comentad lo que habéis aprendido de estos datos en relación a la respuesta Y y las variables explicativas X y

A.

Page 29: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-29 Buenos Aires, 7 – 11 Diciembre 2009

Pro9.3 Diagnosis en la regresión lineal simple. Datos de Anscombe 73

Un juego de datos propuesto por Anscombe en 1.973 ilustra 4 juegos de 11 parejas de puntos con idénticos estimadores de los parámetros de la recta de regresión lineal por mínimos cuadrados ordinarios e idéntico coeficiente de determinación.

XA YA XB YB XC YC XD YD

10 8,04 10 9,14 10 7,46 8 6,58 8 6,95 8 8,14 8 6,77 8 5,76 13 7,58 13 8,74 13 12,74 8 7,71 9 8,81 9 8,77 9 7,11 8 8,84 11 8,33 11 9,26 11 7,81 8 8,47 14 9,96 14 8,10 14 8,84 8 7,04 6 7,24 6 6,13 6 6,08 8 5,25 4 4,26 4 3,10 4 5,39 19 12,50 12 10,84 12 9,13 12 8,15 8 5,56 7 4,82 7 7,26 7 6,42 8 7,91 5 5,68 5 4,74 5 5,73 8 6,89

Page 30: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-30 Buenos Aires, 7 – 11 Diciembre 2009

Para cada juego de datos se debe efectuar:

1. Estadística descriptiva ràpida de de las variables implicadas. 2. Diagrama bivariante de las variables con Y en ordenadas y X en abcisas. ¿Por inspección visual, se puede afirmar

que hay relación entre las variables? La relación és lineal o no? Calcular el coeficiente de correlación entre las variables y valararlo.

3. Calcular la recta de regresión entre las dos variables. Identificar y reproducir los parámetros estimados y el coeficiente de determinación. Valorar la R2 y representad la recta de regresión sobre el diagrama bivariante correspondiente.

4. Observación de los residuos (todos), factores de anclaje y distancia de Cook (Ci).

5. Identificación de patrones en residuos.

6. Detección de outliers de los residuos.

7. Detección de observaciones influyentes a priori y a posteriori.

8. Reproducir el diagrama bivariante de las observaciones y de los residuos.

Page 31: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-31 Buenos Aires, 7 – 11 Diciembre 2009

Pro9.4 Modelos de Generación y Atracción de Viajes: Ciudad X

El presente ejercicio está dedicado a describir como se ha proyectado la demanda de Ciudad X para los diferentes años horizonte de estudio: 2010, 2015 y 2020. Para ello se desarrollan los modelos de prognosis que se formulan a partir de la información de viajes para el año base (OD2007 derivada de las encuestas) y de variables socioeconómicas (población, empleo, usos del suelo…) explicativas de los patrones de movilidad.

Las relaciones existentes entre estas variables explicativas y los viajes actuales permitirán determinar unas funciones explicativas del patrón de movilidad que aplicadas con la proyección de las variables explicativas permiten calcular las atracciones y producciones futuras.

A continuación, una vez obtenidos los vectores de generación/atracción por zona y año horizonte, se aplicará un modelo de distribución tipo fratar y se obtendrán las nuevas distribuciones internas de la matriz. Estas nuevas ODs proyectadas, servirá de base para la posterior etapa de asignación de los viajes a las redes de transporte propuesta en cada escenario temporal (años 2010, 2015 y 2020).

La base de la metodología consiste en la estimación y posterior aplicación de diferentes modelos de generación y atracción sobre las variables que influyen en la generación y atracción de viajes. Los resultados que se obtengan serán incorporados a la formulación de un modelo gravitatorio que permitirá conocer la distribución futura de los viajes, como paso previo a su asignación a la red de transporte público.

Se consideran, por tanto, tres fases en la proyección de las matrices hacia el futuro:

1. Análisis de los factores de generación y atracción de viajes para la matriz origen-destino, en términos de variables cuantificables.

Page 32: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-32 Buenos Aires, 7 – 11 Diciembre 2009

2. Proyección para los años deseados de las variables significativas en cuanto a la contribución a la matriz de viajes.

3. Proyección de la futura matriz de viajes para los años deseados con la población, el empleo y otras variables de atracción, y un modelo gravitatorio capaz de reproducir la distribución esperada de los viajes, a partir de las producciones y atracciones estimadas en la fase primera.

En particular, los resultados del proceso de estimación de las atracciones y producciones futuras se desprenden de un análisis clásico realizado mediante técnicas de regresión lineal. La experiencia acumulada en diferentes estudios demuestra que en la gran mayoría de casos estos modelos constituyen aproximaciones muy válidas, siempre y cuando los factores de correlación que aparecen sean significativos estadísticamente.

La aplicación de de cualquier modelo de crecimiento está sujeto a las limitaciones de los datos disponibles, tanto en la actualidad como en el futuro, así como de un comportamiento razonable y pronosticable de estos datos existentes.

Dado que los datos disponibles con fiabilidad estadística están distribuidas en zonas de sondeo (macro zonas), para este análisis se ha determinado mantener dicha zonificación como unidad básica en el cálculo de factores Origen y Destino, además de permitir unos resultados fiables con coherencia por la con que han sido diseñadas y presentar una cantidad razonable de datos.

Los modelos lineales generales (de análisis de la covarianza) se han estimado con el paquete estadístico R de libre distribución, para facilitar la diagnosis y el análisis de sensibilidad en la predicción.

Dichos modelos quedan implantados en la plataforma TransCAD para posteriores aplicaciones.

Las variables que se han recogido para la formulación de los modelos de generación/atracción de prognosis son de dos tipos: numéricas y descriptivas, las cuales se especifican a continuación.

Page 33: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-33 Buenos Aires, 7 – 11 Diciembre 2009

Variables explicativas numéricas recogidas:

Superficie de las zonas, calculada por el programa TransCAD

Población, obtenida de los datos proporcionados por el INE (a través de la IMM)

Empleo, estimado por el consultor a través de los servicios incluidos en las zonas.

Los datos de empleo, al no disponerse de una fuente de información directa, fueron calculados a partir de estimaciones del número de empleados para cada tipo y tamaño de empresa o institución, de las cuales se tenía información para cada zona. Los tipos de empresa disponibles en base cartográfica son: industrias manufactureras, hotelería, sistema financiero, manipuladores de alimentos, instituciones públicas, quioscos y otros, universidades privadas y públicas, escuelas privadas y publicas, liceos privados y públicos, escuelas técnicas UTU, centros de salud, policlínicas MSP, policlínicas municipales y comunidades terapéuticas.

matricula estudiantil, proporcionada por la IMM de datos oficiales

camas hospitalarias, datos proporcionados por la IMM de datos oficiales

Variables explicativas descriptivas. Se ha recogido e incluido información descriptiva de los factores indicativos a nivel de macro zona sobre presencia de uso:

residencial

comercial

restaurantes, ocio, servicios

nivel económico

sede de industrias

Page 34: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-34 Buenos Aires, 7 – 11 Diciembre 2009

Pro9.5 Modelos de contajes y respuesta binaria: Accidentes Mortales – Agresti (2002)

Datos de Agresti (Categorical Data Analysis, John Wiley 2002 pp.305) relativas a accidentes en el estado de Maine (EEUU) durante 1991. Son un total de 68694 accidentes de coche, los datos se clasifican según el Género del conductor, Entorno del accidente y el Uso de Cinturón. Las categorias de la Respuesta son : 1- Sin Heridos 2- Heridos Leves Sin Traslado al hospital 3- Heridos leves con Traslado a hospital, no hospitalizados 4 – Heridos con hospitalitación 5 – Heridos y muerte posterior.

Respuesta

Género Entorno Cinturón 1 2 3 4 5

Mujer Urbà No 7287 175 720 91 10

Mujer Urbà Si 11587 126 577 48 8

Mujer No-Urbà No 3246 73 710 159 31

Mujer No-Urbà Si 6134 94 564 82 17

Hombre Urbà No 10381 136 566 96 14

Hombre Urbà Si 10969 83 259 37 1

Hombre No-Urbà No 6123 141 710 188 45

Hombre No-Urbà Si 6693 74 353 74 12

La tabla muestra el valor de la función logaritmo de la verosimilitud en el óptimo para la estimación del modelo jerárquico donde en primer lugar se discrimina si ha habido heridos (referencia no ha habido) y en caso afirmativo un segundo modelo discrimina de qué tipo (2 a 5) tomando como referencia de segundo nivel 5. Adicionalmente se suministra algunos estimadores de los parámetros de modelos concretos.

LogL Jerárquico

(Nivel 1)

1 -

G -20872.724

E -20633.777

C -20609.566

G+E+C -20041.088

G+E*C -20039.151

E+G*C -20041.047

Page 35: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-35 Buenos Aires, 7 – 11 Diciembre 2009

Responded a las preguntas usando los resultados facilitados. 1. Determinar la tabla de datos agregados necesaria para la estimación del modelo de respuesta binaria para la primera jerarquía

con el único efecto del Uso del Cinturón.

Cinturón Con Heridos

(respuesta positiva)Sin Heridos

Si (ref)

No

P(‘Accidente CON Heridos’) 2. Estimad manualmente a partir de la tabla del punto anterior y empleando la transformación logit cual es el estimador del término

constante en el modelo nulo. 3. Estimad manualmente a partir de la tabla del punto anterior y empleando la transformación probit cual es el estimador del

término constante en el modelo nulo. 4. Estimad manualmente a partir de la tabla del punto anterior y empleando la transformación logit cuáles son los estimadores de la

constante y del coeficiente de la dummy para el efecto aditivo de NO utilizar Cinturón en el modelo que incluye exclusivamente el factor Uso de Cinturón (nivel de referencia i=1 SI).

5. Interpretar en la escala del predictor lineal y en la escala de los odds el efecto del Uso de Cinturón. 6. Calcular el odds-ratio del Uso de Cinturón sobre la incidencia de heridos en los accidentes de tráfico. 7. Estimad manualmente a partir de la tabla del punto anterior y empleando la transformación probit cuáles son los estimadores de

la constante y del coeficiente de la dummy para el efecto aditivo de no utilizar Cinturón en el modelo que incluye exclusivamente el factor Uso de Cinturón (nivel de referencia i=1 SI).

8. ¿Hay alguna evidencia estadística para afirmar que el efecto del Uso de Cinturón de seguridad esté relacionado con el Entorno en que sucedió el accidente ? ¿Cuántos son los grados de libertad del estadístico de referencia para la realización del contraste?

9. ¿Hay alguna evidencia estadística para afirmar que el efecto del Uso de Cinturón de seguridad esté relacionado con el Género del Conductor ? ¿Cuántos son los grados de libertad del estadístico de referencia para la realización del contraste?

10. Identificar cuál es la devianza residual del modelo aditivo para la primera jerarquía y su distribución de referencia. Justificar si según el criterio de bondad del ajuste el modelo aditivo es estadísticamente satisfactorio.

Page 36: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-36 Buenos Aires, 7 – 11 Diciembre 2009

11. Determinar cual es el AIC del modelo aditivo para la primera jerarquía. 12. Interpretar el estimador de la dummy para hombres en el model aditivo del primer nivel. 13. Estimad la probabilidad de sufrir daños físicos en accidentes urbanos cuando no se usa cinturón y el conductor es un hombre con

el model aditivo.

Binary Logistic Regression: 1; M versus Gènere; Entorn; Cinturó Link Function: Logit Response Information Variable Value Count 1 Success 62420 Failure 6274 M Total 68694 Logistic Regression Table Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Constant 1,21640 0,0264908 45,92 0,000 Gènere Home 0,544829 0,0272662 19,98 0,000 1,72 1,63 1,82 Entorn Urbà 0,758058 0,0269722 28,11 0,000 2,13 2,02 2,25 Cinturó Si 0,817097 0,0276503 29,55 0,000 2,26 2,14 2,39 Log-Likelihood = -20041,088 Test that all slopes are zero: G = 1904,989, DF = 3, P-Value = 0,000 Goodness-of-Fit Tests Method Chi-Square DF P Pearson 7,48738 4 0,112 Deviance 7,46448 4 0,113 Hosmer-Lemeshow 7,33935 5 0,197

Page 37: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-37 Buenos Aires, 7 – 11 Diciembre 2009

Pro9.6 Tasa de viajes diarios en Encuesta Domiciliaria (Montero, 2007)

Se va a trabajar con datos reales procedentes de una Encuesta de Movilidad Domiciliaria, donde a los individuos de la muestra se les preguntaba por una descripción exhaustiva de todos los desplazamientos que realizaron durante el dia anterior. El ámbito del estudio está constituído por un núcleo urbano grande y su corona metropolitana (ámbito Urbano y CTM). Nos vamos a centrar en los datos contenidos en la grabación de los desplazamientos diarios. Un viaje viene caracterizado por un motivo y puede desglosarse en máximo 4 etapas, cada una de las cuales viene caracterizada por un modo de transporte. Se han codificado modo y motivo tal como indica el siguiente script y se ha definido un modo principal para un viaje (modop). El número de etapas está contenido en el campo netap. Se considerarán únicamente los viajes realizados en laborable y con origen y final el ámbito del estudio. Las variables disponibles de la grabación se listan a continuación: library(MASS)

options(contrasts=c("contr.treatment","contr.treatment")) names(dfexa) [1] "SERIALID" "NUMDESP" "SEXO" "EDAD_SEL" "EDAD" "DIA" [7] "NUM_DESP" "HORA" "MINUTO" "TIEMPO" "FREC" "PONDE_V2" [13] "uns" "ambito" "ztd" "distrito" "zto" "ztf" [19] "disf" "diso" "mot" "mota" "mod1" "mod2" [25] "mod3" "mod4" "modop" "netap"

El archivo disponible para la realización de este ejercicio contempla las siguientes variables (columnas): SERIALID: Identificador del individuo dentro de la muestra NUMDESP: Número de viaje del día anterior que recoge el registro SEXO: Género del individuo EDAD: Edad del individuo DIA: Día de la semana a que hace referencia el viaje HORA: Hora de inicio del viaje MINUTO: Minuto dentro de la hora del inicio del viaje TIEMPO: Duración total del viaje en minutos FREC: Regularidad de realización del viaje PONDE_V2: Factor de expansión.

Page 38: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-38 Buenos Aires, 7 – 11 Diciembre 2009

Uns: Columna de unos Ambito: Factor dicotómico: urbano o metropolitano de residencia del individuo Ztd: Zona de transporte donde reside el individuo. Distrito: Distrito urbano donde reside el individuo Zto: Zona de transporte origen del viaje Ztf: Zona de transporte destino del viaje Diso, disf: distritos origen y destino del viaje respectivamente. Mot : Motivo del viaje c("Ninguno", "Ocupacional", "Gestiones", "Compras", "Ocio", "RegresoH", "Otros"). Mod1, mod2, mod3, mod4: Modo de transporte empleado en la etapa correspondiente c("Ninguna","Pie", "Bici", "Auto", "Bus", "VEM",

"Otros"). Netap: Número de etapas del viaje (entre 1 y 4). Modop: Modo principal del viaje (alguno de los modos de las etapas).

1. ¿Cuales son las dimensiones de la matriz de datos? 2. Se va a examinar las variables relativas al factor de expansión, el factor EDAD y al subámbito de residencia

(ambito). Indicar los indicadores estadísticos numéricos de estadística descriptiva para las variables indicadas. 3. Determinar el valor a partir del cual el factor de expansión puede considerarse un valor atípicamente grande.

Justificar estadísticamente la respuesta. 4. Analizar estadísticamente si el factor de expansión resulta en promedio de igual magnitud en los residentes en

el ámbito urbano que en el ámbito metropolitano. Indicar el contraste de hipótesis a formular, su p valor y la interpretación de éste.

5. Analizar estadísticamente si la varianza del factor de expansión puede considerarse de igual magnitud en los residentes en el ámbito urbano que en el ámbito metropolitano. Indicar el contraste de hipótesis a formular, su p valor y la interpretación de éste.

6. Construir un modelo de regresión general para explicar el factor expansión en función del subámbito de residencia de los individuos de la muestra. ¿Cuál es el coeficiente de determinación del modelo? Valorarlo.

7. Interpretar el modelo resultante del Punto 6 e indicar cuál es el valor predicho del factor de expansión para los residentes en entorn urbano y para los residente en entorno metropolitano.

8. Construir un modelo de regresión general para explicar el factor expansión en función del grupo de edad de los individuos de la muestra. ¿Cuál es el coeficiente de determinación del modelo? Valorarlo.

Page 39: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-39 Buenos Aires, 7 – 11 Diciembre 2009

9. Interpretar el modelo resultante del Punto 8 e indicar cuál es el valor predicho del factor de expansión para cada uno de los grupos de edad de los residentes.

10. ¿Cuál es el valor predicho para el factor de expansión en el modelo nulo? ¿Sabeis si tiene alguna relación con alguno de los estadísticos descriptivos numéricos habituales?

11. ¿Qué variable de entre ámbito y edad (el factor) os parece más asociada con el valor del factor de expansión? Justificar la respuesta.

12. ¿Os parece que existe una asociación estadística entre los factores grupo de edad (EDAD) y el subámbito de residencia (ambito)? Justificar la respuesta.

13. Considerar el modelo ANOVA de 2 vias para explicar el factor de expansión de un individuo de la muestra en función del ámbito de residencia y del grupo de edad. Construir el modelo completo con interacciones y el modelo aditivo por regresión (método lm(.)). ¿ És estadísticamente significativa la interacción entre ámbito y edad? Construir el contraste necesario y valorar el p valor de la hipótesis nula.

14. Calcular el modelo ANCOVA completo con el método lm(.) para la variable de respuesta factor de expansión y las variables explicativas del factor ámbito y la edad numérica (EDAD_SEL). ¿ És estadísticamente significativa la interacción entre ámbito y edad? Construir el contraste necesario y valorar el p valor de la hipótesis nula.

15. Elegir el mejor modelo de entre todos los tanteados hasta el momento según algún criterio estadístico. ¿Consideras satisfactorio el análisis de regresión con los estimadores mínimos cuadrados?

16. Aplicar la transformada Box-Cox a la respuesta para estabilizar su varianza en el mejor modelo seleccionado en el punto anterior. ¿Cuál es la transformación más adecuada a la vista de los resultados del método boxcox(.) de R en la librería MASS?

17. Indicar si existe presencia de outliers en los residuos, así como el criterio empleado para la diagnosis. 18. Hacer un diagrama bivariante de residuos versus valores predichos e interpretarlo. 19. Indicar si hay observaciones que son influyentes, así como el criterio empleado para la diagnosis. 20. Resumir las conclusiones de lo que habéis aprendido con el análisis del presente conjunto de datos.

Page 40: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-40 Buenos Aires, 7 – 11 Diciembre 2009

Pro9.7 Siniestros anuales en seguros de vehículos (Bermúdez et al 2000) Se estudiarán la incidencia anual de siniestros en una aseguradora de automóviles. Datos extraídos del artículo ‘Exponential Bonus-Malus Systems Integrating a priori Risk Classification’ (2000). El riesgo de siniestralidad de los asegurados depende de su edad, género, ocupación, uso del vehículo, color del vehículo, etc. El sistema de bonus-malus considera en el cálculo de la tarifa anual, el número de siniestros anteriores reportados por los asegurados. En el artículo se propone modelar el número de siniestros en función de una agrupación de la edad de los asegurados Factor Edad (<36, 36 a 49, >49) y del Factor Potencia, donde la potencia del vehiculo asegurado se ha categorizado en 4 niveles: <54, 54 a 75, 76 a 118 y >118.

Edad Potencia Vehículos asegurados

Número Siniestros

Prob Declarar algún Siniestros

<36 <54 3945 736 0,1866

36-49 <54 9023 1418 0,1571

>50 <54 11758 1509 0,1283

<36 54-75 11947 3208 0,2685

36-49 54-75 25719 5862 0,2279

>50 54-75 27287 5420 0,1986

<36 76-118 8447 2527 0,2992

36-49 76-118 19609 4953 0,2526

>50 76-118 18688 4459 0,2386

<36 >119 1486 478 0,3217

36-49 >119 5762 1640 0,2846

>50 >119 5812 1443 0,2483 149483 33653

1. Determinar la tabla de datos agregados necesaria para la estimación del modelo de respuesta binaria para la probabilidad de

declarar algún siniestro con el único efecto de la Potencia del Vehículo asegurado. ¿Cuál es la probabilidad de declarar algún siniestro que marginalmente corresponde a cada asegurado?

Page 41: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-41 Buenos Aires, 7 – 11 Diciembre 2009

Potencia Declaran Siniestro

(respuesta positiva)

Vehículos

asegurados

<54

54-75

76-118

>119

33653 149483 2. Estimad manualmente a partir de la tabla del punto anterior y empleando la transformación logit cual es el estimador del término

constante en el modelo nulo. 3. Estimad manualmente a partir de la tabla del punto anterior y empleando la transformación probit cual es el estimador del

término constante en el modelo nulo. 4. Estimad manualmente a partir de la tabla del punto anterior y empleando la transformación logit cuáles son los estimadores de la

constante y de los coeficiente de las dummies para el efecto bruto de la Potencia del vehículo en el modelo que incluye exclusivamente el factor Potencia (nivel de referencia i=1 ≡‘<54’).

5. Interpretar en la escala del predictor lineal y en la escala de los odds el efecto de la Potencia sobre la probabilidad de declarar algún siniestro.

6. Calcular el odds-ratio de los grupos de Potencia sobre la incidencia de siniestros de tráfico. 7. ¿Hay alguna evidencia estadística para afirmar que el efecto de la Potencia del vehículo está relacionado con la incidencia de

Siniestros? ¿Cuántos son los grados de libertad del estadístico de referencia para la realización del contraste? 8. ¿Hay alguna evidencia estadística para afirmar que el efecto bruto de la Edad afecta a la incidencia de Siniestros? ¿Cuántos son

los grados de libertad del estadístico de referencia para la realización del contraste? 9. Determinar si el efecto NETO de la Potencia es estadísticamente significativo 10. Determinar si el efecto NETO de la Edad es estadísticamente significativo 11. Existe evidencia para afirmar que los efectos de la Potencia no son los mismos según los distintos grupos de la Edad en la

incidencia de Siniestros por tráfico? 12. Calcular el coeficiente de determinación generalizado del modelo que incluye efectos principales e interacciones de las variables

explicativas en la incidencia de los siniestros por tráfico.

Page 42: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-42 Buenos Aires, 7 – 11 Diciembre 2009

13. Determinar cual es el AIC del modelo aditivo y del modelo con interacciones y a la vista de sus valores cuál creeís que será el modelo preferido según ese criterio.

14. Interpretar el efecto del grupo de EDAD en el modelo con INTERACCIONES. 15. Estimad la probabilidad de declarar algún siniestro en asegurados mayores de 65 años y con vehículo de máxima potencia en el

modelo con interacciones. 16. Los autores indicados como fuente, analizan los datos usando modelos loglineals con el número de siniestras como respuesta y el

número de pólizas como offset. 17. Por qué pensáis que los autores usan modelos loglineals en vez de tratar el número de siniestros recibimientos del total de pólizas

por grupo como una respuesta binomial y usar modelos de respuesta binaria. 18. A la vista de los estimadores, considerar la definición de la variable cedat con valores 1, 2 y 3 según el grupo de edad y dar el

tratamiento a edad como covariable. Determinar la bondad del ajuste en el modelo aditivo simplificado. 19. Interpretar el coeficiente de la variable dummy correspondiente al grupo de edad constituido por las personas más mayores en el

modelo aditivo original 20. Interpretar el modelo con interacciones para todas las clases de la covariante. 21. Determinar la estimación por punto y por intervalo (al nivel de confianza del 95%) del número predicho de siniestras por póliza

dentro del grupo de referencia en el modelo aditivo.

RESULTADOS R > summary(bm) m y f.edat f.pot Min. : 1486 Min. : 478 <36 :4 <54 :3 1st Qu.: 5800 1st Qu.:1437 36-49:4 54-75 :3 Median :10390 Median :2084 50+ :4 76-118:3 Mean :12457 Mean :2804 119+ :3 3rd Qu.:18918 3rd Qu.:4582 Max. :27287 Max. :5862 > summary(m1) Call: glm(formula = I(y/m) ~ f.pot, family = binomial, data = bm, weights = m) Coefficients: Estimate Std. Error z value Pr(>|z|)

Page 43: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-43 Buenos Aires, 7 – 11 Diciembre 2009

(Intercept) -1.74924 0.01790 -97.71 <2e-16 *** f.pot54-75 0.50145 0.02023 24.79 <2e-16 *** f.pot76-118 0.67928 0.02081 32.65 <2e-16 *** f.pot119+ 0.76809 0.02658 28.90 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 1799.68 on 11 degrees of freedom Residual deviance: 473.67 on 8 degrees of freedom AIC: 592.61 Number of Fisher Scoring iterations: 3 > summary(m2) Call: glm(formula = I(y/m) ~ f.edat, family = binomial, data = bm, weights = m) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.99929 0.01403 -71.22 <2e-16 *** f.edat36-49 -0.20461 0.01705 -12.00 <2e-16 *** f.edat50+ -0.37504 0.01716 -21.85 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 1799.7 on 11 degrees of freedom Residual deviance: 1313.4 on 9 degrees of freedom AIC: 1430.3 Number of Fisher Scoring iterations: 4

Page 44: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-44 Buenos Aires, 7 – 11 Diciembre 2009

> summary(m3) Call: glm(formula = I(y/m) ~ f.pot + f.edat, family = binomial, data = bm, weights = m) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -1.49991 0.02201 -68.15 <2e-16 *** f.pot54-75 0.48897 0.02027 24.13 <2e-16 *** f.pot76-118 0.66519 0.02085 31.90 <2e-16 *** f.pot119+ 0.77654 0.02664 29.15 <2e-16 *** f.edat36-49 -0.21909 0.01715 -12.78 <2e-16 *** f.edat50+ -0.36891 0.01726 -21.37 <2e-16 *** Null deviance: 1799.681 on 11 degrees of freedom Residual deviance: 18.154 on 6 degrees of freedom AIC: 141.09 > summary(m4) Call: glm(formula = I(y/m) ~ f.pot * f.edat, family = binomial, data = bm, weights = m) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -1.47248 0.04087 -36.029 < 2e-16 *** f.pot54-75 0.47034 0.04579 10.272 < 2e-16 *** f.pot76-118 0.62118 0.04728 13.140 < 2e-16 *** f.pot119+ 0.72637 0.06895 10.534 < 2e-16 *** f.edat36-49 -0.20707 0.05007 -4.136 3.54e-05 *** f.edat50+ -0.44325 0.04930 -8.991 < 2e-16 *** f.pot54-75:f.edat36-49 -0.01084 0.05616 -0.193 0.8469 f.pot76-118:f.edat36-49 -0.02648 0.05781 -0.458 0.6469 f.pot119+:f.edat36-49 0.03154 0.08027 0.393 0.6943 f.pot54-75:f.edat50+ 0.05051 0.05556 0.909 0.3633 f.pot76-118:f.edat50+ 0.13419 0.05736 2.340 0.0193 *

Page 45: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-45 Buenos Aires, 7 – 11 Diciembre 2009

f.pot119+:f.edat50+ 0.08155 0.08023 1.016 0.3094 --- Null deviance: 1.7997e+03 on 11 degrees of freedom Residual deviance: -2.5060e-12 on 0 degrees of freedom AIC: 134.94 > anova(m0,m1,test="Chis") Analysis of Deviance Table Model 1: I(y/m) ~ 1 Model 2: I(y/m) ~ f.pot Resid. Df Resid. Dev Df Deviance P(>|Chi|) 1 11 1799.68 2 8 473.67 3 1326.01 3.349e-287 > anova(m0,m2,test="Chis") Analysis of Deviance Table Model 1: I(y/m) ~ 1 Model 2: I(y/m) ~ f.edat Resid. Df Resid. Dev Df Deviance P(>|Chi|) 1 11 1799.68 2 9 1313.37 2 486.31 2.508e-106 > anova(m1,m3,test="Chis") Analysis of Deviance Table Model 1: I(y/m) ~ f.pot Model 2: I(y/m) ~ f.pot + f.edat Resid. Df Resid. Dev Df Deviance P(>|Chi|) 1 8 473.67 2 6 18.15 2 455.52 1.216e-99 > anova(m2,m3,test="Chis") Analysis of Deviance Table Model 1: I(y/m) ~ f.edat Model 2: I(y/m) ~ f.pot + f.edat Resid. Df Resid. Dev Df Deviance P(>|Chi|)

Page 46: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-46 Buenos Aires, 7 – 11 Diciembre 2009

1 9 1313.37 2 6 18.15 3 1295.22 1.605e-280 > anova(m3,m4,test="Chis") Analysis of Deviance Table Model 1: I(y/m) ~ f.pot + f.edat Model 2: I(y/m) ~ f.pot * f.edat Resid. Df Resid. Dev Df Deviance P(>|Chi|) 1 6 18.1543 2 0 -2.506e-12 6 18.1543 0.0059 >

Page 47: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-47 Buenos Aires, 7 – 11 Diciembre 2009

Pro9.8 Elección modal (Greene & Hensher 1997) Caso de estudio de modo (preferencias reveladas) entre Sidney y Melbourne, GREENE CH 19 "ECONOMETRIC ANALYSIS" 5TH ED Table F21.2: Data Used to Study Travel Mode Choice, 840 Observations On 4 Modes For 210 Individuals. Source: Greene and Hensher (1997). Son 210 individuos con información para cada modo de:

1. mode = choice; Air, Train, Bus, or Car - Ref. Car 2. ttme = terminal waiting time, 0 for car 3. invc = in vehicle cost - cost component, 4. invt = travel time, in vehicle, 5. gcost = generalized cost measure, 6. hinc = household income, 7. psize = party size in mode chosen.

Se va a estudiar la elección modal del tren frente al avión a partir de la diferencia en las variables explicativas entre el avión y el tren, concretamente se usará como respuesta positiva tren y por tanto, negativa avión y se construyen las variables tiempo de espera en terminal del tren menos el correspondiente al avión, coste del tren menos el de avión, tiempo de viaje en vehículo del tren menos el de avión, coste generalizado del tren menos el de avión.

1. Estimad manualmente los coeficientes del modelo nulo empleando la transformación logit. 2. Estimad manualmente los coeficientes del modelo nulo empleando la transformación probit. 3. Determinar si las variables de las diferencias en los tiempos de espera en terminal, en trayecto en vehículo y en coste són

estadísticamente significativas en el modelo aditivo que contiene las 3 (modelo (m1)). 4. ¿Interpretad el modelo (m2), qué finalidad creeis que se persigue? 5. Comparad en los términos estadísticos que creais adecuados (razonando por qué) los modelos (m2) y (m1), con cual de los 2 os

quedariais? 6. Los economistas denominan disponibilidad a pagar (pathworth) al cociente entre los coeficientes de los tiempos (de espera y

en trayecto dentro del vehículo) y el coeficiente del coste. Las unidades de tiempo son minutos y el coste son dólares

Page 48: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-48 Buenos Aires, 7 – 11 Diciembre 2009

autralianos. Calculad la disponibilidad a pagar por reducir un minuto del tiempo de espera en terminal y por reducir el tiempo del trayecto en vehículo.

7. Si se quisiera determinar una disponibilidad a pagar por reducir el tiempo de viaje global (espera más trayecto en vehículo), cómo podríais calcularlo con los modelos disponibles?

8. Parece que la disponibilidad a pagar tiene que estar relacionada con la capacidad adquisitiva de los individuos, de ahí que se relativice el coste del viaje dividiendolo por los ingresos del hogar del individuo y se reajuste el modelo con coeficientes diferenciados para las distintas componentes del tiempo. Os parece una buena idea en términos estadísticos, qué modelo prefeririais m1, m2 o m3?

9. Interpretad el efecto del número de pasajeros que viajan juntos en la probabilidad de elegir el modo avión: (m4). 10. Para ahorrar parámetros y complejidad al modelo se decide crear una variable categórica dicotòmica donde se codifica si el

número de viajeros és 1 o es 2 o más. Con este factor se recalcula el modelo m5. Argumentad estadísticamente si vale la pena esta maniobra o es mejor considerar como covariante el número de viajeros que van juntos.

RESULTADOS R > # Mantenemos sólo las observaciones de respuesta Air o Train ll<-which((df$fresposta=="Air") | (df$fresposta=="Train"));ll;length(ll) df<-df[ll,] df$fresposta<-factor(df$fresposta) summary(df) dim(df) > df = transform(df , ttme2.1 = ttme2-ttme1, + invc2.1 = invc2-invc1, + invt2.1 = invt2-invt1, + gcost2.1 = gcost2-gcost1, + hinc = hinc1, + psize = factor(psize1) + ) > summary(df) id mode ttme1 ttme2 ttme3 ttme4 Min. : 6.00 Min. :1.000 Min. : 5.00 Min. : 1.0 Min. :35.00 Min. :0 1st Qu.: 44.00 1st Qu.:1.000 1st Qu.:45.00 1st Qu.:25.0 1st Qu.:35.00 1st Qu.:0 Median : 77.00 Median :2.000 Median :64.00 Median :34.0 Median :35.00 Median :0 Mean : 93.33 Mean :1.521 Mean :56.95 Mean :33.3 Mean :43.48 Mean :0

Page 49: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-49 Buenos Aires, 7 – 11 Diciembre 2009

3rd Qu.:147.00 3rd Qu.:2.000 3rd Qu.:69.00 3rd Qu.:44.0 3rd Qu.:53.00 3rd Qu.:0 Max. :207.00 Max. :2.000 Max. :99.00 Max. :99.0 Max. :53.00 Max. :0 invc1 invc2 invc3 invc4 invt1 invt2 Min. : 44.00 Min. : 11.00 Min. :12.00 Min. : 3.00 Min. : 63.0 Min. : 255.0 1st Qu.: 61.00 1st Qu.: 25.00 1st Qu.:25.00 1st Qu.:10.00 1st Qu.: 93.0 1st Qu.: 344.0 Median : 85.00 Median : 35.00 Median :31.00 Median :17.00 Median :115.0 Median : 596.0 Mean : 88.63 Mean : 47.53 Mean :33.23 Mean :22.17 Mean :131.5 Mean : 568.2 3rd Qu.:108.00 3rd Qu.: 71.00 3rd Qu.:45.00 3rd Qu.:33.00 3rd Qu.:161.0 3rd Qu.: 800.0 Max. :180.00 Max. :112.00 Max. :70.00 Max. :86.00 Max. :333.0 Max. :1030.0 invt3 invt4 gcost1 gcost2 gcost3 gcost4 Min. : 345.0 Min. :268.0 Min. : 56.0 Min. : 42.0 Min. : 56.0 Min. : 41.00 1st Qu.: 405.0 1st Qu.:316.0 1st Qu.: 73.0 1st Qu.: 72.0 1st Qu.: 73.0 1st Qu.: 53.00 Median : 590.0 Median :577.0 Median :104.0 Median :113.0 Median : 98.0 Median : 94.00 Mean : 622.6 Mean :571.1 Mean :105.6 Mean :120.3 Mean :113.1 Mean : 95.55 3rd Qu.: 882.0 3rd Qu.:862.0 3rd Qu.:128.0 3rd Qu.:163.0 3rd Qu.:145.0 3rd Qu.:141.00 Max. :1068.0 Max. :990.0 Max. :197.0 Max. :245.0 Max. :206.0 Max. :223.00 hinc1 hinc2 hinc3 hinc4 psize1 psize2 Min. : 4.00 Min. : 4.00 Min. : 4.00 Min. : 4.00 Min. :1.000 Min. :1.000 1st Qu.:12.00 1st Qu.:12.00 1st Qu.:12.00 1st Qu.:12.00 1st Qu.:1.000 1st Qu.:1.000 Median :30.00 Median :30.00 Median :30.00 Median :30.00 Median :1.000 Median :1.000 Mean :32.01 Mean :32.01 Mean :32.01 Mean :32.01 Mean :1.620 Mean :1.620 3rd Qu.:45.00 3rd Qu.:45.00 3rd Qu.:45.00 3rd Qu.:45.00 3rd Qu.:2.000 3rd Qu.:2.000 Max. :72.00 Max. :72.00 Max. :72.00 Max. :72.00 Max. :4.000 Max. :4.000 psize3 psize4 Air Train Bus Car fresposta Min. :1.000 Min. :1.000 Min. :0.0000 Min. :0.0000 Min. :0 Min. :0 Air :58 1st Qu.:1.000 1st Qu.:1.000 1st Qu.:0.0000 1st Qu.:0.0000 1st Qu.:0 1st Qu.:0 Train:63 Median :1.000 Median :1.000 Median :0.0000 Median :1.0000 Median :0 Median :0 Mean :1.620 Mean :1.620 Mean :0.4793 Mean :0.5207 Mean :0 Mean :0 3rd Qu.:2.000 3rd Qu.:2.000 3rd Qu.:1.0000 3rd Qu.:1.0000 3rd Qu.:0 3rd Qu.:0 Max. :4.000 Max. :4.000 Max. :1.0000 Max. :1.0000 Max. :0 Max. :0 ttme2.1 invc2.1 invt2.1 gcost2.1 hinc psize Min. :-68.00 Min. :-114.0 Min. :141.0 Min. :-75.00 Min. : 4.00 1:69 1st Qu.:-46.00 1st Qu.: -56.0 1st Qu.:235.0 1st Qu.:-10.00 1st Qu.:12.00 2:36 Median :-26.00 Median : -40.0 Median :461.0 Median : 6.00 Median :30.00 3: 9 Mean :-23.65 Mean : -41.1 Mean :436.8 Mean : 14.67 Mean :32.01 4: 7 3rd Qu.: -1.00 3rd Qu.: -26.0 3rd Qu.:636.0 3rd Qu.: 44.00 3rd Qu.:45.00

Page 50: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-50 Buenos Aires, 7 – 11 Diciembre 2009

Max. : 39.00 Max. : 17.0 Max. :855.0 Max. :125.00 Max. :72.00 > dim(df) [1] 121 37 > summary(m1) Call: glm(formula = fresposta ~ invt2.1 + ttme2.1 + invc2.1, family = binomial, data = df) Deviance Residuals: Min 1Q Median 3Q Max -2.1058 -0.8155 0.3353 0.7861 2.6903 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.718636 0.653419 -1.100 0.2714 invt2.1 -0.002302 0.001123 -2.050 0.0403 * ttme2.1 -0.054749 0.010429 -5.250 1.52e-07 *** invc2.1 -0.012464 0.008857 -1.407 0.1594 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 167.53 on 120 degrees of freedom Residual deviance: 119.64 on 117 degrees of freedom AIC: 127.64 Number of Fisher Scoring iterations: 4 > step(m1) Start: AIC=127.64 fresposta ~ invt2.1 + ttme2.1 + invc2.1 Df Deviance AIC <none> 119.64 127.64 - invc2.1 1 121.65 127.65

Page 51: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-51 Buenos Aires, 7 – 11 Diciembre 2009

- invt2.1 1 124.07 130.07 - ttme2.1 1 160.88 166.88 Call: glm(formula = fresposta ~ invt2.1 + ttme2.1 + invc2.1, family = binomial, data = df) Coefficients: (Intercept) invt2.1 ttme2.1 invc2.1 -0.718636 -0.002302 -0.054749 -0.012464 Degrees of Freedom: 120 Total (i.e. Null); 117 Residual Null Deviance: 167.5 Residual Deviance: 119.6 AIC: 127.6 > drop1(m1,test="Chisq") Single term deletions Model: fresposta ~ invt2.1 + ttme2.1 + invc2.1 Df Deviance AIC LRT Pr(Chi) <none> 119.639 127.639 invt2.1 1 124.073 130.073 4.434 0.03524 * ttme2.1 1 160.876 166.876 41.236 1.349e-10 *** invc2.1 1 121.654 127.654 2.014 0.15582 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 > > summary(m2) Call: glm(formula = fresposta ~ I(invt2.1 + ttme2.1) + invc2.1, family = binomial, data = df) Deviance Residuals: Min 1Q Median 3Q Max -1.7344 -1.1088 0.8287 0.9751 1.5726 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.8350340 0.4846115 1.723 0.08487 .

Page 52: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-52 Buenos Aires, 7 – 11 Diciembre 2009

I(invt2.1 + ttme2.1) -0.0028535 0.0009314 -3.064 0.00219 ** invc2.1 -0.0103468 0.0078252 -1.322 0.18609 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 167.53 on 120 degrees of freedom Residual deviance: 156.65 on 118 degrees of freedom AIC: 162.65 Number of Fisher Scoring iterations: 4 > anova(m2,m1,test="Chisq") Analysis of Deviance Table Model 1: fresposta ~ I(invt2.1 + ttme2.1) + invc2.1 Model 2: fresposta ~ invt2.1 + ttme2.1 + invc2.1 Resid. Df Resid. Dev Df Deviance P(>|Chi|) 1 118 156.646 2 117 119.639 1 37.007 1.177e-09 > step(m2) Start: AIC=162.65 fresposta ~ I(invt2.1 + ttme2.1) + invc2.1 Df Deviance AIC - invc2.1 1 158.45 162.45 <none> 156.65 162.65 - I(invt2.1 + ttme2.1) 1 166.84 170.84 Step: AIC=162.45 fresposta ~ I(invt2.1 + ttme2.1) Df Deviance AIC <none> 158.45 162.45 - I(invt2.1 + ttme2.1) 1 167.53 169.53

Page 53: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-53 Buenos Aires, 7 – 11 Diciembre 2009

Call: glm(formula = fresposta ~ I(invt2.1 + ttme2.1), family = binomial, data = df) Coefficients: (Intercept) I(invt2.1 + ttme2.1) 1.170376 -0.002625 Degrees of Freedom: 120 Total (i.e. Null); 119 Residual Null Deviance: 167.5 Residual Deviance: 158.5 AIC: 162.5 > summary(m3) Call: glm(formula = fresposta ~ invt2.1 + ttme2.1 + I(invc2.1/hinc), family = binomial, data = df) Deviance Residuals: Min 1Q Median 3Q Max -2.1258 -0.6746 0.1996 0.6860 2.6428 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.540768 0.606298 -0.892 0.37244 invt2.1 -0.002785 0.001170 -2.380 0.01731 * ttme2.1 -0.054370 0.010675 -5.093 3.52e-07 *** I(invc2.1/hinc) -0.216530 0.083289 -2.600 0.00933 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 167.53 on 120 degrees of freedom Residual deviance: 112.08 on 117 degrees of freedom AIC: 120.08 Number of Fisher Scoring iterations: 5 > AIC(m1)

Page 54: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-54 Buenos Aires, 7 – 11 Diciembre 2009

[1] 127.6393 > AIC(m2) [1] 162.6461 > AIC(m3) [1] 120.0796 > # Preg 9 > summary(m4) Call: glm(formula = fresposta ~ invt2.1 + ttme2.1 + I(invc2.1/hinc) + psize, family = binomial, data = df) Deviance Residuals: Min 1Q Median 3Q Max -2.2213 -0.6136 0.1752 0.6451 2.0808 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.199265 0.976464 -2.252 0.02430 * invt2.1 -0.002384 0.001210 -1.970 0.04882 * ttme2.1 -0.061262 0.011657 -5.256 1.48e-07 *** I(invc2.1/hinc) -0.242748 0.086306 -2.813 0.00491 ** psize 0.763014 0.336854 2.265 0.02351 * --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 167.53 on 120 degrees of freedom Residual deviance: 106.28 on 116 degrees of freedom AIC: 116.28 Number of Fisher Scoring iterations: 5 > anova(m3,m4,test="Chisq") Analysis of Deviance Table

Page 55: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-55 Buenos Aires, 7 – 11 Diciembre 2009

Model 1: fresposta ~ invt2.1 + ttme2.1 + I(invc2.1/hinc) Model 2: fresposta ~ invt2.1 + ttme2.1 + I(invc2.1/hinc) + psize Resid. Df Resid. Dev Df Deviance P(>|Chi|) 1 117 112.080 2 116 106.279 1 5.800 0.016 > Preg 10 > df$f.tamany<-factor(df$psize) > levels(df$f.tamany)<-c("1","2+","2+","2+") > summary(m5) Call: glm(formula = fresposta ~ invt2.1 + ttme2.1 + I(invc2.1/hinc) + f.tamany, family = binomial, data = df) Deviance Residuals: Min 1Q Median 3Q Max -2.0769 -0.6374 0.2030 0.6487 2.5162 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -1.392766 0.764994 -1.821 0.0687 . invt2.1 -0.002406 0.001201 -2.003 0.0452 * ttme2.1 -0.060174 0.011582 -5.196 2.04e-07 *** I(invc2.1/hinc) -0.236174 0.084335 -2.800 0.0051 ** f.tamany2+ 1.063533 0.525279 2.025 0.0429 * --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 167.53 on 120 degrees of freedom Residual deviance: 107.69 on 116 degrees of freedom AIC: 117.69 Number of Fisher Scoring iterations: 5 >

Page 56: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-56 Buenos Aires, 7 – 11 Diciembre 2009

Pro9.9 Generación diaria de residuos por habitante (ARC -Montero, 2008) La recogida de residuos se efectúa parcialmente de forma selectiva en Catalunya, dando lugar a un registro de los totales recogidos a nivel municipal y de su composición. De la parte que se recoge mezclada (entre el 15% y el 70%, según el municipio), se conoce el total municipal pero no su composición, de ahí que se tenga que recurrir a métodos de muestreo para la caracterización de la composición de la fracción de residuos de tipo resto a nivel municipal, comarcal y global del país. Los datos municipales sobre la cantidad y composición de los residuos generados en los diversos municipios, clasificados por comarcas son accesibles informáticamente a través del enlace de la Agencia de Residuos de Catalunya (http://www.arc-cat.net/). Después de acceder a los datos municipales y unificar en un solo archivo toda la información, se dispone a nivel municipal de las siguientes variables características de la generación de residuos municipales anuales durantes el año 2007: Pob07.1: Padrón de residentes en 2007. TotROrga, TotRVidre, TotPaper, TotEnvas, TotVolum, TotPoda, TotPila, TotMede, TotTextil, TotAlter: Total generado anual de residuos

orgánicos, vidrio, papel, envases, objetos voluminosos, poda y jardinaería, medicamentos, textiles y otros residuos recogidos de manera selectiva.

PerRecSel: Porcentaje de recogida selectiva municipal, sobre total de residuos generados en 2007. FRTracta, FRDipo, FRInci, FRDipoF: Toneladas en 2007 de fracción resto tratada, directa a depósito controlado, directa a incineradora,

directa a disposición final, TotFResta: Toneladas totales de residuos de Fracción Resto generados en 2007. PerFRsTot: Porcentaje de Fracción Resta sobre el total de Residuos municipales generados en 2007. TotRes07: Toneladas totales de residuos municipales generados en 2007. Res07pHab: Residuos diarios generados por residente y día en 2007 a nivel municipal (en kg). Res07pHabETCA: Residuos diarios generados por persona y día en 2007 a nivel municipal (en kg), contiene corrección estacionalidad. PRSOrga, PRSVidre, PRSPaper, PRSEnvas, PRSVolum, PRSPoda, PRSPila, PRSMede, PRSTextil, PRSAlter: Porcentaje que supone el

Total generado anual de residuos orgánicos, vidrio, papel, envases, objetos voluminosos, poda y jardinería, medicamentos, textiles y otros residuos recogidos de manera selectiva sobre el Total anual de residuos de Recogida Selectiva.

La variable de respuesta que se va a estudiar está relacionada con la generación de residuos diarios por habitante equivalente (en kg): Res07pHabETCA. Las variables explicativas son: porcentaje de recogida selectiva en 2007, PRSOrga, PRSVidre, PRSPaper, PRSEnvas, PRSVolum, PRSPoda, PRSPila, PRSMede, PRSTextil, PRSAlter y otras variables sociodemográficas que pudieran desarrollarse durante el ejercicio.

Page 57: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-57 Buenos Aires, 7 – 11 Diciembre 2009

1. La variable de respuesta que se va estudiar es la generación de residuos municipales por persona y día con correccion de estacionalidad. ¿Se puede considerar que la generación diaria por persona está relacionada con la implicación en la recogida selectiva? > cor.test(rga1$Res07pHabETCA,rga1$PerRecSel)

Pearson's product-moment correlation

data: rga1$Res07pHabETCA and rga1$PerRecSel

t = -3.3166, df = 861, p-value = 0.0009493

alternative hypothesis: true correlation is not equal to 0

95 percent confidence interval:

-0.17771773 -0.04592423

sample estimates:

cor

-0.1123149

2. La variable de respuesta, generación diaria por habitante equivalente, ¿pensais que tiene una distribución de probabilidad aceptablemente

normal? 3. La variable de respuesta, generación diaria por habitante equivalente, ¿pensais que tiene valores atípicos? Determinar el rango de valores

atípicos y atípicos extremos. 4. Se procede a una discretización de la variable PerRecSel según:

f.RecSel <- factor(cut(PerRecSel, breaks=c(-1,15,25,35,100)),labels=c(‘moltbaix’,'baix','mig','alt')).

La variable de respuesta que se va estudiar es la generación de residuos municipales por persona y día con correccion de estacionalidad. ¿Se puede considerar que la generación diaria por persona tiene una media diferente según el factor de implicación en la recogida selectiva?

5. ¿Cuál es la generación diaria por persona según en la mediana de implicación en la recogida selectiva y el modelo cuyos resultados se ilustran?

> summary(m2)

Call:

lm(formula = rga1$Res07pHabETCA ~ rga1$PerRecSel)

Page 58: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-58 Buenos Aires, 7 – 11 Diciembre 2009

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 1.601695 0.033810 47.373 < 2e-16 ***

rga1$PerRecSel -0.003779 0.001139 -3.317 0.00095 ***

Ahora se va a estudiar el modelo predictivo para la generación de residuos municipales por persona y día con correccion de estacionalidad según la implicación en la recogida selectiva y los porcentajes de esa recogida en algunas de las tipologías.

6. Determinar la suma de cuadrados residual del modelo de nulo . 7. Determinar ¿ cuál es la suma de cuadrados explicada por el modelo de regresión lineal entre Y e X (en m2)? 8. Calcular el coeficiente de determinación del modelo (m2). 9. Determinar si la relación entre la generación de residuos por persona depende de la penetración de la recogida selectiva por valoración visión

de los gráficos disponibles. 10. Determinar si la relación entre la generación de residuos por persona depende de la penetración de la recogida selectiva y de la incidencia de

la recogida selectiva de tipo orgánico considerando sólo modelos de regresión multiple (variables explicativas cuantitativas). 11. Interpretar las ecuaciones para la predicción la generación por persona según el modelo aditivo con tratamiento de la incidencia de recogida

selectiva como factor. 12. ¿Cuál será la predicción total de residuos anuales para una ciudad de 30000 residentes en la mediana de incidencia de la recogida orgánica y

un compromiso máximo con el medio ambiente en el modelo aditivo con tratamiento de la recogida selectiva como factor?

Ahora se va a estudiar el modelo predictivo para la generación de residuos municipales por persona y día con correccion de estacionalidad según la implicación en la recogida selectiva y los porcentajes de esa recogida en algunas de las tipologías. Se usará la escala logarítmica para las variables cuantitativas. 13. ¿Cuál es la generación diaria por persona según en la mediana de implicación en la recogida selectiva y el modelo cuyos resultados se ilustran?

> summary(m4) Call: lm(formula = log(rga1$Res07pHabETCA) ~ log(rga1$PerRecSel)) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.57730 0.05441 10.610 < 2e-16 ***

Page 59: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-59 Buenos Aires, 7 – 11 Diciembre 2009

log(rga1$PerRecSel) -0.06688 0.01709 -3.913 9.84e-05 ***

RESULTADOS: > dim(rga1) [1] 863 33 > summary(rga1[,c(91,100:110)]) PerRecSel Res07pHabETCA PRSOrga PRSVidre PRSPaper PRSEnvas Min. : 3.21 Min. :0.400 Min. : 0.00 Min. : 0.81 Min. : 0.86 Min. : 0.010 1st Qu.:16.48 1st Qu.:1.220 1st Qu.: 0.00 1st Qu.:11.73 1st Qu.:19.17 1st Qu.: 7.375 Median :24.36 Median :1.430 Median : 9.80 Median :19.78 Median :28.21 Median :10.420 Mean :26.39 Mean :1.502 Mean :15.04 Mean :23.14 Mean :29.34 Mean :11.266 3rd Qu.:33.02 3rd Qu.:1.660 3rd Qu.:29.21 3rd Qu.:30.90 3rd Qu.:36.98 3rd Qu.:14.890 Max. :77.60 Max. :5.160 Max. :62.06 Max. :66.38 Max. :67.16 Max. :28.460 PRSVolum PRSPoda PRSPila PRSMede PRSTextil PRSAltre Min. : 0.000 Min. : 0.00 Min. :0.00000 Min. :0.01000 Min. :0.0000 Min. : 0.00 1st Qu.: 0.445 1st Qu.: 0.00 1st Qu.:0.00000 1st Qu.:0.04000 1st Qu.:0.0000 1st Qu.: 0.00 Median : 5.830 Median : 0.01 Median :0.03000 Median :0.06000 Median :0.0000 Median : 6.28 Mean : 8.488 Mean : 1.69 Mean :0.04159 Mean :0.07479 Mean :0.2178 Mean :10.69 3rd Qu.:12.550 3rd Qu.: 1.73 3rd Qu.:0.05000 3rd Qu.:0.09000 3rd Qu.:0.0700 3rd Qu.:19.02 Max. :39.340 Max. :19.44 Max. :1.04000 Max. :0.55000 Max. :6.0000 Max. :56.66 > var(rga1[,c(2,3)],use="pairwise.complete.obs") PerRecSel Res07pHabETCA PerRecSel 184.19186 -0.6960100 Res07pHabETCA -0.69601 0.2084902 > cor(rga1[,c(2,3)],use="pairwise.complete.obs") PerRecSel Res07pHabETCA PerRecSel 1.0000000 -0.1123149 Res07pHabETCA -0.1123149 1.0000000 >

Page 60: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-60 Buenos Aires, 7 – 11 Diciembre 2009

Mirem les dades ...

rga1$Res07pHabETCA

Den

sity

0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Residus municipals 2007 per habitant equivalent i dia (kg)

N = 863 Bandw idth = 0.07645

Den

sity

12

34

5

Mirem les dades ...

> shapiro.test( (rga1$Res07pHabETCA) ) Shapiro-Wilk normality test data: (rga1$Res07pHabETCA) W = 0.8628, p-value < 2.2e-16 > plot( rga1$Res07pHabETCA~rga1$f.RecSel ) > kruskal.test( rga1$Res07pHabETCA~rga1$f.RecSel ) Kruskal-Wallis rank sum test data: rga1$Res07pHabETCA by rga1$f.RecSel Kruskal-Wallis chi-squared = 13.6471, df = 3, p-value = 0.003427 > fligner.test( rga1$Res07pHabETCA~rga1$f.RecSel ) Fligner-Killeen test of homogeneity of variances

Page 61: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-61 Buenos Aires, 7 – 11 Diciembre 2009

data: rga1$Res07pHabETCA by rga1$f.RecSel Fligner-Killeen:med chi-squared = 61.404, df = 3, p-value = 2.946e-13

moltbaix baix mig alt

12

34

5

rga1$f.RecSel

rga1

$Res

07pH

abE

TCA

moltbaix baix mig alt

-1.0

-0.5

0.0

0.5

1.0

1.5

rga1$f.RecSel

log(

rga1

$Res

07pH

abE

TCA

)

Page 62: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-62 Buenos Aires, 7 – 11 Diciembre 2009

20 40 60 80

12

34

5

rga1$PerRecSel

rga1

$Res

07pH

abET

CA

20 40 60 80

-1.0

-0.5

0.0

0.5

1.0

1.5

rga1$PerRecSel

log(

rga1

$Res

07pH

abET

CA)

1.5 2.0 2.5 3.0 3.5 4.0

-1.0

-0.5

0.0

0.5

1.0

1.5

log(rga1$PerRecSel)

log(

rga1

$Res

07pH

abET

CA)

> summary(m31) Call: lm(formula = rga1$Res07pHabETCA ~ rga1$PerRecSel + rga1$PRSOrga) Residuals: Min 1Q Median 3Q Max -1.03836 -0.27817 -0.06098 0.16397 3.63676 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.596646 0.033959 47.016 <2e-16 *** rga1$PerRecSel -0.002650 0.001371 -1.933 0.0535 . rga1$PRSOrga -0.001645 0.001112 -1.479 0.1396 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Page 63: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-63 Buenos Aires, 7 – 11 Diciembre 2009

Residual standard error: 0.4537 on 860 degrees of freedom Multiple R-squared: 0.01512, Adjusted R-squared: 0.01283 F-statistic: 6.601 on 2 and 860 DF, p-value: 0.001429 > step(m31) Start: AIC=-1361.21 rga1$Res07pHabETCA ~ rga1$PerRecSel + rga1$PRSOrga Df Sum of Sq RSS AIC <none> 177.00 -1361.21 - rga1$PRSOrga 1 0.45 177.45 -1361.02 - rga1$PerRecSel 1 0.77 177.77 -1359.47 Call: lm(formula = rga1$Res07pHabETCA ~ rga1$PerRecSel + rga1$PRSOrga) Coefficients: (Intercept) rga1$PerRecSel rga1$PRSOrga 1.596646 -0.002650 -0.001645 >> summary(m32) Call: lm(formula = rga1$Res07pHabETCA ~ rga1$f.RecSel + rga1$PRSOrga) Residuals: Min 1Q Median 3Q Max -1.08913 -0.23820 -0.04498 0.15809 3.62599 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.639098 0.032836 49.917 < 2e-16 *** rga1$f.RecSelbaix -0.190895 0.044859 -4.255 2.32e-05 *** rga1$f.RecSelmig -0.105091 0.046832 -2.244 0.0251 * rga1$f.RecSelalt -0.111034 0.055259 -2.009 0.0448 * rga1$PRSOrga -0.001882 0.001097 -1.715 0.0867 . --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Page 64: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-64 Buenos Aires, 7 – 11 Diciembre 2009

Residual standard error: 0.4504 on 858 degrees of freedom Multiple R-squared: 0.03167, Adjusted R-squared: 0.02716 F-statistic: 7.016 on 4 and 858 DF, p-value: 1.471e-05 > summary(m33) Call: lm(formula = rga1$Res07pHabETCA ~ rga1$f.RecSel * rga1$PRSOrga) Residuals: Min 1Q Median 3Q Max -1.08244 -0.24262 -0.04189 0.16047 3.69470 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.647763 0.034106 48.313 < 2e-16 *** rga1$f.RecSelbaix -0.165142 0.049265 -3.352 0.000837 *** rga1$f.RecSelmig -0.182460 0.056277 -3.242 0.001232 ** rga1$f.RecSelalt -0.142095 0.080797 -1.759 0.078992 . rga1$PRSOrga -0.006105 0.004770 -1.280 0.200952 rga1$f.RecSelbaix:rga1$PRSOrga 0.001596 0.005053 0.316 0.752186 rga1$f.RecSelmig:rga1$PRSOrga 0.008516 0.005210 1.635 0.102490 rga1$f.RecSelalt:rga1$PRSOrga 0.004983 0.005262 0.947 0.343995 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.4492 on 855 degrees of freedom Multiple R-squared: 0.0402, Adjusted R-squared: 0.03234 F-statistic: 5.116 on 7 and 855 DF, p-value: 1.034e-05 > anova(m32,m33) Analysis of Variance Table Model 1: rga1$Res07pHabETCA ~ rga1$f.RecSel + rga1$PRSOrga Model 2: rga1$Res07pHabETCA ~ rga1$f.RecSel * rga1$PRSOrga Res.Df RSS Df Sum of Sq F Pr(>F) 1 858 174.026 2 855 172.494 3 1.532 2.5314 0.05591 . ---

Page 65: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-65 Buenos Aires, 7 – 11 Diciembre 2009

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 > step(m33) Start: AIC=-1373.47 rga1$Res07pHabETCA ~ rga1$f.RecSel * rga1$PRSOrga Df Sum of Sq RSS AIC <none> 172.49 -1373.47 - rga1$f.RecSel:rga1$PRSOrga 3 1.53 174.03 -1371.84 Call: lm(formula = rga1$Res07pHabETCA ~ rga1$f.RecSel * rga1$PRSOrga) Coefficients: (Intercept) rga1$f.RecSelbaix rga1$f.RecSelmig 1.647763 -0.165142 -0.182460 rga1$f.RecSelalt rga1$PRSOrga rga1$f.RecSelbaix:rga1$PRSOrga -0.142095 -0.006105 0.001596 rga1$f.RecSelmig:rga1$PRSOrga rga1$f.RecSelalt:rga1$PRSOrga 0.008516 0.004983 >

Page 66: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-66 Buenos Aires, 7 – 11 Diciembre 2009

Pro9.10 Datos de Inspecciones Técnicas de Vehículos (Codina, 2009) Los vehículos motorizados están obligados a pasar revisiones de su estado técnico (luces, frenos, dirección, etc) con una periodicidad función de su antigüedad: son las inspecciones ITV. Las autoridades han habilitado una red de estaciones para la revisión y emisión de certificados, distribuídas geográficamente en función del censo de vehículos. Estas estaciones están explotadas por concesiones privadas y reguladas por el Departament d’Indústria de la Generalitat de Catalunya. En los últimos años están llegando quejas sobre la dificultad de obtener una cita concertada y las demoras experimentadas en la estación de inspección técnica. Se va a trabajar con datos de una muestra de 2-3 visitas sorpresa a un conjunto de 41 estaciones ITV de Catalunya efectuadas por una empresa especializada en trabajos de campo. Los datos están disponibles en forma de data.frame R en el espacio de trabajo itv.RData. Las variables recogidas son:

estacio: Identificador de estación. concesionaria: Nombre empresa concesionaria. tespera:Tiempo de espera en la cola (min). trevisio: Tiempo revisión (min). ttitv: Tiempo total de permanencia (espera más revisión) en la estación de ITV(min). (var.respuesta) Id visita: 1, 2 o 3 (máximo 3 visitas). franja: Franja horaria de la visita (4 niveles). provincia: Província catalana (B,G,L,T).

1. Indicar la posible presencia de valores faltantes en la matriz de datos disponible. 2. Indicad la tendencia central y la dispersión de las variables disponibles a las que sea aplicable la descriptiva numérica

univariante. Valorad la dispersión. 3. Valorad la simetría de la distribución de las variables relativas a tiempos en la muestra. ¿Pensáis que la variable de respuesta

muestra una aceptable distribución normal? 4. Determinar los valores atípicos del tiempo de espera antes de iniciar la revisión: indicad las estaciones donde se producen.

Detallad las cotas de outliers suaves y extremos.

5. Valorad la variable que está más relacionada con el tiempo total ITV: el tiempo de espera o el tiempo de revisión?

6. Valorad descriptivamente, si el tiempo total por ITV está asociado con la empresa concesionaria que realiza el servicio.

Page 67: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-67 Buenos Aires, 7 – 11 Diciembre 2009

7. Valorad aplicando el contraste de hipótesis adecuado, si el tiempo total por ITV está asociado con la empresa concesionaria que realiza el servicio.

8. Valorad aplicando el contraste de hipótesis adecuado, si la dispersión en el tiempo total por ITV está asociado con la empresa concesionaria que realiza el servicio.

9. Aplicad una transformación logarítmica a las variables tiempo total de ITV (respuesta) y tiempo de espera (explicativa). Determinar el coeficiente de determinación del modelo de regresión lineal simple. Valorad la calidad.

10. Interpretad los coeficientes estimados en la regresión lineal simple del Punto 9 en términos de las variables originales. 11. Determinar la presencia de valores atípicos en los residuos: indicad el criterio e identificar las observaciones por estación si

los hubiere. 12. Calculad la cota superior al factor de anclaje según el criterio habitual y detectar qué observaciones son influyentes a priori. 13. Valorad la presencia de valores influyentes a posteriori: indicad el criterio empleado e identificar las observaciones.

Fusionar les concesionarias AA y BB en un único grupo y diferenciarlas de CC. Calcular el modelo lineal general que explica en la escala logarítmica el tiempo total de ITV en función del tiempo de espera y la dicotómica con los 2 grupos de concesionarias.

14. La relación entre el tiempo total por ITV y el tiempo de espera depende del grupo de concesionaria del servicio? Justificar estadísticamente la respuesta.

15. ¿El tiempo total por ITV depende del tiempo de espera y del grupo de concesionaria del servicio? Justificar estadísticamente la respuesta.

16. Interpretad las ecuaciones del modelo lineal general con interacciones.

17. A título de síntesis sobre las características genéricas de los datos trabajados, valorad los gráficos siguientes.

Page 68: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-68 Buenos Aires, 7 – 11 Diciembre 2009

AA BB CC

1020

3040

50

Temps Revisió (min) vs Concesionària

Matí MigMatí Migdia Tarda

1020

3040

50

Temps Revisió (min) vs Franja

B G L T

1020

3040

50

Temps Revisió (min) vs Província

AA BB CC

010

2030

4050

60

Temps Espera (min) vs Concesionària

Matí MigMatí Migdia Tarda

010

2030

4050

60

Temps Espera (min) vs Franja

B G L T

010

2030

4050

60

Temps Espera (min) vs Província

Page 69: Programa de Capacitación en Planeamiento, Regulación y Gestión … · 2009-12-03 · pro9.1 descriptiva -actitud ante peaje urbano: cbd pricing _____25 pro9.2 regresiÓn mÚltiple

M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

Prof. Lídia Montero © Pàg. Pro-69 Buenos Aires, 7 – 11 Diciembre 2009