estad´ıstica actuarial y análisis de regresión

226
Estad´ ıstica Actuarial y An´ alisis de Regresi´on Autor: M. Victoria Esteban Gonz´ alez Departamento de Econom´ ıa Aplicada III. Econometr´ ıa y Estad´ ıstica Facultad de Ciencias Econ´omicas y Empresariales Universidad del Pa´ ıs Vasco/Euskal Herriko Unibertsitatea

Upload: phunglien

Post on 11-Feb-2017

256 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial y Analisis de Regresion

Autor:M. Victoria Esteban Gonzalez

Departamento de Economıa Aplicada III. Econometrıa y EstadısticaFacultad de Ciencias Economicas y EmpresarialesUniversidad del Paıs Vasco/Euskal Herriko Unibertsitatea

Page 2: Estad´ıstica Actuarial y Análisis de Regresión

Queda terminantemente prohibida la reproduccion no autorizada de este material docente, y ladistribucion no autorizada de copias de la misma, ası como cualquier otra infraccion de los derechosque sobre esta recopilacion corresponden a la Profesora Ma Victoria Esteban junto con el Departa-mento de Econometrıa y Estadıstica de la Facultad de Ciencias Economicas y Empresariales de laUPV/EHU.

c©UPV/EHU 2012.

Page 3: Estad´ıstica Actuarial y Análisis de Regresión
Page 4: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

ii

Page 5: Estad´ıstica Actuarial y Análisis de Regresión

Presentacion

El objetivo de este documento es introducir un conjunto de tecnicas estadısticas y econometricaspara la estimacion de modelos lineales en situaciones donde se cumplen las hipotesis estadısticas decomportamiento habituales. Se pretende introducir al alumno en el analisis de regresion, por lo queprevio a un repaso de aspectos fundamentales de la estimacion de parametros y sus propiedades yde la inferencia estadıstica se estudia en detalle el Modelo de Regresion Lineal General. El objetivofundamental del curso es que, al final del mismo, los estudiantes sean capaces de utilizar el modelode regresion para resolver un problema sencillo que se les plantee: desde la especificacion, estimaciony validacion del modelo hasta contrastar hipotesis de relevancia economica y predecir. Este objetivose ha de satisfacer tanto desde un punto de vista teorico, resolver cuestiones y explicar resultados yaobtenidos, como practico: estimar un modelo con una base de datos concreta y realizar los contrastespertinentes.

Estas notas incluyen seis temas mas un tema inicial que aborda la descripcion grafica y numericade una variable mas un tema final con orientaciones dirigidas al desarrollo por parte de los alumnosde un proyecto final donde se muestre la evolucion de un caso practico de interes. Los contenidosse estructuran entorno a dos nucleos centrales, el analisis de la informacion que podemos extraerde una unica variable y el estudio de como se relacionan las variable entre sı. El analisis de unaunica variable ocupa los contenidos de los tres primeros temas. En el tema uno se estudian losconceptos de variable aleatoria, discreta y continua, junto con sus distribuciones de probabilidad.Se estudian las distribuciones, normal, chi-cuadrado, t-student y F-Snedecor ası como los conceptosde poblacion y muestra. El tema 2 introduce la estimacion por punto y por intervalo. El tema 3aborda el diseno de pruebas estadısticas y el contraste de hipotesis.

Como se relaciona una variable con otras ocupa el contenido de los temas cuatro a seis. El temacuatro introduce la nomenclatura y conceptos mas habituales a manejar en el contexto del analisisde regresion. El tema cinco aborda el analisis de regresion a traves del modelo de regresion linealgeneral. Su especificacion, estimacion y el contraste de hipotesis ocupan este tema. El estimador dereferencia es el estimador de Mınimos Cuadrados Ordinarios. Se estudiaran sus propiedades y comocompararlo con otros estimadores de interes. El ultimo tema muestra como analizar si alguna de lashipotesis estadısticas de comportamiento habituales no se cumplen y cuales son las consecuenciasde su incumplimiento para finalizar abordando la prediccion de la variable de interes.

A lo largo de los temas se va mostrando como utilizar un software libre, el programa gretl, espe-cialmente indicado para el analisis econometrico y que permite un afianzamiento de los contenidosteoricos. Por ello, al final de los temas tres, cinco y seis se incluye una seccion que muestra comoutilizar este programa en relacion a los contenidos vistos. En cada tema se muestran ejemplos que

iii

Page 6: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

ilustran los diferentes escenarios de trabajo ası como se recomienda la realizacion de los ejerci-cios propuestos. Al termino de cada tema se muestra la bibliografıa correspondiente. Al final deldocumento aparece la bibliografıa completa.

Las notas tienen como objetivo servir de apoyo al proceso de aprendizaje de los estudiantes de laasignatura Estadıstica Actuarial: Regresion del Grado en Finanzas y Seguros. Sin embargo, dadasu tematica basica de estadıstica y analisis de regresion pueden ser utiles en asignaturas afinesde los Grados en Economıa, Administracion y Direccion de Empresas, Marketing y Fiscalidad yAdministracion Publica. Ası mismo sirven de apoyo a estudiantes de master por ejemplo el MasterUniversitario en Economıa: Instrumentos del Analisis economico o el Master Universitario en Bancay Finanzas Cuantitativas.

Las competencias especıficas de la asignatura y la evaluacion

La asignatura de Estadıstica Actuarial: Regresion es una asignatura de 6 creditos ECTS que conlleva60 horas de trabajo presencial en el aula y 90 horas de trabajo no presencial. La metodologıa ymodalidades docentes a utilizar estan sujetas al criterio del docente y pueden variar cada cursoacademico. Hay que tener en cuenta que la organizacion de la metodologıa docente junto con eldiseno de los contenidos de los temas del curso van dirigidos a que los alumnos alcancen las siguientescompetencias especıficas de la asignatura:

1. Conocer distintos procedimientos de estimacion de parametros, ası como sus propiedades parapoder seleccionar adecuadamente la mejor alternativa de analisis.

2. Aplicar la metodologıa estadıstica adecuada para el diseno de contrastes de hipotesis para latoma de decisiones en el ambito profesional.

3. Analizar de forma crıtica los elementos basicos de los modelos econometricos para comprenderla logica de la modelizacion econometrica y poder especificar relaciones causales entre variableseconomicas.

4. Aplicar la metodologıa econometrica basica para estimar y validar relaciones economicas enbase a la informacion estadıstica disponible sobre variables economicas y utilizando los ins-trumentos informaticos apropiados.

5. Obtener e interpretar los resultados de un analisis estadıstico de datos economicos haciendouso de las fuentes de informacion apropiadas y de los instrumentos informaticos necesarios.

6. Presentar de forma clara y concisa, tanto oralmente como por escrito, las conclusiones obte-nidas en un caso de estudio particular.

El sistema actual de docencia dentro del EEES tiene como ejes fundamentales el proceso de en-senanza-aprendizaje y la adquisicion no solo de conocimientos, sino tambien, y fundamentalmente,de destrezas implica directamente la valoracion del trabajo diario del alumno y su evolucion en laadquisicion de las competencias. La utilizacion de la evaluacion continua en la evaluacion de losalumnos implica la realizacion, junto con otras pruebas y tareas que el docente crea de interes, de

iv

Page 7: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

test rapidos o de preguntas cortas en relacion a todo lo visto en las clases, conceptos teoricos yejercicios practicos incluido el software gretl que permitan evaluar al alumno y saber si han adqui-rido los resultados del aprendizaje alcanzando ası las competencias especıficas. Parte de las pruebastendran componente de sorpresa, es decir sin previo aviso, y parte seran pactadas en cuanto a fecha.

Como se indicaba anteriormente estas notas sirven de apoyo al estudio. Analizan los problemas enprofundidad y permiten al alumno profundizar en los temas que conforman el contenido del curso.Ası mismo tienen una fuerte vertiente practica que permitira al alumno no solo saber sino tambiensaber hacer. En ningun caso deben utilizarse como sustituto de los libros incluidos en la bibliografıa.De igual manera se recomienda la realizacion de ejercicios tanto los recomendados en clase como losque aparecen en la bibliografıa. La union del estudio de los conceptos y la utilizacion de los mismosen los ejercicios permite adquirir la agilidad necesaria para el dominio de la asignatura y alcanzarlas competencias especıficas de la misma.

Sobre el software gretl

A lo largo del curso se muestra como utilizar un software gretl que permite al alumno un afian-zamiento de los contenidos teoricos del curso de Econometrıa como la puesta en practica de casosreales con la utilizacion del software gretl1.gretl es software libre especialmente dirigido hacia la practica de la econometrıa y la estadıstica,muy facil de utilizar. Ha sido elaborado por Allin Cottrell (Universidad Wake Forest) y existenversiones en ingles, castellano y euskera, ademas de en otros idiomas. Junto con el programa sepueden cargar los datos utilizados como ejemplos de aplicaciones econometricas en los siguienteslibros de texto Davidson y Mackinnon (2004), Greene (2008), Gujarati (1997), Ramanathan (2002),Stock y Watson (2003), Verbeek (2004), Wooldridge (2003). Al instalar gretl automaticamente secargan los datos utilizados en Ramanathan (2002) y Greene (2008). El resto se pueden descargarde la pagina:

http : //gretl.sourceforge.net/gretl−data.html

en la opcion textbook datasets. Este curso se estructura sobre casos practicos presentados en Rama-nathan (2002) y en Wooldridge (2003) y ejercicios a resolver con ayuda de gretl.

Tambien da acceso a bases de datos muy amplias, tanto de organismos publicos, como el Banco deEspana, como de ejemplos recogidos en textos de Econometrıa. En la pagina

http : //gretl.sourceforge.net/gretl−espanol.html

se encuentra la informacion en castellano relativa a la instalacion y manejo del programa. Tambienhay versiones de esta ayuda en euskera y en ingles.

Una pagina web interesante sobre las posibilidades del programa para el aprendizaje de Econometrıaes:

http://www.learneconometrics.com/gretl.html

1Acronimo de Gnu Regression, Econometric and Time Series (Biblioteca Gnu de Regresion Econometrıa y SeriesTemporales)

v

Page 8: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

vi

Page 9: Estad´ıstica Actuarial y Análisis de Regresión

Contenido

0. Introduccion 1

0.1. La naturaleza de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

0.2. Clasificacion de las variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

0.3. Representacion grafica de las variables . . . . . . . . . . . . . . . . . . . . . . . . . . 5

0.4. Descripcion numerica de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

0.5. Tratamiento de la informacion con gretl : inclusion de datos en gretl y analisis des-criptivo basico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

0.6. Bibliografıa del tema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

1. Variables Aleatorias. Poblacion y muestra 19

1.1. Variables aleatorias y distribuciones de probabilidad. Ejemplos . . . . . . . . . . . . 21

1.1.1. Variables aleatorias discretas y distribuciones de probabilidad . . . . . . . . 21

1.1.2. Variables aleatorias continuas y distribuciones de probabilidad . . . . . . . . 22

1.1.3. Esperanzas y variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . 24

1.1.4. Dos variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

1.1.5. Mas de dos variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

1.2. La distribucion normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

1.2.1. La distribucion normal estandarizada . . . . . . . . . . . . . . . . . . . . . . 36

1.2.2. La distribucion chi-cuadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

1.2.3. La distribucion t-Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

1.2.4. La distribucion F-Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

1.3. Muestreo de una poblacion. Muestras aleatorias . . . . . . . . . . . . . . . . . . . . . 41

1.4. Estadısticos y distribuciones en el muestreo . . . . . . . . . . . . . . . . . . . . . . . 42

1.5. La distribucion de la media muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

1.6. Bibliografıa del tema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

vii

Page 10: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

2. Estimacion por punto y por intervalo 47

2.1. Introduccion a la inferencia estadıstica . . . . . . . . . . . . . . . . . . . . . . . . . . 49

2.2. Estimadores puntuales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

2.2.1. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

2.2.2. Estimadores de la media y la varianza . . . . . . . . . . . . . . . . . . . . . . 52

2.3. Estimacion por intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

2.3.1. Intervalos de confianza y nivel de confianza . . . . . . . . . . . . . . . . . . . 54

2.3.2. Intervalos de confianza para la media de una poblacion normal con varianzaconocida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

2.3.3. Intervalos de confianza para la media de una poblacion normal con varianzadesconocida. La distribucion t de Student . . . . . . . . . . . . . . . . . . . . 55

2.3.4. Otros ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

2.4. Bibliografıa del tema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

3. Contraste de hipotesis 61

3.1. Concepto de hipotesis nula e hipotesis alternativa . . . . . . . . . . . . . . . . . . . . 63

3.2. Tipos de error en el contraste y potencia de un contraste . . . . . . . . . . . . . . . . 64

3.3. El p-valor y conclusiones del contraste . . . . . . . . . . . . . . . . . . . . . . . . . . 65

3.4. Pasos en la realizacion de un contraste . . . . . . . . . . . . . . . . . . . . . . . . . . 66

3.5. Aplicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

3.5.1. Contrastes de la media de una distribucion normal . . . . . . . . . . . . . . . 66

3.5.2. Otros ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

3.6. Bibliografıa del tema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

4. Modelo econometrico: introduccion 73

4.1. Modelo economico y modelo econometrico . . . . . . . . . . . . . . . . . . . . . . . . 75

4.2. Etapas en la elaboracion de un modelo econometrico . . . . . . . . . . . . . . . . . . 77

4.3. Tipologıa de datos y variables en Econometrıa . . . . . . . . . . . . . . . . . . . . . 78

4.3.1. Conceptos basicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

4.3.2. Fuentes de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

4.4. Bibliografıa del tema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

5. Modelo de Regresion Lineal General 85

5.1. Especificacion del Modelo de Regresion Lineal General (MRLG): supuestos basicos . 88

viii

Page 11: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

5.1.1. Hipotesis basicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

5.2. Forma funcional. Interpretacion de los coeficientes. . . . . . . . . . . . . . . . . . . . 93

5.3. Estimacion por Mınimos Cuadrados Ordinarios (MCO) . . . . . . . . . . . . . . . . 100

5.3.1. Metodo de estimacion de Mınimos Cuadrados Ordinarios (MCO) . . . . . . . 101

5.3.2. Propiedades de la Funcion de Regresion Muestral, FRM . . . . . . . . . . . . 107

5.3.3. Medidas de bondad del ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

5.4. Propiedades de los estimadores MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

5.4.1. Propiedades de los estimadores MCO . . . . . . . . . . . . . . . . . . . . . . 112

5.4.2. Estimacion de la varianza de las perturbaciones . . . . . . . . . . . . . . . . . 114

5.4.3. Consecuencias del incumplimiento de algunos supuestos: colinealidad . . . . . 116

5.4.4. Consecuencias del incumplimiento de algunos supuestos: omision de variablesrelevantes e inclusion de variables irrelevantes . . . . . . . . . . . . . . . . . . 120

5.5. Utilizacion de variables explicativas cualitativas . . . . . . . . . . . . . . . . . . . . . 122

5.5.1. Modelo que recoge solo efectos cualitativos: comparando medias. Solo un con-junto de variables ficticias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

5.5.2. Dos o mas conjuntos de variables ficticias . . . . . . . . . . . . . . . . . . . . 126

5.5.3. Inclusion de variables cuantitativas . . . . . . . . . . . . . . . . . . . . . . . . 127

5.5.4. Comportamiento estacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

5.5.5. Efectos de interaccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

5.6. Distribucion del estimador MCO. Estimacion por intervalo . . . . . . . . . . . . . . . 130

5.6.1. Distribucion del estimador de MCO bajo Normalidad . . . . . . . . . . . . . 130

5.6.2. Estimacion por intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

5.7. Contraste de hipotesis sobre los coeficientes de la regresion . . . . . . . . . . . . . . . 131

5.7.1. Contraste de restricciones sobre los coeficientes de regresion individuales . . . 131

5.7.2. Contraste de restricciones sobre los coeficientes de regresion . . . . . . . . . . 133

5.7.3. Contrastes basados en sumas de cuadrados de residuos . . . . . . . . . . . . . 137

5.8. Estimacion del MRLG con gretl : principales resultados, contraste de hipotesis . . . . 154

5.8.1. Tratamiento de las variables ficticias en gretl. . . . . . . . . . . . . . . . . . . 157

5.9. Apendice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

5.9.1. Anexo 1. Distintas expresiones de SCT, SCE y SCR . . . . . . . . . . . . . . 163

5.9.2. Anexo 2. Demostracion de la insesgadez de σ2 . . . . . . . . . . . . . . . . . . 163

5.9.3. Anexo 3. Distribuciones que nos interesan . . . . . . . . . . . . . . . . . . . . 165

ix

Page 12: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

5.10. Bibliografıa del tema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166

6. Validacion 167

6.1. Forma funcional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

6.2. Sobre constancia de los coeficientes: contraste de cambio estructural . . . . . . . . . 171

6.3. Sobre las perturbaciones: contrastes de heterocedasticidad y ausencia de correlacion 172

6.3.1. Contraste de heterocedasticidad . . . . . . . . . . . . . . . . . . . . . . . . . 172

6.3.2. Deteccion grafica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176

6.3.3. Contraste de White . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179

6.3.4. Contraste de ausencia de correlacion temporal . . . . . . . . . . . . . . . . . 180

6.4. Prediccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188

6.5. Validacion en gretl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191

6.5.1. Contraste de Ramsey con gretl . . . . . . . . . . . . . . . . . . . . . . . . . . 191

6.5.2. Contraste de cambio estructural o Chow con gretl . . . . . . . . . . . . . . . 193

6.5.3. Contraste de heterocedasticidad con gretl . . . . . . . . . . . . . . . . . . . . 196

6.5.4. Contraste de ausencia de correlacion con gretl . . . . . . . . . . . . . . . . . . 198

6.5.5. Prediccion en gretl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202

6.6. Bibliografıa del tema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204

7. Guıa para el desarrollo de un proyecto empırico 205

7.1. Caracterısticas basicas del proyecto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205

Bibliografıa 209

x

Page 13: Estad´ıstica Actuarial y Análisis de Regresión

Figuras

1. No de aprobados en tres asignaturas de la Licenciatura en Economıa. . . . . . . . . . 6

2. Distribucion de frecuencias del gasto en sanidad . . . . . . . . . . . . . . . . . . . . 7

3. Distribucion de frecuencias relativas y evolucion temporal del la demanda domesticade electricidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

4. Evolucion temporal del consumo y renta per capita junto a la nube de puntos . . . . 10

5. Graficos de las observaciones para las variables price y sqft . . . . . . . . . . . . . . 16

1.1. Distribucion normal bivariante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

1.2. Ejemplos de funcion de densidad de la distribucion normal . . . . . . . . . . . . . . 35

1.3. Funcion de distribucion acumulada de la distribucion normal . . . . . . . . . . . . . 35

1.4. Probabilidades correspondientes a Z = 1, 65 y Z = −1, 65 en la distribucion normalestandar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

1.5. Funcion de densidad de la distribucion Chi-cuadrado . . . . . . . . . . . . . . . . . . 40

1.6. Funcion de densidad de la distribucion t-Student . . . . . . . . . . . . . . . . . . . . 40

1.7. Funcion de densidad de la distribucion F-Snedecor . . . . . . . . . . . . . . . . . . . 41

2.1. Sesgo y varianza de estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

2.2. Ejemplos de distribucion de estimadores . . . . . . . . . . . . . . . . . . . . . . . . . 51

5.1. Perturbaciones homocedasticas versus heterocedasticas . . . . . . . . . . . . . . . . . 91

5.2. Funcion de regresion poblacional y funcion de regresion muestral . . . . . . . . . . . 101

6.1. Relaciones economicas no lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

6.2. Perturbaciones homocedasticas versus heterocedasticas . . . . . . . . . . . . . . . . . 173

6.3. Residuos MCO versus POP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177

6.4. Residuos MCO versus POP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177

6.5. Residuos MCO y sus cuadrados versus SEN . . . . . . . . . . . . . . . . . . . . . . . 178

xi

Page 14: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

6.6. Perturbaciones homocedasticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178

6.7. Residuos MCO frente a una variable ficticia . . . . . . . . . . . . . . . . . . . . . . . 179

6.8. Proceso autorregresivo de orden uno . . . . . . . . . . . . . . . . . . . . . . . . . . . 184

6.9. Perturbaciones AR(1) positivo versus AR(1) negativo . . . . . . . . . . . . . . . . . 185

6.10. Variable endogena versus exogena . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193

6.11. Gasto sanitario real y ajustado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197

6.12. Residuos MCO versus RENTA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198

6.13. Residuos versus tiempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199

6.14. Residuos en t versus residuos en t-1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 200

6.15. Variable endogena versus exogena . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201

6.16. Residuos modelo (6.20) versus tiempo . . . . . . . . . . . . . . . . . . . . . . . . . . 202

xii

Page 15: Estad´ıstica Actuarial y Análisis de Regresión

Tablas

1. No de aprobados en tres asignaturas de la Licenciatura en Economıa. . . . . . . . . . 6

2. Gasto sanitario por estado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

3. Distribucion de frecuencias para el gasto en sanidad . . . . . . . . . . . . . . . . . . 7

4. Demanda domestica de electricidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

5. Distribucion de frecuencias para la demanda domestica de electricidad . . . . . . . . 9

1.1. Funcion de densidad de probabilidad conjunta f(x, y) . . . . . . . . . . . . . . . . . 29

1.2. Distribuciones marginales para X e Y . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.1. Datos sobre salario medio por hora . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

2.2. Tamano de la cadera para 50 individuos. . . . . . . . . . . . . . . . . . . . . . . . . . 59

5.1. Datos de caracterısticas de viviendas. Fichero 4-1.gdt. . . . . . . . . . . . . . . . . . 106

5.2. observaciones muestrales de la prima pagada y renta . . . . . . . . . . . . . . . . . . 147

6.1. Observaciones sobre rendimiento y t/i por paıs . . . . . . . . . . . . . . . . . . . . . 191

7.1. Modelos estimados para el precio de la vivienda PRICE . . . . . . . . . . . . . . . 208

7.2. Funcion de Salarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208

xiii

Page 16: Estad´ıstica Actuarial y Análisis de Regresión
Page 17: Estad´ıstica Actuarial y Análisis de Regresión

Tema 0

Introduccion

La Estadıstica, la Econometrıa y muchas otras materias se alimentan de datos. En ocasiones elnumero de datos u observaciones recogidas es tan grande que no es facil obtener unos resultadosinterpretables con claridad. En este tema vamos a dedicar las clases a resumir de forma clara yprecisa la informacion que nos transmiten los datos sin ocultar caracterısticas importantes. No hayuna estrategia correcta para ello en general depende del tipo de datos y del fin del estudio. En estetema vamos a introducir graficos y tablas que resuman la informacion de los datos, por ejemplograficos de barra, tarta, graficos de series temporales. Los graficos, diagramas y tablas puedenmejorar la comunicacion de los datos a los clientes u proveedores.

A lo largo del tema se han introducido ejemplos ilustrativos de los conceptos a aprender.

Competencias a trabajar en estas sesiones:

5. Obtener e interpretar los resultados de un analisis estadıstico de datos economicos haciendouso de las fuentes de informacion apropiadas y de los instrumentos informaticos necesarios.

Al final de este tema deberıais ser capaces de:

1. Representar graficamente variables.

2. Describir numericamente los datos observados.

3. Incluir datos en gretl y obtener su analisis descriptivo basico.

Bibliografıa Recomendada:

Al final del tema teneis recogida la bibliografıa correspondiente. En particular se os recomienda leerlos capıtulos correspondientes a la bibliografıa basica detallados a continuacion:

1

Page 18: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

• Gujarati, D. y Porter, D.C. (2010). Apendice A.

• Newbold, P., Carlson, W.L. y Thorne, B. (2008). Cap. 1, Cap. 2 y Cap. 3.

• Ramanathan, R. (2002). Cap. 2.

• Ruiz Maya, L. y Martın Pliego, F.J. (2005). Cap. 1

• Wooldridge, J.M. (2006). Apendice B.

2

Page 19: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

0.1. La naturaleza de los datos

En la actualidad el individuo tiene a su disposicion datos de casi todo aquello que desee conocer.La Administraciones publicas, los entes privados y los investigadores cientıficos publican y recogendatos. Es muy importante saber resumir e interpretar la informacion que proporcionan. Pensemosen el lanzamiento de un nuevo producto al mercado. El productor necesitara conocer su nivel dedemanda potencial, todos sus posibles compradores. A este conjunto de todos sus posibles compra-dores se le denomina poblacion. En ocasiones el tamano de la poblacion puede ser muy grande eincluso infinito por lo que debemos limitarnos a estudiar una parte mas reducida de la misma, quedenominamos muestra.

La poblacion es el conjunto de todos los objetos que interesan al investigador. Al numero de observa-ciones u objetos que conforman la poblacion se le denomina tamano de la poblacion y se denota porN . La muestra es un subconjunto observado de valores poblacionales. El numero de observacionesque conforman la muestra se denomina tamano de la muestra y se denota por n.

El muestreo aleatorio simple o muestreo aleatorio es el procedimiento que se utiliza para seleccionaruna muestra de n observaciones de una poblacion en el que cada miembro de la poblacion se eligeestrictamente al azar. Cada miembro de la poblacion se elige con la misma probabilidad y todas lasmuestras posibles de un tamano dado, n, tienen la misma probabilidad de ser seleccionadas.

Tomar una muestra y estudiar sus caracterısticas es un medio para extraer conclusiones sobre lapoblacion. Por ejemplo si estamos interesados en conocer la renta media de las familias de unpaıs, el tamano de la poblacion es tan grande que solo podrıamos tomar una muestra aleatoria depor ejemplo 1000 familias y calcular su renta media. Esta media basada en datos muestrales sellama estadıstico. Si pudieramos calcular la renta media de todas las familias la media resultantese llamarıa parametro. En este curso estudiaremos como se toman decisiones sobre un parametrobasandonos en un estadıstico. Trabajaremos en un entorno de incertidumbre ya que el valor exactodel parametro es desconocido. Un parametro es una caracterıstica especıfica de la poblacion. Unestadıstico es una caracterıstica especıfica de la muestra.

Una vez que tenemos definido un problema y recolectados los datos objeto de interes, estos seanalizan utilizando metodos estadısticos. La estadıstica descriptiva y la estadıstica inferencial per-miten convertir los datos en conocimiento util para la toma de decisiones. La estadıstica descrip-tiva esta formada por metodos graficos y numericos que permiten resumir y procesar los datosconvirtiendolos en informacion. La estadıstica inferencial permite hacer estimaciones, contraste dehipotesis, predicciones y previsiones.

Una vez que tenemos recolectados los datos debemos transformarlos en informacion. Para ellopodemos llevar a cabo un analisis grafico de los mismos y tambien un analisis descriptivo.

0.2. Clasificacion de las variables

Antes de abordar el estudio grafico y el estudio descriptivo de los datos vamos a hablar de lasvariables. Una variable es una caracterıstica que al ser medida en diferentes individuos es susceptiblede adoptar diferentes valores. Las variables pueden clasificarse de varias formas, por ahora lo haremos

3

Page 20: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

en dos. Cuando las clasificamos segun el tipo y la cantidad de informacion que contienen podemosdistinguir entre variables categoricas y numericas. Cuando las clasificamos por nivel de medicionpodemos distinguir entre variables cualitativas y cuantitativas.

Una primera clasificacion divide los datos en variables categoricas y variables numericas. Las varia-bles categoricas son aquellas que generan respuestas que pertenecen a categorıas o grupos. Porejemplo ¿tiene coche? ¿utiliza tarjeta de credito? Tambien son variables categoricas las respuesta apreguntas sobre sexo, estado civil, nivel de educacion y tambien lo son las respuestas con diferentesgrados de intensidad como las que van de totalmente de acuerdo a totalmente en desacuerdo.

Una variable numerica es aquella que toma valores. Una variable numerica discreta puede tenerun numero infinito de valores, pero en general proviene de un proceso de recuento, por ejemplonumero de aprobados en Matematicas II o el numero de matriculados en una asignatura. Una va-riable numerica continua puede tomar cualquier valor en un intervalo dado de numeros reales ynormalmente proviene de un proceso de medicion. Por ejemplo la altura y el peso, la temperatura,el tiempo, la distancia entre dos puntos, etc.

Tambien podemos clasificar los datos por su nivel de medicion en variables cualitativas y cuantita-tivas. Variables cuantitativas son aquellas que podemos valorar numericamente. Por ejemplo, larenta disponible de una familia, el precio de un bien, la renta per capita. Variables cualitativasson aquellas que miden cualidades y que por lo tanto no se miden con un valor numerico y sera elinvestigador el que se lo asigne segun un criterio. Por ejemplo, si un individuo es hombre o mujer, siesta o no casado, si trabaja en turno de noche o no, si tiene estudios superiores o no. En las variablescualitativas es el investigador el que establece el valor de la variable para cada caracterıstica.

Las variables cualitativas pueden tener niveles de medicion nominales y ordinales mientras que losdatos cuantitativos pueden tener niveles de medicion basados en intervalos y en razones. Son datosnominales los que responden a preguntas categoricas, el sexo, el lugar de nacimiento, el estado civil.Por ejemplo, la respuesta a la pregunta sexo del individuo son palabras que describen la categorıa:hombre, mujer y se ha de asignarlas un codigo de manera arbitraria, por ejemplo: hombre = 1,mujer = 0, este valor solo se emplea para clasificar a los individuos, la diferencia entre ellos notienen ningun valor. Los datos ordinales indican el orden que ocupa el objeto, por ejemplo en unaencuesta pueden preguntar sobre el grado de dificultad de un determinado procedimiento y lasrespuestas pueden ser: alto=1, medio=2, bajo=3. Las respuestas siguen un orden, son ordinales,pero la diferencia entre ellas no tiene significado mensurable.

Los niveles de medicion basados en intervalos y razones se refieren a datos en una escala ordenadaen los que la diferencia entre las mediciones tiene un significado. Una escala de intervalos indica elorden y la distancia con respecto a un cero arbitrario medidos en intervalos unitarios, por ejemploel ano es un dato de este tipo donde el nivel de referencia es el calendario gregoriano. Otro ejemploserıa la temperatura. Los datos basados en una escala de razones indican el orden y la diferenciacon respecto a un cero natural y los cocientes entre dos medidas tienen un significado. Por ejemplouna persona que tiene 90 anos tiene el doble de anos que una persona de 45 anos. El peso, la alturason variables de este tipo.

Con respecto a la unidad de medida los podemos clasificar en:

4

Page 21: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

1. Datos de serie temporal : Reflejan la evolucion de una variable a lo largo del tiempo, segun estola variable estara ordenada cronologicamente con un orden logico. Las variables medidas enseries temporales se denotan con el subındice t y este puede referirse a observaciones temporalesmensuales, trimestrales, diarias, cuatrimestrales, anuales, etc. Ejemplo: la demanda domesticade electricidad (DDE) del segundo trimestre de 1972 al cuarto trimestre de 1993. En este casola poblacion serıan todos los posibles valores de dicha demanda DDE a lo largo del tiempo yla muestra el perıodo que vamos a estudiar, 1972:2-1993:4, el tamano de la muestra es de 87observaciones.

2. Datos de seccion cruzada o corte transversal : Son datos atemporales dado que miden el com-portamiento de una variable en diferentes unidades y en el mismo momento del tiempo.Ejemplo: el salario de los trabajadores del sector de educacion en las diferentes comunida-des autonomas espanolas en el ano 2011.

3. Datos de panel : es la union de datos de serie temporal y datos de seccion cruzada. Estan fueradel objetivo del curso.

Hay que notar que una variable puede ser clasificada en varias de las categorıas anteriores, unavariable cualitativa puede ser categorica nominal u ordinal. Una variable numerica discreta como laedad, variable cuantitativa en su naturaleza puede ser convertida en una variable cualitativa cuandopor ejemplo en el estudio no nos interese mas que conocer en que tramo de edad se encuentre elindividuo y por ejemplo lo clasifiquemos en menores de 25 anos, entre 25 y 45 anos y mayores de45 anos. Son tres tramos de edad y a cada uno de ellos le asignaremos un valor arbitrario. Ademasseran datos de serie temporal o de seccion cruzada.

Una vez recogidos los datos de interes y asignados los arbitrarios si es necesario podemos procedera analizarlos graficamente.

0.3. Representacion grafica de las variables

Las variables categoricas suelen representarse utilizando tablas de distribucion de frecuencias y grafi-cos como los de barras, de Pareto o de tarta. Las variables numericas se describen por histogramas,ojivas y diagramas de tallo y hojas.

La distribucion de frecuencias o tabla de frecuencias es una ordenacion en forma de tabla de losdatos estadısticos, asignando a cada dato su frecuencia correspondiente. En principio, en la tabla defrecuencias se detalla cada uno de los valores diferentes en el conjunto de datos junto con el numerode veces que aparece, es decir, su frecuencia. Se puede complementar la frecuencia absoluta con ladenominada frecuencia relativa, que indica la frecuencia en porcentaje sobre el total de datos.

La tabla de frecuencias puede representarse graficamente en un histograma o diagrama de barras.Normalmente en el eje vertical se colocan las frecuencias y en el horizontal los intervalos de valores.

Ejemplo 0.1

La Tabla 1 muestra el numero de aprobados en tres asignaturas de la Licenciatura enEconomıa en los cursos 2009-2010 y 2010-2011. Las clases que muestra la tabla son las

5

Page 22: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

respuestas posibles a la variable categorica. La pregunta realizada es ¿Cuantos alumnoshan aprobado la asignatura XX en el curso Y Y ?

Asignatura 2009-2010 2010-2011Microeconomıa 60 76Estadıstica para economistas 89 98Econometrıa 85 105

Tabla 1: No de aprobados en tres asignaturas de la Licenciatura en Economıa.

La misma informacion muestra el grafico de barras recogido en la Figura 1:

Figura 1: No de aprobados en tres asignaturas de la Licenciatura en Economıa.

Ejemplo 0.2

La Tabla 2 muestra el gasto en sanidad, GS, en billones de dolares en el ano 1993 paralos 50 estados de Estados Unidos junto con Washington DC:

Estado GS Estado GS Estado GS Estado GS Estado GSWY 0,998 NH 3,452 MS 6,187 LA 13,014 GA 20,104VT 1,499 HI 3,485 IA 7,341 MN 14,194 NC 18,241DC 4,285 ME 3,433 OR 7,999 MD 15,154 NJ 25,741AK 1,573 NV 3,747 OK 8,041 WI 14,502 MI 27,136ND 2,021 NE 4,400 CT 12,216 TN 16,203 OH 33,456DE 2,260 NM 3,878 CO 10,066 MO 15,949 IL 34,747SD 1,953 WV 5,197 SC 9,029 WA 15,129 PA 41,521MT 2,103 UT 4,118 KY 10,384 IN 16,401 FL 44,811RI 3,428 AR 6,111 AZ 10,635 MA 23,421 TX 49,816ID 2,277 KS 6,903 AL 12,060 VA 16,682 NY 67,033CA 94,178

Tabla 2: Gasto sanitario por estado

6

Page 23: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Con los datos se ha construido la Tabla 3 de frecuencias. Se han construido cinco inter-valos para los posibles valores de la variable. Para cada uno de ellos se ha calculado supunto medio y el numero de observaciones que caen dentro del intervalo y que aparecenen la columna frecuencia. La columna relativa muestra la frecuencia relativa es decir elporcentaje sobre el total de observaciones del numero de observaciones que caen dentrodel intervalo. La columna acumulada agrega la frecuencia relativa del intervalo a la delanterior.

Observaciones 1-51, numero de cajas = 7,media = 15,2649, desv.tıp.=17,8877

intervalo punto medio frecuencia relativa acumulada< 15,530 7,7650 35 68,63 % 68,63 %

15,530 - 31,060 23,295 9 17,65% 86,27 %31,060 - 46,590 38,825 4 7,84% 94,12 %46,590 - 62,120 54,355 1 1,96% 96,08 %62,120 - 77,650 69,885 1 1,96% 98,04 %77,650 - 93,180 85,415 0 0,00% 98,04 %

>= 93,180 100,94 1 1,96 % 100,00 %

Tabla 3: Distribucion de frecuencias para el gasto en sanidad

A partir de la tabla de frecuencias se pueden dibujar los siguientes graficos de las distribuciones, ala izquierda de frecuencia y a la derecha de frecuencia acumulada:

Figura 2: Distribucion de frecuencias del gasto en sanidad

El grafico de la izquierda es un histograma cuyos intervalos se corresponden con los de la tabla dedistribucion de frecuencias. La altura de la barra es proporcional al numero de observaciones delintervalo. El grafico de la derecha es una ojiva, muestra una lınea que conecta los puntos que sonel porcentaje acumulado de observaciones situadas por debajo del lımite superior de cada intervaloen una distribucion de frecuencias acumuladas.

En el histograma encontramos informacion sobre la muestra. Si la muestra esta equilibrada, es decirsi las observaciones se distribuyen de forma uniforme a ambos lados del punto medio, la forma del

7

Page 24: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

histograma sera simetrica. En el ejemplo la muestra claramente no esta equilibrada, esta sesgadapositivamente ya que se extiende hacia la derecha donde los valores son positivos. Si se extiendehacia los valores negativos se dice que esta sesgada negativamente.

Graficas para datos de serie temporalEn el caso de disponer de datos de serie temporal ademas de analizar su distribucion de frecuenciasnos interesara su evolucion temporal.

Ejemplo 0.3

Se dispone de una muestra de observaciones sobre la demanda domestica de electricidadpara el periodo de 1972:2 a 1993:4 en San Diego en millones de kilowatios/hora. Lasobservaciones se recogen en la Tabla 4:

t DDE t DDE t DDE t DDE t DDE1972:2 586,608 1976:4 860,741 1981:2 883,718 1985:3 1062,046 1989:4 1279,6261972:3 625,797 1977:1 946,673 1981:3 958,449 1985:4 1079,565 1990:1 1485,4531972:4 704,154 1977:2 793,593 1981:4 980,453 1986:1 1137,534 1990:2 1206,4551973:1 817,206 1977:3 820,803 1982:1 1062,744 1986:2 992,370 1990:3 1394,0551973:2 667,642 1977:4 876,286 1982:2 887,136 1986:3 1087,314 1990:4 1336,9791973:3 661,827 1978:1 993,199 1982:3 933,269 1986:4 1107,644 1991:1 1455,1211973:4 732,839 1978:2 842,539 1982:4 978,160 1987:1 1263,671 1991:2 1210,5951974:1 796,876 1978:3 893,369 1983:1 1020,435 1987:2 1054,402 1991:3 1261,0561974:2 655,335 1978:4 998,721 1983:2 917,487 1987:3 1107,669 1991:4 1407,9251974:3 692,599 1979:1 1135,091 1983:3 975,387 1987:4 1214,441 1992:1 1446,2151974:4 768,172 1979:2 901,289 1983:4 998,109 1988:1 1335,147 1992:2 1255,0081975:1 877,881 1979:3 942,471 1984:1 1015,545 1988:2 1122,214 1992:3 1504,5111975:2 722,124 1979:4 1024,852 1984:2 919,639 1988:3 1238,305 1992:4 1405,3361975:3 697,671 1980:1 1068,690 1984:3 1040,188 1988:4 1233,677 1993:1 1512,3061975:4 804,178 1980:2 914,884 1984:4 1082,732 1989:1 1432,962 1993:2 1241,3451976:1 880,008 1980:3 930,812 1985:1 1164,663 1989:2 1156,211 1993:3 1405,0361976:2 763,618 1980:4 969,382 1985:2 945,277 1989:3 1276,944 1993:4 1392,1831976:3 790,428 1981:1 1028,968

Tabla 4: Demanda domestica de electricidad

La distribucion de frecuencias correspondiente se muestra en la Tabla 5.

8

Page 25: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Observaciones 1-87, numero de cajas = 9,media = 1035,08, desv.tıp.=233,605

intervalo punto medio frecuencia relativa acumulada< 644,46 586,61 2 2,30 % 2,30 %

644,46 - 760,18 702,32 8 9,20% 11,49 %760,18 - 875,89 818,03 10 11,49% 22,99 %875,89 - 991,60 933,74 20 22,99% 45,98 %991,60 - 1107,3 1049,5 16 18,39% 64,37 %1107,3 - 1223,0 1165,2 10 11,49% 75,86 %1223,0 - 1338,7 1280,9 10 11,49% 87,36 %1338,7 - 1454,4 1396,6 7 8,05% 95,40 %

>= 1454,4 1512,3 4 4,60 % 100,00 %

Tabla 5: Distribucion de frecuencias para la demanda domestica de electricidad

A continuacion se muestra la grafica de la distribucion de frecuencias relativas, a laizquierda, y a la derecha la evolucion temporal de la variable. El grafico de frecuenciasmuestra una distribucion moderadamente asimetrica positiva. El grafico de serie tem-poral mostrado a la derecha indica una tendencia creciente en la variable y un patronde comportamiento anual que se repite.

0

0,05

0,1

0,15

0,2

0,25

600 800 1000 1200 1400 1600

Fre

cuen

cia

rela

tiva

DDE 500

600

700

800

900

1000

1100

1200

1300

1400

1500

1600

1975 1980 1985 1990

DD

E

Figura 3: Distribucion de frecuencias relativas y evolucion temporal del la demanda domestica deelectricidad

Graficas para describir relaciones entre variablesEn muchas ocasiones los estudios se centran en las relaciones entre dos variables. En este caso lagrafica de la nube de puntos informa tanto del rango como de la relacion entre las variables. Elgrafico muestra la nube de puntos o pares de observaciones de las variables.

Por ejemplo podemos estudiar la relacion entre el salario de un individuo y su antiguedad en laempresa, la dependencia del precio de una vivienda con respecto a la superficie da la misma, larelacion entre consumo y renta, etc. En todos estos ejemplos una variable depende de la otra, elconsumo depende de la renta, el salario depende de la antiguedad en el puesto, el precio dependede la superficie de la vivienda. A las variables consumo, precio de la vivienda y salario se les llama

9

Page 26: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

variables dependientes porque depende de la renta, la superficie de la vivienda y la antiguedadmientras que estas se denominan variables independientes ya que no dependen de otra. La variableindependiente (denotada habitualmente por X) se muestra en el eje de abscisas mientras que lavariable dependiente (denotada habitualmente por Y) se muestra en el eje de ordenadas.

Ejemplo 0.4

Supongamos que disponemos datos sobre consumo per capita y renta per capita endolares de 1987 para Estados Unidos en el periodo de 1970-1991. En el grafico de laizquierda se muestra la evolucion temporal de ambas variables. A la derecha se muestrala nube de puntos de ambas variables. La muestra consta de 22 observaciones luegola nube esta constituida por 22 puntos, para cada ano un punto recoge el valor de lavariable consumo y el valor de la variable renta (PPCEt, PDPIt).

8000

9000

10000

11000

12000

13000

14000

15000

1970 1975 1980 1985 1990

PPCEPDPI

8500

9000

9500

10000

10500

11000

11500

12000

12500

13000

13500

10000 10500 11000 11500 12000 12500 13000 13500 14000

PP

CE

PDPI

PPCE con respecto a PDPI (con ajuste mínimo−cuadrático)

Y = −1,22e+003 + 1,01X

Figura 4: Evolucion temporal del consumo y renta per capita junto a la nube de puntos

El grafico de serie temporal muestra que ambas variables evolucionan de forma parejay son crecientes con t. La nube de puntos muestra la misma relacion creciente y linealentre las variables. La recta que aparece en la nube de puntos muestra esta relacionlineal. A esta recta se le llama funcion de regresion muestral y nos ocuparemos de ellaen el tema 5.

0.4. Descripcion numerica de los datos

En la seccion anterior se han descrito los datos de una muestra graficamente. En esta seccion vamosa describirlos numericamente con medidas de tendencia central, medidas de variabilidad y medidasdel sentido y del grado de relacion entre dos variables.

Medidas de la tendencia central: Las medidas de tendencia central dan informacion numericasobre una observacion “tıpica”de los datos.

• Media aritmetica o media muestral: La media aritmetica de un conjunto de datos es la suma delos valores de los datos dividida por el numero de observaciones.

X =∑n

1 Xi

n=

X1 + X2 + . . . + Xn

n

10

Page 27: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

• Mediana: es la observacion que ocupa el lugar central de un conjunto de observaciones ordenadasen sentido ascendente o descendente. Si el tamano de muestra n es impar la mediana es el valor quese encuentra en medio. Si el tamano muestral es par la mediana es la media de las dos observacionesque se encuentran en el medio. La mediana se encuentra en la posicion 0, 50(n + 1).

• Moda, es el valor que aparece con mas frecuencia. Puede no existir.

¿Cual de las tres es la mejor medida para describir la tendencia central de los datos, la media,la mediana o la moda? Depende de los datos. Si los datos son numericos en general sera util lamedia, pero si son categoricos sera mas util la mediana o la moda. Por ejemplo imaginemos quetenemos cinco individuos dos hombres y tres mujeres y que el investigador asocia el valor 1 a loshombres y el valor cero a las mujeres. La media muestral de la variable“sexo” es 2/5 lo que notine sentido, sin embargo la moda es el valor 0 que indica que hay mas mujeres que hombres en lamuestra. Imaginemos que la variable objeto de estudio es la renta. La media se vera incrementadapor aquellos valores muy altos y no describira bien la variable sin embargo la mediana es el nivelde renta por encima del cual estan la mitad de los hogares de la muestra.

Medidas de la variabilidad: Junto a la media es necesario presentar estadısticos descriptivos quemidan la variabilidad o dispersion de los datos u observaciones con respecto a la media.

• Rango: es la diferencia entre los valores mayor y menor de la muestra.

• Varianza muestral: la varianza muestral es la suma de los cuadrados de las diferencias entre cadaobservacion y la media muestral dividida por el tamano de la muestra menos 1:

S2 =∑n

1 (Xi − X)2

n− 1

• Desviacion tıpica muestral: Es la raız de la varianza muestral:

S =√

S2 =

√∑n1 (Xi − X)2

n− 1

• Coeficiente de variacion: es una medida de la dispersion relativa que expresa la desviacion tıpicaen porcentaje de la media (siempre que esta sea positiva). El coeficiente de variacion muestral sedefine:

CV =S

X× 100% si X > 0

Medidas de las relaciones entre las variables

• Covarianza: es una medida de la relacion entre dos variables. Un valor positivo indica una relacionlineal directa o creciente y un valor negativo una relacion lineal inversa o decreciente. La covarianzamuestral se define:

Cov(X,Y ) = SXY =∑n

1 (Xi − X)(Yj − Y )n− 1

donde Xi e Yj son los valores observados de las variables X e Y , X e Y son, respectivamente,sus medias muestrales y n es el tamano de muestra. El coeficiente de correlacion da una medidaestandarizada de la relacion lineal entre dos variables. Indica el sentido y el grado de la relacion.

11

Page 28: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

• Coeficiente de correlacion: es el cociente entre la covarianza y el producto de las desviacionestıpicas entre las variables:

rXY =Cov(X, Y )

SXSY

El coeficiente de correlacion esta comprendido entre −1 y 1, −1 ≤ rXY ≤ 1. Cuanto mas cercase encuentra de 1 mas cerca se encuentran los datos de puntos de una lınea recta ascendente queindica una relacion lineal positiva. Cuanto mas cerca de −1 mas cerca se encuentran los datos depuntos de una lınea recta descendente que indica una relacion lineal negativa. Cuando r = 0 noexiste ninguna relacion lineal entre las variables.

0.5. Tratamiento de la informacion con gretl : inclusion de datos engretl y analisis descriptivo basico

gretl es un programa que permite obtener de manera sencilla mediante ventana resultados estadısti-cos y econometricos. Una vez ejecutado el programa gretl en la ventana principal aparece un menu deventanas que nos permite diferentes posibilidades. En la pantalla principal, una vez abierto gretlnos aparecen las siguientes pestanas:

Archivo Herramientas Datos Ver Anadir Muestra Variable Modelo Ayuda

Pero solo tres de ellas estan activas, las distinguimos porque las no activas aparecen en gris mien-tras que las activas estan en negrita. Las activas son Archivo, Herramientas y Ayuda. En la primeraleemos datos. Empezaremos viendo como leer datos. Dependiendo del origen de estos si estan enuna archivo de muestra incluido en gretl , si estan disponibles en papel, en la web o en un archivopropio procederemos de una manera u otra.

• Para leer datos incluidos en la base del programa gretl :Pinchar Archivo → Abrir archivo de datos → Archivo de muestra → Aquı seleccionamos la basede datos que necesitemos, por ejemplo ETM → y ahora seleccionamos el archivo, por ejemplomonthly-crsp.gdt

Apareceran las variables de la muestra y en la barra superior se habran activado las etiquetas men-cionadas anteriormente. Por ejemplo en Datos podremos ver las observaciones y sus caracterısticas.Algunas de las opciones que contiene la etiqueta Datos son las siguientes:

Mostrar valoresEditar los valoresInformacion del conjunto de datosEstructura del conjunto de datos

Para obtener lo que necesitamos solo tenemos que pinchar la etiqueta correspondiente y la variableo variables a estudiar. Por ejemplo para ver la estructura del conjunto de datos pinchamos enesta etiqueta y obtendremos una pantalla en la que aparecera seleccionado el tipo de datos con elque estamos trabajando, en este caso Serie temporal. Pinchamos adelante y veremos la frecuencia,mensual, y el inicio y final de la muestra 1968:1 a 1998:12. La etiqueta estructura del conjunto

12

Page 29: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

de datos es muy util cuando necesitamos cambiar alguno de ellos por ejemplo si anadimos nuevasobservaciones.

En el menu inicial aparece tambien la etiqueta Ver con, entre otras, las siguientes opciones:

GraficosGraficos multiplesEstadısticos principalesMatriz de correlacion

• Para hacer Graficos:Pinchar Ver → Graficos → Graficos de series temporales. Seleccionar las variables que se quierenincluir en el grafico y pinchar Aceptar.

Para guardar el grafico: situar el raton sobre el grafico y pinchar con el boton derecho. Elegir opcion.Podemos guardarlos en postcript (.eps) o .png, etc. En la ventana que aparece para guardarloescribir la direccion de la carpeta donde queremos guardar el grafico y ponerle un nombre porejemplo CRSPVW.

Dentro de las opciones que aparecen al pinchar con el boton derecho esta la opcion Editar. En estaopcion se pueden modificar los ejes, los nombres de las variables, incluso el tipo de lınea y colorutilizada para representar la serie de observaciones, entre otras posibilidades.

• Para obtener los Estadısticos principales de las variables de la muestra:Pinchar en Ver → Estadısticos principales.

La ventana de output mostrara la media, moda, valor maximo y mınimo de la serie, desviaciontıpica, coeficiente de variacion, curtosis y asimetrıa. Podemos obtener los estadısticos para unaunica serie o para el conjunto de ellas seleccionandolo previamente.

Si queremos guardar el output pinchamos en el icono del diskette arriba a la izquierda y selecciona-mos como queremos que lo guarde, texto plano, Word o Latex y en la ventana damos el nombre quedeseemos al fichero de resultados, por ejemplo estadVW para la serie CRSP o estadmuestra parael conjunto y a continuacion damos la direccion de la carpeta donde queremos que nos guarde elfichero de resultados.

En el menu inicial tambien aparece la etiqueta Variable para trabajar con una unica serie de lamuestra. Algunas de las opciones que incluye esta etiqueta son:

BuscarMostrar valoresEstadısticos principalesContraste de NormalidadDistribucion de frecuenciasGrafico de frecuencias (simple, contra la normal, contra la gamma)Grafico de series temporalesEditar atributosetc.

13

Page 30: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

• Obtener datos que estan en el servidor:Queremos estudiar una serie que se encuentra en el servidor, Credito mas de 5 anos a hogares. Estaserie aparece publicada en la base de datos del Banco de Espana con el codigo BE182704.

Pinchar Archivo → Bases de datos → Sobre servidor

En el listado de bases de datos que aparece vamos a bde18 Banco de Espana (Tipo de interes)y pinchamos en Obtener listado de series comprobando que contienen la serie que queremos.Series → Mostrar

Para representarla graficamente: Series → Representar

Para importar los datos a gretl situamos el cursor sobre la serie de interes, BE182704, y vamos a

Series → Importar

Ademas tenemos opcion de hacer lo siguiente:

• Anadir o cambiar informacion sobre la variable: en menu Variable → Editar atributos. En estaventana podremos cambiar tambien el nombre de la serie utilizado en los graficos.

• Anadir notas explicativas: en menu Datos → Editar informacion

• Consultar las notas informativas: en menu Datos → Leer informacion o en Datos → Descrip-cion

• Para crear un conjunto de datos:

Pinchar Archivo → Nuevo conjunto de datos y completar la informacion que pide sobre:

numero de observacionesestructura del conjunto de datos (serie temporal o seccion cruzada)frecuencia

A la pregunta ¿Desea empezar a introducir los valores de los datos usando la hoja de calculo degretl ? contestar Sı

• Introducir el nombre de la variable. El maximo de caracteres que acepta es 15, no usar acentosni la letra n. Pinchar Aceptar.

• En la hoja de calculo situarnos en la primera celda y teclear la observacion correspondiente,a continuacion pinchar intro. Si nos saltamos alguna observacion podemos insertar una fila enel lugar correspondiente con solo situarnos en la celda posterior e ir a observacion → insertarobs. Una vez introducidas todas las variables pinchar Aplicar.

• Para guardar los datos: en menu Archivo → Guardar datos. Dar nombre al conjunto de datos,por ejemplo Azar y se grabara automaticamente con la extension gdt.

Si en otro momento queremos usar este conjunto de datos solo habra que clickear en el dosveces para que se active.

14

Page 31: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

• Si queremos anadir variables en menu: Pinchar en la etiqueta Anadir tenemos las siguientesposibilidades:

• Logaritmos de las variables seleccionadas

• Cuadrados de las variables seleccionadas

• Retardos de las variables seleccionadas

• Primeras diferencias de las variables seleccionadas

• Diferencias del logaritmo las variables seleccionadas

• Diferencias estacionales de las variables seleccionadas

• Variable ındice

• Tendencia temporal

• Variable aleatoria (uniforme, normal, chi cuadrado y t-Student) Por ejemplo para crearuna variable normal de media 0 y desviacion 1 haremos nombre de la variable 0 1

• Variables ficticias, etc.

• Definir una nueva variable. Esta opcion podemos utilizarla para crear combinaciones devariables por ejemplo Zt = 4 + εt εt ∼ N(0, 1). Permite los operadores,

+, -, *, /, ^

(suma, resta, producto, potencia) entre otros.

• Para obtener informacion sobre la muestra pinchar en la etiqueta Muestra. En ellaencontraremos, entre otras, las siguientes opciones:

Establecer rangoRecuperar rango completoRestringir, a partir de un criterioetc.

Ejemplo 0.1

Vamos a trabajar con el archivo de datos data4 − 1.gdt ya que en los temas siguientesva a ser uno de los ejemplos que seguiremos. Esta incluido como archivo de muestraen la pestana Ramanathan. Una vez abierto podemos buscar informacion sobre susvariables tal y como se ha indicado. Siguiendo la ruta indicada encontramos la siguienteInformacion del conjunto de datos

DATA4-1: Data on single family homes in University City community

of San Diego, in 1990.

price = sale price in thousands of dollars (Range 199.9 - 505)

sqft = square feet of living area (Range 1065 - 3000)

bedrms = number of bedrooms (Range 3 - 4)

baths = number of bathrooms (Range 1.75 - 3)

15

Page 32: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Donde aparece una somera descripcion de los datos disponibles y su fuente y/o origen.En este caso nos dicen que son datos de hogares de la comunidad universitaria de SanDiego en 1990, de lo que deducimos que son datos de seccion cruzada ya que se refierena un unico ano. Tambien aparecen los nombres de las variables y su descripcion ası comoel rango de cada una (la amplitud del intervalo de valores que toma la variable en lamuestra) y la fuente de los datos. Los estadısticos principales son los siguientes:

Estadısticos principales, usando las observaciones 1 - 14

Variable Media Mediana Mınimo Maximo

price 317,493 291,500 199,900 505,000sqft 1910,93 1835,00 1065,00 3000,00bedrms 3,64286 4,00000 3,00000 4,00000baths 2,35714 2,25000 1,75000 3,00000

Variable Desv. Tıp. C.V. Asimetrıa Exc. de curtosis

price 88,4982 0,278741 0,653457 −0,529833sqft 577,757 0,302344 0,485258 −0,672125bedrms 0,497245 0,136499 −0,596285 −1,64444baths 0,446291 0,189336 0,331609 −1,39015

Donde se nos muestra, para cada variable, su media, mediana, valores mınimo y maximo, desviaciontıpica, coeficiente de variacion (C.V.), coeficiente de asimetrıa y coeficiente de exceso de curtosis.

Los graficos de las variables price y sqft son:

150

200

250

300

350

400

450

500

550

2 4 6 8 10 12 14

pric

e

index

1000

1200

1400

1600

1800

2000

2200

2400

2600

2800

3000

2 4 6 8 10 12 14

sqft

index

Figura 5: Graficos de las observaciones para las variables price y sqft

Volviendo a la pantalla de inicio. Tambien estaban disponibles al iniciar el programa las etiquetasHerramientas y Ayuda. En Herramientas disponemos de instrumentos de analisis muy utiles como:

- En Tablas estadısticas los valores crıticos de las distribuciones Normal Tipificada, t-Studenty F-Snedecor entre otras distribuciones.

16

Page 33: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

- Un buscador de valores p.

- Un calculadora de estadısticos de contraste como la igualdad de medias o varianzas.

- La posibilidad de dibujar distribuciones o curvas.

- Hacer contrastes no parametricos.

- Generar numeros aleatorios.

En Ayuda encontramos al Guıa del usuario y la Guıa de instrucciones.

17

Page 34: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

0.6. Bibliografıa del tema

Referencias bibliograficas basicas:

• Teorica:

[1] Gujarati, D. y Porter, D.C. (2010). Econometrıa. Editorial McGraw-Hill, Madrid. 5a edicion.

[2] Newbold, P., Carlson, W.L. y Thorne, B. (2008). Estadıstica para administracion y economıa.Prentice Hall. Madrid.

[3] Wooldridge, J.M. (2006). Introduccion a la Econometrıa. Ed. Thomson Learning, 2a edicion.

[4] Ruiz Maya, L. y Martın Pliego, F.J. (2005). Fundamentos de inferencia estadıstica, 3a edicion,Editorial AC, Madrid.

• Ejercicios con gretl:

[1] Ramanathan, R. (2002), Instructor’s Manual to accompany, del libro Introductory Econometricswith applications, ed. South-Western, 5th edition, Harcourt College Publishers.

[2] Wooldridge, J. M. (2003), Student Solutions Manual, del libro Introductory Econometrics: Amodern Approach, ed. South-Western, 2nd edition.

Referencias Bibliograficas Complementarias:

[1] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regulez, M.; Zarraga, A. y Zubia, M. (2009). Analisis deregresion con gretl. Open Course Ware. UPV-EHU. (http : //ocw.ehu.es/ciencias− sociales− y −juridicas/analisis− de− regresion− con− greti/Courselisting).

[2] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regulez, M.; Zarraga, A. y Zubia, M. (2009). EconometrıaBasica Aplicada con Gretl. Sarriko On Line 8/09. http://www.sarriko-online.com. Publicacion on-line de la Facultad de C.C. Economicas y Empresariales.

[3] Esteban, M.V. (2007). Estadıstica Actuarial y Analisis de Regresion. Material docente. Serviciode Publicaciones.

[4] Esteban, MV (2008). Estadıstica Actuarial: Regresion Lineal, Sarriko On Line 3/08. Publica-cion on-line de la Facultad de CC. Economicas y Empresariales, UPV/EHU. http://www.sarriko-online.com.

[5] Esteban, M.V. (2007). Coleccion de ejercicios y examenes. Material docente. Servicio de Publi-caciones.

[6] Fernandez, A., P. Gonzalez, M. Regulez, P. Moral, V. Esteban (2005). Ejercicios de Econometrıa.Editorial McGraw-Hill.

[7] Greene, W. (1998), Analisis Econometrico, Ed. Prentice Hall, 3a edicion.

[8] Ramanathan, R. (2002), Introductory Econometrics with applications, Ed. South-Western, 5th.edition.

[9] Verbeek, M. (2004). A Guide to Modern Econometrics. Wiley.

18

Page 35: Estad´ıstica Actuarial y Análisis de Regresión

Tema 1

Variables Aleatorias. Poblacion y muestra

En las clases del tema de Variables Aleatorias vamos a revisar y/o introducir los principales concep-tos de probabilidad. Comenzaremos definiendo el concepto de variable aleatoria discreta y continuaası como sus funciones de distribucion de probabilidad. Revisaremos las propiedades de las funcionesde distribucion de probabilidad prestando especial atencion al concepto de valor esperado y al con-cepto de varianza. En general, no estudiaremos el comportamiento de una unica variable por lo quenecesitaremos introducir el concepto de distribucion de probabilidad conjunta, probabilidad condi-cionada e independencia estadıstica. Dentro de las muchas distribuciones de probabilidad especıficasde que disponemos mostraremos las principales funciones de distribucion de probabilidad utilizadasen Econometrıa: la normal, la normal estandar, la chi-cuadrado, la t-Student y la F-Snedecor.

Los metodos estadısticos centran la atencion en la realizacion de inferencias sobre grandes pobla-ciones de objetos utilizando una pequena muestra de los mismos. Por ello para finalizar el temaintroduciremos el concepto de muestreo aleatorio, estadısticos muestrales y distribuciones en elmuestreo para finalizar mostrando la distribucion del estadıstico media muestral.

A lo largo del tema se han introducido ejemplos ilustrativos de los conceptos a aprender ası comoejercicios basicos que han de ser resueltos por el alumno.

Competencias a trabajar en estas sesiones:

5. Obtener e interpretar los resultados de un analisis estadıstico de datos economicos haciendouso de las fuentes de informacion apropiadas y de los instrumentos informaticos necesarios.

Al final de este tema deberıais ser capaces de:

1. Explicar la diferencia entre una variable aleatoria discreta y una variable aleatoria continuaproporcionando ejemplos de cada una de ellas.

2. Explicar la diferencia entre la funcion de densidad de probabilidad de una variable aleatoriadiscreta y a funcion de densidad de probabilidad de una variable aleatoria continua.

19

Page 36: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

3. Explicar el concepto de media o valor esperado de una variable aleatoria.

4. Calcular la media y varianza de funciones de variables aleatorias.

5. Calcular probabilidades utilizando la distribucion normal.

6. Definir los principales estadısticos muestrales.

7. Obtener la distribucion de la media muestral.

Bibliografıa Recomendada:

Al final del tema teneis recogida la bibliografıa correspondiente. En particular se os recomienda leerlos capıtulos correspondientes a la bibliografıa basica detallados a continuacion:

• Gujarati, D. y Porter, D.C. (2010). Apendice A.

• Newbold, P., Carlson, W.L. y Thorne, B. (2008). Cap. 5 sec. 5.1; 5.2; 5.3 y 5.7; Cap. 6 salvola sec. 6.5 y Cap. 7 sec. 7.1 y 7.2.

• Ramanathan, R. (2002). Cap. 2.

• Ruiz Maya, L. y Martın Pliego, F.J. (2005). Cap. 1

• Wooldridge, J.M. (2006). Apendice B.

20

Page 37: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

1.1. Variables aleatorias y distribuciones de probabilidad. Ejemplos

Una variable aleatoria es una variable que toma valores numericos determinados por el azar.Desde el punto de vista de la notacion es importante distinguir entre una variable aleatoria y losvalores posibles que esta puede tomar. Denotamos en mayuscula, X a la variable aleatoria y con sucorrespondiente minuscula un valor posible de la misma.

Ejemplo 1.1

Se mide la altura de un individuo y el peso corporal, dos variables aleatorias son, X =altura, Y = peso y sus valores posibles por ejemplo serıan: x = 156 cm, x = 179 cm, . . .;

y = 60 kg, y = 87 kg, . . .

Ejemplo 1.2

Consideremos el lanzamiento de un dado. Sea el espacio muestral Ω = 1, 2, 3, 4, 5, 6 lavariable X = No de puntos, puede tomar los valores: x = 1, 2, 3, 4, 5, 6 cada uno conprobabilidad P (x = 1) = P (x = 2) = . . . = P (x = 6) = 1

6 .

Hay que distinguir entre variables aleatorias discretas y variables aleatorias continuas.

Una variable aleatoria es discreta si no puede tomar mas que una cantidad numerable de valores.El conjunto de realizaciones es finito o infinito pero numerable. Por ejemplo el numero de hijos deuna familia, el numero de clientes de un bar en un dıa, el numero de veces que sale cara al lanzardiez veces una moneda al aire. En el Ejemplo 1.2 X es una variable discreta.

Una variable aleatoria es continua si puede tomar cualquier valor de un intervalo. El conjuntode realizaciones es infinitamente divisible y por tanto no numerable. Por ejemplo la renta anual deuna familia, la temperatura, la variacion en el precio de las acciones ordinarias de IBM en un dıa.En el Ejemplo 1.1 las variables peso y altura son variables continuas.

En la practica se consideran variables discretas cuando tiene sentido asignar probabilidades a losresultados individuales posibles. La contabilidad de los sucesos genera observaciones de variablesaleatorias discretas mientras que mediciones como tiempo, renta, generan observaciones sobre va-riables aleatorias continuas. Muchos indicadores economicos y empresariales como las ventas, lainversion, el consumo, los ingresos, etc. pueden representarse como variables aleatorias continuas.

1.1.1. Variables aleatorias discretas y distribuciones de probabilidad

Sea X una variable aleatoria discreta y x uno de sus posibles valores. La probabilidad de que la va-riable aleatoria X tome el valor especıfico x se denota por P (X = x). El conjunto de probabilidadesse denomina funcion de cuantıa o funcion de densidad de probabilidad, fdp y se denota P (x).

Funcion de cuantıa de una variable aleatoria discreta. La funcion de cuantıa, P (x), de unavariable aleatoria discreta X expresa la probabilidad de que X tome el valor x, como una funcion

21

Page 38: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

de x:P (x) = P (X = x), para todos los valores de x.

Dado que la funcion de cuantıa solo toma valoresdistintos de 0 en puntos discretos x, a veces se lallama funcion de masa de probabilidad. Se puederepresentar graficamente. A la derecha se mues-tra la funcion de densidad de una variable dis-creta que toma valores 1, 2 y 3 con probabilidad0,2; 0,3 y 0,5 respectivamente. Ademas se debecumplir 0 ≤ P (x) ≤ 1 para cualquier valor de x,es decir las probabilidades no pueden ser nega-tivas ni superiores a la unidad y

∑x P (x) = 1,

las probabilidades individuales suman 1. 0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0 0,5 1 1,5 2 2,5 3 3,5 4

f(x)

X

Funcion de distribucion o funcion de probabilidad acumulada. La funcion de probabilidad acu-mulada F (a) de una variable aleatoria X expresa la probabilidad de que X no tenga un valorsuperior a a, como una funcion de a. Es decir,

F (a) = P (X ≤ a)

donde la funcion se evalua en todos los valores de a.

Relacion entre la funcion de cuantıa y la funcion de distribucion. Sea X una variable aleatoriacon funcion de cuantıa P (x) y funcion de distribucion F (a). Se puede demostrar que

F (a) =∑

x≤a

P (x) = P (x0) + P (x1) + . . . + P (a).

1.1.2. Variables aleatorias continuas y distribuciones de probabilidad

Muchos indicadores economicos y empresariales como las ventas, la inversion, el consumo, los in-gresos, etc. pueden representarse como variables aleatorias continuas, por ello vamos a dedicar estepunto a su estudio.

Sea X una variable aleatoria y x un valor determinado de la misma. Podemos definir una funcionde densidad de probabilidad para variables aleatorias continuas de manera analoga a la funcion decuantıa para las variables aleatorias discretas. La fdp nos informa de la probabilidad asociada a losresultados posibles de la variable aleatoria. Sin embargo no tiene sentido hablar de la probabilidadde que una variable aleatoria continua tome un valor determinado, usaremos la fdp de la variablealeatoria continua solo para calcular la probabilidad de los sucesos referidos a un intervalo de valores.

Si X es continua la probabilidad asociada a cualquier punto en particular es cero por loque nos referimos a la probabilidad de que X tome valores en un intervalo.

Para calcular probabilidades para variables aleatorias continuas es mas sencillo trabajar con lafuncion de distribucion fd o funcion de probabilidad acumulada.

22

Page 39: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Funcion de distribucion. La funcion de distribucion F (x) de una variable aleatoria continua X

expresa la probabilidad de que X no sea mayor que el valor x, en funcion de x:

F (x) = P (X ≤ x).

Para entender el concepto de funcion de distribucion, se suele recurrir a un sımil fısico: una masaigual a la unidad, distribuida a lo largo del campo de variacion de la variable. En esta situacion,la funcion de distribucion F (x) = P (X ≤ x) proporciona la cantidad de masa que hay en el puntox y a su izquierda hasta el extremo inferior del campo de variacion de la variable. La funcion dedistribucion, por su definicion no puede ser negativa, al ser una probabilidad, ni decreciente, pueses acumulativa. Ademas por ser una probabilidad esta acotada: 0 ≤ F (x) ≤ 1.

Probabilidad de un intervalo utilizando la funcion de distribucion. Sea X una variable aleatoriacontinua que tiene una funcion de distribucion F (x) y sean a y b dos valores posibles de X, siendoa < b. La probabilidad de que X se encuentre entre a y b es

P (a < X ≤ b) = F (b)− F (a)

Una variable aleatoria es continua si su funcion de distribucion, F (x) es continua. Su dominio dedefinicion es todo R y no existe ningun punto de la recta con probabilidad no nula. Suponemos, porsimplicidad, que en las variables aleatorias continuas la funcion de distribucion es derivable en elinterior del dominio. En este caso, a su derivada le llamamos funcion de densidad de probabilidady la denotamos por f(x). La relacion existente entre la funcion de densidad y la de distribucion es:

F (x) =∫ ∞

−∞f(x)dx, f(x) = F ′(x)

La funcion de densidad de probabilidad, f(x), de la variable aleatoria es una funcion que tiene lassiguientes propiedades:

1. f(x) ≥ 0 para todos los valores de x.

2. El area situada debajo de la funcion de densidadde probabilidad f(x), cuando se abarcan todoslos valores de la variable aleatoria, X, es igual ala unidad.

3. El grafico de la derecha representa graficamentela funcion de densidad de cierta variable aleato-ria continua. Sean a y b dos valores posibles dela variable aleatoria X, siendo a < b. En este ca-so la probabilidad de que X se encuentre entrea y b es el area situada debajo de la funcion dedensidad entre estos puntos.

P (a ≤ X ≤ b) =∫ b

af(x)dx

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

-5 -4 -3 -2 -1 0 1 2 3 4 5

f(X

)

X

N(0, 1)

a b

P(a<X<b)

23

Page 40: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

1.1.3. Esperanzas y variables aleatorias

La distribucion de probabilidad de una variable aleatoria contiene toda la informacion sobre propie-dades probabilısticas de una variable aleatoria. Su examen grafico puede servir para describirla, sinembargo, es necesario establecer medidas estadısticas que sirvan para caracterizar la distribucion.Las medidas mas importantes son la media o valor esperado y la varianza.

Media de una variable aleatoria. La media o valor esperado de una variable aleatoria sedenota como E(X) y se define como:

E(X) = µX =

∑x xP (x) si X es discreta

∫x xf(x)dx si X es continua

(1.1)

donde E se conoce como el operador de esperanza matematica.

La media es un promedio ponderado de los valores x que toma la variable donde las ponderacionesson las probabilidades respectivas. La media recoge el centro de gravedad sobre el que se distribuyela variable. Cuanto mayor es la media, mayor es el valor que se espera que tomen las realizacionesde la variable. En la practica la media no tiene porque coincidir con un valor que tome la variable.

Ejemplo 1.3

• Sea X variable aleatoria discreta que puede tomar los valores 1, 2 y 3 con proba-bilidades 0,20; 0,30 y 0,50 respectivamente. Su esperanza matematica es:

E(X) =∑

x

xP (x) = 1 · 0, 20 + 2 · 0, 3 + 3 · 0, 50 = 2, 30.

• Consideremos la variable continua definida por: f(x) = 4x3 ∀ 0 ≤ x ≤ 1. Suesperanza matematica es:

E(X) =∫

xxf(x)dx =

∫ 1

0x4x3dx = 4

[x5

5

]1

0

=45.

Varianza de una variable aleatoria. La varianza de una variable aleatoria se denota comoV ar(X) = σ2

X y se define como:

V ar(X) = σ2X = E[(X − µX)2] =

∑x(x− µX)2P (x) si X es discreta.

∫x(x− µX)2f(x)dx si X es continua.

(1.2)

La varianza es una medida de dispersion de la distribucion, siendo la dispersion la mayor o menorvariabilidad de los valores de la variable aleatoria alrededor de su valor medio.

24

Page 41: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

La varianza tambien puede expresarse como:

σ2X = E(X2)− µ2

X . (1.3)

De donde trabajando la expresion anterior obtenemos un resultado util: E(X2) = σ2X + µ2

X .

La desviacion tıpica o estandar es la raız cuadrada positiva de la varianza y se denota porσX =

√σ2

X .

La varianza es una medida de dispersion, siendo la dispersion la mayor o menor variabilidad de losvalores de la variable aleatoria alrededor de su valor medio. Si la varianza es pequena sera porquelas desviaciones de la variable aleatoria en torno a su valor medio son pequenas, con lo que lamedia sera representativa del conjunto de valores de la distribucion y por consiguiente, la dispersionsera pequena. Si la varianza es grande, la dispersion sera grande y la media de la variable aleatoriano sera representativa. Cuanto mayor sea la varianza mayor es la probabilidad de obtener valoresalejados de µX .

Ejemplo 1.4

Supongamos que X es la variable rendimiento de una cartera de valores. µX mide elrendimiento, en media, que esperamos obtener de esa cartera y σ2

X nos da la dispersionde los posibles rendimientos. Si σ2

X es grande entonces tendremos una gran probabilidadde obtener rendimientos mucho mayores o mucho menores de lo esperado µX . Por lotanto σ2

X mide el riesgo de la cartera. Cuanto mayor es σ2X mas arriesgada es la cartera.

La media y la varianza constituyen dos importantes indicadores sinteticos de una distribucion deprobabilidad. La media es una medida del centro de la distribucion mientras que la varianza es unamedida de su dispersion. Otras dos medidas que tambien se utilizan habitualmente para describiruna distribucion de probabilidad desde el punto de vista de su forma son el coeficiente de asimetrıay el coeficiente de curtosis.

Asimetrıa. El coeficiente de asimetrıa es:

γ1 =E[(X − µX)3]

σ3=

µ3

σ3(1.4)

donde µ3 es el momento de orden 3 respecto a la media. Si γ1 = 0 la distribucion es simetrica y portanto las desviaciones por la derecha tienen el mismo peso que las desviaciones por la izquierda. Siγ1 > 0 la distribucion es asimetrica (+). Si γ1 < 0 la distribucion es asimetrica (−).

Curtosis. La curtosis hace referencia al apuntamiento o achatamiento de una distribucion de pro-babilidad cuando se compara con la normal. El coeficiente de curtosis se define:

E[(X − µX)4]σ4

=µ4

σ4.

25

Page 42: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

El coeficiente de curtosis es un indicativo del peso que en la distribucion tienen los valores masalejados del centro, tiene que ver con el grosor de las colas. Para evaluar la curtosis es necesarioque la distribucion tenga perfil campaniforme y sea simetrica o moderadamente asimetrica ya quela curtosis trata de analizar la zona central de la distribucion simetrica o no; la mayor o menorpresencia de valores de la variable aleatoria alrededor de su valor medio, es decir en su zona central,dara lugar a una distribucion mas o menos apuntada. En general se evalua el exceso de curtosis:

γ2 =µ4

σ4− 3. (1.5)

Esta medida esta basada en la distribucion normal, de su misma varianza, cuyo exceso de curtosises cero. Si γ2 = 0 la distribucion tendra el perfil de la distribucion normal y se le dice mesocurtica.Esto quiere decir que tiene las colas igual de gruesas que la distribucion normal, la cual veremosmas adelante. Mas concentracion en las colas indica colas mas densas que la normal de su mismavarianza. Si γ2 > 0 la distribucion es mas apuntada que la distribucion normal y se le denominaleptocurtica. Si γ2 < 0 la distribucion es mas achatada que la distribucion normal y se le denominaplaticurtica.

Coeficiente de variacion. El coeficiente de variacion es util para comparar la volatilidad de varia-bles que tienen una esperanza matematica diferente como por ejemplo, al comparar la volatilidad dedos ındices bursatiles distintos. Considera la desviacion tıpica como porcentaje del nivel alrededordel cual fluctua la variable

Coeficiente de variacion = 100σX

µX. (1.6)

Ejercicio 1.1

Calcular media, varianza y desviacion tıpica de la variable aleatoria discreta X cuyafuncion de probabilidad es:

x 0 1 2 3P(x) 0,1 0,3 0,4 0,2

1.1.4. Dos variables aleatorias

Para responder a preguntas relativas a dos o mas variables aleatorias debemos conocer su funcionde densidad conjunta o funcion de cuantıa conjunta, segun sean discretas o continuas. La funcion dedensidad conjunta describe las probabilidades de que se puedan producir combinaciones de valoresde ambas variables. Si las variables aleatorias X e Y son discretas, a cada posible par de resultados(xi, yj) podemos asignar una probabilidad P (xi, yj). El conjunto de probabilidades es la funcion decuantıa conjunta, cumpliendose que 0 ≤ p(xi, yj) ≤ 1 y

∑i

∑j p(xi, yj) = 1.

Si las variables aleatorias son continuas, su distribucion conjunta se recoge mediante la funcion dedensidad conjunta f(x, y). Si las dos variables siguen una distribucion normal, la forma tıpica de sufuncion de densidad conjunta se encuentra en la Figura 1.1.

26

Page 43: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Figura 1.1: Distribucion normal bivariante

El volumen total recogido bajo esta superficie es la masa de probabilidad total que es igual a launidad, es decir,

∫x

∫y f(x, y) dx dy = 1. Ademas, la funcion no toma valores negativos, f(x, y) ≥ 0.

Ası, el volumen debajo del rectangulo definido por dos puntos (a, b) mide la probabilidad de que X

tome valores menores o iguales que a e Y menores o iguales que b. Es decir,

P (X ≤ a, Y ≤ b) =∫ a

−∞

∫ b

−∞f(x, y) dx dy

Por ejemplo, el volumen recogido bajo la superficie marcada en la Figura 1.1 es la probabilidad deque X ≤ −2 e Y ≤ 5.

La funcion de densidad marginal de cada variable puede obtenerse mediante integracion. Ası:

Marginal de X: fX(x) =∫ ∞

−∞f(x, y) dy

Marginal de Y: fY (y) =∫ ∞

−∞f(x, y) dx (1.7)

La distribucion conjunta de dos variables aleatorias se puede resumir mediante:

• El centro de gravedad de cada variable, es decir, las medias (µX , µY ), que se obtienen de lasdistribuciones marginales recogidas en (1.7).

• Medidas de dispersion de cada variable alrededor de su media, por ejemplo, las varianzas deX e Y , σ2

X y σ2Y , que se derivan de las distribuciones marginales recogidas en (1.7).

• Medida de la relacion lineal entre las dos variables aleatorias, para lo que se utiliza la covarianzaσXY . La covarianza entre dos variables mide el signo de la asociacion entre las fluctuacionesque experimentan ambas. Nos dice si cuando una de ellas esta por encima de su valor dereferencia, por ejemplo, su media, la otra variable tiende a estar por encima o por debajo desu respectiva media:

Cov(X, Y ) = σXY = E[(X − µX)(Y − µY )] = E(XY )− µXµY .

27

Page 44: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

o bien el coeficiente de correlacion entre las variables,

corr(X, Y ) = ρXY =Cov(X,Y )

desv(X)desv(Y )=

σXY

σXσY∈ [−1, 1].

La covarianza nos da el tipo de relacion lineal existente entre dos variables + o −. Ası, siσXY = ρXY = 0 se dice que las variables X e Y estan incorrelacionadas. El coeficiente decorrelacion mide el grado de asociacion lineal entre dos variables. Su valor se encuentra entre−1 y 1, un valor de −1 indica asociacion perfecta negativa y un valor de 1 asociacion perfectapositiva.

El vector de medias µ y la matriz de varianzas y covarianzas denotada por Σ o V , son dos importantesestadısticos de la variable aleatoria (X,Y ):

µ =(

µX

µY

)Σ =

(V (X) Cov(X,Y )

Cov(X, Y ) V (Y )

)=

(σ2

X σXY

σXY σ2Y

)

Distribucion condicionada. Al estudiar un conjunto de variables, interesa evaluar la posibilidadde que un suceso ocurra dado que otro suceso ha tenido lugar. Por ejemplo, ¿cual es la probabilidadde que una mujer casada y con hijos en edad escolar participe en el mercado de trabajo? La pro-babilidad condicionada permite responder este tipo de preguntas. Si las variables son discretas,se define la funcion de cuantıa condicional de Y dado que la variable aleatoria X toma el valor xi

como:P (Y = yj |X = xi) =

P (Y = yj , X = xi)P (X = xi)

=p(xi, yj)∑j p(xi, yj)

.

para P (X = xi) > 0.

Si las variables son continuas, se define la funcion de densidad de Y condicionada a que la variablealeatoria X tome el valor x (para f(x) > 0):

f(y|X = x) =f(x, y)f(x)

.

De esta forma se obtiene una nueva distribucion, con las propiedades ya vistas. Dos momentos deinteres de esta distribucion se denominan media y varianza condicionada de Y para el valor dadode X = x, y se denotan E(Y |X = x) y V ar(Y |X = x).

Independencia. Dos variables aleatorias X y Y son independientes o estan independientementedistribuidas, si conocido el valor que toma una de ellas, no aporta ninguna informacion sobre elvalor que puede tomar la segunda. Si X e Y son independientes si y solo si su funcion de densidadconjunta es igual al producto de sus funciones de densidad marginales

f(x, y) = f(x)× f(y) −∞ < x, y < ∞.

Ademas, se tiene que f(y|X = x) = fY (y). Se demuestra que si X e Y son independientes, entoncesCov(X, Y ) = 0. Tambien se demuestra que, si las variables X e Y se distribuyen conjuntamentesegun una normal y Cov(X, Y ) = 0, entonces X e Y son independientes.

28

Page 45: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

En el caso de distribuciones discretas las variables son independientes si

P (X = x, Y = y) = P (X = x)× P (Y = y).

Ejemplo 1.5

Distribucion de probabilidad conjunta de dos variables aleatorias discretas:Supongamos que queremos conocer la probabilidad de que un individuo seleccionadoaleatoriamente de una poblacion posea una licenciatura y haya tenido rentas salarialesen el ano 2003. La Tabla 5.2 recoge la funcion de probabilidad conjunta de dos variables.La variable X caracteriza los niveles de educacion que pueden alcanzar los individuos.Toma los valores 1, 2, 3, 4 segun el grado de estudios alcanzado por el individuo. El valor1 indica alcanzar educacion secundaria obligatoria, 2 indica alcanzar bachiller, 3 indicaposeer educacion superior y 4 tener un master. La variable Y es una variable dicotomicaque toma valor 1 si el individuo ha tenido rentas salariales en el ano 2003 y 0 en casocontrario. Esta tabla permite obtener los siguientes resultados:

x

y 1 2 3 4

0 0,19 0,06 0,04 0,021 0,28 0,19 0,14 0,08

Tabla 1.1: Funcion de densidad de probabilidad conjunta f(x, y)

• Probabilidad conjunta:La probabilidad de que una persona seleccionada al azar tenga estudios superiores yhaya obtenido rentas salariales en el ano 2003 es P (X = 3, Y = 1) = f(3, 1) = 0, 14.

• Distribuciones marginales:La distribucion marginal de X se define: fX(x) =

∑y f(x, y) para cada valor que X

puede tomar. La distribucion marginal de Y se define: fY (y) =∑

x f(x, y) para cadavalor que Y puede tomar.Por tanto fY (y) =

∑4x=1 f(x, y) y = 0, 1 luego fY (0) =

∑4x=1 f(x, y) = 0, 19 + 0, 06 +

0, 04 + 0, 02 = 0, 31.En general las funciones de distribucion conjunta y marginales se suelen mostrar comoa continuacion:

x

y 1 2 3 4 fY (y)

0 0,19 0,06 0,04 0,02 0,311 0,28 0,19 0,14 0,08 0,69

fX(x) 0,47 0,25 0,18 0,10 1

Tabla 1.2: Distribuciones marginales para X e Y

29

Page 46: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

• Probabilidad condicionada:Podemos contestar a preguntas como ¿cual es la probabilidad de que un individuo tengarenta salarial en el ano 2003 dado que tiene estudios superiores? En este caso debemosde utilizar la funcion de densidad de Y condicionada a X: f(y|x) = P (Y = y|X = x), enrealidad el efecto de condicionar es reducir el conjunto de posibles resultados. Dada laTabla 1.2 consideramos solo el 18 % de la poblacion con tıtulo superior. La tabla siguienterecoge la probabilidad condicionada de Y dado X = 3. Dada la tabla la probabilidadde seleccionar a un individuo con renta salariales dado que tenga estudios superiores esde 0,78. Notar sin embargo que la probabilidad de seleccionar a un individuo, de entretoda la poblacion, que tenga rentas salariales es de 0,69.

y f(y|X = 3)

0 0,04/0,18=0,221 0,14/0,18=0,78

Ejercicio 1.2

En la tabla se recoge la funcion de densidad conjunta de dos variables aleatorias discretasX e Y . Se pide:

1. La funcion de densidad de probabilidad marginal de Y .

2. La funcion de densidad de probabilidad conjunta de Y dado que X = 2.

3. La covarianza de X e Y .

4. ¿Son las variables independientes?

Y

1 3 9

2 1/8 1/24 1/12X 4 1/4 1/4 0

6 1/8 1/24 1/12

1.1.5. Mas de dos variables

Los resultados anteriores se pueden generalizar a un conjunto de n variables, X1, X2, . . . , Xn, quese recogen en un vector

X =

X1

X2...

Xn

La distribucion conjunta de estas variables se resume en el vector de medias E(X) o ~µ y la matrizde varianzas y covarianzas V (X) o ΣX . Ası:

30

Page 47: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

E(X) = ~µ =

E(X1)E(X2)

...E(Xn)

=

µ1

µ2...

µn

y

ΣX =

V (X1) Cov(X1, X2) . . . Cov(X1, Xn)Cov(X1, X2) V (X2) . . . Cov(X2, Xn)

......

. . ....

Cov(X1, Xn) Cov(X2, Xn) . . . V (Xn)

=

σ21 σ1,2 . . . σ1,n

σ1,2 σ22 . . . σ2,n

......

. . ....

σ1,n σ2,n . . . σ2n

donde ΣX es una matriz cuadrada de orden n, simetrica y definida no negativa. Esto implica quelos elementos de la diagonal principal son no negativos, σ2

i ≥ 0, ∀i.Si las variables son independientes entre sı, entonces estan incorrelacionadas, es decir, σi,j = 0, ∀i 6=j, por lo que la matriz ΣX es diagonal:

ΣX =

σ21 0 . . . 00 σ2

2 . . . 0...

.... . .

...0 0 . . . σ2

n

Si, ademas, X1, . . . , Xn siguen la misma distribucion, con la misma media y la misma varianza:

E(X) =

µµ...µ

ΣX =

σ2 0 . . . 00 σ2 . . . 0...

.... . .

...0 0 . . . σ2

= σ2I

entonces se dice que son variables aleatorias identica e independientemente distribuidas con mediaµ y varianza σ2 y se denota Xi ∼ iid(µ, σ2), ∀i = 1, . . . , n.

Si X1, . . . , Xn son variables aleatorias normales, se dice que el vector X sigue una distribucionnormal multivariante, y queda caracterizada por su vector de medias ~µ y su matriz de varianzasy covarianzas ΣX . Se denota X ∼ N(~µ,ΣX). Si ademas las variables son independientes, con mediay varianza comun, se denota Xi ∼ NID(µ, σ2), i = 1, . . . , n.

Propiedades de la esperanza matematica

• La esperanza matematica de una constante es igual a la misma constante: E(c) = c

• La esperanza matematica de una suma de variables aleatorias es igual a la suma de las espe-ranzas matematicas de cada una de las variables aleatorias:

E(X1 ±X2 ± . . .±Xn) = E(X1)± E(X2)± . . .± E(Xn) = µ1 ± µ2 ± . . .± µn.

31

Page 48: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

• La esperanza matematica de un producto de variables aleatorias es igual al producto de lasesperanzas de cada una de las variables aleatorias, si y solo si son independientes:

E(X1 ·X2 ·X3 · . . . ·Xn) = E(X1) · E(X2) · E(X3) · . . . · E(Xn) = µ1 · µ2 · µ3 · . . . · µn.

• Notar que si X e Y son independientes E(XY ) = E(X) ·E(Y ) pero E(X|Y ) 6= E(X)E(Y ) aunque

X e Y lo sean.

• El valor medio, o esperanza matematica, de las desviaciones de los valores de la variablealeatoria respecto a su media es cero. Sea E(X) = µ entonces E(X − µ) = 0.

• Si a una variable aleatoria se le suma una constante su esperanza matematica queda modificadaen esa misma constante: E(X + c) = E(X) + c = µ + c.

• Si una variable aleatoria se multiplica por una constante su esperanza matematica quedamultiplicada por esa misma constante, E(X · c) = c · E(X) = c · µ.

Propiedades de la varianza

• La varianza es siempre no negativa.

• Varianza de una suma de variables aleatorias:

V ar(X ± Y ) = V ar(X) + V ar(Y )± 2Cov(X, Y ) = σ2X + σ2

Y ± 2σXY .

• Generalizando:

V ar(X1 +X2 + . . .+Xn) = V ar(X1)+V ar(X2)+ . . .+V ar(Xn)+2n−1∑

i=1

n∑

j=i+1

Cov(Xi, Xj) =

= σ21 + σ2

2 + . . . + σ2n + 2

n−1∑

i=1

n∑

j=i+1

σXiXj .

• Si X1, X2, . . . , Xn son independientes:

V ar(X1 + X2 + . . . + Xn) = V ar(X1) + V ar(X2) + . . . + V ar(Xn) = σ21 + σ2

2 + . . . + σ2n.

• Si a una variable aleatoria se le suma una constante, su varianza no varıa: V ar(X + c) =V ar(X) ya que V ar(c) = 0.

• V ar(cX) = c2V ar(X).

• V ar(aX + bY ) = a2V ar(X) + b2V ar(Y ) + 2 abCov(X, Y ).

32

Page 49: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Ejemplo 1.6

Sea X una variable aleatoria continua de media µX y varianza σ2X y sean a y b dos

constantes cualesquiera. La media y varianza de la transformacion lineal W = a + bX

son:E(W ) = µW = E(a + bX) = a + bE(X) = a + b µX .

V ar(W ) = σ2W = V ar(a + bX) = b2σ2

X .

Ejercicio 1.3

Sea X una variable aleatoria continua de media µX y varianza σ2X y sean a y b dos

constantes cualesquiera. Calcular la media y varianza de las siguientes funciones:

• Y = a.

• Z = bX.

• W = X−µXσX

.

Ejercicio 1.4

Sea X una variable aleatoria discreta que toma valores 0, 1, 2 con probabilidad P (X =0) = 0, 30;P (X = 1) = 0, 60;P (X = 2) = 0, 10 respectivamente. Se pide:

1. Buscar E(X), E(X2), V (X).

2. El valor esperado y varianza de g(X) = 3X + 2.

Ejercicio 1.5

Sea la variable aleatoria X el precio de las acciones de la empresa Biltox y sea la variablealeatoria Y el precio de las acciones de la empresa Baltat. El Sr. Martınez ha comprado50 y 80 acciones de cada empresa respectivamente. El valor de mercado de la carteradel Sr. Martınez es W = 50X + 80Y . Calcular el valor medio y varianza de la carterasiendo X ∼ (µX , σ2

X) , Y ∼ (µY , σ2Y ) y σXY = cov(X, Y ).

Ejemplo 1.7

Supongamos que el Sr. Alonso quiere crear una cartera de valores con acciones de dosempresas. Dispone de un capital de 3000 e para invertir en acciones de las dos empresascuyos rendimientos por e invertido son las variables aleatorias X e Y , independientesentre sı y con igual media, µ, y varianza, σ2. ¿Como deberıa construir el Sr. Alonso lacartera para minimizar el riesgo de perdida?

33

Page 50: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Supongamos que asignamos α euros a la inversion en una de las empresas y (3000− α)a la otra. El rendimiento total de la inversion es:

r = α X + (3000− α) Y.

El rendimiento esperado de la inversion es:

E(r) = α E(X) + (3000− α) E(Y ) = αµ + (3000− α)µ = 3000µ

luego el rendimiento esperado de la inversion no depende de como este este asignadosino exclusivamente de la media de los rendimientos µ. Calculamos ahora la varianzaesperada de la inversion:

V (r) = α2 V (X)+(3000−α)2 V (Y ) = α2σ2+(3000−α)2σ2 = (2α2−6000α+9000000)σ2.

Si se asigna α = 0 o α = 3000, asignando toda la inversion a acciones en una de las dosempresas la varianza de la inversion es 9000000σ2. Si se asigna la mitad del dinero, 1500e , a invertir en cada empresa, la varianza del rendimiento es la mas pequena posible4500000σ2. Luego repartiendo la inversion entre las dos empresas reduce la varianzadel rendimiento de la inversion y por lo tanto puede reducir los efectos de que losrendimientos de las acciones de una de las empresas sean muy bajos o muy altos. Si elSr. Alonso solo esta interesado en el rendimiento esperado que cantidad de dinero invierteen cada empresa no es relevante, pero si ademas de estar interesado en el rendimientoesperado tambien le preocupa el riesgo de la inversion puede minimizarlo dividiendo suinversion a partes iguales en acciones de las dos empresas. Cualquier otra combinacionaumenta el riesgo de la inversion.

1.2. La distribucion normal

Algunas situaciones experimentales dan lugar a distribuciones de probabilidad especıficas. Sin em-bargo, en economıa, en la mayorıa de los casos, las distribuciones utilizadas son simplemente modelosde los fenomenos observados. Una de las distribuciones mas utilizadas en economıa y en las apli-caciones empresariales es la distribucion normal ya que se adecua a una gran variedad de variablesaleatorias, por ejemplo: las ventas de una empresa, la produccion, los precios de las acciones y bonos,los precios de viviendas, la renta, etc.

La funcion de densidad de una variable aleatoria X con distribucion normal de media µ ydesviacion tıpica σ es:

f(x) =1√

2πσ2e−(x−µ)2/2σ2

para −∞ < x < ∞. (1.8)

La distribucion normal representa una gran familia de distribuciones, cada una con una especifica-cion unica de los parametros µ y σ2. La media de la variable aleatoria es: E(X) = µ. La varianza dela variable aleatoria es: V (X) = E[(X−µ)2] = σ2. La forma de la funcion de densidad es una curvasimetrica en forma de campana centrada en su media µ y exceso de curtosis cero. Habitualmentese denota

X ∼ N(µ, σ2).

34

Page 51: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

-6 -4 -2 0 2 4 6 8 10 12

f(X

)

X

Igual varianza y distinta media

N(0, 1)N(6, 1)

0

0,02

0,04

0,06

0,08

0,1

-40 -30 -20 -10 0 10 20 30 40 50

f(X

)

X

Igual media y distinta varianza

N(3, 81)N(3, 16)

Figura 1.2: Ejemplos de funcion de densidad de la distribucion normal

La Figura 1.2 muestra ejemplos de la funcion de densidad de la distribucion normal. A la izquierdase muestran dos funciones de densidad normal con igual varianza, σ2 = 1, y distinta media. Notarque cuanto mayor es la media, mayor es el valor que se espera que tomen las realizaciones delexperimento. En la derecha se muestran dos distribuciones con igual media y distinta varianza. Notarque cuanto menor es la varianza de la variable, mayor es la probabilidad concentrada alrededor dela media.

Funcion de distribucion acumulada de la distribucion normal. Supongamos que X ∼ N(µ, σ2).La funcion de distribucion acumulada es

F (x0) = P (X ≤ x0) (1.9)

y se representa por el area debajo de la funcion de densidad normal a la izquierda de x0 en elgrafico de la izquierda en la Figura 1.3. A la derecha se muestra la la forma general de la funcionde distribucion acumulada.

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

-5 -4 -3 -2 -1 0 1 2 3 4 5

f(X

)

X

N(0, 1)

Xo 0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

-4 -3 -2 -1 0 1 2 3 4

f(X

)

X

FDA normal

Figura 1.3: Funcion de distribucion acumulada de la distribucion normal

35

Page 52: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Probabilidades de intervalos de variablesaleatorias normales. Sea X una varia-ble aleatoria con funcion de distribucionF (x0) y a y b son dos posibles valores dela misma tal que a < b.. Entonces:

P (a < X < b) = F (b)− F (a) (1.10)

La probabilidad es el area situada debajode la correspondiente funcion de densidadentre a y b como muestra la Figura de laderecha.

0

0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,08

-25 -20 -15 -10 -5 0 5 10 15 20 25

f(X

)

X

N(0, 25)

a b

Ejercicio 1.6

Sea X ∼ N(µ, σ2) se pide obtener la distribucion de la variable Y = a + bX siendo a yb dos constantes cualesquiera.

Ejercicio 1.7

Sean X ∼ N(50, 10) e Y ∼ N(20, 40). La covarianza entre ambas es 0,5. Calcula lamedia y varianza de la variable aleatoria Z = 5X − 4Y .

1.2.1. La distribucion normal estandarizada

El calculo de la probabilidad de cualquier distribucion normal de media y varianza determinadas esengorroso. Sin embargo es mas sencillo si la convertimos en una variable normal estandarizada, esdecir de media cero y varianza 1. Para ello debemos utilizar la transformacion

Z =X − µ

σ

donde X ∼ N(µ, σ2). Habitualmente la funcion de densidad de la variable Z normal estandarizadase denota por φ(Z):

φ(Z) =1√2π

e−Z2/2. (1.11)

Una vez realizada la transformacion podemos utilizar la tabla normal estandar para calcular lasprobabilidades de cualquier variable aleatoria distribuida normalmente. Como la forma de la dis-tribucion no varıa bajo transformaciones lineales, no es necesario tabular la distribucion para otrosvalores de µ y σ. Para cualquier variable normalmente distribuida se cumple:

P (a < X < b) = P

(a− µ

σ<

X − µ

σ<

b− µ

σ

).

36

Page 53: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Ademas dado que la distribucion es simetrica Φ(−Z) = 1 − Φ(Z) donde Φ(Z) denota funcion dedistribucion de la variable Z normal estandarizada. Por tanto las tablas de la distribucion mostraranunicamente la cola positiva de la distribucion. A continuacion mostraremos como utilizar las tablasde la normal estandar para el calculo de probabilidades. La tabla da los valores de

Φ(Z) = P (Z ≤ z) (1.12)

correspondientes a valores no negativos de z. Ver la Figura 1.4 para los ejemplos siguientes:

• La probabilidad acumulada de un valor de Z = 1, 65 es Φ(1, 65) = P (Z ≤ 1, 65) = 0, 9505.

• Dado que la distribucion es simetrica la probabilidad de que Z > −1, 65 es tambien 0, 9505;P (Z > −1, 65) = P (Z ≤ −1, 65) = 0, 9505.

• La probabilidad acumulada de un valor Z = −1, 65 es Φ(−1, 65) = 1−Φ(1, 65) = 1−0, 9505 =0, 0495.

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

-5 -4 -3 -2 -1 0 1 2 3 4 5

f(X

)

X

N(0, 1)

1,65

0,9505

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

-5 -4 -3 -2 -1 0 1 2 3 4 5

f(X

)

X

N(0, 1)

1-F(1,65)=1-0,0495=0,9505

F(-1,65)=0,0495

Figura 1.4: Probabilidades correspondientes a Z = 1, 65 y Z = −1, 65 en la distribucion normalestandar

Ejemplo 1.8

Suponiendo X ∼ N(8, 4) ¿Cual es la probabilidad de que X tome un valor entre X1 = 4y X2 = 12? ¿Cual es la probabilidad de que exceda de 12?

Para calcular la probabilidad obtenemos los valores de Z tal que:

Z1 =X1 − µ

σ=

4− 82

= −2 Z2 =X2 − µ

σ=

12− 82

= +2.

Luego P (4 < X < 12) = P (−2 < Z < 2) = Φ(2) − Φ(−2) = Φ(2) − (1 − Φ(2)) =0, 9772 − (1 − 0, 9772) = 0, 9544. La probabilidad de que X exceda el valor 12 es lamisma que la probabilidad de que Z exceda de 2, luego (P (X > 12) = P (Z > 2) =P (Z < −2) = 1− 0, 9772 = 0, 0228.

37

Page 54: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Ejemplo 1.9

Un inversor tiene una cartera cuyo valor medio es de 650.000e y su desviacion tıpicaes 18.000e. ¿Cual es la probabilidad de que el valor de la cartera este entre 632.000e y686.000e?Para calcular la probabilidad de que el valor de su cartera este entre 632.000e y 686.000eutilizaremos el resultado:

P (a < X < b) = P

(a− µ

σ<

X − µ

σ<

b− µ

σ

)=

= P

(a− µ

σ< Z <

b− µ

σ

)= F

(b− µ

σ

)− F

(b− µ

σ

).

Tenemos que calcular primero probabilidad de la cartera tenga una valor de 632.000 y686.000e respectivamente.

Z(632000) =632000− 650000

18000= −1.

Z(686000) =686000− 650000

18000= 2.

Luego la probabilidad de que el valor de la cartera este entre 632.000e y 686.000e esigual a la probabilidad de que Z este entre −1 y 2.

P (632000 ≤ X ≤ 686000) = P(

632000− 65000018000 < Z < 686000− 650000

18000

)=

= P (−1 ≤ Z ≤ 2) = Φ(2)− Φ(−1) == Φ(2)− (1− Φ(1)) == 0, 9772− (1− 0, 8413) = 0, 8185.

luego la probabilidad de que el valor de la cartera este entre 632.000e y 686.000e esdel 81, 85%.

Ejemplo 1.10

Supongamos dos inversiones cuya funcion de incertidumbre es una distribucion normal.La inversion A ∼ N(10,4, (1,2)2) y la inversion B ∼ N(11, (4)2), ¿cual se debe elegirpara maximizar la probabilidad de generar un rendimiento de al menos un 10 %?

En la inversion A la probabilidad de que el rendimiento sea mas del 10% es:

P

(Z >

10− 10, 41, 2

)= P (Z > −0, 33) = P (Z < 0,33) = Φ(0, 33) = 0, 6293.

En la inversion B la probabilidad de que el rendimiento sea mas del 10% es:

P

(Z >

10− 114

)= P (Z > −0, 25) = P (Z < 0, 25) = Φ(0, 25) = 0, 5987.

La inversion A maximiza la probabilidad, luego es mas interesante que la B.

38

Page 55: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Ejercicio 1.8

La sociedad MaxBolsa gestiona una cartera con 20 acciones de la empresa A y 30 accionesde la empresa B. Denotamos por X al precio de las acciones de la empresa A tal queX ∼ N(25, 81). Denotamos por Y al precio de las acciones de la empresa A tal queY ∼ N(40, 121). La correlacion entre los precios de las acciones de -0,40. ¿Cual es laprobabilidad de que el valor de la cartera sea mas de 2000 e ? Si la correlacion entre losprecios es de 0,40, ¿cual es la probabilidad de que el valor de la cartera sea mas de 2000e ? ¿Cual es la relacion entre el riesgo de una cartera y la correlacion de los activos quela componen?

Derivadas de la distribucion normal existen otras muchas distribuciones. Tres de ellas, las distribu-ciones chi-cuadrado, t-Student y F-Snedecor, son muy utiles en econometrıa. Surgen como sumas den variables adicionales. Estas tres distribuciones tienen asociados uno o dos parametros de nomina-dos grados de libertad que en nuestros terminos seran el numero de variables en la suma relevante.

1.2.2. La distribucion chi-cuadrado

• Si Z ∼ N(0, 1), entonces X = Z2 ∼ χ2(1) y se lee X sigue una distribucion chi-cuadrado con

un grado de libertad. Esta es una distribucion asimetrica, solo tiene cola positiva, con media 1 yvarianza 2.

• Sea Zi ∼ NID(0, 1) i = 1, . . . , n variables aleatorias independientes con distribucion normalestandar, entonces:

X =n∑

i=1

Z2i ∼ χ2

(n) (1.13)

y se dice que X es una variable aleatoria chi-cuadrado con n grados de libertad. Es una distribucionasimetrica, con media igual a n y varianza 2n.

Para valores negativos de X, f(x) = 0 y la forma general de su funcion de densidad se muestra en laFigura 1.5. Existen tablas que proporcionan la probabilidad acumulada hasta un punto P (X ≤ x)en funcion de los grados de libertad. A la hora de buscar en las tablas es necesario una tabladistinta de la distribucion chi-cuadrado para cada n. En la tabla correspondiente aparecen losvalores de la distribucion correspondientes a diferentes puntos de corte especıficos en la unica colade la distribucion para distintos valores de los grados de libertad.

1.2.3. La distribucion t-Student

Sean Z ∼ N(0, 1) y X ∼ χ2(n) independientes entonces:

Z√X/n

∼ t(n) (1.14)

39

Page 56: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

0

0,05

0,1

0,15

0,2

0,25

0 2 4 6 8 10 12 14 16 18 20

f(X

)

X

Chi-cuadrado(3)Chi-cuadrado(6)

n=3

n=6

Figura 1.5: Funcion de densidad de la distribucion Chi-cuadrado

y se lee distribucion t-Student con n grados de libertad. La Figura 1.6 incluye ejemplos de la funcionde densidad de la t-Student comparandolas con la distribucion normal estandar:

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-5 -4 -3 -2 -1 0 1 2 3 4 5

f(X

)

X

t(2)t(4)

t(25)N(0, 1)

Figura 1.6: Funcion de densidad de la distribucion t-Student

La distribucion t-Student tiene la misma forma que la distribucion normal, es campaniforme ysimetrica pero las colas son mas anchas, el exceso de curtosis es positivo. A medida que aumentanlos grados de libertad la distribucion t converge a la normal estandar. En su tabla correspondienteaparecen los valores de la distribucion correspondientes a diferentes puntos de corte especıficos enlas colas para distintos valores de los grados de libertad.

1.2.4. La distribucion F-Snedecor

Sean X1 ∼ χ2(n1) y X2 ∼ χ2

(n2) independientes, entonces

X1/n1

X2/n2∼ F(n1, n2) (1.15)

y se lee distribucion F-Snedecor con n1 y n2 grados de libertad. La Figura 1.7 muestra su funcionde densidad para distintos grados de libertad. Las tablas de la distribucion F-Snedecor se computanpara cada par de valores (n1, n2), donde n1 son los grados de libertad del numerador y n2 son

40

Page 57: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

los grados de libertad del denominador. En general solo se tabulan para valores especıficos como95% y 99 % de la cola superior. A medida que aumentan los grados de libertad del denominador ladistribucion n1F(n1,n2) converge a la una χ2

(n1).

0

0,2

0,4

0,6

0,8

1

1,2

0 0,5 1 1,5 2 2,5 3 3,5 4 4,5

f(X

)

X

F(15, 15)F(15, 100)F(100, 15)

Figura 1.7: Funcion de densidad de la distribucion F-SnedecorHay que notar la relacion entre la distribucion t y la distribucion F :

Si t ∼ t(n) entonces t2 ∼ F(1, n) (1.16)

Ejercicio 1.9

Suponiendo X ∼ N(3, 9) ¿Cual es la probabilidad de que X tome un valor entre X1 = 4y X2 = 6?

1.3. Muestreo de una poblacion. Muestras aleatorias

En este punto vamos a construir modelos de probabilidad para distintos estadısticos calculados apartir de datos muestrales. Estos modelos de probabilidad se llaman distribuciones en el muestreoy se utilizan para desarrollar diversos metodos de inferencia estadıstica. Los metodos estadısticos secentran en la realizacion de inferencia sobre grandes poblaciones de objetos utilizando una pequenamuestra de objetos.

En general el analisis estadıstico y el analisis econometrico se basan en el estudio de una muestra.Medir una variable para la poblacion en ocasiones es imposible y en otras ocasiones muy costoso.Pensemos que ejemplos de una poblacion son todas las familias que viven en un paıs, region o ciudad;el numero de hogares de una autonomıa, todas las empresas que declaran su actividad en el sectorservicios, etc. Luego la poblacion son todos los elementos objeto de estudio. Medir por ejemplo larenta en todas las familias de un paıs resulta excesivamente costoso en terminos de tiempo y coste.Sin embargo, quiza no lo sea tanto hacerlo en una muestra aleatoria extraıda de dicha poblacion.Luego muestra serıa la parte de la poblacion que vamos a utilizar en el estudio para extraerconclusiones. Por tanto la muestra esta contenida en la poblacion y nosotros la utilizaremos paraestablecer conclusiones que puedan extrapolarse a la poblacion. Para ello la muestra extraıda debeser representativa de la poblacion. Una forma de conseguirlo es usando una muestra aleatoriasimple. Para ello seleccionamos una muestra de n objetos de una poblacion de N objetos. En el

41

Page 58: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

supuesto de las familias la poblacion son todas las familias, que supongamos son N , y la muestraun subconjunto de las misma de tamano n. En la muestra seleccionada todos los objetos tienen lamisma probabilidad de ser seleccionados y se seleccionan independientemente, luego la seleccion deuno de ellos no altera la probabilidad de que sean seleccionados otros objetos.

Definicion. Muestra aleatoria simple: Una muestra de n observaciones de una o mas variables,designadas por X1, X2, . . . , Xn es una muestra aleatoria si las n observaciones son extraıdas indepen-dientemente de la misma poblacion o distribucion de probabilidad. La muestra puede ser univariantesi Xi es la unica variable aleatoria o multivariante si cada observacion contiene varias variables. Lamuestra, designada como (X1, X2, . . . , Xn) o Xii=1,...,n se dice que esta independientemente eidenticamente distribuida, se denota iid.

Dada una poblacion podemos muestrearla repetidamente mediante un muestreo aleatorio. El mues-treo aleatorio protege de que una parte de la poblacion este subrepresentada o sobrerepresentadaen la muestra. Por otra parte cada muestra obtenida de una poblacion con el mismo numero deobservaciones tendra una media muestral X distinta, luego X es una variable aleatoria con unadistribucion de probabilidad. La distribucion en el muestreo de este estadıstico, X, es la distri-bucion de probabilidad de las medias muestrales obtenidas de estas muestras posibles extraıdas dela poblacion con el mismo numero de observaciones. La distribucion en el muestreo de las mediasmuestrales posibles es la base para realizar inferencia sobre la poblacion. Utilizamos la informacionmuestral para hacer inferencia sobre la poblacion. Por ejemplo, utilizando la media y la varianzamuestral podemos hacer inferencia sobre la media y varianza poblacional, que son desconocidas ycaracterizan la distribucion poblacional.

1.4. Estadısticos y distribuciones en el muestreo

Antes de intentar estimar los parametros de una poblacion se examinan los datos. Visualizarlosgraficamente es util pero si la muestra es de tamano grande debemos usar estadısticos para descri-birla. Los mas interesantes son las medidas de posicion, es decir el valor central de los datos, y deescala o dispersion de los datos.

• Medidas de tendencia central o posicion:

Media muestral: X = 1n

∑ni=1 Xi

Mediana: m = valor de posicion central

Amplitud muestral: amm = Maximo-Mınimo2

• Medidas de dispersion o escala:

Varianza muestral: S2X =

∑ni=1(Xi−X)2

n−1

Desviacion estandar: SX =[∑n

i=1(Xi−X)2

n−1

]1/2

42

Page 59: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

• En muestras multivariantes, por ejemplo con dos variables X e Y , ademas pueden resultar inte-resantes las siguientes medidas:

Covarianza: SXY =∑n

i=1(Xi−X)(Yi−Y )n−1

Correlacion: rXY = SXYSX SY

La covarianza mide la variacion conjunta de dos variables, y su signo indica la direccion de lavariacion, depende de las escalas de medida. El coeficiente de correlacion mide al grado de asociacionlineal y no se ve afectado por la escala de las variables, siempre esta comprendido entre −1 y 1.Cuando hay mas de dos variables es mas util ordenar estas covarianzas y correlaciones en las matricescorrespondientes como se vera mas adelante.

Cada una de las medidas anteriores tienen su correspondiente medida poblacional basada en la dis-tribucion a partir de la cual han sido generados los datos. Los valores muestrales se corresponden conesperanzas poblacionales y esperamos que los valores de estos estadısticos tiendan a parecerse a losvalores de los parametros poblacionales. La manera en que se aproximan a los valores poblacionalesviene dada por la distribucion muestral del estadıstico.

Un estadıstico es una funcion que se calcula a partir de los datos contenidos en una muestra. Lamedia muestral es un estadıstico, la varianza muestral es otro estadıstico. Como ya se ha indicadocuando hacemos un muestreo aleatorio simple repetido cada muestra obtenida de una poblacion conel mismo numero de observaciones tendra una media muestral X distinta, luego el estadıstico X esuna variable aleatoria con una distribucion de probabilidad a la que se llama distribucion en elmuestreo o distribucion muestral. La distribucion muestral es la base para realizar inferenciasobre la poblacion. Los parametros que caracterizan a la distribucion de la poblacion, la mediay varianza poblacionales son desconocidos. Podemos decir algo de ellos utilizando los estadısticosmuestrales homonimos mediante la inferencia estadıstica.

Los momentos muestrales por ser funcion de la muestra recogida son variables aleatorias y su valorcambia de una muestra a otra. La media muestral, X como variable aleatoria que es tiene unaesperanza matematica que coincide con la de la distribucion de que se obtuvo la muestra, es decirE(X) = µX . Ademas si las observaciones muestrales son independientes la varianza de la mediamuestral es igual a la varianza de la variable aleatoria de la que se obtuvo la muestra dividida porel tamano muestral, es decir V (X) = σ2

Xn

Tanto la media poblacional como la muestral son medidas de localizacion. µX refleja el valor alre-dedor del cual se van a situar todas las posibles observaciones que podamos obtener de la variablealeatoria X. La media muestral X refleja lo mismo pero relativo a los valores de la muestra.

Con respecto a la varianza, debemos recordar que es una medida de dispersion, siendo la dispersionla mayor o menor variabilidad de los valores de la variable aleatoria alrededor de su valor medio. Sila varianza es pequena sera porque las desviaciones de la variable aleatoria en torno a su valor medioson pequenas, con lo que la media sera representativa del conjunto de valores de la distribucion ypor consiguiente, la dispersion sera pequena. Si la varianza es grande, la dispersion sera grande yla media de la variable aleatoria no sera representativa. Cuanto mayor sea la varianza mayor es laprobabilidad de obtener valores alejados de µX .

43

Page 60: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

1.5. La distribucion de la media muestral

Sean X1, X2, . . . , Xn observaciones de una muestra aleatoria extraıda de una poblacion de media µ

y varianza σ2. La media muestral X es una variable aleatoria de media µ y varianza σ2

n . Prueba1:

X = 1n

∑ni=1 Xi

E(X) = E(

1n

∑ni=1 Xi

)= E( 1

n(X1 + X2 + . . . + Xn)) = 1n

∑ni=1 E(Xi) = 1

n

∑ni=1 µ = nµ

n = µ

V (X) = V(

1n

∑ni=1 Xi

)= V ( 1

n(X1 + X2 + . . . + Xn)) = 1n2

∑ni=1 V (Xi) = 1

n2

∑ni=1 σ2 = nσ2

n2 = σ2

n

Por tanto la media de la distribucion de la media muestral es la media poblacional y la varianza de ladistribucion de la media muestral es la varianza poblacional dividida por el numero de observacioneso tamano de la muestra, n. Si Xi ∼ NID(µ, σ2) i = 1, . . . , n entonces X es una combinacion linealde n variables aleatorias independientes, por lo que su distribucion muestral es:

X ∼ N

(µ,

σ2

n

)(1.17)

Analicemos el significado del resultado sobre la media de la distribucion. Que la media de la distri-bucion de la media muestral sea la media poblacional indica que a medida que aumenta el numerode muestras la media de las medias muestrales se aproxima a la verdadera media poblacional. Unaunica media muestral puede ser mayor o menor que la poblacional pero en promedio no hay razonespara esperar que una media muestral sea mayor o menor que la poblacional. Con respecto a lavarianza de la distribucion de la media muestral vemos que esta disminuye a medida que aumentael tamano muestral. Luego mas concentrada esta la distribucion en el muestreo. En resumen cuantomayor es el tamano muestral mas seguros estamos de la inferencia sobre la media poblacional.

• Si denotamos por σ2X

a la varianza de la media muestral podemos definir la desviacion tıpica dela misma como σX = σ√

n.

• Si el tamano de la muestra no es pequeno en relacion al de la poblacion los miembros de lamuestra no se distribuyen independientemente. En este caso la varianza de la media muestral esV (X) = σ2

nN−nN−1 donde N es el tamano de la poblacion y el termino N−n

N−1 se denomina factor decorreccion en el caso de una poblacion finita.

La distribucion muestral se utiliza para hacer inferencia sobre la poblacion. Para ello se utilizanestimadores. Un estimador es un estadıstico calculado a partir de la muestra que pretende ser unaaproximacion a un parametro desconocido. Obviamente del ejemplo anterior podemos deducir queun estimador de la media poblacional es la media muestral dado que la distribucion muestral de lamedia de un conjunto de observaciones de variables normales tine media µ. La inferencia estadısticanos permitira obtener conclusiones sobre la media poblacional desconocida utilizando la distribucionde la media muestral.

1Para calcular el resultado sobre la varianza de la distribucion se ha utilizado el hecho de que las distribucionesde los miembros de muestras aleatorias son aproximadamente independientes cuando la poblacion es muy grande enrelacion al tamano de la muestra.

44

Page 61: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

1.6. Bibliografıa del tema

Referencias bibliograficas basicas:

• Teorica:

[1] Gujarati, D. y Porter, D.C. (2010). Econometrıa. Editorial McGraw-Hill, Madrid. 5a edicion.

[2] Newbold, P., Carlson, W.L. y Thorne, B. (2008). Estadıstica para administracion y economıa.Prentice Hall. Madrid.

[3] Wooldridge, J.M. (2006). Introduccion a la Econometrıa. Ed. Thomson Learning, 2a edicion.

[4] Ruiz Maya, L. y Martın Pliego, F.J. (2005). Fundamentos de inferencia estadıstica, 3a edicion,Editorial AC, Madrid.

• Ejercicios con gretl:

[1] Ramanathan, R. (2002), Instructor’s Manual to accompany, del libro Introductory Econometricswith applications, ed. South-Western, 5th edition, Harcourt College Publishers.

[2] Wooldridge, J. M. (2003), Student Solutions Manual, del libro Introductory Econometrics: Amodern Approach, ed. South-Western, 2nd edition.

Referencias Bibliograficas Complementarias:

[1] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regulez, M.; Zarraga, A. y Zubia, M. (2009). Analisis deregresion con gretl. Open Course Ware. UPV-EHU. (http : //ocw.ehu.es/ciencias− sociales− y −juridicas/analisis− de− regresion− con− greti/Courselisting).

[2] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regulez, M.; Zarraga, A. y Zubia, M. (2009). EconometrıaBasica Aplicada con Gretl. Sarriko On Line 8/09. http://www.sarriko-online.com. Publicacion on-line de la Facultad de C.C. Economicas y Empresariales.

[3] Esteban, M.V. (2007). Estadıstica Actuarial y Analisis de Regresion. Material docente. Serviciode Publicaciones.

[4] Esteban, MV (2008). Estadıstica Actuarial: Regresion Lineal, Sarriko On Line 3/08. Publica-cion on-line de la Facultad de CC. Economicas y Empresariales, UPV/EHU. http://www.sarriko-online.com.

[5] Esteban, M.V. (2007). Coleccion de ejercicios y examenes. Material docente. Servicio de Publi-caciones.

[6] Fernandez, A., P. Gonzalez, M. Regulez, P. Moral, V. Esteban (2005). Ejercicios de Econometrıa.Editorial McGraw-Hill.

[7] Greene, W. (1998), Analisis Econometrico, Ed. Prentice Hall, 3a edicion.

[8] Ramanathan, R. (2002), Introductory Econometrics with applications, Ed. South-Western, 5th.edition.

[9] Verbeek, M. (2004). A Guide to Modern Econometrics. Wiley.

45

Page 62: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

46

Page 63: Estad´ıstica Actuarial y Análisis de Regresión

Tema 2

Estimacion por punto y por intervalo

Los economistas en general estamos interesados en las relaciones entre las variables economicas.Por ejemplo ¿como variara el consumo de las familias si sus ingresos se ven incrementados en 100eal mes? o ¿como influira en el consumo un incremento del impuesto del valor anadido de un 1%?¿como variaran las ventas de un modelo de automovil si se reduce su precio en 1500 e ? Sin embargo,muchas cuestiones de intere se centran en el comportamiento de una unica variable. Por ejemplo,un disenador de espacios publicos para ver espectaculos sentado estara interesado en ver cual es eltamano adecuado de la butaca y cual debe ser su distancia con respecto a la butaca inmediatamentedelante y detras de ella. Quiza su pregunta relevante sea ¿cual es el tamano medio de los futurosespectadores? Imaginemos que disena una butaca de 45 cm de ancho situada a 86 cm de la butacaanterior ¿que porcentaje de espectadores no pueden sentarse en estas condiciones? Para contestara estas preguntas deberıamos medir a cada miembro de la poblacion, cosa que no podemos hacer.Sin embargo, la estadıstica tiene instrumentos que pueden ayudarnos a contestar estas preguntas.

En este tema nos introduciremos en el conocimiento de la inferencia estadıstica para establecerconclusiones sobre una poblacion basandonos en la muestra. Introduciremos el concepto de estimadory estimacion. Presentaremos dos metodos de estimacion, la estimacion por punto y la estimacionpor intervalo. Veremos que propiedades debe tener un estimador y como construir intervalos deconfianza. Aplicaremos los resultados a la media de una poblacion normal.

Competencias a trabajar en estas sesiones:

1. Conocer distintos procedimientos de estimacion de parametros, ası como sus propiedades parapoder seleccionar adecuadamente la mejor alternativa de analisis.

5. Obtener e interpretar los resultados de un analisis estadıstico de datos economicos haciendouso de las fuentes de informacion apropiadas y de los instrumentos informaticos necesarios.

47

Page 64: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Al final de este tema deberıais ser capaces de:

1. Diferenciar entre poblacion y muestra.

2. Relacionar los conceptos de poblacion y variable aleatoria y conocer que informacion sobre lapoblacion proporcionan la funcion de densidad de probabilidad de una variable aleatoria, elvalor esperado y la varianza.

3. Explicar la diferencia entre media poblacional y media muestral.

4. Conocer la diferencia entre parametro, estimador y estimacion. Entender la razon de que unestimador sea una variable aleatoria con distribucion asociada.

5. Definir los conceptos de insesgadez y eficiencia.

6. Elegir entre estimadores con un criterio estadıstico.

7. Conocer la diferencia entre estimacion por punto y por intervalo.

8. Interpretar un intervalo de confianza.

9. Construir un intervalo de confianza para la media de una poblacion normal con varianzaconocida y con varianza desconocida.

Bibliografıa Recomendada:

Al final del tema teneis recogida la bibliografıa correspondiente. En particular os recomendamosleer los capıtulos correspondientes a la bibliografıa basica detallados a continuacion:

• Gujarati, D. y Porter, D.C. (2010). Apendice A.

• Newbold, P., Carlson, W.L. y Thorne, B. (2008). Cap. 8 salvo la seccion 8.5 y Cap. 9 salvo laseccion 9.3.

• Ramanathan, R. (2002). Cap. 2.

• Wooldridge, J.M. (2006). Apendice C.

48

Page 65: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

2.1. Introduccion a la inferencia estadıstica

En el tema anterior vimos la diferencia entre poblacion y muestra. La poblacion es el conjunto detodos los elementos objeto de estudio mientras que la muestra es un subconjunto representativode la poblacion. Para decir algo de las caracterısticas de la poblacion a partir del estudio de lamuestra utilizamos la inferencia estadıstica. Cualquier inferencia extraıda de la poblacion se basaen estadısticos muestrales.

Una vez definida la poblacion, hay que especificar un modelo para los datos que recoja las carac-terısticas poblacionales que interesan. En Econometrıa suponemos que los datos X1, X2, . . . , Xn

son realizaciones de n variables aleatorias cuya distribucion conjunta depende de varios parametrosdesconocidos Θ. Un modelo para los datos especifica las caracterısticas generales de la distribucionjunto con el vector de parametros desconocidos Θ. Por ejemplo, supongamos que nos interesa conocerlas ventas medias de un determinado modelo de automovil y la muestra esta formada por 30 em-presas concesionarias. Suponemos que los valores recogidos de las ventas de los 30 concesionarios,X1, . . . , X30, son realizaciones de variables normales identica e independientemente distribuidas,NID. Por tanto, el modelo especificado para los datos es:

Xi ∼ NID(µX , σ2X) (2.1)

Los parametros que determinan la distribucion son la media y la varianza de las ventas, que sondesconocidos, es decir, Θ = (µ, σ2). Ademas, la media es el parametro de interes en el estudio yqueremos aprender sobre ella a partir de los datos.

Para poder decir algo de la poblacion a partir de la muestra disponemos de dos herramientas de laestadıstica, la estimacion y el contraste de hipotesis. En la estimacion se trata de calcular posiblesvalores para parametros de interes, por ejemplo, el salario medio de los graduados en Finanzas ySeguros o el salario medio de las mujeres casadas con carga familiar y estudios superiores. En elcontraste de hipotesis hay que establecer una hipotesis o conjetura especıfica sobre la poblacion, porejemplo, que no hay discriminacion salarial por sexo o que la renta disponible determina el consumode las familias, y analizar los datos para decidir si la hipotesis es correcta. En este tema veremosuna introduccion al problema de la estimacion y en el tema siguiente introduciremos el contrastede hipotesis.

2.2. Estimadores puntuales

Los parametros son desconocidos pero pueden estimarse. El objetivo de la estimacion es aproximarel valor de un conjunto de parametros desconocidos de una distribucion a partir de las observacionesmuestrales de la misma. Denotaremos como θ a un parametro desconocido y Θ = (θ1, θ2, . . . , θK)′ aun vector de K parametros desconocidos. Un estadıstico es una funcion, o formula, que se calculaa partir de los datos contenidos en una muestra. La media muestral es un estadıstico, la varianzamuestral es otro estadıstico. Un estimador de un parametro poblacional es una variable aleatoriaque depende de la informacion de la muestra. Su valor proporciona aproximaciones al parametrodesconocido. Notacionalmente un estimador del parametro desconocido θ es un estadıstico quepretende ser un aproximacion a dicho parametro desconocido y se denota por θ. Una vez se aplica

49

Page 66: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

un estimador a la muestra se obtiene un valor numerico que se denomina estimacion. Un estimadorque genera un unico valor de estimacion se denomina estimador por punto.

2.2.1. Propiedades

Sin embargo, no existe un unico estimador. En el caso anterior hemos propuesto como estimador de lamedia poblacional a la media muestral pero igualmente podıamos haber propuesto como estimadora la mediana muestral. ¿Cual elegir entonces? Para elegir entre estimadores podemos basarnos enlas propiedades de la distribucion muestral del estimador. En general exigimos a los estimadoresque se aproximen al verdadero valor de los parametros, vamos a fijarnos en tres propiedades enconcreto: insesgadez, eficiencia y error cuadratico medio.

Insesgadez. Un estimador es insesgado si la media de su distribucion empırica coincide con elverdadero valor del parametro, es decir,

E(θ) = θ

Si se pudieran obtener todas las posibles realizaciones muestrales de θ, el promedio de todas estasestimaciones serıa el verdadero valor del parametro. Es una propiedad deseable porque indica quesi un estimador es insesgado, el error de estimacion, θ − θ, se anula en promedio.

Cuando E(θ) 6= θ se dice que el estimador es sesgado. Se define el sesgo de un estimador como

Sesgo(θ) = E(θ)− θ

La parte izquierda de la Figura 2.1 representa las distribuciones de tres estimadores de un mismoparametro, θ: el estimador θ1 es insesgado; θ2, tiene sesgo negativo, es decir, en promedio subestima(subvalora) el valor del parametro; finalmente el sesgo de θ3 es positivo, es decir, este estimador enpromedio sobrestima (sobrevalora) el valor del parametro.

Figura 2.1: Sesgo y varianza de estimadores

Un ejemplo de estimador insesgado de la media poblacional, µ, de una distribucion normal es lamedia muestral µ = X, ya que como se demostro en el Tema 1, E(X) = µ. Un estimador insesgadode la varianza de una distribucion es la varianza muestral, σ2 = S2 tal que E(σ2) = σ2.

50

Page 67: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Eficiencia. Si nos fijamos unicamente en los estimadores insesgados, nos interesa establecer uncriterio para elegir un estimador dentro de esta clase de estimadores. En la parte derecha de la Figura2.1 se representa la distribucion de dos estimadores, ambos insesgados. Claramente, el estimador conmenor varianza, θ1, tiene una probabilidad menor de obtener realizaciones alejadas del verdaderovalor del parametro. Por tanto, se considera que θ1 supera al estimador θ2 y se dice que θ1 es maseficiente que θ2 ya que V (θ1) < V (θ2).

En general, si un estimador es el que tiene menor varianza dentro de una clase de estimadores sedice que es el estimador eficiente dentro de esa clase. Ası, se dice que un estimador θ es eficientedentro de la clase de estimadores insesgados si no hay otro estimador insesgado θ con una varianzamenor:

V (θ) ≤ V (θ) ∀θ insesgado

Por ejemplo, la media de los datos es un estimador eficiente dentro de la clase de estimadoresinsesgados de la media poblacional µ de una variable normal. Es decir, se demuestra que, si Xi ∼NID(µ, σ2), i = 1, . . . , n, entonces para todo estimador insesgado de µ, µ con E(µ) = µ:

V (X) =σ2

n≤ V (µ)

Si se trata de estimar un conjunto de K parametros Θ, se dice que un estimador insesgado Θes mas eficiente que otro estimador insesgado Θ si la diferencia [V (Θ) − V (Θ)] es una matrizsemidefinida positiva. Esto implica que cada elemento de Θ tiene una varianza menor o igual queel correspondiente elemento de Θ.

Error cuadratico medio. Aunque la insesgadez es una propiedad deseable, esto no implica que unestimador insesgado siempre sea preferible a uno sesgado. La Figura 2.2 ilustra una situacion en laque un estimador insesgado θ1 puede descartarse frente a otro sesgado, θ2. El estimador θ1 tienemucha varianza, por lo que tiene una probabilidad mayor de obtener errores de estimacion masgrandes que el estimador con menor varianza, θ2, aunque este sea sesgado.

Figura 2.2: Ejemplos de distribucion de estimadores

Esto sugiere utilizar como criterio de eleccion de estimadores una medida del error del estimador.Se define el error cuadratico medio de un estimador:

ECM(θ) = E[(θ − θ)2] = V (θ) + [sesgo(θ)]2

51

Page 68: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

que se descompone en un termino de varianza y otro de sesgo. Ası, entre un conjunto de estimadoresse elige aquel que tiene menor error cuadratico medio.

Ejercicio 2.1

Sea X ∼ N(µ, σ2). Como estimador de la media poblacional se ha utilizado la mediamuestral de una muestra aleatoria simple. El valor estimado es 5. Di si son ciertas ofalsas las siguientes afirmaciones:

1. Tomando muestras distintas pueden obtenerse otras estimaciones.2. La distribucion de estas estimaciones debe estar centrada entorno al verdadero

valor 5.

Ejercicio 2.2

Un profesor de Econometrıa encarga a sus estudiantes que elijan la mejor estimacionposible de un parametro de entre las alternativas disponibles en los libros de Econome-trıa.

El estudiante A propone un estimador insesgado tal que θ = 5 V (θ) = 8.El estudiante B propone un estimador insesgado tal que θ? = 6 V (θ?) = 4.El estudiante C propone utilizar la media de las dos estimaciones θ?? = 5, 5.

¿Cual de las tres estimaciones es mas adecuada? ¿ Por que?

2.2.2. Estimadores de la media y la varianza

La media muestral de los datos, X puede ser un estimador de la media poblacional µX de una va-riable aleatoria X. La varianza muestral S2

X de los datos es un estimador de su varianza poblacionalσ2

X . Es decir,

µX = X =1n

n∑

i=1

Xi σ2X = S2

X =1

n− 1

n∑

i=1

(Xi − X)2 (2.2)

Ejemplo 2.1

Supongamos que se dispone del salario medio por hora percibido 30 individuos. En laTabla 2.1 se recoge dicha informacion:

La estimacion de la media del salario medio por hora es:

µX = X =3, 10 + 3, 24 + 3 + 6 + . . . + 7, 78 + 12, 5 + 12, 5 + 3, 25

30= 7, 8547

La estimacion de la varianza es:

σ2X = S2

X =(3, 10− 7, 8547)2 + (3, 24− 7, 8547)2 + . . . + (3, 25− 7, 8547)2

30− 1= 23, 8778

52

Page 69: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Individuo Salario Individuo Salario Individuo Salario

1 3,10 11 6,25 21 6,882 3,24 12 8,13 22 8,483 3,00 13 8,77 23 6,334 6,00 14 5,5 24 0,535 5,30 15 22,2 25 66 8,75 16 17,33 26 9,567 11,25 17 7,5 27 7,788 5,00 18 10,63 28 12,59 3,60 19 3,6 29 12,510 18,18 20 4,5 30 3,25

Tabla 2.1: Datos sobre salario medio por hora

σX =√

23, 8778 = 4, 8865

2.3. Estimacion por intervalo

En la Tabla 2.1 anterior se estima que el salario medio por hora oscila alrededor de 7,8547 euros. Sinembargo, ¿que confianza podemos tener en este resultado? Por ejemplo, ¿valorarıamos igual estacantidad si se hubiera calculado con una muestra de 5 observaciones? La respuesta obvia es NO,sino que consideramos mas fiables los resultados con 30 datos que con 5. Por tanto, un estimadordebe complementarse con una medida de su fiabilidad o precision.

Un estimador es una variable aleatoria que depende de las variables Xi, i = 1, . . . , n. Su distribucionde probabilidad se denomina distribucion muestral o distribucion empırica del estimador. En elejemplo anterior, si Xi ∼ NID(µ, σ2), entonces el estimador µ = X es una combinacion lineal den variables normales independientes. En el Tema 1 se demostro que su distribucion muestral es:

µ = X ∼ N(µ, σ2/n)

De la distribucion de la media muestral se deduce que la media muestral se distribuye alrededor dela media poblacional y se concentra con mas probabilidad alrededor de µ cuanto mayor es el tamanomuestral n, es decir cuanto menor es la varianza. Por tanto, hay mayor probabilidad de obtener unaestimacion cercana a µ con 30 datos que con 5. En este caso, es sensato utilizar como indicador dela precision a la desviacion tıpica σ/

√n , menor desviacion tıpica, o lo que es igual menor varianza,

indica mayor precision. Normalmente, σ2 es desconocido, por lo que sustituimos su valor poblacionalpor el correspondiente muestral, σ2 = S2

X . La estimacion de la desviacion tıpica de la distribucion

muestral de X, σX =√

σ2X

= σX√n

se conoce como error tıpico de X. En el ejemplo del salario

medio por hora obtenemos que el error tıpico de estimacion es 4, 8865/√

30 = 0, 8921. Es facilcomprobar que si obtuvieramos los mismos valores de X y SX con una muestra de 5 observaciones,el error tıpico casi se multiplicarıa por dos veces y media, SX = 4, 8865/

√5 = 2, 185.

53

Page 70: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Una forma de tener una mayor confianza en la estimacion es obtener una estimacion por intervalo.Un estimador por intervalo o estimador de un intervalo de confianza de un parametro poblacionales una regla que utiliza la informacion muestral para hallar un intervalo que es probable que incluyaese parametro.

2.3.1. Intervalos de confianza y nivel de confianza

Sea θ un parametro desconocido. Supongamos que utilizando la informacion muestral se hallandos variables aleatorias A y B tales que P (A < θ < B) = 1 − α, donde α es cualquier numerocomprendido entre 0 y 1. Si los valores muestrales especıficos A y B son a y b, entonces el intervalode a a b se llama intervalo de confianza de θ al 100(1−α)%. La cantidad 100(1−α)% se llamanivel de confianza del intervalo.

Interpretacion: Si se extraen repetidamente muestras aleatorias de la poblacion, el verdadero valordel parametro θ se encontrara en el 100(1 − α)% de los intervalos calculados de esta forma. Elintervalo de confianza calculado de esta forma se expresa de la manera siguiente: a < θ < b a unnivel de confianza del 100(1− α)%.

2.3.2. Intervalos de confianza para la media de una poblacion normal con varianzaconocida

Sea X1, X2, . . . , Xn una muestra de n observaciones extraıdas de una poblacion que sigue unadistribucion normal de media µ desconocida y varianza conocida σ2. Vamos a calcular un intervalode confianza para la media poblacional al 100(1− α)%. Sea

X ∼ N

(µ,

σ2

n

)−→ Z =

X − µ

σ/√

n∼ N(0, 1)

Sea zα/2 el valor de la distribucion normal estandar tal que la probabilidad de la cola superior esα/2. A continuacion construimos el intervalo de confianza:

P (−zα/2 < Z < zα/2) = 1− α

P (−zα/2 < X−µσ/√

n< zα/2) = 1− α

P (−zα/2σ√n

< X − µ < zα/2σ√n) = 1− α

P(X − zα/2

σ√n

< µ < X + zα/2σ√n

)= 1− α

Interpretacion: Si se extraen repetida e independientemente muestras aleatorias de n observacionesde la poblacion y se calculan intervalos de confianza al 100(1 − α)%, entonces el 100(1 − α)%contendra el verdadero valor de la media poblacional.

Por ejemplo, fijado α = 5 %, zα/2 = 1, 96, el nivel de confianza es del 95% y tenemos:

P

(X − 1, 96

σ√n

< µ < X + 1, 96σ√n

)= 0, 95 (2.3)

54

Page 71: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

La ecuacion (2.3) es un intervalo de confianza al 95 por ciento para µ, luego el intervalo aleatoriocontiene a µ con probabilidad 0, 95. Es decir antes de obtener nuestra muestra aleatoria particularhay una probabilidad del 95 por ciento de que (2.3) contenga a µ. La ecuacion (2.3) es un ejemplo deestimador por intervalo. El intervalo es aleatorio ya que los lımites inferior y superior cambiancon las diferentes muestras.

Interpretacion: Si se extraen repetida e in-dependientemente 100 muestras aleatoriasde n observaciones de la poblacion y secalculan 100 intervalos de confianza, en-tonces 95 de ellos contendran el verdaderovalor de la media poblacional. El graficomuestra que la probabilidad de que unavariable aleatoria normal estandar se en-cuentre entre −1, 96 y 1, 96 es 0, 95.

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

−5 −4 −3 −2 −1 0 1 2 3 4 5

N(0, 1)

Región Crítica 0,025Región Crítica

0,025

Región de Aceptación0,95

2.3.3. Intervalos de confianza para la media de una poblacion normal con varianzadesconocida. La distribucion t de Student

Sea X1, X2, . . . , Xn una muestra de n observaciones extraıdas de una poblacion que sigue una dis-tribucion normal de media µ desconocida y varianza desconocida σ2. Vamos a calcular un intervalode confianza para la media poblacional al 100(1− α)%. Sea

X ∼ N

(µ,

σ2

n

)−→ Z =

X − µ

σ/√

n∼ N(0, 1)

En el caso de que la varianza σ2 sea conocida, vimos en el apartado anterior que el intervalo deconfianza 100(1− α)% es:

P

(X − zα/2

σ√n

< µ < X + zα/2σ√n

)= 1− α

Sin embargo si σ2 es desconocida el resultado no puede ser utilizado directamente. Tambien hemosvisto que la varianza muestral S2 es un estimador de σ2 por lo que para construir el intervalo deconfianza podemos utilizar el siguiente estadıstico y distribucion asociada:

t =X − µ

σ/√

n∼ t(n−1)

siendo σ2 = S2. Sea t(v) α/2 el valor de la distribucion t-Student con v grados de libertad tal quela probabilidad de la cola superior es α/2. El intervalo de confianza 100(1 − α)% para la mediapoblacional cuando la varianza es desconocida es:

P

(X − t(n−1) α/2

σ√n

< µ < X + t(n−1) α/2σ√n

)= 1− α

55

Page 72: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

con la misma interpretacion que en el apartado anterior.

Por ejemplo, para α = 5 % y n = 49 tenemos t(n−1)α/2 = t(48)0,025 = 2, luego:

P

(X − 2× σ√

n< µ < X + 2× σ√

n

)= 0, 95

Ejemplo 2.2

Utilizando los datos de la Tabla 2.1 vamos a construir un intervalo de confianza al 95%para la media del salario medio por hora.Para la variable X = Salario tenemos:

µX = X = 7, 8547 ; σ2X = S2

X = 23, 8778 ;σ = 4, 8865 ; t(n−1)α/2 = t(30−1)0,025 = 2, 045

P

(X − t(n−1)α/2 ×

σ√n

< µ < X + t(n−1)α/2 ×σ√n

)= 0, 95

P (7, 8547− 2× 0, 8921 < µ < 7, 8547 + 2× 0, 8921) = 0, 95

P (6, 070 < µ < 9, 6389) = 0, 95

Concluimos que con confianza del 95 % la media poblacional estara entre los valores6, 070 y 9, 6389.

2.3.4. Otros ejemplos

Ademas de construir intervalos de confianza para los parametros de una poblacion, como es la mediao la varianza tambien podemos construir intervalos de confianza para estimar algunos parametros dedos poblaciones. Por ejemplo un empresario puede estar interesado en comparar la productividadmedia de sus trabajadores en dos plantas distintas, o podemos estar interesados en comparar lamedia del salario medio por hora de hombres y mujeres. Para ello podemos construir un intervalode confianza para la diferencia de las medias. Veamos algunos ejemplos.

Intervalos de confianza de la diferencia entre dos medias: muestras independientes

Supongamos que extraemos una muestra de nX observaciones de una poblacion normal de media µX

y varianza σ2X y una muestra independiente de nY observaciones de una poblacion normal de media

µY y varianza σ2Y . Denotamos las medias muestrales respectivas por X y Y . Estamos interesados

en la diferencia de ambas medias, luego basamos la inferencia en dicha diferencia: X − Y . La mediay varianza de la variable aleatoria diferencia de medias es:

E(X − Y ) = E(X)− E(Y ) = µX − µY

V (X − Y ) = V (X)− V (Y ) =σ2

X

nX+

σ2Y

nY

56

Page 73: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

La distribucion de la variable aleatoria Z = X − Y combinacion lineal de variables normales es unanormal:

Z =(X − Y )− (µx − µy)√

σ2X

nX+ σ2

YnY

∼ N(0, 1)

suponiendo que las varianzas son conocidas podemos escribir el siguiente intervalo de confianza:

P

(X − Y )− zα/2

√σ2

X

nX+

σ2Y

nY< µX − µY < (X − Y ) + zα/2

√σ2

X

nX+

σ2Y

nY

= 0, 95

Si las varianzas son desconocidas se han de estimar con lo que la variable aleatoria Z ya no sigueuna distribucion estandar sino una t-Student con v = nX +nY −2 grados de libertad donde estamossuponiendo que las varianzas poblacionales aunque desconocidas son iguales1.

P

(X − Y )− t(nX+nY −2)α/2

√σ2

X

nX+

σ2Y

nY< µX − µY < (X − Y ) + t(nX+nY −2)α/2

√σ2

X

nX+

σ2Y

nY

= 0, 95

Ejemplo 2.3

Supongamos que disponemos de una muestra sobre salario medio por hora para 252mujeres proveniente de una poblacion X ∼ N(µX , σ2

X) y una muestra de salario mediopor hora para 274 hombres proveniente de una poblacion Y ∼ N(µY , σ2

Y ) tal que:

X = 4, 5877 σX = 2, 5294Y = 7, 0995 σY = 4, 1609

Suponiendo que ambas muestras tienen varianza poblacional desconocida pero igual, elintervalo de confianza al 100(1− α)% para la diferencia de las medias es:

(4, 5877− 7, 0995)± t(524)α/2

√2, 52942

252+

4, 16092

2741Los grados de libertad v dependen del supuesto que se realice sobre las varianzas de ambas poblaciones.

• Si suponemos que las varianzas poblacionales son desconocidas pero iguales: v = nX + nY − 2. Este es elsupuesto mas habitual.

• Si suponemos que las varianzas poblacionales son desconocidas y no son iguales y las muestras son de distinto

tamano: v =

[σ2

XnX

+σ2

YnY

]2

(σ2X

/nX )2

(nX−1) +(σ2

Y/nY )2

(nY −1)

• Si suponemos que las varianzas poblacionales son desconocidas y no son iguales y las muestras son del mismo

tamano: v =

1 + 2

σ2X

σ2Y

+σ2

Yσ2

X

× (n− 1)

57

Page 74: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Intervalos de confianza de la diferencia entre dos medias: muestras dependientes

Dos muestras son dependientes si en los valores de una muestra influyen los de la otra. Los miembrosde la muestra se eligen por pares, uno de cada poblacion. Supongamos que se eligen n pares alea-torios (x1, y1), (x2, y2), . . . , (xn, yn) extraıdos de dos poblaciones X ∼ N(µX , σ2

X) y Y ∼ N(µY , σ2Y )

dependientes. Denotamos por d y Sd a la media y desviacion tıpicas muestrales observadas de las n

diferencias di = xi − yi. Si suponemos que la distribucion poblacional de las diferencias es normal,entonces tenemos el siguiente intervalo de confianza 100(1− α)% de la diferencia entre las medias:

d− t(n−1)α/2Sd√n

< µd < d− t(n−1)α/2Sd√n

Ejercicio 2.3

Supongamos que Y1, Y2, . . . , Yn constituyen una muestra aleatoria simple de una pobla-cion con media µ y varianza σ2. Consideramos el siguiente estimador de µ:

Y ? =Y1 + Y2

2

1. Demostrar que Y ? es un estimador insesgado.

2. Obtener V (Y ?).

3. Consideramos ahora Y =∑n

i=1 Yi

n . ¿Cual de los dos estimadores es mejor?

Ejercicio 2.4

Supongamos que Y1, Y2, Y3 constituyen una muestra aleatoria simple de una poblacionN(µ, σ2). Consideramos el siguiente estimador de µ:

Y =12Y1 +

13Y2 +

16Y3

1. Demostrar que Y es un estimador insesgado.

2. Obtener V (Y ).

3. Consideramos ahora como estimador de µ a Y , ¿cual de los dos estimadores esmejor?

Ejercicio 2.5

Un disenador de aviones en el proceso de diseno del interior de un avion esta interesado enconocer el tamano estandar de un asiento de forma que se maximice el espacio utilizableen el avion y que el mayor numero de viajeros viaje comodamente. Supongamos quela variable Y , medida de la cadera, es tal que Y ∼ N(µ, σ2). La Tabla 2.2 recoge unamuestra de la medida de la cadera, en pulgadas, para 50 individuos adultos que vuelanhabitualmente.

58

Page 75: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Indv. Medida Indv. Medida Indv. Medida Indv. Medida Indv. Medida

1 14,96 11 14,76 21 15,97 31 15,71 41 17,772 17,34 12 17,89 22 17,19 32 13,53 42 17,813 16,40 13 18,36 23 16,87 33 17,89 43 16,904 19,33 14 17,59 24 15,26 34 17,31 44 19,265 17,69 15 16,64 25 13,90 35 13,71 45 16,036 17,50 16 20,23 26 16,40 36 17,92 46 15,867 15,84 17 16,98 27 20,40 37 14,91 47 16,568 18,69 18 16,23 28 15,94 38 20,00 48 16,719 18,63 19 14,21 29 19,08 39 19,22 49 20,2310 18,55 20 20,33 30 19,40 40 16,48 50 15,54

Tabla 2.2: Tamano de la cadera para 50 individuos.

1. Realizar un analisis descriptivo de los datos de la tabla. Calcular media, varianzay desviacion tıpica muestrales de la variable junto con el coeficiente de asimetrıa ycurtosis.

2. Supongamos que se disena una butaca de 18 pulgadas de ancho, ¿que porcentajede clientes no podran volar?

3. ¿Cuanto deberıa medir la butaca para que pudiera volar el 95% de la poblacion?

Ejercicio 2.6

Para evaluar diferentes planes de jubilacion para los trabajadores de una multinacionalcon una plantilla de miles de trabajadores la empresa debe determinar la edad mediade sus trabajadores. Asumiendo que la edad de los trabajadores sigue una distribucionnormal y que la desviacion estandar es conocida e igual a 21 anos, ¿cual debe ser eltamano de la muestra de trabajadores que se debe muestrear si queremos que el intervalode confianza del 95% de la edad media no sean mas ancho de 4 anos?

59

Page 76: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

2.4. Bibliografıa del tema

Referencias bibliograficas basicas:

• Teorica:

[1] Gujarati, D. y Porter, D.C. (2010). Econometrıa. Editorial McGraw-Hill, Madrid. 5a edicion.

[2] Newbold, P., Carlson, W.L. y Thorne, B. (2008). Estadıstica para administracion y economıa.Prentice Hall. Madrid.

[3] Wooldridge, J.M. (2006). Introduccion a la Econometrıa. Ed. Thomson Learning, 2a edicion.

[4] Ruiz Maya, L. y Martın Pliego, F.J. (2005). Fundamentos de inferencia estadıstica, 3a edicion,Editorial AC, Madrid.

• Ejercicios con gretl:

[1] Ramanathan, R. (2002), Instructor’s Manual to accompany, del libro Introductory Econometricswith applications, ed. South-Western, 5th edition, Harcourt College Publishers.

[2] Wooldridge, J. M. (2003), Student Solutions Manual, del libro Introductory Econometrics: Amodern Approach, ed. South-Western, 2nd edition.

Referencias Bibliograficas Complementarias:

[1] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regulez, M.; Zarraga, A. y Zubia, M. (2009). Analisis deregresion con gretl. OpenCourseWare. UPV-EHU. (http : //ocw.ehu.es/ciencias − sociales − y −juridicas/analisis− de− regresion− con− greti/Courselisting).

[2] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regulez, M.; Zarraga, A. y Zubia, M. (2009). EconometrıaBasica Aplicada con Gretl. Sarriko On Line 8/09. http://www.sarriko-online.com. Publicacion on-line de la Facultad de C.C. Economicas y Empresariales.

[3] Esteban, M.V. (2007). Estadıstica Actuarial: Regresion. Material docente. Servicio de Publica-ciones.

[4] Esteban, MV (2008). Estadıstica Actuarial: Regresion Lineal, Sarriko On Line 3/08.Publica-cion on-line de la Facultad de CC. Economicas y Empresariales, UPV/EHU. http://www.sarriko-online.com.

[5] Esteban, M.V. (2007). Coleccion de ejercicios y examenes. Material docente. Servicio de Publi-caciones.

[6] Fernandez, A., P. Gonzalez, M. Regulez, P. Moral, V. Esteban (2005). Ejercicios de Econometrıa.Editorial McGraw-Hill.

[7] Greene, W. (1998), Analisis Econometrico, Ed. Prentice Hall, 3a edicion.

[8] Ramanathan, R. (2002), Introductory Econometrics with applications, Ed. South-Western, 5th.edition.

[9] Verbeek, M. (2004). A Guide to Modern Econometrics. Wiley.

60

Page 77: Estad´ıstica Actuarial y Análisis de Regresión

Tema 3

Contraste de hipotesis

En el tema anterior vimos algunos conceptos de la inferencia estadıstica para establecer conclusionessobre una poblacion basandonos en la muestra y nos centramos en la estimacion. En este tema nosvamos a centrar en la inferencia o contrate de hipotesis. Aprenderemos a realizar contraste dehipotesis para poder realizar afirmaciones sobre la poblacion a partir de la informacion contenidaen una muestra. Para ello utilizaremos estadısticos calculados a partir de muestras aleatorias yvistos en los temas anteriores. Introduciremos los conceptos de hipotesis nula y alternativa ası comoel concepto de estadıstico y distribucion muestral. Desarrollaremos el proceso de tomar decisionespara rechazar o no la hipotesis nula y analizaremos los errores que podemos cometer en el procesode contrastar hipotesis. Finalmente aplicaremos los resultados a la media de una poblacion normal.

Competencias a trabajar en estas sesiones:

1. Conocer distintos procedimientos de estimacion de parametros, ası como sus propiedades parapoder seleccionar adecuadamente la mejor alternativa de analisis.

2. Aplicar la metodologıa estadıstica adecuada para el diseno de contrastes de hipotesis para latoma de decisiones en el ambito profesional.

5. Obtener e interpretar los resultados de un analisis estadıstico de datos economicos haciendouso de las fuentes de informacion apropiadas y de los instrumentos informaticos necesarios.

Al final de este tema deberıais ser capaces de:

1. Conocer los elementos y etapas de un contraste de hipotesis.

2. Formalizar la hipotesis nula y alternativa de un contraste.

3. Conocer la diferencia entre nivel de significatividad y valor-p de un contraste.

4. Definir el error tipo I y el error tipo II de una prueba.

61

Page 78: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

5. Conocer la diferencia entre un contraste a una cola y un contraste a dos colas.

Bibliografıa Recomendada:

Al final del tema teneis recogida la bibliografıa correspondiente. En particular os recomendamosleer los capıtulos correspondientes a la bibliografıa basica detallados a continuacion:

• Gujarati, D. y Porter, D.C. (2010). Apendice A.

• Newbold, P., Carlson, W.L. y Thorne, B. (2008). Caps 10 y 11.

• Ramanathan, R. (2002). Cap. 2.

• Wooldridge, J.M. (2006). Apendice C.

62

Page 79: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

3.1. Concepto de hipotesis nula e hipotesis alternativa

Uno de los objetivos de la Estadıstica y de la Econometrıa es el contraste de hipotesis. La distribucionde probabilidad de una v.a., f(X; θ) discreta o continua, depende de un parametro θ que tomavalores en el espacio parametrico Θ , θ ∈ Θ tal que, para cada valor que toma θ en Θ la funcionf(X; θ) es distinta. Una hipotesis estadıstica sobre el parametro es una conjetura sobre el valorconcreto que tenga en la realidad. Para contrastar dicha hipotesis, o lo que es lo mismo, paraaceptarla o rechazarla, se disenan pruebas estadısticas es decir, se establece un criterio de contrastepara ver si podemos considerar la hipotesis cierta o no.

Un contraste de hipotesis tiene tres etapas: formulacion de dos hipotesis opuestas; derivacion de unestadıstico de contraste y su distribucion muestral y determinacion de un criterio de decision paraelegir una de las dos hipotesis planteadas.

Una hipotesis estadıstica es una afirmacion sobre la distribucion de una o varias variables aleatorias.En un contraste se trata de decidir cual, entre dos hipotesis planteadas, es la que mejor se adecuaa los datos1. La hipotesis de interes se denomina hipotesis nula, H0, y la supondremos ciertamientras no haya evidencia en contra. La hipotesis frente a la que se contrasta la nula se llamahipotesis alternativa, H1.

Tanto las hipotesis nulas como alternativas pueden ser simples o compuestas. Las hipotesis simplesespecifican un unico valor para el parametro poblacional y por tanto en ellas la distribucion deprobabilidad queda perfectamente definida. En general especificaremos hipotesis nulas simples. Enla hipotesis compuesta se especifica un rango de valores para el parametro poblacional. La hipotesisalternativa puede ser a una cola o a dos colas. La hipotesis alternativa a una cola envuelve todoslos posibles valores del parametro poblacional a un lado o a otro del valor especificado en la H0.La hipotesis alternativa a dos colas envuelve todos los valores posibles del parametro poblacionalexcepto el especificado por la H0.

La eleccion entre las hipotesis se basa en un estadıstico de contraste, que es una funcion de losdatos que mide la discrepancia entre estos y H0. Por ejemplo, si consideramos que el salario mediopor hora es una variable aleatoria normal podemos plantearnos si los datos del salario medio porhora es compatible con una distribucion con media 5 euros de salario medio por hora. En el contrastesobre la media trataremos de establecer si la diferencia entre la hipotetica media poblacional 5 ey la media muestral 7,8547 e se debe unicamente a la naturaleza aleatoria de los datos. Para ellocontrastaremos el supuesto de que la media poblacional es 5 frente a la alternativa de que no lo seacontrastamos:

H0 : µ = 5 frente a H1 : µ 6= 5

A partir de la distribucion muestral de X, X ∼ N(µ, σ2/n) podemos definir el siguiente estadısticode contraste:

X − µ

σX

=X − 5σ/√

n

1El establecimiento de una hipotesis sobre el parametro desconocido θ divide su espacio parametrico en dos partes,una integrada por los valores que cumplan la hipotesis, le llamaremos Θ0 y otra formada por el conjunto de valoresque no la cumplen y que llamaremos Θ1. Θ0 y Θ1 son disjuntos por definicion, Θ0 ∪Θ1 = Θ.

63

Page 80: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Esta discrepancia, que utilizaremos como estadıstico de contraste, no depende de las unidades demedida y tiene en cuenta la diferencia entre los datos (resumidos en X) y el valor establecido enH0. Ademas, debe conocerse la distribucion de esta variable aleatoria cuando la hipotesis nula escorrecta. En el ejemplo, se demuestra que si los datos X1, X2, . . . , Xn son una muestra aleatoria deun conjunto de variables Xi ∼ NID(µ, σ2)∀i, con µ y σ2 desconocidas, entonces:

X − µ

σX

∼ t(n− 1)

y sustituyendo µ = 5, tenemos la distribucion muestral del estadıstico bajo H0:

t =X − 5σX

H0∼ t(n− 1) −→ X − 5σ/√

n

H0∼ t(n− 1) (3.1)

Este estadıstico se aplica mucho en la practica y se denomina estadıstico t de la media. De formageneral podemos escribirlo:

X − µ

σX

∼ t(n− 1) o lo que es igual√

n(X − µ)σ

∼ t(n− 1)

Un contraste o test de hipotesis es una regla de decision mediante la cual optamos por una uotra hipotesis. La cuestion es por cual de las dos hipotesis nos inclinamos dada la informacionproporcionada por una muestra aleatoria simple. Para ello se establece la regla o criterio dedecision que determina la region crıtica, subconjunto para el que se rechaza la H0. Para determinarel criterio de decision del contraste se divide el conjunto de posibles resultados del estadıstico decontraste en dos zonas, la region crıtica y su complementaria. Se rechaza H0 cuando el valor delestadıstico obtenido con la muestra, tm, pertenece a la region crıtica. El punto de partida paraestablecer la region crıtica es que se rechaza H0 si la discrepancia entre datos y H0 es grande. En elcontraste bilateral, se rechazarıa H0 si X se alejara mucho del valor establecido en H0, lo que parael estadıstico implica que:

|tm| =∣∣∣∣X − 5SX

∣∣∣∣ > c (3.2)

donde c es la discrepancia maxima que estamos dispuestos a asumir y se denomina valor crıtico. Encaso contrario, si |tm| ≤ c, no se rechaza la hipotesis nula. El valor de c depende de la distribucion delestadıstico de contraste cuando H0 es cierta y del error que estemos dispuestos a aceptar. Por ejemplopara una muestra de tamano n = 30 y α = 5 % tenemos un valor c = t(n−1)|α

2= t(30−1)| 0,025 = 2, 045.

En el ejemplo que venimos siguiendo tendremos:

tm =7, 8547− 54, 8865/

√30

= 3, 199 > 2, 045

luego rechazamos la hipotesis nula para un nivel de significacion del 5%.

3.2. Tipos de error en el contraste y potencia de un contraste

El rechazo de la H0 equivale a la aceptacion de H1 y viceversa. Se entiende la aceptacion o rechazode una hipotesis en el sentido de que la muestra ha proporcionado evidencia suficiente, aunque noabsoluta, para que sea razonable aceptar o rechazar la H0. Este proceso conlleva cometer errores,las posibilidades son:

64

Page 81: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

• La probabilidad de cometer el error Tipo I, rechazar cuando es cierta, se denomina nivel designificacion del contraste o tamano de la region crıtica y se denota por α.

• La probabilidad de cometer el error tipo II, no rechazar la hipotesis nula cuando esta es falsa,se denota por β y generalmente se utiliza su complementario a la unidad (1 − β) llamadapotencia del contraste (probabilidad de aceptar la hipotesis alternativa cuando es cierta)cuando las hipotesis son simples y funcion de potencia cuando son compuestas.

Deseamos cometer el menor error, pero no es posible eliminar los dos errores simultaneamente, esdecir, que el tamano sea 0 y la potencia igual a 1. En general, disminuir el error tipo I lleva consigoun aumento del error tipo II. Por ejemplo, no cometemos error tipo I si decidimos no rechazar nuncala hipotesis nula; pero la potencia del contraste serıa 0 porque tampoco rechazaremos H0 cuandosea falsa. Daremos mas importancia al error tipo I, por lo que elegiremos el tamano del contraste;los niveles mas habituales son 10 %, 5 % y 1%. Para el tamano elegido, trataremos de utilizar elcontraste con mayor potencia.

Diseno de pruebas estadısticas. Para disenar una prueba debemos elegir una muestra, un es-tadıstico, un nivel de significacion y una region crıtica. Normalmente se comienza eligiendo el nivelde significacion α, es decir acotando la probabilidad de cometer error Tipo I y para ello se fija laregion crıtica adecuada.

• Fijamos la region crıtica de forma que α sea pequeno, es decir que el error sea pequeno,queremos que la probabilidad de rechazar H0 cuando es cierta sea pequena.

• Tambien trataremos de que sea pequeno el error Tipo II es decir que la potencia del contrastesea maxima. En la practica se acota la probabilidad de cometer error Tipo I, α y despues setrata de minimizar la probabilidad de cometer error Tipo II, β. Cuando minimizamos la P (I)aumenta P (II) por tanto cuando aceptamos H0 debemos tener en cuenta que la potencia delcontraste sea suficiente.

3.3. El p-valor y conclusiones del contraste

Otra forma de llevar a cabo el contraste es utilizar el valor-p. Este valor es una probabilidad eindica cual serıa el menor nivel de significacion que se tendrıa que elegir para rechazar la hipotesisnula, dada la realizacion muestral del estadıstico. Si el contraste es a dos colas, el valor-p es dos vecesel area a la derecha de la realizacion muestral del estadıstico en valor absoluto, en la distribucionde este bajo la hipotesis nula, esto es

valor-p = 2 P(tj > tmj |H0)

Si el contraste es a una cola, el valor-p serıa el area a la derecha de la realizacion muestral delestadıstico en valor absoluto, en la distribucion de este bajo la hipotesis nula, esto es valor-p =

65

Page 82: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

P(tj > tmj |H0). A mayor valor-p, mayor serıa la probabilidad de error de tipo I si elegimos rechazarla hipotesis nula. Luego a mayor valor-p menor evidencia contra la hipotesis nula y por el contrarioa menor valor-p mayor evidencia contra la hipotesis nula. El calculo del valor-p es mas complicadoque elegir el nivel de significatividad a priori por lo que generalmente se realiza en el ordenador.

3.4. Pasos en la realizacion de un contraste

Resumiendo un contraste de hipotesis tiene las siguientes etapas:

1) Formulacion de dos hipotesis opuestas, hipotesis nula, H0 e hipotesis alternativa H1.

2) Derivacion del estadıstico de contraste correspondiente y su distribucion.

3) Seleccionar el nivel de significatividad α o probabilidad de cometer error tipo I.

4) Calculo muestral del estadıstico y aplicacion del criterio de decision para elegir una de las doshipotesis. El criterio de decision es: si el valor muestral del estadıstico es mayor que el valorc, el valor en tablas de la distribucion para el nivel de significatividad elegido, se rechaza lahipotesis nula. En caso contrario se acepta.

Si alternativamente utilizamos el valor-p, una vez calculado este la regla de decision es sivalor-p < α se rechaza H0. Si valor-p > α no se rechaza H0

El contraste de hipotesis tambien puede realizarse mediante un intervalo de confianza. En ese casolos pasos 1), 2) y 3) no cambian. En el paso 4) se calcula el intervalo de confianza a 100(1− α)% yse comprueba si el valor del parametro segun la hipotesis nula pertenece al intervalo, en cuyo casose acepta la hipotesis nula. En caso contrario se rechaza. Notar que la region de aceptacion es lacomprendida dentro del intervalo de confianza.

3.5. Aplicaciones

3.5.1. Contrastes de la media de una distribucion normal

Ejemplo: zona crıtica en un contraste bilateral sobre la media de una distribucion normal.

Veamos como se determina el valor crıtico c en el ejemplo sobre la media del precio. El tamano α

es la probabilidad de rechazar H0 cuando esta es cierta. Como (3.2) es la condicion para rechazary (3.1) es la distribucion del estadıstico cuando H0 es cierta, esto implica que:

α = Prob(|t| > c) cuando el estadıstico t ∼ t(n− 1)

En este caso, rechazaremos H0 si el valor del estadıstico t obtenido con los datos es un valor pocoprobable en la distribucion del estadıstico bajo H0.

66

Page 83: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Este grafico muestra la distribucion del estadısticosi H0 : µ = 5 es cierta. La region crıtica es la zo-na punteada en las dos colas de la distribucion, demodo que en cada cola se acumula una probabilidadα/2. Ası, c es la ordenada de la distribucion t(n−1)que deja en la cola derecha una probabilidad α/2.Por ejemplo, para α = 0, 05 y n = 30, entonces,c = 2, 045 y se rechaza H0 al nivel de significaciondel 5% si |tm| > 2, 01.

Ejemplo 3.2

Con los datos de la Tabla 2.1 contrastamos: H0 : µ = 0 frente a H1 : µ 6= 0 con elestadıstico:

t =X − 0σ/√

n

H0∼ t(n− 1)

que aplicado a la muestra:

tm =7, 8547

4, 8865/√

30= 8, 804 > 2, 045 = t(30−1)| 0,05

2= t(30−1)| 0,025

luego rechazamos H0 para α = 5%.

Ejemplo 3.3

Con los datos de la Tabla 2.1 contrastamos: H0 : µ = 8 frente a H1 : µ 6= 8 con elestadıstico:

t =X − 8σ/√

n

H0∼ t(n− 1)

que aplicado a la muestra:

tm =∣∣∣∣

7, 8547− 84, 8865/

√30

∣∣∣∣ = | − 0, 1628| < 2, 045 = t(30−1)| 0,052

= t(30−1)| 0,025

luego no rechazamos H0 para α = 5 %.

Ejemplo: region crıtica en el contraste unilateral sobre la media de una distribucion normal. Enlos estudios econometricos a veces se plantean contrastes a una cola. En el estudio sobre el salariomedio por hora supongamos que interesa contrastar si la media es cinco o mayor que cinco, por loque planteamos las hipotesis:

H0 : µ = 5 frente a H1 : µ > 5

Al mantenerse la misma hipotesis nula, el estadıstico de contraste es (3.1), que bajo H0 sigue unadistribucion t(n − 1). La hipotesis alternativa determina el criterio de decision. Rechazaremos H0

cuando la discrepancia tome valores alejados de H0 y compatibles con H1, es decir, cuando t tomevalores positivos grandes. La region crıtica esta definida por la condicion t > c. El valor crıtico c sedetermina por:

α = P (t > c) cuando el estadıstico t ∼ t(n− 1)

67

Page 84: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

La region crıtica del contraste es la zona pun-teada en una cola de la distribucion, la derecha.Ası, c es la ordenada de la distribucion t(n− 1)que acumula en la cola derecha una probabilidadα.Por ejemplo, si α = 0, 05 y n = 30, entonces elnivel crıtico es c = 1, 699 y no se rechaza H0 alnivel de significacion del 5% si tm < 1, 699.

En general, se usan las expresiones rechazar o no rechazar H0. Esto es ası porque en un contrastemantenemos la H0 mientras no haya suficiente evidencia en contra. Los datos pueden rechazar lahipotesis, pero no pueden probar que H0 sea correcta, por lo que no se dice que se acepta H0. Norechazar H0 significa que los datos no son capaces de mostrar su falsedad.

Ejemplo 3.4

Con los datos de la Tabla 2.1 contrastamos: H0 : µ = 8 frente a H1 : µ > 8 con elestadıstico:

t =X − 8σ/√

n

H0∼ t(n− 1)

que aplicado a la muestra:

tm = | − 0, 1628| < 1, 699 = t(30−1)| 0,05

luego no rechazamos H0 para α = 5 %.

Ejemplo: utilizacion de los intervalos de confianza para la realizacion de contrastes. En el Tema2 se construyo, utilizando los datos de la Tabla 2.1, un intervalo de confianza al 95 % para la mediadel salario medio por hora. El intervalo construido es el siguiente:

P (6, 070 < µ < 9, 6389) = 0, 95

Este intervalo puede utilizarse para realizar contraste de hipotesis, por ejemplo si queremos con-trastar: H0 : µ = 8 frente a H1 : µ 6= 8 basta con que comprobemos si el valor 8 esta o no dentrodel intervalo; 8 ∈ IC0,95(µ) luego no rechazamos la hipotesis nula.

Para el contraste: H0 : µ = 0 frente a H1 : µ 6= 0 obtendrıamos con el mismo intervalo deconfianza 0 6∈ IC0,95(µ) luego rechazamos la hipotesis nula. Lo cual es logico ya que del propiointervalo de confianza concluimos que con confianza del 95% la media poblacional estara entre losvalores 6, 070 y 9, 6389.

3.5.2. Otros ejemplos

Ejemplo: contrate de igualdad de medias Este es un contraste muy habitual, por ejemplo, enestudios sociales interesa analizar si hay discriminacion salarial, de modo que las mujeres perciben

68

Page 85: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

salarios mas bajos que los hombres. Habitualmente, se contrasta la hipotesis nula de que la mediadel salario que perciben las mujeres es igual al salario medio de los hombres frente a la hipotesisalternativa de que la media del salario es mayor en el grupo de hombres.

Para ejemplarizar este contraste vamos a retomar el Ejemplo 2.3 del Tema 2. En este ejemplodisponıamos de dos muestras normales independientes, con varianzas poblacionales iguales perodesconocidas. Una muestra sobre salario medio por hora para 252 mujeres proveniente de unapoblacion X ∼ N(µX , σ2

X) y una muestra de salario medio por hora para 274 hombres provenientede una poblacion Y ∼ N(µY , σ2

Y ) tal que:

X = 4, 5877 σX = 2, 5294Y = 7, 0995 σY = 4, 1609

Con estos datos construıamos el siguiente intervalo de confianza al 100(1− α)% para la diferenciade las medias:

(4, 5877− 7, 0995)± t(524)α/2

√2, 52942

252+

4, 16092

274

Para contrastar la hipotesis de que la media del salario medio por hora que perciben las mujeres esigual la media del salario medio por hora de los hombres frente a la hipotesis alternativa de que lamedia es mayor en el grupo de hombres, planteamos H0: µY = µX frente a H1: µY > µX .

El procedimiento de contraste se basa en la comparacion de las dos medias muestrales, Y y X.Pequenas diferencias entre ellas apoyan la H0. El estadıstico de contraste y su distribucion bajo H0

son:

t =(Y − X)

S√

1nX

+ 1nY

H0∼ t(nX+nY −2)

donde S2 es el estimador de la varianza comun utilizando todos los datos:

S2 =(nX − 1)σ2

X + (nY − 1)σ2Y

nX + nY − 2

El valor muestral del estadıstico es:

tm =7, 0995− 4, 5877√

(252− 1) 2, 52942 + (274− 1) 4, 16092

252 + 274− 2

√1

252+

1274

= 8, 278523

Dada H1, rechazamos H0 si la diferencia (Y −X) es grande. La region crıtica, por tanto, esta definidapor t > c, siendo c el valor crıtico. El contrate es a una cola, 8, 278523 > 1, 64 = t(524)| 0,05 luegorechazamos la hipotesis nula para α = 5 %.

Ejemplo: contraste de igualdad de varianzas. En el contraste anterior hemos supuesto que lasvarianzas de ambas distribuciones normales aunque desconocidas, eran iguales. Este supuesto sepuede contrastar. Vamos a contrastar si la varianza es la misma en ambas distribuciones frente a

69

Page 86: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

que sea menor para la muestra que recoge los salarios medios por hora en las mujeres. Por tanto,planteamos el contraste de hipotesis:

H0 : σ2Y = σ2

X frente a H1 : σ2Y > σ2

X

El procedimiento de contraste consiste en comparar las dos varianzas muestrales, σ2X y σ2

Y , que sonestimadores insesgados de las respectivas varianzas poblacionales. Valores cercanos de σ2

X y σ2Y , o

ratios σ2Y /σ2

X ' 1, apoyan H0. El estadıstico de contraste y su distribucion bajo H0 son:

F =σ2

Y

σ2X

H0∼ F(nY − 1, nX − 1)

Dada H1, rechazamos H0 si el ratio σ2Y /σ2

X esta muy por encima de 1. La region crıtica, portanto, esta definida por σ2

Y /σ2X > c, siendo c el valor crıtico. El valor muestral del estadıstico es:

Fm = 4,160862

2,529362 = 2, 7061 > 1 = F(273, 251)| 0,05 luego rechazamos H0 para α = 5 %.

Ejercicio 3.1

Utilizando los datos de la Tabla 2.2:

1. Calcular un intervalo de confianza 95 % para la media de la distribucion.

2. Contrastar H0 : µ = 16, 5 H1 : µ > 16, 5.

3. Contrastar H0 : µ = 17 H1 : µ 6= 17.

70

Page 87: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

3.6. Bibliografıa del tema

Referencias bibliograficas basicas:

• Teorica:

[1] Gujarati, D. y Porter, D.C. (2010). Econometrıa. Editorial McGraw-Hill, Madrid. 5a edicion.

[2] Newbold, P., Carlson, W.L. y Thorne, B. (2008). Estadıstica para administracion y economıa.Prentice Hall. Madrid.

[3] Wooldridge, J.M. (2006). Introduccion a la Econometrıa. Ed. Thomson Learning, 2a edicion.

[4] Ruiz Maya, L. y Martın Pliego, F.J. (2005). Fundamentos de inferencia estadıstica, 3a edicion,Editoral AC, Madrid.

• Ejercicios con gretl:

[1] Ramanathan, R. (2002), Instructor’s Manual to accompany, del libro Introductory Econometricswith applications, ed. South-Western, 5th edition, Harcourt College Publishers.

[2] Wooldridge, J. M. (2003), Student Solutions Manual, del libro Introductory Econometrics: Amodern Approach, ed. South-Western, 2nd edition.

Referencias Bibliograficas Complementarias:

[1] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regulez, M.; Zarraga, A. y Zubia, M. (2009). Analisis deregresion con gretl. OpenCourseWare. UPV-EHU. (http : //ocw.ehu.es/ciencias − sociales − y −juridicas/analisis− de− regresion− con− greti/Courselisting).

[2] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regulez, M.; Zarraga, A. y Zubia, M. (2009). EconometrıaBasica Aplicada con Gretl. Sarriko On Line 8/09. http://www.sarriko-online.com. Publicacion on-line de la Facultad de C.C. Economicas y Empresariales.

[3] Esteban, M.V. (2007). Estadıstica Actuarial: Regresion. Material docente. Servicio de Publica-ciones.

[4] Esteban, MV (2008). Estadıstica Actuarial: Regresion Lineal, Sarriko On Line 3/08. Publica-cion on-line de la Facultad de CC. Economicas y Empresariales, UPV/EHU. http://www.sarriko-online.com.

[5] Esteban, M.V. (2007). Coleccion de ejercicios y examenes. Material docente. Servicio de Publi-caciones.

[6] Fernandez, A., P. Gonzalez, M. Regulez, P. Moral, V. Esteban (2005). Ejercicios de Econometrıa.Editorial McGraw-Hill.

[7] Greene, W. (1998), Analisis Econometrico, Ed. Prentice Hall, 3a edicion.

[8] Ramanathan, R. (2002), Introductory Econometrics with applications, Ed. South-Western, 5th.edition.

[9] Verbeek, M. (2004). A Guide to Modern Econometrics. Wiley.

71

Page 88: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

72

Page 89: Estad´ıstica Actuarial y Análisis de Regresión

Tema 4

Modelo econometrico: introduccion

En los temas anteriores se ha analizado el comportamiento de una variable, sin relacionarla con otras.En este tema y los dos siguientes vamos a abordar como se relacionan las variables entre sı. De ellose ocupa la Econometrıa. Ası, en estos temas aprenderemos a interpretar la informacion estadısticasobre la realidad economica. La importancia de la Econometrıa va mas alla de la disciplina de laeconomıa. La Econometrıa es un conjunto de instrumentos de investigacion empleados en finanzas,marketing, direccion de empresas, negocios, historia, sociologıa incluso agronomıa.

La herramienta basica es un modelo econometrico que conjuga los esquemas teoricos sobre el funcio-namiento de la Economıa con las tecnicas estadısticas de analisis de datos. Un modelo puede teneruna estructura muy compleja, pero nos centramos en el modelo mas sencillo, y que da contenidoa buena parte de la asignatura, el modelo de regresion lineal general. Este modelo explica elcomportamiento de una unica variable economica mediante un conjunto de variables. En este temadefiniremos la disciplina de la Econometrıa e introduciremos conceptos relacionados con un modeloeconometrico: los datos, las variables, los parametros, entre otros elementos de un modelo.

El desarrollo de la Econometrıa ha sido enormemente facilitado por el avance en la informatica. Elcurso, con gran componente aplicado necesita complementarse con el aprendizaje de un softwareeconometrico. El paquete econometrico a utilizar es gretl; se trata de software de libre uso, facilde manejar y que tiene acceso a las bases de datos que se estudian en muchos libros de analisiseconometrico. El alumno debera aprender su manejo, en paralelo con los conceptos estadısticos yeconometricos, y a interpretar adecuadamente los resultados obtenidos.

Competencias a trabajar en estas sesiones:

4. Analizar de forma crıtica los elementos basicos de los modelos econometricos para comprenderla logica de la modelizacion econometrica y poder especificar relaciones causales entre variableseconomicas.

Al final de este tema deberıais ser capaces de:

1. Distinguir entre un modelo economico y un modelo econometrico.

73

Page 90: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

2. Conocer las etapas en la realizacion de un trabajo aplicado.

3. Distinguir los diferentes tipos de datos empleados en el analisis econometrico.

4. Distinguir las diferentes variables implicadas en un modelo econometrico.

5. Distinguir entre parametros de la relacion economica y parametros de la relacion probabilıstica.

6. Distinguir entre estimador y estimacion.

7. En gretl : Leer datos en gretl , tanto archivos de muestra como archivos propios. Introducirdatos en gretl y realizar un analisis descriptivo basico.

Bibliografıa Recomendada:

Al final del tema teneis recogida la bibliografıa correspondiente. En particular se os recomienda leerlos capıtulos correspondientes a la bibliografıa basica detallados a continuacion:

• Gujarati, D. y Porter, D.C. (2010). Introduccion.

• Newbold, P., Carlson, W.L. y Thorne, B. (2008). Cap. 1.

• Ramanathan, R. (2002). Cap. 1.

• Ruiz Maya, L. y Martın Pliego, F.J. (2005). Introduccion.

• Wooldridge, J.M. (2006). Cap. 1.

74

Page 91: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

¿Que es la Econometrıa?

Econometrıa en sentido estricto significa medida de la economıa. La Econometrıase ocupa de formular, cuantificar y valorar las relaciones entre variables economicas,para ello necesita de otras materias como son la Teorıa Economica, la Estadıstica y lasMatematicas.

La Econometrıa se ocupa del estudio de estructuras que permitan analizar caracterısti-cas o propiedades de una variable economica utilizando como causas explicativas otrasvariables economicas. (Novales, 1993)

4.1. Modelo economico y modelo econometrico

Como es sabido la Teorıa Economica se ocupa del analisis de la economıa, como consecuencia delmismo formula las relaciones existentes entre las variables economicas objeto de estudio. Sin embargola teorıa Economica no se ocupa de cuantificarlas, este es un cometido especıfico de la Econometrıa,que sı tiene como objetivo cuantificar las relaciones entre variables. Unido a este objetivo aparece unpilar clave para la Econometrıa que es la disponibilidad de informacion cuantificada sobre las varia-bles que son objeto de estudio, en definitiva lo que llamamos datos. Las Matematicas nos serviranpara escribir en terminos de ecuaciones las teorıas economicas objeto de estudio y la Estadıstica nosproporciona instrumentos para el tratamiento de datos que nos permiten cuantificar las relaciones yvalorar los resultados de acuerdo a criterios establecidos. En ocasiones nos encontraremos con pro-blemas especıficos para los que la estadıstica no tiene solucion y por ello necesitaremos desarrollarlos instrumentos y metodos apropiados para llevar a cabo los objetivos.

Resumiendo, podrıamos decir que los objetivos de la Econometrıa son: verificacion de una teorıa,estudio del pasado, descripcion del presente, prediccion del futuro y orientacion de la accion polıtica.Para tratar de entender las relaciones entre la Econometrıa y las otras materias mencionadas en elapartado anterior vamos a desarrollar un ejemplo.

Supongamos que somos el gerente de una empresa y que estamos interesados en la relacion existenteentre las ventas de un producto de la empresa y su precio, las condiciones de la competencia y elciclo economico. Un modelo que tiene en cuenta estos supuestos podrıa ser el siguiente:

Vt = f(pt, pct, ct) (4.1)

Siendo V las ventas de la empresa y p el precio del producto, la variable pc es el precio de lacompetencia y nos sirve para aproximar las condiciones de la competencia. La variable c recoge elmomento del ciclo economico y sirve para aproximar las condiciones de mercado. El subındice t

denota el tiempo o momento en el que se considera la relacion. La ecuacion anterior postula quelas ventas son funcion del precio del producto, el precio de la competencia y del ciclo economico.Ademas la Teorıa Economica nos dice que la relacion entre ventas y precio es inversa, es decir, amayor precio menores ventas. Sin embargo sera positiva con respecto al precio de la competencia yaque si el precio de la competencia sube y el propio se mantiene es logico que se espere vender mas.De igual manera se vendera mas en momentos de auge economico que en momentos de depresionpor lo que la relacion entre las ventas y el ciclo economico tambien se esperara que sea positiva.

75

Page 92: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

El gerente tambien dispondra de informacion en forma de cifras o datos sobre cuales eran lasventas correspondientes a los diferentes precios que ha podido alcanzar su producto, el precio dela competencia y el momento del ciclo economico, variable que puede aproximarse a una variablecuantitativa que se mueva con el ciclo economico, por ejemplo el Indice de Produccion Industrial.

Por ahora como gerentes de la empresa disponemos de dos informaciones distintas. Por un ladodisponemos de un modelo economico que nos relaciona un conjunto de variables y por otro dispone-mos de observaciones o datos sobre las mismas para un periodo de tiempo dado. El gerente tambiendispone de un objetivo que es saber como responden las ventas de su producto a cambios en suprecio. Para unir ambos conjuntos de informacion podemos empezar por dar forma a la funcion.La eleccion mas sencilla serıa tomar una relacion lineal, que para la ecuacion (4.1) determinarıa elsiguiente modelo:

Vt = β1 + β2pt + β3pct + β4ct (4.2)

Los parametros o coeficientes de cada variable se representan por β1, β2 y β3. El coeficiente β2

le indica al gerente cuanto cambian las ventas si el precio de su producto cambia en una unidad,permaneciendo el resto de variables constantes.

Con los datos disponibles, que supongamos son:

fecha ventas precio p. competencia IPIt V p pc c

enero 80 1725 12,37 11,23 101,7febrero 80 1314 11,25 10,75 97,3

podemos relacionar las variables con los valores que han tomado en cada momento siguiendo laecuacion (4.2). Ası en enero de 1980 la relacion entre las ventas y el resto de variables ha sido:

1725 = β1 + 12, 37β2 + 11, 23β3 + 101, 7β4

Mientras que en febrero de 1980 fue:

1314 = β1 + 11, 25β2 + 10, 75β3 + 97, 3β4

Estas relaciones se repetirıan para cada mes del que tengamos datos. Como el valor de las variablescambia de un mes a otro, para que las igualdades se cumplan tambien deben cambiar los valores delos parametros. Este no es el objetivo del gerente, quien necesita la mejor aproximacion posible delvalor de las ventas al precio, que resuma toda la informacion disponible del periodo considerado.Para ello consideraremos que el modelo debe reflejar el comportamiento medio de la relacion entrevariables manteniendose la relacion entre las variables estable. Para que esto se cumpla y podamosrecoger el comportamiento medio incluiremos en el modelo un nuevo elemento al que llamaremosut. Ası el modelo especificado sera:

Vt = β1 + β2pt + β3cpt + β4ct + ut (4.3)

El nuevo elemento debera ser capaz de mantener la igualdad de la relacion para cualquier conjuntode datos, tomando por tanto a veces valores positivos y en otras ocasiones valores negativos; aveces grandes, a veces pequenos. La interpretacion del mismo resulta bastante intuitiva: recoge

76

Page 93: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

todos los efectos que afectan a las ventas en cada perıodo muestral y que no estan explıcitamenterecogidos en las variables que el modelo contiene. Si el modelo ha recogido todas las influencias“importantes y sistematicas” que existen sobre las ventas, el nuevo elemento, que en adelantellamaremos perturbacion recogera los efectos no sistematicos que seran, en general, mas erraticos.Por tanto es factible considerar su comportamiento como aleatorio. Ası a la perturbacion ut se letrata como una variable aleatoria cuya distribucion de probabilidad es preciso especificar al mismotiempo que el resto del modelo.

Dado que el modelo recogido por la ecuacion (4.3) contiene una variable aleatoria para obtenerresultados a partir del mismo necesitaremos de la Estadıstica. Mediante procedimientos estadısticospodremos cuantificar la relacion entre las variables, obteniendo valores numericos para los coefi-cientes β1, β2, β3 y β4 que reflejen la informacion que contienen los datos. De esta forma el modelogeneral representado por la ecuacion (4.3) que en principio puede servir para analizar el comporta-miento de cualquier empresa servira para contestar a las preguntas que el gerente se hace sobre supropia empresa convirtiendose en un modelo especıfico valido para la toma de decisiones.

El ejemplo anterior describe una situacion muy concreta pero la Econometrıa es util en otras muchassituaciones, por ejemplo:

• Para analizar el efecto del impacto de cambios en la polıtica fiscal sobre los indicadoreseconomicos de un paıs, la demanda interna, los tipos de interes, exportaciones e importa-ciones, desempleo, grado de morosidad.

• Los directivos de la empresa Mercedes pueden estar interesados en los factores que determinanla demanda de automoviles.

• Para analizar los efectos de la publicidad en las ventas de una empresa.

• Para analizar el impacto en la funcion de produccion de cambios en los factores de produccion.

• Analizar si la demanda de tabaco se ve afectada por las campanas anti tabaco.

• Analizar si las campanas publicitarias contra el consumo de alcohol cuando se conduce reduceel numero de siniestros.

• Estudiar como afecta el tabaquismo al peso de nacimiento y posterior crecimiento de un bebe.

4.2. Etapas en la elaboracion de un modelo econometrico

Un estudio econometrico consta de las siguientes etapas, Heij , de Boer, Franses, Kloer y Dijk (2004):

• Formulacion del problema. Se trata de determinar la cuestion de interes. Debemos plantear deforma precisa las preguntas que nos interesa responder. La teorıa economica puede ayudarnosa enfocar el problema, a determinar que variables estan involucradas y cual puede ser larelacion entre ellas.

77

Page 94: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

• Recoleccion de datos estadısticos relevantes para el analisis. En el caso del gerente los datosestan disponibles en los balances de la propia empresa. Los resultados del analisis van adepender en gran medida de la calidad de los datos. Sin embargo, no siempre es sencilloobtener los datos relevantes para el analisis. Podemos encontrar problemas como la ausenciade algun dato, cambios en la definicion de una variable, fallos en el metodo de recogida, teneruna cantidad insuficiente de datos o no disponer de informacion relativa a una variable.

• Formulacion y estimacion del modelo. En esta fase hay que dar forma al problema inicialen terminos de un modelo. Determinar la variable a explicar, en el ejemplo las ventas, y lasvariables explicativas, en el ejemplo el precio, el precio de la competencia y el ciclo economico;la forma funcional del modelo y la distribucion probabilıstica de la perturbacion aleatoria.

El siguiente paso es la estimacion de los parametros desconocidos de la distribucion y que sonde interes para el analisis. La estimacion consiste en utilizar los datos y toda la informacionrelevante para aprender algo sobre los parametros desconocidos. En la interpretacion de losresultados de estimacion es importante tener en cuenta que no conocemos el valor de losparametros, por lo que unicamente vamos a hacer afirmaciones del tipo “con un 95% deconfianza, el aumento del impuesto sobre carburantes no afecta al consumo de gasolina”.

Existen muchos metodos de estimacion. La eleccion entre uno u otro depende de las propie-dades del modelo econometrico seleccionado. Es decir, una mala seleccion del modelo tambieninfluye en la validez de las estimaciones. Un curso introductorio de Econometrıa, como este,se suele centrar en el estudio del modelo de regresion lineal y su estimacion mediante mınimoscuadrados ordinarios, que son instrumentos sencillos y muy utiles en la practica.

• Analisis del modelo. Se trata de estudiar si el modelo elegido es adecuado para recoger elcomportamiento de los datos. Consiste en una serie de contrastes diagnosticos que valoran siel modelo esta correctamente especificado, es decir, si los supuestos realizados son validos. Sies necesario, se modifica el modelo en base a los resultados obtenidos en los contrastes.

• Aplicacion del modelo. Una vez obtenido un modelo correcto, se utiliza para responder a lascuestiones de interes y para la prediccion. Un modelo correctamente especificado y estimadoha de ser utilizado para predecir. Este concepto implica tanto determinar los valores futurosde la variable endogena como contestar a preguntas del tipo ¿que pasarıa sı...?, en definitivadebe servirnos para dar consejos de polıtica economica.

4.3. Tipologıa de datos y variables en Econometrıa

El modelo econometrico generico completamente especificado tiene la siguiente forma:

Yt = β1 + β2X2t + β3X3t + . . . + βKXKt + ut t = 1, 2, . . . , T (4.4)

Donde Y es la variable a explicar o variable endogena, X2, X3, . . ., XK son las variables explicati-vas, o regresores, del modelo. El subındice que las acompana indica el numero de variables explicati-vas del modelo, el modelo anterior tiene K-variables explicativas. Los coeficientes βk k = 1, 2, . . . ,K

son los parametros a estimar, que se suponen constantes. Ademas es de interes notar que el parame-tro β1 acompana a la variable explicativa X1 constante e igual a la unidad en todo momento del

78

Page 95: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

tiempo. El subındice t hace referencia al tiempo y por tanto T indica el tamano de la muestra deobservaciones disponible.

La diferencia entre un modelo economico y un modelo econometrico es la perturbacion aleatoriaque incluimos en el modelo econometrico. A partir de este elemento en el modelo econometricopodemos distinguir dos partes la parte sistematica del modelo y la parte aleatoria. La primeracorresponde al comportamiento medio o estable de la relacion y la segunda se corresponde con laperturbacion aleatoria, ut.

El objetivo sobre el modelo generico representado por la ecuacion (4.4) es conocer los valores de losparametros desconocidos βk k = 1, 2, . . . , K. Para llevar a cabo este objetivo utilizaremos metodosestadısticos. Para ello al modelo especificado deberemos de anadir hipotesis sobre el comportamientoprobabilıstico de la perturbacion aleatoria que caractericen su distribucion. En general, supondremosque dicha perturbacion tiene una distribucion centrada en cero, o sea media cero, lo que implicaque el comportamiento medio de la variable a explicar esta recogido en su totalidad por la partesistematica del modelo:

E(Yt) = β1 + β2X2t + β3X3t + . . . + βKXKt t = 1, 2, . . . , T (4.5)

Ademas de la media debemos caracterizar tambien la varianza, covarianzas y distribucion de laperturbacion.

4.3.1. Conceptos basicos

En los puntos anteriores han surgido algunos conceptos que deberıan quedar claros para poderreferirnos a ellos con propiedad. Revisaremos algunos de ellos.

• Poblacion y muestra:Poblacion son todos los posibles valores que toma la variable objeto de estudio. La muestraserıa la parte de la poblacion que vamos a utilizar en el estudio para extraer conclusiones.Por tanto la muestra esta contenida en la poblacion y nosotros la utilizaremos para establecerconclusiones que puedan extrapolarse a la poblacion.

• Datos:Los datos son los valores numericos que toman tanto la variable a explicar como las variablesexplicativas. Generalmente los obtenemos de series estadısticas cuyas fuentes pueden ser ofi-ciales o privadas. La importancia de los datos esta determinada por la unidad de medida. Lospodemos clasificar en:

1. Datos de serie temporal : Reflejan la evolucion de una variable a lo largo del tiempo,segun esto la variable estara ordenada cronologicamente con un orden logico. Las varia-bles medidas en series temporales se denotan con el subındice t y este puede referirse aobservaciones temporales mensuales, trimestrales, diarias cuatrimestrales, anuales, etc.Ejemplo: el Producto Nacional Bruto (PNB) de 1965-2000. En este caso la poblacionserıan todos los posibles valores del PNB a lo largo del tiempo y la muestra el perıodoque vamos a estudiar, de 1965 al 2000.

79

Page 96: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

2. Datos de seccion cruzada o corte transversal : Son datos atemporales dado que midenel comportamiento de una variable en diferentes unidades y en el mismo momento deltiempo. Ejemplo: ventas de las empresas metalurgicas en el Paıs Vasco en el ano 1999.Esta serıa la muestra a utilizar y la poblacion estarıa constituida por todas las unidades.

3. Datos de panel : es la union de datos de serie temporal y datos de seccion cruzada. Estanfuera del objetivo del curso.

• Variables:Una variable es un ente economico que toma diferentes valores. Podemos distinguir entre va-riables exogenas, aquellas que inciden en el modelo desde el exterior y variables endogenas,aquellas que queremos explicar con el modelo. A las variables exogenas tambien se las de-nomina variables explicativas o independientes y a la variable endogena tambien se le puededenominar como variable a explicar o dependiente. Ademas debemos tener en cuenta quepodemos encontrarnos con relaciones simultaneas como:

Yt = β1 + β2Yt−1 + ut

o comoCt = β1 + β2Yt + ut Yt = Ct + It

donde las variables cambian su papel segun miremos a una ecuacion u otra. Podemos distinguir,entre otros, los siguientes tipos de variables:

1. - Fijas: aquellas que toman valores que el investigador puede controlar.

- Estocasticas: aquellas cuyo valor cambia segun una ley de probabilidad.

2. - Cuantitativas: aquellas que podemos valorar numericamente. Por ejemplo, la rentadisponible de una familia, el precio de un bien, la renta per capita.

- Cualitativas: aquellas que miden cualidades y que por lo tanto no se miden con un valornumerico y sera el investigador el que se lo asigne segun un criterio. Por ejemplo, si unindividuo esta o no casado, si trabaja en turno de noche o no, si tiene estudios superioreso no. En las variables cualitativas es el investigador el que establece el valor de la variablepara cada caracterıstica. Por ejemplo:

S1i =

1 si el individuo i es hombre0 en caso contrario

S2i =

1 si el individuo i es mujer0 en caso contrario

definen dos variables cualitativas S1i y S2i que permiten recoger el sexo del individuo yver por ejemplo si existe discriminacion salarial por sexo en un estudio sobre la funcionde salario.

• Los parametros:Los parametros son los valores que permanecen desconocidos del modelo. En un modelo eco-nometrico podemos distinguir dos tipos de parametros:

80

Page 97: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

1. Los parametros de la relacion economica: Son las ponderaciones que aplicadas a lasvariables exogenas nos permiten calcular la endogena.

Vt = β1 + β2pt + β3cpt + β4ct + ut (4.6)

En el modelo anterior β1, β2, β3 y β4.

2. Los parametros de la estructura probabilıstica: son los parametros que determinan laestructura de la parte aleatoria del modelo, media y varianza de la perturbacion aleatoriay de la variable endogena.

• Modelo:Hemos visto que un modelo no es mas que un conjunto de relaciones entre variables economicasy que representamos mediante relaciones matematicas. Clasificacion de los modelos:

1. - Modelos exactos: aquellos que determinan exactamente el valor de una variable conocidoel valor de otra-s:

Y = β1 + β2X

- Modelos estocasticos: aquellos que incluyen alguna variable aleatoria:

Yt = β1 + β2Xt + ut u ∼ (m(u), V (u))

2. - Modelos uniecuacionales: aquellos que se componen de una unica ecuacion:

Ct = β1 + β2Yt + ut

- Modelos multiecuacionales: aquellos que se componen de mas de una ecuacion. Porejemplo cuando una variable influye en otra-s y a la vez es influida por estas:

Ct = β1 + β2Yt + ut Yt = Ct + It

3. - Modelos estaticos: Cuando el tiempo no aparece de forma explıcita en la ecuacion ytodas las variables se miden en el mismo momento.

- Modelos dinamicos: Aquellos que tienen variables definidas en diferentes momentos deltiempo o el tiempo aparece como variable explıcita en la ecuacion. Un ejemplo de losprimeros serıa:

Ct = β1 + β2Yt + β3Ct−1 + ut

mientras que un ejemplo de los segundos serıa el siguiente modelo no explıcitamentedinamico, generalmente llamado estatico historico

Ct = β1 + β2Yt + β3t + ut

donde el parametro c recoge la tendencia de la variable endogena a lo largo del tiempo.

4. - Modelos basados en series temporales: pueden ser dinamicos u estaticos.

- Modelos basado en datos de corte transversal : son siempre estaticos.

81

Page 98: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

• Parametro, estimador y estimacion:En el modelo:

Yt = β1 + β2Xt + ut t = 1, 2, . . . , T

tenemos diferentes parametros desconocidos. En la parte aleatoria aparecerıan los que ca-racterizan a la distribucion probabilıstica de la perturbacion aleatoria y en la parte sistematicaaparecen β1 y β2. Todos son parametros desconocidos. Los llamaremos parametros poblacio-nales ya que lo que nosotros hemos especificado es un modelo general que deberıa recoger elcomportamiento medio de las variables en la poblacion. Para obtener resultados del modeloanterior nosotros lo aplicamos a la muestra, de tamano T. Nuestro objetivo es determinar elvalor de estos parametros poblacionales desconocidos de la muestra. Para aproximarnos a esevalor utilizamos tecnicas estadısticas, en concreto estimadores. Un estimador no es mas queuna formula que nos dice como debemos obtener los valores numericos de β1 y β2 mediante lamuestra. Al valor finalmente obtenido en la muestra le llamamos estimacion. En concreto lanotacion matematica para estos conceptos, aplicada al parametro β2 serıa:

β2 parametro poblacionalβ2 estimador0,5 estimacion

donde por ejemplo:

β2 =∑T

t=1(Yt − Y )(Xt − X)∑Tt=1(Xt − X)2

= 0, 5

Los estimadores van a ser variables aleatorias con distribucion a determinar ya los que exigi-remos ciertas propiedades que van a determinar esta distribucion.

• Estructura:Cuando estudiamos la relacion entre las variables economicas especificamos un modelo eco-nometrico. En la especificacion elegimos la forma funcional del modelo y las variables explica-tivas a incluir ası como las propiedades de la perturbacion. Una vez que el modelo esta total-mente especificado le estimaremos y tendremos unos valores para los parametros. A la relacionresultante le llamamos estructura. Un modelo especificado serıa:

Yt = β1 + β2Xt + ut t = 1, 2, . . . , T

mientras que una estructura para ese modelo dada una muestra de tamano T podrıa ser:

Yt = 20 + 5Xt

Notar que un modelo puede tener diferentes estructuras segun los valores que las variablesexogena y endogena tomen en la muestra.

4.3.2. Fuentes de datos

Encontrar y recopilar datos no es siempre sencillo. En ocasiones es muy costoso coleccionar los datosadecuados a la situacion y manejarlos. Sin embargo, esta tarea se ha visto favorecida en los ultimos

82

Page 99: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

anos por la mejora en la recogida de datos y el hecho de que muchos organismos permiten acceder asus bases de datos en la World Wide Web. Algunos organismos que publican datos macroeconomicosson:

• Instituto Vasco de Estadıstica (EUSTAT): http://www.eustat.es.

• Banco de Espana: http://www.bde.es → Estadısticas. Tambien publica el Boletın estadısticomensual y el Boletın de coyuntura mensual.

• Instituto Nacional de Estadıstica (INE): http://www.ine.es → Inebase o Banco tempus. Estandisponibles, por ejemplo, los resultados de la encuesta de poblacion activa, la ContabilidadNacional o el boletın estadıstico mensual. Ademas, en enlaces se encuentran otras paginasweb de servicios estadısticos.

• EUROSTAT: Es la Oficina Estadıstica de la Union Europea, se encarga de verificar y analizarlos datos nacionales recogidos por los Estados Miembros. El papel de Eurostat es consolidar losdatos y asegurarse de que son comparables utilizando una metodologıa homogenea. La infor-macion en terminos de tablas estadısticas, boletines estadısticos e informativos, incluso docu-mentos de trabajo papers se puede encontrar en la direccion: http://europa.eu.int/comm/eurostat.

• Organizacion para la Cooperacion y Desarrollo Economico (OCDE): http://www.oecd.org,Statistical portal, statistics. Estan disponibles algunas series de las publicaciones Main Eco-nomic Indicators (mensual) o Comercio internacional.

• Fondo Monetario Internacional (FMI): http://www.imf.org. Para obtener datos sobre un am-plio conjunto de paıses tambien se puede consultar su publicacion Estadısticas FinancierasInternacionales (mensual y anual).

Muchos manuales de Econometrıa incluyen una base de datos que se analizan en el texto como ilus-tracion a la materia. En este curso utilizaremos principalmente los datos incluidos en Ramanathan(2002) y Wooldridge (2006) que estan accesibles como archivos de muestra en gretl.

83

Page 100: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

4.4. Bibliografıa del tema

Referencias bibliograficas basicas:

• Teorica:

[1] Gujarati, D. y Porter, D.C. (2010). Econometrıa. Editorial McGraw-Hill, Madrid. 5a edicion.

[2] Newbold, P., Carlson, W.L. y Thorne, B. (2008). Estadıstica para administracion y economıa.Prentice Hall. Madrid.

[3] Wooldridge, J.M. (2006). Introduccion a la Econometrıa. Ed. Thomson Learning, 2a edicion.

[4] Ruiz Maya, L. y Martın Pliego, F.J. (2005). Fundamentos de inferencia estadıstica, 3a edicion,Editorial AC, Madrid.

• Ejercicios con gretl:

[1] Ramanathan, R. (2002), Instructor’s Manual to accompany, del libro Introductory Econometricswith applications, ed. South-Western, 5th edition, Harcourt College Publishers.

[2] Wooldridge, J. M. (2003), Student Solutions Manual, del libro Introductory Econometrics: Amodern Approach, ed. South-Western, 2nd edition.

Referencias Bibliograficas Complementarias:

[1] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regulez, M.; Zarraga, A. y Zubia, M. (2009). Analisis deregresion con gretl. OpenCourseWare. UPV-EHU. (http : //ocw.ehu.es/ciencias − sociales − y −juridicas/analisis− de− regresion− con− greti/Courselisting).

[2] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regulez, M.; Zarraga, A. y Zubia, M. (2009). EconometrıaBasica Aplicada con Gretl. Sarriko On Line 8/09. http://www.sarriko-online.com. Publicacion on-line de la Facultad de C.C. Economicas y Empresariales.

[3] Esteban, M.V. (2007). Estadıstica Actuarial: Regresion. Material docente. Servicio de Publica-ciones.

[4] Esteban, MV (2008). Estadıstica Actuarial: Regresion Lineal, Sarriko On Line 3/08.Publica-cion on-line de la Facultad de CC. Economicas y Empresariales, UPV/EHU. http://www.sarriko-online.com.

[5] Esteban, M.V. (2007). Coleccion de ejercicios y examenes. Material docente. Servicio de Publi-caciones.

[6] Fernandez, A., P. Gonzalez, M. Regulez, P. Moral, V. Esteban (2005). Ejercicios de Econometrıa.Editorial McGraw-Hill.

[7] Greene, W. (1998), Analisis Econometrico, Ed. Prentice Hall, 3a edicion.

[8] Ramanathan, R. (2002), Introductory Econometrics with applications, Ed. South-Western, 5th.edition.

[9] Verbeek, M. (2004). A Guide to Modern Econometrics. Wiley.

84

Page 101: Estad´ıstica Actuarial y Análisis de Regresión

Tema 5

Modelo de Regresion Lineal General:especificacion, estimacion y contraste dehipotesis

Este es el tema central de la signatura. En el nos ocuparemos de analizar las relaciones entre variablesy nuestro objetivo fundamental sera explicar el comportamiento de una variable, que llamaremosvariable a explicar, mediante un conjunto de variables economicas, que llamaremos explicativas.Modelizaremos la relacion entre las variables mediante una ecuacion matematica y daremos entradaen la misma a una variable aleatoria que nos permita recoger la aleatoriedad del fenomeno economico.Ası, aprenderemos a especificar y estimar el Modelo de Regresion Lineal General. El metodo deestimacion que desarrollaremos son los Mınimos Cuadrados Ordinarios, MCO, que bajo ciertashipotesis de comportamiento sobre los distintos elementos del modelo nos proporcionara estimadorescon buenas propiedades, lineales, insesgados y de mınima varianza. Propiedades que desarrollamosen el Tema 2 y que en este tema buscaremos no solo para el estimador mınimo cuadratico sinotambien para otros estimadores alternativos.

Nos ocuparemos en profundidad de que el modelo este correctamente especificado, es decir de queincluyamos todas las variables necesarias para explicar el comportamiento de la variable objetivoy no incluyamos ninguna innecesaria. Veremos que consecuencias tiene en las propiedades de losestimadores y en la inferencia la omision de variables relevantes y la inclusion de variables irrelevan-tes. Tambien analizaremos que problemas nos crea la existencia de combinaciones lineales exactasy/o aproximadas entre las variables a incluir como explicativas en el modelo. Una vez el modeloeste correctamente especificado podremos realizar inferencia.

Con los conceptos aprendidos en el Tema 3 desarrollaremos el contraste de restricciones lineales querecojan hipotesis relevantes desde el punto de vista economico dentro del Modelo de Regresion LinealGeneral. Aprenderemos a contrastar si las variables son relevantes individual y conjuntamente paraexplicar el comportamiento de la variable objetivo y a hacer contraste de combinaciones lineales,entre otros contrastes de interes.

Para finalizar el tema veremos como realizar analisis de regresion y contraste de hipotesis medianteel software gretl.

85

Page 102: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Competencias a trabajar en estas sesiones:

1. Conocer distintos procedimientos de estimacion de parametros, ası como sus propiedades parapoder seleccionar adecuadamente la mejor alternativa de analisis.

2. Aplicar la metodologıa estadıstica adecuada para el diseno de contrastes de hipotesis para latoma de decisiones en el ambito profesional.

3. Analizar de forma crıtica los elementos basicos de los modelos econometricos para comprenderla logica de la modelizacion econometrica y poder especificar relaciones causales entre variableseconomicas.

4. Aplicar la metodologıa econometrica basica para estimar y validar relaciones economicas enbase a la informacion estadıstica disponible sobre variables economicas y utilizando los ins-trumentos informaticos apropiados.

5. Obtener e interpretar los resultados de un analisis estadıstico de datos economicos haciendouso de las fuentes de informacion apropiadas y de los instrumentos informaticos necesarios.

6. Presentar de forma clara y concisa, tanto oralmente como por escrito, las conclusiones obte-nidas en un caso de estudio particular.

Al final de este tema deberıais ser capaces de:

1. Explicar y entender el alcance de las hipotesis basicas sobre el comportamiento del modelo deregresion lineal general.

2. Interpretar los parametros de un modelo.

3. Aplicar el estimador de Mınimos Cuadrados Ordinarios, MCO.

4. Distinguir entre la perturbacion y el residuo u error de estimacion. Conocer las distribucionesrespectivas.

5. Conocer y saber demostrar las propiedades del estimador de MCO.

6. Conocer las implicaciones de tener combinaciones lineales exactas entre las variables explica-tivas del modelo.

7. Conocer las implicaciones de tener combinaciones lineales aproximadas entre las variablesexplicativas del modelo.

8. Conocer las consecuencias de una mala especificacion del modelo omitiendo variables explica-tivas relevantes.

9. Conocer las consecuencias de una mala especificacion del modelo incluyendo variables expli-cativas irrelevantes.

10. Saber especificar correctamente modelos que incluyan variables cualitativas.

86

Page 103: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

11. Saber derivar la distribucion del estimador de MCO.

12. Saber contrastar hipotesis relevantes para la relacion economica de las variables.

Bibliografıa Recomendada:

Al final del tema teneis recogida la bibliografıa correspondiente. En particular se os recomienda leerlos capıtulos correspondientes a la bibliografıa basica detallados a continuacion:

• Gujarati, D. y Porter, D.C. (2010). En Parte I: Caps. 1, 2, 3, 4, 5, 7, 8 y 9. Parte II: Cap. 10.

• Newbold, P., Carlson, W.L. y Thorne, B. (2008). Caps. 12, 13 y 14.

• Ramanathan, R. (2002). Caps. 3, 4, 5 y 7.

• Ruiz Maya, L. y Martın Pliego, F.J. (2005). Caps. 4, 5, 6, y 7.

• Wooldridge, J.M. (2006). Caps. 2, 3, 4 y 7

87

Page 104: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

5.1. Especificacion del Modelo de Regresion Lineal General (MRLG):supuestos basicos

En Economıa, en muchas situaciones, varias variables independientes influyen conjuntamente enuna variable dependiente. El modelo de regresion multiple permite averiguar el efecto simultaneode varias variables independientes en una variable dependiente. Por ejemplo:

• El salario es una funcion del nivel de estudios, la experiencia, la edad y el puesto de trabajo.

• El precio de un piso es funcion, entre otras caracterısticas, de su superficie, numero de habi-taciones y banos, localizacion y la existencia o no de ascensor.

• La cantidad vendida de un bien depende de su precio, del precio de la competencia y del cicloeconomico entre otras variables.

• La produccion de una empresa depende de los factores de produccion, capital y fuerza detrabajo.

La especificacion de un modelo consiste en seleccionar las variables independientes que explican a lavariable objeto de estudio y determinar la forma funcional del mismo. Vamos a comenzar el analisisde regresion determinando nuestro objetivo y los recursos disponibles para lograrlo.

Objetivo: Cuantificar la relacion existente entre una variable dependiente a la que denotaremospor Y , y un conjunto de K variables independientes, X1, X2, . . . , XK mediante la especificacion deun modelo lineal.

Recursos disponibles: Se dispone de una muestra de observaciones de las variables Y, X1, X2, . . . , XK

de tamano N , que es el numero de observaciones disponibles sobre todas las variables. Se denota:

Yi = observacion i-esima de Y

Xki = observacion i-esima de Xk ∀k = 1, . . . , K

donde Xki es una observacion de las disponibles en la muestra i = 1, 2, . . . , N .

Modelo de Regresion lineal General (MRLG). Modelizacion El Modelo de Regresion LinealGeneral se escribe:

Yi = β1X1i + β2X2i + . . . + βKXKi + ui i = 1, 2, . . . , N

donde habitualmente X1i = 1 ∀i, de forma que β1 es un termino independiente y entonces,

Yi = β1 + β2X2i + . . . + βKXKi + ui i = 1, 2, . . . , N.

88

Page 105: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Elementos del MRLG

• Y es la variable a explicar, variable dependiente o endogena.

• Xk k = 1, . . . , K son las K variables explicativas, variables independientes o exogenas.

• βk k = 1, . . . , K son los coeficientes de la regresion o parametros (desconocidos).

• u es la perturbacion aleatoria o termino de error.

• el subındice i denota la observacion correspondiente. El subındice i se utiliza cuando tene-mos observaciones de seccion cruzada y el subındice t cuando tenemos observaciones de serietemporal.

• N es el tamano muestral, el numero de observaciones disponibles de las variables objeto deestudio. Cuando trabajamos con datos de serie temporal el tamano muestral se denota por T .

La perturbacion aleatoria ui es una variable aleatoria no observable que pretende recoger:

• Variables no incluidas en el modelo.

• Comportamiento aleatorio de los agentes economicos.

• Errores de medida.

Representacion del MRLG en forma matricial El modelo

Yi = β1 + β2X2i + . . . + βKXKi + ui i = 1, 2, . . . , N (5.1)

puede escribirse para todas las observaciones disponibles como el siguiente sistema de N ecuaciones:

Y1 = β1 + β2X21 + β3X31 + . . . + βKXK1 + u1 i = 1Y2 = β1 + β2X22 + β3X32 + . . . + βKXK2 + u2 i = 2...

...Yi = β1 + β2X2i + β3X3i + . . . + βKXKi + ui i = i...

...YN = β1 + β2X2N + β3X3N + . . . + βKXKN + uN i = N

o bien en forma matricial como

Y(N × 1)

= X(N ×K)

β(K × 1)

+ u(N × 1)

donde

Y(N × 1)

=

Y1

Y2

...Yi

...YN

X(N ×K)

=

1 X21 X31 · · · XK1

1 X22 X32 · · · XK2

......

......

1 X2i X3i · · · XKi

......

......

1 X2N X3N · · · XKN

β(K × 1)

=

β1

β2

β3

...βK

u(N × 1)

=

u1

u2

...ui

...uN

89

Page 106: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

5.1.1. Hipotesis basicas.

El modelo debe completarse con la especificacion de las propiedades estocasticas de la variable deinteres Y . A partir de las propiedades de Y es posible conocer las propiedades de los distintosmetodos de estimacion, elegir el mejor estimador en el modelo, realizar contrastes, etc. Las con-diciones bajo las cuales vamos a trabajar en un principio se denominan hipotesis basicas. Bajoestas hipotesis estimaremos y analizaremos el modelo para, finalmente, predecir Y . En una segundaetapa, podemos considerar otras situaciones, relajando algunas de estas hipotesis, analizando si losprocedimientos de estimacion y contraste anteriores siguen siendo validos. Las hipotesis basicas serefieren a los distintos elementos de la regresion.

1. Hipotesis sobre la perturbacion aleatoria

• La perturbacion ui tiene media cero para todo i, E(ui) = 0 ∀i. La perturbacion midelas diferencias con respecto a un promedio, ui = Yi−E(Yi) y a priori no tenemos razonespara suponer que todas las desviaciones estan por encima o por debajo de ese promedio,por ello parece logico pensar que en media las desviaciones son cero.Para la perturbacion en i lo escribimos como E(ui) = 0 ∀i, cuando miramos al modeloen forma matricial escribimos esta hipotesis como E(u) = ~0:

E(u) = E

u1

u2...

uN

=

E(u1)E(u2)

...E(uN )

=

00...0

= ~0

• E(u2i ) = σ2

u ∀i es decir la varianza de la perturbacion es desconocida e igual a σ2

para todas las observaciones. Estamos suponiendo igual dispersion o variabilidad. A estahipotesis se le conoce con el nombre de Homocedasticidad :

V (ui) = E(ui −E(ui))2 = E(u2i ) = σ2

E(u21) = E(u2

2) = E(u23) = . . . = E(u2

N ) = σ2

El caso contrario, cuando la dispersion varıa a lo largo de la muestra se denomina Hete-rocedasticidad : E(u2

i ) = σ2i . La Figura 5.1 ilustra ambas situaciones:

Hay que notar que generalmente σ2 sera desconocida y por tanto en el modelo tendremosque estimar (K + 1) incognitas, los k-coeficientes poblacionales desconocidos mas lavarianza poblacional de la perturbacion σ2.

• E(uiuj) = 0 ∀i, j i 6= j. La covarianza entre perturbaciones de distintas observacioneses cero.

Cov(ui, uj) = E(ui − E(ui))(uj −E(uj)) = E(uiuj) = 0 ∀i, j i 6= j

90

Page 107: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

f ( u ) YXX 1 X 2 α +β X 6 X 6

f ( u )X 1 X 2

YXX 6 α+β

X 6Figura 5.1: Perturbaciones homocedasticas versus heterocedasticas

E(u1u2) = E(u1u3) = E(u4u20) = 0

A esta hipotesis tambien se la llama hipotesis de No Autocorrelacion. Uniendo la hipotesisde homocedasticidad y la hipotesis de no autocorrelacion podemos describir la matriz devarianzas y covarianzas de la perturbacion.

E(uu′) = σ2IN

E(uu′) = E

u1

u2...

uN

[u′1 u

′2 . . . u

′N

]= E

u1u′1 u1u

′2 . . . u1u

′N

u2u′1 u2u

′2 . . . u2u

′N

......

. . ....

uNu′1 uNu′2 . . . uNu′N

=

= E

u21 u1u

′2 . . . u1u

′N

u2u′1 u2

2 . . . u2u′N

......

. . ....

uNu′1 uNu′2 . . . u2N

=

E(u21) E(u1u

′2) . . . E(u1u

′N )

E(u2u′1) E(u2

2) . . . E(u2u′N )

......

. . ....

E(uNu′1) E(uNu′2) . . . E(u2N )

=

=

σ2 0 0 . . . 00 σ2 0 . . . 0...

......

. . ....

0 0 0 . . . σ2

= σ2

1 0 0 . . . 00 1 0 . . . 0...

......

. . ....

0 0 0 . . . 1

= σ2IN

A la hipotesis que reconoce que las varianzas de la perturbacion no son constantes enel tiempo o las observaciones se le conoce como hipotesis de Heterocedasticidad. A lahipotesis que reconoce que las covarianzas entre perturbaciones de distinto momento deltiempo, o entre distintas observaciones, son distintas de cero se le conoce con el nombrede Autocorrelacion.

91

Page 108: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

• Las perturbaciones siguen una distribucion normal. Si definimos la perturbacion aleato-ria como la suma de errores independientes entre sı, a traves del Teorema Central delLımite podremos suponer una distribucion normal y escribir esta hipotesis junto con lasanteriores como:

u ∼ NID(0, σ2IN )

donde estamos escribiendo la distribucion del vector de perturbaciones u y decimos quelas perturbaciones siguen una distribucion normal, identica e independientemente dis-tribuidas, de media cero y varianza constante igual a σ2. Son independientes dado quesu covarianza es cero y dado que todas tienen igual varianza y covarianza su distribu-cion es identica, por ello para una perturbacion en i escribimos su distribucion comoui ∼ N(0, σ2).

Estas propiedades pueden tambien escribirse conjuntamente como

ui ∼ NID(0, σ2u) ∀i = 1, . . . , N

o en forma matricial,

u(N × 1)

∼ N ( 0N(N × 1)

, σ2uIN

(N ×N)

)

2. Hipotesis sobre las variables exogenas X.

• Las variables explicativas son variables no aleatorias (no estocasticas o fijas). Esto quieredecir que cuando digamos que cambiamos la muestra los valores de las variables exogenasno cambian y solo cambian los valores de la variable endogena Yi.Como consecuencia de que las variables exogenas sean fijas tendremos que son incorre-lacionadas con las perturbaciones:

E(X ′u) = X ′E(u) = 0

• La matriz X es de rango completo e igual a K con K < N , rg(X) = K, es decir nohay ninguna combinacion lineal exacta entre las columnas de X, son todas linealmenteindependientes con lo que el rango de la matriz es igual al numero de coeficientes desco-nocido ya que en X tenemos una columna por parametro. A esta hipotesis se le conocecon el nombre de No Multicolinealidad. El que ademas exijamos que K < N es porquenecesitamos tener mas observaciones que coeficientes a estimar en el modelo.

3. Hipotesis sobre la forma funcional.

• Linealidad en los coeficientes.

• Modelo correctamente especificado. Todas las variables X1, X2, . . . , XK explican Y y nohay ninguna otra de fuera del modelo que explique a Y .

4. Los coeficientes permanecen constantes a lo largo de toda la muestra.

92

Page 109: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

5.2. Forma funcional. Interpretacion de los coeficientes.

Dados los supuestos basicos del MRLG,

E(Yi) = E(β1 + β2X2i + . . . + βKXKi + ui)

= β1 + β2X2i + . . . + βKXKi + E(ui)︸ ︷︷ ︸=0

=

= β1 + β2X2i + . . . + βKXKi.

A E(Yi) se la denomina Funcion de Regresion Poblacional (FRP) y sus coeficientes, puedeninterpretarse como:

• β1 = E(Yi|X2i = . . . = XKi = 0). Valor medio o esperado de Yi cuando las variables explica-tivas son todas cero.

• βk = ∂E(Yi)∂Xki

= ∆E(Yi)∆Xki

∀k = 2, . . . ,K. Incremento (o decremento) en el valor esperado deYi cuando la variable explicativa Xk se incrementa en una unidad, manteniendose constantes elresto de las variables. Un aumento unitario en la variable explicativa Xk conlleva un aumentomedio de βk unidades en la variable endogena, ceteris paribus.

Ejemplo 5.1

Se propone la siguiente especificacion de la funcion de consumo agregada para estudiarla relacion en Estados Unidos en el periodo 1960-2005 entre el consumo personal, GCP,y el ingreso, PIB, ambos en miles de millones de dolares:

GCPt = β1 + β2PIBt + ut

β2 recoge el incremento esperado en el consumo personal por unidad de incrementoen el PIB. Ademas tiene interpretacion economica ya que es la propension marginal aconsumir que segun la teorıa keynesiana esta limitada entre 0 y 1. β1 es el valor esperadodel consumo cuando el valor del PIB es cero.

Ejemplo 5.2

Se dispone de una base de datos para 51 estados de E.E.U.U. sobre el gasto agregadoen transporte urbano (EXPTRAV ) y la renta disponible agregada (INCOME) corres-pondientes al ano 19931. Las variables que se consideran son:

1Fuente: Statistical Abstract of U.S. (1995), recogida en Ramanthan, Ramu (2002) Introductory econometrics withapplications. Fichero de datos data8-2.gdt.

93

Page 110: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

EXPTRAV = Gasto agregado en transporte urbano, en billones de dolares, (Rango0,708 - 42,48).

INCOME = Renta disponible agregada, en billones de dolares, (Rango 9,3 - 683,5).

Un modelo para analizar si la renta disponible agregada explica el gasto agregado entransporte urbano es el siguiente2:

EXPTRAVi = β1 + β2INCOMEi + ui i = 1, . . . , 51 (5.2)

El parametro β1 recoge el valor esperado del gasto en transporte cuando la renta es cero,β1 = E(EXPTRAV |INCOME = 0). La pendiente β2 recoge el incremento en el valoresperado del gasto en transporte cuando la renta se incrementa en una unidad, es estecaso cuando se incrementa en un billon de dolares, β2 = ∂E(EXPTRAV )

∂INCOME . Esperarıamossigno positivo.

Ejemplo 5.3

Estamos interesados en explicar el precio de una vivienda, en miles de dolares (PRICE),mediante las variables explicativas: el tamano de la casa o el numero de pies cuadradosdel area habitable (SQFT), el numero de habitaciones (BEDRMS) y el numero de banos(BATHS). Formulamos el modelo de regresion lineal multiple:

PRICEi = β1 + β2 SQFTi + β3 BEDRMSi + β4 BATHSi + ui i = 1, 2, . . . , N (5.3)

Interpretacion de los coeficientes:

• El coeficiente β1 = E(PRICEi|SQFTi = BEDRMSi = BATHSi = 0) es el valormedio esperado de aquellas viviendas que no tienen ningun pie cuadrado de areahabitable, ni habitaciones ni banos.

• El coeficiente β2 = ∂E(PRICEi)∂SQFTi

, mide el incremento en el valor esperado del precio deuna vivienda cuando su superficie se incrementa en un pie cuadrado, manteniendoseel resto de variables constante. Luego, considerando dos casas con el mismo numerode habitaciones y de banos, para aquella casa que tenga un pie cuadrado mas dearea habitable se espera que cambie en media su precio de venta en β2 miles dedolares.

• El coeficiente β3 = ∂E(PRICEi)∂BEDRMSi

, mide el incremento en el valor esperado del preciode una vivienda cuando el numero de habitaciones de la misma se incrementa enuna unidad, manteniendose el resto de variables constante. Considerando dos casascon el mismo numero de pies cuadrados de area habitable y numero de banos, paraaquella casa que tenga una habitacion mas se espera que cambie en media su preciode venta en β3 miles de dolares.

• El coeficiente β4 = ∂E(PRICEi)∂BATHSi

, mide el incremento en el valor esperado del preciode una vivienda cuando el numero de habitaciones de la misma se incrementa en

2Son datos de seccion cruzada luego utilizamos el subındice i = 1, . . . , N .

94

Page 111: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

una unidad, manteniendose el resto de variables constante. Considerando dos casascon el mismo numero de pies cuadrados de area habitable y numero de habitaciones,para aquella casa que tenga un bano mas se espera que cambie en media su preciode venta en β4 miles de dolares.

Ejemplo 5.4

Se especifica la siguiente funcion de salarios en el ano 2002:

Wi = β1 + β2S2i + ui i = 1, 2, . . . N

donde Wi es el salario anual del individuo i y S2i es una variable ficticia que se define:

S2i =

1 si el individuo i es mujer0 en caso contrario

La interpretacion de los coeficientes de regresion del modelo es la siguiente:

• β1 = E(Wi|S2i = 0) luego es el salario esperado cuando el individuo es hombre.Esperarıamos signo positivo.

• E(Wi|S2i = 1) = β1 + β2 es el salario esperado de una mujer. Luego β2 es elincremento o decremento en el salario esperado para un individuo por el hecho de sermujer. Por tanto β2 recoge el efecto diferencial en el salario esperado entre hombresy mujeres. Si es cierto que existe discriminacion salarial por sexo esperarıamos quetuviera signo negativo. De la misma forma si no existiera discriminacion salarialpor sexo, es decir si hombres y mujeres tuvieran el mismo salario, su valor serıacero.

Ejemplo 5.5

Se especifica la siguiente funcion de salarios en el ano 2002:

Wi = β1 + β2S2i + β3Xi + ui i = 1, 2, . . . N

donde Wi es el salario anual del individuo i, Xi son los anos de experiencia del individuoi y S2i es una variable ficticia que se define:

S2i =

1 si el individuo i es mujer0 en caso contrario

La interpretacion de los coeficientes de regresion del modelo es la siguiente:

• β1 = E(Wi|S2i = Xi = 0) luego es el salario esperado cuando el individuo eshombre y no tiene experiencia. Esperarıamos signo positivo.

95

Page 112: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

• E(Wi|S2i = 1, Xi = 0) = β1+β2 luego β2 es el incremento o decremento en el salarioesperado para un individuo cuando no tiene experiencia por el hecho de ser mujer.Por tanto β2 recoge el efecto diferencial en el salario esperado entre hombres ymujeres con igual experiencia laboral. Si es cierto que existe discriminacion salarialpor sexo esperarıamos que tuviera signo negativo. De la misma forma, si no existieradiscriminacion salarial por sexo su valor serıa cero.

• β3 = ∂E(Wi)∂Xi

es el incremento en el salario esperado del individuo i cuando laexperiencia se incrementa en un ano. Es independiente del sexo del individuo i

luego es el mismo para hombres y mujeres. Esperarıamos signo positivo, a mayorexperiencia mayor remuneracion.

Ejemplo 5.6

Se especifica la siguiente funcion de ventas de una empresa para el perıodo de Enero de1978 a Diciembre de 2002:

Vt = β1 + β2D2t + β3D3t + β4D4t + ut t = 1, 2, . . . T

donde Vt son las ventas de la empresa en el momento t y las variables Djt son variablesficticias que se definen:

Djt =

1 si la observacion t pertenece al trimestre j j = 2, 3, 40 en caso contrario

La interpretacion de los coeficientes de regresion del modelo es la siguiente:

• E(Vt|D2t = D3t = D4t = 0) = β1 es el valor esperado de las ventas en el primertrimestre.

• E(Vt|D2t = 1;D3t = D4t = 0) = β1 + β2 es el valor esperado de las ventas enel segundo trimestre. Luego β2 es el diferencial entre las ventas esperadas en elsegundo trimestre y el primer trimestre.

• E(Vt|D3t = 1;D2t = D4t = 0) = β1 + β3 es el valor esperado de las ventas en eltercer trimestre. Luego β3 es el diferencial entre las ventas esperadas en el tercertrimestre y el primer trimestre.

• E(Vt|D2t = D3t = 0;D4t = 1) = β1 + β4 es el valor esperado de las ventas en elsegundo trimestre. Luego β4 es el diferencial entre las ventas esperadas en el cuartotrimestre y el primer trimestre.

Ejemplo 5.7

En este ejemplo vamos a analizar los determinantes de la oferta laboral de las mujerescasadas3. Para ello vamos a utilizar el archivo mroz87.gdt incluido en el programa gretl,

3Fichero mrox87.gdt, disponible en gretl pestana Gretl. Fuente:“The Sensitivity of an Empirical Model of MarriedWomen’s Hours of Work to Economic and Statistical Assumptions”, Econometrica 55, 765-799.

96

Page 113: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

en la carpeta de archivos de muestra “Gretl”. En el se dispone de observaciones de lassiguientes variables, entre otras4:

• LFP : Variable ficticia que toma valor 1 si la mujer ha trabajado en 1975 y cero enotro caso

• HOURS: Numero de horas trabajadas por la esposa en 1975, (WHRS).

• KL6: Numero de hijos menores de seis anos, en la familia.

• K618: Numero de hijos entre seis y dieciocho anos, en la familia.

• AGE: Edad de la esposa, (WA).

• EDUC: Anos de educacion recibidos por la esposa, (WE).

• WAGE: Salario de la esposa en el momento de la encuesta, 1976, (RPWG).

• FAMINC: Renta familiar en dolares de 1975.

• EXPER: Anos de experiencia en la actualidad, (AX).

Se trata de una muestra de seccion cruzada con 428 observaciones de mujeres trabaja-doras donde el termino trabajadoras implica que tienen un salario monetario.

Con la muestra anterior creamos las siguientes variables:

l WAGEi = ln(WAGE)i,sq EXPERi = EXPER2

i ,NWIFEINCi = FAMINCi − (WAGEi ×HOURSi)

Dado nuestro objetivo de estudiar los determinantes de la oferta laboral de la poblacionfemenina casada, la variable a estudiar es HOURS. Como determinantes de la mismapodemos pensar en incluir en el modelo el salario en logaritmos, l WAGE, los anos deeducacion recibidos, EDUC, la edad, AGE, el numero de hijos de la familia, KL6 yK618, y la variable NWIFEINC, que de alguna manera mide la importancia de lasrentas familiares que no dependen de los ingresos de la esposa. Ası, el modelo a estimarserıa:

HOURSi = β1 + β2 l WAGEi +

β3EDUCi + β4AGEi + β5KL6i + β6K618i + β7 NWIFEINCi + ui (5.4)

A priori esperarıamos que los coeficientes de las variables l WAGE, EDUC y K618 fue-sen positivos, ceteris paribus. Es de esperar que si se tiene un sueldo alto la estimulaciona seguir trabajando sea mayor. Tambien es logico pensar que cuando la preparacion (es-tudios) es mayor, se tenga un empleo mejor y mejor remunerado, luego es mas probableque la mujer trabaje fuera de casa. Familias con mayor numero de hijos necesitan de unamayor renta, por lo que es probable que la esposa decida trabajar. Por otro lado, cuandohay ninos pequenos podemos pensar que la esposa se retire del mercado de trabajo para

4Algunas de las variables han sido renombradas para que el ejercicio resulte mas comodo. Entre parentesis apareceel nombre original utilizado en el fichero para que las podais reconocer facilmente.

97

Page 114: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

cuidarlos, por lo que esperarıamos un signo negativo en el coeficiente que acompana aKL6 manteniendo el resto de factores constante. A mayor edad, tambien es posible queno se quiera trabajar fuera de casa, por lo que, esperamos signo negativo para la variableAGE ceteris paribus. Finalmente, manteniendo el resto de factores constantes tambienesperarıamos signo negativo para el coeficiente de la variable NWIFEINC ya que, sila renta disponible que no depende de la remuneracion de la mujer es alta, es probableque eso desincentive a trabajar fuera de casa a la esposa. Es importante tener en cuentala fecha de la recogida de datos, 1975, cuando todavıa la participacion en el mercado detrabajo de la mujer no estaba consolidada.

Algunas consideraciones sobre la linealidad en parametros Cuando decimos que el MRLG es unmodelo lineal queremos decir que Y o alguna transformacion de Y es lineal en las X o en algunatransformacion lineal de las X. Hay dos tipos de linealidad, linealidad en variables y linealidad enparametros. Nosotros estamos interesados en la linealidad en parametros: es decir las derivadas conrespecto a los coeficientes desconocidos son una funcion lineal solo de las X.

βk =∂E(Yi)∂Xki

k = 1, 2, . . . ,K

El modelo lineal mas sencillo es el Modelo de Regresion Lineal Simple donde la variable endogenaY queda explicada por una unica variable exogena X

Yi = β1 + β2Xi + ui i = 1, 2, . . . , N

De igual forma es lineal el Modelo de Regresion Lineal General donde la variable endogena Y seexplica con un conjunto de k-variables explicativas (X1i, X2i, . . . , XKi)

Yi = β1 + β2X2i + β3X3i + . . . + βKXKi + ui i = 1, 2, . . . , N

Dado que estamos interesados solo en la linealidad en parametros tambien seran considerados linealeslos siguientes modelos:

Yi = β1 + β21Xi

+ ui −→ Yi = β1 + β2Zi + ui con Zi = 1/Xi

Yi = β1 + β2X2i + ui −→ Yi = β1 + β2Wi + ui con Wi = X2

i

que son lineales en parametros segun lo dicho anteriormente aunque no lo sean en variables. Ahorabien, existen otras relaciones que aunque en principio no son lineales pueden transformarse enlineales y por tanto son perfectamente estimables en nuestros terminos. Por ejemplo:

1. Sea el siguiente modelo:Xi = ABYiui

podemos transformar el modelo en lineal en parametros tomado logaritmos y obtener:

Yi = β1 + β2LnXi + ui (5.5)

donde β2 = (LnB)−1 y β1 = (LnALnB ) a esta transformacion se le llama semilogarıtmica.

98

Page 115: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

2. Sea el modelo:

Yi = AXBi ui −→ LnYi = β1 + β2LnXi + ui (5.6)

donde β1 = LnA, a esta transformacion se le llama doblemente logarıtmica.

Ejemplo 5.8

Un ejemplo especıfico de esta ultima transformacion es la funcion Cobb-Douglas de lateorıa de produccion. La funcion de produccion Cobb-Douglas, en su forma estocastica,se expresa como:

Qt = ALβ2t Kβ3

t eut

De la ecuacion anterior se deduce que la relacion entre la produccion y los factorescapital y trabajo es claramente no lineal. Sin embargo, podemos transformar el modelotomando logaritmos y obtener la siguiente relacion lineal en los parametros β1, β2 y β3:

Qt = ALβ2t Kβ3

t eut −→ LnQt = β1 + β2LnLt + β3LnKt + ut (5.7)

siendo β1 = LnA. Una ventaja de este tipo de modelos como el recogido en la ecuacion(5.7), en los que todas las variables estan medidas en logaritmos, es que los parame-tros de pendiente ademas de recibir la interpretacion habitual pueden interpretarse enterminos de elasticidades:

β2 =∂E(LnQt)

∂LnLt=

∂E(Qt)∂Lt

Lt

Qt

β3 =∂E(LnQt)

∂LnKt=

∂E(Qt)∂Kt

Kt

Qt

Es decir βk k = 2, 3, miden el cambio porcentual o elasticidad (parcial) generado en lavariable endogena como consecuencia de un cambio porcentual (un 1 %) en la variableexogena correspondiente, ceteris paribus. En el ejemplo anterior β2 y β3 representanlas elasticidades de la funcion de produccion con respecto a los factores de producciontrabajo y capital respectivamente.

Por otro lado la suma (β2 +β3) da informacion sobre los rendimientos a escala , es decir,la respuesta de la produccion a un cambio proporcional en los factores de produccion.Si la suma es 1 existen rendimientos constantes a escala, al duplicar los factores deproduccion se duplica la produccion. Si la suma es menor que 1 existen rendimientosdecrecientes a escala, al duplicar los factores de produccion esta crece menos del doble. Sila suma es mayor que 1 existen rendimientos crecientes a escala, al duplicar los factoresde produccion esta crece mas del doble.

Es importante notar que para la ecuacion (5.5) la interpretacion de los parametros comoelasticidades no es posible ya que al no estar la variable Yi en logaritmos:

β =∂E(Yi)∂LnXi

=∂E(Yi)∂Xi

Xi

99

Page 116: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

5.3. Estimacion por Mınimos Cuadrados Ordinarios (MCO)

• Nuestro objetivo es estimar los parametros desconocidos βk, k = 1, . . . , K de

Yi = β1 + β2X2i + . . . + βKXKi + ui i = 1, 2, . . . , N

Y = Xβ + u en forma matricial.

A los parametros estimados los denotamos βk y la estimacion del modelo es

Yt = β1 + β2X2i + . . . + βKXKi i = 1, 2, . . . , N

Y = Xβ en forma matricial,

a la cual denominamos Funcion de Regresion Muestral (FRM).

• Elementos adicionales

• La perturbacion del modelo recoge todo aquello que no ha sido explicado por la parte sis-tematica del modelo y se obtiene como la diferencia entre la variable a explicar y la recta deregresion poblacional:

ui = Yi − E(Yi) i = 1, 2, . . . , N

u = Y −Xβ en forma matricial.

• El residuo mide el error cometido al estimar la variable endogena y se define como la diferenciaentre la variable a explicar y la recta de regresion muestral5:

ui = Yi − Yi = Yi − β1 − β2X2i − . . .− βKXKi i = 1, 2, . . . , N

u = Y − Y = Y −Xβ en forma matricial.

Este error proviene de dos fuentes: la primera, por el hecho de no poder obtener los valores dela perturbacion (ui) y la segunda se debe a que la estimacion de los coeficientes desconocidosβk k = 1, . . . , K introduce un error adicional. Es importante, por tanto, diferenciar y noconfundir el residuo con la perturbacion.

• Representacion grafica: Cuando K = 2 el modelo se escribe

Yi = β1 + β2Xi + ui

y se denomina Modelo de Regresion Lineal Simple (MRLS). Entonces, la relacion entre la FRM,FRP, residuos y perturbaciones puede visualizarse en la Figura 5.2.

En el Grafico 5.2 la funcion de regresion poblacional esta trazada en color negro ası como loscoeficientes poblacionales, la ordenada (β1) y la pendiente (β2). Podemos ver que el valor Yi se

5Los residuos son a la FRM lo que las perturbaciones a la FRP. Sin embargo, no son buenos estimadores de lasmismas (al menos, no si la muestra es pequena) porque no tienen las mismas propiedades, se puede ver en el Anexo3 incluido en el Apendice del Tema.

100

Page 117: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

-

6Yi

Xi

(Y1, X1)Y1

X1

E(Yi) = β1 + β2Xi

β1 β2

?

6

u1

?

6 β1 + β2X1

Yi = β1 + β2Xi

β1β2

β1 + β2X1 = Y1 ?6u1

Figura 5.2: Funcion de regresion poblacional y funcion de regresion muestral

obtiene como la suma del valor que toma la parte sistematica β1 + β2Xi (situada sobre la FRP) ydel valor que toma la perturbacion ui, esto es, Yi = β1 + β2Xi + ui.

La funcion de regresion muestral y los coeficientes estimados (β1 y β2) estan representados en colorrojo. La diferencia entre la FRP y la FRM se debe a los errores que se cometen en la estimacionde los coeficientes de la regresion (β1 6= β1, β2 6= β2). Basandonos en la FRM podemos obtener elvalor del punto Yi como la suma del valor estimado de la parte sistematica Yi = β1 + β2Xi (situadosobre la FRM) y del valor que toma el residuo ui, esto es, Yi = Yi + ui.

5.3.1. Metodo de estimacion de Mınimos Cuadrados Ordinarios (MCO)

El objetivo es obtener un vector de estimadores de los parametros o coeficientes β1, . . . , βK , parael cual buscamos K estimadores respectivamente. Un estimador es una formula que, aplicada a losdatos, da como resultado un valor numerico. Al valor numerico calculado a partir de un estimadory de una muestra dada, lo denominamos estimacion. A ambos los denotamos β, el cual puede ser,consecuentemente, un vector de estimadores o de estimaciones, segun nos estemos refiriendo a laformula o a los valores numericos resultantes. Pero no son lo mismo.

Necesitamos un criterio de estimacion, que dados el modelo y la muestra nos permita obtener lafuncion de regresion muestral. Proponemos el criterio de estimacion mınimo cuadratico ordinariopor su sencillez y buenas propiedades, que demostraremos mas adelante.

El criterio de estimacion Mınimo Cuadratico Ordinario (MCO) se expresa:

mınβ

N∑

i=1

u2i = mın

β

N∑

i=1

(Yi − Yi)2

A continuacion buscaremos la expresion de los estimadores mınimo cuadraticos obtenidos comoresultado de aplicar el criterio MCO al modelo de regresion lineal general.

101

Page 118: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

• Estimador MCO del MRLG

Criterio:

mınβ1,...,βK

N∑

i=1

u2i = mın

β1,...,βK

N∑

i=1

(Yi − Yi)2 =

mınβ1,...,βK

N∑

i=1

(Yi − β1 − β2X2i − . . .− βKXKi)2 (5.8)

Las K Condiciones de Primer Orden (C.P.O.) de mınimo son

∂∑N

i=1 u2i

∂β1

= 0

∂∑N

i=1 u2i

∂β2

= 0

∂∑N

i=1 u2i

∂β3

= 0

......

∂∑N

i=1 u2i

∂βK

= 0

de donde se obtienen las ecuaciones normales:

−2N∑

i=1

(Yi − β1 − β2X2i − . . .− βKXKi) = 0

−2N∑

i=1

(Yi − β1 − β2X2i − . . .− βKXKi)X2i = 0

......

−2N∑

i=1

(Yi − β1 − β2X2i − . . .− βKXKi)XKi = 0

que pueden escribirse como:∑

Yi = Nβ1 + β2

∑X2i + . . . + βK

∑XKi

∑X2iYi = β1

∑X2i + β2

∑X2

2i + . . . + βK

∑X2iXKi

......∑

XKiYi = β1

∑XKi + β2

∑XKiX2i + . . . + βK

∑X2

Ki

En forma matricial,∑N

i=1 u2i = u′u

(1× 1)

donde u es un vector N × 1 y el criterio puede escribirse

mınβ

u′u = mınβ

(Y −Xβ)′(Y −Xβ).

102

Page 119: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Las K Condiciones de Primer Orden (C.P.O.) de mınimo son

∂u′u∂β

= 0 ⇒ −2X ′(Y −Xβ) = 0.

Despejando, obtenemos las ecuaciones normales en forma matricial:

X ′Y = X ′XβMCO. (5.9)

de donde el estimador MCO (en forma matricial) es:

βMCO = (X ′X)−1X ′Y (5.10)

en el que X ′X es una matriz de orden K × K, X ′Y un vector de orden K × 1 y β un vector deorden K × 1, tales que

X ′X(K ×K)

=

N∑

X2i∑

X3i · · · ∑XKi∑

X2i∑

X22i

∑X2iX3i · · · ∑

X2iXKi∑X3i

∑X3iX2i

∑X2

3i · · · ∑X3iXKi

......

.... . .

...∑XKi

∑XKiX2i

∑XKiX3i · · · ∑

X2Ki

X ′Y(K × 1)

=

∑Yi∑

X2iYi∑X3iYi...∑

XKiYi

β(K × 1)

=

β1

β2

β3...

βK

.

El estimador MCO cumple tambien las condiciones de segundo orden de mınimo, con lo cual es,efectivamente, la solucion al problema de minimizacion de la suma de los residuos al cuadrado.

Ejercicio 5.1

Sea el modelo de regresion lineal simple donde se regresa Yt sobre Xt, incluyendo untermino independiente.

Yt = β1 + β2Xt + ut t = 1, . . . , T

Sin utilizar notacion matricial:

1. Escribe el sistema de ecuaciones correspondiente al modelo propuesto.

2. Escribe la funcion objetivo correspondiente a la estimacion por MCO de los parame-tros desconocidos. Deriva las condiciones de primer orden.

103

Page 120: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

3. Obten las ecuaciones normales correspondientes al modelo.

4. Obten la expresion de β1 y β2.

Utilizando notacion matricial:

1. Escribe la expresion matricial del modelo.

2. Escribe la funcion objetivo correspondiente a la estimacion por MCO de los parame-tros desconocidos. Deriva las condiciones de primer orden.

3. Obten las ecuaciones normales correspondientes al modelo.

4. Obten la expresion del estimador del vector de parametros desconocidos β.

Ejercicio 5.2

Sea el siguiente modelo de regresion lineal simple donde se regresa Yt sobre Xt.

Yt = βXt + ut t = 1, . . . , T

Sin utilizar notacion matricial:

1. Escribe el sistema de ecuaciones correspondiente al modelo propuesto.

2. Escribe la funcion objetivo correspondiente a la estimacion por MCO del parametrodesconocido. Deriva la condicion de primer orden.

3. Obten la ecuacion normal del modelo.

4. Obten la expresion de β.

Utilizando matrices escribe la expresion matricial del modelo y obten la expresion de β.

Algunas equivalencias de notacion

Yi = β1 + β2X2i + . . . + βKXKi + ui i = 1, 2, . . . , N ⇔ Y = Xβ + u

E(Yi) = β1 + β2X2i + . . . + βKXKi i = 1, 2, . . . , N ⇔ E(Y ) = Xβ

Yi = β1 + β2X2i + . . . + βKXKi i = 1, 2, . . . , N ⇔ Y = Xβ

Yi = β1 + β2X2i + . . . + βKXKi + ui i = 1, 2, . . . , N ⇔ Y = Xβ + u

ui = Yi − Yi i = 1, 2, . . . , N ⇔ u = Y − Y

104

Page 121: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Interpretacion de los coeficientes estimados por MCO

• β1 = E(Yi|Xki = 0, ∀k = 2, . . . ,K). Valor esperado estimado de Yi cuando las variablesexplicativas son todas cero.

• βk = ∂E(Yi)∂Xki

= ∆E(Yi)∆Xki

∀k = 2, . . . ,K. Incremento esperado estimado (o decremento es-perado estimado) en Yi cuando la variable Xk se incrementa en una unidad, manteniendoseconstantes el resto de las variables explicativas.

Ejemplo 5.9

Supongamos que se dispone de datos para estimar la relacion en Estados Unidos parael periodo 1960-2005 entre el consumo personal, GCP, y el ingreso, PIB, propuesta enel Ejemplo 5.1 y que la regresion estimada es la siguiente:

GCP t = −299, 5913 + 0, 721PIBt

La propension marginal a consumir es 0, 72 lo que indica que cuando el ingreso realse incrementa en un dolar el consumo personal aumenta en 72 centavos. La ordenadaes −299, 5913 lo que indica que si el ingreso es cero el nivel promedio del consumo esnegativo e igual a 299, 59 dolares. No tiene interpretacion economica.Si las unidades de ambas variables fuese billones de $: por cada billon de dolares deincremento en el PIB el consumo se incrementarıa en 0,721 billones, Luego por cada100 billones de incremento en PIB el consumo se incrementa en 72,1 billones de dolares.Cuando el PIB es cero el consumo es negativo e igual a 299591,3 billones de dolares.

Ejemplo 5.10

Vamos a retomar ahora el Ejemplo 5.3 donde se analizaban los determinantes del preciode la vivienda. Se dispone de una base de datos sobre el precio de una vivienda y distin-tas caracterısticas de la misma para 14 viviendas vendidas en la comunidad universitariade San Diego en 1980. Son datos de seccion cruzada y la descripcion de las variablesdisponibles es6:

PRICE = precio de venta de la vivienda en miles de dolares (Rango 199,9 - 505)SQFT = pies cuadrados de area habitable (Rango 1065 - 3000)BEDRMS= numero de dormitorios (Rango 3 - 4)BATHS = numero de banos (Rango 1,74 - 3)

Para analizar si el tamano, el numero de habitaciones y el numero de banos son factoresque explican o no el precio de la vivienda se especifica el siguiente modelo:

PRICEi = β1 + β2SQFTi + β3BEDRMSi + β4BATHS + ui i = 1, . . . , 14 (5.11)6Fuente: Ramanathan, Ramu (2002) Introductory econometrics with applications. Conjunto de datos data4-1.gdt

105

Page 122: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Para estimar el modelo se utilizan las observaciones disponibles en el fichero data4-1.gdty que son las siguientes7:

Obsv. PRICE SQFT BEDRMS BATHS

1 199,9 1065 3 1,752 228,0 1254 3 2,003 235,0 1300 3 2,004 285,0 1577 4 2,505 239,0 1600 3 2,006 293,0 1750 4 2,007 285,0 1800 4 2,758 365,0 1870 4 2,009 295,0 1935 4 2,50

10 290,0 1948 4 2,0011 385,0 2254 4 3,0012 505,0 2600 3 2,5013 425,0 2800 4 3,0014 415,0 3000 4 3,00

Tabla 5.1: Datos de caracterısticas de viviendas. Fichero 4-1.gdt.

Las estimaciones obtenidas resultan de aplicar el criterio MCO β = (X ′X)−1X ′Y :

β1

β2

β3

β4

=

14∑

SQFTi

∑BEDRMSi

∑BATHSi∑

SQFTi

∑SQFT 2

i

∑SQFTiBEDRMSi

∑SQFTiBATHSi∑

BEDRMSi

∑BEDRMSiSQFTi

∑BEDRMS2

i

∑BEDRMSiBATHSi∑

BATHSi

∑BATHSiSQFTi

∑BATHSiBEDRMSi

∑BATHS2

i

−1

×

∑PRICEi∑SQFTiPRICEi∑BEDRMSiPRICEi∑BATHSiPRICEi

=

14 26753 51 3326753 55462515 99193 65699, 75

51 99193 189 121, 7533 65699, 75 121, 75 80, 375

−1

4444, 99095985, 5

16372, 710821, 075

=

129, 0620, 1548

−21, 5875−12, 1928

• La funcion de regresion muestral obtenida es:

PRICEi = 129, 062 + 0, 1548SQFTi − 21, 5875BEDRMSi − 12, 1928BATHSi

• Interpretacion de los signos obtenidos:Los signos obtenidos son los adecuados. Para la variable SQFT el signo es positivoya que manteniendo el resto de variables constantes logicamente si aumenta el areahabitable aumentara el precio del piso. Si manteniendo el resto de variables constantela superficie habitada aumenta en un pie cuadrado el precio medio estimado de unavivienda aumentara en 154,8 dolares. Tambien son adecuados los signos para BEDRMS

y BATHS ya que en ambos casos se mantiene constante la superficie habitable por loque se aumenta el numero de habitaciones (o banos) a costa de una menor superficie

7Puedes acceder a estos datos ejecutando gretl → En Archivo → Abrir datos → Archivo de muestra → EligeRamanathan, el fichero data4-1.gdt.

106

Page 123: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

de estas, lo cual es logico que se valore negativamente por el comprador medio. Ası,si se aumenta el numero de habitaciones, manteniendo constante el numero de banosy la superficie de la vivienda, el precio medio se estima disminuira en 21.588 dolares.Manteniendose constante la superficie habitable y el numero de habitaciones el hechode tener un bano mas redunda en habitaciones mas pequenas por lo que se estima queel precio medio se reducira en 12.193 dolares.

Mediante las estimaciones obtenidas podemos estimar el incremento medio en el preciode la vivienda ante cambios en las variables explicativas. Por ejemplo, si mantenemosel numero de banos, tenemos una habitacion mas y aumenta el area habitable en 500pies cuadrados, el cambio en el precio medio estimado de una vivienda sera de 55,812dolares:

4PRICEi = 0, 15484SQFTi − 21, 5884BEDRMSi − 12, 1924BATHSi =

= (0, 1548× 500)− 21, 588× 1− 12, 192× 0) = 77, 4000− 21, 588 = 55, 812

5.3.2. Propiedades de la Funcion de Regresion Muestral, FRM

1. Los residuos son ortogonales a las variables explicativas: X ′u = 0 (u′X = 0).

X ′u = X ′(Y − Y ) = X ′(Y −Xβ) = 0

por las ecuaciones normales.

2. Los residuos son ortogonales a las estimaciones de la variable endogena: Y ′u = 0 (u′Y = 0).

Y ′u = (Xβ)′u = β′ X ′u︸︷︷︸=0

= 0

Si el modelo tiene termino independiente, es decir, si X1i = 1, entonces la primera fila de X ′u esigual a

∑ui y tenemos que

3. La suma de los residuos es cero:∑N

i=1 ui = 0.

X ′u = 0 ⇔

∑N1 ui∑N1 X2iui∑N1 X3iui

...∑N1 XKiui

=

000...0

N∑

i=1

ui = 0

4. La media muestral de Y es igual a la media muestral de las estimaciones de Y : Y = ¯Y .

ui = Yi − Yi ⇐⇒ Yi = Yt + ui∑Yi =

∑Yi +

∑ui︸ ︷︷ ︸

=0

1N

∑Yi =

1N

∑Yi =⇒ Y = ¯

Y

107

Page 124: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

5. La FRM pasa por el vector de medias: Y = β1 + β2X2 + . . . + βKXK .

N∑

i=1

ui = 0 ⇔∑

(Yi − β1 − β2X2i − . . .− βKXKi) = 0

∑Yi −Nβ1 − β2

∑X2i − . . .− βK

∑XKi = 0

∑Yi = Nβ1 + β2

∑X2i + . . . + βK

∑XKi

1N

∑Yi = β1 + β2

1N

∑X2i + . . . + βK

1N

∑XKi

Y = β1 + β2X2 + . . . + βKXK

Nota: Las propiedades 1 y 2 se cumplen siempre, mientras que las 3, 4 y 5 se cumplen solo si elmodelo tiene un termino independiente.

5.3.3. Medidas de bondad del ajuste

Definimos la variacion de la variable Y como la distancia de los valores observados de la variable asu media muestral. La suma de esas variaciones al cuadrado es la variacion que se quiere explicarcon la variacion de las variables explicativas. Se le denota como SCT y se lee Suma de CuadradosTotal. Logicamente, el ajuste realizado sera mejor cuanto mayor sea la proporcion explicada de esavariacion.

SCT =∑

(Yi − Y )2 =∑

Y 2i −NY 2 = Y ′Y −NY 2

Cuando el modelo tenga termino independiente podremos dividir la variacion total en dos partes,variacion explicada y variacion sin explicar.

Dado que Y = Y + u, tenemos:

Y ′Y = (Y + u)′(Y + u) =

= Y ′Y + Y ′u︸︷︷︸=0

+ u′Y︸︷︷︸=0

+u′u = Y ′Y + u′u

Restando en ambos lados NY 2,

Y ′Y −NY 2 = Y ′Y −NY 2 + u′u

Si el modelo tiene termino independiente, Y = ¯Y de donde,

Y ′Y −NY 2 = Y ′Y −N¯Y 2 + u′u∑

Yi2 −NY 2 =

∑Y 2

i −N¯Y 2 +

∑u2

i∑(Yi − Y )2

︸ ︷︷ ︸SCT

=∑

(Yi − ¯Y )2

︸ ︷︷ ︸SCE

+∑

u2i︸ ︷︷ ︸

SCR

108

Page 125: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

SCT = SCE + SCR

siendo8:

SCT: Suma de Cuadrados Total, mide la variacion total.

SCE: Suma de Cuadrados Explicada, mide la variacion explicada.

SCR: Suma de Cuadrados Residual, mide la variacion sin explicar.

SCT =∑

(Yi − Y )2 = Y ′Y −NY 2

SCE =∑

(Yi − ¯Y )2 = Y ′Y −NY 2

SCR =∑

u2i = Y ′Y − Y ′Y = Y ′Y − β′X ′Y

Coeficiente de determinacion, R2

R2 =SCE

SCT= 1− SCR

SCT

• Si existe termino independiente en el modelo el R2 estara entre los valores 0 y 1. Por la mismarazon si no existe termino independiente el R2 no tiene sentido.

• El coeficiente de determinacion mide la bondad del ajuste o lo que es lo mismo la variabi-lidad de la variable endogena explicada con la variabilidad de las variables exogenas. Es unporcentaje.

• A mayor R2 mejor ajuste. Podemos tener la tentacion de mejorar el ajuste incluyendo variablesexogenas y este proceder es un error. El problema que presenta el coeficiente de determinaciones que aumenta o se mantiene constante con la inclusion de nuevas variables explicativas en elmodelo, aunque estas no contribuyan a explicar la variable endogena. Debido a este problema,se define otra medida de bondad de ajuste, el coeficiente de determinacion corregido, R2.

Coeficiente de determinacion corregido, R2 .

R2 = 1−SCR

(N−K)

SCT(N−1)

= 1− (N − 1)(N −K)

SCR

SCT

= 1− (N − 1)(N −K)

(1−R2)

8En el Anexo 1 incluido en el Apendice del tema aparecen distintas expresiones de la SCT, SCE y SCR que puedenresultar utiles.

109

Page 126: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

• Cualquiera que sea el numero de variables incluidas en un modelo la SCT sera constante ypor tanto si incluimos una nueva variable la SCR sera menor y la SCE sera mayor.

• Dado que R2 se define como una ponderacion del R2 por los grados de libertad tendra encuenta estos ultimos.

• Este coeficiente, penaliza la inclusion de nuevas variables explicativas. Si la nueva variableincluida explica a la variable endogena compensando la perdida de grados de libertad, esdecir compensando el hecho de estimar un coeficiente mas, el R2 aumenta. Sin embargo si lanueva variable incluida no explica a la variable endogena compensando la perdida de gradosde libertad el R2 disminuye.

• Si K = 1, R2 = R2.

• Si K > 1, R2 ≤ R2.

El R2 y el R2 son solo dos estadısticos y no deben ser utilizados para comparar la especificacionde modelos entre sı, solo los contrastes de hipotesis que se veran mas adelante son la herramientaadecuada.

Existen otros criterios de seleccion de modelos: el criterio de informacion de Akaike (AIC) o loscriterios Bayesiano de Schwarz (BIC) y de Hannan-Quinn (HQC). Estos criterios se calculan enfuncion de la suma de cuadrados residual y de algun factor que penalice por la perdida de gradosde libertad. Un modelo mas complejo, con mas variables explicativas, reducira la suma de cuadra-dos residual pero aumentara el factor de penalizacion. Utilizando estos criterios se escogerıa aquelmodelo con un menor valor de AIC, BIC o HQC. Normalmente no suelen dar la misma eleccion,siendo el criterio AIC el que elige un modelo con mayor numero de parametros. El calculo de estoscriterios es algo complejo sin embargo el programa gretl los muestra automaticamente en el outputde regresion. Unicamente los veremos con dicho programa.

Coeficientes de correlacion El coeficiente de correlacion lineal simple mide el grado de asociacionlineal entre dos variables. Para X e Y se define

rxy =

∑(Xi−X)(Yi−Y )

N√∑(Xi−X)2

N

√∑(Yi−Y )2

N

=∑

XiYi −NXY√∑X2

i −NX2√∑

Y 2i −NY 2

El coeficiente de correlacion simple toma valores entre -1 y 1 y su interpretacion podeis recordarlarevisando el Tema 1. En el MRLG tendremos una matriz de coeficientes de correlacion habitualmentedenotada por R:

R =

r11 r12 . . . r1K

r21 r22 . . . r2K...

.... . .

...rK1 rK2 . . . rKK

La matriz de correlacion R se define como aquella matriz cuyos elementos son el coeficiente decorrelacion simple entre dos variables i y j, tal que:

110

Page 127: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

• r1k representa la correlacion entre Y y Xk k = 1, 2, . . .K

• rkk = 1, los elementos de la diagonal principal son todos unos. Muestran la correlacion de unavariable consigo misma.

• rkh, muestran la correlacion de la variable exogena k con la variable exogena h.

• Ademas es una matriz simetrica.

En el modelo lineal general la correlacion entre Y y X2 no esta adecuadamente recogida por elcoeficiente de correlacion simple ya que parte de la variacion de Y sera debida al resto de variablesexogenas. Sera necesario descontar este efecto tanto de Y como de X2. Por ejemplo, en el modelo

Yi = β1 + β2X2i + β3X3i + ui

para estudiar la influencia de X2 en Y utilizaremos el coeficiente de correlacion parcial entre Y yX2 que mide la correlacion que queda entre estas dos variables despues de eliminar el efecto de X3

sobre Y y sobre X2.

r12·3 =r12 − r13r23√

1− r213

√1− r2

23

Ejemplo 5.11

Con los datos de la Tabla 5.1 y los resultados de la estimacion del modelo (5.11) calcu-lamos el coeficiente de determinacion y el coeficiente de determinacion corregido:

SCT = Y ′Y −NY 2 = 1512980− 14× 317, 4932 = 101754, 7293

SCR = Y ′Y − βX ′Y = 1512980− 1496279, 9 = 16700, 1

R2 = 1− SCR

SCT= 1− 16700, 1

101754, 7293= 0, 835976

R2 = 1− (N − 1)(N −K)

(1−R2) = 1− 14− 114− 4

(1− 0, 835976) = 0, 786769

Luego el 83, 59 % de la variabilidad en el precio de la vivienda queda explicada por lavariabilidad del tamano de la vivienda, el numero de dormitorios y el numero de banos.Es un ajuste bastante alto. El R2 se interpreta de igual manera.

Tambien podemos calcular la matriz de correlaciones entre SQFT, BEDRMS y BATHS:

R =

1, 0 0, 4647 0, 78731, 0 0, 5323

1, 0

Luego las variables exogenas estan correlacionadas positivamente entre sı. El coeficientemas alto es el coeficiente de correlacion simple entre SQFT y BATHS.

111

Page 128: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

5.4. Propiedades de los estimadores MCO

El metodo de MCO es solo uno de los posibles metodos de estimacion, la pregunta es ¿comopodemos elegir entre estimadores? obviamente en base a sus propiedades sobre su comportamientoen muestras repetidas. Estas propiedades son insesgadez, varianza pequena y error cuadratico medioy ya se trataron en el Tema 2.

Insesgadez Un estimador es insesgado si su valor esperado coincide con el verdadero valor delparametro. Sea θ un estimador del parametro θ, sera insesgado si E(θ) = θ.

Varianza mınima Desearemos que la varianza de un estimador sea lo mas pequena posible ya quecuanto menor sea la varianza muestral mayor es la precision del estimador.

Si estamos comparando dos estimadores insesgados elegiremos aquel que tenga la menor varianza.Pero si estamos comparando dos estimadores sesgados o un estimador sesgado y uno insesgado estecriterio no nos sirve y debemos introducir uno nuevo, el concepto de error cuadratico medio.

Error cuadratico Medio (ECM) ECM(θ) = E(θ − θ)2 = V (θ) + Sesgo(θ)2 donde Sesgo(θ) =E(θ)− θ. En base a este criterio elegimos el estimador con menor ECM.

5.4.1. Propiedades de los estimadores MCO

Sea el modelo de regresion lineal general

Y = Xβ + u u ∼ NID(0, σ2IN )

donde se cumplen todas las hipotesis basicas. El estimador MCO de los coeficientes

β = (X ′X)−1X ′Y

tiene las siguientes propiedades:

• Es lineal en las perturbaciones.

• Es insesgado.

• Tiene varianza mınima entre todos los estimadores lineales e insesgados

Demostracion:

• Linealidad. Como las variables explicativas son no aleatorias, la unica variable aleatoria desu expresion es la perturbacion, luego el estimador MCO es una combinacion lineal de lasperturbaciones.

β = (X ′X)−1X ′Y =

= (X ′X)−1X ′(Xβ + u) =

= β + (X ′X)−1X ′u

112

Page 129: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

• Insesgadez. Dado que:

E(u) = 0

y la matriz X es no aleatoria,

βMCO es insesgado, es decir, su valor esperado es igual al vector de coeficientes del modelo.

E(β) = E(β + (X ′X)−1X ′u) =

= E(β) + (X ′X)−1X ′E(u)︸ ︷︷ ︸=0

= β

• Varianza mınima. Dado que:

E(u) = 0

E(uu′) = σ2IN

y la matriz X es no aleatoria,

V (β) = E[(β −E(β))(β −E(β))′] =

= E[(β − β)(β − β)′] =

= E[[

(X ′X)−1X ′u] [

(X ′X)−1X ′u]′] =

= E[(X ′X)−1X ′ uu′X(X ′X)−1] =

= (X ′X)−1X ′E[uu′]X(X ′X)−1 =

= (X ′X)−1X ′ σ2IN X(X ′X)−1 =

= σ2(X ′X)−1X ′X(X ′X)−1 =

= σ2(X ′X)−1

Esta matriz de varianzas y covarianzas es mınima y nos lo garantiza el Teorema de Gauss-Markov.

V (β)(K ×K)

=

V (β1) Cov(β1, β2) Cov(β1, β3) · · · Cov(β1, βK)

Cov(β2, β1) V (β2) Cov(β2, β3) · · · Cov(β2, βK)

Cov(β3, β1) Cov(β3, β2) V (β3) · · · Cov(β3, βK)...

......

. . ....

Cov(βK , β1) Cov(βK , β2) Cov(βK , β3) · · · V (βK)

=

= σ2

a11 a12 a13 · · · a1K

a21 a22 a23 · · · a2K

a31 a32 a33 · · · a3K...

......

. . ....

aK1 aK2 aK3 · · · aKK

= σ2(X ′X)−1

donde akk es el elemento (k, k) de (X ′X)−1. Como toda matriz de varianzas y covarianzas, essimetrica.

113

Page 130: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Teorema de Gauss-Markov: Dados los supuestos basicos del modelo de regresion lineal general,“dentro de la clase de estimadores lineales e insesgados, β es el estimador eficiente, es decir, β tienemınima varianza”.

5.4.2. Estimacion de la varianza de las perturbaciones

En la matriz de varianzas y covarianzas del estimador MCO aparece la varianza de las perturbacio-nes, lo habitual es que sea desconocida y haya de ser estimada. Habitualmente se utiliza el siguienteestimador insesgado9 de σ2:

σ2 =u′u

N −K=

SCR

N −K=

∑u2

i

N −Ky E(σ2) = σ2

Por tanto podremos utilizarlo como el estimador apropiado de la varianza de la perturbacion. Paratrabajar con el es util escribirlo en terminos de las variables observables mediante las matrices Y ,X, ası:

σ2 =u′u

N −K=

Y ′Y − β′X ′YN −K

=Y ′Y − βX ′Xβ

N −K

Bajo las hipotesis basicas, un estimador insesgado de la matriz de varianzas y covarianzas,de βMCO es

V (βMCO) = σ2(X ′X)−1

Ejemplo 5.12

Con los datos de la Tabla 5.1 y los resultados de la estimacion del modelo (5.11) secalcula la siguiente matriz de varianzas y covarianzas estimada:

σ2 =Y ′Y − β′X ′Y

N −K=

1513039, 0100− 1496338, 941414− 4

= 1670, 0069

V (βMCO) = 1670, 0069 ×

14 26753 51 3326753 55462515 99193 65699, 75

51 99193 189 121, 7533 65699, 75 121, 75 80, 375

−1

=

=

7797, 47 0, 670891 −1677, 13 −1209, 370, 670891 0, 00102019 −0, 0754606 −0, 995066−1677, 13 −0, 0754606 730, 585 −356, 4−1209, 37 −0, 995066 −356, 4 1870, 56

9En el Anexo 2 incluido en el Apendice del Tema aparece demostrada la insesgadez de σ2.

114

Page 131: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Ejercicio 5.3

Supongamos que en la regresion mınimo cuadratica ordinaria de Y sobre X el coeficienteestimado de X es 1.2. Di si son ciertas o falsas las siguientes afirmaciones, razonando lasrespuestas:

1. Tomando distintas muestras para la variable Y pueden obtenerse otras estimacio-nes.

2. La distribucion de estas estimaciones debe estar centrada en torno al verdaderovalor 1.2.

Ejercicio 5.4

Obtener la esperanza matematica y varianza del siguiente estimador del parametro dependiente en el MLS cuando se cumplen todas las hipotesis basicas:

β = βMCO +c

N

donde c es una constante arbitraria.

Ejercicio 5.5

Se quiere estimar un modelo que explique el ahorro generado, S, en funcion del tipo deinteres, r, de la forma:

St = α + βrt + ut

1. Para estimar con mayor precision β, si pudieras elegir la muestra en diferentesperıodos, ¿la elegirıas durante un perıodo de tiempo en el cual los tipos de in-teres fueran fluctuantes o durante un perıodo en el cual los tipos de interes fueranrelativamente constantes?

2. ¿Que ocurrirıa con los estimadores MCO de los coeficientes de la regresion si elahorro ha fluctuado muy poco en torno a un valor constante durante el perıodomuestral?

Ejercicio 5.6

Supongamos que la relacion entre las variables X e Y es la siguiente Yt = βXt + ut

donde X es una variable no estocastica y ut ∼ NID(0, σ2). Se definen dos estimadorespara el parametro desconocido β:

β∗ =∑

Yt∑Xt

β =∑

XtYt∑X2

t

1. Demuestra que ambos estimadores son insesgados.

2. ¿Cual de los dos estimadores elegirıas? ¿Por que?

115

Page 132: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Ejercicio 5.7

Para el vector de perturbaciones u de orden (T × 1), indica el significado de cada unade las siguientes expresiones y establece su relacion con σ2:

1. 1T u′u

2. 1T u′u

3. E(u′u)

4. E(uu′)

5.4.3. Consecuencias del incumplimiento de algunos supuestos: colinealidad

A la hora de estimar un modelo economico, los datos disponibles sobre las variables explicativas oregresores pueden presentar un alto grado de correlacion, especialmente en un contexto de seriestemporales y con series macroeconomicas.

Cuando dos o mas variables explicativas de un modelo estan altamente correlacionadas en la muestra,es muy difıcil separar el efecto parcial de cada una de estas variables sobre la variable dependiente.La informacion muestral que incorpora una de estas variables es casi la misma que el resto de lascorrelacionadas con ella. En este tema analizaremos las implicaciones que este fenomeno muestraltiene en la estimacion por el metodo de Mınimos Cuadrados Ordinarios.

• El problema de multicolinealidad es un problema relacionado con la matriz de variables exoge-nas X .

• Se refiere no tanto a si existe o no relacion lineal entre las variables exogenas del modelo deregresion, que existira, como al grado de correlacion lineal entre las variables explicativas delmodelo de regresion lineal.

• En todo momento nosotros vamos a suponer que tenemos un modelo correctamente especi-ficado y que al estimarlo detectamos los problemas en la matriz de datos X. Ası, estamosenfocando el problema como un problema muestral.

• Podemos distinguir dos casos:

• Multicolinealidad exacta: se produce cuando existe una relacion lineal exacta.

• Alta colinealidad: cuando la correlacion entre las variables exogenas es muy alta pero noexacta.

Multicolinealidad exacta

Para verlo mas claramente vamos a seguir un ejemplo. Sea el modelo:

Yi = β1 + β2X2i + β3X3i + ui i = 1, . . . , N (5.12)

116

Page 133: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

y supongamos que X3i = 2X2i. Las ecuaciones normales que se obtienen del criterio de estimacionMCO forman un sistema de tres ecuaciones pero solo dos son linealmente independientes:

∑Yi = Nβ1 + β2

∑X2i + β3

∑X3i

∑YiX2i = β1

∑X2i + β2

∑X2

2i + β3

∑X3iX2i

∑YiX3i = β1

∑X3i + β2

∑X2iX3i + β3

∑X2

3i

ya que si sustituimos en estas ecuaciones la relacion lineal exacta X3i = 2X2i y reorganizamos,obtenemos:

∑Yi = Nβ1 + (β2 + 2β3)

∑X2i

∑YiX2i = β1

∑X2i + (β2 + 2β3)

∑X2

2i

2 (∑

YiX2i) = 2(β1

∑X2i + (β2 + 2β3)

∑X2

2i

)

Se puede observar que la tercera ecuacion es la misma que la segunda excepto por un factor de escalaigual a 2. Por lo tanto, hay tres incognitas β1, β2 y β3 pero solamente dos ecuaciones linealmenteindependientes. Dado que X3i y X2i son combinacion lineal exacta rg(X) = K − 1 = 3 − 1 = 2,luego X no es de rango completo y no se cumple una de las hipotesis basicas, la hipotesis de NoMulticolinealidad. Consecuentemente, no es posible estimar de forma unica todos los coeficientes delmodelo. Ahora bien, las dos primeras ecuaciones si podemos resolverlas para β1 y la combinacionlineal (β2 + 2β3).

Esto mismo se puede comprobar sustituyendo X3i = 2X2i en el modelo (5.12).

Yi = β1 + (β2 + 2β3)X2i + ui i = 1, 2, . . . , N (5.13)

donde podemos estimar de forma separada y unica el coeficiente β1 y la combinacion lineal (β2+2β3)pero no cada uno de sus parametros de forma individual. Ademas no importa la solucion arbitrariade las ecuaciones normales, esta combinacion lineal tiene siempre un unico valor y siempre el mismo.

• Consecuencias de la multicolinealidad exacta:

• Los efectos directos de la correlacion exacta entre regresores es que el valor del determinante|X ′X| = 0, por tanto no podemos encontrar (X ′X)−1 y por tanto, no podemos estimar elmodelo por MCO ya que el estimador se define como βMCO = (X ′X)−1X ′Y .

• En este caso lo que ocurre es que tenemos combinaciones lineales en las columnas de la matrizX con lo que rg(X) 6= K por lo que (X ′X) es una matriz singular.

• Relajamos la hipotesis basica:

rg(X) 6= K tal que rg(X) 6= K ⇒ |X ′X| = 0 ⇒6 ∃(X ′X)−1

117

Page 134: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

• Cuando la correlacion entre regresores es perfecta el problema de multicolinealidad exactase convierte en un problema de especificacion ya que no podemos estimar todos losparametros del modelo de forma individual. Podremos estimar:

• individualmente: aquellos parametros cuyas variables exogenas no estan afectadas decorrelacion exacta con otras variables exogenas del modelo y

• combinaciones lineales de los parametros cuyas variables exogenas estan implicadas enlas relaciones lineales exactas.

• Deteccion: basta con ver que |X ′X| = 0.

Alta colinealidad

En este caso el valor del |X ′X| esta muy proximo a cero, pero sera distinto de cero, por tanto∃(X ′X)−1 y podremos calcular los estimadores MCO. Ademas estos estimadores seran lineales,insesgados y de varianza mınima. Sin embargo la existencia de alta colinealidad entre variablesproduce efectos importantes que deben ser tenidos en cuenta y que son los siguientes:

• Varianzas y covarianzas cuantitativamente muy grandes:Dado que (X ′X) es casi singular, el valor de |X ′X| sera muy pequeno, por lo que, (X ′X)−1

tendra elementos muy grandes. Ası, encontraremos varianzas y covarianzas muy grandes,pero estos valores seran los mas pequenos que podemos encontrar en estas circunstancias.Cualquier otro estimador tendra varianza mayor y por tanto el estimador MCO seguira siendode varianza mınima. Aunque como consecuencia del tamano de (X ′X)−1, las estimaciones seanmuy imprecisas10.

• Como consecuencia de lo anterior, podremos encontrar R2 grandes, que indican que las va-riables exogenas conjuntamente explican mucho de la variabilidad de la variable endogena,unidos a variables explicativas que aportan poco a explicar esta variabilidad.

• Pequenos cambios en los datos producen cambios importantes en las estimaciones de losparametros.

¿Como podemos analizar si existe un problema de alta colinealidad?

• Una primera aproximacion consiste en obtener los coeficientes de correlacion muestral simplespara cada par de variables explicativas y ver si el grado de correlacion entre estas variables esalto.

• El valor del determinante decrece cuando aumenta la colinealidad, tendiendo a cero cuandoesta se hace exacta. Este hecho podemos interpretarlo como un aviso pero no tenemos unamedida que nos permita afirmar cuando es grave o muy grave.

10Como veremos en la seccion de Contraste de hipotesis el mayor tamano de las varianzas hara que aumentela probabilidad de no rechazar la hipotesis nula de significatividad individual, cuando en realidad la variable seasignificativa, solo que los datos no permiten detectar esta significatividad.

118

Page 135: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

• Valores altos del R2 y en (X ′X)−1, especialmente en su diagonal.

• Otra forma de detectar la multicolinealidad consiste en realizar la regresion de cada unade las variables explicativas sobre el resto11 y analizar los coeficientes de determinacion decada regresion. Si alguno o algunos de estos coeficientes de determinacion (R2

j ) son altos,estarıa senalando la posible existencia de un problema de multicolinealidad.

• Belsley, Kuh y Welsch (1980) consideran una serie de indicadores para analizar el grado demulticolinealidad entre los regresores de un modelo, como por ejemplo los llamados Toleran-cia (TOL) y Factor de Inflacion de la Varianza (VIF) que se definen:

V IFj =1(

1−R2j

) TOLj =1

V IFj

siendo R2j el coeficiente de determinacion de la regresion auxiliar de la variable Xj sobre el

resto de las variables explicativas y 1 ≤ V IFj ≤ ∞.

La varianza de cada uno de los coeficientes de la regresion MCO (βj) de un modelo de regresionlineal general se puede expresar como:

var(βj) =σ2

∑(Xji − Xj

)2

1(1−R2

j

) =σ2

∑(Xji − Xj

)2 V IFj

donde βj , es el coeficiente que acompana a la variable Xj y R2j es el coeficiente de determinacion

de la regresion auxiliar de la variable Xj en funcion del resto de las variables explicativas. Comovemos existe una relacion inmediata entre el valor V IFj y la varianza del coeficiente estimado.Cuanto mas se acerque R2

j a la unidad, es decir, cuanto mayor sea la colinealidad de la variableXj con el resto, mayor es el valor de V IFj y mayor es la varianza del coeficiente estimado,porque tal y como hemos dicho, la multicolinealidad “infla” la varianza. Segun estos autores,si V IFj > 10, entonces concluiremos que la colinealidad de Xj con las demas variables es alta.

La utilizacion de los coeficientes TOL y V IF para detectar la presencia de la multicolinealidadha recibido multiples crıticas, porque la conclusion obtenida con estos valores no siempre recogeadecuadamente la informacion y problema de los datos. Tal y como hemos visto anteriormente,las varianzas de los estimadores dependen del V IFj , σ2 y

∑(Xji − Xj

)2, por lo que un altoV IFj no es condicion suficiente ni necesaria para que dichas varianzas sean elevadas ya quees posible que σ2 sea pequeno o

∑(Xji − Xj

)2 grande y se compensen.

En la literatura se han propuesto muchas soluciones al posible problema de alta colinealidad yninguna de ellas es totalmente satisfactoria, por ello parece sensato aprender a convivir con elproblema y tener cuidado de no omitir aquellas variables que esconden su significatividad bajo unproblema de colinealidad y no incurrir ası en un problema de mala especificacion. Aunque no esfacil, se pueden considerar las siguientes “soluciones” para intentar resolver el problema:

• Si realmente es un problema muestral, una posibilidad es cambiar de muestra porque puedeser que con nuevos datos el problema se resuelva, aunque esto no siempre ocurre. La idea

11En cada regresion se incluye el termino constante como regresor pero no como variable dependiente.

119

Page 136: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

consiste en conseguir datos menos correlacionados que los anteriores, bien cambiando toda lamuestra o simplemente incorporando mas datos en la muestra inicial. De todas formas, nosiempre resulta facil obtener mejores datos por lo que muy probablemente debamos convivircon el problema teniendo cuidado con la inferencia realizada y las conclusiones de la misma.

• En ocasiones, si se incorpora informacion a priori sobre los coeficientes del modelo desapareceel problema. Aun ası, serıa conveniente tener en cuenta dicha informacion antes de la detecciondel problema de multicolinealidad y no posteriormente, ya que ası estimaremos el modelo maseficientemente.

Ejercicio 5.8

Comenta la siguiente afirmacion:“Si al estimar un modelo de regresion lineal la matriz de datos presenta un alto gradode multicolinealidad, la varianza de los estimadores MCO sera muy grande y, por tanto,seran ineficientes.”

Ejercicio 5.9

Supon que se formula el siguiente modelo:

Yt = β1X1t + β2X2t + β3(X1t + X2t) + β4X21t + ut ut ∼ N(0, σ2) (5.14)

1. Indica que parametros son estimables y cuales no.

2. Supon que conocemos el valor que toma el parametro β3, por ejemplo β3 = β30.Indica si esta informacion adicional varıa la conclusion anterior.

Ejercicio 5.10

Supon que se formula el siguiente modelo:

Yt = α0 + α1X1t + α2(7X1t) + α3X21t + ut (5.15)

1. Indica que parametros son estimables y cuales no.

2. Explica intuitivamente porque no podemos estimar todos los coeficientes.

5.4.4. Consecuencias del incumplimiento de algunos supuestos: omision de variablesrelevantes e inclusion de variables irrelevantes

Dentro de las hipotesis basicas hemos supuesto que el modelo estaba correctamente especificado,esto en ocasiones no es ası bien porque faltan variables (omision de variables relevantes) o porquehay mas de las necesarias (inclusion de variables irrelevantes). Estas situaciones influyen en laspropiedades del estimador MCO y es necesario tenerlo en cuenta.

120

Page 137: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Omision de variables relevantes

Suponemos que el modelo correctamente especificado es:

Y = Xβ + u = [ X1 X2 ][

β1

β2

]+ u = X1β1 + X2β2 + u (5.16)

donde X1 es una submatriz de orden (N ×K1) y X2 es una submatriz de orden (N ×K2) y portanto β1 es un subvector de orden (K1 × 1) y β2 es un subvector de orden (K2 × 1). Pero nosotrosestimamos el siguiente modelo incorrectamente especificado:

Y = X1β1 + v donde v = X2β2 + u (5.17)

El modelo (5.17) incurre en un error de especificacion ya que se omiten las variables relevantesrecogidas en X2. Esto es lo mismo que imponer la restriccion vectorial β2 = 0 cuando no es cierta.

El estimador MCO de β1 es β1 = (X ′1X1)−1X ′

1Y , y v = Y −X1β1. Consecuencias:

• En general los estimadores son sesgados:

E(β1) = E((X ′1X1)−1X ′

1Y ) = β1 + (X ′1X1)−1X ′

1X2β2

Sesgo(β1) = (X ′1X1)−1X ′

1X2β2 y se anulara si X ′1X2 = 0, es decir, si las variables omitidas

son ortogonales a las no omitidas. Notar que el sesgo se anula tambien para β2 = 0 pero estaes una solucion trivial dado que al ser X2 regresores relevantes necesariamente β2 6= 0.

• Las matriz de varianzas y covarianzas es V (β1) = σ2(X ′1X1)−1

• El estimador de la varianza de la perturbacion es sesgado, y lo es siempre incluso cuando losregresores son ortogonales:

σ2 =v′v

N −K1−→ E(σ2) =

E(v′v)N −K1

6= σ2

Inclusion de variables irrelevantes

Este caso formalmente es justo el inverso del anterior. El modelo correctamente especificado es:

Y = X1β1 + u u ∼ N(0, σ2I) (5.18)

y el modelo estimado es:Y = X1β1 + X2β2 + v (5.19)

donde aparecen las variables irrelevantes en la matriz X2 de orden (N ×K2) con unos coeficientes,β2, de orden (K2 × 1), que son cero, poblacionalmente. Consecuencias:

• Los estimadores de los coeficientes son insesgados. Podemos escribir el modelo correcto como:

Y = X1β1 + X2 0 + u (5.20)

121

Page 138: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

E

[β1

β2

]= E

([β1

0

]+

[X ′

1X1 X ′1X2

X ′2X1 X ′

2X2

]−1 [X ′

1uX ′

2u

])=

=[

β1

0

]+

[X ′

1X1 X ′1X2

X ′2X1 X ′

2X2

]−1 [X ′

1E(u)X ′

2E(u)

]

︸ ︷︷ ︸0

=[

β1

0

]

ya que X es fija y E(u) = 0. Por lo tanto, el estimador de (5.19) sigue siendo insesgadoaunque se incluyan variables irrelevantes.

• Las matriz de varianzas y covarianzas es V(β) = σ2(X ′X)−1

• El estimador de la varianza de las perturbaciones del modelo (5.19) es un estimador insesgadode σ2

σ2 =v′v

N − (K1 + K2)

5.5. Utilizacion de variables explicativas cualitativas

A lo largo del curso se han especificado mayoritariamente modelos con variables de naturalezacuantitativa, es decir, aquellas que toman valores numericos. Sin embargo, las variables tambienpueden ser cualitativas, es decir, pueden tomar valores no numericos como categorıas, clases oatributos. Por ejemplo, son variables cualitativas el genero de las personas, el estado civil, la raza,el pertenecer a diferentes zonas geograficas, momentos historicos, estaciones del ano, etc. De estaforma, el salario de los trabajadores puede depender del genero de los mismos; la tasa de criminalidadpuede venir determinada por la zona geografica de residencia de los individuos; el PIB de los paısespuede estar influenciado por determinados acontecimientos historicos como las guerras; las ventasde un determinado producto pueden ser significativamente distintas en funcion de la epoca del ano,etc. En esta seccion, aunque seguimos manteniendo que la variable dependiente es cuantitativa,vamos a considerar que esta puede venir explicada por variables cualitativas y/o cuantitativas yveremos como trabajar con ellas incluyendolas como regresores en el MRLG.

Dado que las categorıas de las variables no son directamente cuantificables, las vamos a cuantificarconstruyendo unas variables artificiales llamadas ficticias, binarias o dummies, que son numericas.Estas variables toman arbitrariamente el valor 1 si la categorıa esta presente en el individuo y 0 encaso contrario12.

Di =

1 si la categorıa esta presente0 en caso contrario

Por ejemplo si queremos estudiar la dependencia del salario (Wi) con respecto al sexo del individuodefiniremos dos variables ficticias:

12Las variables ficticias pueden tomar dos valores cualesquiera, sin embargo, la interpretacion de los coeficientes esmas sencilla si se consideran los valores 0 y 1.

122

Page 139: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

S1i =

1 si el individuo i es hombre0 en caso contrario

S2i =

1 si el individuo i es mujer0 en caso contrario

la variable sexo tiene dos categorıas o estados de la naturaleza: hombre y mujer, para recogerlosutilizamos dos variables ficticias que dividen la muestra en dos clases hombres y mujeres, y asignamosun valor arbitrario a cada clase13.

En este tema ya hemos trabajado con ellas, el Ejemplo 5.4 especificamos la funcion de salario enfuncion del regresor cualitativo sexo e interpretamos sus parametros. En el Ejemplo 5.5 ademasse anadio un regresor cuantitativo, la experiencia y se interpretaron los parametros. Si se retomandichos ejercicios se puede ver que trabajar con variables cualitativas o con variables cuantitativas ala hora de interpretar los coeficientes de la regresion y estimarlos es indiferente sin embargo hay quetener en cuenta algunas reglas a la hora de especificar el modelo. A conocer estas vamos a dedicarlas secciones siguientes.

5.5.1. Modelo que recoge solo efectos cualitativos: comparando medias. Solo un con-junto de variables ficticias.

Supongamos que tenemos datos de salarios de hombres y mujeres, Wi y creemos que, en media,existen diferencias salariales entre estos dos grupos. Para contrastar que esto es cierto podemosrecoger el efecto cualitativo sexo sobre el salario utilizando las variables ficticias:

S1i =

1 si el individuo i es hombre0 en caso contrario

S2i =

1 si el individuo i es mujer0 en caso contrario

y podemos especificar el siguiente modelo como ya se hizo en el Ejemplo 5.4:

Wi = β1 + β2S2i + ui i = 1, . . . , NH + NM ui ∼ NID(0, σ2) (5.21)

β1 es el salario esperado cuando el individuo eshombre, β1+β2 es el salario esperado de una mu-jer y β2 recoge el efecto diferencial en el salarioesperado entre hombres y mujeres. Si no exis-tiera discriminacion salarial por sexo, es decir sihombres y mujeres tuvieran el mismo salario, suvalor serıa cero. En el grafico podemos observarestos efectos donde se supone que β2 es positivopor razones didacticas.

i

W

β1 + β2

β1

• Estimacion del modelo (5.21):

Wi = β1 + β2S2i + ui i = 1, . . . , NH + NM

13Elegir los valores (0,1) es muy comodo pero podrıamos elegir otros, por ejemplo:

S1i =

1 si el individuo i es hombre0 en caso contrario

S2i =

2 si el individuo i es mujer0 en caso contrario

123

Page 140: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

[WH

WM

]=

[iH 0iM iM

] [β1

β2

]+

[uH

uM

]⇒ Y = Xβ + u

Notacion utilizada: NH es el numero de individuos varones y NM el numero de mujeres. WH ,WM

son vectores columna que recogen los salarios de hombres y mujeres, por tanto de orden NH × 1 yNM ×1, respectivamente. iH , iM son vectores de unos de tamano NH×1 y NM ×1 respectivamente.

βMCO = (X ′X)−1X ′Y

[β1

β2

]=

[[i′H i′M0 i′M

] [iH 0iM iM

]]−1 [i′H i′M0 i′M

] [WH

WM

]=

=[

NH + NM NM

NM NM

]−1 [ ∑WH +

∑WM∑

WM

]=

[WH

WM − WH

]

que serıa el equivalente a estimar cada ecuacion por separado, en las dos ecuaciones a las que dalugar el modelo (5.21):

Wi = β1 + ui i = 1, . . . , NH para los hombres

Wi = β1 + β2 + ui i = 1, . . . , NM para las mujeres

• Alternativa de especificacion del modelo (5.21):

Wi = α1S1i + α2S2i + ui i = 1, . . . , NH + NM (5.22)

de donde suponiendo ui ∼ NID(0, σ2)

α1 = E(Wi|S1i = 1;S2i = 0) es el salario esperado de un hombre

α2 = E(Wi|S1i = 0;S2i = 1) es el salario esperado de una mujer

por tanto estos coeficientes recogen el salario medio dentro del grupo.

• Estimacion del modelo (5.22):

Wi = α1S1i + α2S2i + ui i = 1, . . . , NH + NM

[WH

WM

]=

[iH 00 iM

] [α1

α2

]+

[uH

uM

]⇒ Y = Xβ + u

βMCO = (X ′X)−1X ′Y

[α1

α2

]=

[[i′H 00 i′M

] [iH 00 iM

]]−1 [i′H 00 i′M

] [WH

WM

]=

124

Page 141: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

=[

NH 00 NM

]−1 [ ∑WH∑WM

]=

[ ∑WH/NH∑WM/NM

]=

[WH

WM

]

Wi = α1S1i + α2S2i = WHS1i + WMS2i

Los mismos resultados se obtendrıan si hubiesemos estimados las ecuaciones por separado en lasdos ecuaciones a que da lugar el modelo (5.22):

Wi = α1 + ui i = 1, . . . , NH y Wi = α2 + ui i = 1, . . . , NH

Ademas la relacion entre los parametros del modelo (5.21) y los del modelo (5.22) es la siguiente:

β1 = α1 β1 + β2 = α2 luego β2 = α2 − α1

Ejercicio 5.11

Interpreta los coeficientes de la siguiente regresion:

Wi = β1S1i + β2 + ui i = 1, . . . , NH + NM ui ∼ NID(0, σ2)

donde Wi es el salario del individuo i y

S1i =

1 si el individuo i es hombre0 en caso contrario

S2i =

1 si el individuo i es mujer0 en caso contrario

¿Que diferencia hay entre esta especificacion y la especificacion del modelo (5.21)?

Ejercicio 5.12

Interpreta los coeficientes de la regresion:

Wi = α0 + α1S1i + α2S2i + ui i = 1, . . . , NH + NM

donde Wi es el salario del individuo i y

S1i =

1 si el individuo i es hombre0 en caso contrario

S2i =

1 si el individuo i es mujer0 en caso contrario

¿Puedes estimarlos todos? ¿Que problema existe en el modelo anterior? ¿Se cumplentodas las hipotesis basicas?

125

Page 142: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

5.5.2. Dos o mas conjuntos de variables ficticias

Supongamos que pensamos que en el nivel de salarios influye ademas del sexo el nivel de educacion.Para recoger estos efectos podemos definir dos conjuntos de variables ficticias, sexo y educacion, laprimera con dos categorıas o estados de la naturaleza y la segunda con tres, y recoger cada categorıao estado de la naturaleza con un variable ficticia. Ası, definimos:

S1i =

1 si el individuo i es hombre0 en caso contrario

E1i =

1 si i tiene hasta estudios primarios0 en caso contrario

S2i =

1 si el individuo i es mujer0 en caso contrario

E2i =

1 si i tiene hasta estudios secundarios0 en caso contrario

E3i =

1 si i tiene hasta estudios universitarios0 en caso contrario

siendo Eij sucesos excluyentes. La especificacion correspondiente es:

Wi = µ + α2S2i + β2E2i + β3E3i + ui i = 1, . . . , NH + NM (5.23)

donde para evitar problemas de multicolinealidad exacta hemos excluido una categorıa de cadafactor cualitativo. Podemos obtener el salario esperado de los diferentes individuos de la muestra:

E(Wi/S2i = E2i = E3i = 0) = µ, salario esperado de un hombre con estudios primarios.E(Wi/E2i = 1;S2i = E3i = 0) = µ + β2, salario esperado de un hombre con estudios secundarios.E(Wi/E3i = 1;S2i = E2i = 0) = µ + β3, salario esperado de un hombre con estudios universitarios.E(Wi/S2i = 1;E2i = E3i = 0) = µ + α2, salario esperado de una mujer con estudios primariosE(Wi/S2i = E2i = 1;E3i = 0) = µ + α2 + β2, salario esperado de una mujer con estudios secundarios.E(Wi/S2i = E3i = 1;E2i = 0) = µ + α2 + β3, salario esperado de una mujer con estudios universitarios.

Esta informacion podemos resumirla en la siguiente tabla:

E(Wi) E1i E2i E3i

S1i µ µ + β2 µ + β3

S2i µ + α2 µ + α2 + β2 µ + α2 + β3

y podemos interpretar los parametros como sigue:

µ Base de comparacion.α2 Efecto diferencial en el salario medio debido al factor sexo. Por tanto es el diferencial en

el salario medio entre hombres y mujeres independientemente de su nivel de educacion.β2 Efecto diferencial en el salario medio debido a tener un nivel de estudios secundarios.

Por tanto es el diferencial en el salario medio, para hombres y mujeres, entre tener unnivel de estudios primarios y tener secundaria.

β3 Efecto diferencial en el salario medio debido a tener un nivel de estudios universitarios.Por tanto es el diferencial en el salario medio, para hombres y mujeres, entre tener unnivel de estudios primarios y tener estudios universitarios.

126

Page 143: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

La matriz de regresores del modelo serıa:

X =

iN1 0 0 0iN2 0 iN2 0iN3 0 0 iN3

iN4 iN4 0 0iN5 iN5 iN5 0iN6 iN6 iN6 iN6

donde iNj es un vector de unos de tamano el numero de individuos que cumplen las condiciones,por ejemplo iN6 es un vector de unos de tamano el numero de mujeres con estudios universitarios.Cuando existen dos o mas conjuntos de variables ficticias lo que no debemos hacer es incluir todaslas variables ficticias y un termino independiente. En el caso anterior tenemos dos conjuntos condos y tres estados de la naturaleza respectivamente, si proponemos la especificacion:

Wi = µ∗ + α∗1S1i + α∗2S2i + β∗1E1i + β∗2E2i + β∗3E3i + ui i = 1, . . . , NH + NM (5.24)

existirıa multicolinealidad exacta en la matriz de regresores y no podrıamos estimar separadamenteninguno de los coeficientes. La matriz de regresores del modelo (5.24) es:

X =

iN1 iN1 0 iN1 0 0iN2 iN2 0 0 iN2 0iN3 iN3 0 0 0 iN3

iN4 0 iN4 iN4 0 0iN5 0 iN5 0 iN5 0iN6 0 iN6 0 0 iN6

⇒ rg(X) < K

5.5.3. Inclusion de variables cuantitativas

En cualquiera de los modelos anteriores puede incluirse una-s variable-s cuantitativas, por ejemplosi creemos que el salario depende no solo de sexo sino tambien del numero de horas trabajadas,variable que denotamos como Xi propondremos:

Wi = α1S1i + α2S2i + βXi + ui i = 1, . . . , NH + NM (5.25)

Donde el coeficiente β se interpreta de la forma habitual, β = E(Wi)∂Xi

. En forma matricial el modeloserıa:

[WH

WM

]=

[iH 0 XH

0 iM XM

]

α1

α2

β

+

[uH

uM

]⇒ Y = Xβ + u

127

Page 144: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

La especificacion alternativa correspondienteserıa:

Wi = α∗1 + α∗2S2i + βXi + ui (5.26)

i = 1, . . . , NH + NM

Donde el coeficiente β se interpreta de la formahabitual. En forma matricial el modelo serıa:

[WH

WM

]=

[iH 0 XH

iM iM XM

]

α∗1α∗2β

+

[uH

uM

]

⇒ Y = Xβ + u

X

W

α∗1

α∗1 + α∗2

α∗1 + α∗2 + βXM

α∗1 + βXH

5.5.4. Comportamiento estacional

Las variables ficticias permiten recoger facilmente comportamientos estacionales, como se hizo enel Ejemplo 5.6. Por ejemplo, que las ventas de una empresa sean sistematicamente superiores enalguno de los trimestres del ano y que ese comportamiento se repita sistematicamente ano tras anoes un clasico patron de comportamiento sistematico estacional. Este comportamiento se produce endatos de series temporales de periodo inferior al anual y puede ser estudiado facilmente mediantevariables ficticias.

Por ejemplo para recoger el comportamiento estacional de una variable Yt muestreada trimestral-mente podemos proponer el modelo:

Yt = β1 + β2D2t + β3D3t + β4D4t + ut t = 1, 2, . . . T

donde t es el tiempo y las variables Djt son variables ficticias estacionales que se definen:

Djt =

1 si la observacion t pertenece al trimestre j j = 2, 3, 40 en caso contrario

La especificacion alternativa serıa:

Yt = β1D1t + β2D2t + β3D3t + β4D4t + ut t = 1, 2, . . . T

5.5.5. Efectos de interaccion

Entre factores cualitativos y cuantitativos En las ecuaciones (5.25) y (5.26) se recogen cambiosen ordenada pero no en pendiente, sin embargo podemos pensar que el numero de horas trabajadascambia segun el sexo del individuo con lo cual debemos recoger cambios en pendiente. Este efectopodemos analizarlo asociando las variables ficticias a la variable cuantitativa. Ası proponemos elsiguiente modelo:

Wi = α1S1i + α2S2i + β1(S1i ×Xi) + β2(S2i ×Xi) + ui i = 1, . . . , NH + NM (5.27)

128

Page 145: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

E(Wi/S1i = 1;S2i = 0) = α1 + β1Xi

E(Wi/S1i = 0;S2i = 1) = α2 + β2Xi

donde β1 y β2 recogen el incremento en el salario medio ante un aumento unitario en las horastrabajadas, para los hombres y para las mujeres respectivamente.

Una especificacion alternativa serıa:

Wi = α∗1 + α∗2S2i + β∗1Xi + β∗2(S2i ×Xi) + ui

i = 1, . . . , NH + NM (5.28)

siendo α∗2 el incremento salarial en media por elhecho de ser mujer y β∗2 el incremento en el sala-rio medio de una mujer con respecto a un hom-bre ante un aumento de una hora en el numerode horas trabajado.

X

W

α∗1

α∗1 + α∗2

α∗1 + α∗2 + (β∗1 + β∗2)XM

α∗1 + β∗1XH

Entre factores cualitativos En el modelo (5.23) se supone que el efecto de cada factor es constantepara todos los niveles de los demas factores. Sin embargo si suponemos que el efecto diferencial delsexo variase con el nivel de educacion existirıa un efecto interaccion entre las variables ficticias sexoy educacion, que podemos recoger ası:

Wi = µ + α2S2i + β2E2i + β3E3i + γ2(S2i ×E2i) + γ3(S2i × E3i) + ui i = 1, . . . , NH + NM (5.29)

donde la tabla que resume el comportamiento de la recta de regresion poblacional serıa:

E(Wi) E1i E2i E3i

S1i µ µ + β2 µ + β3

S2i µ + α2 µ + α2 + β2 + γ2 µ + α2 + β3 + γ3

y podemos interpretar los parametros como sigue:

µ base de comparacion.β2 Efecto diferencial en el salario medio debido a tener un nivel de estudios secundarios,

con respecto a tener estudios primarios, para los hombres.β3 Efecto diferencial en el salario medio debido a tener un nivel de estudios universitarios,

con respecto a tener estudios primarios, para los hombres.α2 Efecto diferencial en el salario medio entre los hombres y las mujeres para un nivel de

educacion primaria.α2 + γ2 Efecto diferencial en el salario medio, entre hombres y mujeres, para un nivel de educa-

cion secundaria.α2 + γ3 Efecto diferencial en el salario medio, entre hombres y mujeres, para un nivel de educa-

cion universitaria.β2 + γ2 Efecto diferencial en el salario medio debido a tener un nivel de estudios secundarios,

con respecto a tener estudios primarios, para las mujeres.β3 + γ3 Efecto diferencial en el salario medio debido a tener un nivel de estudios universitarios,

con respecto a tener estudios primarios, para las mujeres.

129

Page 146: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

5.6. Distribucion del estimador MCO. Estimacion por intervalo

5.6.1. Distribucion del estimador de MCO bajo Normalidad

Si Y = Xβ +u, donde u ∼ N(0, σ2IN ), el estimador MCO, dado que es lineal en las perturbaciones,tambien seguira una distribucion Normal Multivariante, con vector de medias E(β) = β y matrizde varianzas y covarianzas V (β) = σ2(X ′X)−1. Es decir,

β ∼ N(β, σ2(X ′X)−1)

Para el k-esimo coeficiente,βk ∼ N(βk, σ

2akk)

donde akk es el elemento (k, k) de la matriz (X ′X)−1.

5.6.2. Estimacion por intervalo

Para el k-esimo coeficiente,βk ∼ N(βk, σ

2akk)

Una vez estimada la varianza de la perturbacion con el estimador insesgado σ2 se puede demostrarque:

βk − βk

σ√

akk∼t(N−K)

donde t(N−K) denota la distribucion t-Student con (N −K) grados de libertad, y σ√

akk es la des-viacion estimada del coeficiente estimado. (Notacion σ

√akk = σβk

).

El intervalo de confianza asociado es14:

Pr[βk − tα

2(N−K)σβk

< βk < βk + tα2(N−K)σβk

]= 1− α

Con lo que podemos escribir el intervalo de confianza del (1 − α) por ciento para un coeficientecualquiera βk como:

IC(βk)1−α =(βk ± tα

2(N−K) σβk

)

Este es un estimador por intervalo porque en los extremos inferior y superior del intervalo aparecenβk y σβk

, que son estimadores. Este intervalo es aleatorio, porque para cada muestra se obtiene un

valor numerico distinto de βk y σβk. Cuando usamos una muestra para obtener las estimaciones,

tendremos [un numero ≤ βk ≤ otro numero] y se denomina estimacion por intervalo de βk o inter-valo de confianza (1−α) para βk. Un intervalo de confianza nos dice que, con probabilidad (1−α)se estima que el parametro βk estara dentro de ese rango de valores.

14Ver el Tema 2 para recordar como construir intervalos de confianza.

130

Page 147: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Las propiedades de la variable aleatoria IC(βk) se basan en la nocion del muestreo repetido: siobtuvieramos infinitas muestras de tamano N de una misma poblacion, y para cada una de ellasconstruyesemos el intervalo, entonces (1−α)×100% de todos los intervalos construidos contendrıanel verdadero valor (desconocido) de βk.

¿Para que sirven las estimaciones por intervalo? La respuesta es que nos dan una informacionmuy valiosa sobre la precision de las estimaciones por punto, esto es, nos dicen hasta que puntonos podemos fiar de ellas. Si un intervalo de confianza es ancho (debido a una V (βk) grande) nosesta diciendo que no hay mucha informacion en la muestra sobre βk. Ademas, como veremos masadelante, los intervalos sirven para realizar contraste de hipotesis.

5.7. Contraste de hipotesis sobre los coeficientes de la regresion

Un problema fundamental de la Econometrıa es aportar un conocimiento descriptivo de una eco-nomıa real, los economistas desarrollan teorıas sobre el comportamiento economico y las evaluan.Los contrastes de hipotesis son los procedimientos que se usan para evaluar estas teorıas. Para ellovamos a utilizar el modelo Y = Xβ + u donde consideramos que se cumplen las hipotesis basicas yademas la perturbacion es normal. La normalidad no es necesaria para estimar por MCO ni paradeterminar las propiedades del estimador pero si lo es para realizar inferencia dado que al ser βMCO

lineal en u tendra su misma distribucion y podremos derivar estadısticos de contraste basandonosen ella.

Por ejemplo, dado que

ui ∼ N(0, σ2) −→ βk ∼ N(βk, σ2akk)

si conocemos todos los elementos incluido σ2 podrıamos contrastar hipotesis de la forma H0 : βk = c

con el siguiente estadıstico:βk − c

σ√

akk

H0∼ N(0, 1)

En general nosotros lo que queremos es contrastar conjuntos lineales de hipotesis. Podemos realizarcontrastes sobre los coeficientes individuales y sobre conjuntos de coeficientes, incluso sobre todoslos coeficientes a la vez. Los contrastes mas importantes en Econometrıa son los contrastes designificatividad de los regresores individuales y el contraste de significatividad conjunta. En ellostratamos de analizar si cada uno de los regresores del modelo de forma individual o conjuntamenteson utiles para explicar el comportamiento de la variable endogena. Los veremos a continuacionjunto con otros de interes.

5.7.1. Contraste de restricciones sobre los coeficientes de regresion individuales

En los contrastes sobre los coeficientes individuales se contrasta la hipotesis nula H0 : βk = c,donde la constante c puede tomar diversos valores. Contrastamos una unica restriccion. La hipotesisalternativa puede ser a una cola por ejemplo Ha : βk > 0 o a dos colas Ha : βk 6= c. Para realizarel contraste hemos de derivar el estadıstico de contraste y su distribucion bajo la hipotesis nula,

131

Page 148: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

evaluar el estadıstico en la muestra y aplicar la regla de decision15. Para contrastar:

H0 : βk = c frente a Ha : βk 6= c

Bajo las hipotesis basicas y normalidad de las perturbaciones la distribucion del estimador βk es lasiguiente:

βk ∼ N(βk, σ2akk)

Si σ2 es conocida todo es conocido en la distribucion de βk y el estadıstico de contraste serıa:

βk − c

σβk

H0∼ N(0, 1)

En el resto de ejemplos consideramos el caso mas habitual σ2 desconocida, para el cual podemosderivar el siguiente estadıstico de contraste16 y distribucion asociada cuando σ2 es estimada con elestimador insesgado σ2 = u′u

N−K :

βk − c

σβk

H0∼ t(N−K)

La regla de decision es rechazar H0 si βk−cσβk

> t(N−K)| α2. En este caso contrario no se rechaza.

Si la alternativa es a una cola, por ejemplo:

H0 : βk = c frente a Ha : βk > c

La regla de decision es rechazar H0 si βk−cσβk

> t(N−K)|α.

Contraste de significatividad individual

Cuando c = 0 al contraste se le denomina de significatividad individual. En este caso:

H0 : βk = 0

Ha : βk 6= 015Ver Tema 3 para recordar el mecanismo de contraste.16Si σ2 es desconocida habrıa de ser estimada, bajo la normalidad de las perturbaciones

ui ∼ N(0, σ2) −→ (N −K)σ2

σ2∼ χ2

(N−K)

y derivar el correspondiente estadıstico de contraste, que serıa:

βk−cσ√

akk√∑u2

i /σ2

N−K

H0∼ t(N−K) si simplificamosβk − c

σ√

akk

H0∼ t(N−K)

132

Page 149: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Podemos derivar el siguiente estadıstico de contraste y distribucion:

βk

σβk

H0∼ t(N−K)

Si el estadıstico calculado para la muestra es mayor que el estadıstico en tablas, βkσβk

> t(N−K)| α2

para un α dado, se rechaza la hipotesis nula. En este caso βk 6= 0 y la variable explicativa asociadaXk es significativa para explicar el comportamiento de la variable endogena. Por tanto este contrastesirve para decidir si la variable Xk debe mantenerse en el modelo. Si el estadıstico calculado parala muestra es menor que el estadıstico en tablas, βk

σβk

< t(N−K)| α2

para un α dado, no se rechaza

la hipotesis nula. En este caso βk = 0 y la variable explicativa asociada Xk no es significativa paraexplicar el comportamiento de la variable endogena.

Utilizacion del intervalo de confianza para hacer contraste de hipotesis En secciones anterioreshablamos de la estimacion por intervalo y se menciono que tambien podıamos realizar inferenciautilizando intervalos de confianza. Pues bien si recordamos el intervalo de confianza asociado a βk:

Pr[βk − tα

2(N−K)σβk

< βk < βk + tα2(N−K)σβk

]= 1− α

IC(βk)1−α :(βk ± tα

2(N−K) σβk

)

y la regla de decision es que si la constante c (en este caso c = 0) pertenece al intervalo, norechazamos H0 con un nivel de significacion α y si no pertenece al intervalo, rechazamos H0 con unnivel de significacion α. Claramente se obtienen exactamente los mismos resultados utilizando losestadısticos de contraste individuales que utilizando los intervalos de confianza.

5.7.2. Contraste de restricciones sobre los coeficientes de regresion

En ocasiones interesa averiguar cual es el efecto de la combinacion de varias variables, por ejemplonos interesara saber si la combinacion de todas las variables es un util predictor de la variabledependiente.

Contraste de significatividad conjunto

H0 : β2 = β3 = · · · = βK = 0

Ha : alguna igualdad no se da

En este caso podemos derivar el siguiente estadıstico de contraste y distribucion asociada:

R2/K − 11−R2/N −K

H0∼ F(K−1,N−K)

133

Page 150: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Si R2/K−11−R2/N−K

> F(q,N−K)|α el estadıstico calculado para la muestra es mayor que el estadıstico entablas, para un α dado, se rechaza la hipotesis nula y se concluye que las variables son conjuntamentesignificativas para explicar el comportamiento de la variable endogena.

Ejemplo 5.13

Vamos a mostrar un ejemplo sobre los contrastes de significatividad individual y conjuntocon los resultados de la estimacion del modelo (5.11). Primero vamos a escribir losresultados de la estimacion de la forma habitual en que se muestran en la literatura:

PRICE(σβk

)= 129, 062

(88,30)+ 0, 154800

(0,03)SQFT − 21, 5875

(27,02)BEDRMS − 12, 1928

(43,25)BATHS

N = 14 R2 = 0, 8359 R2 = 0, 7868

Como puede apreciarse en la ecuacion anterior, se indica que bajo cada coeficiente esti-mado aparece su correspondiente desviacion tıpica estimada17.Contrastes de significatividad individual, contrastamos:

H0 : βk = 0Ha : βk 6= 0

con el estadıstico y distribucion

βk

σβk

H0∼ t(14−4)

• Para la variable SQFT obtenemos:

0, 15480, 0319

= 4, 8465 > 2, 22814 = t(10) |0,025

luego rechazamos H0 para α = 5 % y la variable SQFT es significativa.

• Para la variable BEDRMS obtenemos:∣∣∣∣−21, 58727, 0293

∣∣∣∣ = | − 0, 7987| < 2, 22814 = t(10) |0,025

luego no rechazamos H0 para α = 5 % y la variable BEDRMS no es significativa.

• Para la variable BATHS obtenemos:∣∣∣∣−12, 19243, 25

∣∣∣∣ = | − 0, 2819| < 2, 22814 = t(10) |0,025

luego no rechazamos H0 para α = 5% y la variable BATHS no es significativa.

En el contraste de significatividad conjunta, contrastamos:

H0 : β2 = β3 = β4 = 0Ha : alguna igualdad no se da

con

R2/K − 11−R2/N −K

H0∼ F(K−1,N−K)

17Una alternativa a presentar las desviaciones tıpicas estimadas de los coeficientes es presentar el valor muestral delestadıstico de significatividad individual para el coeficiente de regresion correspondiente o los valores p.

134

Page 151: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Evaluado el estadıstico en la muestra obtenemos:

0, 8359/3(1− 0, 8359)/10

= 16, 989 > 3, 70826 = F(3,10) |0,05

rechazamos H0 para α = 5%. Concluimos que las variables exogenas SQFT,BEDRMS

y BATHS son conjuntamente significativas.

Ejemplo 5.14

Utilizamos la funcion de salarios especificada para el ano 2002 que se propuso en elEjemplo 5.5:

Wi = β1 + β2S2i + β3Xi + ui i = 1, 2, . . . N

donde Wi es el salario anual del individuo i, Xi son los anos de experiencia del individuoi y S2i es una variable ficticia que se define:

S2i =

1 si el individuo i es mujer0 en caso contrario

En este modelo podemos contrastar:

• Si la experiencia es determinante del salario: H0 : β3 = 0, si esta hipotesis no serechaza para un nivel de significatividad dado el salario no depende de los anos deexperiencia del individuo. Contrastamos:

H0 : β3 = 0Ha : β3 6= 0

con el estadıstico y distribucion

β3

σβ3

H0∼ t(N−3)

• Si existe discriminacion salarial por sexo: H0 : β2 = 0, si esta hipotesis no se rechazapara un nivel de significatividad dado no existe discriminacion salarial por sexo.Por ejemplo si la experiencia es cero y β2 = 0, el salario esperado es β1 ∀i luego elsalario esperado es el mismo para hombres y mujeres.

H0 : β2 = 0Ha : β2 6= 0

con el estadıstico y distribucion

β2

σβ2

H0∼ t(N−3)

Contraste de combinaciones lineales

Por ejemplo contrastamos la hipotesis:

H0 : β2 + β3 = 1

Ha : β2 + β3 6= 1

Renombrando w = β2 + β3 y c = 1 se puede expresar la hipotesis nula y alternativa ası como elestadıstico de contraste y su distribucion asociada como:

H0 : w = c Ha : w 6= c

135

Page 152: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

w − c

σw

H0∼ t(N−K) si H0 es cierta

La distribucion del estadıstico w ∼ N(µw, σ2w) dado que:

w = β2 + β3

β2 ∼ N(β2, σ2a22)

β3 ∼ N(β3, σ2a33)

esµw = E(w) = E(β2 + β3) = β2 + β3

σ2w = V (w) = E[w − E(w)]2 = E[(β2 + β3)− (β2 + β3)]2 = V (β2) + V (β3) + 2Cov(β2, β3)

= σ2(a22 + a33 + 2a23)

Por tantoβ2 + β3 ∼ N(β2 + β3, σ

2(a22 + a33 + 2a23))

Luego en terminos de los coeficientes estimados originales el estadıstico de contraste y distribuciones:

β2 + β3 − 1√V (β2) + V (β3) + 2 ˆCov(β2, β3)

H0∼ t(N−K)

o lo que es igual:

β2 + β3 − 1σ√

a22 + a33 + 2a23

H0∼ t(N−K)

Con la regla de decision habitual.

Ejemplo 5.15

Para contrastar:H0 : β2 = β3 Ha : β2 6= β3

es equivalente a escribir:

H0 : β2 − β3 = 0 Ha : β2 − β3 6= 0

que podemos contrastar con el estadıstico y distribucion:

β2 − β3

σ√

a22 + a33 − 2a23

H0∼ t(N−K)

Con la regla de decision habitual.

136

Page 153: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Contraste de un subconjunto de coeficientes

Supongamos el siguiente modelo de regresion:

Yi = β1 + β2X2i + . . . + βkXki + α1Z1i + α2Z2i + . . . + αrZri + ui i = 1, 2, . . . , N

y queremos contrastar si el subconjunto de regresores Z1i, Z2i, . . . , Zri son conjuntamente significa-tivos para explicar el comportamiento de la variable endogena. La hipotesis de contraste es:

H0 : α1 = α2 = . . . = αr = 0

Ha : alguna igualdad no se de

El estadıstico de contraste y distribucion son:

u′rur − u′u/r

u′u/(N −K)H0∼ F(r,N−K) (5.30)

donde:

• u′rur es la suma de cuadrados residual del modelo restringido estimado por MCO, siendo elmodelo restringido aquel que cumple la hipotesis nula. Luego el modelo restringido es:

Yi = β1 + β2X2i + . . . + βkXki + uri i = 1, 2, . . . , N

• u′u es la suma de cuadrados residual del modelo no restringido o lo que es igual el modelo deinteres estimado por MCO:

Yi = β1 + β2X2i + . . . + βkXki + α1Z1i + α2Z2i + . . . + αrZri + ui i = 1, 2, . . . , N

• r es el numero de restricciones que se contrastan, en este caso el numero de coeficientes αr.

La regla de decision es la habitual, se rechaza la hipotesis nula si:

u′rur − u′u/r

u′u/(N −K)> F(r,N−K)|α

en cuyo caso las variables exogenas Zri contribuyen a explicar el comportamiento de la variableendogena, en cuyo caso debemos especificar el modelo no restringido. Si u′rur−u′u/r

u′u/(N−K) < F(r,N−K)|αno rechazamos H0 en cuyo caso las variables Zri no contribuyen a explicar a la variable endogenay debemos especificar el modelo restringido.

5.7.3. Contrastes basados en sumas de cuadrados de residuos

Al estadıstico:

u′rur − u′u/q

u′u/(N −K)H0∼ F(q,N−K)

137

Page 154: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

generalmente se le conoce con el nombre de estadıstico de diferencias en las sumas residualesde cuadrados. Puede ser utilizado para contrastar hipotesis lineales con solo especificar correcta-mente los modelos restringido y no restringido, q es el numero de restricciones que se contrastan.

Para su aplicacion solo es necesario obtener la SCR del modelo restringido y no restringido. Vamosa estudiarlo en detalle en el ejemplo siguiente.

Estimacion del modelo restringido y calculo de la SCRr El modelo restringido (MR) es aquelque cumple la hipotesis nula mientras que el modelo no restringido (MNR) es el modelo de interes.Por ejemplo sea el MRLG,

MNR: Yi = β1 + β2X2i + β3X3i + ui

donde queremos contrastar la hipotesis nula H0 : β2 + β3 = 1 sustituyendo la restriccion en elmodelo encontramos el modelo restringido:

MR: Yi = β1 + β2X2i + (1− β2)X3i + uri

Yi −X3i︸ ︷︷ ︸=Y ?

i

= βr1 + βr

2(X2i −X3i︸ ︷︷ ︸=X?

i

) + uri

Y ?i = βr

1 + βr2X

?i + uri

La aplicacion de MCO en el modelo resultante son los llamados estimadores de Mınimos CuadradosRestringidos, MCR. Los demas βr se obtienen con las restricciones. En el ejemplo en el modelorestringido se calculan βr

1 y βr2 y finalmente se calcula βr

3 = 1− βr2.

En este modelo restringido estimado por MCO se calcula la SCR = u′rur. Si escribimos el MR en

terminos matriciales

Y ? = X?βr + ur

entonces

u′rur = Y ?′Y ? − βr′X?′Y ?

donde Y ? y X? son las variables que quedan en el modelo restringido y

[βr

1

βr2

]=

[N

∑X?

i∑X?

i

∑X?2

i

]−1 [ ∑Y ?

i∑Y ?

i X?i

]

=[

N∑

(X2i −X3i)∑(X2i −X3i)

∑(X2i −X3i)2

]−1 [ ∑(Yi −X3i)∑(Yi −X3i)(X2i −X3i)

]

138

Page 155: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Ejemplo 5.16

Contraste de significatividad conjunta: H0 : β2 = β3 = . . . = βK = 0. Para esta hipotesisel modelo restringido es

Yi = β1 + ui

si estimamos el MR por MCO obtenemos:

Minβ1

∑u2

i = Minβ1

∑(Yi − β1)2

∂∑

u2i

∂β1

= −2∑

(Yi − β1) = 0 −→ βr1 = Y

de donde

u′rur =∑

(Yi − Yi)2 =

=∑

(Yi − βr1)

2 =∑

(Yi − Y )2 = SCT

Ası

u′rur − u′u/q

u′u/(N −K)=

(SCT − SCR)/q

SCR/N −K

dividiendo el numerador y el denominador de entre SCT obtenemos.

F =(u′rur − u′u)/q

u′u/N −K=

R2/K − 1(1−R2)/N −K

H0∼ F(K−1,N−K)

estadıstico que coincide con el obtenido para el contraste de significatividad conjunta.

Ejercicio 5.13

Sean las variables Xt, coste medio de las reclamaciones por siniestros realizados en t

y Yt los beneficios de la empresa en t, ambos en miles de millones. Disponemos de lasiguiente muestra:

X 2 3 1 5 9Y 4 7 3 9 17

Para el modelo: Yt = β1 + β2Xt + ut t = 1, . . . , 5 ut ∼ N(0, σ2)

1. Interpreta los coeficientes β1 y β2.

2. Escribe la matriz de regresores y el vector de valores de la variable endogena.

3. Calcula la recta de regresion muestral MCO.

4. Interpreta las estimaciones de los parametros.

139

Page 156: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

5. Calcular los valores de Yt y ut.

6. Estima la varianza de la perturbacion.

7. Calcula el coeficiente de determinacion, R2 e interpreta su significado.

8. Calcula el coeficiente de correlacion simple, ¿que relacion hay entre rXY y R2 eneste modelo?

9. Contrasta la significatividad de la variable coste medio de las reclamaciones.

10. Considerense los siguientes dos estimadores de la pendiente de la regresion:

β2,MCO β2 =Y5 − Y3

X5 −X3

a) Calcular los dos estimadores.b) Razonar cual de los dos estimadores es “mejor”.

Ejercicio 5.14

Se han calculado las siguientes cantidades en una muestra de tamano T = 100:∑

Xt = 11, 34∑

X2t = 12, 16

∑Yt = 20, 72

∑Y 2

t = 84, 96∑

XtYt = 22, 13

Estimar las siguientes regresiones:

1. Yt = β1 + β2Xt + ut

2. Xt = α1 + α2Yt + εt

3. ¿Son los estimadores de β1 y β2 iguales a los de α1 y α2? ¿En que caso coincidiran?

Ejercicio 5.15

Supongamos que la variable Y se relaciona con las variables X1, X2, X3 mediante laecuacion:

Yt = β1X1t + β2X2t + β3X3t + ut (5.31)

Donde ut ∼ iid(0, σ2IT ), los siguientes datos vienen dados por la tabla:

X1 1 1 1 1 1 1 1 1 1 1X2 1 0 -1 1 0 -1 1 0 -1 0X3 1 1 1 0 0 0 -1 -1 -1 0Y 3 6 10 5 10 12 5 10 10 8

1. Interpreta los parametros del modelo.

2. Escribe la matriz de regresores.

140

Page 157: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

3. Estima la funcion de regresion muestral.4. Estima la varianza de las perturbaciones.5. Estima la matriz de varianzas y covarianzas de los parametros estimados.6. Calcula e interpreta el R2.7. ¿Se cumple en este modelo la igualdad r2

XY = R2?8. Calcular el intervalo de confianza para el parametro β2 y α = 5 %.9. Contrasta la significatividad individual y conjunta de los regresores.

Ejercicio 5.16

Se ha estimado el siguiente modelo de regresion simple, utilizando el criterio de MCO:

Vt = 1767,61 + 7,48Wt R2 = 0,80 (5.32)

Los estadısticos t para el contraste de que el parametro correspondiente es igual a ceroresultan ser iguales a 1,4 para el termino constante y 18,5 para la variable W . Dado queel valor del estadıstico para el contraste de significacion del termino constante nos llevaa no rechazar la hipotesis nula, se formula y estima el siguiente modelo:

Vt = 11,71Wt R2 = 0,91 (5.33)

Como el mayor coeficiente de determinacion corresponde a la segunda regresion, se optapor elegir el modelo (5.33). ¿Te parece adecuada esta decision?

Ejercicio 5.17

Para un conjunto de 21 individuos se quiere estudiar la relacion entre el precio mensualde la poliza de un bien asegurado Yi y el valor asegurado del bien, X2i ambas expresadasen unidades monetarias. Para ello se propone el siguiente modelo de regresion lineal:

Yi = β1 + β2X2i + ui i = 1, 2, . . . , 21 (5.34)

1. Estima los coeficientes de la regresion y sus varianzas respectivas a partir de lossiguientes datos:∑

X2iYi = 35, 98∑

X22i = 641, 5

∑Y 2

i = 2, 02∑

X2i = 110, 1∑

Yi = 6, 16∑

(X2i − X2)2 = 64, 26∑

(Yi − Y )2 = 0, 213

2. Contrasta la significacion de la regresion (5.34) para un α = 5 %.3. A continuacion el investigador introduce una nueva variable en el modelo que re-

coge el coste medio mensual de las reclamaciones presentadas, X3i. Estimamos denuevo el modelo (5.34), introduciendo una variable explicativa X3. Los resultadosobtenidos han sido los siguientes:

Yi = −0, 017 + 0, 05X2i + 0, 07X3i + ui R2 = 0, 9985

Contrasta la significacion de la variable explicativa X3 para un α = 5%.

141

Page 158: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Ejercicio 5.18

La funcion de produccion Cobb-Douglas tiene la forma Y = AKβ1Lβ2 . Dada una mues-tra de tamano N,

1. ¿Es el modelo lineal? ¿Que metodo se podrıa usar para estimar los parametros?

2. Interpreta los coeficientes del modelo.

3. ¿Como contrastarıas si la empresa tiene rendimientos constantes a escala?

4. Si H0 es cierta, ¿que metodo mejora la estimacion de los parametros? ¿por que?

Ejercicio 5.19

Supon que el verdadero modelo de regresion es:

Yt = β1 + β2X2t + ut (5.35)

pero nosotros anadimos la variable X3 y estimamos el siguiente modelo:

Yt = β1 + β2X2t + β3X3t + ut (5.36)

Discute si el coeficiente de determinacion R2 y el corregido R2 seran mayores en elmodelo (5.35) que en el (5.36).

Ejercicio 5.20

Se han estimado, mediante MCO, los siguientes modelos para la inversion para unamuestra de 1968 a 1980:

It

( ˆdes(βi))= 0,6656 + 0,0424

(0.0125)Xt + 0,0610

(0.0049)Kt−1 R2 = 0,9383

It

( ˆdes(βi))= 0,7199 + 0,0290

(0.0136)Xt + 0,0012

(0.012)Xt−1 + 0,0258

(0.0136)Xt−2 + 0,0631

(0.0051)Kt−1 R2 = 0,9468

1. Contrasta la significatividad individual de los parametros de ambos modelos e in-terpreta los resultados.

2. ¿Alguna de las variables es mas importante que el resto para la determinacion dela inversion?

3. ¿Cual de los dos modelos elegirıas? Razona tu respuesta.

142

Page 159: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Ejercicio 5.21

Comenta con claridad las siguientes afirmaciones:

1. El estimador insesgado β con varianza V1 proporciona siempre mejores estimacionesque el estimador sesgado β∗ con varianza V2 donde V1 > V2.

2. En el modelo de regresion lineal general la matriz de covarianzas estimada delestimador MCO de β es la misma para cualquier muestra que tomemos.

3. Las ecuaciones normales del modelo de regresion lineal general implican que elvector de residuos MCO es ortogonal al vector de valores estimados Y .

4. Si Yt y X2t son variables que no estan correlacionadas, es decir,∑

(Yt − Y )(X2t −X2) = 0, entonces la estimacion MCO del coeficiente β2 en el modelo:

Yt = β1 + β2X2t + · · ·+ βkXkt + ut t = 1, 2, . . . , T

es cero.

5. En el MRLG, el supuesto de normalidad de las perturbaciones es necesario parapoder estimar los parametros del modelo.

6. Bajo los supuestos clasicos del modelo de regresion lineal general, el estimadorMCO de β sigue una distribucion normal multivariante centrada en el verdaderovalor de los parametros β.

7. Dada una muestra de N observaciones, la ecuacion de regresion poblacional pasapor el punto de medias (Y , X1, . . . , Xk).

8. En un modelo de regresion lineal simple donde ut ∼ iid(0, σ2), si se pudiera elegirentre dos muestras de valores para la variable X, una de ellas con

∑(Xt−X)2 = 100

y la otra con∑

(Xt−X)2 = 1000, se elegirıa la segunda muestra porque la precisional estimar los parametros serıa mayor.

9. Los residuos mınimo-cuadratico ordinarios de una regresion de Y sobre la variableexplicativa X son ortogonales a X, pero no lo son a Y.

10. En un modelo de regresion lineal simple no existe ninguna relacion entre el estima-dor MCO de la pendiente de la regresion β y el coeficiente de correlacion simpleentre la variable dependiente Y y la variable independiente X, rXY .

11. Si existe la siguiente relacion entre las variables X, Y, Z:

r2XY = 0,8 r2

XZ = 0,001 r2Y Z = 0,001

podemos concluir que el coeficiente r2XY es una mala medida de la correlacion entre

las variables X e Y y se deberıa utilizar r2XY.Z .

12. La inexistencia de normalidad en las perturbaciones aleatorias no afecta a los con-trastes de hipotesis.

143

Page 160: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Ejercicio 5.22

Un economista estima el siguiente modelo:

Yt = β1 + β2X2t + β3X3t + ut t = 1, . . . , 36 ut ∼ N(0, σ2) (5.37)

Obteniendo los siguientes resultados:

Yt(estadıstico t)

= 0, 98 + 1, 33(0,27)

X2t + 0, 78(0,98)

X3t R2 = 0, 989

1. ¿Te parece que el modelo puede tener algun problema? ¿Cual? ¿En que basas tusrespuestas?

2. ¿Como cambiarıan tus conclusiones si en la estimacion anterior el coeficiente dedeterminacion hubiera sido R2 = 0, 12?

Ejercicio 5.23

Sea el modelo:

Yt = β1 + β2X2t + β3X3t + ut ut ∼ NID(0, 1) (5.38)

de la regresion auxiliar de X2 sobre X3 se obtiene:

X2t = 0, 5 + 1, 1875X3t (5.39)

y ademas sabemos que∑

(X2t − X2)2 = 25,∑

(X3t − X3)2 = 16.

1. Expresa la varianza del estimador MCO de β2 en funcion del coeficiente de corre-lacion muestral entre las variables X2 y X3.

2. Calcula el coeficiente de correlacion muestral entre X2 y X3.

3. ¿Puede surgir algun problema en la estimacion por mınimos cuadrados ordinariosde los parametros β1, β2 y β3? Razona tu respuesta.

4. ¿Como cambia tu respuesta al apartado 3) si de la regresion auxiliar se obtuvieraX2t = 0, 5 + 0, 125X3t?

Ejercicio 5.24

En el modelo:

Yt = α + βXt + γZt + ut ut ∼ N(0, σ2) (5.40)

surgen los mismos problemas si Xt + Zt = 5 que si β + γ = 5, ¿cierto o falso? ¿Por que?

144

Page 161: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Ejercicio 5.25

Sea Yt = β0 + β1X1t + β2X2t + β3X3t + ut con X1t = X2t − 1.

1. Propon un modelo estimable si ademas se conoce que β1 = 1.

2. ¿Y si se conoce que X1t = 1 ∀t?

Ejercicio 5.26

Sea el modelo correcto de regresion lineal:

Yt = β1 + β2X2t + β3X3t + ut ut ∼ N(0, σ2) (5.41)

mientras que se estima el modelo:

Yt = β?1 + β?

2X2t + vt (5.42)

1. ¿es β2?

insesgado?

2. ¿es σ2v insesgado?

3. ¿es valido el estadıstico t para contrastar la hipotesis H0 : β?2 = 0?

Ejercicio 5.27

Si el verdadero modelo es:

Yt = β1 + β2X2t + ut ut ∼ N(0, σ2) (5.43)

y se estima:

Yt = β?1 + β?

2X2t + β?3X3t + vt vt ∼ N(0, σ2) (5.44)

1. Comenta la siguiente afirmacion: “β?3 es siempre cero independientemente de la

muestra utilizada”.

2. ¿es β3?

insesgado?

3. ¿es σ2v insesgado?

4. ¿es valido el estadıstico t para contrastar la hipotesis H0 : β?3 = 0?

145

Page 162: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Ejercicio 5.28

En un estudio sobre el numero de siniestros automovilısticos declarados se han obtenidolos siguientes resultados estimando por MCO:

Yi = 40, 5 + 10, 5D1i + 0, 4Xi (5.45)

Y ahora proponemos el modelo alternativo:

Yi = αD2i + α?D1i + βXi + ui (5.46)

donde

D1i =

1 si usa el automovil para trabajar0 en caso contrario

D2i =

1 si no usa el automovil para trabajar0 en caso contrario

Explica y halla los valores numericos de α, α? y β en (5.46) con la informacion facilitadapor (5.45).

Ejercicio 5.29

Supongamos que queremos analizar los salarios de una famosa empresa auditora y paraello hemos tomado una muestra de 500 empleados, de los cuales 300 son licenciados enCiencias Actuariales. Se postula el siguiente modelo:

Wi = α + βDi + ui i = 1, 2, . . . , 500

donde Wi es el salario del empleado i-esimo y Di es una variable ficticia que toma elvalor 1 si el empleado es licenciado y 0 en el caso contrario.Si el salario medio muestral de los licenciados es de 250.000 pts. al mes, y el salariomedio muestral de los que no son licenciados es 150.000 pts.:

1. Calcula αMCO y βMCO.

2. ¿Como contrastarıas si existe diferencia salarial entre los licenciados y los que nolo son?

3. Si ademas en esta muestra dispones de informacion sobre el sexo del empleado i-esi-mo ¿como contrastarıas la hipotesis de que no existe en esta empresa discriminacionsalarial por razones de sexo?

146

Page 163: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Europa Resto del Mundo

Prima pagada Renta Prima pagada Renta

150 8.000 130 5.000180 11.000 100 3.000120 9.000 110 6.000160 12.000 140 10.000

Tabla 5.2: observaciones muestrales de la prima pagada y renta

Ejercicio 5.30

En una muestra de 8 observaciones se quiere estudiar la dependencia del precio de unaprima de seguro obligatorio de automovil respecto de la renta del propietario y su paısde matriculacion, distinguiendo entre vehıculos matriculados en Europa o el resto delmundo. Las observaciones se muestran en la Tabla 5.2.

1. Estima el modelo que exprese dicha dependencia. Interpreta los coeficientes delmodelo.

2. Contrasta las siguientes hipotesis:

a) La renta no es una variable significativa.

b) El paıs de matriculacion no es una variable significativa.

Ejercicio 5.31

Un investigador quiere analizar la inversion (Ii) realizada en planes de pensiones en laComunidad Autonoma Vasca en funcion del salario percibido (Wi) y el sector, privado opublico, en el que se trabaja. Con una muestra de 500 individuos, de los cuales la mitadtrabaja en el sector publico, se ha estimado por MCO el siguiente modelo:

Ii(t− est)

= 2, 7 + 0, 31(0, 22)

PUi + 0, 47(3, 7)

Wi R2 = 0, 71 (5.47)

donde PUi toma valor 1 si el individuo i-esimo trabaja en el sector publico y cero encaso contrario.

1. Deriva los estimadores utilizados en la estimacion del modelo (5.47).

2. Interpreta los coeficientes del modelo.

3. Contrasta la significatividad individual de las variables explicativas.

4. Dados los resultados de los contrastes, ¿que propiedades tienen los estimadores delos coeficientes del modelo (5.47)? ¿por que?

147

Page 164: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Mas tarde, el investigador sospecha que la variable sexo puede afectar al incremento dela inversion media ante aumentos unitarios en el salario. Con este objetivo estima lossiguientes modelos:

Ii(t− est)

= 3, 87 + 2, 28(13, 8)

PUi + 0, 63(7, 26)

Wi + 0, 21(17, 4)

WiSi R2 = 0, 82 (5.48)

Ii(t− est)

= 4, 7 + 0, 32(5, 82)

Wi + 0, 15(1, 87)

WiSi R2 = 0, 75 (5.49)

donde Si toma valor 1 si el individuo i-esimo es hombre y cero en caso contrario.

5. Dadas las regresiones (5.47), (5.48) y (5.49), selecciona la especificacion mas ade-cuada para analizar la inversion en los planes de pensiones. Razona detalladamentetu proceso de seleccion.

6. ¿Que sucederıa en la estimacion de los modelos (5.48) y (5.49) si la muestra estu-viera compuesta solo por hombres?

7. Suponiendo que eliges el modelo (5.49) ¿que propiedades tienen los estimadores?

Ejercicio 5.32

Para analizar la relacion entre los gastos de consumo, C, el ingreso disponible, Y, y elsexo del cabeza de familia se han estimado, con T=12, cuatro modelos cuyos resultadoshan sido:

a) Ct = 1663, 6 + 0, 75(21,12)

Yt R2 = 0, 978

b) Ct = 186, 12 + 0, 82(16,56)

Yt + 832, 09(1,82)

Dt R2 = 0, 984

c) Ct = 709, 18 + 0, 79(18,11)

Yt + 0, 05(1,51)

YtDt R2 = 0, 983

d) Ct = −184, 7 + 0, 83(13,65)

Yt + 1757, 99(1,03)

Dt − 0, 06(-0,57)

YtDt R2 = 0, 985

donde Dt es una variable ficticia que toma el valor 1 si el cabeza de familia es mujer y0 en caso contrario. Entre parentesis aparecen los estadısticos t muestrales:

1. Interpreta los coeficientes del modelo d).

2. Contrasta si el termino constante es diferente segun sea el sexo del cabeza de familia.

3. Contrasta si el coeficiente asociado a Y es diferente segun sea el sexo del cabeza defamilia.

4. Contrasta si tanto el coeficiente asociado a Y como el termino constante son dife-rentes segun sea el sexo del cabeza de familia.

5. ¿Cual es el modelo que mejor se ajusta a los datos?

148

Page 165: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Ejercicio 5.33

Se quiere estudiar como influye el nivel de educacion en los salarios (Y ) percibidos porlos trabajadores de una empresa. En la empresa hay 100 empleados, de los cuales 6 notienen estudios, 38 tienen unicamente estudios primarios, 15 tienen estudios universi-tarios y el resto se incorporo a la empresa tras finalizar sus estudios secundarios. Paraintroducir el nivel de estudios en el modelo se definen las siguientes variables ficticias:

Pi =

1 si i tiene al menos estudios primarios0 en caso contrario

Si =

1 si i tiene al menos estudios secundarios0 en caso contrario

Ui =

1 si i tiene al menos estudios universitarios0 en caso contrario

De modo que para un empleado que, por ejemplo, no haya realizado estudios primariosPi = 0,Si = 0 y Ui = 0 y para un universitario Pi = 1, Si = 1 y Ui = 1.

1. ¿Es estimable el modelo Yi = β1 + β2Pi + β3Si + β4Ui + Vi, con Vi ∼ NID(0, σ2)?Razona la respuesta. En caso de que no sea estimable, propon uno similar que sı losea.

2. Interpreta los parametros β1 y β4 en el modelo anterior, o en el modelo estimablepropuesto.

3. Plantea un contraste para la hipotesis de que tener estudios primarios no afecta alsalario que se cobra. Escribe la hipotesis nula, el estadıstico de contraste y la reglade decision.

Ejercicio 5.34

Plantea el modelo de determinacion del salario del trabajador de la empresa A en funcionde sus anos de experiencia, categorıa profesional (empleado, tecnico, directivo) y sexo(masculino, femenino).

1. Escribe la funcion de salarios de una tecnica.

2. Interpreta los coeficientes del modelo.

3. Suponiendo que la empresa tiene 40 trabajadores, los cuales tienen la siguientedistribucion por categorıas 5 tecnicas y 2 directivas, 4 directivos, 2 tecnicos y elresto son empleados. Escribe la matriz de regresores.

149

Page 166: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Ejercicio 5.35

Un empleado de BBK Pena opina que los pisos de Avenida Mazarredo alcanzan en lassubastas un precio considerablemente superior al de cualquier otra zona de Bilbao. Uncolega suyo de Lagunaro no esta de acuerdo con esta afirmacion, por lo que analizanlas ventas de pisos de dicha calle realizadas por sus empresas en los ultimos anos. Elnumero total de pisos subastados fue de 10, de los que 4 estaban enclavados en la calleMazarredo. Ambos creen que el tamano del piso y el precio inicial fijado en la subastason tambien variables determinantes del precio finalmente alcanzado en la venta.

1. Especifica un modelo que exprese el precio final de venta de los pisos en funcion delos factores citados y que permita contrastar la hipotesis del empleado de BBK.

2. Escribe la matriz de regresores del modelo que has propuesto.

3. ¿Como llevarıas a cabo el contraste? Escribe la hipotesis nula, la hipotesis alterna-tiva, el estadıstico de contraste, su distribucion y la regla de decision.

Ejercicio 5.36

Se quiere estudiar la relacion entre el numero de incendios forestales y la temperaturaen una comarca catalana. Para ello se utilizan datos diarios de ambas variables para elano 1999 y se estiman los siguientes modelos:

(1) Yt = 105 + 400Dt + 4, 7Xt + 8, 3DtXt + u1t σ21 = 14, 71

(2) Yt = 205 + 43, 5Xt + 9, 0DtXt + u2t σ22 = 20, 15

(3) Yt = 124 + 557Dt + 7, 3Xt + u3t σ23 = 15, 14

(4) Yt = 350 + 7, 7Xt + u4t σ24 = 27, 05

siendo Dt =

1 si t∈ Julio, Agosto o Septiembre0 en caso contrario

1. Interpreta los coeficientes del modelo (1).

2. El contraste del modelo (3) contra el (4) nos ha llevado a rechazar el modelo (4).Efectua los contrastes necesarios para decidir cual es el modelo al que mejor seajustan los datos.

Ejercicio 5.37

Se han utilizado datos trimestrales para estimar la funcion:

Ct = α + β1D1t + β2D2t + β3D3t + β4D4t + ut (5.50)

donde: Dit =

1 si t pertenece al i-esimo trimestre0 en caso contrario

150

Page 167: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

1. Indica que parametros son estimables y cuales no, razonando la respuesta. ¿Y si seimpone la restriccion

∑βi = 0?

2. Un investigador impone la restriccion α = 0 y otro impone la restriccion β4 = 0.¿Seran las estimaciones de βi diferentes en ambos casos? ¿por que?

Ejercicio 5.38

Para estudiar las ventas de un determinado modelo de moto se especifica el siguientemodelo de regresion lineal:

Yt = β0 + β1S1t + β2S2t + β3S3t + β4Xt + ut (5.51)

donde Sit =

1 si t ∈ trimestre i-esimo0 en caso contrario

1. Explica que tipo de comportamiento refleja esta regresion e interpreta cada uno delos coeficientes del modelo.

2. ¿Existe alguna forma alternativa de especificar el comportamiento reflejado por elmodelo anterior? Escribe la ecuacion correspondiente e interpreta sus parametros.

3. Encuentra la relacion entre los parametros de la ecuacion (5.51) y los de la ecuacionpropuesta en el apartado anterior.

4. Los resultados obtenidos de estimar el modelo (5.51) con 16 observaciones trimes-trales han sido:

Yt = 0, 07(3,7)

+ 0, 43(3,37)

S1t + 6, 55(3,4)

S2t − 2, 83(-3,37)

S3t − 0, 9(-0,27)

Xt R2 = 0, 68 (5.52)

A la vista de los resultados ¿se puede concluir que la variable Yt presenta un com-portamiento estacional?

Ejercicio 5.39

El dueno de una cadena de cines en una ciudad costera pretende saber como influyenen el numero de espectadores de sus salas , N (miles), dos factores: el empleo existenteen la ciudad, E (cientos de miles), y el numero de otros espectaculos que se programen,O (miles). Propone el siguiente modelo

Nt = α0 + α1Et + α2Ot + ut ut ∼ NID(0, σ2) (5.53)

Dispone de informacion trimestral relativa a las tres variables que va desde el primertrimestre de 1985 hasta el primer trimestre de 2002, ambos inclusive. El resumen dedicha informacion aparece a continuacion:

(X ′X)−1 =

1,5334 −0,2122 0,007340,0320 −0,00379

0,00329

∑Nt = 2279, 4∑NtEt = 16838,6∑NtOt = 14193,8∑(Nt − N)2 = 2435

151

Page 168: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

a) Estima el modelo propuesto por el metodo de mınimos cuadrados ordinarios.

b) Calcula una medida de la bondad del ajuste e interpretala.

c) Estima la matriz de varianzas y covarianzas del estimador de los coeficientes.

d) ¿Son las variables explicativas conjuntamente significativas?

e) Contrasta al nivel de significacion del 5 % que la programacion de otros espectaculostiene influencia sobre el numero de espectadores en las salas de cine.

f) Para poder planificar la proxima campana, el dueno hace el supuesto de que va atener 34.500 espectadores, dado que el numero de empleos sera de 754.000 y queestan previstos otros 8.800 espectaculos. Compruebalo.

Analizando los resultados con un amigo suyo, observan una pauta de comportamientodiferente en los distintos trimestres. Por ello, piensan que no ha tenido en cuenta quela epoca del ano marca tambien la asistencia al cine, debido a que se va menos cuandohace mejor tiempo. Nuestro hombre decide incluir este factor.

g) Define las variables que creas necesarias para tener en cuenta este factor y proponun modelo que incluya el posible efecto de la epoca del ano.

h) Interpreta los coeficientes de tu modelo. ¿Cuantas de las variables que has definidoincluyes en el mismo? ¿Por que?

A los pocos dıas, su amigo le plantea la siguiente duda: a su ciudad acuden muchosturistas en verano, lo que aumenta el empleo temporal que suele cubrirse con gentejoven, en general mas aficionada al cine. Si esto es cierto, la composicion del empleo enverano puede tener influencia sobre la asistencia al cine.

i) ¿Como definirıas una variable para tener en cuenta esta interrelacion? ¿Como laincluirıas en el modelo?

En lınea con lo planteado, el empresario escoge y estima tres modelos diferentes de entretodos los posibles, con los siguientes resultados:

Nt(σ

βi)

=β1︷ ︸︸ ︷

23,78(2,92)

+β2︷ ︸︸ ︷

1,371(0,421)

Et −β3︷ ︸︸ ︷

0,317(0,135)

Ot +β4︷ ︸︸ ︷

4,571(0, 658)

D3t,69∑

t=1

u2t = 359,89 (5.54)

Nt(σ

βi)

=δ0︷︸︸︷

25,0(2,895)

+δ1︷ ︸︸ ︷

1,204(0,418)

Et −δ2︷ ︸︸ ︷

0,316(0,134)

Ot +δ4︷ ︸︸ ︷

0,624(0, 088)

EM3t,69∑

i=1

u2t = 355,23 (5.55)

Nt(σ

βi)

=µ0︷ ︸︸ ︷

25,43(3,404)

+µ1︷ ︸︸ ︷

1,146(0,483)

Et −µ2︷ ︸︸ ︷

0,316(0,135)

Ot −µ3︷ ︸︸ ︷

1,613(6,552)

D3t +µ4︷ ︸︸ ︷

0, 841(0, 887)

EM3t,69∑

i=1

u2t = 354,90 (5.56)

donde

152

Page 169: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

• D3t es una variable ficticia que toma el valor 1 en el tercer trimestre (verano) ycero en los demas casos.

• EM3t es una variable que incorpora el efecto estacional del empleo que se hadiscutido en el apartado anterior (y tendra la interpretacion que le hayas atribuidoanteriormente).

j) Dados los resultados anteriores, ¿hay evidencia de que existe efecto estacional? Siel efecto estacional existe ¿que forma toma?, ¿cual de los modelos propuestos teparece optimo para recogerlo?, ¿por que? Lleva a cabo los contrastes precisos.

k) A la vista de los resultados obtenidos hasta el momento ¿es correcto utilizar losvalores de los coeficientes que has obtenido en (5.53)?, ¿por que?, ¿que propiedadestienen?

l) ¿Como explicas los resultados del modelo (5.56) a la vista del (5.54) y el (5.55)?¿Te parece logico obtener este resultado?, ¿cual puede ser su causa?

153

Page 170: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

5.8. Estimacion del MRLG con gretl: principales resultados, contrastede hipotesis

• Estimacion por Mınimos Cuadrados Ordinarios, MCO:Una vez abierto el fichero de datos con el que vamos a trabajar, vamos a

Modelo → Mınimos Cuadrados OrdinariosAparecera una ventana para especificar la parte sistematica del modelo donde debemos:

Seleccionar la variable dependiente pinchando a la izquierda sobre ella y a continuacion pinchar enla derecha → la flecha azulSeleccionar las variables independientes pinchando a la izquierda sobre ella-s y a continuacion pin-char en la derecha → la flecha verdePara obtener los resultados de la estimacion MCO pinchar en Aceptar. No pinchar en la indicacionDesviaciones Tıpicas Robustas.

En esta ventana apareceran los resultados basicos de la estimacion del modelo. Los podemos guardarcomo texto plano de la manera habitual o como icono con Archivo → Guardar como icono.Los resultados que gretl nos devuelve muestran entre otros estadısticos la estimacion de los parame-tros de la recta de ajuste, sus desviaciones tıpicas y estadısticos de significatividad individual.

Ejemplo 5.17

Vamos a utilizar como ejemplo la estimacion realizada en el Ejemplo 5.10 sobre el preciode la vivienda y los contrastes desarrollados en el Ejemplo 5.13:

PRICEi = β1 + β2SQFTi + β3BEDRMSi + β4BATHS + ui i = 1, . . . , 14

Los resultados de la estimacion MCO mostrados por gretl son los siguientes:

Modelo 1: MCO, usando las observaciones 1–14Variable dependiente: price

Coeficiente Desv. Tıpica Estadıstico t Valor p

const 129,062 88,3033 1,4616 0,1746sqft 0,154800 0,0319404 4,8465 0,0007bedrms −21,5875 27,0293 −0,7987 0,4430baths −12,1928 43,2500 −0,2819 0,7838

Media de la vble. dep. 317,4929 D.T. de la vble. dep. 88,49816Suma de cuad. residuos 16700,07 D.T. de la regresion 40,86572R2 0,835976 R2 corregido 0,786769F (3, 10) 16,98894 Valor p (de F ) 0,000299Log-verosimilitud −69,45391 Criterio de Akaike 146,9078Criterio de Schwarz 149,4641 Hannan–Quinn 146,6712

154

Page 171: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

En la columna con encabezamiento Coeficiente aparece la estimacion del coeficientre queacompana a la correspondiente variable. A continuacion aparece su Desviacion Tıpica yel estadıstico t de significatividad individual para el contraste H0 : βk = 0 ası como sucorrespondiente valor p.

A continuacion aparecen estadısticos de interes como pueden ser la media de la variabledependiente, R2 o R2 entre otros. La fila: F (3, 10) = 16,98894; Valor p (de F ) = 0,000299se corresponde con el valor muestral del estadıstico F para el contraste de significativi-dad conjunto y su correspondiente valor-p. A continuacion aparecen los estadısticos deAkaike, Schwarz y Hannan-Quinn para la seleccion de modelos.

En la pestana Contrastes que aparece en la pantalla de resultados de la regresion podemos Omitir uanadir variables, sumar los coeficientes y contrastar combinaciones lineales o restricciones linealesademas podremos realizar contrastes sobre los residuos, de los cuales nos ocuparemos en el ultimotema del curso.

Ejemplo 5.18

Por ejemplo para contrastar:

H0 : β3 = β4 versus Ha : β3 6= β4

cuyo estadıstico de contraste y distribucion asociada son:

β3 − β4√σ2

β3+ σ2

β4− 2× Cov(β3, β4)

∼ tN−4

en la pestana Contrastes seleccionamos Restricciones lineales y escribimos b3-b4=0 ygretl nos devuelve el siguiente resultado:Restriccion:b[bedrms] - b[baths] = 0Estadıstico de contraste: F(1, 10) = 0,0266334, con valor p = 0,873614 luego no serechaza la hipotesis nula para α %.

Ademas nos proporciona las estimaciones restringidas:

Coeficiente Desv. Tıpica Estadıstico t Valor pconst 127,736 83,9482 1,522 0,1563sqft 0,157407 0,0264067 5,961 9,44e-05 ***bedrms -18,5060 18,4649 -1,002 0,3378baths -18,5060 18,4649 -1,002 0,3378

Desviacion tıpica de la regresion = 39,0158

155

Page 172: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

El modelo restringido es:

PRICEi = β1 + β2SQFTi + β3(BEDRMSi + BATHS) + ui i = 1, . . . , 14

y su FRM es PRICEi = 127, 736 + 0, 1574SQFTi − 18, 5060 (BEDRMSi + BATHSi)

En la pantalla de resultados de la estimacion aparecen en la barra de menu otros estadısticos oresultados que pueden ser de interes, por ejemplo:

• Podemos hacer graficos de interes: En la opcion Graficos podemos hacer graficos que nosayudan a interpretar los resultados de la estimacion, por ejemplo

Graficos → Grafico de la variable estimada y observada

Graficos → Grafico de residuos → contra alguna de las variables explicativas del modelo

• En la pestana Guardar podemos guardar variables como los residuos, los residuos al cuadrado,la suma de cuadrados residual y el coeficiente de determinacion entre otros.

• En la pestana Analisis nos muestra las estimaciones de la variable endogena, los intervalosde confianza de los coeficientes y la matriz de varianzas y covarianzas entre otros resultados.Para ver y guardar los valores de Y , u y otros resultados de utilidad:

- Ver los valores: Pinchar en Analisis → Mostrar variable y seleccionar observada, estimadao residuos segun nuestro interes.

- Guardar los valores: Pinchar en Guardar → seleccionar la variable de interes.

Gretl utiliza por defecto la denominacion yhat, uhat para designar a la variable endogenaestimada y a los residuos, respectivamente y en la descripcion de la variable indicara porejemplo para uhat: residuos del modelo 1, donde el valor 1 indica que corresponde con el primermodelo estimado, esto resulta muy util pues en general trabajaremos con varios modelos a lavez y hay que distinguir claramente las variables de cada uno.

Ejemplo 5.19

La matriz de varianzas y covarianzas de los coeficientes estimados es:

Matriz de covarianzas de los coeficientes

const sqft bedrms baths7797,5 0,67089 −1677,1 −1209,4 const

0,0010202 −0,075461 −0,99507 sqft730,58 −356,40 bedrms

1870,6 baths

Los intervalos de confianza de los coeficientes son:

t(10, 0, 025) = 2, 228

156

Page 173: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Variable Coeficiente Intervalo de confianza 95 %

const 129,062 −67,6903 325,814sqft 0,154800 0,0836321 0,225968

bedrms −21,5875 −81,8126 38,6376baths −12,1928 −108,560 84,1742

5.8.1. Tratamiento de las variables ficticias en gretl.

Gretl permite trabajar tanto con variables ficticias cuantitativas como cualitativas y su tratamientono difiere, solo debemos de ocuparnos de especificar correctamente el modelo. En el caso de que lavariable ficticia no este construida gretl permite hacerlo. En la pantalla inicial en Anadir podemosanadir Variables ficticias periodicas que se ajustaran logicamente a la periodicidad muestral delconjunto de datos, Variables ficticias para las variables discretas seleccionadas donde por ejemplo sitenemos una variable que toma valores 1, 2 y 3 podremos construir tres variables ficticias tal como

D1 =

1 si la variable toma valor 10 en caso contrario

D2 =

1 si la variable toma valor 20 en caso contrario

D3 =

1 si la variable toma valor 30 en caso contrario

Por supuesto tambien podremos introducirlas con el editor tal y como se aprendio en el Tema 4.

Veamos un ejemplo aplicado. Abrimos el fichero de datos data7-3 de Ramanathan, que contienedatos para 14 viviendas sobre el precio de venta de la vivienda (PRICE), pies cuadrados habitables(SQFT), numero de habitaciones (BEDRMS) y numero de banos (BATHS), y una variable ficticiaque toma el valor 1 si la vivienda tiene piscina y 0 en caso contrario (POOL), una variable ficticiaque toma el valor 1 si la vivienda tiene sala de estar y 0 en caso contrario (FAMROOM) y unavariable ficticia que toma el valor 1 si la vivienda tiene chimenea y 0 en caso contrario (FIREPL).Seleccionamos las variables PRICE y POOL y observamos los valores de estas dos variables:

Obs price pool

1 199,9 1

2 228,0 0

3 235,0 1

4 285,0 0

5 239,0 0

6 293,0 0

7 285,0 0

8 365,0 1

9 295,0 0

10 290,0 0

11 385,0 1

157

Page 174: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

12 505,0 1

13 425,0 0

14 415,0 0

Por ejemplo, la primera vivienda de la muestra tiene un precio de 199.900 dolares y tiene piscina(ya que la variable POOL toma el valor 1), mientras que la segunda no tiene piscina (la variablePOOL toma el valor 0) y su precio de venta es de 228.000 dolares, etc.

Con los datos anteriores podemos obtener facilmente que el precio medio de la vivienda es 317.493dolares:

Estadısticos principales, usando las observaciones 1 - 14para la variable price (14 observaciones validas)

Media Mediana Mınimo Maximo

317, 49 291, 50 199, 90 505, 00

Desv. Tıp. C.V. Asimetrıa Exc. de curtosis

88, 498 0, 27874 0, 65346 −0, 52983

Sin embargo, tambien es posible obtener el precio medio para las viviendas que tienen piscina, porun lado, y para las que no la tienen, por otro. Para ello, en primer, lugar se selecciona el precio paraaquellas viviendas con piscina. Seleccionamos la variable PRICE, pinchamos en Muestra → Definira partir de v. ficticia..., seleccionamos la variable POOL y aceptamos.De esta forma hemos seleccionado el precio para aquellas viviendas que tienen piscina18. A conti-nuacion, se obtienen los estadısticos principales:

Estadısticos principales, usando las observaciones 1 - 5para la variable price (5 observaciones validas)

Media Mediana Mınimo Maximo

337, 98 365, 00 199, 90 505, 00

Desv. Tıp. C.V. Asimetrıa Exc. de curtosis

122, 99 0, 36390 0, 15896 −1, 2798

Para seleccionar el precio de las viviendas que no tienen piscina, pinchamos en Muestra → Restringira partir de criterio, introducimos la condicion POOL = 0 y aceptamos. Los estadısticos principalesson los siguientes:

Estadısticos principales, usando las observaciones 1 - 9para la variable price (9 observaciones validas)

18Para restablecer el tamano muestral inicial pinchar en Muestra → Recuperar el rango completo.

158

Page 175: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Media Mediana Mınimo Maximo

306, 11 290, 00 228, 00 425, 00

Desv. Tıp. C.V. Asimetrıa Exc. de curtosis

68, 959 0, 225275 0, 87575 −0, 52255

Por tanto, el precio medio de las viviendas con piscina es de 337.980 dolares frente a los 306.111 delas viviendas sin piscina. Dado el modelo una vivienda con piscina es en promedio 31.869 dolares mascara que la que no tiene piscina. Notar que no se estan teniendo en cuenta otros factores que puedenafectar al precio de la vivienda (numero de pies cuadrados habitables, numero de habitaciones, etc.).

El sencillo analisis anterior podemos realizarlo mediante un analisis de regresion. Podemos especi-ficar un modelo econometrico utilizando la variable ficticia POOL como regresor, estimarlo, hacerinferencia e ir incorporando otras caracterısticas que pueden afectar a los precios de las viviendas.Para comenzar, consideramos el siguiente modelo:

PRICEi = α1 + α2POOLi + ui i = 1, . . . , 14 (5.57)

donde

• α1: precio medio de una vivienda sin piscina.

• α1 + α2: precio medio de una vivienda con piscina.

• α2: diferencia en el precio medio de una vivienda con piscina con respecto a una que no latiene.

Los resultados de estimar el modelo por Mınimos Cuadrados Ordinarios utilizando gretl obtenemosque las estimaciones de los coeficientes son las siguientes:

Modelo 1: estimaciones MCO utilizando las 14 observaciones 1–14Variable dependiente: price

Variable Coeficiente Desv. tıpica Estadıstico t valor p

const 306,111 30,2077 10,1335 0,0000pool 31,8689 50,5471 0,6305 0,5402

Media de la var. dependiente 317,493D.T. de la variable dependiente 88,4982Suma de cuadrados de los residuos 98550,5Desviacion tıpica de los residuos (σ) 90,6231R2 0,0320632R2 corregido −0,0485982Grados de libertad 12Log-verosimilitud −81,880Criterio de informacion de Akaike 167,760Criterio de informacion Bayesiano de Schwarz 169,038

159

Page 176: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

PRICEi = 306, 111(10,13)

+ 31, 869(0,63)

POOLi i = 1, . . . , 14

Para contrastar en el modelo (5.57) si hay diferencias significativas en el precio medio de la viviendaentre aquellas que tienen piscina y las que no, la hipotesis de contraste es H0 : α2 = 0. Estecontraste se puede realizar utilizando el estadıstico t habitual cuyo p-valor es 0,5405, por lo que nose rechaza la hipotesis nula para un nivel de significacion del 5%, es decir, el precio medio de lavivienda no es significativamente diferente por el hecho de tener piscina. Alternativamente, se puederealizar el contraste utilizando el estadıstico F basado en las sumas de cuadrados de los residuossiendo en este caso el modelo (5.57) el modelo no restringido mientras que el modelo restringido esPRICEi = α1 + ui i = 1, . . . , 14.

Supongamos que ampliamos el modelo (5.57) incorporando regresores que podrıan explicar el pre-cio de la vivienda como: el hecho de que la vivienda tenga sala de estar o no, el hecho que tengachimenea o no, su superficie, el numero de habitaciones y el numero de banos. Las dos primeras sonvariables ficticias que pueden definirse ası:

FIREPLi =

1 si la vivienda i-esima tiene chimenea0 en caso contrario

FAMROOMi =

1 si la vivienda i-esima tiene sala de estar0 en caso contrario

Mientras que la superficie, el numero de banos y el numero de habitaciones se definen como en lostemas anteriores:

SQFTi tamano de la vivienda i-esima en pies cuadradosBEDRMS numero de habitaciones de la vivienda i-esimaBATHS numero de cuartos de bano de la vivienda i-esima

Con todas ellas podemos especificar el siguiente modelo para explicar el precio de la vivienda:

PRICEi = γ1 + γ2POOLi + γ3FAMROOMi + γ4FIREPLi

+β1SQFTi + β2BEDRMSi + β3BATHSi + ui i = 1, . . . , 14 (5.58)

Donde lo primero a notar es que en el modelo (5.58), afectando a la ordenada, conviven tres conjuntosde variables ficticias con dos categorıas cada una, el hecho de tener o no piscina, el hecho de tenero no chimenea y el hecho de tener o no sala de estar, de las cuales solo se incluye una de cadaconjunto y se mantiene el termino independiente. Esta forma de definir el modelo es muy comodaya que sigue manteniendo los resultados de los modelos con termino independiente y permite unafacil interpretacion de los coeficientes que acompanan a las variables ficticias. Ası, γi i = 2, 3, 4recogen el diferencial en el valor esperado de una vivienda por el hecho de poseer la caracterısticacorrespondiente manteniendose constante el resto de variables. El resultado de la estimacion es:

160

Page 177: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Modelo 1: estimaciones MCO utilizando las 14 observaciones 1–14Variable dependiente: price

Variable Coeficiente Desv. tıpica Estadıstico t valor p

const 39,0571 89,5397 0,4362 0,6758pool 53,1958 22,0635 2,4110 0,0467famroom −21,344 42,8734 −0,4979 0,6338firepl 26,1880 53,8454 0,4864 0,6416sqft 0,146551 0,0301014 4,8686 0,0018bedrms −7,0455 28,7363 −0,2452 0,8134baths −0,263691 41,4547 −0,0064 0,9951

Media de la var. dependiente 317,493D.T. de la variable dependiente 88,4982Suma de cuadrados de los residuos 9010,24Desviacion tıpica de los residuos (σ) 35,8773R2 0,911504R2 corregido 0,835650F (6, 7) 12,0166valor p para F () 0,00221290Log-verosimilitud −65,134Criterio de informacion de Akaike 144,269Criterio de informacion Bayesiano de Schwarz 148,743

La interpretacion de los coeficientes estimados es la siguiente:

• γ1 = 39, 057: el precio medio estimado de las viviendas sin piscina, banos, habitaciones, salade estar ni chimenea y con 0 pies cuadrados habitables es de 39.057 dolares.

• γ2 = 53, 1958: la diferencia estimada en el precio medio de las viviendas con piscina conrespecto a las que no la tienen, siendo iguales en el resto de caracterısticas (pies cuadradoshabitables, habitaciones, banos, sala de estar y chimenea) es de 53.196 dolares.

• γ3 = −21, 34: el precio medio estimado de una vivienda con sala de estar es 21.340 dolaresinferior al de una sin sala de estar, siendo identicas en el resto de caracterısticas. Esto sedebe a que, al mantener constante el numero de pies cuadrados de la vivienda y el numero dehabitaciones y banos, incluir una sala de estar hara que el resto de habitaciones o banos seande menor tamano.

• γ4 = 26, 188: el precio medio estimado de una vivienda con chimenea es 26.188 dolares mascaro que el de una sin chimenea, siendo identicas en el resto de caracterısticas.

• β1 = 0, 147: el precio medio estimado de una vivienda se incrementa en 147.000 dolares alaumentar en 1 pie cuadrado habitable su superficie, permaneciendo constantes el numero debanos y habitaciones.

161

Page 178: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

• β2 = −7, 046: el precio medio estimado de una vivienda disminuye en 7.046 dolares al aumentaren 1 el numero de habitaciones, permaneciendo constantes el numero de banos y los piescuadrados habitaciones. Esto se debe a que las habitaciones seran de menor tamano.

• β3 = −0, 264: el precio medio estimado de una vivienda disminuye en 264 dolares al aumentaren 1 el numero de banos, permaneciendo constantes el numero de habitaciones y los piescuadrados habitables. De nuevo, las habitaciones seran de menor tamano.

Contraste de hipotesis

Para contrastar, por ejemplo, que no existen diferencias significativas en el precio medio de lavivienda por el hecho de tener chimenea, se realiza un contraste de significatividad individual dela variable FIREPL. En este caso, observando el p-valor correspondiente, 0,6416, se puede concluirque a un nivel de significacion del 5%, no existen diferencias significativas en el precio medio deuna vivienda por el hecho de tener chimenea.

Si comparamos los modelos (5.57) y (5.58), ninguna de las variables anadidas en el ultimo essignificativa individualmente19. Ademas, el R2 es inferior. El contraste de significatividad conjuntapara las variables anadidas se puede realizar con el estadıstico F basado en las sumas de cuadradosresiduales de los modelos restringido (modelo (5.57)) y no restringido (modelo (5.58)). En este caso,el resultado es:

Contraste de omision de variables –Hipotesis nula: los parametros son cero para las variables

bedrmsbathsfamroomfirepl

Estadıstico de contraste: F (4, 7) = 0,0864517con valor p = P (F (4, 7) > 0,0864517) = 0,983881

por lo que no se rechaza la hipotesis nula de que las variables anadidas al modelo (5.58) son conjun-tamente no significativas. Al omitir dichas variables el modelo mejora en cuanto a la significacionde sus coeficientes y el R2. Por tanto, manteniendo las variables POOL y SQFT, la inclusion delresto (FIREPL, FAMROOM, BATHS, BEDRMS) no anade capacidad explicativa al modelo.

19Un problema anadido es que tenemos un bajo tamano muestral, T=14, y hemos aumentado significativamente elnumero de parametros a estimar, K=7, por lo que tenemos muy pocos grados de libertad.

162

Page 179: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

5.9. Apendice

5.9.1. Anexo 1. Distintas expresiones de SCT, SCE y SCR

SCT =∑

(Yi − Y )2 =

=∑

Y 2i −NY 2 = Y ′Y −NY 2

SCE =∑

(Yi − ¯Y )2 =

=∑

Y 2i −N

¯Y 2 =

= Y ′Y −N¯Y 2 =

= (Xβ)′(Xβ)−N¯Y 2 =

= β′X ′Xβ︸ ︷︷ ︸=X′Y

−NY 2 =

= β′X ′Y −N¯Y 2

SCR =∑

u2i = u′u =

= (Y − Y )′(Y − Y ) = (Y −Xβ)′(Y −Xβ) =

= Y ′Y − β′X ′Y − Y ′Xβ + β′X ′Xβ =

= Y ′Y − β′X ′Xβ =

= Y ′Y − β′X ′Y

5.9.2. Anexo 2. Demostracion de la insesgadez de σ2

1. Propiedades de los residuos MCO

Los residuos MCO se pueden escribir en funcion de las perturbaciones:

u = Y − Y =

= Y −Xβ =

= Y −X(X ′X)−1X ′Y =

= [IN −X(X ′X)−1X ′]Y =

= [IN −X(X ′X)−1X ′](Xβ + u) =

= Xβ −X(X ′X)−1X ′Xβ + [IN −X(X ′X)−1X ′]u =

= [IN −X(X ′X)−1X ′]︸ ︷︷ ︸=M

u = Mu

Las caracterısticas de la matriz M son:

163

Page 180: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

• Es simetrica: M = M ′

M ′ = [IN −X(X ′X)−1X ′]′

= I ′N − (X(X ′X)−1X ′)′

= IN − (X ′)′[(X ′X)−1]′X ′

= IN −X(X ′X)−1X ′

= M

• Es idempotente: MM = M

MM = [IN −X(X ′X)−1X ′][IN −X(X ′X)−1X ′] =

= IN −X(X ′X)−1X ′ −X(X ′X)−1X ′ +

X (X ′X)−1X ′X︸ ︷︷ ︸=IK

(X ′X)−1X ′ =

= IN −X(X ′X)−1X ′ = M

• rg(M)= tr(M)= N −K

tr(M) = tr[IN −X(X ′X)−1X ′]

= tr(IN )− tr[X(X ′X)−1X ′]

= tr(IN )− tr[(X ′X)−1X ′X]

= tr(IN )− tr(IK)

= N −K

• M es ortogonal a X: MX = 0

MX = [IN −X(X ′X)−1X ′]X

= X −X(X ′X)−1X ′X = 0

2. Demostracion: E(σ2) = σ2

Como

E(u′u) = E(u′Mu) =

= E(tr(u′Mu)) = E(tr(Muu′)) =

= tr(E(Muu′)) = tr(ME(uu′)) =

= tr(Mσ2IN ) =

= σ2tr(M) = σ2(N −K)

se puede demostrar facilmente que σ2 es un estimador insesgado:

E(σ2) = E

(u′u

N −K

)=

E(u′u)N −K

=σ2(N −K)

N −K= σ2

Y por tanto podremos utilizarlo como el estimador apropiado de la varianza de la perturbacion.

164

Page 181: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

5.9.3. Anexo 3. Distribuciones que nos interesan

• Distribucion de la variable endogena o regresando:Y = Xβ + u

E(Y ) = Xβ

V (Y ) = E[(Y −E(Y ))(Y − E(Y ))′] = E(uu′) = σ2IN

Dadou ∼ N(0, σ2IN ) −→ Y ∼ N(Xβ, σ2IN )

• Distribucion del vector de estimadores MCO:β = (X ′X)−1X ′Y = β + (X ′X)−1X ′uE(β) = β

V (β) = σ2(X ′X)−1

Dado

u ∼ N(0, σ2IN ) −→ β ∼ N(β, σ2(X ′X)−1)

−→ βk ∼ N(βk, σ2akk)

• Distribucion de los residuos:u = Mu

E(u) = E(Mu) = ME(u) = 0V (u) = E[uu′] = E(Muu′M ′] = ME(uu′)M = σ2M

Dadou ∼ N(0, σ2IN ) −→ u ∼ N(0, σ2M)

• Distribucion de la SCR:SCR = u′u = u′Mu

Utilizando el resultado 3 del Anexo 4 dado

u ∼ N(0, σ2IN ) −→ u′Mu

σ2∼ χ2

(N−K) −→u′uσ2

∼ χ2(N−K)

ya que: u ∼ N(0, σ2M) tenemos

u′M−1u

σ2=

u′MM−1Mu

σ2=

u′Mu

σ2∼ χ2

(N−k)

165

Page 182: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

5.10. Bibliografıa del tema

Referencias bibliograficas basicas:

• Teorica:

[1] Gujarati, D. y Porter, D.C. (2010). Econometrıa. Editorial McGraw-Hill, Madrid. 5a edicion.

[2] Newbold, P., Carlson, W.L. y Thorne, B. (2008). Estadıstica para administracion y economıa.Prentice Hall. Madrid.

[3] Wooldridge, J.M. (2006). Introduccion a la Econometrıa. Ed. Thomson Learning, 2a edicion.

[4] Ruiz Maya, L. y Martın Pliego, F.J. (2005). Fundamentos de inferencia estadıstica, 3a edicion,Editorial AC, Madrid.

• Ejercicios con gretl :

[1] Ramanathan, R. (2002), Instructor’s Manual to accompany, del libro Introductory Econometricswith applications, ed. South-Western, 5th edition, Harcourt College Publishers.

[2] Wooldridge, J. M. (2003), Student Solutions Manual, del libro Introductory Econometrics: Amodern Approach, ed. South-Western, 2nd edition.

Referencias Bibliograficas Complementarias:

[1] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regulez, M.; Zarraga, A. y Zubia, M. (2009). Analisis deregresion con gretl. Open Course Ware. UPV-EHU. (http : //ocw.ehu.es/ciencias− sociales− y −juridicas/analisis− de− regresion− con− greti/Courselisting).

[2] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regulez, M.; Zarraga, A. y Zubia, M. (2009). EconometrıaBasica Aplicada con Gretl. Sarriko On Line 8/09. http://www.sarriko-online.com. Publicacion on-line de la Facultad de C.C. Economicas y Empresariales.

[3] Esteban, M.V. (2007). Estadıstica Actuarial: Regresion. Material docente. Servicio de Publica-ciones.

[4] Esteban, MV (2008). Estadıstica Actuarial: Regresion Lineal, Sarriko On Line 3/08. Publica-cion on-line de la Facultad de CC. Economicas y Empresariales, UPV/EHU. http://www.sarriko-online.com.

[5] Esteban, M.V. (2007). Coleccion de ejercicios y examenes. Material docente. Servicio de Publi-caciones.

[6] Fernandez, A., P. Gonzalez, M. Regulez, P. Moral, V. Esteban (2005). Ejercicios de Econometrıa.Editorial McGraw-Hill.

[7] Greene, W. (1998), Analisis Econometrico, Ed. Prentice Hall, 3a edicion.

[8] Ramanathan, R. (2002), Introductory Econometrics with applications, Ed. South-Western, 5th.edition.

[9] Verbeek, M. (2004). A Guide to Modern Econometrics. Wiley.

166

Page 183: Estad´ıstica Actuarial y Análisis de Regresión

Tema 6

Validacion

En este tema vamos a ocuparnos de validar el modelo. Una vez especificado y estimado el modelode regresion lineal general y realizados los contrastes de interes el modelo puede ser utilizado parala prediccion. Esta sera mas fiable cuanto mejor especificado y estimado este el modelo. En elTema 5 nos hemos ocupado de ver las consecuencias de omitir variables relevante e incluir variablesirrelevantes y para evitarlo utilizamos los contrastes de significatividad individual y conjunto. Eneste tema nos ocuparemos de analizar si los coeficientes del modelo son constantes durante todo elperiodo muestral.

Por otro lado cuando especificamos las hipotesis basicas de comportamiento, sobre la perturbacionsupusimos que es homocedastica y no autocorrelada, en este tema estudiaremos como contrastarque efectivamente la perturbacion tiene varianza constante y covarianzas cero.

Para finalizar el tema veremos como realizar la prediccion por punto y por intervalo del verdaderovalor de la variable endogena.

Competencias a trabajar en estas sesiones:

1. Conocer distintos procedimientos de estimacion de parametros, ası como sus propiedades parapoder seleccionar adecuadamente la mejor alternativa de analisis.

2. Aplicar la metodologıa estadıstica adecuada para el diseno de contrastes de hipotesis para latoma de decisiones en el ambito profesional.

3. Analizar de forma crıtica los elementos basicos de los modelos econometricos para comprenderla logica de la modelizacion econometrica y poder especificar relaciones causales entre variableseconomicas.

4. Aplicar la metodologıa econometrica basica para estimar y validar relaciones economicas enbase a la informacion estadıstica disponible sobre variables economicas y utilizando los ins-trumentos informaticos apropiados.

5. Obtener e interpretar los resultados de un analisis estadıstico de datos economicos haciendouso de las fuentes de informacion apropiadas y de los instrumentos informaticos necesarios.

167

Page 184: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

6. Presentar de forma clara y concisa, tanto oralmente como por escrito, las conclusiones obte-nidas en un caso de estudio particular.

Al final de este tema deberıais ser capaces de:

1. Conocer cuando un modelo es lineal en parametros y/o en variables.

2. Transformar un modelo no lineal en parametros en un modelo estimable por MCO.

3. Aplicar el contraste de Ramsey en el contexto adecuado.

4. Explicar que se entiende por un cambio estructural en un modelo econometrico.

5. Contrastar la constancia de los coeficientes de un modelo de regresion lineal general.

6. Explicar que se entiende por un modelo de regresion lineal con heterocedasticidad, comomodelizar esta caracterıstica en el termino de perturbacion del modelo y sus implicaciones ensu matriz de varianzas y covarianzas.

7. Analizar graficamente la posible existencia de heterocedasticidad y saber contrastarla utili-zando el estadıstico de White.

8. Describir las propiedades del estimador MCO bajo heterocedasticidad.

9. Explicar que se entiende por un modelo de regresion lineal con autocorrelacion, como modelizaresta caracterıstica en el termino de perturbacion del modelo y sus implicaciones en su matrizde varianzas y covarianzas.

10. Analizar graficamente la posible existencia de autocorrelacion y saber contrastarla utilizandoel estadıstico de Durbin Watson.

11. Describir las propiedades del estimador MCO bajo autocorrelacion.

12. Predecir por punto y por intervalo el valor de la variable endogena dados los valores de lasvariables exogenas en el periodo de prediccion.

Bibliografıa Recomendada:

Al final del tema teneis recogida la bibliografıa correspondiente. En particular se os recomienda leerlos capıtulos correspondientes a la bibliografıa basica detallados a continuacion:

• Gujarati, D. y Porter, D.C. (2010). Parte I : cap. 6;Parte II: Caps 11 y 12.

• Newbold, P., Carlson, W.L. y Thorne, B. (2008). Cap. 14.

• Ramanathan, R. (2002). Caps. 6, 8 y 9.

• Ruiz Maya, L. y Martın Pliego, F.J. (2005). Cap. 8.

• Wooldridge, J.M. (2006). Cap. 6.

168

Page 185: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

6.1. Forma funcional

La eleccion de la forma funcional que recoge la relacion existente entre la variable dependiente y lasvariables explicativas es un aspecto de la especificacion de un modelo muy importante en el analisiseconomico. De hecho, la teorıa economica no siempre propone relaciones lineales entre variables deinteres. Es el caso, por ejemplo, de la funcion de consumo de un bien que aumenta con la rentapero no de forma indefinida ni a ritmo constante sino, en general, a una tasa decreciente, o de lasfunciones de costes marginales que suelen tener forma de U, vease la Figura 6.1.

Consumo Costes

Figura 6.1: Relaciones economicas no lineales

En el Tema 5 se hizo enfasis en el hecho de que el supuesto de linealidad del modelo de regresionno implica una relacion lineal entre las variables sino un modelo en el que los parametros entrande forma lineal. Por “lineal en los parametros” se entiende que los parametros no se multiplicanentre sı, no estan elevados a potencias, etc. Sin embargo, como se vio en dicho tema las variables,tanto regresando como regresores, sı se pueden transformar para obtener al final un modelo deregresion lineal que satisfaga los supuestos clasicos. Este hecho hace que el modelo de regresionlineal sea bastante flexible y se pueda utilizar para modelar relaciones entre variables economicasno lineales. Ası, tanto la funcion de consumo como la funcion de costes marginales de la Figura 6.1se pueden modelizar utilizando formas funcionales sencillas no lineales en las variables. En el casode la funcion de consumo, el supuesto de rendimientos decrecientes se puede representar mediantemodelos logarıtmicos o semilogarıtmicos del tipo:

lnC = α + β lnR + u (6.1)

C = α + β lnR + u (6.2)

y las funciones de costes totales se pueden representar mediantes funciones polinomicas:

CM = β1 + β2 Q + β3 Q2 + u (6.3)

Los modelos (6.1), (6.2) y (6.3) cumplen el supuesto de linealidad porque son lineales en los parame-tros y se pueden analizar dentro del marco del MRLG. Ahora bien, como no son modelos lineales enlas variables, el efecto marginal del regresor sobre la variable dependiente no va a ser constante. Por

169

Page 186: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

ejemplo, en el modelo (6.3), el efecto marginal de un incremento unitario de la produccion sobre loscostes marginales viene dado por:

∂E(CT )∂Q

= β2 + 2 β3 Q

Este resultado implica que la pendiente de la funcion de costes marginales no es constante sino quees una funcion lineal de Q que involucra a los parametros β2 y β3 .

Otra forma de modelar relaciones no lineales entre las variables explicativas y el regresando es incluirterminos de interaccion, es decir, el producto de varios regresores del modelo. Consideremos, porejemplo, el siguiente modelo:

Y = β1 + β2 X2 + β3 X3 + β4 (X2 ×X3) + u

Este modelo es lineal en los parametros, por lo que cumple el supuesto de linealidad. El efectomarginal de X2 sobre Y es:

∂E(Y )∂X2

= β2 + β4 X3

de forma que el incremento esperado en Y ante un incremento unitario en X2 no es constante sinoque depende del valor de X3.

Los modelos que no cumplen el supuesto de linealidad se pueden clasificar en dos grupos. En elprimer grupo se encuentran los modelos que no son lineales en los parametros pero que se puedenlinealizar mediante alguna transformacion. En este grupo entra por ejemplo la funcion de produccionCobb-Douglas que no es lineal ni en las variables ni en los parametros, pero tomando logaritmos seobtiene una funcion que no es lineal en las variables pero sı es lineal en los parametros. El segundogrupo lo forman los modelos que no son lineales en los parametros y que no se pueden linealizarmediante ninguna transformacion, por ejemplo,

Y = β1 + Xβ2β31 + Xβ2

2 + u

Este tipo de modelos se estima por mınimos cuadrados no lineales.

Contraste de Ramsey

El contraste de Ramsey (1969) esta disenado para detectar si la forma funcional esta correctamenteespecificada o no. Una forma sencilla de detectar que la forma funcional de este modelo esta malespecificada y la relacion no es lineal entre las variables, serıa incluir terminos no lineales en elmodelo anterior y contrastar su significatividad. Ramsey propone anadir terminos no lineales deltipo Y 2

t , Y 3t , ... , donde Yt son los valores ajustados por la recta de regresion muestral MCO. De

forma que los terminos Y 2t , Y 3

t , ... , son funciones no lineales de todos los regresores. La logica delcontraste se basa en que, si el modelo no esta bien especificado, la introduccion de estos terminosno lineales mejorarıa el ajuste del modelo.

Los pasos para implementar el contraste de Ramsey son los siguientes. En primer lugar, se estimael modelo que incluye tantos terminos no lineales como se desee, habitualmente, dos:

Yt = β1 + β2 X2t + β3 X3t + γ1 Y 2t + γ2 Y 3

t + ut (6.4)

170

Page 187: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

La hipotesis nula de correcta especificacion del modelo se expresarıa en funcion de los parametrosdel modelo (6.4) como

H0 : γ1 = γ2 = 0γ1 6= 0 y/o γ2 6= 0

Si no se rechaza la hipotesis nula, significa que no se ha detectado mala especificacion del modelo.Si, por el contrario, se rechaza, el modelo no es adecuado y se puede mejorar. Ahora bien, unade las limitaciones de este contraste es que no da indicaciones sobre cual serıa la forma funcionalapropiada para el modelo. Gretl permite obtener el contraste de Ramsey automaticamente.

6.2. Sobre constancia de los coeficientes: contraste de cambio estruc-tural

En ocasiones puede ocurrir que la relacion entre la variable dependiente y los regresores cambie a lolargo del periodo muestral, es decir, puede que exista un cambio estructural. Por ejemplo, si estamosanalizando el consumo de tabaco y durante el perıodo muestral se ha producido una campana desalud publica informando sobre los peligros que conlleva el consumo de tabaco, podemos pensarque tras dicha campana el comportamiento de la demanda de tabaco haya cambiado, reduciendosesignificativamente. Si esto ocurre no podemos especificar una unica funcion de demanda para todo elperıodo muestral si no que deberıamos especificar dos funciones, una hasta la campana antitabacoy otra para el perıodo siguiente. Por tanto ante sospechas de que exista un cambio estructuraldebemos de contrastar la estabilidad de los parametros de nuestra relacion.

El contraste de cambio estructural, llamado habitualmente contraste de Chow puede realizarse demanera sencilla mediante el estadıstico de sumas de cuadrados de los residuos sin mas que especificaradecuadamente el modelo restringido y el no restringido. Tambien podemos llevarlo a cabo utilizandovariables ficticias. Hay cambio estructural cuando el modelo

Yt = α1 + β1Xt + ut t = 1, 2, . . . , t1 < T (6.5)

y el modelo

Yt = α2 + β2Xt + ut t = t1, t2, . . . , T (6.6)

se verifica solo desde el momento t1 hasta T.

En este caso no podemos escribir una unica ecuacion del tipo:

Yt = α + βXt + ut t = 1, 2, . . . , T (6.7)

ya que no se verifica durante todo el periodo muestral y nuestro modelo estarıa formado por las ecua-ciones (6.5) y (6.6). Si existe cambio estructural rechazarıamos H0 : α1 = α2, β1 = β2 donde q = 2.Este contraste podemos llevarlo a cabo utilizando el estadıstico F basado en las sumas de cuadradosde los residuos siendo en este caso el modelo restringido el recogido en la ecuacion (6.7) mientras

171

Page 188: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

que el modelo no restringido esta constituido por las ecuaciones (6.5) y (6.6). Matricialmente:

Modelo no restringido ⇔[

Y1

Y2

]=

[i1 X1 0 00 0 i2 X2

]

α1

β1

α2

β2

+

[u1

u2

]⇒ u′u = u′1u1 + u′2u2

Modelo restringido ⇔[

Y1

Y2

]=

[i1 X1

i2 X2

] [αβ

]+

[u1

u2

]⇒ u′rur

bajo el supuesto u1 ∼ N(0, σ21), u2 ∼ N(0, σ2

2) el estadıstico de contraste y distribucion es:

u′rur − u′u/2u′u/T1 + T2 − 4

H0∼ F(2,T1+T2−4)

Notar que para la validez del contraste ademas de suponer normalidad en las perturbaciones sesupone tambien que σ2

1 = σ22.

6.3. Sobre las perturbaciones: contrastes de heterocedasticidad y ausen-cia de correlacion

6.3.1. Contraste de heterocedasticidad

Hasta el momento uno de los supuestos basicos del modelo de regresion lineal es que la varianzade cada termino de perturbacion ui condicionada a los valores de las variables explicativas, esconstante e igual a σ2. Llamabamos a este supuesto homocedasticidad y lo denotabamos: V (ui) =σ2 o lo que es igual E(u2

i ) = σ2 ∀i. La varianza σ2 es una medida de dispersion de ui alrededorde su media , E(ui) = 0, o equivalentemente, una medida de dispersion de la variable dependienteYi alrededor de su media β1 +β2X2i + . . .+βkXki. Ası, homocedasticidad significa que la dispersiones la misma a traves de todas las observaciones.

Supongamos que disponemos de observaciones sobre consumo y renta para un conjunto de familias,en un ano determinado. Las familias con rentas bajas no tienen mucha flexibilidad en sus gastos, engeneral el grueso de la misma se gastara en cosas basicas, por ello la forma de consumo entre familiasde renta baja no variara demasiado. Sin embargo, las familias de rentas altas tienen mas posibilidadesde consumo, ser grandes consumidores o ahorradores o llevar un gasto equilibrado. En cualquier casosu consumo puede ser muy distinto entre sı por lo que pueden tener una gran dispersion alrededorde su consumo medio mientras que las familias con rentas bajas no. En esta situacion suponer queexiste homocedasticidad no es sensato, deberıamos suponer que existe heterocedasticidad.

Llamamos heterocedasticidad al caso en que la varianza del termino de error varıa a traves deltiempo si miramos a series temporales, V (ut) = σ2

t , o cambia de una observacion a otra si miramosdatos de seccion cruzada, (familias, paıses, etc.), V ar(ui) = σ2

i . Seguimos suponiendo que no existeautocorrelacion entre perturbaciones por lo que solo consideramos la existencia de heterocedastici-dad. La existencia de heterocedasticidad es mas habitual en datos de seccion cruzada.

172

Page 189: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

En la Figura 5.1 se puede apreciar la diferencia entre el comportamiento de las perturbacioneshomocedasticas, a la izquierda y heterocedasticas, a la derecha. En la figura de la izquierda sepuede observar que la varianza condicional de Yi a las Xi permanece igual sin importar los valoresque tome la variable X. Recordar que la varianza condicional de Yi es la misma que la de ui, portanto, en el grafico estamos observando como la varianza de la perturbacion permanece constanteindependientemente del valor que tome el regresor. En la figura de la derecha se puede observar quela varianza de Yi aumenta a medida que Xi aumenta y por tanto hay heterocedasticidad:

E(u2i ) = σ2

if ( u ) YXX 1 X 2 α +β X 6 X 6

f ( u )X 1 X 2

YXX 6 α+β

X 6Figura 6.2: Perturbaciones homocedasticas versus heterocedasticas

La existencia de heterocedasticidad puede aparecer en numerosas aplicaciones economicas sin em-bargo, es mas habitual en datos de seccion cruzada. A continuacion veremos algunas situaciones enlas cuales las varianzas de ui pueden no ser constantes.

• En datos de seccion cruzada.

Ejemplo 6.1 Supongamos que tenemos datos para diferentes comunidades autonomas es-panolas en el ano 2005 sobre gasto sanitario agregado, GS, renta personal disponible, R, elporcentaje de poblacion que supera los 65 anos, SEN y poblacion, POP , con los que estimarel siguiente modelo:

GSi = β1 + β2Ri + β3SENi + β4POPi + ui i = 1, . . . , N (6.8)

Las comunidades con mas poblacion y/o mayor porcentaje de poblacion con edad superiora 65 anos tendran mayor gasto sanitario que aquellas con menor poblacion o mas joven.En esta situacion suponer que la dispersion de los gastos sanitarios es la misma para todaslas comunidades con distinto nivel de poblacion y composicion de la misma no es realista,y se deberıa proponer que la varianza de la perturbacion sea heterocedastica V ar(ui) =σ2

i , permitiendo por ejemplo que varıe en funcion creciente con la poblacion, es decir, σ2i =

σ2POPi. Incluso podemos pensar que varıe en funcion creciente con el porcentaje de poblacionmayor de 65 anos, en cuyo caso propondrıamos V ar(ui) = σ2SENi o con ambas variables,por lo que la forma funcional pudiera ser V ar(ui) = σ2(aPOPi + b SENi).

173

Page 190: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Ejemplo 6.2 Un ejemplo recurrente para mostrar la heterocedasticidad es el estudio de larelacion entre consumo y renta. Supongamos que tenemos datos sobre renta, R, y gasto enconsumo, C, para N familias, con los que estimar el modelo:

Ci = β1 + β2Ri + ui i = 1, . . . , N (6.9)

Las familias con mayor renta, una vez satisfechas sus necesidades primordiales tienen mayoresposibilidades de decidir cuanto ahorrar y cuanto consumir, por lo que es habitual encontraruna mayor variabilidad en el gasto realizado por familias de renta alta que por familias derenta baja. En esta situacion suponer que la dispersion de los gastos de consumo es la mismapara todas las familias con distinto nivel de renta no es realista y se deberıa proponer que lavarianza de la perturbacion sea heterocedastica V ar(ui) = σ2

i , permitiendo por ejemplo quevarıe en funcion creciente con la renta de las familias, es decir, σ2

i = σ2Ri.

Ejemplo 6.3 Un fenomeno parecido ocurre con las empresas que deben decidir que por-centaje de sus beneficios, B, deben repartir como dividendos, D. Las empresas con mayoresbeneficios tienen un margen de decision muy superior al fijar su polıtica de dividendos. Alestimar el modelo:

Di = β1 + β2Bi + ui i = 1, . . . , N (6.10)

cabrıa esperar que la varianza de ui dependa del nivel de beneficios de la empresa i-esima ypodrıamos proponer que por ejemplo, E(u2

i ) = σ2i = σ2Bi.

• La heterocedasticidad tambien puede aparecer como consecuencia de la agregacion dedatos. En este caso la varianza puede depender del numero de observaciones del grupo.

Ejemplo 6.4 Supongamos un investigador que desea estimar los coeficientes del siguientemodelo:

Yj = β1 + β2Xj + uj j = 1, . . . , N (6.11)

donde uj ∼ N(0, σ2), es decir, la varianza de la perturbacion es homocedastica. Supongamosque el numero de observaciones N es tal que aconseja agrupar las observaciones en m-gruposde ni observaciones cada uno. Supongamos que como observacion del grupo i-esimo se tomala media aritmetica dentro del grupo. El modelo a estimar serıa:

Yi = β1 + β2Xi + ui i = 1, . . . , m (6.12)

y la nueva perturbacion ui seguira teniendo media cero, pero su varianza no sera constanteya que dependera del numero de observaciones dentro del grupo,

V ar(ui) =σ2

nii = 1, . . . , m.

Si el numero de observaciones dentro del grupo es el mismo en todos los grupos la varianzade la perturbacion ui es homocedastica.

• Otro caso serıa la existencia de un cambio estructural en varianza recogido por unavariable ficticia en la varianza de la perturbacion.

174

Page 191: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Ejemplo 6.5 Supongamos que se desea estudiar la relacion entre produccion, Y , y mano deobra, X, para un conjunto de 20 trabajadores de los cuales 10 son mujeres y el resto hombres.Si suponemos que la variabilidad de la produccion es distinta para los hombres que para lasmujeres nuestro modelo a estimar serıa:

Yi = β1 + β2Xi + ui i = 1, . . . , 20 (6.13)

donde ui ∼ (0, α1 + α2Di) siendo Di una variable ficticia que toma valor la unidad si laobservacion corresponde a una mujer y cero en el caso contrario. En este caso:

V ar(ui) = α1 + α2 para las observaciones correspondientes a las mujeresV ar(ui) = α1 para las observaciones correspondientes a los hombres

Suponiendo que las primeras diez observaciones corresponden a mujeres, la matriz de varianzasy covarianzas del vector de perturbaciones serıa la siguiente:

E(uu′) =[

(α1 + α2)I10 00 α1I10

]

Consecuencias de ignorar la heterocedasticidad

Vamos a analizar las consecuencias de utilizar el estimador MCO en presencia de heterocedasticidad:

• En las propiedades del estimador MCO: El estimador MCO bajo heterocedasticidadsigue siendo una combinacion lineal de las perturbaciones. Tambien sigue siendo insesgado yaque la media de la perturbacion es cero. Sin embargo, no va a ser de varianza mınima ya quela matriz de varianzas y covarianzas σ2(X ′X)−1 obtenida en el Tema 5 es mınima bajo lashipotesis basicas. Ahora, sin embargo, estas no se cumplen: estamos considerando el supuestode heterocedasticidad por tanto E(u2

i ) 6= σ2, el Teorema de Gauss-Markov no se cumple yel estimador no es de varianza mınima. Ahora la matriz de varianzas y covarianzas de loscoeficientes obtenida bajo este supuesto no vendra dada por la expresion σ2(X ′X)−1 y portanto no sera mınima. El estimador no es eficiente.

• En los contrastes de hipotesis: Una forma sencilla de pensar en las consecuencias sobrelos contrastes de hipotesis es pensar que dado que el estimador no es el mejor de los posiblesla inferencia realizada con el mismo no sera fiable.

Formalmente lo que esta ocurriendo es que el estimador de σ2 propuesto en el Tema 5 ahorano es insesgado por lo que los estadısticos de contraste habituales no tendran las distribucionest y F habituales. Por tanto, los contrastes no son validos.

La existencia de heterocedasticidad en ui tiene consecuencias en los estimadores MCO, en concretoya no son los estimadores de menor varianza entre los estimadores lineales e insesgados. Existe otroestimador, el estimador de Mınimos Cuadrados Generalizados que es el de menor varianza entrelos lineales e insesgados y para el cual la inferencia es valida. Las consecuencias y soluciones del

175

Page 192: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

problema no forman parte del contenido de este curso. Sin embargo, en la siguiente seccion vamosa aprender a detectar la existencia de heterocedasticidad con un estadıstico de contraste sencillo yque aparece por defecto en los resultados de estimacion MCO de gretl. En cursos mas avanzadosaprendereis a solucionar el problema.

Deteccion de la heterocedasticidad

Sabemos que en presencia de heterocedasticidad el estimador MCO es ineficiente, y los contrastes dehipotesis no son validos por ello es importante detectar la posible existencia de heterocedasticidad.La determinacion de la existencia de heterocedasticidad solo podremos conseguirla aplicando untest de contraste para heterocedasticidad, sin embargo podemos aproximarnos graficamente al pro-blema realizando un estudio visual de los residuos del modelo. Los residuos MCO son un estimadorinsesgado de ui aun en presencia de heterocedasticidad. Usaremos el residuo al cuadrado como apro-ximacion al comportamiento de la varianza de la perturbacion. Para ver si puede existir un problemade heterocedasticidad podemos empezar por dibujar el cuadrado de los residuos MCO contra la va-riable de la cual sospechamos que depende σ2, es decir, que sospechamos causa la heterocedasticidad

Nuestro objetivo es claro: Detectar la existencia de heterocedasticidad en las perturbacio-nes de un modelo. La primera aproximacion al objetivo es el estudio de los graficos de residuosy de las variables del modelo.

6.3.2. Deteccion grafica.

La aplicacion del estimador de MCG y algunos contrastes de heterocedasticidad requieren conocerla forma funcional de la varianza de la perturbacion. Si suponemos que la varianza de la perturba-cion depende de uno o mas regresores, u otras variables conocidas, un instrumento adecuado paraaproximarnos a la misma serıa llevar a cabo un analisis de los residuos MCO donde no hemos tenidoen cuenta la existencia de heterocedasticidad. Aunque uMCO,i no es lo mismo que ui la deteccionde patrones sistematicos en la variabilidad de los residuos MCO nos indicara la posible existenciade heterocedasticidad en las perturbaciones. Ademas, puede indicarnos una posible forma funcionalde la misma.

Consideramos el modelo (6.8) recogido en el Ejemplo 6.1:

GSi = β1 + β2Ri + β3SENi + β4POPi + ui i = 1, . . . , N

donde suponemos E(ui) = 0 ∀i y E(uiuj) = 0 ∀i, j i 6= j. Si sospechamos que ui es hetero-cedastica debido a la variable POP , podemos intentar detectar la existencia de heterocedasticidaden las perturbaciones del modelo ayudandonos del grafico de los residuos MCO, (uMCO,i), frente ala variable POPi.

Si el grafico es como el recogido en la Figura 6.3 pensaremos que la variabilidad de los residuosuMCO,i se incrementan con POPi y que el incremento es directamente proporcional. Ası, podrıamos

176

Page 193: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

−4

−3

−2

−1

0

1

2

3

4

5

0 5 10 15 20 25 30

resi

duos

MC

O

POP

Residuos de la regresión (= GS observada − estimada)

Figura 6.3: Residuos MCO versus POP

proponer, por ejemplo:E(u2

i ) = σ2POPi i = 1, 2, . . . , N

Si el grafico de los residuos MCO frente a POP hubiera sido como el recogido en la Figura 6.4supondrıamos que el aumento en la varianza de ui es inversamente proporcional a POPi y propon-drıamos:

E(u2i ) = σ2POP−1

i i = 1, 2, . . . , N

-4

-3

-2

-1

0

1

2

3

4

5

0 0.5 1 1.5 2

resi

duos

MC

O

POP

Figura 6.4: Residuos MCO versus POP

Tambien podemos optar por dibujar la serie de los residuos al cuadrados MCO frente a la variableque creemos causa la heterocedasticidad como se muestra en la Figura 6.5. En el grafico de laizquierda se muestran los pares (SENi, uMCO,i), en el grafico de la derecha se muestran los pares(SENi, u

2MCO,i). Ambos graficos muestran la misma informacion, muestran que la variabilidad de los

residuos se incrementa con SEN y podrıamos proponer, por ejemplo V ar(ui) = E(u2i ) = σ2SENi.

177

Page 194: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

−4

−3

−2

−1

0

1

2

3

4

5

6 8 10 12 14 16 18

resi

duos

MC

O

SEN

Residuos de la regresión (= GS observada − estimada)

0

2

4

6

8

10

12

14

16

18

20

6 8 10 12 14 16 18

Cua

drad

o de

los

Res

iduo

s M

CO

SEN

Figura 6.5: Residuos MCO y sus cuadrados versus SEN

En general a priori no se conocera cual de las variables exogenas genera la heterocedasticidad porlo que resulta aconsejable estudiar los graficos de los residuos de MCO, contraponiendolos a cadauna de las variables exogenas del modelo, como estamos haciendo al estudiar los residuos frente aPOPi y frente a SENi. Notar que ambas variables parecen afectar a la varianza de la perturbacion,por ello estarıa justificado proponer V ar(ui) = (aPOPi + b SENi), donde a y b son desconocidos yel factor de escala es la unidad, σ2 = 1.

-2.5

-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

0 5 10 15 20 25 30

Res

iduo

s M

CO

POP

Figura 6.6: Perturbaciones homocedasticas

Si la grafica entre uMCO,i y POPi hubiera resultado como la de la Figura 6.6, concluirıamos quela varianza de la perturbacion no depende de POPi ya que no se aprecia ningun patron de com-portamiento y parece que hay una distribucion aleatoria de los pares (POPi, ui). En esta situacionprocede analizar los residuos frente al resto de regresores del modelo.

Las formas anteriores no son las unicas. Si recordamos, en el Ejemplo 3.6 se suponıa una situaciondonde hombres y mujeres en una empresa tenıan diferente productividad y se suponıa que V ar(ui) =α1 + α2Di siendo Di una variable ficticia que toma valor uno si la observacion corresponde a unamujer y cero en caso contrario. En esta situacion esperarıamos un grafico como el recogido en la

178

Page 195: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Figura 6.7 donde claramente la dispersion de los residuos para las mujeres es mucho mayor que paralos hombres.

-800

-600

-400

-200

0

200

400

600

800

0 1

Res

iduo

s M

CO

D_i

Figura 6.7: Residuos MCO frente a una variable ficticia

Como conclusion diremos que al analizar los graficos de la relacion residuos MCO, o sus cuadra-dos, con cada uno de los regresores lo que intentaremos detectar visualmente es un crecimiento odecrecimiento en la variabilidad de los residuos con respecto a la variable en cuestion.

Sin embargo el estudio grafico de los residuos no es determinativo. Para determinar si existe o noheterocedasticidad tendremos que realizar un contraste de existencia de heterocedasticidad con unestadıstico adecuado. Estadısticos de contraste de existencia de heterocedasticidad hay muchos yunos se adecuan mas a unas situaciones que otros y en general necesitan suponer una forma funcionalpara σ2

i . El analisis grafico no es una perdida de tiempo ya que la relacion entre Xki y uMCO,i nosindicara una posible forma funcional (de heterocedasticidad) para la varianza de la perturbacion ypuede indicarnos cual es el test de contraste mas adecuado. En este tema vamos a estudiar un unicotest de heterocedasticidad que tiene caracter general y no exige supuestos sobre el comportamientode σ2

i . Ademas gretl lo proporciona directamente.

6.3.3. Contraste de White

El contraste de heterocedasticidad propuesto por White en 1980 es un contraste parametrico, decaracter general, que no precisa especificar la forma que puede adoptar la heterocedasticidad. Eneste sentido puede calificarse de robusto. Antes de aplicar el contraste con gretl vamos a desarrollarpaso a paso el contraste para entender su mecanismo. Para la ilustracion vamos a suponer quequeremos contrastar la existencia de heterocedasticidad en el modelo:

Yi = β1 + β2X2i + β3X3i + ui (6.14)

Se procede de la forma siguiente:

1. Estimamos por MCO el modelo original y calculamos los residuos de MCO, uMCO,i.

179

Page 196: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

2. Estimamos la regresion auxiliar: el cuadrado de los residuos mınimo-cuadraticos de la regresionanterior, sobre una constante, los regresores del modelo original, sus cuadrados y productoscruzados de segundo orden, evitando los redundantes:

u2i = α1 + α2X2i + α3X3i + α4X

22i + α5X

23i + α6X2tX3i + ωi (6.15)

Contrastar la hipotesis nula de homocedasticidad es equivalente a contrastar que todos loscoeficientes de esta regresion, exceptuando el termino independiente son cero. Es decir:

H0 : α2 = α3 = . . . = α6 = 0

3. El estadıstico de contraste es λ = NR2 donde R2 es el coeficiente de determinacion de laregresion auxiliar (6.15). Rechazamos H0 si NR2 > χ(p)|α siendo p el numero de coeficientesen la regresion auxiliar sin incluir el termino independiente, en el ejemplo p = 5.

Observaciones:

1. Este contraste es muy flexible ya que no especifica la forma funcional de heterocedasticidad,pero por otro lado, si se rechaza la hipotesis nula de homocedasticidad no indica cual puedeser la direccion a seguir.

2. A la hora de incluir los regresores de la regresion auxiliar debemos ser muy cuidadosos parano incurrir en multicolinealidad exacta, por ejemplo en el caso de las variables ficticias convalores 0 y 1, en este caso el cuadrado de la variable coincide con ella misma.

3. Tambien pueden surgir problemas en modelos con un alto numero de regresores que puedeconllevar que en la regresion auxiliar el numero de variables sea tal que no supere al numerode observaciones y nos quedemos sin grados de libertad. Si este es el caso podemos optar porregresar el cuadrado de los residuos MCO sobre Yi y Y 2

i ya que Yi es el ajuste de Yi usandoel estimador MCO con todos los regresores originales.

4. El contraste de White puede recoger otro tipo de problemas de mala especificacion de laparte sistematica, omision de variables relevantes, mala forma funcional etc. Esto es positivosi se identifica cual es el problema, en caso contrario, la solucion que se tome puede estarequivocada. Si la deteccion de heterocedasticidad se debe a un problema de mala especificacionla solucion pasa por especificar correctamente el modelo.

6.3.4. Contraste de ausencia de correlacion temporal

En el modelo de regresion, el termino de perturbacion engloba aquellos factores que determinando lavariable endogena, no estan recogidos en la parte sistematica del modelo. Estos factores pueden serinnovaciones, errores de medida en la variable endogena, variables omitidas, etc. Hasta el momentouno de los supuestos basicos del modelo de regresion lineal es que la covarianza entre perturbacionesde distintos periodos es cero. Sin embargo, si estos factores estan correlacionados en el tiempo oen el espacio, entonces no se satisface la hipotesis de NO autocorrelacion que escribıamos como

180

Page 197: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

E(utus) = 0 ∀t, s t 6= s. Este fenomeno se conoce con el nombre de autocorrelacion: corre-lacion serial, en el caso de series temporales y correlacion espacial en el caso de datos de seccioncruzada. En general es mas habitual en datos de serie temporal.

Concepto de autocorrelacion:

Existe autocorrelacion cuando el termino de error de un modelo econometrico esta correlacionadoconsigo mismo. Es decir, la covarianza entre las perturbaciones es distinta de cero para diferentesmomentos del tiempo (o entre distintos individuos)1 :

E(utus) 6= 0 ∀t, s t 6= s

Esta dinamica, aunque no sea relevante en media, refleja un patron sistematico que tenemos queconsiderar a la hora de estimar el modelo.

La existencia de autocorrelacion supone el incumplimiento de una de las hipotesis basicas sobrela perturbacion de forma similar a la existencia de heterocedasticidad. Esta afecta a las varianzasmientras que la autocorrelacion afecta a las covarianzas. En cualquier caso, las consecuencias sobreel estimador MCO son las mismas: el estimador no es de varianza mınima, aunque sigue siendo lineale insesgado. Los contrastes de hipotesis no son validos por las mismas razones que en el supuesto deheterocedasticidad. Si sospechamos que en un modelo la perturbacion esta autocorrelada, primerodeberıamos cerciorarnos realizando un contraste y en el caso de que esta exista es importanteestimar el modelo bajo estos nuevos supuestos con un estimador alternativo a MCO que sea devarianza mınima y valido para hacer inferencia. Este estimador queda fuera del contenido de estetema, sin embargo, aprenderemos a detectar el problema mediante un contraste y estudiaremos unproceso sencillo para recoger el comportamiento de la perturbacion bajo autocorrelacion: el procesoautorregresivo de primer orden.

Causas de autocorrelacion

Como decıamos al iniciar este capıtulo el termino de perturbacion de un modelo engloba aquellosfactores que, determinando la variable endogena, no estan recogidos en la parte sistematica delmodelo. Factores como variables omitidas, mala especificacion de la forma funcional o errores demedida, entre otros, son causa de autocorrelacion. Repasaremos algunos de ellos:

• Shocks aleatorios prolongadosSea el modelo:

Rt = β1 + β2RMt + ut t = 1, 2, . . . , T

donde Rt es la rentabilidad de un activo en el periodo t y RMt es la rentabilidad del mercadoen dicho periodo t. Si en un momento dado se produce una caıda del mercado, la rentabilidad

1No es preciso que ut este correlacionada consigo misma en cada dos instantes distintos del tiempo, sino que bastaque la correlacion se extienda a algunos periodos.

181

Page 198: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

del activo se vera afectada a la baja y como consecuencia la rentabilidad obtenida sera menorque la esperada. Este efecto se prolongara en el tiempo hasta que poco a poco los inversoresrecuperen la confianza y el mercado vuelva a estabilizarse. El shock se recogera en el terminode perturbacion. Si por ejemplo, la caıda se produce en (t−1), lo que estamos diciendo es quela perturbacion en t dependera de lo ocurrido en (t− 1) vıa ut−1.

• Existencia de ciclos y tendenciasSi estamos analizando un modelo econometrico cuya variable endogena presenta ciclos y/otendencias que no se explican a traves de las variables exogenas, la perturbacion recoge dichasestructuras, presentando un comportamiento de autocorrelacion. En este caso, los residuospresentan agrupaciones de desviaciones por encima del promedio (en la parte alta del ciclo) yagrupaciones de desviaciones por debajo del promedio (parte baja del ciclo).

• Relaciones no linealesSupongamos que la verdadera relacion entre los tipos de interes, rt, y el stock de DeudaPublica, Dt, es cuadratica:

rt = β1 + β2Dt + β3D2t + ut t = 1, 2, . . . , T β2 > 0, β3 < 0

Este modelo implica que los tipos de interes aumentan al crecer el stock de deuda publica,aunque menos que proporcionalmente, puesto que se tiene:

∂rt

∂Dt= β2 + 2β3Dt < β2

tanto menor cuanto mayor es Dt. Pero sin embargo se especifica y se estima un modelo lineal:

rt = β1 + β2Dt + ut t = 1, 2, . . . , T

En este caso la curvatura de la parte sistematica pasa a ser recogida por la perturbacion.Los residuos presentaran una racha de residuos negativos seguida de otra racha de residuospositivos para seguir con otra negativa.

• Variables omitidas relevantes correlacionadasSi el modelo realmente se especifica como:

Yt = β1 + β2X2t + β3X3t + ut t = 1, 2, . . . , T

ut = Yt − β1 − β2X2t − β3X3t

ut = Yt − β1 − β2X2t − β3X3t

Pero estimamos:

Yt = β1 + β2X2t + vt t = 1, 2, . . . , T

vt = Yt − β1 − β2X2t = ut + β3X3t

vt = Yt − β1 − β2X2t = ut − (β1 − β1)− (β2 − β2)X2t + β3X3t

En este contexto de omision recordemos que los estimadores MCO son sesgados en general.En consecuencia, tras un analisis de los residuos vt tanto grafico como mediante tests, esmuy probable que si la variable omitida esta correlacionada o presenta ciclos o tendencias elinvestigador llegue a la conclusion de que: Cov(vt, vs) 6= 0. De todas formas hay que tener encuenta que no siempre que se omite una variable relevante se causa autocorrelacion.

182

Page 199: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Proceso autorregresivo de primer orden, AR(1)

Existen numerosos procesos capaces de reproducir estructuras de autocorrelacion en la perturbacion,sin embargo el proceso autorregresivo de primer orden es el proceso de autocorrelacion mas sencilloy uno de los que mejor se suele ajustar a datos economicos2. Se especifica como:

ut = ρut−1 + εt t = 1, 2, . . . , T

de forma que la perturbacion en el periodo t depende de la perturbacion del periodo anterior (t−1)mas un termino aleatorio (o innovacion) εt cuyas caracterısticas son:

E(εt) = 0 ∀tE(ε2t ) = σ2

ε ∀tE(εtεs) = 0 ∀t, s t 6= s

εt ∼ iid(0, σ2ε )

y que habitualmente se le llama ruido blanco3. La especificacion completa del MRLG cuando laperturbaciones presentan autocorrelacion es:

Yt = β1 + β2X2t + β3X3t + . . . + βKXKt + ut t = 1, 2, . . . , T

ut = ρut−1 + εt εt ∼ iid(0, σ2ε ) |ρ| < 1

El coeficiente ρ mide la correlacion entre ut y ut−1 y debe cumplir que |ρ| < 1 para que el procesono sea explosivo. Se le denomina coeficiente de autocorrelacion de orden uno (o primer orden) yaque uno es el numero de periodos entre ut y ut−1:

ρ =Cov(ut, ut−1)√

V ar(ut)√

V ar(ut−1)− 1 < ρ < 1

Si la covarianza es positiva se le denomina correlacion positiva y si es negativa, correlacion negativa.Dado que ut = Yt − E(Yt|XitK

i=1) la perturbacion representa la diferencia entre el comporta-miento observado y el comportamiento promedio. Dados los posibles valores de ρ tenemos que:

i) Si ρ > 0 entonces un valor elevado de ut genera un valor de Yt por encima del promedio ytendra mayor probabilidad de ir seguido por un valor elevado de ut+1 y ası sucesivamente.

ii) Si ρ < 0 un valor alto de ut ira seguido por un valor bajo de ut+1 y este por uno alto de ut+2

y ası sucesivamente.

La relacion entre la perturbacion ut y la innovacion εt se recoge en el diagrama siguiente:

ut−2 −→ ut−1 −→ ut −→ ut+1

↑ ↑ ↑ ↑εt−2 εt−1 εt εt+1

2El proceso autorregresivo de orden uno no es el unico proceso que recoge dinamica en la perturbacion. El procesoautorregresivo mas general de todos es el proceso autorregresivo de orden p, AR(p):

ut = ρ1ut−1 + ρ2ut−2 + . . . + ρput−p + εt

Ademas existen otros procesos alternativos a los autorregresivos.3Si nos fijamos, εt cumple las hipotesis basicas sobre la perturbacion, es por tanto homocedastica y no autocorrelada.

183

Page 200: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

por lo que cada innovacion influye sobre la perturbacion en el mismo periodo o perıodos posteriores,pero nunca sobre los valores anteriores, es decir: E(εtut−s) = 0 s > 0. Ademas en el diagrama sepuede observar que ut no depende directamente de ut−2 pero sı lo hace a traves de ut−1, por tantout esta correlado con todos las perturbaciones pasadas.u t

tu t

tFigura 6.8: Proceso autorregresivo de orden uno

En la izquierda de la Figura 6.8 se observa un proceso autorregresivo de primer orden con parametroρ positivo. En ella podemos observar una racha de residuos positivos seguidos de una racha deresiduos negativos y ası sucesivamente. En cambio, cuando el parametro del proceso autorregresivoes negativo, los signos de los residuos se alternan como podemos ver en la figura de la derecha delmismo grafico.

Deteccion de la autocorrelacion

En la practica no se conoce a priori si existe autocorrelacion ni cual es el proceso mas adecuadopara modelarla. Para determinar su existencia es necesario contrastar dicha hipotesis mediante unestadıstico de contraste.

Si embargo, ningun contraste de autocorrelacion debe excluir un examen riguroso de los residuosgenerados en la estimacion del modelo. El grafico de los mismos puede indicarnos la existencia deautocorrelacion. Dado que los residuos son una aproximacion a la perturbacion, la existencia depatrones o comportamientos sistematicos en los mismos indicarıa la posible existencia de autocorre-lacion en ut. Por ejemplo, podemos esperar que el grafico de la evolucion temporal de ut,MCO secomporte de forma similar a lo mostrado por la Figura 6.8. Sin embargo, tambien podemos dibujarla evolucion temporal de ut,MCO contra la de us,MCO para s = t−1. Si encontramos que la mayorıade los puntos en dicho grafico se hallan en el primer o tercer cuadrante, izquierda de la Figura 6.9,ello es un indicio de autocorrelacion positiva. Si se hallan en el segundo y cuarto cuadrante, derechade la Figura 6.9, indicara autocorrelacion negativa.

Tras el analisis grafico, si sospechamos que existe autocorrelacion debemos contrastarla con unestadıstico de contraste. Existen varios estadısticos de contraste pero en este tema vamos a estudiarsolo uno, el estadıstico de Durbin Watson, especıfico para contrastar la existencia de un procesoautorregresivo de primer orden.

184

Page 201: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresionu tsu

u tsu

Figura 6.9: Perturbaciones AR(1) positivo versus AR(1) negativo

Contraste de Durbin Watson

Durbin y Watson propusieron en 1951 un estadıstico para contrastar la existencia de un procesoAR(1) en el termino de perturbacion. La hipotesis nula es la no existencia de autocorrelacion:

H0 : ρ = 0

frente a la alternativaHa : ρ 6= 0 en ut = ρut−1 + εt εt ∼ (0, σ2

ε )

y se contrasta mediante el estadıstico:

DW =∑T

t=2(ut − ut−1)2∑Tt=1 u2

t

donde ut son los residuos mınimo-cuadraticos ordinarios de estimar el modelo original sin tener encuenta la existencia de autocorrelacion en las perturbaciones. Gretl proporciona el valor de esteestadıstico entre los resultados de la estimacion MCO. Sin embargo antes de utilizarlo vamos aestudiar su interpretacion y manejo sin recurrir a gretl.

• Interpretacion del estadıstico DW:Si el tamano muestral es suficientemente grande4 podemos emplear la relacion DW ' 2(1 − ρ) enbase a la cual podemos establecer el siguiente comportamiento en los residuos:

• Si existe autocorrelacion positiva de primer orden, valores positivos del termino de error ut

tiendan a ir seguidos de valores positivos y asimismo, valores negativos tiendan a ir seguidos4Teniendo en cuenta las aproximaciones:

T∑t=2

u2t '

T∑t=2

u2t−1 '

T∑t=1

u2t

con lo que

DW ' 2∑T

t=2 u2t − 2

∑Tt=2 utut−1∑T

t=1 u2t

' 2− 2

∑Tt=2 utut−1∑T

t=2 u2t−1

' 2(1− ρ)

donde ρ es el estimador de ρ por MCO en el modelo ut = ρut−1 + εt, empleando como aproximacion de ut el residuo

MCO, es decir, ut = ρut−1 + εt y ρ =∑

utut−1∑u2

t−1.

185

Page 202: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

de valores negativos. Dado que la aproximacion a la perturbacion es el residuo, los patronesen la perturbacion seran detectados en el residuo. Ası, observaremos agrupaciones de residuospositivos seguidas de agrupaciones de residuos negativos. En estas circunstancias, generalmen-te |ut − ut−1| < |ut| ⇒ (ut − ut−1)2 < u2

t y el numerador del estadıstico “sera pequeno” enrelacion al denominador, con lo que el estadıstico “sera pequeno”. En consecuencia cuantomas cercano este el parametro ρ a la unidad mas proximo a cero estara el DW. En el extremopositivo tenemos que ρ −→ 1 ⇒ DW −→ 0.

• Si existe autocorrelacion negativa de primer orden, valores positivos de ut tienden a ir seguidosde valores negativos, en este caso |ut−ut−1| > |ut| ⇒ (ut−ut−1)2 > u2

t con lo que el estadısticoDW tendera a tomar valores grandes. En el extremo negativo tenemos que ρ −→ −1 ⇒DW −→ 4.

A partir de la relacion DW ' 2(1− ρ) se puede establecer el rango de valores que puede tomar elestadıstico DW.

0 < ρ < 1 DW ∈ (0, 2)ρ = 0 DW ' 2

−1 < ρ < 0 DW ∈ (2, 4)

La distribucion del estadıstico DW bajo H0 depende de la matriz de regresores X por lo quelos valores crıticos del contraste tambien seran diferentes para cada posible X. Durbin y Watsontabularon los valores maximo (dU ) y mınimo (dL) que puede tomar el estadıstico independientementede cual sea X, y tal que dL < DW < dU . La distribucion de dL y dU depende del tamano de lamuestra, T, y de K ′ que denota el numero de variables explicativas del modelo exceptuando eltermino independiente.

• Contraste de existencia de autocorrelacion positiva:H0 : ρ = 0Ha : ρ > 0 en ut = ρut−1 + εt |ρ| < 1 εt ∼ iid(0, σ2

ε )

1. Si DW < dL se rechaza la H0 para un nivel de significatividad α dado, por tanto existeautocorrelacion positiva.

2. Si DW > dU no se rechaza la H0 para un nivel de significatividad α dado, por tanto no existeautocorrelacion positiva.

3. Si dL < DW < dU estamos en una zona de incertidumbre y no podemos concluir si existe ono autocorrelacion positiva de primer orden.

• Contraste de existencia de autocorrelacion negativa:H0 : ρ = 0Ha : ρ < 0 en ut = ρut−1 + εt |ρ| < 1 εt ∼ iid(0, σ2

ε )

1. Si DW < 4 − dU no se rechaza la H0 para un nivel de significatividad α dado, por tanto noexiste autocorrelacion negativa.

186

Page 203: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

2. Si DW > 4 − dL se rechaza la H0 para un nivel de significatividad α dado, por tanto existeautocorrelacion negativa.

3. Si 4− dU < DW < 4− dL estamos en una zona de incertidumbre y como en el caso anterior,no podemos concluir si existe o no autocorrelacion negativa de primer orden.

Graficamente:

H0 : ρ = 0

Autocorrelacion positiva Autocorrelacion negativa←− −−−−Ha : ρ > 0−−−−− −→ ←− −−−−−−−Ha : ρ < 0−−−−− −→

| | | | |Rechazar | | Aceptar ρ = 0 | | Rechazar

ρ = 0 | Duda | | | Duda | ρ = 0| | | | |

0 dL dU 2 4− dU 4− dL 4

Si el resultado del contraste es que existe autocorrelacion y esta no es debida a una mala especifi-cacion del modelo, este no debe ser estimado por MCO ya que este estimador es ineficiente. Si laautocorrelacion es originada por una mala especificacion del modelo primero se ha de corregir estaespecificacion y una vez el modelo este correctamente especificado analizar las propiedades de laperturbacion y actuar en consecuencia.

• Observaciones sobre el contraste de Durbin Watson:

1. El contraste de Durbin Watson tambien se puede considerar un contraste de mala especifi-cacion del modelo. La omision de variables relevantes correlacionadas, una forma funcionalinadecuada, cambios estructurales no incluidos en el modelo, etc., pueden originar un es-tadıstico DW significativo. Esto nos puede llevar a errores si consideramos que hay evidenciade autocorrelacion y se modela un proceso AR(1). Por otro lado, si ut sigue un proceso dis-tinto de un AR(1), es probable que el estadıstico DW lo detecte. Por lo tanto, el estadısticode Durbin Watson es util porque nos indica la existencia de problemas en el modelo, pero aveces no nos ayuda a establecer cual es la estructura real. En caso de no rechazar la H0, po-demos afirmar que no tenemos un AR(1), pero no sabemos si tenemos alguna otra estructuraalternativa.

2. Por otro lado el estadıstico DW solo debe aplicarse cuando los regresores son no estocasticos,en presencia de regresores aleatorios como la variable endogena retardada no tiene validez.

3. Cuando el estadıstico DW cae en zona de duda, y si no podemos llevar a cabo un contrastealternativo, no debemos concluir que no existe autocorrelacion. El procedimiento conservadoraconseja rechazar la hipotesis nula y estimar por un estimador alternativo a MCO ya que lasconsecuencias de ignorar su existencia cuando sı la hay son mas graves que las correspondientesal caso contrario.

187

Page 204: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

6.4. Prediccion

Aunque pueda considerarse que la obtencion de un buen conjunto de estimaciones es el objetivoprincipal de la Econometrıa, a menudo tambien tiene gran importancia el logro de unas prediccionesprecisas. Supongamos que con N observaciones se ha estimado el modelo:

Yi = β1 + β2X2i + . . . + βKXKi + ui.

Dada una nueva observacion de las variables explicativas,

X ′p =

[1 X2p · · · XKp

]p 6∈ 1, 2, . . . , N

se puede utilizar el modelo estimado por MCO para predecir el valor que tendra la variable endogena(desconocido en ese momento). Dado el modelo de regresion, la ecuacion para Yp es:

Yp = β1 + β2X2p + . . . + βKXKp + up

Para abreviar, utilizaremos la expresion vectorial:

Yp = X ′pβ + up

Dada la informacion muestral disponible (no conocemos β ni up) la prediccion por punto de Yp

es:Yp = X ′

p βMCO

O lo que es lo mismo:Yp = β1 + β2X2p + . . . + βKXKp.

Hay cuatro fuentes potenciales de error al realizar una prediccion:

1. El error de especificacion. El modelo de regresion en que nos basamos puede ser incorrecto:pueden faltar variables explicativas que afectan de manera clave a Y , puede que la formafuncional propuesta no sea correcta, puede que se no se cumpla alguna hipotesis basica, etc.

2. Error en los valores de Xp. La prediccion se hace para unos valores dados de Xp, pero estospueden ser desconocidos en el momento en que se hace la prediccion.

3. El error muestral. No hay mas remedio que usar β en vez de los valores verdaderos β parahacer la prediccion.

4. El error aleatorio. Yp dependera de up, la perturbacion aleatoria (desconocida) correspondientea esa observacion. Cuanto mas diferente sea de cero, mayor sera este error.

Dadas todas estas fuentes de incertidumbre a la hora de predecir Y , es muy recomendable que laprediccion puntual de Y se acompane con una medida de lo precisa que esperamos que sea esaprediccion. En esto consiste la prediccion por intervalo.

188

Page 205: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

• Prediccion por intervalo del valor de la variable endogena

Es muy difıcil que el valor predicho para Yp, Yp coincida con el valor real. Si la prediccion por puntose hace para el mes siguiente, o para el ano siguiente, llegara un momento en que conoceremos elerror cometido. Este error se denomina error de prediccion y es igual a

ep = Yp − Yp

En el momento en que hacemos la prediccion, tenemos cierta informacion sobre ep, ya que es unavariable aleatoria con una distribucion conocida. En concreto,

ep ∼ N(0, σ2( 1 + X ′p

(X ′X

)−1Xp ))

Demostracion:

ep = Yp − Yp = X ′p β + up −X ′

p β =

= up −X ′p (β−β) (6.16)

Buscamos su distribucion. Si up es normal el estimador MCO dado que es lineal en la perturbaciontambien lo sera y por tanto el error de prediccion tambien lo es. En cuanto a su media y varianza:

E(ep) = E[up −X ′

p (β−β)]

= 0−X ′p (β − β) = 0

V (ep) = E [ep − E(ep)] [ep − E(ep)]′ =

= E(ep e′p

)=

= E

[(up −X ′

p (β−β))(

up −X ′p (β−β)

)′]=

= E[up u′p

]+ E

[X ′

p (β−β) (β−β)′Xp

]− 2X ′

p E[(β−β) u′p

]=

= E(u2

p

)+ X ′

p E[(β−β) (β−β)′

]Xp − 2X ′

p E[(

X ′X)−1

X ′ uup

]=

= σ2 + σ2X ′p

(X ′X

)−1Xp − 0 =

= σ2(

1 + X ′p

(X ′X

)−1Xp

)

Por tanto:ep ∼ N(0, σ2

(1 + X ′

p

(X ′X

)−1Xp

))

Tipificando el error de prediccion queda:

ep − 0

σ√

1 + X ′p ( X ′X )−1 Xp

∼ N(0, 1)

El problema es que σ2 es desconocida. Utilizando que ep y σ2 obtenemos

ep

σ√

1 + X ′p ( X ′X )−1 Xp

∼ t(N−K)

189

Page 206: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

De hecho el denominador final es σep (la desviacion estimada del error de prediccion). Tras sustituirep = Yp − Yp , se puede utilizar dicha distribucion para obtener el siguiente intervalo de prediccionpara la variable endogena:

Pr

[− tα

2(N−K) ≤

Yp − Yp

σep

≤ tα2(N−K)

]= 1− α

Pr[Yp − tα

2(N−K) · σep ≤ Yp ≤ Yp + tα

2(N−K) · σep

]= 1− α

IC1−α(Yp) =(Yp − tα

2(N−K) σep , Yp + tα

2(N−K) σep

)

Ejercicio 6.1

Una gestorıa comercializa 100 polizas de seguro. Para tener informacion acerca del tipode poliza mas solicitada utiliza el siguiente modelo:

Ni = β1Hi + β2Vi + β3Mi + β4Ai + ui i = 1, . . . , 100

donde

• Ni es el numero de polizas suscritas del producto i-esimo.

• Hi =

1 si la poliza pertenece a seguros del hogar0 en caso caso contrario

• Vi =

1 si la poliza pertenece al ramo de seguros de vida0 en caso caso contrario

• Mi =

1 si la poliza pertenece al ramo de seguros medicos0 en caso caso contrario

• Ai =

1 si la poliza pertenece a seguros automovilısticos0 en caso caso contrario

Las ventas para el ano 1994 se resumen en:∑

i∈Hogar

Ni = 380∑

i∈V ida

Ni = 150∑

i∈Medicos

Ni = 70∑

i∈Automoviles

Ni = 500

i=100∑

i=1

N2i = 20000

100∑

i=1

Hi =100∑

i=1

Vi =100∑

i=1

Mi =100∑

i=1

Ai = 25

1. Interpreta los parametros del modelo propuesto.

2. Estima los parametros por MCO.

3. Contrasta si hay diferencias significativas en el numero de suscripciones segun elramo de seguros al que pertenecen.

4. Halla un intervalo de confianza del 95 % para el numero de suscripciones de polizasmedicas.

190

Page 207: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Ejercicio 6.2

Supon que se quieren explicar los rendimientos de los ındices bursatiles, Rt, de variospaıses a traves de su localizacion geografica y de los tipos de interes reales, It, consi-derando para estos ultimos que es suficiente con especificar si los tipos son positivos onegativos. Los datos aparecen en la Tabla 6.1.

1. Especifica un modelo para el comportamiento de Rt con la informacion que se da.

2. Supon ahora que solo se considera importante en cuanto a la localizacion si el paısesta o no en Europa (i.e. Europa v.s. Resto del Mundo) y reespecifica el modelo.

3. Estima el modelo que has propuesto en el apartado anterior.

4. Supon que, para Portugal, el tipo de interes es positivo y el rendimiento de su ındicebursatil del 35%. ¿Consideras que el mercado bursatil en Portugal tiene el mismocomportamiento que en los otros paıses europeos?

Rendimiento t/iRt It

EuropaAlemania 10 % positivoFrancia 20 % positivoReino Unido 15 % positivoItalia 40 % positivoAmericaEEUU 20 % negativoCanada 22 % negativoSudeste AsiaticoJapon -5% positivoHong Kong 30 % positivoSingapur 35 % negativoTaiwan 22 % negativo

Tabla 6.1: Observaciones sobre rendimiento y t/i por paıs

6.5. Validacion en gretl

6.5.1. Contraste de Ramsey con gretl

El contraste de Ramsey es uno de los contrastes que pueden realiarse una vez estimado en gretl unmodelo. En la pantalla de resultados de la estimacion Mınimo Cuadratica Ordinaria pinchar

Contrastes −→ Contraste RESET de Ramsey

y elegir las variables que queremos introducir en la especificacion para el contraste:

191

Page 208: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

• cuadrados y cubos

• solo cuadrados

• solo cubos

• todas las variantes

Para mostrar como contrastar la ausencia de correlacion utilizaremos el archivo de datos Ramanat-han data3-3.gdt. En este archivo de datos se dispone de 34 observaciones para el periodo 1960-1993(serie temporal por tanto) sobre el numero de resultados de patentes en miles, PATENTES, ysobre el gasto en I + D, en billones de dolares. La relacion a estudiar es:

PATENTESt = α + β(I + D)t + ut (6.17)

Los resultados de la estimacion MCO son los siguientes:

Modelo 1: MCO, usando las observaciones 1960–1993 (T = 34)Variable dependiente: PATENTS

Coeficiente Desv. Tıpica Estadıstico t Valor p

const 34,5711 6,35787 5,4375 0,0000I+D 0,791935 0,0567036 13,9662 0,0000

Media de la vble. dep. 119,2382 D.T. de la vble. dep. 29,30583Suma de cuad. residuos 3994,300 D.T. de la regresion 11,17237R2 0,859065 R2 corregido 0,854661F (1, 32) 195,0551 Valor p (de F ) 3,64e–15Log-verosimilitud −129,2704 Criterio de Akaike 262,5408Criterio de Schwarz 265,5935 Hannan–Quinn 263,5818ρ 0,945182 Durbin–Watson 0,233951

Contraste de especificacion RESET (cuadrados y cubos) Estadıstico de contraste: F = 47, 161051,con valor-p= P (F (2, 30) > 47, 1611) = 5, 48e− 010.

Contraste de especificacion RESET (cuadrados solo) Estadıstico de contraste: F = 14, 824629, convalor-p= P (F (1, 31) > 14, 8246) = 0, 000553.

Contraste de especificacion RESET (cubos solo) Estadıstico de contraste: F = 18, 475400, con valor-p= P (F (1, 31) > 18, 4754) = 0, 000158. En cualquiera de las posibilidades se rechaza la hipotesisnula luego la especicificacion lineal no es adecuada, comopuede apreciarse en la Figura 6.15 dondese muestra la nube de puntos correspondiente.

192

Page 209: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

60

80

100

120

140

160

180

200

60 80 100 120 140 160

PA

TE

NT

S

RD

PATENTS con respecto a RD (con ajuste mínimo−cuadrático)

Y = 34,6 + 0,792X

Figura 6.10: Variable endogena versus exogena

6.5.2. Contraste de cambio estructural o Chow con gretl

Utilizando gretl una vez abierto el fichero de datos y estimado el modelo correspondiente por MCO,en la ventana de resultados de la estimacion harıamos:

Contrastes −→ Contraste de Chow

A la pregunta Observacion en la cual dividir la muestra contestarıamos fecha correspondiente a T1

y automaticamente gretl realiza el contraste y nos muestra el resultado.

Por ejemplo el fichero data7-19 del libro de Ramanathan contiene datos para 1960-1988 sobre lademanda de tabaco y sus determinantes en Turquıa. Las variables de interes para el ejemplo sonlas siguientes:Q: consumo de tabaco por adulto (en kg).Y : PNB real per capita en liras turcas de 1968.P : precio real del kilogramo de tabaco, en liras turcas.D82: variable ficticia que toma valor 1 a partir de 1982.

A mediados de 1981 el gobierno turco lanza una campana de salud publica advirtiendo de los peligrosde salud que conlleva el consumo de tabaco. Nuestro objetivo es determinar si existen cambios enla demanda de tabaco tras la campana institucional en cuyo caso la especificacion:

LnQt = α + βLnYt + γLnPt + ut t = 1960, . . . , 1988 (6.18)

no es correcta para todo el perıodo muestral y deberıamos especificar dos ecuaciones:

LnQt = α1 + β1LnYt + γ1LnPt + u1t t = 1960, . . . , 1981 (6.19)

LnQt = α2 + β2LnYt + γ2LnPt + u2t t = 1982, . . . , 1988 (6.20)

Si existe cambio estructural rechazarıamos H0 : α1 = α2, β1 = β2 y γ1 = γ2

En este caso la contestacion a la pregunta Observacion en la cual dividir la muestra contestarıamos1982 y el output de gretl muestra lo siguiente:

193

Page 210: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Modelo 1: estimaciones MCO utilizando las 29 observaciones 1960-1988Variable dependiente: lnQ

Variable Coeficiente Desv. tıpica Estadıstico t valor p

const −4,58987 0,724913 −6,332 0,00001∗∗∗lnY 0,688498 0,0947276 7,268 0,00001∗∗∗lnP 0,485683 0,101394 −4,790 0,00006∗∗∗

Media de la var. dependiente = 0,784827Desviacion tıpica de la var. dependiente. = 0,108499Suma de cuadrados de los residuos = 0,0949108Desviacion tıpica de los residuos = 0,0604187R-cuadrado = 0,712058R-cuadrado corregido = 0,689908Estadıstico F (2, 26) = 32,148 (valor p < 0,00001)Estadıstico de Durbin-Watson = 1,00057Coef. de autocorr. de primer orden. = 0,489867

Log-verosimilitud = 41,8214Criterio de informacion de Akaike (AIC) = -77,6429Criterio de informacion Bayesiano de Schwarz (BIC) = -73,541Criterio de Hannan-Quinn (HQC) = -76,3582

Contraste de Chow de cambio estructural en la observacion 1982 -Hipotesis nula: no hay cambio estructuralEstadıstico de contraste: F(3, 23) = 20,1355con valor p = P(F(3, 23) > 20,1355) = 1,25619e-006

El estadıstico calculado es F = 20, 135 > F0,05(3, 23) por lo que rechazamos H0 para un nivel designificatividad del 5%, es decir existe cambio estructural, la campana institucional ha tenido efectoy la demanda de tabaco en Turquıa de 1960 a 1988 queda especificada por las ecuaciones (6.19) y(6.20). Los resultados de la estimacion mınimo cuadratica de estas ecuaciones son los siguientes:

LnQt = −5, 024(-10,614)

+ 0, 735(11,587)

LnYt − 0, 381(-4,227)

LnPt t = 1960, . . . , 1981 SCR1 = 0, 01654

LnQt = 8, 837(2,170)

+ −0, 953(-1,941)

LnYt + 0, 108(0,654)

LnPt t = 1982, . . . , 1988 SCR2 = 0, 00965

Cambio estructural utilizando variables ficticias

Alternativamente, el contraste anterior podrıamos haberlo realizado mediante la variable ficticiaD82 especificando el modelo:

LnQt = β1 + β2LnYt + β3LnPt + β?1D82t + β?

2D82t · LnYt + β?3D82t · LnPt + ut t = 60, . . . , 88(6.21)

194

Page 211: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

En el cual, si existe cambio estructural rechazarıamos H0 : β?1 = β?

2 = β?3 = 0. De nuevo el contraste

puede realizarse con el estadıstico F habitual de sumas residuales donde el modelo no restringidoes el (6.21) y el modelo restringido es

LnQt = β1 + β2LnYt + β3LnPt + ut (6.22)

Utilizando gretl el proceso despues de abierto el fichero de datos, tomado logaritmos y construidolas variables D82 ·LnY y D82 ·LnP serıa: estimarıamos el modelo (6.21) por MCO y en la ventanade resultados de la estimacion harıamos

Contrastes −→ Omitir variables

elegirıamos D82, D82 · LnY y D82 · LnP y obtendrıamos el siguiente resultado:

Modelo 1: estimaciones MCO utilizando las 29 observaciones 1960-1988Variable dependiente: lnQ

Variable Coeficiente Desv. tıpica Estadıstico t valor p

const −4,58987 0,724913 −6,332 0,00001∗∗∗lnY 0,688498 0,0947276 7,268 0,00001∗∗∗lnP 0,485683 0,101394 −4,790 0,00006∗∗∗

Media de la var. dependiente = 0,784827Desviacion tıpica de la var. dependiente. = 0,108499Suma de cuadrados de los residuos = 0,0949108Desviacion tıpica de los residuos = 0,0604187R-cuadrado = 0,712058R-cuadrado corregido = 0,689908Estadıstico F (2, 26) = 32,148 (valor p < 0,00001)Estadıstico de Durbin-Watson = 1,00057Coef. de autocorr. de primer orden. = 0,489867Log-verosimilitud = 41,8214Criterio de informacion de Akaike (AIC) = -77,6429Criterio de informacion Bayesiano de Schwarz (BIC) = -73,541Criterio de Hannan-Quinn (HQC) = -76,3582

Comparacion entre el modelo 10 y el modelo 11:Hipotesis nula: los parametros de regresion son cero para las variablesD82D82YD82PEstadıstico de contraste: F(3, 23) = 20,1355, con valor p = 1,25619e-006De los 3 estadısticos de seleccion de modelos, 0 han mejorado.

Dado el p-value rechazamos la hipotesis nula para un nivel de significatividad del 5 % y existe cambioestructural. La demanda de tabaco en Turquıa de 1960 a 1988 queda especificada por las ecuaciones(6.19) y (6.20).

195

Page 212: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

6.5.3. Contraste de heterocedasticidad con gretl

Para ilustrar esta seccion y lo que queda del tema vamos a utilizar el conjunto de datos Data 3.2del Ramanathan. En este conjunto de datos se dispone de 51 observaciones sobre renta personal,INCOME, y gasto sanitarios, EXPLTH ambos en billones de dolares para el estado de WashingtonD.C. en 1993. Se trata por tanto de una muestra de seccion cruzada. Queremos analizar la evoluciondel gasto en funcion de la renta, ası especificamos el modelo:

EXPLTHi = α + βINCOMEi + ui i = 1, . . . , 51 (6.23)

suponemos que se cumplen las hipotesis basicas y estimamos el modelo por MCO con los resultadossiguientes5:

Modelo 2: estimaciones MCO utilizando las 51 observaciones 1-51

Variable dependiente: exphlth

VARIABLE COEFICIENTE DESV.TIP. ESTAD.T 2Prob(t > |T|)

0) const 0,325608 0,319742 1,018 0,313515

2) income 0,142099 0,00196623 72,270 < 0,00001 ***

Media de la var. dependiente = 15,2649

D.T. de la var. dependiente = 17,8877

Suma de cuadrados de los residuos = 148,699

Desviacion tıpica de los residuos = 1,74203

R-cuadrado = 0,990705

R-cuadrado corregido = 0,990516

Grados de libertad = 49

Criterio de informacion de Akaike (AIC) = 203,307

Criterio de informacion Bayesiano de Schwarz (BIC) = 207,17

Para un nivel de significatividad del 5 % la variable INCOME es significativa, pero el terminoindependiente no es significativamente distinto de cero. El ajuste es muy alto, 99,07%. Graficamentepodemos ver si la forma funcional lineal elegida resulta adecuada para la relacion gasto sanitario-renta. Para ello vamos a dibujar la relacion gasto sanitario real y ajustado y ademas el ajuste MCO.Para ello dentro de la venta gretl : Modelo1 pinchamos la secuencia:

Graficos −→ Grafico de ajustada-obervada −→ por numero de observacion

Graficos −→ Grafico de ajustada-observada −→ contra income

Las figuras obtenidas aparecen a la izquierda y derecha, respectivamente, en la Figura 6.11.

5Recordatorio de la secuencia de ordenes para obtener la estimacion:Archivo −→ Abrir datos −→ Archivo de muestra −→ Data3.2Modelo −→ Mınimos Cuadrados −→ seleccionar la variable endogena y exogenasLos resultados se muestran en una ventana llamada gretl : modelo1

196

Page 213: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

0

10

20

30

40

50

60

70

80

90

100

0 10 20 30 40 50

exph

lth

index

exphlth observada y ajustada

ajustadoactual

-20

0

20

40

60

80

100

0 100 200 300 400 500 600 700

exph

lth

income

exphlth con respecto a income (con ajuste mínimo-cuadrÆtico)

Figura 6.11: Gasto sanitario real y ajustado

Aparentemente el modelo esta correctamente especificado y la forma lineal especificada es adecua-da. Antes de seguir vamos a guardar los valores ajustados del gasto sanitario los residuos y suscuadrados anadiendolos al conjunto de datos para luego poder trabajar con ellos si es necesario. Lasecuencia de ordenes a realizar en la ventana gretl : Modelo1 es:

Datos del modelo −→ Anadir al conjunto de datos −→ valores ajustados

Datos del modelo −→ Anadir al conjunto de datos −→ residuos

Datos del modelo −→ Anadir al conjunto de datos −→ residuos al cuadrado

gretl los va a anadir al conjunto de datos con el que trabajamos y los denota respectivamente poryhat1, uhat1 e usq1 respectivamente. Ademas anade una leyenda explicativa de la variable. Unavez hecho esto seguimos con el ejercicio.

A pesar del buen ajuste encontrado, no resulta descabellado pensar que la varianza del gasto sa-nitario, EXPHLTH, probablemente dependera de la renta INCOME. Hemos visto que estudiarel grafico de residuos frente a INCOME es un instrumento valido para ver indicios del problema.Para obtener el grafico en la ventana gretl : Modelo 1 pinchamos:

Graficos −→ Grafico de residuos −→ contra income

La figura obtenida se recoge en la Figura 6.12:

En el se aprecia que la dispersion de los residuos aumenta a medida que aumenta INCOME. Pareceque la varianza de EXPHLTH aumenta con INCOME

Para confirmarlo realizamos el contraste de White y los resultados del mismo son:

197

Page 214: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

-5

-4

-3

-2

-1

0

1

2

3

4

5

0 100 200 300 400 500 600 700

resi

duo

income

Residuos verus income

Figura 6.12: Residuos MCO versus RENTA

Contraste de heterocedasticidad de White estimaciones MCO

utilizando las 51 observaciones 1-51 Variable dependiente: uhat^2

VARIABLE COEFICIENTE DESV.TIP. ESTAD.T 2Prob(t > |T|)

0) const -1,40227 0,986956 -1,421 0,161839

2) income 0,0558410 0,0121349 4,602 0,000031 ***

4) sq_incom -5,87208E-05 2,10114E-05 -2,795 0,007445 ***

R-cuadrado = 0,421177

Estadıstico de contraste: TR^2 = 21,480039, con valor p =

P(Chi-cuadrado(2) > 21,480039) = 0,000022

Los resultados confirman que efectivamente existe heterocedasticidad en la perturbaciones del mo-delo (6.23). El estimador MCO obtenido no es de varianza mınima y la inferencia realizada deacuerdo a el no es valida.

Esta introduccion al problema de heterocedasticidad pretende que hayais aprendido que nunca se dauna especificacion por correcta sin un analisis de residuos. Que a pesar de que durante todo el cursohemos trabajado suponiendo que se cumplen unas hipotesis basicas lo habitual es que no sea ası yque estas situaciones hay que saber reconocerlas. Ampliaciones sobre este tema podeis encontrar enel Capıtulo 8 del Ramanathan del que nosotros solo hemos hecho un esbozo de su introduccion.

6.5.4. Contraste de ausencia de correlacion con gretl

Para mostrar como contrastar la ausencia de correlacion utilizaremos el archivo de datos Ramanat-han Data3-3. En este archivo de datos se dispone de 34 observaciones para el periodo 1960-1993(serie temporal por tanto) sobre el numero de resultados de patentes en miles, PATENTES, ysobre el gasto en I + D, en billones de dolares. La relacion a estudiar es:

198

Page 215: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

PATENTESt = α + β(I + D)t + ut (6.24)

Los resultados de la estimacion MCO son los siguientes:

Modelo 1: MCO, usando las observaciones 1960–1993 (T = 34)Variable dependiente: PATENTS

Coeficiente Desv. Tıpica Estadıstico t Valor p

const 34,5711 6,35787 5,4375 0,0000I+D 0,791935 0,0567036 13,9662 0,0000

Media de la vble. dep. 119,2382 D.T. de la vble. dep. 29,30583Suma de cuad. residuos 3994,300 D.T. de la regresion 11,17237R2 0,859065 R2 corregido 0,854661F (1, 32) 195,0551 Valor p (de F ) 3,64e–15Log-verosimilitud −129,2704 Criterio de Akaike 262,5408Criterio de Schwarz 265,5935 Hannan–Quinn 263,5818ρ 0,945182 Durbin–Watson 0,233951

Los resultados muestran que para un nivel de significatividad del 5 % el termino independiente essignificativamente distinto de cero y el gasto en I+D es una variable significativa para explicar lasaplicaciones de las patentes. Ademas existe un buen ajuste en terminos del R2 (85, 9%). Si anali-zamos los residuos MCO dibujandolos contra el tiempo obtenemos la Figura 6.13. En el podemosver un primer grupo de residuos positivos que va seguido de un grupo de residuos negativos, otrorapositivos y a continuacion negativos. Este comportamiento puede indicar la posible existencia deun proceso autorregresivo de primer orden y signo positivo.

-25

-20

-15

-10

-5

0

5

10

15

20

25

1960 1965 1970 1975 1980 1985 1990

resi

duo

Residuos de la regresión (= PATENTES observada - ajustada)

Figura 6.13: Residuos versus tiempo

199

Page 216: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Tambien podıamos haber dibujado los pares (ut−1, ut), ver Figura 6.14, en este caso los puntos losencontramos en el primer y tercer cuadrante indicando autocorrelacion de primer orden de signopositivo6.

-25

-20

-15

-10

-5

0

5

10

15

20

25

-20 -15 -10 -5 0 5 10 15 20

uhat

1

uhat1_1

Figura 6.14: Residuos en t versus residuos en t-1

Una vez analizados los graficos debemos realizar un contraste para cerciorarnos de la existencia delproblema. Entre los resultados de la regresion se nos muestra:

Estadıstico de Durbin-Watson = 0,233951

que utilizaremos para contrastar la existencia de un proceso autocorregresivo de primer orden ysigno positivo en la perturbacion, ya que DW ∈ (0, 2).

H0 : ρ = 0

Ha : ρ > 0 en ut = ρut−1 + εt εt ∼ (0, σ2ε )

Para ello solo necesitamos comparar el valor del estadıstico con dL y dU obtenidos en las tablascorrespondientes. Gretl nos proporciona estas tablas en la opcion Herramientas que aparece en laprimera pantalla una vez se abre el programa. La secuencia a pinchar es:

Herramientas −→ tablas estadısticas −→ senalar la tabla deseada

Gretl proporciona las tablas estadısticas de la normal, t ( t-student), chi-cuadrado, F (F-snedercor)y DW (Durbin-Watson). En nuestro caso pinchamos en esta ultima y se nos despliega una ventanaque nos solicita el tamano de muestra y numero de regresores. Se lo damos y pinchamos Aceptar.Como resultado gretl nos devuelve una ventana con el valor de dL y dU para el tamano de muestradado y diferentes valores de K ′. Para nuestro ejemplo obtenemos:

6Para guardar los residuos en la ventana de resultados de la estimacion pinchamosDatos del modelo −→ Anadir al conjunto de datos −→ residuosy para obtener su retardo ut−1 seleccionamos la variable residuos y pinchamos la secuenciaDatos −→ Anadir al conjunto de datos −→ retardos de las variables seleccionadas.

200

Page 217: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Valores crıticos al 5% del estadıstico de Durbin-Watson, n = 134, k = 1

dL = 1,7028

dU = 1,7329

Por tanto para nuestro ejemplo dL(T = 34,K ′ = 1) = 1, 39 y dU (T = 34, K ′ = 1) = 1, 51. ComoDW = 0, 233 < dL se rechaza la H0 y por tanto existe autocorrelacion positiva de primer orden obien puede deberse a una mala especificacion del modelo. Antes de buscar un estimador alternativoa MCO debemos explorar esta posibilidad e intentar especificar bien el modelo y volver a realizar unestudio de existencia de autocorrelacion para el modelo correctamente especificado. Si analizamosla relacion entre las variables exogena y endogena, Figura 6.15 vemos que esta no parece ser linealsi no cuadratica al menos en los dos ultimos tercios de la muestra, por lo que vamos a proponer lasiguiente relacion cuadratica:

PATENTESt = α + β(I + D)t + γ(I + D)2t + ut (6.25)

80

100

120

140

160

180

200

60 80 100 120 140 160

Pat

ente

s

I+D

PATENTES con respecto a I+D, observada y ajustada

ajustadoactual

Figura 6.15: Variable endogena versus exogena

Los resultados de su estimacion MCO son:

PATENTESt(t-estad)

= 121, 57(5,23)

− 0, 85(-1,98)

(I + D)t + 0, 007(3,85)

(I + D)2t R2 = 0, 90 DW = 0, 28 (6.26)

Las variables son significativas para un nivel de significatividad del 5 % y el ajuste es bueno, 90%.Sin embargo, para el modelo (6.26) sigue existiendo autocorrelacion positiva de primer orden ya queDW = 0, 28 < dL(T = 34,K ′ = 2) = 1, 33. Si miramos el grafico de residuos de esta relacion, Figura6.16, encontramos las misma evolucion cıclica de grupos de residuos positivos-negativos-positivos.Por tanto una vez especificado correctamente el modelo se sigue manteniendo la autocorrelacion enlas perturbaciones. El modelo (6.25) debe ser estimado por un estimador alternativo a MCO quesea de varianza mınima y permita realizar inferencia valida.

201

Page 218: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

-20

-15

-10

-5

0

5

10

15

20

1960 1965 1970 1975 1980 1985 1990

resi

duo

Residuos de la regresión (= PATENTS observada - ajustada)

Figura 6.16: Residuos modelo (6.20) versus tiempo

6.5.5. Prediccion en gretl

Para hacer prediccion con gretl debemos incorporar los nuevos datos (Xp) a la base de datos me-diante

Datos → Seleccionar todos

A continuacion, pincharemos la opcion

Datos → Anadir Observaciones

indicando el numero de observaciones que queremos anadir, en este caso 1. En la fila correspon-diente incluimos los valores de las variables explicativas en el periodo de prediccion, en este caso laobservacion N +1, incorporando cada observacion en la casilla correspondiente. Si no incorporamosel valor para la variable Yi que es la que vamos a predecir, gretl nos mostrara un aviso (Atencion:habıa observaciones perdidas). Podemos simplemente ignorarlo y darle a aceptar.

Posteriormente, estimaremos el modelo sin considerar esta nueva observacion. Para ello, tenemosque especificar el rango muestral, es decir, en la opcion

Muestra → Establecer rango

especificaremos del rango de observaciones de la muestra para estimar el modelo, en nuestro casode la 1 a la N y elegimos Aceptar.

Estimaremos el modelo por MCO y en la ventana de los resultados elegimos

Analisis → Predicciones

En la nueva ventana podemos determinar el dominio de prediccion, es decir el Inicio y Fin que eneste caso es en ambos la observacion numero N + 1, y tambien cuantas observaciones se quierenrepresentar antes de la prediccion.

Utilizando los resultados obtenidos en el Ejemplo 5.10 se va a predecir la variable PRICE. Losresultados que muestra Gretl son los siguientes:

202

Page 219: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Para intervalos de confianza 95 %, t(10, ,0, 025) = 2, 228

Observaciones price prediccion Desv. Tıpica Intervalo de 95 %

15 500,00 479,91 55,390 356,49 603,32

Estadısticos de evaluacion de la prediccion

Error medio 20,095Error cuadratico medio 403,79Raız del Error cuadratico medio 20,095Error absoluto medio 20,095Porcentaje de error medio 4,0189Porcentaje de error absoluto medio 4,0189U de Theil 0

150

200

250

300

350

400

450

500

550

600

650

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

pricepredicción

Intervalo de confianza 95 por ciento

El grafico que se obtiene junto a los resultados muestra la serie de precios (P) observada en colorrojo y estimada con el modelo para las 14 observaciones anteriores a la prediccion y la prediccionen color azul, junto con su intervalo de confianza en color verde.

La prediccion por punto del precio de una vivienda con estas caracterısticas es de 479, 905 miles deeuros, mientras que la prediccion por intervalo con un nivel de confianza del 95% es (356, 5; 603, 3)en miles de euros, por lo que el precio que nos piden, que era de 500 miles de euros por la vivienda,esta dentro del intervalo. Este precio para una vivienda de esas caracterısticas se aceptarıa comorazonable dado nuestro modelo y la informacion muestral utilizada para su estimacion, con un nivelde confianza del 95 %.

203

Page 220: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

6.6. Bibliografıa del tema

Referencias bibliograficas basicas:

• Teorica:

[1] Gujarati, D. y Porter, D.C. (2010). Econometrıa. Editorial McGraw-Hill, Madrid. 5a edicion.

[2] Newbold, P., Carlson, W.L. y Thorne, B. (2008). Estadıstica para administracion y economıa.Prentice Hall. Madrid.

[3] Wooldridge, J.M. (2006). Introduccion a la Econometrıa. Ed. Thomson Learning, 2a edicion.

[4] Ruiz Maya, L. y Martın Pliego, F.J. (2005). Fundamentos de inferencia estadıstica, 3a edicion,Editorial AC, Madrid.

• Ejercicios con gretl:

[1] Ramanathan, R. (2002), Instructor’s Manual to accompany, del libro Introductory Econometricswith applications, ed. South-Western, 5th edition, Harcourt College Publishers.

[2] Wooldridge, J. M. (2003), Student Solutions Manual, del libro Introductory Econometrics: Amodern Approach, ed. South-Western, 2nd edition.

Referencias Bibliograficas Complementarias:

[1] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regulez, M.; Zarraga, A. y Zubia, M. (2009). Analisis deregresion con gretl. Open Course Ware. UPV-EHU. (http : //ocw.ehu.es/ciencias− sociales− y −juridicas/analisis− de− regresion− con− greti/Courselisting).

[2] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regulez, M.; Zarraga, A. y Zubia, M. (2009). EconometrıaBasica Aplicada con Gretl. Sarriko On Line 8/09. http://www.sarriko-online.com. Publicacion on-line de la Facultad de C.C. Economicas y Empresariales.

[3] Esteban, M.V. (2007). Estadıstica Actuarial: Regresion. Material docente. Servicio de Publica-ciones.

[4] Esteban, MV (2008). Estadıstica Actuarial: Regresion Lineal, Sarriko On Line 3/08. Publica-cion on-line de la Facultad de CC. Economicas y Empresariales, UPV/EHU. http://www.sarriko-online.com.

[5] Esteban, M.V. (2007). Coleccion de ejercicios y examenes. Material docente. Servicio de Publi-caciones.

[6] Fernandez, A., P. Gonzalez, M. Regulez, P. Moral, V. Esteban (2005). Ejercicios de Econometrıa.Editorial McGraw-Hill.

[7] Greene, W. (1998), Analisis Econometrico, Ed. Prentice Hall, 3a edicion.

[8] Ramanathan, R. (2002), Introductory Econometrics with applications, Ed. South-Western, 5th.edition.

[9] Verbeek, M. (2004). A Guide to Modern Econometrics. Wiley.

204

Page 221: Estad´ıstica Actuarial y Análisis de Regresión

Tema 7

Guıa para el desarrollo de un proyectoempırico

7.1. Caracterısticas basicas del proyecto

Esta seccion desarrolla una guıa basica para estructurar la realizacion de un proyecto. Es del todorecomendable la lectura del Capıtulo 19 del libro Introducion a la Econometrıa, de Wooldridge, J. M.(2003), que aparece en las referencias bibliograficas. Los seminarios y tutorıas personalizadas de losequipos individuales serviran para marcar el ritmo en la evolucion del proyecto y para que el profesortutorice tanto al equipo como individualmente a cada uno de los integrantes en su aprendizaje. Nohay que perder de vista que el proyecto debe de contribuir a obtener las competencias especıficasde la asignatura en su totalidad aunque se incida en la cuarta en cuanto a su evaluacion.

• Estructura basica del trabajo:

1. Portada: Tıtulo del trabajo y nombres y apellidos del autor/autores.

2. Introduccion: Presenta la motivacion principal del trabajo, el problema a analizar yposibles referentes en la literatura economica. Por ejemplo, puede ayudar plantearse unapregunta, muy concreta, sobre un fenomeno economico. Por ejemplo, ¿como afecta a laoferta laboral femenina y casada el nivel salarial, la educacion y/o el numero de hijos?

3. Revision de la bibliografıa: En muchas ocasiones existe literatura en el tema elegido.Si es ası debe de ser incluida, en un resumen breve.

4. Datos: Se describen los datos que componen la muestra a utilizar y las fuentes dedonde han sido obtenidos. Se describen las variables a utilizar en el modelo junto con lasunidades de medida. Finalmente se realiza un analisis descriptivo basico.

5. Modelo: Se introduce el modelo de partida propuesto, las variables que entran en elmodelo, el signo esperado de los coeficientes. Tambien si hay diferentes alternativas a laespecificacion propuesta que se quieran contrastar o analizar.Es claro que el modelo inicial evolucionara a lo largo del trabajo. Por lo tanto en eltrabajo y la exposicion se debe mostrar los puntos mas importantes de esta evolucion,sin ser exhaustivos en la repeticion de interpretacion de signos y coeficientes.

205

Page 222: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

6. Resultados empıricos: Se muestran y explican razonadamente los resultados obteni-dos aplicando las tecnicas vistas en clase que se crean oportunas: analisis de residuos,contrastes sobre las hipotesis basicas, eleccion de metodos alternativos de estimacion yrealizacion de contrastes sobre los parametros de interes del modelo. Al final del trabajose crea un apendice en el que incluyen todos los outputs de gretl y graficos que se hayanobtenido a lo largo de todo el trabajo.

7. Conclusiones: Por ultimo, al final del trabajo, se redactan las conclusiones del trabajo,teniendo en cuenta su objetivo y la especificacion y estimacion del modelo despues delanalisis econometrico. En esta seccion se explica lo realizado en conjunto y se razona sies el caso sobre la especificacion final elegida. Este apartado es imprescindible.

8. Bibliografıa: Recoge las referencias completas citadas a lo largo del texto. Fuentes deconsultas bibliograficas y de datos, ası como referencias a paginas web si es que se utilizan.

• Cronologıa: El proyecto debe evolucionar a lo largo del curso, no debe ser un trabajo realizadoen los ultimos diez dıas antes de su exposicion publica por ello es importante que los equipos semarquen una cronologıa de acuerdo a las directrices marcadas en lo seminarios que se lleven acabo en el aula. Como ya se ha indicado los seminarios y tutorıas personalizadas de los equiposserviran para marcar el ritmo en la evolucion del proyecto y para que el profesor tutorice tantoal equipo como individualmente a cada uno de los integrantes en su aprendizaje. No hay queperder de vista que el proyecto debe de contribuir a obtener las competencias especıficas dela asignatura en su totalidad aunque se incida en la cuarta en cuanto a su evaluacion.

• Exposicion: En general el formato de la exposicion puede ser elegido libremente, transpa-rencias, power point etc. Habra de tenerse en cuenta que todos los alumnos intervienen enla exposicion y que el profesor realizara preguntas a los miembros del grupo sobre el trabajorealizado.

• Datos a utilizar: Los que se quieran, siempre y cuando se refiera la referencia en el trabajode la fuente utilizada.

1. Se pueden utilizar datos de los ficheros disponibles en Gretl siempre y cuando el trabajono sea replicar un ejercicio que ya este en estos libros.

2. Bases de datos disponibles en Gretl sobre servidorArchivo ⇒ Bases de datos ⇒ sobre servidor

3. Bases de datos disponibles en Biblioteca.

4. Otras direcciones de interes y bases de datos:Eurostat: http://epp.eurostat.cec.eu.int/Banco Mundial: http://devdata.worldbank.org/Fondo Monetario Internacional: http://www.imf.org/OCDE: http://www.oecd.org/Banco Central Europeo: http://www.ecb.int/Economic and Social Data Services: Guıa a Recursos internacionales de datos de libreacceso, http://www.esds.ac.uk/international/access/access.asp

206

Page 223: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Banco de Espana: http://www.bde.es/Instituto Nacional de Estadıstica: http://www.ine.es/Eustat: http://www.eustat.es/

• Algunos consejos para la preparacion del trabajo:

1. Primero es importante pensar en el modelo o relacion basica que se quiere analizar juntocon los datos a emplear. Es aconsejable estudiar previamente los datos de las variablesque entran en el modelo, sus estadısticos descriptivos, graficos etc.

2. Tambien es importante la forma de presentar los resultados. Una vez realizados los di-versos analisis, estimaciones etc., se pone en comun todos los resultados y se seleccionalo importante. Una vez elegido lo mas relevante de todo lo realizado esta informacion sepresenta de forma que sea facil comparar y valorar los resultados obtenidos.

3. No mezclar diferentes fuentes y tipos de letra en el texto.

4. No utilizar abreviaciones coloquiales, tipo SMS.

5. Todas las figuras y tablas deben estar numeradas. Anadir una pequena leyenda tanto alos graficos como a las tablas explicando que recogen (por ejemplo, Figura 2: Grafico delos residuos contra el tiempo). Se puede poner arriba o abajo de la figura pero siemprehacerlo de la misma forma.

6. Las figuras y tablas tambien pueden ir en un apendice y hacer referencia en el texto conla numeracion utilizada.

7. Numerar todas las paginas.

8. Es recomendable que se revisen las distintas versiones del trabajo antes de su presenta-cion, cuidando que no haya errores gramaticales.

• Como presentar y comparar resultados:

A continuacion se va a mostrar la presentacion de resultados de tres especificaciones alterna-tivas y tres metodos de estimacion como guıa de presentacion de resultados.

Vamos a estimar las siguientes especificaciones o modelos alternativos para explicar el preciode la vivienda:

Modelo A PRICEi = β1 + β2 SQFTi + ui

Modelo B PRICEi = β1 + β2 SQFTi + β3 BEDRMSi + ui

Modelo C PRICEi = β1 + β3 BEDRMSi + β4 BATHSi + ui

Estos tres modelos difieren en las variables explicativas incluidas.

La Tabla 7.1 muestra los coeficientes estimados por MCO y distintos estadısticos asociadosa la cuatro especificaciones o modelos alternativos anteriores. Esta forma de presentar losresultados puede estar mas indicada cuando, como ahora, se presentan distintas especificacio-nes con la misma variable dependiente. En la parte de abajo de la tabla, tambien para cadauna de las especificaciones, podeis incluir los valores muestrales de los estadısticos de diversos

207

Page 224: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

Tabla 7.1: Modelos estimados para el precio de la vivienda PRICE

Variable dependiente: PRICEVariable Modelo A Modelo B Modelo C

CONSTANT 52,351 121,179 27,2633(1,404) (1,511) (0,182)

SQFT 0,13875 0,14831(7,407) (6,993)

BEDRMS -23,911 -10,1374(-0,970) (-0,216)

BATHS 138,795(2,652)

Suma de cuadrados residual 18273,6 16832,8 55926,4R2 0,821 0,835 0,450706R2 0,806 0,805 0,350834F de significacion conjunta 54,861 27,767 4,51285Grados de libertad 12 11 11

Los valores entre parentesis son los correspondientes estadısticos t de significatividad individual sin tener en cuentala posible heterocedasticidad y o autocorrelacion.

contrastes bien de heterocedasticidad, autocorrelacion, seleccion de modelos etc. si los habeisrealizado para cada modelo estimado.

Si se considera estimar por distintos metodos la misma especificacion, puede ayudar presentarlos resultados como en la Tabla 7.2:

Tabla 7.2: Funcion de Salarios

Variable dependiente: Salarios Privados W p

Explicativas MCO Cochrane-Orcutt Hildreth-Lu

const 1, 497 1, 5 1, 53∗

(1, 27) (1, 27) (1, 32)Xt 0, 439∗ 0, 439∗ 0, 434∗

(0, 032) (0, 039) (0, 075)Xt−1 0, 146∗ 0, 147∗ 0, 151∗

(0, 037) (0, 043) (0, 074)At 0, 13∗ 0, 13∗ 0, 132∗

(0, 032) (0, 032) (0, 035)

Entre parentesis se muestran las desviaciones tıpicas estimadas. En el caso de MCO son robustas a autocorrelacion.El sımbolo ∗ denota que es significativo al 5 %. El tamano muestral es T = 80 datos trimestrales.

De esta forma es mas facil comparar los resultados a la vez que mostrarlos en una transparenciaa la hora de la presentacion.

208

Page 225: Estad´ıstica Actuarial y Análisis de Regresión

Bibliografıa

Referencias Bibliograficas Basicas:

• Teorica:

[1] Gujarati, D. y Porter, D.C. (2010). Econometrıa. Editorial McGraw-Hill, Madrid. 5a edicion.

[2] Newbold, P., Carlson, W.L. y Thorne, B. (2008). Estadıstica para administracion y economıa.Prentice Hall. Madrid.

[3] Wooldridge, J.M. (2006). Introduccion a la Econometrıa. Ed. Thomson Learning, 2a edicion.

[4] Ruiz Maya, L. y Martın Pliego, F.J. (2005). Fundamentos de inferencia estadıstica, 3a edicion,Editoral AC, Madrid.

• Ejercicios con gretl:

[1] Ramanathan, R. (2002), Instructor’s Manual to accompany, del libro Introductory Econometricswith applications, ed. South-Western, 5th edition, Harcourt College Publishers.

[2] Wooldridge, J. M. (2003), Student Solutions Manual, del libro Introductory Econometrics: Amodern Approach, ed. South-Western, 2nd edition.

Referencias Bibliograficas Complementarias:

[1] Alonso, A., Fernandez, J. y Gallastegui, I. (2005), Econometrıa, ed. Pearson: Prentice Hall.

[2] Dougherty, Ch. (2006), Introduction to Econometrics, 3rd. Ed., Oxford University Press.

[3] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regulez, M.; Zarraga, A. y Zubia, M. (2009). Analisis deregresion con gretl. Open Course Ware. UPV-EHU. (http : //ocw.ehu.es/ciencias− sociales− y −juridicas/analisis− de− regresion− con− greti/Courselisting).

[4] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regulez, M.; Zarraga, A. y Zubia, M. (2009). EconometrıaBasica Aplicada con Gretl. Sarriko On Line 8/09. http://www.sarriko-online.com. Publicacion on-line de la Facultad de C.C. Economicas y Empresariales.

[5] Esteban, M.V. (2007). Estadıstica Actuarial: Regresion. Material docente. Servicio de Publica-ciones. Web de la asignatura.

[6] Esteban, MV (2008). Estadıstica Actuarial: Regresion Lineal, Sarriko On Line 3/08. Publica-

209

Page 226: Estad´ıstica Actuarial y Análisis de Regresión

Estadıstica Actuarial: Analisis de Regresion

cion on-line de la Facultad de CC. Economicas y Empresariales, UPV/EHU. http://www.sarriko-online.com.

[7] Esteban, M.V. (2007). Coleccion de ejercicios y examenes. Material docente. Servicio de Publi-caciones. Web de la asignatura.

[8] Fernandez, A., P. Gonzalez, M. Regulez, P. Moral, V. Esteban (2005). Ejercicios de Econometrıa.Editorial McGraw-Hill.

[9] Greene, W. (1998), Analisis Econometrico, Ed. Prentice Hall, 3a edicion.

[10] Gujarati, D. (2004), Econometrıa, ed. McGraw-Hill, 4a edicion.

[11] Ramanathan, R. (2002), Introductory Econometrics with applications, Ed. South-Western, 5th.edition.

[12] Verbeek, M. (2004). A Guide to Modern Econometrics. Wiley.

210