diplomado en probabilidad y estadÍstica - …€¦ · quiera saber si hay una relación...

50
DIPLOMADO EN PROBABILIDAD Y ESTADÍSTICA MÓDULO III FUNDAMENTOS Y MÉTODOS DE LA ESTADÍSTICA Gerardo Varela H. Facultad de Ciencias, UNAM 21 de mayo-14 junio de 2010

Upload: phamdang

Post on 30-Sep-2018

226 views

Category:

Documents


0 download

TRANSCRIPT

DIPLOMADO EN PROBABILIDAD Y ESTADÍSTICA

MÓDULO III FUNDAMENTOS Y MÉTODOS DE LA ESTADÍSTICA

Gerardo Varela H.

Facultad de Ciencias, UNAM

21 de mayo-14 junio de 2010

Índice

Tema 1. Introducción al proceso de análisis estadístico.......................................................................... 1 1.1. Historia y estado actual de la estadística. ................................................................................. 1 1.2. Concepto de población, muestra, censo y muestreo................................................................. 3 1.3 Tipos de estadística y el proceso de análisis estadístico............................................................. 4

1.3.1. Estadística descriptiva y análisis exploratorio de datos................................................. 4 1.3.2. Estadística inferencial.................................................................................................... 5 1.3.3. Proceso de análisis estadístico....................................................................................... 5

1.4. Datos, variables y escalas de medición. .................................................................................... 6 1.5. Tipos de protocolos de investigación. ....................................................................................... 7 1.6. Ejercicios propuestos................................................................................................................. 8

Tema 2. Análisis exploratorio de datos..................................................................................................... 9 2.1. Tablas y gráficas. ....................................................................................................................... 9

2.1.1. Tablas de frecuencias. ..................................................................................................10 2.1.2. Gráficas para tablas de frecuencias: datos categóricos y datos numéricos...................13 2.1.3. Gráficas para datos numéricos sin agrupar...................................................................18

2.2. Medidas descriptivas. ...............................................................................................................22 2.2.1 Medidas de tendencia central. ......................................................................................22 2.2.2. Medidas de posición.....................................................................................................23 2.2.3. Medidas de dispersión. .................................................................................................24

2.3. Ejercicios propuestos. ...............................................................................................................25

Tema 3. Estimación puntual.................................................................................................................... 26 3.1. Estadísticos y estimadores. ..................................................................................................... 26 3.2. Criterios de evaluación de estimadores................................................................................... 27

3.2.1. Insesgamiento.............................................................................................................. 27 3.2.2. Eficiencia..................................................................................................................... 28 3.2.3. Consistencia. ............................................................................................................... 29 3.2.4. Suficiencia ................................................................................................................... 29

3.3. Métodos de construcción de estimadores. .............................................................................. 30 3.3.1. Momentos.................................................................................................................... 30 3.3.2. Máxima verosimilitud. ................................................................................................ 31 3.3.3. Mínimos cuadrados. .................................................................................................... 33

3.4. Estimación insesgada.............................................................................................................. 34 3.5. Ejercicios propuestos. ............................................................................................................. 35

Tema 4. Estimación por intervalo........................................................................................................... 36 4.1. Intervalo aleatorio e intervalo de confianza............................................................................ 36 4.2. Métodos para construir un intervalo de confianza. ................................................................. 36

4.2.1. Método pivotal. ........................................................................................................... 36 4.2.2. Método general............................................................................................................ 38

4.3. Ejercicios propuestos. ............................................................................................................. 39

Tema 5. Prueba de hipótesis .................................................................................................................... 40 5.1. Hipótesis estadística: simple y compuesta. ............................................................................. 40 5.2. Región crítica.......................................................................................................................... 40 5.3. Errores tipo I y II. ................................................................................................................... 41 5.4. Función potencia..................................................................................................................... 41 5.5. Lema de Neyman-Pearson. ..................................................................................................... 41 5.6. Prueba uniformemente más potente........................................................................................ 44 5.7. Prueba del cociente de verosimilitud. ..................................................................................... 45 5.8. Ejercicios propuestos. ............................................................................................................. 47

Bibliografía ............................................................................................................................................... 48

1

Módulo III: Fundamentos y métodos de la estadística

Gerardo Varela1 1. Introducción al proceso de análisis estadístico El término estadística es ampliamente usado por diversos sectores activos de la sociedad. Sin embargo, hay una gran diferencia entre el sentido del término cuando se utiliza en el lenguaje corriente (generalmente referido a cifras) y lo que la estadística significa como ciencia. Son diversos los vocablos que se citan como antecedentes del término estadística, siendo los de mayor mención los siguientes: - Status (latín), que significa situación, posición, estado. - Statera (griego), que quiere decir balanza, ya que la estadística mide o pesa hechos. - Staat (alemán), que se refiere a Estado como expresión de unidad política superior. 1.1. Historia y estado actual de la estadística Es difícil imaginar un organismo social, sea cual fuere la época, sin la necesidad, casi instintiva, de recoger aquellos hechos que aparecen como actos esenciales de la vida, y así podemos pensar que la estadística se convirtió en una aritmética estatal para asistir al gobernante que necesitaba conocer la riqueza y el número de los súbditos con el objeto de recaudar impuestos o presupuestar la guerra. César Augusto decretó que todos los súbditos tenían que tributar y exigió que todos se presentaran al estadístico más cercano que era entonces el recaudador de impuestos. Guillermo el Conquistador ordenó un censo de las tierras de Inglaterra con fines de tributación y del servicio militar. Este documento se llamó Domesday Book. Sin embargo, con mucha anterioridad a estos casos hay evidencias del uso de la estadística. En los monumentos egipcios hay testimonios de que los movimientos de poblaciones eran seguidos por medio de censos. La Biblia cita que Moisés hizo un censo de los israelitas en el desierto, como también que David llevó un censo. En China, Confucio narra cómo un rey llamado Yao, unos 3,000 años a. C., hizo levantar un recuento agrícola, industrial y comercial del país. Especial mención ameritan los estudios Renta Vitalicia, durante el Imperio Romano, los cuales suponen el cálculo de la vida media a distintas edades; y los documentos sobre los Itinerarios en los que se describen las distancias entre las diversas localidades y el desarrollo de las vías de comunicación. Hacia mediados del siglo XVII en Alemania comenzó a tomar fuerza una disciplina orientada a la descripción de las cosas notables de Estado. Hermann Conring (1600-1681) la introduce en un curso de ciencia política. Más tarde Godofredo Achewald (1719-1772) la considerarla como disciplina independiente y la introduce como una asignatura universitaria con el nombre de ESTADÍSTICA, encargada de la descripción de las cosas del Estado. Paralelamente en Inglaterra se desarrolla la escuela conocida con el nombre de los aritméticos políticos y en Francia la escuela probabilística. La escuela de los “Aritméticos políticos” tuvo como propósito fijar en números aquellos fenómenos sociales y políticos buscados por los empíricos, intentando buscar leyes cuantitativas que regularan los comportamientos sociales. Graunt (1620-1674) realizó investigaciones estadísticas sobre poblaciones y por ello se le señala como el iniciador de la tendencia conocida con el nombre de estadística investigadora, la cual se oponía a la postura universitaria alemana que se conoce con el nombre de estadística descriptiva. La escuela probabilística, conocida también como enciclopedicotemática, basó su desarrollo en el empleo de la matemática particularizada en el cálculo de probabilidades como instrumento de investigación. El cálculo de probabilidades nace con Bias Pascal (1623-1662) y Pedro de Fermat (1601-1665) al tratar de dar soluciones a problemas relacionados con juegos de azar propuestos por Antonio Gambaud, más conocido con el título nobiliario de Caballero de Meré. A partir de 1 Profesor en la UNAM y en la UAM-I.

2

Pascal fueron muchos los matemáticos insignes que al apoyarse en la teoría de la probabilidad formularon la teoría estadística y su aplicación práctica. Un hecho que contribuyó más al desarrollo de la estadística moderna es la aparición de la distribución normal. La ecuación de la distribución fue publicada por vez primera en 1733 por De Moivre, pero debido a su incapacidad para aplicar sus resultados a observaciones experimentales su trabajo permaneció inédito hasta cuando Karl Pearson lo encontró en una biblioteca en 1924. Sin embargo, Laplace (1749-1827) y Gauss (1777-1855) obtuvieron cada uno por su lado el mismo resultado que había conseguido De Moivre. Francis Galton (1822-1911), como su primo Charles Darwin, se dedicó al estudio de la herencia, a la cual aplicó métodos estadísticos. Entre sus aportes más importantes se cuenta el desarrollo de la regresión y la correlación. La obra de Galton estimuló a Karl Pearson (1857-1936) para que profundizara en sus investigaciones y fundó así el periódico Biométrica, que ha influido profundamente en el desarrollo de la estadística. Muchos métodos que forman parte del glosario del análisis estadístico son obra de Pearson y su obra cumbre es la creación de la distribución ji cuadrado. Debido a que Pearson se ocupó fundamentalmente de muestras grandes, la correspondiente teoría no se ajustaba para el estudio basado en muestras pequeñas. Entre los experimentadores que vivían este problema estaba William Gosset (18761937), quien estudiaba con Pearson. Gosset, quien escribía con el seudónimo de "Student", dedujo la distribución t solucionando el problema del estudio de pequeñas muestras. Ronald Fisher (1890-1962) hizo numerosas e importantes contribuciones a la estadística, sobre todo en su aplicación en la agricultura, biología y genética. A Fisher se debe el hallazgo de la conocida distribución F. J. Neyman, 1894 y E. S. Pearson, 1895, presentaron una teoría sobre la verificación o prueba de hipótesis estadística, entre 1936 y 1938. La teoría estimuló la investigación y fueron varios los resultados de uso práctico. Finalmente, mencionemos a Abraham Wald (1902-1950), quien en sus libros Sequential Analysis y Statistical Decision Functions, presenta conquistas estadísticas orientadas en el campo de la genética.

En la actualidad, la estadística se ha convertido en materia decisiva para estudiantes de ciencias naturales y sociales, razón que ha hecho que se incluya en sus planes de estudio. La economía moderna se ha tornado tan compleja que la incertidumbre en cuanto a las futuras operaciones de la empresa se acrecientan; sin embargo, las firmas empresariales deben tomar decisiones pese a tales incertidumbres. La decisión sólida y razonada exige análisis e interpretación cuidadosos de la información sobre hechos, y a este respecto las técnicas estadísticas han demostrado ser especialmente útiles. En las actividades de hoy ya no se considera la estadística como el mero registro de ventas y de contabilidad, sino más bien como una parte integrante en la decisión administrativa. En la investigación de mercados y en la previsión de las tendencias económicas, por ejemplo, es manifiesta la necesidad de utilizar el muestreo, el análisis de regresión y otros métodos estadísticos. En el campo de la educación, la estadística también desempeña un papel de importancia. Un educador tal vez quiera saber si hay una relación significativa entre las puntuaciones de un test de aptitud escolar y las calificaciones promedio de un grupo de estudiantes. Si existe una relación semejante, se podría predecir la calificación promedio de un estudiante con base en su puntuación en el test de aptitud. Así mismo, es posible comparar dos métodos de enseñanza diferentes para determinar sus eficacias relativas En biología y agronomía las técnicas estadísticas se han empleado desde hace mucho tiempo, en particular para estudiar el efecto de los tipos de semillas, de los insecticidas y de los fertilizantes en las cosechas. La producción de ganado de mejor calidad con el desarrollo de planes especiales de alimentación y de cría también ha sido resultado de estudios que han tenido como fondo un análisis estadístico. La medicina reconoce los efectos secundarios o la eficacia de medicamentos y mejora los métodos de control de la propagación de enfermedades con base en las técnicas estadísticas. También se puede aplicar con buenos resultados en la genética, la silvicultura y la ecología. Todo lo anterior nos señala por qué la estadística se recomienda y a veces se exige a los estudiantes de estas ciencias. La estadística ha encontrado también una aplicación creciente en la física y la química, ciencias en las que se ha utilizado para contrastar hipótesis con base en los datos experimentales. El trabajo de investigación del físico ha hecho crecer el campo del diseño experimental, que es una importante técnica estadística. En la ingeniería, el uso de los instrumentos estadísticos para controlar la calidad de la producción ha sido una experiencia fructífera desde hace varios decenios.

3

El desarrollo del campo de la computación ha contribuido a la expansión de las aplicaciones de las técnicas estadísticas en nuevos y más complejos problemas. Al tiempo que se han fortalecido y ampliado los métodos de análisis estadísticos, particularmente al hacer uso de la teoría de la simulación. No siempre se hace buen uso de la metodología estadística en cuanto al análisis de los datos. Unas veces por desconocimiento y otras por descuido del investigador. Uno de los errores que se cometen con mayor regularidad es hacer conclusiones basadas en datos muestrales no representativos. Quizás el más sonado caso de este tipo de error fue el que cometió el Literary Digest sobre los resultados de las elecciones presidenciales en los Estados Unidos en 1936. El Digest envió papeletas de voto a una muestra de votantes escogidos mediante los registros telefónicos de su propia lista de suscriptores. Las papeletas devueltas hacían prever que Franklin D. Roosevelt obtendría 161 votos electorales y su contendor Alfred Landon lo aplastaría por 370 votos. La elección final arrojó como resultado 523 votos electorales para Roosevelt y 8 para Landon. Roosevelt ganó en 46 de los 48 estados, con victoria aplastante en muchos de ellos. Lo erróneo estuvo en que la muestra no fue representativa, ya que durante el año de la depresión de 1936 las personas que podían darse el lujo de tener teléfonos o suscripciones de revistas pertenecían a núcleos económicos superiores y éstos sí estaban en su mayoría en favor de Landon, pero los votantes favorecieron a Roosevelt. Esta salida en falso del Digest contribuyó a que dejara de existir. Otro error que se comete es aquel en el cual las conclusiones están basadas en datos insuficientes. Suponga que un vendedor de seguros hace llamadas de casa en casa para vender cierta póliza de seguros. Afirma que el 25% de sus llamadas resultarán en ventas efectivas porque hizo una venta el sábado por la tarde cuando realizó cuatro llamadas, lo cual da la impresión de que el 25% de todas las llamadas tendrán éxito, cosa que naturalmente no es así. Su información sería más confiable si dijera, por ejemplo, que de 100 llamadas, 25 dieron fruto; y mejor aún, si dijera que de 1,000 llamadas, 250 terminaron en ventas. Así pues, cuando se utilice un porcentaje es aconsejable tener en cuenta el total de casos u observaciones para garantizar la fiabilidad. Como aún no se han presentado los diversos métodos de la estadística, la presentación y examen de los abusos de ésta quedan limitados. Finalmente diríase que todo procedimiento estadístico puede emplearse de modo engañoso o con interpretaciones deficientes de los resultados. Sin embargo, no es difícil evitar tales engaños o falsas interpretaciones. 1.2. Concepto de población, muestra, censo y muestreo El estudio estadístico de una situación con propósitos inferenciales se centra en dos conceptos fundamentales: población y muestra, los cuales serán definidos a continuación. Definición 1.1. Una población es el conjunto formado por todos los valores posibles que puede asumir la variable objeto de

estudio. Así por ejemplo, en un estudio sobre la preferencia de los votantes en una elección presidencial, la población consiste en todas las respuestas de los votantes registrados. Pero el término no sólo está asociado a la colección de seres humanos u organismos vivos. Y tenemos así que si se va a hacer una investigación de las ventas anuales de los supermercados, entonces las ventas anuales de todos los supermercados constituyen así mismo la población. Es bueno tener en cuenta que el término población se interpreta de dos maneras cuando se hace un estudio estadístico, a saber: i) todos los posibles valores de la variable (todos los datos referentes a una característica), y ii) el conjunto de todas las personas u objetos sobre los que actúa la variable de interés, es decir todas las entidades susceptibles de medirles la característica de interés, cada una de las cuales se conoce como unidad de estudio. Por tanto, no es extraño escuchar expresiones tales como, “se hizo un estudio de los niveles de ingreso de la población trabajadora norteamericana”, entendiéndose con ello que el elemento estadístico objeto de análisis fue el registro numérico de los ingresos. Definición 1.2. Una muestra es cualquier subconjunto de la población, escogido al seguir ciertos criterios de selección. La muestra es el elemento básico sobre el cual se fundamenta la posterior inferencia acerca de la población de donde se ha tomado. Por ello, su selección debe hacerse siguiendo ciertos procedimientos que son ampliamente tratados en la parte de la estadística llamada Teoría de muestreo. El concepto de muestra tiene también las dos connotaciones que hemos señalado para la población.

4

Las características de una población se resumen para su estudio generalmente mediante lo que se denominan parámetros; éstos a su vez se toman o consideran como valores verdaderos de la característica estudiada. Por ejemplo, la proporción de todos los clientes que declaran cierta preferencia por una marca particular de un producto dado, es un parámetro de la población de todos los clientes; es la verdadera proporción de la población. Igualmente, la media aritmética de las cuentas corrientes de los clientes de un banco determinado constituye un parámetro de la población de las cuentas de los clientes de ese banco. Cuando la característica de la población estudiada se reduce a una muestra el resumen de esa característica se hace mediante una estadística, estadístico o estadígrafo. Así por ejemplo, si se toman 100 de todos los posibles clientes y se les entrevista para ver si están a favor de una marca particular de un producto, estos 100 clientes constituyen una muestra. Si hay 70 clientes que prefieren dicha marca entonces la proporción muestral será 0.70 y constituirá una estadística. De igual manera si se escogen 1,000 cuentas del total de las cuentas corrientes; las 1,000 observaciones conforman una muestra y el promedio aritmético de estas cuentas una estadística. Análogamente, la obtención de todos los datos poblacionales o sólo de algunos de ellos determina si estamos frente a un censo o ante un muestreo. Definición 1.3. Un censo es un procedimiento mediante el cual se hacen observaciones y se obtienen datos para toda unidad

de estudio existente, de acuerdo con los objetivos del estudio. Un censo produce siempre un conjunto de datos que consta de al menos una población estadística.

Definición 1.4. Un muestreo es un estudio parcial en el cual se hacen observaciones y se obtienen datos para sólo algunas de

entre todas las unidades de estudio existente. Cuando el número de unidades de estudio es muy grande, es probable que no se alcance a cubrir con éxito la observación exhaustiva de todas las unidades. Sin embargo, cualquier intento razonablemente exitoso para recolectar datos en toda una población es referido como censo. A continuación se mencionan algunas razones por las que muchas veces se llevan a cabo muestreos en vez de censos.

1. El costo de recabar y procesar datos es menor cuanto menos unidades de estudio sean revisadas. 2. A veces un censo es físicamente imposible, como cuando se muestrea un proceso de producción. 3. Un censo no tiene sentido cuando la medición es destructiva, como en muchos análisis de control de calidad. 4. No solamente requiere menor tiempo, sino que a veces la información del censo se obtendría demasiado tarde,

como en encuestas en procesos electorales. 5. Para un costo dado, el muestreo puede proporcionar información más detallada. 6. El muestreo puede proporcionar datos más precisos, pues requiere de menos trabajadores, a los que se les puede

capacitar mejor y supervisar de manera más eficiente. Son muchos los tipos o esquemas de muestreo y de ello depende la forma en que se calcularán los estimadores. Dado que eso está más allá de un curso como éste, se trabajará como si los datos se obtuvieran a partir de un muestreo aleatorio simple. También cabe aclarar que de la calidad del los datos muestrales, y por ende del mismo muestreo, dependerá la calidad de la información y conclusiones generadas a partir de los mismos. 1.3. Tipos de estadística y el proceso de análisis estadístico Debido a lo extenso y variado del campo cubierto por la estadística es difícil proponer una definición precisa del concepto. No obstante, se puede clasificar en estadística descriptiva y estadística inferencial, que desempeñan funciones distintas pero complementarias en el análisis estadístico. 1.3.1. Estadística descriptiva y análisis exploratorio de datos Estadística descriptiva. Trata del resumen y descripción tabular, gráfica o numérica de los datos. El análisis se limita a los datos colectados en sí mismos. Por ejemplo, si un jefe de personal somete a un test de aptitud a un grupo de graduados de un instituto superior recientemente contratados; entre lo que puede hacer con las puntuaciones que resultan del test valiéndose de la estadística descriptiva, están los aspectos siguientes: arreglar las puntuaciones o c1asificarlas de manera que con sólo dar un vistazo a los datos se pueda tener una imagen general de los mismos; calcular el promedio de las puntuaciones y reconocer algo sobre

5

la aptitud típica de los empleados; construir tablas, gráficas y cuadros para visualizar el comportamiento de los datos o bien convertir las puntuaciones brutas en rangos o en percentiles para hacer comparaciones; utilizar el promedio como punto de localización y describir la variabilidad o dispersión de los datos. Además, si después se obtienen ciertas medidas sobre el rendimiento en el trabajo de estos empleados, se puede tratar de describir la relación entre las puntuaciones dadas por el test y dichas mediciones. Sin embargo, en cuanto se establezca una relación semejante, no significa que se esté prediciendo el rendimiento de un empleado en su trabajo con base en su puntuación en el test de aptitud. 1.3.2. Estadística inferencial Estadística inferencial. Proceso de hacer predicciones acerca de un todo o tomar decisiones al basarnos en la información contenida en una muestra, lo que comprende la teoría de estimación y prueba de hipótesis. Si bien la descripción de los hechos recolectados es a veces en sí misma el fin que se propone, en la mayoría de los análisis estadísticos el objetivo último es el de extraer conclusiones útiles sobre la totalidad de las observaciones posibles de que se trate, esto es la población, con base en la información recolectada. La estadística descriptiva en muchos casos se ha tomado tan sólo como el trabajo preliminar para la inferencia. Con respecto al ejemplo presentado en el punto anterior, a partir del trabajo realizado con la estadística descriptiva y a través de la inferencia estadística, se puede predecir el rendimiento de un empleado en su trabajo con base en su puntuación en el test de aptitud. 1.3.3. Proceso de análisis estadístico La inferencia estadística se orienta a sacar conclusiones acerca del parámetro o parámetros poblacionales con base en el valor de una estadística obtenida a partir de los datos muestrales extraídos de esa población. Para llegar a ese objetivo a través de un proceso racional y eficaz, se aconseja que se tengan en cuenta los siguientes pasos: Primer paso. Formulación del problema. En este punto se debe especificar de manera clara la pregunta que se debe responder y la población de datos asociada a la pregunta. Los conceptos deben ser precisos y deben ponerse limitaciones adecuadas al problema motivadas por el tiempo, dinero disponible y la habilidad de los investigadores. Algunos conceptos como, artículo defectuoso, económico, salario, pueden variar en cada caso y para cada problema debemos coincidir con las ideas señaladas en el estudio. Segundo paso. Diseño del experimento o del muestreo. Este aspecto es de gran importancia, puesto que la recolección de datos requiere dinero y tiempo. Es siempre nuestro deseo obtener máxima información con el mínimo costo (dinero y tiempo) posible. Incluir excesiva información en la muestra es a menudo costoso y antieconómico. Incluir poca también es poco satisfactorio. Esto implica, entre otras cosas, que debemos determinar el tamaño de la muestra o la cantidad o tipo de datos que nos permita resolver el problema de la manera más eficiente. Tercer paso. Recolección de datos. Esta parte, por lo general, es la que exige más tiempo en la investigación. Esta recolección debe ajustarse a reglas estrictas ya que de los datos esperamos extraer la información deseada. Cuarto paso. Tabulación y descripción de los resultados. En esta etapa, los datos muestrales se exponen de manera clara y se ilustran con representaciones tabulares y gráficas (diagramas, histogramas, etc.); además se calculan las medidas estadísticas apropiadas al proceso inferencial que haya sido escogido. Quinto paso. Inferencia estadística y conclusiones. Este último paso constituye tal vez la contribución más importante de la estadística al proceso inferencial. Aquí se fija el nivel de confiabilidad para la inferencia; esto es debido a que las conclusiones derivadas de inferencias estadísticas jamás se pueden tomar con un 100% de certeza, pero sí se les puede asociar un nivel de confiabilidad en términos de probabilidad denominados nivel de confianza y nivel de significancia. El proceso inferencial nos llevará a una conclusión estadística que servirá de orientación a quien o quienes deban tomar la decisión (administrativa o clínica) sobre el tema objeto de estudio. Si bien se describió el proceso de análisis estadístico para el caso de la inferencia, cuando se trate de un análisis exclusivamente descriptivo se siguen los mismos pasos excepto el quinto, pues no se asignan valores de confiabilidad por el hecho de no inferir a la población a partir de datos muestrales.

6

1.4. Datos, variables y escalas de medición Antes de introducirnos en el estudio de los diferentes métodos descriptivos necesitamos conocer un poco más acerca de lo que son los datos, las unidades de estudio, las variables y las escalas de medición. Datos. Mediciones u observaciones documentadas que recolectamos de un estudio, es decir, son las diferentes mediciones que obtenemos al observar cierta característica en cada una de las unidades de estudio. Los datos pueden provenir de recuentos tales como el número de personas que laboran en una empresa o de mediciones como el peso de una persona. Unidad de estudio. Entidades (personan, cosas o periodos de tiempo) a los que se les mide la característica de interés. Variables. Cada una de las características que se observan en las unidades de estudio y que son susceptibles de ser cuantificadas o registradas de alguna manera, no necesariamente de manera numérica. Por ejemplo, la estatura de las personas, el número de personas que residen en una vivienda, el sexo de los estudiantes de la universidad. A las variables usualmente se les denota por letras X, Y, Z; y a los valores por las respectivas minúsculas. Por ejemplo, si de las cuentas corrientes de los clientes de un banco se escogen cinco al azar en un día determinado, la variable depósito en cuenta corriente de cada cliente constituye una variable aleatoria que podemos designar X. Si alguna de las cuentas aparece con un registro o saldo de 1’000,000 de pesos entonces x = 1’000,000. En resumen, de cada unidad de estudio podemos observar y registrar una o diversas variables, y los valores que pueden tomar estas variables son los datos. A continuación se discute la clasificación de los datos de acuerdo con su tipo y escala de medición en que se registren. Datos cualitativos. Denotan cualidades o atributos en las unidades de estudio, clasificándose en un número fijo de categorías o clases, cuyos nombres o códigos corresponden a los diferentes valores observados en la variable. Estas categorías o clases deben ser mutuamente excluyentes y colectivamente exhaustivas con el propósito de que cada unidad de estudio quede clasificada en una y sólo una de las categorías. En caso de existir alguna ambigüedad, ésta deberá resolverse de manera única (ver tabla 2.2). Ejemplos de tales datos son: estado civil, preferencia por una marca, etc., y cuando se traslapen categorías puede definirse el traslape como otra categoría. Datos cuantitativos. Son datos con valor numérico que se obtienen de un proceso de conteo o de medición. Si los valores observados se obtuvieron mediante un proceso de conteo entonces se denominan datos discretos. En cambio si las observaciones resultaron de un proceso de medición, entonces se definen como datos continuos. Por ejemplo, el número de accidentes anuales ocurridos en una carretera de mucha circulación o el número de hijos por familia en determinada localidad (discretos), así como el ingreso por familia en determinados sectores de la ciudad o el ingreso per cápita, etc. Para ser más precisos, se consideran datos continuos si entre cualesquiera dos valores potencialmente observables, siempre se puede encontrar otro valor potencialmente observable, es decir, teóricamente puede tomar cualquier valor dentro de un intervalo. Por ejemplo, la estatura de las personas o el tiempo necesario para realizar una transacción bancaria de parte del cliente. Por otro lado, se consideran datos discretos si sólo toman un número finito de valores dentro de un intervalo dado. Por ejemplo, si consideramos la variable número de clientes esperando servicio en un banco, podemos observar datos discretos, pero si nos preguntamos por el tiempo durante el cual esperan para recibir el servicio obtenemos una respuesta continua. En algunas ocasiones en que se tienen datos cuantitativos puede resultar conveniente agruparlos en categorías para así manejarlos como datos cualitativos, aunque ello represente pérdida de precisión. Por ejemplo si agrupamos los valores que se pueden observar para la variable edad en las categorías primera, segunda o tercera edad, con base en cierto criterio, podríamos utilizarlos como datos cualitativos.

Ejemplo 1.1. Tomemos el siguiente ejemplo para identificar el tipo de datos que se pueden observar para algunas variables. Supongamos que se desea hacer un estudio para evaluar el impacto de los programas de desarrollo social en distintas zonas del país, para lo cual se seleccionan como unidades experimentales a los municipios. Con objeto de cuantificar este impacto se podrían observar las variables de respuesta, mostradas en la tabla 1.1, para cada uno de los municipios antes y después de la instrumentación de los programas.

7

Tabla 1.1 Clasificación de variables en un estudio acerca del impacto de programas sobre desarrollo social.

Variable Valores observados Tipo de variable Tipo de municipio rural , urbano Cualitativa Partido político gobernante PRI, PAN, PRD, ... Cualitativa Número de hogares 1, 2, 3,... Discreta % de hogares con electricidad [0, 100] Continua Número de escuelas 0, 1, 2,... Discreta Ingreso per capita (0, ∞) Continua

Si tomamos en cuenta la precisión con la cual se realiza la medición de los diferentes valores de una variable, podemos clasificarlos en uno de los siguientes cuatro niveles o escalas de medición, cada uno de los cuales requiere de diferentes modelos matemáticos y por ende de tratamientos distintos. Escala nominal. Nivel de medición en el que los datos solamente pueden ser contados y puestos en categorías. No hay un orden particular de las categorías. En este nivel de medición, que es el más bajo, se realiza la operación más sencilla y básica: la clasificación de los diferentes valores que asume la variable en categorías mutuamente excluyentes y exhaustivas. Sin embargo no es posible establecer una relación de orden entre las diferentes categorías, simplemente podemos decir si una observación pertenece o no a determinada categoría. Ejemplos: estado civil de una persona (soltero, casado, divorciado, viudo, otros), color de ojos (claro, oscuro), zona de la ciudad en la que reside (norte, sur, este, oeste), etcétera. Escala ordinal. Nivel que presupone la existencia de una categoría superior o anterior a otra, es decir un orden (o recorrido) natural en las categorías. En este nivel de medición no sólo se agrupan los valores de la variable en categorías sino que además se establece una relación de orden entre las categorías desacuerdo con el grado de posesión de cierto atributo ("mayor que", o "menor que"). Sin embargo en esta escala no podemos hacer uso de las operaciones usuales de suma, resta, multiplicación y división. Por ejemplo: nivel socioeconómico (bajo, medio, alto), grado de preferencia a cierto producto, hábito de fumar (nunca, poco, mucho), etcétera. Escala de intervalo. Nivel que incluyen el recorrido característico de la escala ordinal y especifica que la distancia entre los números es la misma. Al alcanzar este nivel, los valores de la variable no sólo se clasifican sobre la base del grado de posesión del atributo sino que además es posible medir exactamente la intensidad con la que se posee esa característica. Para ello se requiere de una unidad de medida aceptada como norma común cuyo origen o "cero" se establece sobre la base de conveniencias prácticas. Las operaciones de suma o resta pueden llevarse a cabo entre las mediciones. Por ejemplo las escalas Celsius y Fahrenheit de temperatura pertenecen a esta escala, aunque nótese que el cero en ellas no está implicando ausencia de temperatura. Escala de razón. Nivel que tiene todas las características de la escala de intervalo pero tiene, además, sentido el cero. En este nivel de medición, además de la unidad de medida empleada, es posible situar un punto cero absoluto no arbitrario y fijo, en donde el "cero" implica ausencia del atributo. De este modo se pueden realizar operaciones aritméticas de producto o cociente y así comparar mediante proporciones o razones. Por ejemplo, número de adultos en un hogar, ingreso mensual en el hogar, longitud de caminos pavimentados, etcétera. Antes de hacer uso de un proceso inferencial se debe estar seguro de si los registros muestrales están dados en alguna de las escalas para los cuales el procedimiento es válido. Ignorar esto es fuente común de conclusiones sin sentido desde el punto de vista de la estadística. ¿Puede usted concluir algo sobre las características de los automóviles que circulan en la ciudad con base en la media aritmética de los números de las placas que ha recolectado de los mismos? 1.5. Tipos de protocolos de investigación No sólo el tipo de datos y la escala de medición a la que pertenezcan determinan el tipo de análisis estadístico pertinente a los mismos, sino también, y sobre todo, el tipo de estudio del que se trate. El tipo de estudio se elige de acuerdo con los objetivos que se pretende alcanzar, de los recursos de que se dispone y del tipo específico de problema que se quiere abordar. A continuación se presentan los criterios que al combinarse permiten clasificar una investigación.

8

- De acuerdo con la época en que se captura la información, el estudio es:

a) Retrospectivo. Información captada con anterioridad, registrada de acuerdo con fines ajenos a la investigación que se plantea.

b) Prospectivo. Información captada después de la planeación del estudio, de acuerdo con los fines de la investigación.

- De acuerdo con la evolución de las poblaciones, el estudio es:

a) Transversal. Variables de interés medidas en una sola ocasión. No considera la evolución temporal de las unidades o elementos estudiados.

b) Longitudinal. Variables de interés medidas en los mismos elementos en varias ocasiones. Implica el seguimiento

para comparar la evolución de esos elementos. - De acuerdo con la comparación de las poblaciones, el estudio es:

a) Descriptivo. Hay una sola población y no hay una hipótesis comparativa. Sólo se pretende describir el fenómeno, y puede haber una hipótesis que adelante la descripción, especificando el cómo, cuándo o dónde de los procesos.

b) Comparativo. Hay dos o más poblaciones que se quieren comparar, en una o más variables, para contrastar una

hipótesis de causalidad. De causa a efecto. Poblaciones definidas por la causa. De efecto a causa. Poblaciones definidas por el efecto.

- De acuerdo con la interferencia en el fenómeno, el estudio es:

a) Observacional. No se modifican a voluntad del investigador los factores que intervienen en el fenómeno. b) Experimental. Se modifican a voluntad del investigador las variables del o los factores causales (diseño de

tratamientos). Se puede hacer asignación aleatoria, repeticiones y bloques para controlar los factores de confusión (diseño experimental).

Si bien estos criterios son determinantes para la elección del tipo de análisis estadístico a efectuar con los datos obtenidos, el alcance de este curso impide el tratamiento de este tema, que solo se menciona para que se tome en consideración siempre que se planee un estudio y se quiera analizar estadísticamente. Se recomienda la lectura del libro “El protocolo de la investigación: lineamientos para su elaboración y análisis” (Méndez et al., 1984). 1.6. Ejercicios propuestos.

1) ¿Tiene el mismo significado el término “estadística” que usted escucha en la calle que cuando se emplea como ciencia? ¿En qué difieren?

2) Explique por qué la estadística inferencial desempeña un papel de mucha importancia en las investigaciones

modernas.

3) Mencione cuál es la relevancia de la estadística en su área, tanto de la descriptiva como de la inferencial.

4) Mencione el tipo de datos y la escala de medición asociados a las siguientes variables: • Tipos de seguros. • Tipos de seguros de daños. • Tipos de seguros de personas.

5) Con respecto a seguros contra incendios, mencione tipo de datos y la escala de medición asociados a las siguientes

variables: • Tipo de riesgo • Tipo de bien • Cobertura • Altura • Riesgos expuestos • Numero de riesgos asegurados • Prima emitida • Prima devengada

• Monto de siniestros • Gastos de ajuste • Monto de salvamentos • Saldos pendientes • Monto de deducible • Costo medio • Frecuencia • Siniestralidad

9

• Suma asegurada expuesta • Número de siniestros

• Frecuencia

6) De dos tipos de estudios censales y dos muestrales en su área de trabajo.

7) De al menos un ejemplo de los tipos de estudio, con respecto a los cuatro criterios de clasificación, que se realicen

en su área de trabajo. Si considera que algún tipo de estudio no es aplicable, justifique su consideración. 2. Análisis exploratorio de datos En sus comienzos la estadística era poco más que el registro y resumen de datos. Con el desarrollo del cálculo y la probabilidad la estadística, a principios del siglo XIX, se convirtió en una herramienta inferencial. El desarrollo que tuvo la inferencia estadística fue tan exitoso y acelerado que hizo a un lado a los métodos descriptivos. Sin embargo, no sólo las conclusiones que se buscaban eran muchas veces evidentes de una manera gráfica, sino que además la presencia de ciertos problemas, que invalidaba el uso de procedimientos inferenciales, se podía detectar también usando ciertas gráficas. Fue gracias al liderazgo de J.W Tukey, quien creó varios novedosos métodos gráfico-numéricos, lo que hizo renacer el uso de gráficos al comienzo del análisis de un conjunto de datos. A esta nueva tendencia de la estadística descriptiva extendida y aumentada se le conoce como análisis exploratorio de datos. Del análisis exploratorio, la inferencia estadística surge como una consecuencia lógica para medir y confirmar la fuerza de las diferencias o asociaciones encontradas en la fase exploratoria. Como ejemplo podemos mencionar realizar un diagrama de dispersión y una gráfica de percentiles normales antes de realizar o interpretar, respectivamente, un análisis de regresión lineal simple. 2.1. Tablas y gráficas Una vez que hemos precisado las distintas escalas a las que estarán referidos los datos, pasamos a reseñar los elementos básicos que forman parte de las distintas maneras como se pueden resumir los datos con el propósito de tener una visión aproximada de las características más sobresalientes de éstos. Un conjunto de observaciones puede hacerse más comprensible y adquirir significado mediante un arreglo ordenado. Sin embargo, al agrupar los datos se logra una mayor síntesis y al graficarlos se pueden apreciar o resaltar rasgos que a veces no son tan fáciles de percibir cuando se trabajan con muchos números. Para varios de los ejemplos de elaboración de tablas y gráficas y de la obtención de medidas se emplearán los datos del ejemplo que se menciona a continuación:

Ejemplo 2.1. Una empresa de televisión por cable encargó a un bufete hacer un estudio de mercado, para conocer el perfil de los clientes potenciales en una zona residencial formada por dos colonias. Cada colonia consta de 12 y 25 manzanas con un total de 236 y 605 hogares, respectivamente. Empleando un muestreo probabilístico, cuyos detalles no se discutirán por el momento, el bufete seleccionó una muestra de ocho manzanas y cinco hogares dentro de cada manzana. En cada hogar seleccionado en la muestra los encuestadores del bufete recabaron los datos de varias variables, algunas de ellas se muestran en la tabla 2.1.

Tabla 2.1. Variables de la encuesta de TV por cable.

Variable Descripción 1. Adultos Número de adultos en el hogar. 2. Niños Número de niños menores de 12 años en el hogar. 3. Teles Número de televisores en el hogar. 4. TVtot Suma del número de horas frente al televisor de todos los miembros del hogar en la semana

anterior a la encuesta. 5. Renta Cantidad máxima de renta, que el jefe del hogar esté dispuesto a pagar al mes, por servicio de TV

por cable (en múltiplos de 5 pesos). 6. Valor Valor catastral del hogar (en miles de pesos). Esta variable se introduce para dar una idea

aproximada del ingreso familiar. 7. Colonia Colonia a la que pertenece el hogar en la zona residencial. 8. Tipo Tipo de televisor que posee: blanco y negro, a color o ambos. 9. Manzana Número de manzana a la que pertenece el hogar.

10

2.1.1. Tablas de frecuencias

Una manera importantísima de caracterizar la diversidad de valores que toma la variable sobre la población es a través de la frecuencia con que ocurren esos valores. Frecuencia (absoluta). Es el número de veces que se repite un dato numérico (datos discretos) o categoría (datos categóricos). Se representa por fi. Si esta frecuencia absoluta se divide entre el total de observaciones, se tiene entonces una frecuencia relativa, denotada por fri o pi. En ocasiones resulta conveniente presentar las frecuencias relativas como porcentajes, simplemente multiplicándolas por 100. Así, por ejemplo, para los 10 datos 1, 1, 2, 2, 2, 3, 3, 3, 3, 3 se tiene que el número 1 tiene frecuencia 2, el 2 tiene frecuencia 3 y el 3 tiene frecuencia 5, mientras que las frecuencias relativas correspondientes son .2, .3 y .5 respectivamente. Tabla de frecuencias. Es un arreglo tabular de las frecuencias con que ocurre cada característica en que se han dividido los datos. Esta característica puede estar determinada por una cualidad (datos categóricos), un número (datos numéricos discretos) o un intervalo de clase (datos numéricos discretos o continuos). La tabla de frecuencias también es conocida con el nombre de distribución de frecuencias. Intervalo de clase. Es cada uno de los intervalos en que se ha decidido agrupar parcialmente los datos, ya sean discretos o, más generalmente, continuos, con el propósito de hacer un resumen de ellos. El número de mediciones que queda dentro del intervalo se llama frecuencia del intervalo y se denota fj, igual que para el caso de datos categóricos y discretos no agrupados en intervalos. La diferencia entre el extremo mayor y el extremo menor del intervalo se llama longitud, ancho o amplitud del intervalo. Distribución de frecuencias de variables categóricas. A continuación construiremos la tabla de frecuencias para la variable tipo de televisor (Tipo) del ejemplo 2.1. Primero se introducen las categorías, es decir las diferentes respuestas para esta variable (ninguno, blanco y negro, color, ambos), y después contamos cuántos hogares reportaron tener ningún televisor, únicamente televisores blanco y negro, sólo televisores a color, o en su caso contaban con ambos tipos de televisor.

Este conteo es el que nos produce la columna correspondiente a la frecuencia absoluta (fi) en la tabla 2.2. Si esta columna la dividimos entre el número de hogares encuestados (n = 40) obtenemos la columna de frecuencia relativa (pi) que también puede expresarse en términos porcentuales al multiplicarla por cien (frecuencia porcentual o porcentaje). Obsérvese que la suma de frecuencias absolutas en todas las categorías de la variable Tipo es igual al tamaño de la muestra (n = 40), la suma de frecuencias relativas nos da como resultado uno, mientras que la suma de frecuencias porcentuales es 100. Esa tabla 2.2 nos indica que el 60% de los hogares muestreados poseen TV a color, mientras que el 5% de éstos no poseen TV. El 25% de ellos tiene ambos tipos de televisor, y únicamente el 10% posee televisor blanco y negro.

Tabla 2.2. Tabla de frecuencias para la variable tipo de televisor. Encuesta de televisión por cable. Categoría fi pi pi (%) Ningún 2 0.05 5 Blanco y negro 4 0.10 10 Color 24 0.60 60 Ambos 10 0.25 25 Total 40 1.00 100

Incluso, para fines de comparación, se puede realizar el ejercicio anterior considerando por separado los datos de cada colonia, lo que viene a ser una tabulación cruzada o tabla de contingencia de dos entradas. La tabla 2.3 muestra las distribuciones de frecuencias de las variables Tipo y Colonia a la vez.

Tabla 2.3. Tabla de frecuencias para la variable tipo de televisor. Encuesta de televisión por cable. Colonia

1 2 Ninguno 0 2 Blanco y Negro 1 3 Color 12 12

Tip

o de

te

levi

sor

Ambos 2 8 Total 15 25

11

Si lo que interesa es ver el comportamiento por colonia, será conveniente obtener las frecuencias porcentuales condicionales con referencia a esa variable, es decir que sume el 100% para cada colonia, y no las conjuntas que sumarían 100% sólo considerando ambas colonias a la vez. La tabla 2.4 muestra las distribuciones de frecuencias de la variable Tipo para cada una de las dos colonias de la zona residencial.

Tabla 2.4. Distribución de frecuencias relativas condicionales por colonia para tipo de televisor.

Categoría

Colonia 1 fi

Colonia 1 pi (%)

Colonia 2 fi

Colonia 2 pi (%)

Ninguno 0 0.00 2 8.00 Blanco y negro 1 6.66 3 12.00 Color 12 80.00 12 48.00 Ambos 2 13.33 8 32.00 Total 15 100.00 25 100.00

Distribución de frecuencias de variables discretas. La construcción de la distribución de frecuencias de una variable discreta resulta muy semejante a la que se vio para variables cualitativas. Las categorías resultan ser los valores discretos que toma la variable.

En la tabla 2.5 se muestran las distribuciones de frecuencias de las variables Adultos y Niños para el ejemplo 2.1.

Tabla 2.5. Distribución de frecuencias relativas para las variables Adultos y Niños. Encuesta de televisión por cable.

Adultos Niños Valores fi pi fi pi

0 0 0 9 0.23 1 7 0.18 11 0.28 2 15 0.38 12 0.30 3 14 0.35 8 0.20 4 4 0.10 0 0

Total 40 1.00 40 1.00 Si bien este es el procedimiento generalmente considerado, hay casos para los que es más conveniente construir intervalos. Tal procedimiento se describe a continuación para variables continuas, aunque se puede usar igualmente para discretas. Distribución de frecuencias de variables continuas. En este caso, se tiene que utilizar un procedimiento distinto al caso discreto, ya que para una variable continua puede suceder que ningún valor se repita. La idea entonces es emplear intervalos para clasificar las observaciones. Primero se determina el intervalo en el cual se encuentran los valores observados, después éste se subdivide en intervalos de clase de igual longitud2 y se cuenta el número de observaciones que caen en cada intervalo. A continuación se ilustra el procedimiento con los datos de la variable Valor del ejemplo 2.1.

1. Identificar el valor máximo y el mínimo observado en el conjunto de datos para obtener el intervalo en el que se encuentran los valores observados, así como su recorrido (R).

R = xmax - xmin =370,325 – 79,928= 290,397

2. Decidir cuántos intervalos de clase establecer (k), así como el ancho de cada uno de ellos (a). Es recomendable emplear entre 5 y 20 clases (esta elección es totalmente arbitraria), todas ellas del mismo ancho. Este ancho se puede determinar de tal manera que el producto del número de intervalos de clase por el ancho (k*a) sea un poco mayor que la amplitud. Para la variable Valor establezcamos 6 clases, con lo cual el ancho deberá ser un número mayor a 48 399.5 (k*a > amplitud). Por facilidad tomemos 50 000.

3. Elegir el valor inicial que limitará al primer intervalo de clase y a partir del cual se obtendrán todos los puntos que limitarán a cada uno de los siguientes intervalos (estos puntos reciben el nombre de límites de clase). El primer límite inferior deberá ser un número un poco menor que el valor mínimo observado en el conjunto de datos. Para nuestro ejemplo, el valor más chico resultó ser 79 928, por facilidad tomamos 75 000 como valor inicial. El siguiente límite inferior se obtiene de sumarle al límite inferior anterior el ancho del intervalo: 75 000 + 50 000, y así sucesivamente.

4. Una vez elegido el límite inferior, los intervalos de clase quedan como se muestra en la primer columna de la tabla 2.6.

2 Por lo general se recomienda que sean del mismo tamaño porque facilita varios procedimientos. Sin embargo, puede ser muy útil que sean de diferente tamaño, como de hecho lo es en muchos casos ya establecidos y otros donde los datos no se presten para intervalos uniformes.

12

5. A continuación se efectúa un conteo del número de observaciones cuyos valores pertenecen a cada intervalo de clase, es decir, se calculan las frecuencias absolutas, y a partir de éstas se pueden obtener las frecuencias relativas. Para el ejemplo 2.1 la distribución de frecuencias para la variable Valor está dada en la tabla 2.6.

Tabla 2.6. Distribución de frecuencias de la variable Valor. Encuesta de TV por cable.

Intervalos de clase Frecuencias absolutas, fi Frecuencias relativas, pi

( 75 000, 125 000] 3 0.08 (125 000, 175 000] 8 0.20 (175 000, 225 000] 10 0.25 (225 000, 275 000] 8 0.20 (275 000, 325 000] 5 0.13 (325 000, 375 000] 6 0.15 Total 40 1

Sin embargo, al quedar todas las observaciones agrupadas en intervalos de clase se pierde el valor o magnitud que tenían todas ellas antes de dicha agrupación. Por tanto resulta conveniente elegir al punto central del intervalo de clase como el valor que represente la magnitud de todas las observaciones que quedaron clasificadas en dicho intervalo. A este valor central se le denomina marca de clase (xmi). La distribución de frecuencias también puede incluir a la frecuencia absoluta acumulada (Fi) que indica cuántos datos hay cuyo valor numérico es menor o igual al de la frontera superior de cada intervalo de clase. Esta frecuencia absoluta acumulada para un intervalo dado se calcula sumando todas las frecuencias absolutas de intervalos anteriores a él más la frecuencia absoluta que le corresponde. Esta misma frecuencia se puede presentar en forma de proporción simplemente dividiéndola entre n, en cuyo caso se le designará frecuencia relativa acumulada (Pi). El resultado de esto para nuestro ejemplo se muestra en la tabla 2.7.

Tabla 2.7. Distribución de frecuencias acumuladas con seis intervalos de clase para la variable Valor.

Marcas de clase

xmi

Frecuencias absolutas

fi

Frecuencias relativas

pi

Frecuencias absolutas acumuladas

Fi

Frecuencias relativas acumuladas

Pi 100 000 3 0.08 3 0.08 150 000 8 0.20 11 0.28 200 000 10 0.25 21 0.53 250 000 8 0.20 29 0.73 300 000 5 0.13 34 0.85 350 000 6 0.15 40 1.00 Total 40 1

Ya que la decisión sobre la cantidad de intervalos fue arbitraria, en vez de seis podrían haber sido más. En la tabla 2.8 se muestra la distribución de frecuencias considerando 12 intervalos. Si bien la distribución cambió junto con los intervalos y se hizo más detallada, en este caso los rasgos generales de forma, acumulación y dispersión se conservan (ver “histogramas” más adelante).

Tabla 2.8. Distribución de frecuencias con doce intervalos de clase para la variable Valor.

xmi fi pi Fi Pi 87 500 2 0.050 2 0.05 112 500 1 0.025 3 0.075 137 500 3 0.075 6 0.15 162 500 5 0.125 11 0.275 187 500 6 0.150 17 0.425 212 500 4 0.100 21 0.525 237 500 4 0.100 25 0.625 262 500 4 0.100 29 0.725 287 500 2 0.050 31 0.775 312 500 3 0.075 34 0.85 337 500 3 0.075 37 0.925 362 500 3 0.075 40 1 Total 40 1

13

2.1.2. Gráficas para tablas de frecuencias: datos categóricos y datos numéricos Los métodos gráficos nos permiten describir y descubrir características presentes en un conjunto de datos. Estos métodos son una herramienta de diagnóstico muy poderosa ya que nos ayudan a confirmar supuestos y en ocasiones sugieren acciones correctivas. Para representar gráficamente los datos de variables cualitativas podemos emplear dos tipos de diagramas: circulares y de barras.

Diagrama circular. Los diagramas circulares (o de pastel) se emplean para comparar las partes que componen una entidad con la entidad completa, expresando esta comparación en términos de proporción o, más frecuentemente, de porcentaje. Estos diagramas se construyen calculando el ángulo al que corresponde proporcionalmente la frecuencia relativa de esa categoría a los 360 grados del círculo, es decir, ángulo de la porción del círculo es igual a 360 grados por pi. Se emplean para distribuciones de frecuencias de variables categóricas, aunque también puede emplearse para distribuciones de frecuencias de variables discretas no agrupadas en intervalos de clase. La tabla 2.2 muestra las distribuciones de frecuencias de la variable Tipo y las figuras 2.1 y 2.2 muestran el diagrama circular correspondiente en dos versiones. La figura 2.1 distingue las categorías por tonos de gris (puede ser por diferentes colores) y da la clave de los mismos como leyenda, mientras que la figura 2.2 da de manera individual las categorías y sus respectivos porcentajes en forma de etiquetas. Además, la figura 2.2 separa un poco cada categoría y presenta un ligero efecto de tercera dimensión.

Figura 2.1. Diagrama circular para tipo de televisor. Figura 2.2. Diagrama circular para tipo de televisor. Es conveniente no usar tal efecto o mantenerlo al mínimo para no distorsionar la apreciación del porcentaje de área de cada categoría, como se aprecia en la figura 2.3 donde el área de Ambos (25%) no se ve ni del doble de Blanco y negro (10%). El sentido común y la claridad deben prevalecer sobre la moda y la “belleza superflua”.

Figura 2.3. Diagrama circular para tipo de televisor Encuesta de TV por cable.

Note que las categorías están arregladas de menor a mayor frecuencia, que es lo más común, en el sentido de las manecillas del reloj, aunque también suelen arreglarse de mayor a menor frecuencia, y en algunos casos que así convenga se arreglan alfabéticamente. Cuando se trata de una variable en escala ordinal, las clases suelen arreglarse de acuerdo con el orden natural de la escala. También pueden graficarse más de un conjunto de datos con fines de comparación. La tabla 2.4 muestra las distribuciones de frecuencias de la variable Tipo para cada una de las dos colonias de la zona residencial. A partir de los diagramas circulares de la figura 2.3, observamos que la colonia 1 el 80% de los hogares poseen televisor a color mientras

14

que en la colonia 2 este porcentaje es de tan solo el 48%. Asimismo en la colonia 1 todos los hogares de la muestra poseen televisor mientras que en la colonia 2 el 8% de los hogares no poseen televisor.

Colonia 1 Colonia 2

Figura 2.4. Diagramas circulares para tipo de televisor para cada colonia. Encuesta de TV por cable.

Gráfica de barras (verticales o columnas). La gráfica de barras es un despliegue gráfico de las frecuencias absolutas o relativas. Consta de dos ejes, uno vertical que denota las frecuencias, y otro horizontal que contiene las categorías de la variable. Encima de cada categoría se alza una barra cuya altura es igual a la frecuencia absoluta, relativa o porcentual observada en dicha categoría. El ancho de cada barra debe ser el mismo. En caso de graficarse la frecuencia relativa, la suma total de las alturas de las barras debe ser igual a uno, mientras que la suma será de 100 cuando se use el porcentaje. Se emplean para distribuciones de frecuencias de variables categóricas, aunque también puede emplearse para distribuciones de frecuencias de variables discretas no agrupadas en intervalos de clase. Las figuras 2.5 y 2.6 muestran gráficas de barras para la variable Tipo, empleando la información contenida en la tabla 2.2. La figura 2.5, en formato simple, muestra las frecuencias absolutas, mientras que la figura 2.6, en formato de tercera dimensión o “3D”. Es conveniente no usar tal efecto o mantenerlo al mínimo para no dificultar la lectura de las alturas (frecuencias).

Figura 2.5. Gráfica de barras para tipo de televisor. Figura 2.6. Gráfica de barras para tipo de televisor.

Note que las categorías están arregladas de izquierda a derecha de mayor a menor frecuencia, que es lo más común, aunque también suelen arreglarse de menor a mayor frecuencia, y en algunos casos que así convenga se arreglan alfabéticamente. Cuando se trata de una variable en escala ordinal, las clases se arreglan de acuerdo con el orden natural de la escala. Los datos de la tabla 2.4 pueden graficarse con barras apiladas, agrupadas, porcentuales o con clasificación en dos dimensiones, como se muestra en las figuras 2.7, 2.8, 2.9, 2.10 respectivamente.

15

Figura 2.7. Gráfica de barras apiladas, por Colonia, para la

variable Tipo. Figura 2. 8. Gráfica de barras agrupadas, por Colonia, para

la variable Tipo.

Figura 2.7. Gráfica de barras porcentuales, por Colonia,

para la variable Tipo. Figura 2. 8. Gráfica de barras con clasificación en dos

dimensiones, para la variable Tipo por Colonia.

Histogramas. La representación gráfica de la distribución de frecuencias de datos continuos (o discretos agrupados en intervalos) se realiza mediante histogramas. Un histograma es como una forma especial de una gráfica de barras en la cual los intervalos de clase están representados por el ancho de las barras y las frecuencias de las mediciones son proporcionales a las áreas de los rectángulos (y de las alturas para intervalos de la misma longitud). La altura de las barras puede ser la frecuencia absoluta o la relativa, para el caso de intervalos del mismo tamaño, o la densidad de frecuencia (frecuencia entre la amplitud del intervalo), cuando los intervalos son de distinto tamaño. Las figuras 2.11, simple y con límites de los intervalos, y 2.12, 3D y con marcas de clase, muestran histogramas correspondientes a la tabla 2.7. Recordemos que es conveniente no abusar del efecto de tercera dimensión para evitar así los problemas de lectura sobre la escala vertical. En un histograma se evidencian fundamentalmente tres características:

1. Forma. 2. Acumulación o tendencia posicional. 3. Dispersión o variabilidad.

Figura 2.11. Histograma para la variable Valor. Figura 2.12. Histograma para la variable Valor.

16

El histograma (de frecuencias) en sí es una sucesión de rectángulos construidos sobre un sistema de coordenadas cartesianas de la manera siguiente:

1. Las bases de los rectángulos se localizan en el eje horizontal. La longitud de la base es igual al ancho del intervalo. 2. Las alturas de los rectángulos se registran sobre el eje vertical y corresponden a las frecuencias de las clases para

intervalos de igual amplitud, o a sus densidades de frecuencia (frecuencia entre amplitud del intervalo) para intervalos de diferente amplitud.

3. Las áreas de los rectángulos son proporcionales a las frecuencias de las clases. Los histogramas pueden estar referidos a las frecuencias absolutas, a las frecuencias absolutas acumuladas, a las frecuencias relativas o a las frecuencias relativas acumuladas. Para el caso de frecuencias acumuladas, sean absolutas o relativas, en el eje vertical siempre se representarán las frecuencias, sean intervalos de igual o diferente tamaño. En el eje horizontal los histogramas pueden llevar los límites de los intervalos de clase, las marcas de clase o, en algunas ocasiones, de ser conveniente, una escala arbitraria. En la figura 2.13 se aprecia un histograma con más detalle para la variable Valor, empleando los datos de la tabla 2.8 que tiene doce intervalos, a diferencia de los seis que tiene la tabla 2.7.

Figura 2.13. Histograma, con doce intervalos, para la variable Valor.

Polígono de frecuencias. Gráfica que resulta de unir los puntos medios de la parte superior de las barras del histograma y se cierran los extremos con el eje horizontal. Esto puede ser útil para visualizar el perfil de la distribución de frecuencias. En la figura 2.14 se encuentra el polígono de frecuencias para una distribución de frecuencias acumuladas de 12 intervalos para la variable Valor del ejemplo 2.2; de esta figura se refuerza la apreciación de bimodalidad. Como se podrá imaginar, en el eje horizontal se prefiere anotar las marcas de clase, aún cuando otras opciones son posibles. Si bien no es lo común, también pueden construirse polígonos de frecuencia con intervalos de diferente tamaño, solo que su elaboración difiere un poco de lo ya explicado.

Figura 2.14. Polígono de frecuencias, variable Valor, con doce intervalos de clase.

17

Cuando los histogramas o los polígonos de frecuencias son construidos a partir de los datos muestrales, se puede considerar como la imagen deformada del comportamiento poblacional, el cual se asume (para poblaciones infinitas) que es determinado por una curva (simétrica, asimétrica, unimodal, bimodal, etc.). Ojiva. La ojiva es la curva que resulta de graficar las frecuencias relativas acumuladas contra las fronteras superiores de cada intervalo de clase y uniendo los puntos así formados, anclando el extremo inferior al eje horizontal. En la figura 2.15 se muestra la ojiva para la distribución de frecuencias acumuladas del valor catastral empleando doce intervalos de clase. Este gráfico se puede usar de varias formas. Por ejemplo si deseamos tener una idea del porcentaje de hogares cuyo valor catastral es igual o menor a 300 000, la respuesta se obtiene localizando primero la abscisa de 300 00 y después viendo en la ojiva el valor del porcentaje correspondiente, que en este caso es de 77.5% aproximadamente. Otra aplicación sería determinar el valor por debajo del cual se encontrara cierto porcentaje de la población. Supóngase que nos interesa estimar el valor catastral por debajo del cual se encuentra el 20% de la población. Para esto nos fijamos en el eje vertical de la ojiva a la altura de 40%, trazamos la línea horizontal y determinamos la abscisa, que en este ejemplo sería de 196 000, es decir, se espera que el 40% de la población tenga un valor catastral a lo más de 196 000. Éste es precisamente el concepto de percentil definido a continuación.

Figura 2.15. Ojiva para la variable Valor, con doce intervalos de clase. Determinación del percentil del 40% (p40).

Percentiles. Los percentiles dan información acerca de cómo se distribuyen los valores de la variable sobre el intervalo. Si k es cualquier porcentaje entre cero y 100%, el k-ésimo percentil (pk) es una abscisa de una ojiva tal que a lo más k por ciento de los elementos tienen un valor de la variable debajo de él y a lo más un (100-k) por ciento de los elementos tienen un valor por arriba de él. Agrupación de variables. El proceso de agrupación consiste en: i) transformar una variable cualitativa o categórica combinando sus valores en una nueva colección de clases, ii) convertir una variable cuantitativa en una categórica al definir como categorías intervalos de clase.

Tabla 2.9. Agrupación de la variable categórica Tipo de TV.

Tipo pi Televisión pi Ninguna 0.05 Sin 0.05 Blanco y negro 0.10 Color 0.60 Con 0.95 Ambos 0.25

Tabla 2.10. Agrupación de la variable continua Valor catastral.

Valor catastral (numérica continua)

Valor catastral (categórica ordinal)

Intervalos de clase Categorías (0, 200 000) B (bajo) [200 000, 300 000) M (medio) [300 000, ∞) A (alto)

18

2.1.3. Gráficas para datos numéricos sin agrupar No siempre los datos son susceptibles de ser agrupados en tablas de frecuencias, sobre todo cuando es de interés conocer el valor numérico de los datos para cada unidad bajo estudio, la proporción o el porcentaje de cada unidad con respecto al valor total de todas las unidades, o el total de tal valor para las unidades clasificadas por otra variable.

Ejemplo 2.2. Suponga que se realizó un estudio en el aeropuerto de Acapulco, Gro., donde se registró el número de vuelos que llegaron en el mes de abril, del 2010, a tal aeropuerto, procedentes tanto del territorio nacional como del extranjero, así como el valor del boletaje que incluían a Acapulco como destino (con o sin escalas), para cada línea aérea con presencia en ese aeropuerto. Los datos podrían ser como los que se muestran en la tabla 2.11

Tabla 2.11. Número de vuelos durante el 2009 y valor del boletaje que incluían a Acapulco en su ruta, por aerolínea.

Línea Aérea (Identificador OACI) Línea Aérea (Operador) Número de vuelos Valor total de boletaje AFR Air France 25 69 832 AMC AeroMexico Connect 125 257 500 AMR American Airlines 81 184 068 AMX Aeromexico 137 175 086 AVA AVIANCA 100 181 000 BSK Miami Air International 1 5 877 BTA Expressjet 2 10 860 CBE MexicanaClick 100 132 000 CMP COPA 25 93 009 COA Continental Airlines 32 154 199 DAL Delta Air Lines 9 34 784 DAN Maersk Air 12 42 240 DLH Lufthansa 25 27 250 IBE Iberia 50 92 708 IJT Interjet 29 27 434 KLM KLM 25 31 000 LAN Lan Airlines 54 78 300 LPE Lan Peru 50 69 000 MXA Mexicana 156 256 042 PRA Priester Aviation 1 4 869 SSV Skyservice Airlines 2 15 534 TAO Aeromar 20 21 980 UAL United Airlines 30 139 075 USA US Airways 6 34 137 VAB VivaAerobus 12 30 960 VOI Volaris 14 38 640

Diagrama circular. En este caso el total de referencia no es la frecuencia total, sino el total de la variable numérica medida, y cada sector representa una unidad media en vez de una categoría.

25125

81

137

1001

210025329122550

2925

54

50

1561

220 3061214 AFRAMCAMRAMXAVABSKBTACBECMPCOADALDANDLHIBEIJTKLMLANLPEMXAPRASSVTAOUALUSA

Figura 2.16. Número de vuelos por aerolínea con destino a Acapulco en abril del 2010.

Figura 2.17. Total de ventas de boletos de vuelos con destino a Acapulco en abril del 2010, por aerolínea.

19

Barras (horizontales). En este caso cada barra representa una unidad de estudio, no una categoría, y la altura (o longitud, si se dibuja horizontal) representa el valor de la variable o la proporción/porcentaje del total, no la frecuencia o frecuencia relativa/porcentual. Muchas veces este tipo de barras se dibujan horizontales, de ahí el calificativo, para no confundirlas con las barras anteriormente descritas para distribuciones de frecuencias (barras verticales o columnas).

0

40

80

120

160

AFR

AMC

AMR

AMX

AVA

BSK

BTA

CBE

CMP

COA

DAL

DAN

DLH

IBE IJT

KLM

LAN

LPE

MXA PRA

SSV

TAO

UAL

USA

VAB

VOI

Núm

ero d

e Vu

elos

Línea Aérea Figura 2.18. Número de vuelos por aerolínea con destino a

Acapulco en abril del 2010. Figura 2.19. Total de ventas de boletos de vuelos con

destino a Acapulco en abril del 2010, por aerolínea.

0 40 80 120 160

AFRAMCAMRAMXAVABSKBTACBE

CMPCOADALDANDLHIBEIJT

KLMLANLPE

MXAPRASSVTAOUALUSAVABVOI

Número de Vuelos

Línea

Aér

ea

Figura 2.20. Número de vuelos por aerolínea con destino a

Acapulco en abril del 2010. Figura 2.21. Total de ventas de boletos de vuelos con

destino a Acapulco en abril del 2010, por aerolínea. Otro uso es el de presentar totales de una variable, para todas las unidades medidas que pertenezcan a categorías de otra variable. Al igual que para variables categóricas, como se describió anteriormente para las barras verticales, tal acción daría como resultado barras apiladas, barras porcentuales y barras agregadas, aunque con las respectivas diferencias en interpretación por no tratarse de frecuencias. Si bien el total de alturas de personas estudiadas no tenga sentido, sí lo tiene el total de sus contribuciones fiscales o el de sus gastos en pago de primas de seguros.

20

0

100

200

300

400

500

600

700

Nacionales Extranjeras

Núm

ero

de v

uelo

s

Línea Aérea

Figura 2.22. Número de vuelos por aerolínea, nacional o extranjera, con destino a Acapulco, abril del 2010.

Figura 2.23. Total de ventas de boletos de vuelos para Acapulcopor aerolínea, nacional o extranjera, abril del 2010.

Figura 2.24. Número de vuelos por aerolínea, nacional o extranjera, con destino a Acapulco, abril del 2010.

Figura 2.25. Total de ventas de boletos de vuelos con destino a Acapulco por aerolínea, nacional o extranjera, abril del

2010.

21

Gráfica de series de tiempo. Es la representación gráfica de los valores que toma una o más variables en diferentes tiempos. Lo más usual es emplear una línea continua para cada variable representada, aunque en ciertas aplicaciones se emplean barras e incluso barras apiladas.

1,000

1,250

1,500

1,750

2,000

2,250

2,500

2000 2001 2002 2003 2004 2005

Mill

ones

de

pasa

jero

s

Año

02,0004,0006,0008,000

10,00012,00014,00016,00018,000

2000 2001 2002 2003 2004 2005

Mill

ones

de

Pasa

jero

s

Año

AlemaniaCanadáCorea del SurChinaEspañaFranciaHolandaJapónMéxicoReino UnidoSingapur

Figura 2.26. Movimiento aéreo de pasaje en México

del 2000 al 2005. Figura 2.27. Movimiento aéreo de pasaje, comparativo

internacional con México del 2000 al 2005. Diagrama de dispersión. Representación de parejas de datos (x1 y1), ..., (xn yn), dados por los valores de dos variables numéricas para cada unidad de estudio, sobre un plano cartesiano. Este diagrama no sólo muestra el patrón de distribución de cada variable, sino la relación entre las variables. Consideremos el ejemplo 2.1; supóngase que deseamos explorar la posibilidad de que haya una asociación entre el ingreso de un hogar (X = Valor) y la cantidad de renta que se está dispuesto a pagar por el servicio de TV por cable (Y = Renta), el diagrama de dispersión correspondiente está dado en la figura 2.6. Dado que, en general, se observa que los valores más grandes de Valor están asociados con los valores más grandes de Renta y viceversa, tal comportamiento sugiere la existencia de una asociación positiva entre ambas variables. Además se observan dos valores atípicos que se separan de la nube de puntos, son dos hogares que no están dispuestos a gastar en el servicio; al examinar los datos originales se obtiene que son los hogares que no tienen televisión.

Figura 2.28. Diagrama de dispersión Renta vs. Valor. Encuesta de TV por cable.

Diagrama de tallo y hojas. Con este diagrama se pueden obtener dos productos: un gráfico que nos da una idea de la distribución de frecuencia y la de ordenación de los datos Pasos a seguir en la construcción del diagrama de tallo y hojas:

1. Determinar el valor máximo y mínimo en el conjunto de datos. 2. Determinar una regla para dividir los dígitos de cada observación en dos partes: tallo y hoja, la cual se aplicará por

igual a todas las observaciones. 3. Presentar los tallos de menor a mayor en forma vertical. 4. Por cada dato ingresar una hoja en el tallo que le corresponda. No es necesario que se ingresen en orden.

22

5. Una vez que se han ingresado todos los datos, se construye un nuevo tallo y se procede a anotar las hojas dentro de cada valor del tallo de manera ordenada. De esta forma se obtendrán todos los datos ordenados.

tallo tallo hojas

0 0 0 0 1 1 4 6 2 2 0 0 0 2 4 7 8 8 8 3 3 0 1 2 4 5 5 4 4 0 0 2 2 5 5 2 4 4 6 6 6 0 2 8 9 7 7 0 4 6 8 8 2 2 4 6

Figura 2.29. Construcción de un diagrama de tallo y hoja para la variable TVtot. Encuesta de TV por cable.

2.2. Medidas descriptivas Aunque esta descripción gráfica es bastante útil, existe otro tipo de descripciones basadas en unos cuantos números que tratan de mostrar aspectos relevantes de la distribución de frecuencia. Particularmente nos interesa describir la parte central de la distribución de frecuencias así corno conocer qué tanto están variando los datos observados con respecto a algún valor central de la distribución. A este conjunto de medidas se les denomina medidas descriptivas. 2.2.1. Medidas de tendencia central Son valores numéricos que tienden a localizar, en cierto sentido, la parte central de la distribución de frecuencias. Mediana. Es el percentil del 50%, es decir, es el valor que ocupa la posición central del conjunto de datos una vez que éstos han sido ordenados de acuerdo con su magnitud en forma ascendente, de manera que el 50% de las observaciones tiene valores menores o iguales que el de la mediana y el restante 50% tiene valores mayores o iguales al de la mediana. Emplearemos M o Med para denotar a la mediana de una distribución de valores poblacionales, y m o x~ para cuando se trate de una distribución de valores muestrales. La mediana es una medida de tendencia central útil cuando se tienen distribuciones sesgadas. Definición 2.1. La mediana de un conjunto de n observaciones x1, x2,..., xn se define como la observación que cae en el

centro cuando las observaciones se ordenan en orden creciente.

Cuando sólo se tienen los datos en forma de tabla de distribución de frecuencias, la fórmula para calcular la mediana es la siguiente:

donde:

Lm = límite (real) inferior de la clase mediana Fm = frecuencia acumulada hasta la clase anterior a la de la mediana fm = frecuencia de la clase mediana w = ancho de la clase mediana n = número de observaciones

Definición 2.2. La media aritmética de una muestra de n observaciones x1, x2,..., xn es igual a

xx

n

ii

n

= =∑

1

( )[ ]21+= nxm

wf

FnLmm

mm

−+=

)2/(

23

Definición 2.3. La media aritmética de una población de N observaciones x1, x2,..., xN es igual a

μ = =∑ x

N

ii

N

1

Cuando sólo se tienen los datos en forma de tabla de distribución de frecuencias, la fórmula para calcular la media es la siguiente:

n

xfx

n

imii∑

=≈ 1

Definición 2.4. La moda de un conjunto de n observaciones x1, x2,..., xn se define como el valor que ocurre con mayor

frecuencia. Lo anterior sólo tiene sentido en caso de datos cualitativos o discretos, para el caso de datos continuos las posibles modas serían aquellos valores de las abscisa por debajo de las cimas o picos aparentes en un polígono de frecuencia. Para el caso poblacional la moda se denota Mo, mientras que para el caso muestral es mo. Cuando sólo se tienen los datos en forma de tabla de distribución de frecuencias, la fórmula para calcular la moda es la siguiente:

wdd

dLmo mo21

1

++=

donde: Lmo = límite inferior de la clase modal d1 = diferencia de la densidad de frecuencia* de la clase modal y la de la clase precedente. d2 = diferencia de la densidad de frecuencia* de la clase modal y la de la clase siguiente. w = ancho de la clase modal

* La densidad de frecuencia es el cociente de la frecuencia entre el ancho del intervalo de clase. Cuando todas las clases son del mismo ancho, o al menos la modal y las contiguas anterior y posterior, la densidad puede sustituirse por la frecuencia. 2.2.2. Medidas de posición Definición 2.5. Sean x1, x2,..., xn un conjunto de n observaciones arregladas por orden de magnitud. El k-ésimo percentil

pk es el valor tal que a lo más k por ciento de las observaciones es menor que él y a lo más (100 – k) por ciento de las observaciones son mayores.

Cálculo del k-percentil (pk): (0 < k < 100)

1. Tener el conjunto de datos ordenado de manera ascendente. 2. Calcular el índice

donde k es el percentil de interés y n es el tamaño de la muestra. 3. (a) Si i no es entero, se redondea. El valor entero inmediato mayor de i indica la posición del k-ésimo percentil. (b)

Si i es entero, el k-ésimo percentil es el promedio de los valores de los datos ubicados en los lugares i e i + 1. Los cuartiles q1, q2 y q3 son respectivamente los percentiles p25, p50 y p75. En particular q2 = p50 = m, para el caso muestral, y Q2 = P50 = M para el poblacional. Cuando los datos están agrupados en una tabla de frecuencia, se calculan mediante la siguiente fórmula:

wf

FnkLpk

kkk

−+=

)100(

nki ⎟⎠⎞

⎜⎝⎛=100

24

donde: Lk = límite real inferior de la clase del percentil k

Fk = frecuencia acumulada hasta la clase anterior a la del percentil k fk = frecuencia de la clase del percentil k w = ancho de la clase del percentil k n = número de observaciones 2.2.3. Medidas de dispersión Medidas que cuantifican la variabilidad o dispersión presente en este conjunto de observaciones. Estas medidas de variabilidad serán pequeñas si no existen diferencias muy grandes entre los valores observados y resultarán grandes en caso contrario. Definición 2.6. El recorrido de un conjunto de n observaciones x1, x2,..., xn se define como la diferencia entre la mayor y la

menor de las observaciones, esto es

( ) ( )13 xxR −=

Al recorrido también se le conoce como amplitud, rango e intervalo. Definición 2.7. El recorrido intercuartílico es la medida de dispersión obtenida a partir de la diferencia entre el tercer y

primer cuartil, esto es

13 qqRI −= Definición 2.8. La varianza de una población de N observaciones x1, x2,..., xN se define como el promedio del cuadrado de

las desviaciones con respecto a su media.

( )σ

μ2

2

1=−

=∑ x

N

ii

N

Definición 2.9. La varianza de una muestra de n observaciones x1, x2,..., xn se define como la suma del cuadrado de las

desviaciones de las observaciones respecto a su media, dividida entre (n - 1).

( )

11

2

2

−=

∑=

n

xxs

n

ii

Cuando sólo se tienen los datos en forma de tabla de distribución de frecuencias, la fórmula para calcular varianza muestral es la siguiente:

( )

11

2

2

−≈

∑=

n

xxfs

n

imii

Definición 2.10. La desviación estándar de una población de N observaciones x1, x2,..., xN es igual a la raíz cuadrada

positiva de la varianza de esa población.

( )σ

μ=

−=∑ x

N

ii

N2

1

Definición 2.11. La desviación estándar de una muestra de n observaciones x1, x2,..., xn es igual a la raíz cuadrada positiva

de la varianza de esa muestra.

( )

11

2

−=

∑=

n

xxs

n

ii

25

Definición 2.12. El coeficiente de variación de una población de N observaciones x1, x2,..., xN, es una medida de dispersión relativa resultado de dividir la desviación estándar de esa población entre la media de la misma población.

μσ

=CV

Definición 2.13. El coeficiente de variación de una muestra de n observaciones x1, x2,..., xn, es una medida de dispersión relativa resultado de dividir la desviación estándar de esa muestra entre la media de la misma muestra.

xscv =

2.3. Ejercicios propuestos.

1) Haga la distribución de frecuencias relativas condicionales del número de televisores con respecto a la colonia, para los datos del ejemplo 2.1. y su gráfica correspondiente. ¿Qué sentido tiene condicionar por colonia y qué se puede apreciar en el gráfico con respecto a ello?

2) Se realizó una encuesta sobre los hábitos de tabaquismo en la población estudiantil de una universidad pública para comparar el comportamiento diferencial según el género.

Tabla 2.12. Frecuencias absolutas de una encuesta de tabaquismo en la población estudiantil de una universidad

Hábito de tabaquismo Género Nunca ha fumado Dejó de fumar Fuma actualmente Total Masculino 154 25 185 364 Femenino 127 11 38 176 Total 281 36 223 540

a) Obtenga una tabla con las frecuencias relativas condicionales por género. b) Realice la gráfica que más convenga para los fines del estudio. c) ¿Tendría la misma utilidad una gráfica con las frecuencias relativas conjuntas en vez de las condicionales por

género? Explique su respuesta. d) ¿Tendría la misma utilidad una gráfica con las frecuencias relativas condicionales por hábito y una con

condicionales por género? Explique su respuesta.

3) Haga una gráfica de barras agrupadas o en dos dimensiones para los datos de la tabla 2.5 e interprete.

4) Elabore transformaciones de las variables Renta y TVtotal del ejemplo 2.1. y construya las tablas de frecuencias correspondientes.

5) Los siguientes son datos de un análisis coste-efectividad de un tratamiento antirretroviral para pacientes afectados por el virus VIH. Tenemos dos variables de interés: coste del tratamiento (c) medido en euros y la efectividad del tratamiento (e), medida a través de un índice de la calidad de vida.

Tabla 2.13. Datos de coste-efectividad de un tratamiento antirretroviral para pacientes afectados por el VIH.

i c e i c e i c e 1 976.57 12.71 6 955.74 10.59 11 705.96 8.99 2 989.29 11.67 7 1111.74 11.31 12 943.92 10.23 3 937.16 10.76 8 780.86 11.59 13 938.51 13.93 4 952.34 11.21 9 1083.61 11.91 14 915.31 11.67 5 983.06 8.33 10 1130.44 13.13 15 867.05 8.18

a) Realice el diagrama de dispersión e interprete.

26

3. Estimación puntual En lo que resta del módulo estudiaremos cómo los modelos de distribuciones teóricas vistas en los módulos anteriores se utilizan para realizar inferencias de naturaleza estadística sobre el coste de los siniestros y la frecuencia de la siniestralidad, entre otras cantidades de interés en el ámbito actuarial. Realizaremos inferencia estadística paramétrica desde una perspectiva clásica. Esto significa que la población viene descrita a través de una función de distribución de probabilidad conocida, dependiente de un conjunto de parámetros desconocidos que se desean estimar. Por otro lado, toda la información disponible para la estimación de estos parámetros es la contenida en la muestra, de modo que no existe información a priori para la estimación del modelo, como puede ser la obtenida por medio de la experiencia. Comenzaremos con el problema de la estimación puntual, para continuar con el estudio de las propiedades deseables que debe cumplir un estimador, y seguir con los diferentes métodos para la construcción de estimadores. Terminaremos el módulo III con los conceptos básicos sobre contraste de hipótesis. Los siguientes módulos ampliarán y aplicarán los conceptos de estimación y prueba de hipótesis a diferencias técnicas específicas de análisis estadístico. 3.1. Estadísticos y estimadores La población viene especificada a través de una familia paramétrica de funciones de densidad de modo que,

{f(x; θ), θ Œ Θ}. Los elementos del problema son:

• La función de densidad de la población f (x; θ), que es conocida salvo un vector de parámetros desconocidos θ que se desean estimar.

• El vector de parámetros θ. Son cantidades desconocidas y se estiman a partir de los datos. • El espacio paramétrico: Θ. Son los posibles valores que pueden tomar los parámetros.

Para el cálculo o estimación de θ se dispone de una muestra aleatoria simple de observaciones X1, X2,..., Xn procedente de la población de referencia. Las muestras de una población dan origen a las variables X1, X2,..., Xn cuyos valores son, precisamente, los valores de la muestra. Definición 3.1. Supongamos una población {f(x; θ), θ Œ Θ} y una muestra aleatoria simple X1, X2,..., Xn procedente de la población. Se denomina estadístico a cualquier función de las observaciones que no dependa de parámetros desconocidos. Cuando un estadístico se utiliza para estimar el valor de un parámetro, se dice que es un estimador de dicho parámetro. Definición 3.2. Supongamos una población especificada a través de una familia paramétrica de funciones de densidad {f(x; θ), θ Œ Θ} y una muestra aleatoria simple de observaciones X1, X2,..., Xn procedente de la población. El problema de la estimación puntual consiste en elegir un valor del parámetro a partir de los datos de la muestra. El instrumento básico en el proceso de estimación lo constituyen los estimadores. Definición 3.3. Supongamos una población {f(x; θ), θ Œ Θ} y una muestra aleatoria simple X1,..., Xn procedente de esa población. Se denomina estimador del parámetro θ a cualquier función de las observaciones con llegada en el espacio paramétrico, es decir,

( ) Θ∈= nXXθθ ,...,ˆˆ1

27

Veamos algunos ejemplos.

Ejemplo 3.1. Una cantidad de interés es el número de siniestros que ocurren en una determinada cartera, que se supone sigue una distribución de Poisson P(λ). El espacio paramétrico es λ Œ (0, •).

Ejemplo 3.2. Se quiere estimar la proporción de accidentes con heridos graves. La población viene definida por medio de una variable de Bernoulli de parámetro p, donde éxito es que existan heridos graves (lo que ocurre con probabilidad p) y fracaso que no existan (lo que ocurre con probabilidad 1 – p). El espacio paramétrico es p Œ (0,1).

3.2. Criterios de evaluación de estimadores En la práctica podemos tener varios estimadores, y debemos disponer de algún criterio que permita elegir uno de ellos. Cuando construimos un estimador una primera propiedad que se exige es que los errores de estimación, por término medio, se cancelen unos con otros. Además, parece razonable elegir aquel estimador que presente menor dispersión en torno al parámetro, es decir, aquel estimador con menor varianza. Comencemos definiendo estas y otras características deseables en un buen estimador. 3.2.1. Insesgamiento La idea de que los errores de estimación, por término medio, se cancelen unos con otros, nos lleva a la definición de estimador insesgado y sesgo de un estimador. Definición 3.4. (Estimador insesgado y sesgo de un estimador). Un estimador θ̂

del parámetro θ se dice que es

insesgado, si por término medio su valor coincide con el del parámetro, es decir,

( ) .,ˆ Θ∈∀= θθθE En otro caso se dice que θ̂ es un estimador sesgado. Se define el sesgo de un estimador como,

sesgo( θ̂ ) = E( θ̂ ) - θ. El sesgo de un estimador será positivo o negativo dependiendo que el estimador sobreestime o subestime el parámetro. Un sesgo de estimación diferente de cero supone un error sistemático o permanente en la estimación. Definición 3.5. Se dice que un estimador θ̂ es asintóticamente insesgado si al aumentar el tamaño de muestra se convierte en insesgado, es decir si,

( ) .ˆ0

θθElím nn=

Ejemplo 3.3. Supongamos una muestra aleatoria simple X1,..., Xn procedente de una población con E(X) = μ, el parámetro de

interés. La media muestral es siempre un estimador insesgado del parámetro media poblacional μ, es decir ( ) ( ) μXEμE ==ˆ , pues

( ) ( )⎥⎦⎤

⎢⎣⎡ ++= nXXn

EXE ...11

( ) ( )[ ]nXEXEn

++= ...11

( ) μμμ nnn

⋅=++=1...1

.μ=

28

3.2.2. Eficiencia La idea de elegir entre los diferentes estimador aquél que presente menor dispersión en torno al parámetro, es decir, aquel estimador con menor varianza, nos conduce al concepto de eficiencia. Comenzamos definiendo el error estándar de un estimador. Definición 3.6. La desviación estándar de un estimador θ̂ se denomina error estándar del estimador:

.)ˆ(ˆ θVarσθ =

Ejemplo 3.4. A partir de una población con media μ y varianza σ 2, la varianza del estimador media muestral Xμ =ˆ , se obtiene por

( ) ( ) ( )nn XXVarn

XXn

VarXV ++=⎥⎦⎤

⎢⎣⎡ ++= ...1...1

121

( ) ( )[ ]nXVarXVarn

++= ...112

( )222 ...1 σσ ++=

n

.2

=

El error estándar de la media es por tanto,

nnσσσ μ ==

2

ˆ.

La eficiencia relativa permite comparar dos estimadores insesgados y elegir entre ellos. Definición 3.7. Sean 1θ̂ y 2θ̂ estimadores insesgados respecto del parámetro θ. Entonces:

1. Se dice que 1θ̂ es más eficiente que 2θ̂ si Var( 1θ̂ ) < Var( 2θ̂ ). 2. Se define la eficiencia relativa de un estimador con respecto a otro como el cociente de las varianzas:

( )( ) .ˆˆ

1

2

θθ

VarVarrelativa Eficiencia =

Ejemplo 3.5. Consideremos una muestra de tamaño 4 de una población normal N(μ, σ 2), donde se desea estimar la media.

Para ello se consideran los estimadores:

( )

( ).81

41

21

ˆ

,41

ˆ

43211

43211

XXXX

XXXX

+++=

+++=

μ

μ

El estimador 1μ̂ es la media muestral y sabemos que la media de la media muestral es la media poblacional y que la varianza de la media muestral es la varianza poblacional dividida por el número de datos, por tanto:

( ) ( ) .328

4ˆ,ˆ 2

2

11 σσμμμ === VarE

Para el segundo de los estimadores tenemos

( ) ( ) ( ) ( ) ( )( ) ( ) .81

41

21

81

41

21

ˆ 43212 μμμμμμ =+++=+++= XEXEXEXEE

( ) ( ) ( ) ( ) ( )( )43212 64

1161

41

ˆ XVarXVarXVarXVarVar +++=μ

( ) 22222

3211

641

161

41 σσσσσ =+++=

29

La eficiencia relativa es

( )( ) .

118

1132

328

ˆˆ

2

2

2

1 =⋅

⋅=σ

σμμ

VarVar

Puesto que Var( 1μ̂ ) < Var( 2μ̂ ), el estimador 1μ̂ es preferible a 2μ̂ .

El error cuadrático medio (ECM) permite comparar dos estimadores no necesariamente insesgados. El ECM mide la desviación cuadrática media entre el estimador y el parámetro. Definición 3.8. Se define el error cuadrático medio de un estimador θ̂ respecto de un parámetro θ como,

( ) ( ) .ˆˆ 2θθEθECM −= Además, dado que ECM (θ̂ ) = V (θ̂ ) + [sesgo(θ̂ )]2, en el caso que se trabaje con estimadores insesgados el ECM coincide con la varianza del estimador. 3.2.3. Consistencia. La propiedad de consistencia es una propiedad de grandes muestras. Un estimador es consistente si a medida que aumenta el tamaño de muestra el valor del estimador se va acercando al verdadero valor del parámetro desconocido. Definición 3.9. Un estimador nθ̂ se dice que es consistente respecto del parámetro θ si converge en probabilidad hacia dicho parámetro,

( ) .0,1ˆPrlímn

>∀=≤−→∞

εεθθn

La definición anterior equivale a la convergencia en probabilidad. La propiedad de consistencia de un estimador se representa por o bien por plim nθ̂ = θ. El siguiente teorema permite probar fácilmente la propiedad de consistencia. Teorema 3.1. Sea nθ̂ un estimador consistente del parámetro θ, verificando las siguientes condiciones,

(1) Es insesgado o asintóticamente insesgado, es decir:

E( nθ̂ ) = θ , o bien ∞→n

lím E( nθ̂ ) = θ.

(2) La varianza tiende a cero al aumentar el tamaño de muestra:

∞→nlím Var( nθ̂ ) = 0.

Ejemplo 3.6. Supongamos una población f (x; θ) donde la media poblacional esμ y la varianza σ 2 finita. El estimador media

muestral Xμ =ˆ es un estimador consistente de la media poblacional por tratarse de un estimador insesgado con varianza

nσ 2 , que tiende a cero cuando el tamaño de muestra tiende a infinito.

3.2.4. Suficiencia Cuando se elige un estimador para estimar un parámetro, toda la información de la muestra se resume en un único valor. Por tanto, puede ocurrir que estemos perdiendo parte de la información contenida en la muestra. La idea de un estimador suficiente para la estimación de un parámetro θ, es un estimador que en cierto sentido capture toda la información que sobre θ contiene la muestra. En lo que sigue, utilizaremos la notación X para hacer referencia a toda

30

la muestra, es decir, X = (X1,..., Xn). Análogamente, x = (x1,..., xn) representa el vector de toda la observación muestral. Definición 3.10. Un estimador θ̂ = θ̂ (X) se dice que es suficiente para la estimación del parámetro θ, si la distribución condicional de la muestra X dado θ̂ (X) no depende de θ. El criterio de factorización de Fisher es un teorema que expresa que un estimador es suficiente para estimar θ si la función de densidad conjunta se puede escribir como producto de dos funciones, una función que depende sólo de la muestra, y otra que depende del parámetro únicamente a través del estimador suficiente. Teorema 3.2. (Criterio de factorización de Fisher) Sea f (x;θ ) la función de densidad de la muestra. El estimador θ̂ = θ̂ (X) es suficiente para la estimación de θ si y sólo si existen funciones g y h tales que,

f (x;θ) = g(x)h( θ̂ (x),θ),

con g una función no negativa que sólo depende de x y h una función no negativa que depende de θ̂ y θ.

Ejemplo 3.7. Supongamos una muestra procedente de una población tipo Poisson. Veamos que es un estimador

suficiente. La función de densidad de la muestra es:

( ) ( ) ( )nnnn xXxXxXxX ===== PrPr,,Pr 1111 …

!!1

1

n

xx

xe

xe nλλ λλ −−

=

∏=

−∑

==

n

ii

xn

x

e

n

ii

1

!

1λλ

( ) .,

1⎟⎠

⎞⎜⎝

⎛= ∑

=

λn

iixhxg

Luego ∑ =

=λn

i ix1

ˆ es suficiente.

3.3. Métodos de construcción de estimadores En esta sección estudiaremos diversos métodos para la construcción de estimadores. El primero de los métodos se conoce como método de los momentos y responde a la idea de identificar características poblacionales con características muestrales. Históricamente fue uno de los primeros métodos propuestos. A continuación estudiaremos el método de máxima verosimilitud. El método de máxima verosimilitud es uno de los métodos de estimación más ampliamente utilizado y para un gran número de poblaciones proporciona estimadores eficientes y asintóticamente normales. 3.3.1. Método de los momentos Este método responde a la idea de expresar los parámetros del modelo en función de los momentos de la población, para a continuación sustituirlos por sus correspondientes muestrales. Supongamos que la población f (x; θ ) depende de un total de k-parámetros desconocidos de modo que θ = (θ 1,..., θk). Denotamos los momentos de la población como,

αj(θ ) = E(Xj), j = 1,2,..., k. Para la estimación de θ se dispone de una muestra aleatoria simple X1,..., Xn de tamaño n.

Definición 3.11. Un estimador de momentos de θ = (θ 1,..., θk) es cualquier solución del sistema de ecuaciones,

( ) ∑=

=n

i

jij X

nθα

1

1, j = 1, 2,…, k.

∑ ==

n

i ix1

λ̂

31

Ejemplo 3.8. Supongamos que los costes siguen una distribución uniforme U(a, b) donde a < b. Para obtener estimadores de

momentos tenemos que resolver en los parámetros (a, b) el sistema:

( ) ,2

μ=+

=baXE ( ) ( ) ,

122

2

σ=−

=abXVar

donde μ y σ 2 se estimarán con la media y varianza muestral, respectivamente. Resolviendo el sistema anterior obtenemos los estimadores,

,3ˆ sxa −= .3ˆ sxb +=

Siempre que los correspondientes momentos de la población existan, los estimadores de momentos son consistentes. Estos estimadores son insesgados, suponiendo una relación de tipo lineal entre momentos y parámetros. 3.3.2. Máxima verosimilitud Este método de estimación responde a la idea de elegir los valores de los parámetros que hacen máxima la probabilidad de la muestra observada. Consideremos una población dependiente de k parámetros y una muestra de observaciones de tamaño n procedente de esa población. Definición 3.12. Se denomina función de verosimilitud a la función:

L(θ ; x1,…, xn) = f (x1,…, xn; θ ) = f (x1; θ ) … f (xn; θ ) = ∏=

n

i 1

f (xi; θ ).

En consecuencia, la función de verosimilitud equivale a la función de densidad de la muestra, pero ahora vista como función del parámetro. Definición 3.13. Se denomina estimador de máxima verosimilitud (EMV) θ̂ al valor del parámetro que hace máxima la función de verosimilitud:

L( θ̂ ; x1,…, xn) = Θ∈θ

sup L(θ ; x1,…, xn).

El cálculo del estimador de máxima verosimilitud se reduce a calcular el máximo de la función de verosimilitud vista como función de los parámetros. Dada la monotonía de la función logaritmo, a efectos prácticos se suele trabajar con el logaritmo de la función de verosimilitud:

( ) ( ) ( )∑=

==n

iin xfxxL

11 .;log,,;log θθθ …

y si la función anterior es derivable, el máximo debe satisfacer las siguientes ecuaciones, denominadas ecuaciones de verosimilitud:

( ) .,,1,0 kiθθ

i

…==∂

Información El concepto de información (tanto observada como esperada) está relacionado con la eficiencia del estimador, de modo que a mayor información más precisión en el estimador. Sea f(x; θ) un modelo paramétrico y,

( ) ( )θθ ;log xf= el logaritmo de la función de verosimilitud basada en una muestra de tamaño uno. Definición 3.14. En un modelo con logaritmo de la función de verosimilitud {(θ) se denomina cantidad de información esperada a,

32

( ) ( ) .2

2

θθθ

∂∂

−=J

Si tenemos disponible una muestra de n observaciones la cantidad de información observada es

( ) ( ) ( ) ( ),;log;log1

2

2

12

2

2

2

∑∑== ∂

∂−=

∂∂

−=∂

∂−=

n

i

in

ii

xfxfJθ

θθθθ

θθ

puesto que

( ) ( ) ( ) ( )∑∏==

===n

ii

n

iin xfxfxxf

111 .;log;log;,,log θθθθ …

Antes que el experimento o la observación sea realizada no tenemos datos y por tanto no podemos obtener la cantidad de información observada. En este caso se recurre a la cantidad de información esperada de Fisher.

Definición 3.15 En un modelo con logaritmo de la función de verosimilitud {(θ ) se denomina cantidad de información esperada de Fisher a,

( ) ( ) ( ) .2

22

⎟⎟⎠

⎞⎜⎜⎝

⎛∂

∂−=⎟

⎠⎞

⎜⎝⎛

∂∂

θθθθ EEI

Si disponemos de un total de n observaciones tenemos que,

In(θ ) = n In(θ ), donde In(•) significa que la definición se aplica sobre una verosimilitud con n observaciones. Obviamente se verifica que,

I(θ ) = E [(θ )]. Propiedades de los estimadores de máxima verosimilitud Una de las ventajas de los estimadores de máxima verosimilitud es que para la mayoría de las distribuciones de uso práctico, es posible obtener fácilmente los correspondientes estimadores puntuales, junto con sus errores estándar e intervalos de confianza. Se cumple el siguiente resultado. Teorema 3.3. Sea X1,..., Xn una muestra de observaciones procedente de una población con función de densidad f (x;θ ), donde θ es de dimensión k. Si θ̂ es el estimador de máxima verosimilitud de θ, entonces bajo ciertas condiciones de regularidad se verifica que cuando n → •,

( ) ( )( ),;0ˆ 1−⎯→⎯− θθθ In kD N

donde Nk es la función de densidad de una normal k-dimensional y I(θ )–1 la inversa de la matriz de información esperada de Fisher.

El resultado anterior establece que para tamaños de muestra grandes y en poblaciones verificando determinadas condiciones de regularidad, el estimador de máxima verosimilitud es insesgado, consistente, normal y eficiente (la varianza alcanza la cota de Cramer-Rao). El resultado anterior permite además obtener intervalos de confianza aproximados para los parámetros del modelo, por medio de las distribuciones marginales de θ donde se verifica que,

θ̂ r ≈ N(θr,ψrr), r = 1, 2, …, k con ψrr el elemento (r, r) de I(θ )–1 evaluado en el estimador de máxima verosimilitud. Un intervalo de confianza aproximado (cuando n → •) para θr es,

33

rrzθ ψα 2/1ˆ

−± o bien

rrzθ ψα ˆˆ2/1−±

En muchos casos podemos encontrar el estimador de máxima verosimilitud analíticamente. Sin embargo, en otras ocasiones debemos recurrir a métodos numéricos. 3.3.3. Mínimos cuadrados Este método se revisará en el Módulo V, dándose aquí sólo una pequeña introducción. El método de cuadrados mínimos es un método de ajuste de curvas que sugirió el matemático francés Adrien Legendre a principios del siglo XIX. Suponga que va a observar dos variables relacionadas a través de un modelo de regresión lineal simple

xxY βαμ +=| . Para determinar α̂ y β̂ , los estimadores de α y β, se procede de tal manera que la suma del cuadrado de las diferencia entre los valores observados de Y y su estimación, SCE por suma de cuadrados del error, sea la mínima, es decir

[ ] ( )[ ]∑∑∑===

+−=−==n

iii

n

iii

n

ii xyyyeSCE

1

2

1

2

1

2 ˆˆˆ βα

sea un mínimo. Para obtener tales estimadores se diferencia la expresión anterior parcialmente con respecto a α̂ y β̂ como sigue:

( )[ ]∑=

+−−=∂

∂ n

iii xySCE

1

ˆˆ2ˆ

βαα

y

( )[ ]∑=

+−−=∂

∂ n

iiii xyxSCE

1

ˆˆ2ˆ βαβ

Igualando a cero estas derivadas se obtiene el siguiente sistema de ecuaciones normales:

∑∑==

⋅+=n

ii

n

ii xny

11

ˆˆ βα

∑∑∑===

⋅+⋅=n

ii

n

ii

n

iii xxyx

1

2

11

ˆˆ βα

Al resolver este sistema de ecuaciones se encuentra que los estimadores de cuadrados mínimos de α y β son:

2

11

2

111ˆ

⎟⎠

⎞⎜⎝

⎛−⎟

⎞⎜⎝

⎟⎠

⎞⎜⎝

⎛⎟⎠

⎞⎜⎝

⎛−⎟

⎞⎜⎝

=

∑∑

∑∑∑

==

===

n

ii

n

ii

n

ii

n

ii

n

iii

xxn

yxyxnβ

n

xyn

ii

n

ii ∑∑

==

⋅−= 11

ˆˆ

βα

34

3.4. Estimación insesgada Estimación eficiente de la varianza En este apartado vamos a ver algunos resultados que nos indican cómo obtener estimadores con la menor varianza posible. Comenzamos con la definición de estimador insesgado de varianza mínima. Definición 3.16. Un estimador θ̂ * se dice que es insesgado uniforme de varianza mínima si verifica las siguientes condiciones: a) Es insesgado: E( θ̂ *) =θ, " θ Œ Θ,

b) Posee la menor varianza dentro de la clase de los estimadores insesgados, es decir si θ̂ es estimador insesgado de θ, entonces,

Var( θ̂ *) ≤ Var (θ ), " θ̂ . El siguiente resultado proporciona una cota para la varianza de un estimador insesgado. Teorema 3.4. (Cota de Cramér-Rao) Sea θ̂ n un estimador insesgado del parámetro g (θ) , es decir, E( θ̂ n) = g(θ). Entonces, bajo condiciones generales sobre la población, se verifica la siguiente cota para la varianza del estimador,

( ) ( )[ ]( )

( )[ ]( ) .''ˆ

22

θnIθg

θIθgθVar

nn =≥

Definición 3.17. (Estimador eficiente) Un estimador θ̂ n se dice que es eficiente respecto del parámetro g(θ) si su varianza alcanza la cota de Cramer-Rao, es decir si,

( ) ( )[ ]( ) .'ˆ

2

θIθgθVar

nn =

Un estimador eficiente es de mínima varianza, pero no todo estimador de mínima varianza es eficiente, puesto que puede no tener sentido obtener la cota de Cramer-Rao al no ser la población regular. Definición 3.18. Una familia de funciones de densidad se dice que es completa si,

E[T(X)] = 0 " θ Œ Θ î T(X) = 0. Un estadístico se dice que es completo si la familia de distribuciones que induce es completa.

35

3.5. Ejercicios propuestos:

1) Se desea estimar el coste de un siniestro. Una posible elección para la distribución de los costes es una distribución de tipo log-normal LN(μ, σ

2). Obtener el espacio paramétrico.

2) Supongamos ahora que estamos interesados en la estimación del parámetro varianza de la población Var(X) = σ 2, a partir de una muestra de observaciones. Un estimador natural es la varianza muestral

( )∑ =−=

n

i in μXs1

212* . Probar que:

( ) 22 1* σn

nsE −=

y por tanto s2* no es insesgado de σ 2.

3) Demuestre que ( ) ( ) ( )[ ]2ˆˆˆ θsesgoθVθECM += .

4) Elegimos una muestra de tamaño n procedente de una población exponencial con función de densidad: f (x;θ ) = (1/θ)e–x/θ. Probar que el estimador ∑ =

=n

i ixθ1

ˆ es suficiente.

5) A partir de una muestra de tamaño 3 procedente de una población Bernoulli de parámetro p, se consideran los estimadores:

,3

ˆ 3211

XXXp ++=

,3

1ˆ 21

2++

=XXp

.4

2ˆ 321

1XXXp ++

=

a) Halle el sesgo, la varianza y el error cuadrático medio de los tres estimadores. b) ¿Cuál de los tres estimadores es preferible en términos del ECM? c) Si para la selección del estimador se exige que sea insesgado, ¿cuál es preferible?

6) La población de los coste es de tipo exponencial con función de densidad f1(x;θ ) = (1/θ)e–x/θ, x > 0. Estime θ por el método de los momentos.

7) Supongamos que el coste es de tipo log-normal LN(μ, 20σ ), donde 2

0σ es conocido. Estime μ por el método de los momentos.

36

4. Estimación por intervalo La estimación puntual de un parámetro no resulta de mucho valor si no se posee alguna medida del posible error cometido en la estimación. Toda estimación θ̂ de un parámetro θ debería acompañarse de cierto intervalo que incluyera a θ, p. ej., de la forma ( θ̂ – d, θ̂ + d), junto con alguna medida de seguridad de que el parámetro verdadero θ fuera interior a dicho intervalo.

4.1. Intervalo aleatorio e intervalo de confianza Intervalo de confianza Consideremos una población descrita a través de una función de densidad dependiente de un parámetro θ, { f (x; θ ), θ Œ Θ} y una muestra aleatoria simple X = (X1,...,Xn) procedente de esa población. Definición 4.1. Se dice que (T1 (X), T2 (X)) es un intervalo de confianza para θ al nivel de confianza 1 – α si:

Pr (T1 (X) ≤ θ ≤ T2 (X)) ≥ 1 – α, " θ Œ Θ. Los extremos del intervalo se pueden considerar como estimadores por exceso y por defecto del parámetro. La probabilidad 1 – α se le denomina nivel de confianza y al término a error. Los valores que se eligen para el error suelen ser 0.05 y 0.01 y por tanto los niveles de confianza usuales son 0.95 y 0.99, respectivamente. Nótese que las variables aleatorias están en los extremos del enunciado probabilístico definido como intervalo de confianza y que θ es una constante desconocida. En este caso se puede decir que el intervalo (T1, T2) es un intervalo aleatorio para θ y que θ pertenece al intervalo con probabilidad 1 – α. Como T1 y T2 son variables aleatorias cuyos valores dependen de la muestra, entonces, al observar una de las muestras aleatorias, se puede calcular el valor observado t1 y t2 de las estadísticas anteriores. Sin embargo, con estos valores observados no podemos calcular probabilidades del tipo del enunciado definido como intervalo de confianza, ya que tanto t1, t2 y θ son constantes. Es por eso que algunos llaman al intervalo (T1, T2) intervalo aleatorio, mientras que el intervalo (t1, t2) recibe el nombre de intervalo de confianza para θ y se dice que θ pertenece al intervalo con una confianza de 1 – α, esto es, el (1 – α)100% de todos los intervalos calculados a partir de cada una de las posibles muestras contienen el verdadero valor de θ. 4.2. Métodos para construir un intervalo de confianza A continuación se mencionarán solo dos métodos para construir intervalos de confianza. El primero es el método pivotal, el más empleado pero con restricciones en su construcción. El segundo, llamado método general, aunque de aplicación más general por construcción, no es tan empleado pues el primero satisface las necesidades más comunes de la mayoría de los usuarios de la estadística. 4.2.1. Método pivotal El método del pivote es uno de los métodos habituales para construir intervalos de confianza exactos. Definición 4.2. Se dice que T(X, θ) es una función pivote si verifica tres condiciones:

• Es estrictamente monótona respecto del parámetro θ.

• Es posible despejar θ.

• Su distribución de probabilidad no depende de θ.

37

Para la obtención de un intervalo de confianza y una vez disponible una función pivote, se elige un nivel de confianza, y se calculan dos constantes λ1 y λ2 tales que:

Pr(λ1 ≤ T(X, θ ) ≤ λ2) = 1 – α. Nótese que λi, i = 1, 2 dependen únicamente del error y no del parámetro. A continuación si se despeja el valor de θ en las dos desigualdades obtenemos un intervalo de confianza para θ .

Ejemplo 4.1. Sea X1,..., Xn una muestra aleatoria simple procedente de una población normal N(μ, σ 2), donde la varianza σ 2 es conocida. Probar que:

⎟⎠⎞

⎜⎝⎛ +−

−− nX

nX σσ

αα22

11, zz , (4.1)

es un intervalo de confianza para μ, al nivel de confianza 1 – α, donde z1–α/2 representa el percentil de orden 1 – α/2 de una distribución N(0, 1), es decir Φ (z1–α/2) = 1 – α/2. Solución: Puesto que Xi ~ N(μ, σ 2), se sigue que X ~ N(μ, σ 2/n), de donde estandarizando:

nXσ

μ−~ N(0, 1).

La expresión anterior es una función pivote, puesto que es monótona respecto a μ, es posible despejar este parámetro y su distribución es N(0, 1) que no depende de μ. Ahora, puesto que la distribución N(0, 1) es simétrica respecto del 0, buscamos una constante a tal que:

Pr ⎟⎟⎠

⎞⎜⎜⎝

⎛≤

−≤− a

nXaσ

μ = 1 – α, (4.2)

y por tanto el valor a verifica:

Pr (Z ≤ a) = 1 – 2α ,

de donde a = z1–α/2. Ahora, si en (4.2) despejamos μ, se obtiene:

Pr ⎟⎠⎞

⎜⎝⎛ +≤≤− −− n

Xn

X σμσαα22 11 zz = 1 – α,

que es el intervalo de confianza para μ.

La precisión de un intervalo de confianza viene asociada a su longitud, de modo que los intervalos más precisos son los de menor longitud. La longitud del intervalo (4.1) es:

n

σα212 −z .

Por tanto, la longitud del intervalo depende del nivel de confianza 1 – α, de la desviación estándar de la población σ y del tamaño de muestra n. Notar que el punto medio del intervalo es X, que es el estimador puntual de μ. El intervalo de confianza (4.1) es igualmente aplicable a cualquier tipo de población (con varianza σ 2 conocida), siempre que el tamaño de muestra sea grande (n > 30) y la media exista. Como se puede ver, al aumentar el tamaño de muestra, se obtiene un intervalo más preciso. Veamos el intervalo de confianza para la media en el caso de que el tamaño de muestra sea pequeño y la varianza de la población desconocida.

38

Ejemplo 4.2. Sea X1,..., Xn una muestra aleatoria simple procedente de una población normal N(μ, σ 2), donde μ y σ 2 son parámetros desconocidos. Probar que entonces:

⎟⎠⎞

⎜⎝⎛

−+

−−

−− 1,

1 22;1;1 n

StXnStX

nn αα

es un intervalo de confianza para n al nivel de confianza 1 – α, donde tn:α es un valor tal que Pr(tn ≥ tn:α) = α, siendo tn la distribución t de Student con n grados de libertad. Solución: Partimos de una muestra Xi ~ N(μ, σ 2), i = 1, 2, …, n y los dos parámetros son desconocidos. La distribución de la media muestral es normal X ~ N(μ, σ 2/n) y la de la varianza nS2/σ 2 ~ 2

1−nχ y se trata de estadísticos independientes. Construimos el estadístico:

1−−nS

X μ ~ tn–1,

que se distribuye como una t de Student con n – 1 grados de libertad y su distribución no depende de σ, sólo de μ. Por tanto disponemos de una función pivote para la estimación por intervalo de μ. Ahora, puesto que la distribución de la t de Student es simétrica respecto del 0, buscamos una constante a verificando:

Pr ⎟⎟⎠

⎞⎜⎜⎝

⎛≤

−−

≤− anS

Xa1

μ = 1 – α, (4.3)

de donde la constante a = tn–1;α/2 es tal que:

Pr (tn–1 ≥ tn–1;α/2) = 2α .

Finalmente, despejando p, en (4.3), obtenemos el resultado.

En el caso de tamaños muéstrales grandes (n > 30), tenemos el intervalo de confianza:

⎟⎠⎞

⎜⎝⎛

−+

−−

−− 1,

1 2211 n

SXnSX αα zz

donde S representa la desviación estándar muestral. Este intervalo de confianza se puede aplicar como aproximación a cualquier población, no necesariamente normal, siempre que el tamaño de muestra sea grande (n > 30) y la media poblacional exista. 4.2.2. Método general El método utilizado en las secciones anteriores para la determinación de intervalos y regiones confidenciales obliga a encontrar funciones de la muestra y de los parámetros, distribuidas independientemente de estos. No obstante, es posible establecer intervalos confidenciales sin tener en cuenta la existencia previa de tales funciones. Dada una población por f (x; θ ) y un estimador θ̂ ( X1,..., Xn) para muestras de tamaño n (generalmente, se usaría el estimador de máxima verosimilitud), determinaremos la distribución del estimador, que vendría dada por g( θ̂ ; θ ). Supongamos, para fijar ideas, que se desea un intervalo confidencial del 95%. Si se sustituye θ, en g( θ̂ ; θ ), por el número arbitrario θ ’, la distribución de θ̂ quedará completamente especificada, y será posible dar enunciados probabilísticos relativos a θ̂ . En particular, sería posible hallar dos números h1, y h2 tales que

( ) ( ) 025.0ˆ;ˆˆ 1

1 ==< ∫ ∞−θθθθ d'ghP

h

( ) ( ) 025.0ˆ;ˆˆ2

2 ==> ∫∞

hd'ghP θθθθ

39

Claro es que los números h1, y h2 dependerían del número que sustituye a θ en g( θ̂ ; θ ). En efecto, h1, y h2 son ciertas funciones de θ, esto es h1(θ ) y h2(θ ). Los valores de estas funciones para cualquier valor de θ vienen determinados por las dos ecuaciones anteriores. Evidentemente,

( ) ( )[ ] ( )( )

( )95.0ˆ;ˆˆ 2

121 ==<< ∫ θθθθθθ

θ

θdghhP

h

h

Las funciones h1(θ ) y h2(θ ) pueden representarse en función de θ, como se ha hecho en la figura 4.1. Trazando una vertical por cualquier valor θ ’ de θ, esta cortará a ambas curvas en puntos que, proyectados sobre el eje de las θ̂ , darán límites entre los cuales caerá θ̂ , con probabilidad de 0.95. Construidas las dos curvas θ̂ = h1(θ ) y θ̂ = h2(θ ), cabe obtener un intervalo confidencial para θ del

siguiente modo: Se extrae una muestra de tamaño n y se calcula el valor del estimador ,θ̂ . La horizontal trazada por

el punto ,θ̂ del eje θ̂ (Fig. 4.1) cortará a ambas curvas en puntos que pueden proyectarse sobre el eje θ y que llamaremos θ 1 y θ 2, según se indica en la figura. Estos dos números definen el intervalo confidencial, pues se ve fácilmente que

P(θ 2 < θ < θ 1) = 0.95 Supongamos que estuviésemos extrayendo muestras de una población en que el valor de θ fuese θ ’. La probabilidad de que la estimación θ̂ quede comprendida entre h1(θ ’) y h2(θ ’) es 0.95. Si la estimación cae entre estos dos límites, dicha horizontal cortará a la vertical trazada por θ ’ en cierto punto situado entre las curvas, y el intervalo correspondiente (θ 2, θ 1) cubrirá a θ ’.

Fig. 4.1. Método general de estimación por intervalo.

Si la estimación no cae entre h1(θ ’) y h2(θ ’), la horizontal no cortará a la vertical entre las curvas, y el intervalo correspondiente (θ 2, θ 1) no cubrirá a θ ’. Se deduce, por tanto, que la probabilidad de que un intervalo (θ 2, θ 1), construido por este método, cubra a θ ’, es exactamente 0.95. Esta afirmación es cierta cualquiera que sea el valor de θ en la población. 4.3. Ejercicios propuestos:

1) Supongamos que X1,…, Xn1 constituye una muestra aleatoria simple de una población B(1, φ1) y que Y1,…,Yn1

es una muestra aleatoria simple de una población B(1, φ2), con tamaños muestrales grandes y bajo la hipótesis de independencia entre las muestra, y que el actuario está interesado en comparar las cantidades φ1 y φ2. Construya un estimador por intervalo para la diferencia de proporciones (considere una distribución asintótica normal).

θ̂

'θ̂

( )'θh1

( )'θh2

( )θh2 ( )θh1

1θ2θ θ

40

2) Suponiendo que el valor catastral del hogar del ejemplo 2.1 (pág. 9) se distribuyera de manera normal, obtenga una estimación por intervalo de la diferencia de medias de tal variable entre las colonias muestreadas, con un 1 – α = 0.99, suponiendo varianzas iguales.

3) Obtenga un intervalo de confianza del 95% para el cociente de varianzas de la variable del inciso anterior y comente si fue correcto el supuesto de igualdad.

4) Supongamos que una empresa aseguradora dispone de dos filiales y desea contrastar si el porcentaje de reclamaciones recibidas en cada filial puede considerarse iguales o si tenemos evidencia de que en una de ellas es mayor que en otra. Los datos observados son: n1 = 30 con 14 reclamaciones en la filial 1 y n2 = 40 con 24 reclamaciones para la filial 2. Plantee el uso de un intervalo de confianza para la diferencia de proporciones para ver si hay una diferencia en las proporciones entre las filiales, calcúlelo, con un 1 – α = 0.95, e interprételo.

5. Prueba de hipótesis Otra de las situaciones prácticas en el análisis de datos, consiste en la confirmación o no (en términos probabilísticos) de ciertas conjeturas que puedan hacerse sobre los parámetros de las distribuciones o directamente sobre los modelos que generan los datos. La herramienta estadística para este tipo de análisis lo constituyen los contrastes o pruebas de hipótesis. Supongamos que disponemos de una muestra aleatoria simple X = (X1,..., Xn) procedente de una población especificada en forma paramétrica por un familia de densidades {f(x; θ) : θ Œ Θ}. Hablaremos de una hipótesis paramétrica para hacer referencia a una afirmación acerca del parámetro desconocido θ Œ Θ. Pues bien, en un contraste o prueba de hipótesis paramétrico, existen dos hipótesis:

H0 : θ Œ Θ0, denominada hipótesis nula y

Ha : θ Œ Θa, denominada hipótesis alternativa, donde Θ0 y Θ1 son dos subconjuntos del espacio paramétrico, tales que: Θ0 U Θa = Θ, y Θ0 ∩ Θa = ∆.

5.1. Hipótesis estadística: simple y compuesta De forma resumida denotaremos por H0 : θ Œ Θ0 vs Ha : θ Œ Θa, a una prueba de hipótesis genérica. En función de los conjuntos Θ0 y Θa, existen diversos tipos de contrastes. Así por ejemplo, si Θ0 (equivalentemente, Θa) contiene un sólo elemento, Θ0 = {θ0}, hablaremos de hipótesis nula simple (equivalentemente, hipótesis alternativa simple, para el caso Θa = {θa}. Observemos que para el caso de hipótesis nula simple frente a alternativa simple la distribución poblacional queda perfectamente especificada bajo cualquiera de las hipótesis. En caso contrario, se habla de hipótesis compuestas. El problema del contraste de hipótesis consiste en una regla de decisión que permita rechazar la hipótesis nula a la luz de los datos observados. La regla de decisión se hace por medio de la región crítica. 5.2. Región crítica Definición 5.1. Se denomina región crítica a un subconjunto C de modo que si x Œ C, rechazaremos la hipótesis nula H0 y aceptaremos Ha si x œ C, no se rechaza la hipótesis nula H0.

41

5.3. Errores tipo I y II Existen dos tipos de errores que pueden cometerse cuando se sigue un procedimiento como el descrito anteriormente, conocidos como error tipo I y error tipo II. Las posibles situaciones que se presentan en un contraste aparecen resumidas en la tabla 5.1.

Tabla 5.1: Situaciones en un contraste de hipótesis

Situación real H0 es cierta H0 es falsa No se rechaza H0 Decisión correcta Error tipo II Se rechaza H0 Error tipo I Decisión correcta

El error tipo I es el que se comete cuando se rechaza H0 siendo cierta y su probabilidad vendrá dada por

Pr (error tipo I) = Pr (rechazar H0|H0 cierta) = Pr (X Œ C\H0) = α, y el error tipo II es el que se comete al aceptar H0 cuando es falsa, siendo su probabilidad asociada

Pr (error tipo II) = Pr (aceptar H0|H0 falsa) = Pr (X œ C\Ha) = β.

En consecuencia, se deben considerar regiones críticas con ambas probabilidades de error cercanas a cero. Sin embargo, esta situación no es posible y lo que se hace es limitar la probabilidad de error tipo I a una cantidad pequeña asignada previamente (habitualmente: 0.05; 0.01 ó 0.001) y construir un procedimiento de contraste que tenga la menor probabilidad de error tipo II. Observemos que estas probabilidades tendrán un valor único para el caso de hipótesis nula y alternativa simple, y que serán funciones del parámetro θ en el caso compuesto. Reformulando el problema en los términos anteriores, introducimos los siguientes conceptos. 5.4. Función potencia Definición 5.2. La función potencia de una prueba con región crítica C, para el contraste H0 : θ Œ Θ0 vs Ha : θ Œ Θa, es la función que a cada valor de θ Œ Θ le hace corresponder el valor de la probabilidad de rechazar H0, Pr(C|θ). Definición 5.3 El nivel de significancia o tamaño de una prueba de hipótesis con región crítica C, para el contraste H0 : θ Œ Θ0 vs Ha : θ Œ Θa, es la probabilidad máxima de cometer un error tipo I, es decir, el valor

( ).|Prmáx0

θαθ

CΘ∈

= Observemos pues que con estas definiciones interesarán contrastes cuya región crítica tenga un nivel de significancia pequeño y potencia grande. Fijado un nivel de significancia, existirán una gran variedad de regiones críticas para el contraste. Nos interesará aquella de mayor potencia cuando θ Œ Θa. 5.5. Lema de Neyman-Pearson En definitiva, un problema central en los contrastes de hipótesis es la construcción de regiones críticas. En general, vemos que una prueba es cualquier función que asigna un valor entre 0 y 1 (interpretado como la probabilidad de rechazar H0) a cada uno de los resultados x del espacio muestral. A continuación presentamos el lema de Neyman-Pearson que identifica el procedimiento para la construcción una prueba más potente en el caso de hipótesis nula simple frente a alternativa simple, es decir: H0 : θ = θ0 vs Ha : θ = θa, (5.1) donde denotaremos por f0(x) y fa(x) a las verosimilitudes bajo cada una de las hipótesis.

42

Teorema 5.1. (Lema de Neyman-Pearson)

1. Cualquier prueba ψ(x) definida de la forma

( ) ( )( ) ( )( ) ( )( ) ( )⎪

⎪⎨

<=>

=, si, si, si

,0,γ

,1

0

0

0

xxxxxx

xxkffkffkff

a

a

a

ψ (5.2)

para algún k ≥ 0 y 0 ≤ γ (x) ≤ 1, es la más potente de su tamaño para el contraste de hipótesis nula simple frente a alternativa simple propuesto en (5.1).

2. Dado 0 ≤ α ≤ 1, existe una prueba de la forma dada en (5.2) con γ (x) = γ (constante) con tamaño α.

Además, si la familia de verosimilitudes admite un estadístico suficiente T, entonces la prueba de Neyman-Pearson puede escribirse en función de dicho estadístico T.

Ejemplo 5.1. Deseamos conocer la proporción φ de asegurados de una cartera que presentarán alguna reclamación a lo largo del presente año. Para ello se observa una muestra aleatoria simple X1,..., Xn de una distribución B(1, φ), es decir Bernoulli de parámetro φ. Realizar el contraste

H0 : φ = φ0 vs Ha : φ = φa, Aplicarlo al caso particular, n = 10, φ0 = ½, φa = ¾. Solución: De acuerdo al lema de Neyman-Pearson, debemos calcular el cociente fa(x)/ f0(x):

( )( )

( )( )

xn

a

xn

axnnxn

xnna

xnaa

ff

⎟⎟⎠

⎞⎜⎜⎝

⎛−−

⎟⎟⎠

⎞⎜⎜⎝

⎛=

−−

=00000 1

111

φφ

φφ

φφφφ

xx ,

siendo ∑ ==

n

i in xx1

1 la media muestral. Ahora bien, podemos considerar que φa > φ0 (el razonamiento es análogo para el

caso φa < φ0 ) y en tal situación tenemos que el cociente γ(x) = fa(x)/ f0(x) es función creciente del argumento nx o

equivalentemente del estadístico ∑ =

n

i ix1 , y en consecuencia la prueba de tamaño α más potente tendrá la expresión,

( )⎪⎪⎩

⎪⎪⎨

=

>

= ∑∑

=

=

, caso otroen , si

, si

,0,γ,1

1

1

kx

kxn

i i

n

i i

Los valores k y γ los determinaremos de la relación ⎟

⎞⎜⎝

⎛=+⎟

⎞⎜⎝

⎛>= ∑∑

==

n

ii

n

ii kXkX

10

10 |Pr|Pr φγφα (5.3)

Ahora bien, para el caso que nos ocupa ∑ =

n

i iX1

~ B(n, φ), y la expresión (5.3) puede escribirse como

( ) ( ) knkn

ki

ini

kn

in −

+=

− −⎟⎟⎠

⎞⎜⎜⎝

⎛+−⎟⎟

⎞⎜⎜⎝

⎛= ∑ 00

100 11 φφγφφα (5.4)

Para el caso φ0 > φa, la prueba es análoga:

( )⎪⎪⎩

⎪⎪⎨

=

<

= ∑∑

=

=

, caso otroen , si

, si

,0,γ,1

1

1

kx

kxn

i i

n

i i

43

Para el caso propuesto, n = 10, φ0 = 1/2 y φa < = 3/4, la relación (5.4) resulta

1010

1

10

2110

2110

05.0 ⎟⎠⎞

⎜⎝⎛

⎟⎟⎠

⎞⎜⎜⎝

⎛+⎟

⎠⎞

⎜⎝⎛

⎟⎟⎠

⎞⎜⎜⎝

⎛= ∑

+= kikiγ

de donde deduciremos los valores de k y γ a través de las tablas de la distribución Binomial o de cualquier hoja de cálculo o software estadístico. Para el caso que nos ocupa en este ejemplo hemos utilizado Excel. En este caso se obtiene k = 8 y

γ = 0.89 y por tanto la prueba rechazará H0 : φ0 = 1/2 cuando ∑ =

10

1i ix > 8 y no rechazará H0 cuando sea menor o igual que

7. Rechazará también H0 con probabilidad 0.89 cuando ∑ =

10

1i ix = 8. Observemos que el procedimiento es muy intuitivo (en ambos casos, φa > φ0 ó φa < φ0), en el sentido de que sólo tenderemos a rechazar la hipótesis nula en favor de la alternativa cuando exista una clara evidencia en contra.

Ejemplo 5.2. Las cantidades reclamadas por una empresa aseguradora se distribuyen según una normal de media μ y varianza σ 2. Observada un muestra aleatoria simple de tamaño n, deseamos realizar el contraste

H0 : μ = μ0, σ 2 = 20σ vs Ha : μ = μa, σ 2 = 2

0σ . Específicamente, para α = 0.05 contrastar:

H0 : μ = 18, σ 2 = 2 vs Ha : μ = 20, σ 2 = 2, para los datos: 18.06; 17.33; 21.13; 17.98; 17.12; 16.11; 20.29; 15.95; 18.00; 17.58. Solución: En primer lugar, al tratarse de una distribución continua tendremos una prueba no aleatorizada y de acuerdo al lema de Neyman-Pearson para una prueba de máxima potencia tendremos que realizar las comparaciones entre fa(x) y f0(x). En este caso el cociente será del tipo

( ){ }( ){ } ,

exp

exp

12

021

12

21

20

20 k

x

xn

i i

n

i ai>

−−

−−

∑∑

=

=

μ

μ

σ

σ

o equivalentemente

( ) ( ) .2

1log2

11

202

01

220

∑∑==

−−−>−−n

ii

n

iai xkx μ

σμ

σ

Desarrollando la expresión anterior tenemos

( ) ( ) .log2 20

220

10 knx a

n

iia σμμμμ >−+− ∑

=

Si ahora suponemos que μa > μ0 se tiene que esta última expresión equivale a x > c, siendo c una constante a deducir que depende de 2

0σ , μ0, μa, n y k. Por tanto la región crítica de la prueba será C = { x > c}. El valor c se deduce entonces de

,Pr0

0⎟⎟⎠

⎞⎜⎜⎝

⎛ −>=

ncZσ

μα

donde Z ~ N(0, 1), (ya que X ~ N (μ, σ0/ n )). En general, se tiene que el valor de c se deduce de las tablas teniendo en cuenta la igualdad

.00 n

c σμ αz+=

44

Para el caso particular n = 10, μ0 = 18, μa = 20 y 20σ = 2, tenemos x = 17.955. Además el valor de c será

c = 18 + zα 2.0 = 18.7356, deducido de las tablas de la distribución normal estándar donde z0.95 = 1.645. En consecuencia, puesto que x < c, no rechazamos la hipótesis nula.

Dado un nivel de significancia o tamaño para la prueba, el procedimiento de Neyman-Pearson construye la prueba de mayor potencia con dicho nivel α. En ocasiones, este hecho de disponer de un nivel prefijado (0.05; 0.01 ó 0.001 habitualmente) ha sido criticado pues puede ocurrir, en la práctica, que una prueba de hipótesis sea rechazada a un nivel α1 dado y aceptada con otro nivel α2 < α1. De hecho, una prueba estadística ψ(x) (equivalentemente su estadístico T asociado) se construye teniendo siempre presente que la distribución en el muestreo de T (bajo la hipótesis nula) f (T\H0) debe ser conocida y, en caso de que H0 sea compuesta, la misma para todos los valores θ Œ Θ0. Además valores grandes de T nos indicarán evidencia contra H0. Surge así el concepto de valor-p. Definición 5.4. Observado x = (x1,..., xn), denominaremos valor-p para una prueba de hipótesis dada, a la probabilidad (condicionada a H0) de que en repetidas muestras, el valor del estadístico T sea mayor que el valor observado t(x), esto es:

( )( )∫∞

=xt

dtHtfp .| 0

Observemos por tanto, que valores pequeños para p podemos interpretarlos como una fuerte evidencia para rechazar H0. Hoy día la mayoría de los paquetes informáticos para el análisis estadístico de datos presentan este valor para cada una de las pruebas más usuales. Así el resultado de un caso particular, puede venir expresado en términos del valor-p obtenido, derivándose entonces todos los niveles de significación para los que H0 debe ser rechazada. Se rechazará la hipótesis nula si el valor-p es menor o igual al nivel de significancia adoptado por el experimentador.

Ejemplo 5.3. (Continuación ejemplo 5.1.) Para el caso del ejemplo 5.1 encontrar el valor-p asociado a las observaciones muestrales dadas.

Solución: Puesto que bajo la hipótesis nula T(X) = ∑ =

n

i iX1

~ B(n, φ0) debemos calcular ( )∑ =

n

xtjPr(T = j), cantidad que se

deducirá de las tablas de una distribución B(10, 1/2). Por ejemplo, si observamos 6 reclamaciones el valor-p se deduciría de la expresión: Pr (T ≥ 6), obtenida de la distribución binomial bajo la hipótesis nula. En concreto, en este caso vale 0.37695. Luego para α = 0.37695 sería el nivel de significancia más pequeño que nos hubiera permitido rechazar la hipótesis nula. Vemos que con los tamaños usuales (0.05; 0.01; 0.001) la hipótesis nula no se rechaza.

Ejemplo 5.4. (Continuación ejemplo 5.2) Para el caso del ejemplo 5.2 encontrar el valor-p asociado a las observaciones muestrales dadas. Solución: Puesto que bajo la hipótesis nula T(X) = X ~ N (18, 1/5) debemos calcular

( )∫∞

==−955,17

,54007,0valor dttp φ

donde φ(t) es la densidad de una distribución Normal con media 18 y varianza 1/5 o equivalentemente Z = 5 (T – 18) ~ N(0, 1), y cuyo valor 0.54007 puede deducirse de las tablas de la normal. En definitiva, α = 0.54007 sería el nivel de significancia más pequeño que nos hubiera permitido rechazar la hipótesis nula.

5.6. Pruebas unilaterales, bilaterales y prueba uniformemente más potente En la práctica, junto con las hipótesis simples suelen darse situaciones como las siguientes: H0 : θ ≤ θ0 vs Ha : θ > θ0, o bien H0 : θ ≥ θ0 vs Ha : θ < θ0, o cualquier otra variante similar, así como contrastes del tipo H0 : θ = θ0 vs Ha : θ ≠ θ0. Hablamos de pruebas unilaterales en la primera situación y de pruebas bilaterales en la segunda. En estas situaciones la solución dada en el lema de Neyman-Pearson tan sólo es posible en algunas situaciones particulares, ya que en general no podemos definir una prueba o contraste uniformemente más potente como vemos en el siguiente ejemplo.

45

Ejemplo 5.4. (No existencia de un contraste uniformemente más potente) Supongamos que x = (x1,..., xn) constituye una muestra aleatoria simple de una población N(μ, 1). En tal caso, la región crítica definida por C1 = { }nx 282,1

0:x >− μ

define una prueba uniformemente más potente para el contraste H0 : μ ≤ μ0 vs Ha : μ > μ0, con nivel de significancia α = 0.10. Análogamente, la región C2 = { }nx 282,1

0:x >−μ define una prueba uniformemente más potente para el contraste

H0 : μ ≥ μ0 vs Ha : μ < μ0, con el mismo nivel de significancia. En consecuencia, y puesto que las regiones críticas son diferentes, se sigue que no existe una prueba uniformemente más potente para el contraste H0 : μ = μ0 vs Ha : μ ≠ μ0 para esta situación.

El ejemplo 5.4 muestra que en general no existe una prueba bilateral para esta situación. 5.7. Prueba del cociente de verosimilitud Como hemos visto anteriormente el diseño de contrastes de máxima potencia no siempre es posible. A partir del procedimiento de Neyman-Pearson para hipótesis nula simple frente alternativa simple los demás procedimientos intentan en la medida de lo posible proporcionar métodos similares. En muchas situaciones prácticas necesitaremos de algún procedimiento de contraste de aplicación general. De entre estos métodos, el más importante es el conocido como prueba de razón de verosimilitudes que para el caso de hipótesis nula simple frente alternativa simple coincide con el procedimiento de Neyman-Pearson. La prueba de razón de verosimilitudes está diseñada para aquellas situaciones genéricas de espacio paramétrico Θ Ã —k(k ≥ 1) en que deseemos realizar el contraste H0 : θ Œ Θ0 vs Ha : θ Œ Θa = Θ - Θ0 (5.5) Definición 5.5. Observada una muestra aleatoria simple x = (x1,...,xn) de una población f (x|θ). Se denomina razón de verosimilitudes para el contraste dado en (5.5) al cociente

( ) ( )( ) ,

;sup;sup

0

θθ

λθ

θ

xx

xff

Θ∈

Θ∈=

donde f (x; θ ) = ∏=

n

i 1 f (xi; θ ) es la función de verosimilitud.

Definición 5.6. (Una prueba de razón de verosimilitudes para el contraste en (5.5) es aquélla que tiene como región crítica a C = {x: λ(x) < k} , es decir que rechaza H0 cuando el cociente dado por λ (x) toma valores menores que un valor crítico k. La constante k se determina con el nivel de significancia a que deseemos alcanzar, es decir

( ) ( ) .|Prsupsup00

αθψ θθθ == Θ∈Θ∈ CE Si la distribución de λ es continua es claro que se alcanza cualquier tamaño α, sin embargo, si la distribución de λ es discreta el valor exacto de α puede no alcanzarse. Esto no es problema, puesto que en general el contraste puede ser aleatorizado mediante la función prueba

( )( )( )( )⎪

⎪⎨

>=<

=.si,si,si

,0,γ,1

kkk

x x x

xλλλ

ψ

La idea del contraste basado en la razón de verosimilitudes es muy intuitiva. Dada una muestra observada x, f (x; θ ) representa el grado de bondad que el parámetro θ otorga a los resultados observados. El numerador del cociente de verosimilitudes representa la "mejor explicación" de la muestra observada bajo la hipótesis nula (dicho de otra forma, la mayor verosimilitud que los datos aportan a la hipótesis nula), mientras que el denominador representa el mismo valor pero entre todos los valores posibles del parámetro.

46

Además las cantidades utilizadas coinciden con las verosimilitudes cuando el valor del parámetro coincide con los estimadores de máxima verosimilitud con espacios paramétricos, Θ0 y Θ, respectivamente. Es decir: λ (x) = f (x; 0θ̂ )/f (x; θ̂ ), siendo 0θ̂ y θ̂ los estimadores de máxima verosimilitud sobre Θ0 y Θ, respectivamente. De

esta forma, si f (x; 0θ̂ ) es mucho menor que f (x; θ̂ ) esto indicaría que la explicación de los resultados, bajo la hipótesis de que H0 es cierta, es mucho peor que la explicación sin esa restricción y por tanto, parece razonable rechazar H0. En caso contrario, esto es si f (x; 0θ̂ ) está muy próximo a f (x; θ̂ ), entonces no tendríamos razones suficientes para rechazar H0 pues ello no mejoraría la verosimilitud de las observaciones de forma clara. Observemos además que para el caso de hipótesis nula simple frente a alternativa simple la prueba de razón de verosimilitudes coincide con la de Neyman-Pearson. En efecto, el cociente de verosimilitudes tendrá la expresión

( ) ( )( ) ( ){ },ˆ;,ˆ;máx

ˆ;

0

0

afff

θθθλ

xxxx =

y por tanto, la comparación λ < k (con k < 1) es equivalente a la comparación f (x; aθ̂ )/ f (x; 0θ̂ ) > c (c = 1/k) que necesitamos en el lema de Neyman-Pearson.

Ejemplo 5.5. (Continuación ejemplo 5.1) Supongamos el caso del ejemplo 5.1 y que para una muestra de tamaño n = 10 se han observado 6 reclamaciones, deseamos realizar el contraste

.21 vs

21:0 >≤ φφH

Solución: Desarrollaremos el procedimiento de razón de verosimilitudes para un tamaño muestral n y un valor φ0, general.

En primer lugar, observemos que Θ = [0, 1], Θ0 = [0, φ0]. Además, haciendo T = ∑ =

n

i ix1 (número total de reclamaciones

en este caso), tenemos que la verosimilitud puede escribirse en términos de T,

( ) ( ) ( ) ,1;; TnTTff −−== φφφφx y por tanto, el estimador de máxima verosimilitud sobre [0, 1] es xn

T ==φ̂ , y

[ ]( ) .1;sup

1,0

TnT

nT

nTTf

∈⎟⎠⎞

⎜⎝⎛ −⎟

⎠⎞

⎜⎝⎛=φ

φ

Además la verosimilitud es función creciente para φ Œ (0, n

T ) y decreciente en ( nT , 1) y por tanto el estimador de

máxima verosimilitud bajo la hipótesis nula será 0ˆ φφ = , si n

T > φ0 ó nT si n

T ≤ φ0. Por tanto la razón de verosimilitudes valdrá:

( )( )

( ) ( )⎪⎩

⎪⎨⎧

≤>= −

. si,1 si

0

0/1/1 00

φφλ

φφ

nTnT

nTnT TnT

TnT

x

Ahora bien, como logλ es una función decreciente en T tenemos que la desigualdad λ < k es equivalente a T > k', por tanto la prueba de razón de verosimilitudes (de tamaño α) tiene la forma

( )⎪⎩

⎪⎨

<=>

=,'kT

'kT'kT

si, si, si

,0,γ,1

donde k' y 7 se deducen del tamaño a mediante la relación

Pr (T > k’|φ0) + γPr (T = k’|φ0) = α, deducidos dichos valores del hecho de que bajo la hipótesis nula T ~ B(n, φ0). Para el caso particular, n = 10, φ0 = 1/2, buscaremos en la tabla de una distribución B(10, 1/2), donde para, por ejemplo, un tamaño a = 0.05 se obtiene k' = 7 y γ = 0.04. Como en nuestro ejemplo T = 6, no rechazamos la hipótesis nula de que φ0 ≤ 1/2.

47

Ejemplo 5.6. Las cantidades reclamadas por una compañía aseguradora se distribuyen según una normal N (μ,σ 2), con σ 2 desconocida. Construir la prueba de razón de verosimilitudes para una muestra aleatoria simple de tamaño n con un nivel de significancia α, para el contraste

H0 : μ = μ0 vs Ha : μ ≠ μ0. Con los datos del ejemplo 5.2 realizar el contraste H0 : μ = 18 vs Ha : μ ≠ 18. Solución: Ya conocemos que para una muestra aleatoria simple de una población normal con ambos parámetros desconocidos, los estimadores de máxima verosimilitud son x=μ̂ y ( ) ( )∑ =

−=n

i i xxn1

22 1σ̂ . Por tanto,

( ) ( )2RR,

,;sup 2 σμσμ

xf+×∈ = ( ) 222ˆ2 nn e−−

σπ . Por otro lado, bajo la hipótesis nula ( ) ( )∑ =−=

n

i ixn1

20

20 1ˆ μσ , y en consecuencia

( ) ( ) ( ) 2222, ˆ2,;sup

02

nn ef −−

Θ∈=+ σπσμ

σμx . Finalmente, la razón de verosimilitudes es:

( ) ( ) .1ˆ

2/

2

20

2/

20

2 nn

sxs

⎟⎟⎠

⎞⎜⎜⎝

⎛ −+=⎟⎟

⎞⎜⎜⎝

⎛=

μσ

λ x

Ahora, como λ(x) es función decreciente de ( )( )

2

21

nii

n x

x x

μ

=

−∑ se tiene que rechazar H0 cuando λ (x) < k equivale a rechazar H0

cuando:

( ) ,''0 ks

xn>

− μ

donde ( )22 11 1

nin i

s x x− == −∑ . El estadístico t(X) = ( )0n X

sμ− sigue una distribución t de Student con n – 1 grados de

libertad, bajo la hipótesis nula H0 : μ = μ0 y t(X) tiene distribución Student no central con n – 1 grados de libertad y parámetro de no centralidad 0μ μ

σ− bajo la hipótesis alternativa Ha : μ ≠ μ0. Elegiremos por tanto k" = tn-1,α/2 de acuerdo a la

distribución de t(X) bajo la hipótesis nula. Para el caso particular del ejemplo 5.2 tenemos, n = 10, x = 17.955; s = 1.6397; t(x) = 0.0868 y t9;0.025 = 2.262, y no se rechaza la hipótesis nula. El valor-p para este caso se obtiene de:

valor-p = Pr (|tn-1| > |tobs|) = Pr (|t9| > 0.0868) = 0.93272. 5.8. Ejercicios propuestos:

1) Supongamos que X1,…, Xn1 constituye una muestra aleatoria simple de una población B(1, φ1) y que Y1,…,Yn1

es una muestra aleatoria simple de una población B(1, φ2), con tamaños muéstrales grandes y bajo la hipótesis de independencia entre las muestra, y que el actuario está interesado en comparar las cantidades φ1 y φ2. Si denotamos por , probar que para cada uno de los contrastes que se proponen las regiones críticas (asintóticas mediante la distribución normal) son las siguientes: a) Contraste H0 : φ1 = φ2 vs. Ha : φ1 ≠ φ2 , región crítica:

( ) .11121

2/1⎪⎭

⎪⎬⎫

⎪⎩

⎪⎨⎧

⎟⎟⎠

⎞⎜⎜⎝

⎛+−>−= − nn

zyxC φφα

b) Contraste H0 : φ1 ≤ φ2 vs. Ha : φ1 > φ2 , región crítica:

( ) .11121

1⎪⎭

⎪⎬⎫

⎪⎩

⎪⎨⎧

⎟⎟⎠

⎞⎜⎜⎝

⎛+−>−= − nn

zyxC φφα

21

21nn

ynxn++=φ

48

c) Contraste H0 : φ1 ≥ φ2 vs. Ha : φ1 < φ2 , región crítica:

( ) .11121

1⎪⎭

⎪⎬⎫

⎪⎩

⎪⎨⎧

⎟⎟⎠

⎞⎜⎜⎝

⎛+−−>−= − nn

zyxC φφα

2) Suponiendo que el valor catastral del hogar del ejemplo 2.1 (pág. 9) se distribuyera de manera normal, realice una prueba de igualdad de medias de tal variable entre las colonias muestreadas, con un α = 0.01, suponiendo varianzas iguales. ¿Difieren sus conclusiones de las obtenidas en el ejercicio 2 de la página 40?

3) Realice una prueba de igualdad de varianzas de la variable del inciso anterior, con un α = 0.05. Comente si fue correcto el supuesto de igualdad y si d Difieren sus conclusiones de las obtenidas en el ejercicio 3 de la página 40.

4) Supongamos que una empresa aseguradora dispone de dos filiales y desea contrastar si el porcentaje de reclamaciones recibidas en cada filial puede considerarse iguales o si tenemos evidencia de que en una de ellas es mayor que en otra. Los datos observados son: n1 = 30 con 14 reclamaciones en la filial 1 y n2 = 40 con 24 reclamaciones para la filial 2. Contrastar la hipótesis de igualdad de proporciones entre las filiales con tamaño, α = 0.05.

BIBLIOGRAFÍA Aguirre, V. et al. 2003. Fundamentos de probabilidad y estadística. Just in Time Press, México.

Chao, L. 1993. Estadística para las ciencias administrativas. McGraw-Hill, Bogotá. 464pp.

Garza, T. 1998. Técnicas modernas para el actuario. Fondo de Cultura Económica, México. 144pp.

Harris, R.L. 1999. Informational graphics: a comprehensive illustrated reference. Oxford University Press, New York. 448pp.

Kohler, H. 1996. Estadística para negocios y economía. CECSA, México, 1053pp.

Méndez R., I. et al. 1984. El protocolo de la investigación: lineamientos para su elaboración y análisis. 210pp.

Miller, I y M. Miller. 2000. Estadística matemática con aplicaciones. Pearson Educación, México. 624pp.

Mood, A. y F. Graybill. 1978. Introducción a la teoría de la estadística. Aguilar, Madrid. 536pp.

Santaló, L.A. 1970. Probabilidad e inferencia estadística. OEA, Washington, D.C.

Zelazny, G. 2000. Dígalo con gráficas. McGraw-Hill, México. 197pp.