analisis exploratorio de datos y probabilidad e inferencia estadistica

286

Click here to load reader

Upload: dinhdung

Post on 24-Jan-2017

303 views

Category:

Documents


10 download

TRANSCRIPT

Page 1: analisis exploratorio de datos y probabilidad e inferencia estadistica

ANÁLISIS EXPLORATORIO DE DATOS Y PROBABILIDAD E INFERENCIA ESTADISTICA

Dr. José Nerys funes Torres

Lic. René Armando Peña Aguilar

Facultad de Ciencias Naturales y Matemática

Escuela de Matemática

Departamento de Estadística

Universidad de El Salvador

Septiembre de 2010.

Índice general.

Introducción................................................................................................................................5Capítulo 1. Conceptos Básicos de Estadística...............................................................61.1. La Estadística y sus aplicaciones..............................................................................................6

1

Page 2: analisis exploratorio de datos y probabilidad e inferencia estadistica

1.1.1. ¿Qué es la Estadística?.......................................................................................................61.1.2. Aplicaciones de la Estadística............................................................................................6

1.2. Población, Muestra y técnicas de muestreo............................................................................101.3. Unidad de estudio y unidad de muestreo................................................................................131.4. Variables y datos.....................................................................................................................141.5. Escalas de medición...............................................................................................................15

1.5.1. Escalas nominales............................................................................................................151.5.2. Escalas ordinales..............................................................................................................161.5.3. Escalas de intervalos........................................................................................................161.5.4. Escalas de razones o cocientes.........................................................................................17

1.6. Diseño de Experimentos estadísticos......................................................................................181.7. Guía de ejercicios N° 1...........................................................................................................18

Capítulo 2. Distribuciones de frecuencias y sus representaciones gráficas.....202.1. Estadística Descriptiva con una variable...............................................................................20

2.1.1. Distribución de frecuencias.............................................................................................202.1.2. Descripción de Variables Cualitativas.............................................................................212.1.3. Variables cuantitativas discretas......................................................................................29

2.2. Distribución de frecuencias agrupadas...................................................................................302.2.1 Representación gráfica de variables continuas................................................................32

2.3. Guía de ejercicios N° 2...........................................................................................................33

Capítulo 3. Medidas Características de una Distribución Cuantitativa Empírica........................................................................................................................................................35

3.1 Medidas de posición...........................................................................................................353.2 Medidas de Dispersión........................................................................................................423.3 Medidas de forma...............................................................................................................43

3.4. Guía de Ejercicios N° 3..........................................................................................................44

Capítulo 4. Distribuciones Bivariadas..............................................................................734.1. Distribuciones bidimensionales.............................................................................................734.2. Distribuciones marginales y condicionales.............................................................................744.3. Coeficiente de correlación lineal............................................................................................774.4. Introducción al modelos de regresión lineal...........................................................................774.5. Modelo de regresión simple...................................................................................................82

4.5.1. Estimación de los parámetros por mínimos cuadrados....................................................824.5.2. Propiedades de los estimadores por mínimos cuadrados y el modelo ajustado de regresión.....................................................................................................................................844.5.3. Intervalos de confianza...................................................................................................864.5.4. Prueba de hipótesis de la pendiente y de la ordenada al origen.......................................88

4.6. Predicción de nuevas observaciones.......................................................................................894.7. Ejercicios................................................................................................................................98

Capítulo 5. Los Valores Relativos....................................................................................1015.1. Razones, Proporciones, Porcentajes y Tasas........................................................................1015.2. Diferencia Relativa...............................................................................................................1035.3. Los números índices.............................................................................................................104

2

Page 3: analisis exploratorio de datos y probabilidad e inferencia estadistica

5.3.1. Relación entre índices de base fija y variable................................................................1065.3.2. Índices agregativos simples...........................................................................................1075.3.3. Índices de precios...........................................................................................................1085.3.4. Índices de cantidad.........................................................................................................1095.3.5. Cálculo del salario e ingreso real...................................................................................111

5.4. Guía de ejercicios Nº 5.........................................................................................................112

Capítulo 6. Métodos de Conteo......................................................................................1146.1 Introducción...........................................................................................................................1146.2 Muestras ordenadas................................................................................................................1146.3 Variaciones, combinaciones y permutaciones.......................................................................116

6.3.1. Variaciones de N elementos tomados de n en n............................................................1166.3.2. Variaciones con repetición de N elementos tomados de n en n.....................................1166.3.3. Permutaciones...............................................................................................................1166.3.4. Combinaciones...............................................................................................................118

6.4. Teorema del Binomio...........................................................................................................1226.5. Guía de Ejercicios N° 1.......................................................................................................1256.6. Soluciónes.............................................................................................................................126

Capítulo 7. Conceptos Básicos de Probabilidad.......................................................1327.1 Introducción...........................................................................................................................1327.2. Experimento aleatorio...........................................................................................................1327.3. Espacio Muestral..................................................................................................................1337.4. Sucesos o Eventos.................................................................................................................133

7.4.1. Estructuras con subconjunto..........................................................................................1347.5. Axiomas de Probabilidad......................................................................................................136

7.5.1. Probabilidad (Axiomática).............................................................................................1367.6. Resultado Igualmente Probables o Modelo Uniforme de Probabilidad...............................1387.7. Probabilidad condicional.....................................................................................................1387.8. Independencia de sucesos....................................................................................................1427.9. Ejercicios de cálculo de probabilidad...................................................................................142

7.9.1. Problemas variados de probabilidad..............................................................................1477.9.2. Hoja 4. Ejercicios de probabilidad (Repaso, Capítulo 6 y 7).........................................153

Capítulo 8. Variables aleatorias y distribuciones de probabilidad.....................1558.1. Nociones básicas...................................................................................................................1558.2. Distribución de probabilidad binomial.................................................................................1598.3. Distribución de Poisson........................................................................................................1618.4. Distribución geométrica........................................................................................................1658.5. Distribución hipergeométrica...............................................................................................1668.6. Densidad uniforme................................................................................................................1698.7. Densidad normal o de Gauss................................................................................................1728.8. Aproximación de la binomial por medio de la normal.........................................................1758.9. Ejercicios..............................................................................................................................175

Capítulo 9. Estimación de Parámetros..........................................................................1789.1. Distribución de la medida de la muestra...............................................................................178

3

Page 4: analisis exploratorio de datos y probabilidad e inferencia estadistica

9.2. Distribución de la diferencia entre las medias de dos muestras...........................................1809.3. Distribución de la proporción de la muestra.........................................................................1849.4. Distribución de la diferencia entre las proporciones de dos muestras..................................1869.5. Intervalos de confianza.........................................................................................................188

9.5.1. Selección del tamaño de la muestra...............................................................................192

Capítulo 10. Contraste de hipótesis...............................................................................19810.1.- Introducción.......................................................................................................................19810.2. Nociones básicas.................................................................................................................19810.3. Procedimiento sistemático para una prueba de hipótesis de una muestra..........................19910.4. Procedimiento sistemático para una prueba de hipótesis de dos muestras independientes.20210.5. Prueba de hipótesis para una y dos proporción independientes.........................................202Bibliografía...............................................................................................................................206

Introducción.

La estadística como herramienta para el análisis de los datos es esencial en los profesionales que

con frecuencia tienen la necesidad de realizar análisis de datos para la toma de decisiones.

Este libro, recoge en 10 capítulos conocimientos estadísticos básicos que van desde el análisis

descriptivo de datos, probabilidad e inferencia estadística.

4

Page 5: analisis exploratorio de datos y probabilidad e inferencia estadistica

Debemos aclarar que los métodos descriptivos aquí propuestos son elementales univariantes y en

el enfoque de la probabilidad sólo hemos considerado espacios probabilísticos discretos

incluyendo dos continuas la uniforme y la normal.

Este libro, es recomendables para principiantes en el área de estadística. Los conocimientos aquí

planteados son base para ir enfrentando otros de estadística de mayor dificultad.

Capítulo 1. Conceptos Básicos de Estadística.

1.1. La Estadística y sus aplicaciones

1.1.1. ¿Qué es la Estadística?

La Estadística es una ciencia que estudia las características de un conjunto de casos para hallar en ellos regularidades en el comportamiento, que sirven para describir el conjunto y para efectuar predicciones.

5

Page 6: analisis exploratorio de datos y probabilidad e inferencia estadistica

La Estadística tiene por objeto recolectar, organizar, resumir, presentar y analizar datos relativos a un conjunto de objetos, personas, procesos, etc. A través de la cuantificación y el ordenamiento de los datos intenta explicar los fenómenos observados, por lo que resulta una herramienta de suma utilidad para la toma de decisiones.

Bajo este contexto, la Estadística se divide en dos áreas: Estadística Descriptiva y Estadística Inferencial.

ESTADÍSTICA DESCRIPTIVA: permite organizar y presentar un conjunto de datos de manera que describan en forma precisa las variables analizadas haciendo rápida su lectura e interpretación. Obviamente, la materia prima de la Estadística Descriptiva la constituyen los datos, que son el resultado de las observaciones y/o experimentos.Ejemplos:

1. Durante los últimos dos días se ha informado de un total de trece homicidios diarios.2. La encuesta Gallup informa una ventaja de 25% para el candidato de izquierda.

ESTADÍSTICA INFERENCIAL: Generaliza los resultados de una muestra a los de una población total, es cuando de los datos estadísticos obtenidos de una muestra se infiere o se deduce una observación la cual se generaliza sobre la población en total. Para determinar la confiabilidad de la inferencia de los datos estadísticos de una muestra, se hace necesario comprobar la misma para poder asegurar que lo que se observa en una muestra se observará también en la población. Generalmente el análisis estadístico inferencial se lleva a cabo para mostrar relaciones de causa y efecto, así como para probar hipótesis y teorías científicas.

1.1.2. Aplicaciones de la Estadística.

Mucha gente piensa que la Estadística no tiene nada que ver con otras disciplinas que no sean las ingenierías y economía. Otros nunca le encuentran aplicaciones útiles, y por eso tampoco les gusta. Pero, en realidad tiene infinitas aplicaciones en todo el conocimiento adquirido por la humanidad, partiendo ante todo, lo relacionado con las ingenierías, economía, las ciencias biológicas, ciencias sociales e incluso en algunas ramas del área Jurídica. Y, en definitiva, casi todos los campos de las ciencias emplean instrumentos estadísticos de importancia fundamental para el desarrollo de sus modelos de trabajo.

En nuestros días, la estadística se ha convertido en un método efectivo para describir con exactitud los valores de los datos económicos, políticos, sociales, psicológicos, biológicos y físicos, entre otros, y sirven como herramienta para relacionar y analizar dichos datos. El trabajo del experto estadístico no consiste ya sólo en reunir y tabular los datos, sino el proceso de interpretación de esa información a través de modelos estadísticos-matemáticos, aumentando el alcance de las aplicaciones de la estadística, esto se ha logrado, gracias al desarrollo de la teoría de probabilidad.

Dentro de las Aplicaciones de la Estadística se destacan las siguientes:

1. La Estadística en el Periodismo

6

Page 7: analisis exploratorio de datos y probabilidad e inferencia estadistica

En general, los periodistas además de dedicarse al ámbito de la noticia, realizan crónicas y estudios de investigación, que nos entregan preguntas y respuestas frente a determinados sucesos o situaciones de interés público. Algunos de los estudios más frecuentes realizados por los periodistas son sobre alcoholismo, enfermedades, sexualidad, delincuencia, política, etc. Para ello, hacen uso de las encuestas u otros instrumentos técnicos de medición propios de la estadística, a través de dichos estudios es posible conocer la opinión de la gente y con ello informar a la opinión pública, a través de los medios de comunicación, desde donde las autoridades pertinentes e interesadas en estos estudios pueden adoptar las medidas correctivas, si es el caso. Tal es así, que la estadística forma parte importante del periodismo investigativo.

1. La Estadística en la Política

Conocidas son las famosas encuestas de tipo político, que entregan una orientación de la intención de voto, de la aceptación de un candidato, del impacto de un programa o proyecto de estado, etc. de una muestra estadística representativa, sobre la opinión de las personas en un tiempo determinado, teniendo esta herramienta una gran confiabilidad. Así es que el uso de la estadística es imprescindible para determinar caminos a seguir para los candidatos de elección popular.

2. La Estadística en la Publicidad

Cuando las grandes marcas trasnacionales y/o nacionales como Coca-cola, Pepsi, Nice, Adidas, Laboratorios López, etc. nos llenan de slogans, música y colores en sus comerciales, lo único que buscan es que la gente adquiera los productos y/o servicios que ofrecen.

Se dedican, entonces, a realizar las llamadas “campañas publicitarias”, y, antes de lanzar una campaña, hacen un estudio de mercado para encontrar las mejores alternativas posibles a fin de lograr el éxito de ventas deseado. Estos estudios son de carácter estadístico, es decir, hacen un diseño muestral y seleccionan una muestra para inferir las características de la población.

3. La Estadística en la economía y las finanzas.

En la administración es una herramienta del control, como parte del proceso administrativo (o lo que es lo mismo: planeación, organización, dirección y control) ya que la estadística ayuda a recolectar, estudiar y al final interpretar los datos que obtienen al terminar el proceso administrativo, retroalimenta con esta información y al final se observa en que pueden mejorar y que se está haciendo bien.

En la mercadotecnia es una herramienta muy importante cuando tienes la necesidad de trabajar con datos de muestreo para conocer los gustos y preferencias de las personas. Igualmente en la auditoria administrativa cuando recabas datos para conocer en que puede mejorar una organización. En pocas palabras te puede servir en cualquier área de una organización debido a que muestra los resultados de las actividades que bienes realizando.

En la economía se utiliza como una herramienta de predicción para pronosticar el comportamiento futuro, por ejemplo, de los precios de los metales (oro, plata, cobre) tomando como base el comportamiento pasado de los precios de los mismos. También puede servir para

7

Page 8: analisis exploratorio de datos y probabilidad e inferencia estadistica

estudiar el comportamiento de la bolsa de valores, de ciertos productos básicos, los economistas por lo regular se sienten magos que creen predecir cosas. En general, la Estadística suministra los valores que ayudan a descubrir interrelaciones entre múltiples parámetros macro y microeconómicos, a través de la evaluación de modelos econométricos para el establecimiento de políticas económicas; análisis del costo de la canasta básica, el poder adquisitivo de la población, etc.

5. La estadística en la Banca y Seguros

El profesional del seguro de vida ha de ser capaz de asignar primas suficientes para cubrir las cantidades que habrá de pagar la compañía en el caso de muerte del asegurado. En consecuencia, la predicción adecuada de las probabilidades de muerte constituye uno de los ejes centrales de la reducción del riesgo que se asume. Por ello, el objetivo de la Estadística de Seguros es una presentación exhaustiva de los métodos disponibles para ajustar tablas de mortalidad y tablas de seguros no vida, ejemplo, aseguramiento de vehículos, viviendas, etc.

Por otra parte, algunas de las aplicaciones concretas de la Estadística en el sistema bancario son las siguientes: Sistemas de concesión de tarjetas de crédito y fijación de su límite. Sistemas de estimación del potencial económico de los clientes. Definición de tipologías comerciales de clientes. Determinación del público objetivo en campañas comerciales. Modelización del riesgo según las características de los clientes. Aplicación de la teoría de colas para brindar un servicio de calidad. Finalmente, es de mucha utilidad la técnica de minería de datos para el análisis de bases de

datos del sistema bancario.

6. La estadística en ciencias humanas y sociales

La investigación en Psicología, Sociología y Educación, al igual que ocurre en otras ciencias, en buena medida se basa en el manejo de recursos estadísticos como elementos indispensables para llegar a conclusiones aceptables por el resto de la comunidad científica. Dada la peculiaridad de su objeto de estudio, inabordable en la mayoría de los casos sino es a través de perspectivas complejas de relación entre variables, la atención de los investigadores en las ciencias humanas y sociales se concentra cada vez más en la llamada Estadística Multivariante (Análisis Cluster, Factorial, Discriminante, etc.).

Las ciencias sociales se han visto apabulladas en los últimos años por avances vertiginosos en informática y aplicaciones estadísticas, por ejemplo, en El Salvador, se ha elaborado el Mapa de Pobreza, donde se ha interrelacionado una gran variedad de variables de diferentes áreas: Educativas, Económicas, Salud, entre otras. También, se ha hecho investigación sobre los factores que están asociados al rendimiento académico de los estudiantes, finalmente, se han utilizado diferentes técnicas para el análisis de los resultados académicos de los estudiantes.

8

Page 9: analisis exploratorio de datos y probabilidad e inferencia estadistica

Las ciencias sociales: es un pilar básico del desarrollo de la demografía y la sociología aplicada, lo que conlleva a: Definición de indicadores de fenómenos sociales. Medición de constructos o variables no directamente observables (la satisfacción, la

inteligencia, ...) Medición de los efectos entre constructos no observables para establecer políticas

sociales. Estudio de la evolución de la demografía. Estudios sociales sobre la integración de la población inmigrada. Fenómenos sociales como las pandillas, criminalidad, delincuencia, contaminación, entre

otros.

7. La estadística en las ciencias químicas.

En Química, la estadística se aplica en varias áreas: En el diseño de experimentos se usan métodos estadísticos, en el control de procesos y control de calidad (o gerenciamiento de calidad) de procesos y productos. En EEUU está muy de moda el sistema seis sigma, creado por general electric, que utiliza algunos conceptos estadísticos para lograr el aseguramiento de la calidad.

Por otra parte la producción química tiene su costo económico y financiero que también requiere mucho uso de estadística, por ejemplo, si no se elabora un buen diseño experimental, se necesitarán muchas réplicas para validar una formulación química.

Algunas de las aplicaciones concretas que podemos mencionar: Utilización de diseños experimentales para optimizar la composición de productos

alimenticios. Evaluación de la superficie de respuesta de una reacción química según determinados factores. Predicción del comportamiento de un componente no sintetizado a partir de las propiedades

moleculares de sus descriptores. Control de procesos de producción para detectar problemas evitando a su vez falsas alarmas.

8. La estadística en Ciencias biológicas.

En el área de las ciencias biológicas, interesa estudiar el comportamiento de ciertas plantas y sus cruces a fin de determinar cómo se relacionan genéticamente los padres con los hijos, hablando de Genotipo y Fenotipo. En esta categoría es también donde se realizan los mayores avances de la humanidad, en descubrimientos. Cada año se descubren miles de fórmulas científicas que relacionan fenómenos de la naturaleza con modelos matemáticos.

Los científicos se dedican a realizar estudios estadísticos, recogiendo datos y muestras, investigando el tiempo de reproducción de un virus, el comportamiento migratorio de algunas aves o insectos, además de factores de tamaño y volumen del crecimiento de ciertas especies de animales o vegetales. Todo esto funciona con la idea de recopilar información, muestrear ciertas áreas para ver cómo se han comportado algunas aves, por ejemplo, se pueden dibujar o simular curvas que se supone que son relativamente parecidas al comportamiento migratorio de aves. Con

9

Page 10: analisis exploratorio de datos y probabilidad e inferencia estadistica

esta herramienta se podrían determinar también las épocas de mayor probabilidad de contagio, diseminación de algún virus o bien enfermedades transmitidas por insectos.

Algunas aplicaciones concretas en esta área son: Determinación del tamaño de poblaciones naturales en una región; efectividad de la utilización de barreras naturales (filas de árboles plantados en los límites del terreno) como medio de prevenir las plagas de insectos o aves sobre las plantaciones y así disminuir la utilización de pesticidas: y, determinación de los niveles óptimos de utilización de los fertilizantes. Obviamente, en esta área es donde más se hace usos de la teoría de Diseños de Experimentos.

9. La estadística en las ciencias médicas.

Permite establecer pautas sobre la evolución de las enfermedades y los enfermos, los índices de mortalidad asociados a procesos morbosos, el grado de eficacia de un medicamento, etcétera.Bajo este conjunto de ideas, se ha presentado un panorama de la utilidad de la estadística, haciendo un recorrido por diversas áreas del conocimiento humano, con el fin, de conocer cómo se relacionan con las diversas ciencias, formando una sola verdad. Evidentemente, existen, muchas disciplinas donde se aplica la estadística, que no han sido consideradas en este apartado, por ejemplo, las ingenierías, la pintura, la música, etc. Finalmente, es de resaltar que en todos los temas donde se analice información está presente la estadística.

1.2. Población, Muestra y técnicas de muestreo.

Las estadísticas de por sí no tienen sentido si no se considera o se relaciona dentro del contexto con que se trabajan. Por lo tanto es necesario entender los conceptos de población y de muestra para lograr comprender mejor su significado en la investigación educativa o social que se lleva a cabo.

POBLACIÓN - es el conjunto total de individuos, objetos o medidas que poseen algunas características comunes observables en un lugar y en un momento determinado. Cuando se vaya a llevar a cabo alguna investigación debe de tenerse en cuenta algunas características esenciales al seleccionarse la población bajo estudio. Entre éstas tenemos:

Homogeneidad - que todos los miembros de la población tengan las mismas características según las variables que se vayan a considerar en el estudio o investigación. Por ejemplo, si se fuera a investigar la incidencia de la drogadicción entre jóvenes mujeres adolescentes, entonces hay que definir claramente las edades que comprenden la adolescencia y cuando se seleccione la población asegurarse de que todas las personas entrevistadas sean de la edad determinada y del sexo femenino. (La adolescencia se define operacionalmente como el periodo comprendido de edad que fluctúa entre 12 y 21 años.)Tiempo - se refiere al período de tiempo donde se ubicaría la población de interés. Determinar si el estudio es del momento presente o si se va a estudiar a una población de cinco años atrás o si se van a entrevistar personas de diferentes generaciones. Espacio - se refiere al lugar donde se ubica la población de interés. Un estudio no puede ser muy abarcador y por falta de tiempo y recursos hay que limitarlo a un área o comunidad en específico.

10

Page 11: analisis exploratorio de datos y probabilidad e inferencia estadistica

Cantidad - se refiere al tamaño de la población. El tamaño de la población es sumamente importante porque ello determina o afecta al tamaño de la muestra que se vaya a seleccionar, además que la falta de recursos y tiempo también nos limita la extensión de la población que se vaya a investigar.MUESTRA - la muestra es un subconjunto fielmente representativo de la población.

Hay diferentes tipos de muestreo. El tipo de muestra que se seleccione dependerá de la calidad y cuán representativo se quiera que sea el estudio de la población, en este sentido, la muestra puede ser:

ALEATORIA - cuando se selecciona al azar y cada miembro tiene igual oportunidad de ser incluido.

Un procedimiento de extraer una muestra aleatoria de una población finita es: enumerar todos los elementos que conforman la población, escribir esos números en papelitos y echarlos en una urna o bolsa mezclarlos bien removiéndolos y sacar uno a uno tantos como lo indique el tamaño de la muestra. En este caso los elementos de la muestra lo constituirán los elementos de la población cuyos números coincidan con los extraídos de la bolsa o urna.

El tamaño de la muestra (MAS):

Al realizar un muestreo probabilística nos debemos preguntar ¿Cuál es el número mínimo de unidades de análisis (personas, organizaciones, capítulo de telenovelas, etc), que se necesitan para conformar una muestra n que me asegure un error estándar menor que 0.01 ( fijado por el muestrista o investigador), dado que la población es aproximadamente de N elementos.

En el tamaño de una muestra de una población se debe tener presente la varianza poblacional, error máximo permisible prefijado (diferencia del parámetro y estimador), con un nivel de

confianza de . Simbólicamente se refiere a lo siguiente: , bajo este

contexto podemos utilizar la fórmula:

Ejemplo. Se desea estimar la estatura promedio de los estudiantes de la asignatura de Tratamiento de la Información Estadística. Se sabe que la estatura de un estudiante es una variable aleatoria con distribución normal. Determine el tamaño de muestra aleatoria necesaria para garantizar una probabilidad igual a 0.95 de que el estimador y el parámetro se diferencien en menos de 10cm.

Solución.

Datos conocidos.

11

Page 12: analisis exploratorio de datos y probabilidad e inferencia estadistica

d= 10cm

Calcular: , =1.96

: Para calcular la desviación estándar hay que solicitar la estatura de cada estudiante y luego

calcular la varianza utilizando la siguiente fórmula: , posteriormente se

obtiene la raíz cuadrada y ese es el valor que se debe utilizar en esta ecuación. Supongamos que =12cm, entonces:

Determinar:

, se requiere una muestra de 6

estudiantes para cumplir las hipótesis del problema.

ESTRATIFICADA - cuando se subdivide en estratos o subgrupos según las variables o características que se pretenden investigar. Cada estrato debe corresponder proporcionalmente a la población.

El número determinado de elementos muestrales es: , donde ni es el número de

elementos en el estrato i=1, 2, …, k . No se entrará en detalle del cálculo del tamaño muestral, ya que supera el alcance de esta asignatura.

SISTEMÁTICA - cuando se establece un patrón o criterio al seleccionar la muestra. Ejemplo: se entrevistará una familia por cada diez que se detecten.

El muestreo es indispensable para el investigador ya que es imposible entrevistar a todos los miembros de una población debido a problemas de tiempo, recursos y esfuerzo. Al seleccionar una muestra lo que se hace es estudiar una parte o un subconjunto de la población, pero que la misma sea lo suficientemente representativa de ésta para que luego pueda generalizarse con seguridad de ellas a la población.

El tamaño de la muestra depende de la precisión con que el investigador desea llevar a cabo su estudio, pero por regla general se debe usar una muestra tan grande como sea posible de acuerdo a los recursos que haya disponibles. Es de especificar que para cada método de muestreo existen fórmulas para determinar el tamaño de muestra.

12

Page 13: analisis exploratorio de datos y probabilidad e inferencia estadistica

1.3. Unidad de estudio y unidad de muestreo

La unidad de análisis o estudio corresponde a la entidad mayor, primaria o representativa de lo que va a ser objeto específico de estudio en una medición y se refiere al qué o quién es objeto de interés en una investigación. Por ejemplo: Condiciones de hacinamiento de las familias del Municipio de Soyapango, San Salvador. Unidad de Análisis: Familias del Municipio de Soyapango.

Debe estar claramente definida en un protocolo de investigación y el investigador debe obtener la información a partir de la unidad que haya sido definida como tal, aun cuando, para acceder a ella, haya debido recorrer pasos intermedios. Las unidades de análisis pueden corresponder a las siguientes categorías o entidades:

Personas Grupos humanos Poblaciones completas Unidades geográficas determinadas Eventos o interacciones sociales (enfermedades, accidentes, casos de infecciones

intrahospitalarias, etc) Entidades intangibles, susceptibles de medir (exámenes, días, camas)

El tipo de análisis al que se someterá la información es determinante para elegir la unidad de análisis. Por ejemplo, si el objetivo es dar cuenta de la satisfacción del usuario de un servicio médico, la unidad de análisis natural es el paciente atendido, o la persona que se atiende en ese servicio médico. Si el objetivo es dar cuenta de la satisfacción del alumno sobre el desempeño docente, la unidad de análisis es el alumno que recibe clases con el docente evaluado.

La unidad de muestreo corresponde a la entidad básica mediante la cual se accederá a la unidad de análisis. En algunos casos, ambas se corresponden. Por ejemplo, si se desea estimar la prevalencia de daño auditivo en relación con niveles de ruido ambiental en una muestra de trabajadores de una fábrica, la unidad de muestreo puede corresponder a la entidad "sujeto", si se dispone de un registro detallado de cada sujeto. La unidad de análisis es por cierto el trabajador de la fábrica.

1.4. Variables y datos

VARIABLESLas variables son las características observables de un objeto, problema o evento que se puede describir según un esquema de medición bien definido. Cada rasgo o aspecto de una población constituye una variable. La edad de unas personas, su sexo, color de su piel, nacionalidad, su nivel de motivación, niveles de ansiedad, el número de nacimientos, número de matrimonios, frecuencia de suicidios, estatura, peso, niveles de inteligencia, actitudes, entre muchas otras.

13

Page 14: analisis exploratorio de datos y probabilidad e inferencia estadistica

Las variables pueden adquirir diferentes valores o clasificarse en diferentes categorías según la naturaleza o tipo de estudio que se lleve a cabo. Entre éstas tenemos las siguientes clasificaciones:

VARIABLES CUALITATIVAS - son aquellas que se expresan en forma verbal como categorías o atributos. Por ejemplo, el sexo, color, afiliación política, nacionalidad, motivación, área académica o profesión de una persona.

VARIABLES CUANTITATIVAS - son las que varían en términos de cantidad y se registran o expresan en forma numérica. Por ejemplo, edad, promedio académico, puntuaciones de exámenes, frecuencia de delitos, temperatura, ingresos anuales o salarios por hora. Hay algunas características que pueden clasificarse o expresarse como variable cuantitativa y transformarla a cualitativa o viceversa. Por ejemplo, nivel de aprovechamiento académico estudiantes de 4:00 puntos, o estudiantes de 3:00 puntos y así sucesivamente. El investigador puede expresar mediante una escala numérica el aprovechamiento académico al clasificar a los estudiantes, como también puede clasificarlos como variable cualitativa en las categorías de excelentes, buenos, regulares y deficientes.

VARIABLES DISCRETAS - son aquellas que sólo adquieren un valor absoluto o específico que nunca cambian. Pueden ser cualitativas. Ejemplo: el sexo, nacionalidad, grupo étnico, entre otras.VARIABLES CONTINUAS - que siempre son cuantitativas, son las que pueden asumir cualquier valor. Por ejemplo, la edad, altura, peso, índice académico.

En el campo de la investigación, que se suele examinar las relaciones entre dos o más variables al investigar un asunto o problema, se clasifican las variables como:

VARIABLES INDEPENDIENTES - son las características controladas por el investigador y que se supone tendrán efectos sobre otras variables.

VARIABLES DEPENDIENTES - son las características o aspectos que se alteran por consecuencia del control que ejerce el investigador sobre otras variables.Estos dos últimos tipos de variables suelen darse más en estudios o investigaciones experimentales, pero también podemos considerarlas en estudios descriptivos. Por ejemplo, en un estudio experimental se investiga si un nuevo medicamento mejora las condiciones del sida. A tales efectos se seleccionaron 30 pacientes, de los cuáles 15 recibían el nuevo medicamento (grupo experimental) y otros 15 continuaban con su tratamiento tradicional (grupo control). El nuevo medicamento viene a ser la variable independiente porque es la que los investigadores controlan y que luego examinarán sus efectos en la condición del sida, la cual viene a ser la variable dependiente, porque es la condición que se va alterar o quedar afectada por el nuevo medicamento.En un estudio descriptivo donde interesa saber si la clase social es factor determinante en el aprovechamiento académico en las escuelas, entonces la clase social es la variable independiente y el aprovechamiento académico la dependiente.

Una variable puede ser independiente en una investigación y dependiente en otra, todo dependerá de la finalidad de la investigación. Por ejemplo, si se lleva a cabo un estudio para determinar

14

Page 15: analisis exploratorio de datos y probabilidad e inferencia estadistica

cómo las condiciones socio-económicas influyen a la drogadicción, en este caso, status socio- económico es una variable independiente. Por el contrario, si se lleva a cabo una investigación para saber cómo la drogadicción afecta las condiciones sociales y económicas, entonces, el status socio-económico resultaría ser la variable independiente.

DATOS: son los hechos que describen sucesos y entidades.

1.5. Escalas de medición

Una escala es un esquema específico para asignar números o símbolos con el objeto de designar características de una variable. Las escalas de medición comúnmente conocidas son: nominales, ordinales, de intervalos y de razón. A continuación veamos los cuatro tipos de escalas de medición.

1.5.1. Escalas nominales

Las escalas nominales son aquellas donde se clasifican los objetos, personas o variables en categorías cualitativamente distintas. Consiste simplemente en agrupar objetos en clases o asignar las personas de acuerdo a alguna cualidad una vez que los objetos o personas posean características comunes que lo hagan pertenecer a una categoría. Por ejemplo, todos los estudiantes que obtuvieron sobre 9 puntos fueron clasificados como excelentes, los que obtuvieron menos de 8.9 pero más de 8.0 como muy buenos y de 7.0 a 7.9 como buenos. En una redada de drogas se arrestaron 22 mareros, cuatro acusados de homicidios, ocho acusados de violación y diez por extorciones.

Se pueden utilizar números en las escalas nominales, pero éstos no representan magnitudes absolutas. Los números sólo se utilizan con el propósito de clasificarlos a determinada categoría. Por ejemplo, si vas a comprar pintura azul en la ferretería te presentan una escala con diferentes tonalidades del color azul y cada tonalidad posee un número, pero este número sólo es para facilitar al vendedor identificar el color solicitado entre cientos de colores. De igual modo en muchas solicitudes se le asigna el número 1 al sexo masculino y número dos al femenino y esta clasificación sólo es para facilitar los cómputos y manejos de información estadística, pero no quiere decir que los masculinos tengan más o menor valor que las del sexo femenino. Los números que se utilizan para efectos de identificación en una escala nominal nunca se utilizarán para llevar a cabo los procedimientos matemáticos de suma, resta, multiplicación y división.

1.5.2. Escalas ordinales

Las escalas ordinales son las que clasifican a las personas, eventos u objetos en una posición con relación a cierto atributo, pero sin indicar la distancia que hay entre las posiciones. Cuando se asignan números es sólo para indicar el orden de las posiciones de lo que se está clasificando. Por ejemplo, en un determinado grupo escolar se decidió seleccionar los cinco estudiantes con el

15

Page 16: analisis exploratorio de datos y probabilidad e inferencia estadistica

promedio más alto para premiarlos con un viaje al Lago de Coatepeque y resultó que Esteban quedó tercero con un promedio de 8.90, seguido de Jorge con 8.88 y, luego Leticia con 8.75. Esteban como tercero se le asigna el número tres, pero ésta designación numérica sólo indica su posición con relación a los otros cuatro alumnos. Sabemos que Esteban tiene un mejor promedio que Jorge y que su promedio es superior que el de Leticia. Sin embargo, no podremos saber hasta qué punto es mejor su promedio comparado con los otros.

Con las escalas ordinales tampoco se pueden llevar a cabo las operaciones aritméticas de suma, resta, multiplicación y división. La diferencia que puede haber entre unas personas u objetos en este tipo de escala no necesariamente constituye unidades iguales o absolutas que puedan utilizarse para determinar si el que tiene un segundo lugar posee el doble valor que el que queda en cuarta posición. Por ejemplo, en un evento atlético de una carrera que no haya sido cronometrada, podemos saber quién llegó primero, segundo y tercer lugar, pero no podemos saber con precisión la velocidad entre un corredor y otro. La diferencia que hay entre el primero y el segundo no necesariamente es igual a la que hubo entre el segundo y el tercero.

1.5.3. Escalas de intervalosLas escalas de intervalos son aquellas que ordenan los objetos o eventos según la magnitud del atributo que representan y proveen intervalos iguales entre las unidades de medida. Además, no poseen un punto cero absoluto o verdadero ya que el mismo es establecido por convención de forma arbitraria por los expertos en el área o materia de estudio y no implica la ausencia del atributo o la propiedad en cuestión. Por ejemplo, la escala de inteligencia posee un punto cero, pero administrando cualquier tipo de prueba que intente medir la inteligencia, nunca va a encontrar un ser humano con cero inteligencia. De igual modo si el agua está en 0 grado °C, esto no quiere decir que carezca de temperatura, ya que en una escala de intervalos, como se ha indicado, es una designación arbitraria y convencional.

Una diferencia de cierta magnitud en una escala de intervalos significa lo mismo en todos los puntos de la escala. Así por ejemplo, en los termómetros de grados Fahrenheit y centígrados que utilizan este tipo de escalas, están divididos en unidades iguales, la diferencia en la temperatura entre 100 grados y 101 grados es equivalente a la diferencia entre 110 grados y 111 grados.

La numeración de los años en nuestro calendario utiliza también una escala de intervalos. Las autoridades eclesiásticas y gubernamentales de la época decidieron arbitrariamente fijar como el año 1 el del nacimiento de Cristo y como unidad de medida un lapso de 365 días. Por lo tanto, el lapso de tiempo que estuvo Bill Clinton como presidente de los Estados Unidos desde 1993 – 2001 es igual al que transcurrió George Bush desde 2001 – 2009.

1.5.4. Escalas de razones o cocientesLas escalas de razones o cocientes se diferencian de las de intervalos solamente en que la de razones el punto cero no es arbitrario y corresponde a una total ausencia del asunto o propiedad estudiada. La escala de una simple regla de 12 pulgadas posee una escala de razones la cual está dividida en 12 unidades cada una de igual magnitud y parte de un punto cero absoluto y verdadero.

16

Page 17: analisis exploratorio de datos y probabilidad e inferencia estadistica

La mayoría de las variables con las cuales se utiliza este tipo de escalas se refieren más a la ejecución de tareas motoras, a las medidas de objetos y de aspectos fisiológicos.

Dos ejemplos de las escalas de razones y cocientes son: las medidas de la estatura y el peso. Si una columna mide seis metros es el doble de alto de otra columna que mide tres metros. Si Enrique pesa 180 libras, entonces pesa el doble que María quién pesa 90 libras. Las razones de los números en estas escalas tienen un determinado sentido, lo que hace posible que se interpreten los valores numéricos entre las cantidades obtenidas de los objetos.Además pueden llevarse a cabo las diferentes operaciones matemáticas.

RESUMEN: CARACTERÍSTICAS, EJEMPLOS Y LIMITACIONESDE LAS ESCALAS DE MEDICIÓNESCALA

CARACTERÍSTICAS USOS/EJEMPLOSLIMITACIONES

NominalSe clasifican las personas, eventos u objetos en categorías.

Denominaciones religiosas, afiliación político partidista, codificaciones en la clasificación de objetos, pinturas, movimientos literarios.

No se pueden precisar diferencias cuantitativas entre las categorías.

OrdinalSe clasifican u ordenan las personas, objetos y eventos en determinada posición.

Orden de llegada de atletas en una carrera, puntuaciones de una prueba, rangos militares, nivel de popularidad de estudiantes en una escuela.

Restringida para Identificar diferencias relativas, pero no precisa diferencias en cantidad absoluta entre personas u objetos.

IntervaloEscala que posee unidades de igual magnitud. El punto cero de la escala es arbitrario y no refleja la ausencia del atributo.

Temperaturas (Celsius y Fahrenheit), fechas del calendario, escala de inteligencia.

Razones no tienen sentido ya que el punto cero es establecido convencionalmente.

RazonesEscala que posee un puntocero absoluto e intervalos de igual magnitud.

Distancia, peso, estatura, tiempo requerido para realizar una tarea escolar.

Ninguna, excepto que su uso se supedita mayormente a medir cualidades físicas más que para la medición de aspectos psicológicos.

1.6. Diseño de Experimentos estadísticos.

El diseño de un experimento es la secuencia completa de los pasos que se deben tomar de antemano, para planear y asegurar la obtención de toda la información relevante y adecuada al problema bajo investigación, la cual será analizada estadísticamente para obtener conclusiones válidas y objetivas con respecto a los objetivos planteados.Un Diseño Experimental es una prueba o serie de pruebas en las cuales existen cambios deliberados en las variables de entrada de un proceso o sistema, de tal manera que sea posible observar e identificar las causas de los cambios que se producen en la respuesta de salida.

El propósito de cualquier Diseño Experimental, es proporcionar una cantidad máxima de información pertinente al problema que se está investigando. Y ajustar el diseño que sea lo más simple y efectivo; para ahorrar dinero, tiempo, personal y material experimental que se va a utilizar. Es de acotar, que la mayoría de los diseños estadísticos simples, no sólo son fáciles de analizar, sino también son eficientes en el sentido económico y en el estadístico.De lo anterior, se deduce que el diseño de un experimento es un proceso que explica tanto la metodología estadística como el análisis económico.

17

Page 18: analisis exploratorio de datos y probabilidad e inferencia estadistica

DISEÑO: Consiste en planificar la forma de hacer el experimento, materiales y métodos a usar, etc.

EXPERIMENTO: Conjunto de pruebas o ensayos cuyo objetivo es obtener información, que permita mejorar el producto o el proceso en estudio.

1.7. Guía de ejercicios N° 1. 1. Contestar verdadero o falso y comentar su respuestas según sea el caso:

a) La Estadística es una ciencia que estudia y describe las características de un conjunto de

casos.

b) La estadística inferencial generaliza los resultados de una muestra a los de la población

total.

c) Durante los últimos dos días se ha informado de un total de cinco homicidios diarios en

San Salvador, este es un ejemplo de estadística inferencial.

d) A las medidas que se obtienen de una muestra se les da el nombre de parámetro.

e) En una muestra aleatoria ciertos elementos tienen mayor probabilidad que otros de ser

seleccionados.

2. Mediante ejemplos, explicar la diferencia entre la estadística descriptiva y estadística

inferencial.

3. POBLACIÓN - es el conjunto total de individuos, objetos o medidas que poseen algunas

características comunes observables en un lugar y en un momento determinado. A partir

de esta definición enumere las características de una población.

4. Describir dos ejemplos de población.

5. Describir dos ejemplos de muestra de una población.

6. Definir al menos dos tipos de muestreo y dar ejemplos de aplicación de cada uno.

7. Se desea estimar la edad promedio de los estudiantes de la asignatura de Tratamiento de

la Información Estadística. Se sabe que la edad de un estudiante es una variable aleatoria

con distribución normal con desviación estándar de 6años. Determine el tamaño de

muestra aleatoria necesaria para garantizar una probabilidad igual a 0.95 de que el

estimador y el parámetro se diferencien en menos de 5años.

8. Establecer las diferencias entre la unidad de análisis y la unidad muestral.

9. Establecer las diferencias entre variables cualitativas y cuantitativas.

10. Definir al menos dos ejemplos de variables cualitativas y de variables cuantitativas.

18

Page 19: analisis exploratorio de datos y probabilidad e inferencia estadistica

11. Establecer las diferencias entre variables discretas y continuas.

12. Definir al menos dos ejemplos de variables discretas y de variables continuas.

13. Definir las siguientes escalas de Medición y presentar dos ejemplos de cada una de ellas:

Escala nominal Escala ordinal Escala de intervalo. Escala de razón

19

Page 20: analisis exploratorio de datos y probabilidad e inferencia estadistica

Capítulo 2. Distribuciones de frecuencias y sus representaciones gráficas.

2.1. Estadística Descriptiva con una variable

La estadística descriptiva permite organizar y presentar un conjunto de datos de manera que describan en forma precisa las variables analizadas haciendo rápida su lectura e interpretación. Obviamente, la materia prima de la Estadística Descriptiva la constituyen los datos, que son el resultado de las observaciones y/o experimentos. Se denomina variable al carácter o fenómeno de la realidad objeto de estudio. Las variables pueden ser de diferentes tipos, dependiendo de los datos que la forman.

Las variables cualitativas o atributos son aquellas que no toman valores numéricos. Describen diferentes cualidades denominadas modalidades. Ejemplo: Sexo, estado civil, color de los ojos, etc. Las variables cualitativas están formadas por datos que toman valores numéricos y pueden ser discretas, si sólo toman un número entero de valores, y continuas, si pueden tomar cualquier valor real dentro de un intervalo.

Entre los sistemas para ordenar los datos se encuentran principalmente dos: a) la distribución de frecuencias y b) la representación gráfica.

2.1.1. Distribución de frecuencias

Supongamos que hemos recogido un conjunto de n datos englobados en una variable X. La tabla que recoge de modo sistemático estos datos se denomina distribución de frecuencias. La Distribución de Frecuencias (Simples o agrupadas en intervalos). Comúnmente llamada tabla de frecuencias, se utiliza para hacer la presentación de datos provenientes de las observaciones realizadas en el estudio, estableciendo un orden mediante la división en clases y registro de la cantidad de observaciones correspondientes a cada clase. Lo anterior facilita la realización de un mejor análisis e interpretación de las características que describen y que no son evidentes en el conjunto de datos brutos o sin procesar.

20

Page 21: analisis exploratorio de datos y probabilidad e inferencia estadistica

La siguiente tabla recoge las principales características de una distribución de frecuencias simple o no agrupada.

Datos Frecuencias Absolutas Frecuencias RelativasSimples Acumuladas Simples Acumuladas

Total

La primera columna representa los distintos valores de esos datos y la segunda la frecuencia simple, es decir, el número de veces que se ha observado el correspondiente valor; la tercera columna recoge la frecuencia acumulada (número de veces que se han observado valores menores o iguales que el que corresponde a dicha fila). Las frecuencias relativas se obtienen a partir de las frecuencias absolutas, dividiendo por el tamaño de la muestra.

2.1.2. Descripción de Variables Cualitativas

DISTRIBUCIÓN DE FRECUENCIAS

Supongamos que tenemos N observaciones de una variable cualitativa. Supongamos que la variable puede tomar valores pertenecientes a k clases o categorías:

Representamos mediante n1, n2, …, nk el número de datos que aparecen en cada una de las k categorías.

Frecuencia absoluta de la clase i -ésima ( n i): número de observaciones en la clase i.

21

Page 22: analisis exploratorio de datos y probabilidad e inferencia estadistica

Frecuencia relativa de la clase i -ésima ( f i): es la proporción de datos en la clase i-ésima, es

decir, .

- La suma de las k frecuencias relativas es igual a la unidad: f1 + f2 +…+ fk=1

- Nos permiten comparar las frecuencias de las categorías en conjuntos de datos con distinto número de observaciones

Distribución de frecuencias: es la tabla que presenta las categorías de una variable y sus respectivas frecuencias.

- Nos indica cómo se distribuye la frecuencia total entre las categorías

- Es el resumen más importante de la información contenida en una variable cualitativa Ejemplo 1: nivel educativo

Se ha clasificado a 20 individuos según su nivel de estudios que puede tomar valores:

y se han obtenido los siguientes datos:

1 1 4 3 3 3 2 2 4 2 2 1 4 2 3 2 3 4 2 3;

N=20; k=4

Frecuencias absolutas:

n1=3; n2=7; n3=6; n4=4

Frecuencias relativas:

22

Page 23: analisis exploratorio de datos y probabilidad e inferencia estadistica

Distribución de frecuencias:

Categorías ni fi

1. Sin estudios 3 0,15

2. Primaria 7 0,35

3. Media 6 0,3

4. Superior 4 0,2

N=20 1

La categoría más frecuente es la de estudios primarios y la menos frecuente la de sin estudios

REPRESENTACIÓN GRÁFICA DE LA DISTRIBUCIÓN DE FRECUENCIAS

A) Diagrama de barras : Permite visualizar de forma sencilla la distribución de una variable cualitativa. Se dibuja sobre cada categoría una barra (o rectángulo) cuya altura coincida con la frecuencia absoluta o relativa de dicha clase.

Ejemplo: Nivel de estudios (Continuación ejemplo 1)

Frecuencias relativas fi

0.10

0.15

0.20

0.25

0.30

0.35

0.40

1 2 3 4

B) Diagrama de Pareto : Es como un diagrama de barras en el que se ordenan las clases de mayor a menor frecuencia (absoluta o relativa). En la parte superior de la figura suele trazarse una línea que representa la suma de la frecuencia de cada clase y las que la preceden, esto se usa para identificar la minoría de las características que representan la mayoría de casos.

23

Page 24: analisis exploratorio de datos y probabilidad e inferencia estadistica

A principios del Siglo XX, Vilfredo Pareto (1848-1943), un economista italiano, realizó un estudio sobre la riqueza y la pobreza. Descubrió que el 20% de las personas controlaba el 80% de la riqueza en Italia.

La gráfica de Pareto es una herramienta sencilla pero poderosa al permitir identificar visualmente en una sola revisión las minorías de características vitales a las que es importante prestar atención.

Algunos ejemplos de tales minorías vitales son: La minoría de clientes que representan la mayoría de las ventas. La minoría de productos, procesos, o características de la calidad causantes del grueso de

desperdicio de los costos de retrabajos.

Ejemplo: Nivel educativo (Continuación ejemplo 1)

Frecuencias relativas fi (Gráfico de Pareto)

0.10

0.15

0.20

0.25

0.30

0.35

0.40

2 3 4 1

f2=0,35

f2+ f3=0,35+0,3=0,65

f2+ f3+ f4=0,35+0,3+0,2=0,85

f2+ f3+ f4+f1=0,35+0,3+0,2+0,15=1

Un 35 por ciento de la población llega hasta la educación primaria y el 65 por ciento de la población tiene un nivel educativo primario o media.

24

Page 25: analisis exploratorio de datos y probabilidad e inferencia estadistica

Diagrama de Pareto

0.0

0.2

0.4

0.6

0.8

1.0

2 3 4 1

En el diagrama anterior se observa que el 65 por ciento de la población, tiene un nivel educativo primaria o media.

C) Pictograma: Es una forma de representar las cantidades estadísticas por medio de dibujos, utilizando para ello objetos y figuras. Las figuras empleadas deben explicarse por sí mismas.

Ejemplo: Nivel de educativo (Continuación).

a) Distribución de frecuencias :

Categorías ni fi

1. Sin estudios 3 0,152. Primario 7 0,353. Medio 6 0,34. Superior 4 0,2

N=20 1

b) Elaboración del Pictograma (Ejercicio para el estudiante)

25

Page 26: analisis exploratorio de datos y probabilidad e inferencia estadistica

Ejemplo: Variable socioeconómica (SOC): La variable SOC describe la categoría socioeconómica:

Los datos de 75 hogares (o unidades de gasto) son:

3 7 3 5 3 5 1 5 7 5 5 3 3 5 1 1 3 2 2 3 1 3 7 5 3 3 3 5 5 5 7 7 5 1 4 2 1 7 3 4 3 3 3 5 3 3 6 6 7 2 7 1 3 3 2 5 3 7 2 2 7 5 2 2 7 6 1 5 3 5 3 3 3 4 3

(a) Obtener las frecuencias absolutas de cada una de las categorías.

n1=8 n2=9 n3=25 n4=3 n5=16

n6=3 n7=11

(b) Calcular las frecuencias relativas y mostrar la distribución de frecuencias

Nótese que:

26

Page 27: analisis exploratorio de datos y probabilidad e inferencia estadistica

Distribución de frecuencias:

Categoría ni fi

1. Trabajadores agrarios 8 0,112. Empresarios agrarios 9 0,123. Obreros 25 0,334. Autónomos 3 0,045. Clase media 16 0,216. Clase alta 3 0,047. Retirados 11 0,15

N=75 1

(c) Construir el diagrama de Pareto

0.0

0.2

0.4

0.6

0.8

1.0

3 5 7 2 1 4 6

f3=0,33; f3+f5=0,33+0,21=0,54

f3+f5+f7=0,33+0,21+0,15=0,69

f3+f5+f7+f2=0,33+0,21+0,15+0,12=0,81

f3+f5+f7+f2+f1=0,33+0,21+0,15+0,12+0,11=0,92

f3+f5+f7+f2+f1+f4=0,33+0,21+…+0,11+0,04=0,9

F3+F5+F7+F2+F1+F4+F6=0,33+0,21+…+0,04+0,04=1

El 33 por ciento de la población son obreros y el 54 por ciento de la población son obreros o clase media, y así sucesivamente.

27

Page 28: analisis exploratorio de datos y probabilidad e inferencia estadistica

Gráfico de sectores:En el caso de variables cualitativas el diagrama circular se utiliza con mucha frecuencia. Consiste en representar sobre un círculo los diferentes atributos, mediante un sector circular de ángulo proporcional a la correspondiente frecuencia. El ángulo de cada sector circular se calcula multiplicando por 360º la frecuencia relativa.

Los gráficos de sectores, también conocidos como diagramas de "tartas o pastel", se divide un círculo en tantas porciones como clases tenga la variable, de modo que a cada clase le corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa. Si el número de categorías es excesivamente grande, la imagen proporcionada por el gráfico de sectores no es lo suficientemente clara y por lo tanto la situación ideal es cuando hay alrededor de cuatro categorías. En este caso se pueden apreciar con claridad dichos subgrupos.

Ejemplo. La población según nivel de estudio del Municipio de Ayutuxtepeque se presenta en el siguiente cuadro:

ParvulariaPrimaria o básica

Educación media

Superior no universitaria

Técnico universitario

Superior universitaria Maestría Doctorado Total

1168 15895 6842 499 363 4556 70 7 29400Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007.

Elaborar un gráfico de sectores. Se tienen 8 categorías, por lo tanto debe aparecer el círculo dividido en 8 porciones. La tabla anterior presenta las frecuencias absolutas, habrá que dividir cada dato por el total (29,400) a fin de obtener la frecuencia relativa y luego multiplicar esta última por 100. Por ejemplo, para la categoría de educción básica: (15,895/ 29,400)*100 = 54,06%. Observe que no se ha multiplicado por 360°, ya que es más ilustrativo el porcentaje (Así trabaja Excel).

Figura 2. Nivel educativo de la población de Ayutuxtepeque, por ciento.

Es evidente que la mayoría de la población tiene un nivel educativo básico o media con el 54.06% y 23.27% respectivamente. En general la población de Ayutuxtepeque tiene un nivel educativo relativamente bajo, son muy pocos los que llegan a hacer estudios universitarios.

28

Page 29: analisis exploratorio de datos y probabilidad e inferencia estadistica

2.1.3. Variables cuantitativas discretas.

Diagrama de Barras:Para el caso de distribuciones de frecuencias no agrupadas en intervalos, el diagrama de barras es el gráfico más empleado. Que se usa cuando se pretende resaltar la representación de porcentajes o frecuencias de datos que componen un total. Una gráfica de barras contiene barras verticales que representan valores numéricos. Las frecuencias están asociadas con categorías. Una gráfica de barras se presenta de dos maneras: horizontal o vertical. El objetivo es poner una barra de largo (alto si es horizontal) igual a la frecuencia. La gráfica de barras sirve para comparar y tener una representación gráfica de la diferencia de frecuencias o de intensidad de la característica numérica de interés. Si en vez de frecuencias simples utilizamos frecuencias acumuladas, tenemos el llamado diagrama de escalera.

Ejemplo. Con la información del VI Censo de Población y V de Vivienda, El Salvador, 2007, se han clasificado las mujeres de El Salvador de 12 años y más, según el número de hijos varones, resultando los siguientes datos.

Construir un gráfico de barras para el número de hijos varones de las mujeres salvadoreñas.

Ejemplo. La población según condición de ocupación del Municipio de Ayutuxtepeque se presenta en el siguiente cuadro: OCUPADOS DESOCUPADOS INACTIVOS TotalÁREA URBANA 10966 2832 8531 22329EL ZAPOTE 329 42 477 848LOS LLANITOS 2410 227 2550 5187 Total 13705 3101 11558 28364

Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007.

Elaborar un gráfico de barras para la población total de Ayutuxtepeque según su condición de ocupación.

29

N° Hijos Varones Madres

0 2782901 5094692 3391803 1770504 922335 509166 277917 150048 7328

9+ 7366

Page 30: analisis exploratorio de datos y probabilidad e inferencia estadistica

2.2. Distribución de frecuencias agrupadas.

Cuando en la muestra existen muchos valores diferentes y mucha variabilidad se recomienda, aún a costa de perder información, agrupar los datos en clases, en lo que se denomina distribución de frecuencias agrupada en intervalos.

Clase Marca Frecuencias Absolutas Frecuencias RelativasClase Simples Acumuladas Simples Acumuladas

Total

A cada uno de los intervalos se les denomina clase y al punto medio marca de clase. A efectos de cálculo la marca de clase se elige como representante del intervalo. El número de clases en que se dividen los datos no debe ser excesivo. A modo orientativo, el número de clases se puede obtener mediante la siguiente fórmula empírica, llamada de Sturges:

(Tomar la parte entera)

30

Page 31: analisis exploratorio de datos y probabilidad e inferencia estadistica

Ejemplo. Población de El Salvador, por sexo y edad, año 2007..Edad Hombre Mujer Total Edad Hombre Mujer Total Edad Hombre Mujer Total< 1 51787 50097 101884 36 31398 40111 71509 72 8591 10717 193081 53230 51477 104707 37 31414 38801 70215 73 7461 9522 169832 55845 54261 110106 38 29639 37419 67058 74 8011 10030 180413 59752 57127 116879 39 29435 37454 66889 75 8067 9886 179534 62658 59659 122317 40 31769 39411 71180 76 7535 9745 172805 62274 59738 122012 41 24732 32964 57696 77 6897 8872 157696 69088 66249 135337 42 26840 34653 61493 78 5825 7123 129487 75310 72672 147982 43 24578 32639 57217 79 5334 6700 120348 71525 68511 140036 44 24299 31746 56045 80 5717 7089 128069 70953 68407 139360 45 24451 31422 55873 81 4124 5274 9398

10 74244 70664 144908 46 21989 29308 51297 82 3841 5220 906111 71744 69499 141243 47 22251 28713 50964 83 3438 4508 794612 74093 72835 146928 48 20682 26481 47163 84 3281 4378 765913 68251 66194 134445 49 20584 26241 46825 85 3263 4413 767614 71191 67632 138823 50 22897 28057 50954 86 3096 4286 738215 64523 63752 128275 51 17664 22874 40538 87 2750 3758 650816 61880 61630 123510 52 19081 24360 43441 88 1767 2358 412517 61255 61624 122879 53 17671 22344 40015 89 1595 2219 381418 57590 58584 116174 54 17962 22824 40786 90 1405 2091 349619 53136 56591 109727 55 17848 22561 40409 91 786 1143 192920 50243 55085 105328 56 17114 21361 38475 92 826 1206 203221 45994 51623 97617 57 16816 20974 37790 93 673 990 166322 46006 51429 97435 58 14462 17853 32315 94 559 869 142823 42864 49278 92142 59 15478 18608 34086 95 482 816 129824 42894 51126 94020 60 17461 19979 37440 96 416 674 109025 42616 50552 93168 61 12470 15424 27894 97 356 588 94426 41993 50707 92700 62 13590 17093 30683 98 + 526 948 147427 43473 52214 95687 63 12274 15528 2780228 39209 48076 87285 64 12412 15633 2804529 39672 49378 89050 65 12802 15513 2831530 41911 50744 92655 66 11774 14915 2668931 33494 42933 76427 67 11864 14597 2646132 35940 45312 81252 68 9694 12291 2198533 33124 41990 75114 69 9647 12060 2170734 33931 42870 76801 70 10861 13101 2396235 34628 42848 77476 71 8525 10638 19163

Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007.Elabore una tabla de frecuencias agrupadas por edad.

31

Page 32: analisis exploratorio de datos y probabilidad e inferencia estadistica

2.2.1 Representación gráfica de variables continuas

Histogramas y polígono de frecuencias.El histograma y el polígono de frecuencias son las representaciones gráficas usadas para distribuciones de frecuencias agrupadas en intervalos. El histograma se construye dibujando en cada clase un rectángulo de base la amplitud del intervalo y de altura se representan las frecuencias. Si desde el extremo superior de cada una de las barras que representan los intervalos de clase se hace una marca en el punto medio y luego se unen los puntos por línea recta se obtiene el polígono de frecuencias.

El polígono de frecuencias se lleva hasta el eje horizontal en los extremos hasta los puntos que serían los puntos medios si hubiera una clase adicional en cada extremo del histograma correspondiente. Esto permite que el área total quede incluida. Es decir, el área total bajo el polígono de frecuencias equivale al área bajo el histograma.Ejemplo: Estatura de los estudiantes de clase (ejercicio práctico)

Ejemplo:El siguiente cuadro presenta el número de homicidios para los años 2004, 2005, 2006, 2007 y 2008, para los municipios de Soyapango, Ilopango y San Martín.

Grupos de

edades

SOYAPANGO ILOPANGO SAN MARTÍN

Femenino Masculino Total Femenino Masculino Total Femenino Masculino TotalAÑO 2004

Total 15 167 182 12 78 90 11 42 53AÑO 2005

Total 14 228 242 5 74 79 11 75 86AÑO 2006

Total 16 246 262 15 69 84 6 48 54AÑO 2007

Total 20 179 199 10 67 77 8 71 79AÑO 2008

Total 10 128 138 9 66 75 7 54 61Fuente: Fuente estadísticas de homicidios de Instituto de Medicina Legal. Los cadáveres que no se pudo identificar el sexo, no aparecen registrados en el cuadro anterior.Utilizar la mejor representación gráfica para la información anterior (Diagrama de barras e histogramas)

32

Page 33: analisis exploratorio de datos y probabilidad e inferencia estadistica

2.3. Guía de ejercicios N° 2.

Distribución de frecuencias y sus representaciones gráficas.

1. Las calificaciones de 50 alumnos en Matemáticas han sido las siguientes:5, 2, 4, 9, 7, 4, 5, 6, 5, 7, 7, 5, 5, 2, 10, 5, 6, 5, 4, 5, 8, 8, 4, 0, 8, 4, 8, 6, 6, 3, 6, 7, 6, 6, 7, 6, 7, 3, 5, 6, 9, 6, 1, 4, 6, 3, 5, 5, 6, 7.

Construir la tabla de distribución de frecuencias y dibuja el diagrama de barras.

2. Los pesos de los 65 empleados de una fábrica vienen dados por la siguiente tabla:

Peso [50, 60)

[60, 70) [70, 80) [80,90) [90,

100)[100, 110)

[110, 120)

fi 8 10 16 14 10 5 2

a) Construir la tabla de frecuencias.b) Representar el histograma y el polígono de frecuencias.

3. Los 40 alumnos de una clase han obtenido las siguientes puntuaciones, sobre 50, en un examen de Física.

3, 15, 24, 28, 33, 35, 38, 42, 23, 38, 36, 34, 29, 25, 17, 7, 34, 36, 39, 44, 31, 26, 20, 11, 13, 22, 27, 47, 39, 37, 34, 32, 35, 28, 38, 41, 48, 15, 32, 13.

a) Construir la tabla de frecuencias agrupadas en intervalos de amplitud 5 unidades.b) Dibujar el histograma y el polígono de frecuencias.

4. Se ha realizado una encuesta en 30 hogares en la que se les pregunta el nº de individuos que conviven en el domicilio habitualmente. Las respuestas obtenidas han sido las siguientes: 4, 4, 1, 3, 5, 3, 2, 4, 1, 6, 2, 3, 4, 5, 5, 6, 2, 3, 3, 2, 2, 1, 8, 3, 5, 3, 4, 7, 2, 3.

a) Calcule la distribución de frecuencias de la variable obteniendo las frecuencias absolutas, relativas y sus correspondientes acumuladas.

b) ¿Qué proporción de hogares está compuesto por tres o menos personas? ¿Qué proporción de individuos vive en hogares con tres o menos miembros?

c) Dibuje el diagrama de barras de frecuencias y el diagrama en escalera.

5. Una entidad bancaria dispone de 50 sucursales en el territorio nacional y ha observado el número de empleados que hay en cada una de ellas para un estudio posterior. Las observaciones obtenidas han sido: 12, 10, 9, 11, 15, 16, 9, 10, 10, 11, 12, 13,14,15, 11, 11, 12, 16, 17, 17,16,16, 15, 14, 12, 11, 11, 11, 12, 12, 12, 15, 13, 14, 16, 15, 18, 19, 18, 10, 11, 12, 12, 11, 13, 13, 15, 13, 11, 12.

a) Calcule la distribución de frecuencias de la variable obteniendo las frecuencias absolutas, relativas y sus correspondientes acumuladas.

33

Page 34: analisis exploratorio de datos y probabilidad e inferencia estadistica

b) ¿Qué proporción de sucursales tiene más de 15 empleados?c) Dibuje el diagrama de barras y el diagrama en escalera correspondientes.d) Agrupe en intervalos de amplitud 3 los valores de la variable, calcule su distribución

de frecuencias y represente su histograma y su polígono de frecuencias.

6. Los siguientes valores son los niveles de glucosa en sangre extraída a 100 niños en ayunas:

56 61 57 77 62 75 63 55 64 6060 57 61 57 67 62 69 67 68 5965 72 65 61 68 73 65 62 75 8066 61 69 76 72 57 75 68 81 6469 64 66 65 65 76 65 58 65 6468 71 72 58 73 55 73 79 81 5665 60 65 80 66 80 68 55 66 7172 73 73 75 75 74 66 68 73 6573 74 68 59 69 55 67 65 67 6367 56 67 62 65 75 62 63 63 59

a. Elabore una distribución de frecuenciasb. Un histograma y un polígono de frecuencias.

7. Los siguientes datos representan las ventas de tabaco en España durante el año 1992, en millones de cajetillas, según marcas:

Marcas VentasDucadosFortunaMarlboroWinston (1)Lucky Strike (1)ChesterfielOtros marcas

1,1071,041535333164110725

a. Calcular el porcentaje de ventas de cada marca sobre el total.b. Representar los datos anteriores mediante un diagrama circular

8. Las edades de los empleados de una determinada empresa son las que aparecen en la siguiente tabla:Edad N° de empleadosMenos de 25 22Menos de 35 70Menos de 45 121Menos de 55 157Menos de 65 184

34

Page 35: analisis exploratorio de datos y probabilidad e inferencia estadistica

Sabiendo que el empleado más joven tiene 18 años, escríbase la distribución de frecuencias para datos agrupados (amplitud del intervalo definida según su conveniencia).

35

Page 36: analisis exploratorio de datos y probabilidad e inferencia estadistica

Capítulo 3. Medidas Características de una Distribución Cuantitativa Empírica.

3.1 Medidas de posición

Los promedios o medidas de posición proporcionan valores típicos o representativos de la variable en estudio. Podemos hablar de medidas de posición centrales, como la media (aritmética, geométrica y armónica), la mediana y la moda y medidas de posiciones no centrales, como los cuartiles, quintiles, deciles y percentiles.

La media aritmética es la medida de posición más utilizada (esta muy influenciada por los valores extremos de la variable). Viene definida como la suma de los datos divido por el número de ellos. Dependiendo de la naturaleza de los datos que pretendemos promediar, será conveniente el uso de otro tipo de medidas, como son la media geométrica (Todos los datos son positivos y hay mucha dispersión; ejemplo: porcentajes, tasas de crecimiento, razones, números índices, interés anual, inflación, etc.) y la media armónica (resulta poco influida por la existencia de determinados valores muy grandes que el conjunto de los otros, siendo en cambio sensible a valores muy pequeños), cuyas fórmulas se presentan en la siguiente tabla. Si a cada observación se le asigna un valor diferente, dado en forma de peso, y a continuación se calcula la media, nos encontramos con una media ponderada. La moda de un conjunto de valores es aquel valor que ocurre con más frecuencia. Si todos los valores son distintos, no hay moda, por otra parte, un conjunto de datos puede tener más de una moda.

Medidas de tendencia centralMedia aritmética

Media geométrica

Media armónica

3.1.1. Media aritmética.

Es la medida más conocida, la más fácil de calcular y con la que siempre estamos más familiarizados, ya que siempre hemos calculado el promedio de calificaciones obtenidas en cada periodo escolar (Ciclo, año, etc.) A veces se le denomina simplemente media o promedio, y es utilizada con tanta frecuencia, que en algunas ocasiones nos conduce a resultados que no revelan lo que se pretende presentar, ya que la distribución de los datos puede requerir de la aplicación de un promedio diferente a la media, ya sea, media geométrica o media armónica.

36

Page 37: analisis exploratorio de datos y probabilidad e inferencia estadistica

Le media es altamente sensible a cualquier cambio en los valores de la distribución. No es recomendable su uso cuando la variable está dada en forma de tasas o porcentajes. La media es representativa del conjunto de datos si se quiere promediar cantidades semejantes, que presentan variaciones dentro de un margen razonable.

Media Aritmética simple. Se define como el cociente que se obtiene al dividir la suma de los valores de la variable por el número total de observaciones. Su fórmula está dada por:

Ejemplo. Supongamos que en un almacén tienen empleados a 12 vendedores, y sus ingresos mensuales son: $ 585, $ 521, $ 656, $ 465, $ 536, $ 487, $ 564, $ 490, $ 563, $ 1234, $ 469 y $ 547. Se pide determinar la media de los ingresos de los 12 vendedores.Solución.

Ejemplo. Consideremos las utilidades y pérdidas de un almacén por departamentos, como se muestra en la siguiente tabla.

OBSERVACIÓN. El promedio por departamento se mantiene de un año a otro, pero nos oculta los cambios que se han producido por departamentos donde ha habido un desplazamiento de los beneficios. Para superar estas deficiencias se requiere trabajar con la media ponderada.

Media aritmética ponderadaCuando el número de observaciones es grande, las operaciones para calcular la media se simplifican si agrupamos los datos en una tabla de frecuencias. La fórmula matemática está dada por:

Si los datos están agrupados en clase, no se conoce el valor de x, por lo tanto se toma el punto medio de cada clase en vez de x (marca de clase).

Propiedades de la media.

Dada la importancia de la media y su uso frecuente, conviene considerar algunas de sus propiedades:

1. La suma de las desviaciones respecto a la media es cero, esto es:

37

Departamentos 2008 2009Calzado -10 20Electrodomésticos 153 58Juguetería -40 -20Ropa 130 152Misceláneos -13 10Promedio 44 44

Page 38: analisis exploratorio de datos y probabilidad e inferencia estadistica

Para datos no agrupados:

Para datos agrupados: . La verificación de esta propiedad es inmediata.

2. La media aritmética de una constante es igual a la constante.3. La media del producto de una constante por una variable, es igual a multiplicar a la

constante por la media de la variable.4. La media de una variable más (o menos) una constante será igual a la media de la

variable, más (o menos) la constante, es decir,

5. La media aritmética de una muestra dividida en submuestras, es igual, a la media ponderada de las submuestras, tomando como ponderación los tamaños de las

submuestras. Esto es,

Ejemplo: Un inversionista tiene 1,200 acciones de un precio inferior a $3,490 dólares siendo su valor promedio de $ 2,905; además, 800 acciones cuyo valor unitario es superior a $ 3,490 y su valor promedio de $ 4,275. Calcular el valor promedio de las 2,000 acciones.

Solución.

En promedio el inversionista gasta $ 3,453 dólares en las 2000 acciones.

3.1.2. La media geométrica (Mg)

La media geométrica se define como la raíz n-ésima de la multiplicación de los n valores de la variable. Se utiliza cuando se quiere dar importancia a valores pequeños de la variable o cuando se desea obtener el promedio de valores que están dados en progresión geométrica.

En el campo industrial y comercial se utiliza para obtener promedios sobre el crecimiento o decrecimiento de una variable. Por ejemplo, un capital ahorrado a una tasa de interés compuesto, durante un periodo de tiempo.

La media geométrica se calcula utilizando la siguiente fórmula:

donde los ni es el número de veces que se repite cada dato, en caso que los datos no se repitan los ni=1.La fórmula de la media geométrica tal como se ha presentado tiene el inconveniente de que

38

Page 39: analisis exploratorio de datos y probabilidad e inferencia estadistica

tanto el producto de los xi como su raíz n-ésima, pueden ser un valor demasiado alto que dificulte las operaciones. Para obviar esta dificultad se transforma la ecuación anterior en:

. Es obvio que las dos ecuaciones son equivalentes, esta última

ecuación es la más utilizada en el cálculo de la media geométrica.

Ejemplo (Media geométrica) Las tasas de interés de tres bonos son 5%, 7% y 4%.

La media geométrica es:

La Mg da una cifra de ganancia más conservadora porque no tiene una ponderación alta para la tasa de 7%.

3.1.3. La media armónica (Ma)

Iniciamos diciendo que el inverso de la media armónica es igual a la media aritmética del inverso de los valores de la variable, esto es:

Ejemplo: Se sabe que dos obreros A y B, se tardan 50 y 40 minutos respectivamente en reparar un par de zapatos. ¿Cuál es el tiempo requerido para reparar un par de zapatos?

Solución.

, es el tiempo requerido para reparar un

par de zapatos.

El mayor uso de la media armónica es para calcular la velocidad promedio. Recordemos que:

39

Page 40: analisis exploratorio de datos y probabilidad e inferencia estadistica

, supongamos que se han recorrido k trayectos (distancias) a cierta

velocidad cada trayecto, entonces la velocidad media vendrá dada por:

Ejemplo. Supongamos que la distancia entre dos ciudades, A y B, es de 80 kilómetros y entre B y C de 120 kilómetros. Si un automovilista recorre de A a B a una velocidad de 100Km/h y de B a C a una velocidad de 80Km/h. ¿Cuál es la velocidad promedio?

Solución.

3.1.4. La modaLa moda es una medida de posición, menos importante que los promedios y su uso es bastante limitado. Se utiliza en distribuciones cuando la variable o el atributo presentan una frecuencia demasiado grande con respecto a las demás.

La moda se define aquel valor de la variable o del atributo que presenta la mayor densidad, es decir, la mayor frecuencia.

Si se tiene un atributo o una variable con máxima frecuencia, la distribución es unimodal. Si hay dos valores en la variable con la misma frecuencia máxima, la distribución es bimodal. Si hay más de dos, la distribución es multimodal. Cuando ninguno de los valores que toma la variable se repite, no existe moda.

Datos agrupados.

Cuando la moda se aplica a una variable continua, se requiere que la amplitud de los intervalos sea constante. A se presenta una fórmula para obtener una aproximación del valor modal:

40

Page 41: analisis exploratorio de datos y probabilidad e inferencia estadistica

3.1.5. La mediana.La mediana de una distribución de frecuencia corresponde al valor, supuesto los datos ordenados de menor a mayor, que deja a ambos lados el mismo número de observaciones. Cuando calculamos la mediana en datos no agrupados, ordenamos las observaciones de menor a mayor o viceversa. En su cálculo se presentan dos casos:a) Cuando el número de datos es impar: En este caso la mediana coincide con el dato central.

Ejemplo: Consideremos los salarios en dólares para 11 vendedores; 243, 320, 311, 254, 234, 261, 239, 310, 218, 267, 287. Calcular la mediana.

Solución:

Primero ordenar los datos de menor a mayor: 218, 234, 239, 243, 254, 261, 267, 287, 310, 311, 320La posición donde se encuentra la mediana: (11+1)/2=6, la mediana se encuentra en la sexta posición y corresponde al valor de: Md=261.

b) Cuando los datos son pares: La mediana será el término medio de los dos valores centrales.

Ejemplo. Consideremos los salarios en dólares para 12 vendedores; los cuales se han presentado ordenados anteriormente 218, 234, 239, 243, 254, 261, 267, 287, 310, 311, 320 y 322:. Calcular la mediana.Solución:

Para obtener la posición central se aplica la siguiente fórmula: , entonces

la mediana corresponde al promedio de los dos valores sombreados de amarillo, esto es:Md=(261+267)/2=264.

Para el caso de distribuciones agrupadas en intervalos se utiliza una fórmula aproximada. Se comienza calculando el intervalo donde se encuentra la mediana, para lo cual se calculan las frecuencias acumuladas, y se escoge el primer intervalo cuya frecuencia acumulada sea igual o superior a n/2. A continuación se aplica la fórmula:

3.1.5. Cuartiles, Deciles y Percentiles

Dados una serie de valores X1,X2,X3...Xn ordenados en forma creciente, los cuartiles son los tres valores que dividen al conjunto de datos ordenados en cuatro partes porcentualmente iguales.

Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundo cuartil es precisamente la mediana. El primer cuartil, es el valor en el cual o por debajo del cual queda un cuarto (25%) de todos los valores de la sucesión (ordenada); el tercer cuartil, es el valor en el cual o por debajo del cual quedan las tres cuartas partes (75%) de los datos.

41

Page 42: analisis exploratorio de datos y probabilidad e inferencia estadistica

Para Datos No Agrupados

Si se tiene una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes fórmulas:

El primer cuartil:

La posición del primer cuartil: 1*(n+1)/4

Para el tercer cuartil

La posición del primer cuartil : 3*(n+1)/4

Quintiles Se representan con la letra K. Su fórmula aproximada es i*n/5.

El primer quintil. Separa a la muestra dejando al 20 % de los datos a su izquierda. El segundo quintil. Es el valor que indica que el 40 % de los datos son menores. El tercer quintil. Indica que el 60 % de los datos son menores que él. El cuarto quintil. Separa al 80 % de los datos inferiores del otro 20 %.

Deciles Se representan con la letra D. Son 9 valores que distribuyen la serie de datos, ordenada de

forma creciente o decreciente, en diez tramos iguales, en los que cada uno de ellos concentra el 10% de los resultados. Su fórmula aproximada es i*n/10.

Es el decil i-ésimo, donde la i toma valores del 1 al 9. El (i*10) % de la muestra son valores menores que él y el 100-(i*10) % restante son mayores.

Percentiles Se representan con la letra C. Su fórmula aproximada es i*n/100. Es el percentil i-ésimo, donde la i toma valores del 1 al 99. El i % de la muestra son

valores menores que él y el 100-i % restante son mayores.

Para Datos Agrupados

Cuando los datos no están agrupados en intervalos los cuartiles, así como el resto de las medidas de posición, tienen un valor claro, tal como se ha descrito anteriormente. Sin embargo, cuando tenemos una agrupación de los datos ya no es tan sencillo realizar el cálculo. Sí que resulta claro ver en cuál de los intervalos está el cuartil (quintil, decil o percentil) buscado, pero para calcular su valor aproximado necesitaremos usar una fórmula. El cálculo es similar al de la mediana, hay que empezar calculando el intervalo cuya frecuencia acumulada sea igual o mayor que el valor jn/k, para a continuación aplicar la fórmula:

42

Page 43: analisis exploratorio de datos y probabilidad e inferencia estadistica

donde k = 4 (j = 1, 2, 3) para los cuartiles, k = 10 (j = 1, 2, . . . , 9) para los deciles, k=100 (j= 1, 2, . . . , 99) para los percentiles.

3.2 Medidas de DispersiónLas medidas de dispersión estudian la separación existente entre los diversos valores que toma la variable. Se dividen en medidas de dispersión absoluta y relativa. Las absolutas suelen hacer referencia a un promedio, y permiten estudiar su representatividad. Este tipo de medidas depende de las unidades, lo que es un inconveniente para realizar comparaciones entre poblaciones. En este sentido, las medidas de dispersión relativas no dependen de las unidades y permiten comparar variabilidad entre poblaciones.

El rango estadístico, también llamado amplitud o recorrido, es la diferencia entre el valor máximo y el valor mínimo en un grupo de números. Para averiguar el rango de un grupo de números:

Ordenamos los números según su tamaño. Restamos el valor mínimo del valor máximo.

Con el objeto de que no exista dependencia de los valores extremos, se introduce el recorrido intercuartílico, que es la semidiferencia entre el tercer y el primer cuartil:

Se define también la desviación absoluta media como la media de los valores absolutos de las diferencias de los datos a la media, es decir:

Varianza, desviación típica y coeficiente de variación

La varianza es una medida de dispersión que sirve para estudiar la representatividad de la media. Viene definida como la media de las diferencias cuadráticas de las puntuaciones respecto a su media aritmética:

Una varianza “grande” es indicativa de que la media no es representativa, mientras que una varianza “pequeña” indica que la media es un buen representante de los datos. Con el objeto de tener una medida de dispersión similar a la varianza, pero que venga medida en las mismas unidades de la variable, se define la desviación típica como la raíz cuadrada positiva de la varianza:

43

Page 44: analisis exploratorio de datos y probabilidad e inferencia estadistica

La relación entre la varianza de una variable X y la de una nueva variable definida como a+bX es:

Por lo tanto, si a los datos de la distribución les sumamos una cantidad constante la varianza no se modifica y si multiplicamos por una constante, la varianza queda multiplicada por el cuadrado de esa constante.

En ocasiones puede interesar comparar la dispersión de dos muestras y la desviación típica no ser válida, si las dos muestras tienen unidades diferentes. Para obviar este inconveniente se define el coeficiente de variación:

Que no depende de cambios de escala en la variable.

3.3 Medidas de forma

Este tipo de medidas permite conocer la forma de la distribución sin necesidad de recurrir a su representación gráfica. Existen dos tipos de medidas de forma: Asimetría y curtosis. Para clasificar la distribución según estas medidas, se establece en ambos casos una tipología de distribuciones. Una variable se dice que es simétrica si al “doblar” la distribución respecto a un eje (centro de simetría), las frecuencias coinciden. Caso contrario se dice que la distribución es asimétrica positiva o negativa, dependiendo que la rama larga de la distribución se encuentra en el sentido positivo o negativo del eje de las x. La medida más popular de asimetría es el coeficiente de asimetría de Fisher, que viene dado por:

Este coeficiente es invariante frente a cambios de origen y de escala.

Cuya interpretación es: Si g1 = 0, la distribución es simétrica. Si g1 > 0, la distribución es asimétrica positiva Si g1 < 0, la distribución es asimétrica negativa.

El coeficiente de curtosis trata de estudiar la concentración de frecuencias en la zona central de la variable, de modo que variables con curtosis alta (leptocúrticas) tienen forma alargada y variables con curtosis baja tienen forma aplanada (platicúrticas). La comparación se realiza respecto a una distribución “moderada” como es la distribución normal (mesocúrtica). El coeficiente de curtosis viene dado por:

44

Page 45: analisis exploratorio de datos y probabilidad e inferencia estadistica

Que se interpreta del siguiente modo:Si g2 = 0, la distribución es mesocúrtica o normal.Si g2 > 0, la distribución es leptocúrtica o por encima de lo normal.Si g2 < 0, la distribución es platicúrtica o por debajo de la normal.

Al igual que el coeficiente de asimetría de Fisher, el coeficiente de curtosis es invariante frente a cambios de origen y de escala.

3.4. Guía de Ejercicios N° 3. Medidas características de una distribución cuantitativa empírica

1) ¿Por qué no se aplica la media geométrica cuando uno de los valores es cero? Si la fórmula es

.

2) De un grupo de 100 obreros en una fábrica, 40 trabajan en el día y 60 en la noche. Se sabe que el salario promedio anual de los 100 obreros es de $8,700 dólares y que los del turno de día reciben en promedio $800 dólares menos que los trabajadores nocturnos. ¿Cuál es el salario promedio anual en cada grupo?

3) En un supermercado trabajan 35 mujeres, con un salario promedio mensual de $650 dólares y 15 hombres, en promedio ganan un 12% más que las mujeres ¿Cuál es el salario promedio de los empleados del supermercado?

4) Durante un mes se construyeron 134 Km de carretera en la siguiente forma: 3.6% del total en la primera semana; 15.3% del total en la segunda semana; 7.6% en la tercera semana; 24.5% en la cuarta semana y en la última semana el 49%. La construcción promedio por día en cada semana fue de: 0.9Km/d, 3.4Km/d, 1.7Km/d, 5Km/d y 10Km/d, respectivamente. Hallar la medida de tendencia central que mejor represente el promedio de esta distribución.

5) La media aritmética de tres números es 7, su mediana es 6 y su media geométrica es . Con los tres números calcular la media armónica.

6) Se sabe que la media aritmética de dos números es 5 y la media geométrica es 4. ¿Cuál es la media armónica?

45

Page 46: analisis exploratorio de datos y probabilidad e inferencia estadistica

7) Una persona viaja 4 días. Diariamente recorre 200 Km, pero maneja el primero y el último día a 50Km/h, el segundo a 55Km/h y el tercer día a 70Km/h. ¿Cuál es la velocidad media durante el viaje?

8) Las ciudades A, B y C son equidistantes entre sí. Un automovilista viaja de A a B a 30 Km/h de B a C a 40 Km/h y de C a A a 50 Km/h. Determine el promedio de velocidad para el viaje completo.

9) Un fabricante dispone $600,000 anuales para la compra de materia prima. Durante tres años invierte la misma cantidad de dinero. Si el precio promedio por Kg ha aumentado en los últimos tres años sucesivos de $2,200 a $2,800 y luego a $4,600, ¿Cuál es el precio promedio que ha pagado el fabricante en los tres años?

10) El 1 de mayo de 2002 se ahorraron $ 50,000 en un banco al 7.6% de interés anual, capitalizados semestralmente. Obtener la cantidad media depositada en la cuenta, entre el 1 de mayo de 2002 y el 31 de octubre de 2006, suponga que no se hicieron retiros durante el periodo.

11) Tres amas de casa fueron a comprar a tres mercados diferentes. Cada una gastó $ 10 dólares en la compra de naranjas. La ama de casa A compró 4 docenas de naranjas; B compró 6 docenas y C compró 3 docenas. ¿Cuál es el precio promedio por docena?

12) El siguiente cuadro muestra la distribución de la renta anual (en miles de dólares) en que incurren 50 viviendas:

Marca de Clase 18.85 21.55 24.25 26.95 29.65 32.35 35.05N° de Viviendas 3 2 7 7 11 11 9

a) Halle e interprete según el enunciadoi) Media, mediana y moda.ii) Desviación estándar y coeficiente de variabilidad.

b) Estime el porcentaje de viviendas con rentas superiores o iguales a 26,000 dólares pero menores que 32, dólares.

c) Si las rentas menores que 28,300 dólares se incrementaron en 2,500 dólares y las rentas mayores o iguales que 28,300 dólares se redujeron en un 30%. Calcule la nueva renta promedio.

13) Una compañía requiere los servicios de un técnico especializado. De los expedientes presentados, se han seleccionado 2 candidatos: A y B, los cuales reúnen los requisitos mínimos requeridos. Para decidir cuál de los 2 se va a contratar, los miembros del Jurado deciden tomar 7 pruebas a cada uno de ellos. Los resultados se dan a continuación:

Pruebas

1 2 3 4 5 6 7

46

Page 47: analisis exploratorio de datos y probabilidad e inferencia estadistica

Puntaje obtenido por A 57 55 54 52 62 55 59

Puntaje obtenido por B 80 40 62 72 46 80 40

a) Halle e interprete la media, mediana y moda de los dos candidatos.b) Estadísticamente ¿Cuál de los candidatos debe ser contratado? Fundamente su respuesta.

14) Se toman las medidas de 80 personas las que tienen estatura media de 1.70 m y desviación estándar de 3.4 cm. Posteriormente se verificó que la media usada tenía 4 cm de menos.Rectifique los estadígrafos (estadísticos) mencionados.

15) Una asistencia social desea saber cuál es el índice de natalidad en 2 municipios de San Salvador para ello encuestó a 10 familias de cada municipio obteniendo los siguientes resultados

A 0 6 1 2 3 1 4 3 6 4

B 3 4 1 4 2 3 1 5 4 3

a) Calcule la media, mediana y moda para cada municipio e interprételos.b) Considera Ud. que en el distrito B, el número de hijos por familia es más homogéneo que en

el distrito A.

16) El salario promedio anual en una ciudad es de 8,000 dólares con una variancia de 1,000 dólares ¿Cuales serán la nueva media y la nueva variancia si se efectúan los siguientes cambios:

a) Se aumenta 810 dólares a todosb) Se aumenta el 15 % de su salario a cada trabajadorc) Si se duplican los sueldos17) En un examen 20 alumnos del curso A obtienen una media de 60 puntos y desviación

estándar de 20 puntos. En el curso B los alumnos obtienen una media de 80 y desviación estándar de 16. Ante un reclamo se decide subir en 5% más 5 puntos adicionales a todos los alumnos del curso A, en cambio como hubo muchas copias en el curso B se decidió disminuir la quinta parte de la calificación.Después de los mencionados ajustes ¿Cuál es el puntaje medio de los 50 alumnos?

18) Se ha realizado un estudio entre 100 mujeres mayores de 15 años y el número de hijos de las mismas. El resultado ha sido:

Xi: Nº hijos ni: Nº mujeres0123456

132025201174

Se pide:a) Calcular el número medio de hijos, la mediana y la moda.

47

Page 48: analisis exploratorio de datos y probabilidad e inferencia estadistica

b) Calcular los cuartiles y el decil 7.c) Analizar la dispersión de la distribución, interpretando los resultados.d) Analizar la forma de la distribución calculando los coeficientes correspondientes. Comente los resultados.19) La siguiente distribución expresa el número de vehículos vendidos durante un

mes por cada uno de las 50 sucursales que una determinada firma tiene en El Salvador:

xi: número devehículos vendidos

ni: númeroSucursales

1346

10

5122085

Se pide:a) Media aritmética, mediana y moda. ¿Qué puede decir de la asimetría de la distribución con estos datos?b) Desviación típica, Coeficientes de asimetría de Fisher y curtosis. Comente los resultados.

20) La siguiente tabla recoge la cifra de ventas (en miles de millones) y el número de empleados (en miles) de las diez mayores empresas del sector de automóvil durante el año 1989:

Empresa Ventas PlantillaSEATFasa RenaultGeneral MotorsFordCitroenPeugeotNissanMercedes BenzENASA

457.3449.7372.7356.1224.6198.0161.1110.797.3

23.819.29.49.57.66.76.63.45.5

a) Calcular las ventas medias y el número medio de empleados.

b) ¿Dónde existe mayor homogeneidad, en las ventas o en la plantilla?

c) Calcular las ventas medias por empleado.

21) Una empresa dedicada al cultivo y explotación de naranjos posee 5 fincas. La producción de naranjas y el rendimiento medio por hectárea para cada una de las fincas están dados en la siguiente tabla. Calcular el rendimiento medio por hectárea para el total de las 5 fincas.

48

Page 49: analisis exploratorio de datos y probabilidad e inferencia estadistica

Producción (Tm) Rendimiento (Tm/Ha)Finca 1Finca 2Finca 3Finca 4Finca 5

15520830

9210420

Solución.El rendimiento medio por hectárea en el total de la fincas vendrá dado por el cociente entre el total de la producción y el total de hectáreas. Esta última cantidad la podemos calcular como cociente producción/rendimiento en cada finca:

= 8.07 Tm/hectárea.

Observe que la fórmula aplicada coincide con la media armónica de los rendimientos ponderados por la producción de cada fila.

22) La primera etapa de un rally consta de 4 tramos cronometrados. En cada uno de los 4 tramos, un determinado piloto ha alcanzado las siguientes velocidades medias:

Distancia (km) Velocidad media (km/h)Tramo 1Tramo 2Tramo 3Tramo 4

20101530

120708090

Calcular la velocidad media total alcanzada por el piloto en la primera etapa del rally. Solución.La velocidad media total vendrá dada por el cociente entre el total de la distancia y el tota del tiempo:

= 90.32 Km/hora.

Observe que la fórmula aplicada vuelve a ser la media armónica, de las velocidades ponderadas por la distancia de cada tramo.

23) Se tienen tres ciudades A, B y C. La distancia que hay de B a C es el triple de la distancia de A a B; y la distancia de C a A es el doble de la distancia de B a C. Un automovilista viaja de A a B a 70 Km/h de B a C a 75 Km/h y de C a A 85 Km/h. Determine el promedio de velocidad para el viaje completo.

24) En la asignatura de Matemática Básica se obtuvo una nota media de 4 puntos y desviación estándar 1.8. Se añaden 20 nuevos datos, todos iguales a 4 puntos.

a) Calcular la media total

49

Page 50: analisis exploratorio de datos y probabilidad e inferencia estadistica

b) Verificar que la varianza total está dada por: , donde es el número de

alumnos del primer grupo y representa la varianza del primer grupo de alumnos.

25) Supongamos que se tienen dos variables aleatorias X, Y de las que se conocen los siguientes

datos muestrales: y n tamaño de la muestra (k y b son constantes positivas). Calcular:

a) La media y la desviación estándar de Y b) Comparar el coeficiente de asimetría de ambas variables

SOLUCIÓN: GUIA DE EJERCICIOS N° 3

Medidas características de una distribución cuantitativa empírica.

1. ¿Por qué no se aplica la media geométrica cuando uno de los valores es cero? Si la

fórmula es G = (

Respuesta: porque si uno de los valores es cero, la multiplicación de todos ellos dará cero y la

media geométrica será cero, que no representa el valor de la media geométrica, entonces no tiene

sentido aplicar la fórmula de la media geométrica.

2. De un grupo de 100 obreros en una fábrica, 40 trabajan en el día y 60 en la noche. Se sabe

que el salario promedio anual de los 100 obreros es de $ 8700 y que los del turno del día

reciben en promedio $800 menos que los trabajadores nocturnos. ¿Cuál es el salario

promedio anual en cada grupo?

Solución

Datos:

n= 100=

=60, trabajadores de noche.

= 8,700

50

Page 51: analisis exploratorio de datos y probabilidad e inferencia estadistica

Como tenemos que los trabajadores del turno de día reciben en promedio $800 dólares menos que

los de la noche

Entonces = …Ecu. 1

Luego utilizando la fórmula de la media ponderada

, luego sustituyendo tenemos

870,000= 100 - 32,000

902,000=100

=

9,020= , salario promedio en el grupo dos

Sustituyendo en Ecu.1 tenemos

=

= 8220, salario promedio en el grupo uno.

3. En un supermercado trabajan 35 mujeres, con un salario promedio mensual de $ 650

dólares y 15 hombres en promedio ganan un 12% más que las mujeres ¿cuál es el salario

promedio de los empleados del supermercado?

Solución

Datos

= 35

51

Page 52: analisis exploratorio de datos y probabilidad e inferencia estadistica

=15

Ahora como tenemos dos grupos utilizamos la media ponderada

, sustituyendo

Salario promedio de los empleados del supermercado.

4. Durante un mes se construyeron 134 Km de carretera en la siguiente forma: 3.6% del total en la primera semana; 15.3% del total en la segunda semana; 7.6% en la tercera semana; 24.5% en la cuarta semana y en la última semana el 49%. La construcción promedio por día en cada semana fue de: 0.9Km/d, 3.4Km/d, 1.7Km/d, 5Km/d y 10Km/d, respectivamente. Hallar la medida de tendencia central que mejor represente el promedio de esta distribución.

Solución

La medida de tendencia central que mejor representa el promedio de esta distribución es la media

armónica.

Construimos la siguiente tabla.

semanas Construcción(km) Construcción promedio(km/d)

1ª 4.82 0.9

2ª 20.50 3.4

3ª 10.18 1.7

4ª 32.83 5

5ª 65.66 10

52

Page 53: analisis exploratorio de datos y probabilidad e inferencia estadistica

Ma=

Ma= = 4.39km/d

5. La media aritmética de tres números es 7, su mediana es 6, y su media geométrica es

. Con los tres números calcular la media armónica.

Solución

Sean: los tres números.

Datos:

= 7

Md=6

Mg=

n=3

Como la mediana es el valor central entonces

Md=

6=

Entonces los números son x1= 3, X2=6 y X3=12

Luego encontrar la media armónica de los tres números

53

Page 54: analisis exploratorio de datos y probabilidad e inferencia estadistica

= 9.25

6. Se sabe que la media aritmética de dos números es 5 y la geométrica es 4. ¿cuál es la

media armónica?

Solución

Sean: los dos números.

Datos:

= 5 Mg=4 n=2

La media aritmética

, Ecu. 1

Ahora utilicemos la media geométrica

4= , sustituyendo

16=

+16=0

54

Page 55: analisis exploratorio de datos y probabilidad e inferencia estadistica

(

Sustituyendo en Ecu 1

Sustituyendo en Ecu 1

Los números son 8 y 2

Luego encontrar la media armónica de los dos números

= 3.2

7. Una persona viaja 4 días. Diariamente recorre 200km, pero maneja el primero y el ultimo

día a 50km/h. ¿cuál es la velocidad media durante el viaje?

Solución

Construimos la siguiente tabla

días Distancia(km) Velocidad media (km/h)

1 200 50

55

Page 56: analisis exploratorio de datos y probabilidad e inferencia estadistica

2 200 55

3 200 70

4 200 50

Para calcular la velocidad media utilizamos la media armónica

Ma= = 55.19

8. Las ciudades A, B y C son equidistantes entre sí. Un automovilista viaja de A a B a

30km/h, de B a C a 40km/h y de C a A a 50km/h. Determinar el promedio de velocidad

para el viaje completo.

Solución

Utilizamos la media armónica, porque con ella encontramos la velocidad media, y como nos dice

que las ciudades son equidistantes, entonces tenemos

Ma= = = = 38.29

9. Un fabricante dispone $600,000 anuales para la compra de materia prima. Durante tres

años invierte la misma cantidad de dinero. Si el precio promedio por kg ha aumentado en

los últimos tres años sucesivamente de $2,200 a $2,280 y luego a $4,600. ¿Cuál es el

precio promedio que ha pagado el fabricante en los tres años?

Solución

Utilizar la media geométrica

56

Page 57: analisis exploratorio de datos y probabilidad e inferencia estadistica

Mg=

Sustituyendo los valores tenemos

Mg= =3,048.69

10. El primero de mayo de 2002 se ahorraron $50,00 en un banco al 7.6% del interés anual,

capitalizado semestralmente. Obtener la cantidad media depositada en la cuenta, entre el

primero de mayo de 2002 y el 31 de octubre de 2006, suponga que no se hicieron retiros

durante el periodo.

Solución

Como el problema se refiere a interés se utiliza la media geométrica

Mg=

Construir la siguiente tabla

Semestres año capital Ln

1/05-31/10 2,002 50,000 10.82

1/11-31/05 2,002 51,900 10.85

1/05-31/10 2,003 53,872.2 10.89

1/11-31/05 2,003 55,919.34 10.93

1/05-31/10 2,004 58,044.27 10.97

1/11-31/05 2,004 60,249.95 11.01

1/05-31/10 2,005 62,539.44 11.04

1/11-31/05 2,005 64,915.94 11.08

1/05-31/10 2,005 67,382.74 11.12

Total 98.71

57

Page 58: analisis exploratorio de datos y probabilidad e inferencia estadistica

Luego sustituir los datos en Mg= , tenemos

Mg= =29.81

11. Tres amas de casa fueron a comprar a tres mercados diferentes. Cada una gasto $10

dólares en la compra de naranjas. La ama de casa A compro 4 docenas de naranjas, la ama

de casa B compro 6 docenas de naranjas y la ama de casa C, compro 3 docenas de

naranjas. ¿Cuál es el precio promedio por docena?

Solución

A= B= C= =3.3

Luego utilizamos la media armónica

, sustituyendo los datos tenemos

=2.27, precio promedio por docena

12. el siguiente cuadro muestra la distribución de renta anual (en miles de dólares) en que

incurren 50 viviendas.

Marca de clase 18.85 21.55 24.25 26.95 29.65 32.35 35.05

58

Page 59: analisis exploratorio de datos y probabilidad e inferencia estadistica

N° de viviendas 3 2 7 7 11 11 9

A) Halle e intérprete según el enunciado

i) media, mediana y moda

Para encontrarlas necesito construir la tabla de frecuencias.

Para encontrar la clase utilizo

= 21.55-18.85=2.7

Entonces tenemos que las amplitudes de las clases son 2.7

Luego construimos la tabla de frecuencias agrupadas

Clases

17.5-<20.2 18.85 3 3

20.2-<22.9 21.55 2 5

22.9-<25.6 24.25 7 12

25.6-<28.3 26.95 7 19

28.3-<31 29.65 11 30

31-<33.7 32.35 11 41

33.7-<36.4 35.05 9 50

Total n=50

-hallar la media

Sustituyendo los datos tenemos

-hallar la mediana

59

Page 60: analisis exploratorio de datos y probabilidad e inferencia estadistica

Md=

Buscar la clase = =25, en las frecuencias acumuladas

Sustituyendo los datos tenemos

Md=

-hallar la moda.

Como la moda en los datos agrupados en clases es el valor que más se repite pero en las

frecuencias simples entonces tenemos dos clases modales (las que tiene color rosado)

Para encontrarlas utilizamos

Md= Md=

Md= =29.95 Md= =32.21

ii) desviación estándar y coeficiente de variabilidad

-desviación estándar

Para encontrarla debó primero conocer la varianza y esta viene dada por la siguiente formula

,

Sustituyendo los datos en la formula tenemos

60

Page 61: analisis exploratorio de datos y probabilidad e inferencia estadistica

Entonces la desviación estándar es

S=4.62

-coeficiente de variabilidad

Sustituyendo los datos tenemos

La media es representativa porque el coeficiente es muy bajo

b) estime el porcentaje de viviendas con rentas superiores o iguales a 26,000 dólares pero

menores que 32,000 dólares

Es la clase que esta coloreada de amarillo

, es el porcentaje

13) una compañía requiere los servicios de un tecnico especializado. De los expedientes

presentados, se han seleccionado dos candidatos: A y B los cuales reúnen los requisitos mínimos

requeridos. Para decidir cuál de los dos se va a contratar, los miembros del jurado deciden tomar

siete pruebas a cada uno de ellos. Los resultados se dan a continuación.

Pruebas 1 2 3 4 5 6 7

Puntaje obtenido por A 57 55 54 52 62 55 59

Puntaje obtenido por B 80 40 62 72 46 80 40

a) Halle media, mediana y moda de los candidatos

61

Page 62: analisis exploratorio de datos y probabilidad e inferencia estadistica

= , media del candidato A

, media del candidato B

- Mediana

Ordenar los datos

A

B

Para encontrar la mediana se busca la posición

Entonces

55 62

-hallar moda

Como la moda es el valor que más se repite entonces tenemos

55 40

80

Estadísticamente. ¿cuál de los dos candidatos debe ser contratado? Fundamente su

respuesta.

Para saber si las medias de los candidatos A y B son representativas como para elegir un

candidato debo encontrar el coeficiente de variabilidad de ambos.

62

Page 63: analisis exploratorio de datos y probabilidad e inferencia estadistica

Encontrar desviación estándar del candidato A

=9.63, varianza del candidato A

Desviación estándar del candidato A

El coeficiente de variación de A

, coeficiente de variación de del candidato A

Encontrar desviación estándar del candidato B

= varianza del candidato B

, desviación estándar del candidato B

Encontrar el coeficiente de variación

,

63

Page 64: analisis exploratorio de datos y probabilidad e inferencia estadistica

Entonces estadísticamente el candidato que debe de ser contratado es el A, ya que el coeficiente

de variabilidad de este es más pequeño que el del candidato B, es decir que la media de A es más

representativa.

14. se toman las medidas de 80 personas las que tiene estatura media de 1.70m y desviación

estándar de 3.4cm. Posteriormente se verifico que la media usada tenía 4 cm de menos.

Rectifique los estadísticos mencionados.

Solución

Tenemos que =1.70 y como tiene un error de 4cm entonces la nueva media es

=1.64.

Ahora encontrar la varianza,

Por propiedad de la varianza sabemos que si a todos los datos que tenemos le sumamos o le

restamos algo esta no cambia entonces la varianza será la misma

=3.4

15) una asistencia social desea saber cuál es el índice de natalidad en 2 municipios de san

salvador para ello encuesto a 10 familias de cada municipio obteniendo los siguientes resultados.

A 0 6 1 2 3 1 4 3 6 4

B 3 4 1 4 2 3 1 5 4 3

a) Calcule la media, mediana y moda para cada municipio e interprételos.

-media

= 3, media del municipio A

64

Page 65: analisis exploratorio de datos y probabilidad e inferencia estadistica

, media del municipio B

-mediana

Ordenar los datos de los municipios

A

B

Buscar la posición =5.5, entonces tenemos que

=3

La moda es el valor que más se repite entonces tenemos que 1 3

3 4

4

6

b) Considera Ud. que el distrito B, el número de hijos por familia es más homogéneo que en el

distrito A. Para saber cual distrito es más homogéneo encuentro su respectivo coeficiente de

variación

Encontrar desviación estándar del municipio A

=3.8, varianza del municipio A

65

Page 66: analisis exploratorio de datos y probabilidad e inferencia estadistica

Desviacion estándar del municipio A

El coeficiente de variación de A

, coeficiente de variacion del municipio A

Encontrar desviación estándar del municipio B

= varianza del municipio B

, desviación estándar del municipio B

Encontrar el coeficiente de variación

,

Entonces el municipio más homogéneo es el B.

16) El salario promedio anual en una ciudad es de 8,000 dólares, con una varianza de 1,000

dólares. ¿Cuáles serán la nueva media y la nueva varianza si se efectúan los siguientes cambios?

a) se aumenta 810 dólares a todos

=8000, pero como a cada uno de los trabajadores se les aumenta 810 dólares mas por propiedad

de la media se sabe que si a cada dato se le suma o se le resta una constante entonces esta

constante se le suma o se le resta a la media, entonces tendremos

66

Page 67: analisis exploratorio de datos y probabilidad e inferencia estadistica

=8000+810=8,810, esta es la nueva media

Ahora para encontrar la varianza lo hacemos por la propiedad que dice que si a cada uno de los

valores se le suma o resta una constante la varianza no cambia entonces

=1,000,

b) Se aumenta el 15% de su salario a cada trabajador

En lo anterior realizado se puede observar que a cada salario se está multiplicando por una

constante, y por propiedad de la media tenemos que si la media de multiplicar cada uno de los

valores de una variable por una constante es igual a multiplicar la constante por la media.

Entonces la nueva media será

=8000x1.15=9,200

La nueva varianza la encontramos utilizando la propiedad que dice que si todos los datos son

multiplicados por una constante entonces se multiplica la constante al cuadrado por la varianza

entonces tendremos

=1,000x =1322.5

c) Se duplican los sueldos

Utilizando las propiedades del literal c) tendremos que

=8000x2=16,000, esta será la nueva media

=1,000x =4,000, esta será la nueva varianza

67

Page 68: analisis exploratorio de datos y probabilidad e inferencia estadistica

17) En un examen 20 alumnos del curso A obtienen una media de 60 puntos y desviación

estándar de 20 puntos. En el curso B los alumnos obtienen una media de 80 y desviación

estándar de 16. Ante unos reclamos se decide subir en 5% mas 5 puntos adicionales a todos

los alumnos del curso A, en cambio como hubo muchas copias en el curso B se decidió

disminuir la quinta parte de la calificación. Después de los mencionados ajustes ¿cuál es el

puntaje promedio de los 50 alumnos?

Solución

Datos

A B

=20 =30

60 80

20 16

-encontrar la nueva media y desviación estándar de los cursos A y B

Para el curso A tenemos

Entonces la nueva media utilizando la propiedad correspondiente será

60x 1.05+ 5 =68

Y la nueva varianza utilizando la propiedad correspondiente será

20x = 22.05,

Ahora para el curso B tenemos

68

Page 69: analisis exploratorio de datos y probabilidad e inferencia estadistica

Por propiedad de la median tendremos

80x = 64

Por propiedad de la varianza tendremos

16x = 10.24,

Ahora encontrar el puntaje promedio de los 50 alumnos

Para ello utilizamos la median pondera.

, luego sustituyendo tenemos

=65.6. Puntaje promedio de los alumnos.

18) se ha realizado un estudio entre 100 mujeres mayores de 15 años y el número de hijos de las

mismas. El resultado ha sido:

0 13

1 20

2 25

3 20

69

Page 70: analisis exploratorio de datos y probabilidad e inferencia estadistica

4 11

5 7

6 4

N=100

.se pide:a) Calcular el número medio de hijos, la mediana y la moda.b) La media

=2.33

-mediana

Buscar la posición

Entonces Md=2

-moda

Como en esta caso el valor que más se repite es 2, entonces

Mo=2c) Calcular los cuartiles y el decil 7

-cuartil 1

Buscar la posición

Entonces =1

-cuartil 2

Buscar la posición

70

Page 71: analisis exploratorio de datos y probabilidad e inferencia estadistica

Entonces =2

-cuartil 3

Buscar la posición 75

Entonces =3

-calcular el decil 7

Buscar la posición

=3

d) Analizar la dispersión de la distribución, interpretando los resultados.

Para ello debó calcular el coeficiente de variación, para encontrarla debó primero conocer la

varianza y esta viene dada por la siguiente formula

Entonces la desviación estándar es

S=1.59

-coeficiente de variabilidad

Sustituyendo los datos tenemos

d) analizar la forma de la distribución calculando los coeficientes correspondientes, comente su

respuesta.

-calcular el coeficiente de asimetría y este viene dado por

71

Page 72: analisis exploratorio de datos y probabilidad e inferencia estadistica

-calcular el coeficiente de curtosis

=2.39

Comente su respuesta

Que es una distribución platicurtica y asimétrica a la derecha

19) la siguiente distribución expresa el número de vehículos vendidos durante un mes por cada

uno de las 50 sucursales que una determinada firma tiene en El Salvador.

1 5

3 12

4 20

6 8

10 5

N=50

.se pide

a) Media aritmética, mediana y moda.

72

Page 73: analisis exploratorio de datos y probabilidad e inferencia estadistica

-media aritmética

=4.38

-mediana

Buscar la posición

Entonces Md=4

-moda

Como en esta caso el valor que más se repite es 4, entonces

Mo=4

Se espera una distribución aproximadamente simétrica

b) Desviación típica, coeficiente de asimetría de Fisher y curtosis. Comente resultados.

-desviación típica

Entonces la desviación estándar es

S=2.28

-coeficiente de Fisher

=1.17

-calcular el coeficiente de curtosis

73

Page 74: analisis exploratorio de datos y probabilidad e inferencia estadistica

=1

Tiene una distribución asimétrica a la derecha y platicurtica

20. la siguiente tabal recoge la cifra de ventas (en miles de millones de dólares) de las diez

mayores empresas del sector de automóvil durante el año 1989.

empresa ventas Plantilla

Sea 457.3 23.8

Fasa Renault 449.7 19.2

General Motors 372.7 9.4

Ford 356.1 9.5

Citroen 224.6 7.6

Peugeot 198.0 6.7

Nissan 161.1 6.6

Mercedes Benz 110.7 3.4

Enasa 97.3 5.5

a) Calcular las ventas medias y el número medio de empleados.

-ventas medias

-número medio de empleados

b) donde existe mayor homogeneidad, en las ventas o en la planilla.

74

Page 75: analisis exploratorio de datos y probabilidad e inferencia estadistica

Para saberlo debó calcular el coeficiente de variación

Encontrar desviación estándar de las ventas

=17,737.70, varianza de las ventas

Desviación estándar de las ventas

El coeficiente de variación de las ventas

, coeficiente de variación de las ventas

Encontrar desviación estándar de los empleados

= varianza de los empleados

, desviación estándar de los empleados

Encontrar el coeficiente de variación

,

Entonces existe más homogeneidad en las ventas.

c) Calcular las ventas media por empleados

75

Page 76: analisis exploratorio de datos y probabilidad e inferencia estadistica

Luego lo dividimos entre mil para obtener las ventas medias por empleado

21) una empresa dedicada al cultivo y explotación de naranjas posee 5 fincas. La producción de naranjas

y el rendimiento medio por hectárea para cada una de las fincas están dados en la siguiente tabla.

Calcular el rendimiento medio por hectárea par el total de las 5 fincas.

Fincas Producción( Tm) Rendimiento(Tm/Ha)

1 15 9

2 5 2

3 20 10

4 8 4

5 30 20

El rendimiento medio por hectárea lo encontramos con la media armónica.

, rendimiento medio por hectárea.

22. la primera etapa de un rally consta de 4 tramos cronometrados. En cada uno de los 4 tramos,

un determinado piloto ha alcanzado las siguientes velocidades.

Tramos Distancia(km) Velocidad media(km/h)

1 20 120

2 10 70

76

Page 77: analisis exploratorio de datos y probabilidad e inferencia estadistica

3 15 80

4 30 90

.calcular la velocidad media total alcanzada por el piloto en la primera etapa del rally.

77

Page 78: analisis exploratorio de datos y probabilidad e inferencia estadistica

Capítulo 4. Distribuciones Bivariadas

4.1. Distribuciones bidimensionales

Supongamos que en una población, y para un conjunto de n individuos, se miden dos caracteres X e Y:

En este caso tenemos una variable estadística bidimensional o distribución bidimensional de frecuencias, la cual representaremos por (X, Y). Cuando se cuenta con una gran cantidad de datos, un modo de presentar la distribución bidimensional es a través de una tabla de doble entrada de la forma:

Tabla de doble entrada

X / Y Total

.

.

.

.

.

.

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

.

.

.

.

.

.

Total n

Donde los valores de X e Y pueden venir dados en intervalos, al igual que en el caso de una dimensión. En el caso de que las dos variables sean atributos, la tabla anterior recibe el nombre de tabla de contingencia.

La representación gráfica más utilizada en el caso bidimensional es la nube de puntos o diagrama de dispersión. Consiste en representar cada pareja de datos como un punto sobre unos ejes cartesianos.

78

Page 79: analisis exploratorio de datos y probabilidad e inferencia estadistica

4.2. Distribuciones marginales y condicionales.Dada una variable estadística bidimensional, las distribuciones marginales permiten estudiar de un modo aislado cada una de las componentes. A partir de una tabla de doble entrada, las distribuciones de frecuencias marginales se obtienen sumando las frecuencias de la tabla por filas y por columnas.

Distribuciones marginales de X e Y. X Y

.

.

.

.

.

.

.

.

.

.

. .

Las distribuciones condicionadas permiten estudiar el comportamiento de una de las variables cuando la otra permanece constante. Vienen dadas por:

Distribuciones condicionadas de X e Y. X/Y= Y/X=

.

.

.

.

.

.

.

.

.

.

. .

Ejemplo:Se desea investigar el ganado caprino (cabras) y el ganado ovino (ovejas) de un país. En la tabla de doble entrada adjunta se presentan los resultados de un estudio de 100 explotaciones ganaderas, seleccionadas aleatoriamente del censo agropecuario. Se proporcionan las frecuencias conjuntas del número de cabezas (en miles) de cabras (X) y ovejas (Y) que poseen las explotaciones.

X\Y 0 1 2 3 40 4 6 9 4 1

1 5 10 7 4 22 7 8 5 3 13 5 5 3 2 14 2 3 2 1 0

a) Hallar las medias, varianzas y desviaciones típicas marginales.b) Hallar el número medio de cabras condicionado a que en la explotación hay 2,000 ovejas.c) Hallar el número medio de ovejas que tienen aquellas explotaciones que sabemos que no

79

Page 80: analisis exploratorio de datos y probabilidad e inferencia estadistica

tienen cabras.

Solución:

Primero completar la tabla anterior con las distribuciones de frecuencias de X e Y.

X\Y 0 1 2 3 40 4 6 9 4 1 24

1 5 10 7 4 2 282 7 8 5 3 1 243 5 5 3 2 1 164 2 3 2 1 0 8

23 32 26 14 5 100

a) La media de X es:

= 156/100= 1.56

La varianza de X es:

= 1.5264

La desviación típica (Estándar) es la raíz cuadrada positiva de la varianza, es decir:

=1.2355

Observe que la media muestral es un buen representante de los datos, ya que la desviación estándar no es demasiado alta.

Para completar el literal a) debe obtenerse la media, varianza y desviación estándar para la variable Y.

b) El número medio de ovejas condicionado a que en la explotación hay 2,000 cabras, se obtiene manteniendo fija la columna donde la variable Y es igual a 2. Esto es:

= 1.3077

80

Page 81: analisis exploratorio de datos y probabilidad e inferencia estadistica

c) De forma análoga al literal b) (la media de Y es 1.46)

Ejemplo. Dada la siguiente distribución de frecuencias conjunta:

Construir una tabla de correlación (doble entrada) y obtener:

Distribuciones marginales de X e Y. Distribución de Y condicionado a X=3 Covarianza

Solución.

La tabla de correlación pedida y sus distribuciones marginales están dadas en la siguiente tabla:

La distribución de Y/X=3Y/X=3 2 4 6

1 1 0

Hay que introducir el concepto de covarianza:

Cuando se observa el comportamiento conjunto de dos variables, el objetivo principal es determinar si existe o no algún tipo de variación conjunta o covariación entre ellas. La covarianza, ayuda a cuantificar la covariación entre dos variables; así:

Si la Cov(X,Y)>0, existe una tendencia a que mayores observaciones de una de las variables se correspondan con mayores observaciones de la otra variable.

Si Cov(X,Y)<0, existirá una tendencia a que mayores observaciones de una variable se correspondan con menores observaciones de la otra variable.

Si Cov(X,Y)=0, no se puede concluir que no exista relación entra ambas variables. Pero se puede decir que no existe relación lineal entre las variables.

Matemáticamente la covarianza se define como:

81

1 2 1

1 6 1

2 2 2

3 2 1

3 4 1

4 2 1

4 4 2

4 6 1

Y/X 1 2 3 4

2 1 2 1 1 54 0 0 1 2 36 1 0 0 1 2

2 2 2 4 10=N

Page 82: analisis exploratorio de datos y probabilidad e inferencia estadistica

4.3. Coeficiente de correlación lineal

Consideremos una variable estadística bidimensional (X, Y) donde X e Y son de tipo continuo y suponemos que existe entre ellas algún tipo de relación, constatable mediante la correspondiente representación gráfica. Pregunta: ¿Cómo de grande es la relación entre X e Y y cómo cuantificarla? El coeficiente de correlación lineal es un valor que permite estudiar el grado de dependencia lineal existente entre X e Y. Viene definido por:

El término se denomina covarianza. Una propiedad importante del coeficiente de correlación es que no depende de cambios de origen y escala, y su valor siempre está comprendido entre -1 y 1:

De modo que valores de r cercanos a 1 indican una dependencia lineal y positiva entre las dos variables, y valores de r cercanos a -1 indican dependencia lineal negativa. Cuando el valor de r está cercano a cero, no existe dependencia lineal entre X e Y. Esto último puede ser, bien porque X e Y son variables independientes, o bien porque la dependencia existente entre ambas variables es de otro tipo diferente al lineal.

4.4. Introducción al modelos de regresión lineal

Los modelos de regresión lineal constituyen una poderosa herramienta para analizar la relación existente entre la pauta de variabilidad de una variable aleatoria y los valores de una o más variables (aleatorias o no) de las que la primera depende o puede depender. El modelo fundamental se esquematiza en la siguiente tabla.

Tabla 1 Datos del problema

82

Page 83: analisis exploratorio de datos y probabilidad e inferencia estadistica

Se trata en general de estudiar las posibles relaciones existentes entre la distribución de y los valores de las . A la se le denomina generalmente la variable dependiente, mientras que frecuentemente a se les llama variables independientes o exógenos del modelo, aunque se prefiere denominarlas variables explicativas.

Los gráficos de dispersión son útiles debido a que proporcionan información sobre la relación existente entre las variables, permiten sugerir modelos posibles, pueden señalar la existencia de observaciones atípicas, etc.

EJEMPLO 1. Analicemos la relación que existe entre el peso y la estatura según el sexo en el siguiente diagrama de dispersión. 1: Hombres, 2: Mujeres. ESTAPESO.xls

83

Variables a explicar (aleatoria)

Variables o factores explicativos (aleatorios o no)

Y1 X11 …Xi1….XIn

----

Yj X1i …Xii….Xin

----

Yn X1n …Xin….Xnn

Observaciones

Page 84: analisis exploratorio de datos y probabilidad e inferencia estadistica

Figura1 Diagrama de dispersión ESTATURA-PESO.

El diagrama presenta claramente, una relación positiva entre las dos variables estudiadas, que se refleja en una nube de puntos cuyo eje principal tiene un sentido creciente, como consecuencia del hecho de que, en términos generales, los individuos más altos pesan más que los más bajos. El diagrama también pone de manifiesto que las mujeres tienen en general valores menores de ambas variables que los hombres, pero que la relación entre PESO Y ESTATURA es bastante similar en ambos sexos.

Covarianza. Coeficiente de Correlación

Con el objetivo de dar una idea intuitiva del concepto de covarianza, razonemos el siguiente diagrama de dispersión, correspondiente a las variables: TEMPERATURA-COSTO, en la que las rectas horizontal y vertical sobre el conjunto de puntos corresponden a los valores medios (42.83, 79.25).

84

Page 85: analisis exploratorio de datos y probabilidad e inferencia estadistica

En este caso, existe claramente una fuerte relación negativa, la mayor parte de los puntos caen en los cuadrantes II Y IV. Cuando la relación existente sea positiva la mayoría de los puntos caerán en los cuadrantes I y III

Si consideramos para cada punto del diagrama el signo que tiene el producto vemos que éste resulta positivo en los cuadrantes I y III y negativo en los

cuadrantes II Y IV. Por lo tanto el producto anterior será en promedio positivo si existe una relación creciente entre las dos variables (es decir, si la Y tiende a crecer cuando lo hace la X) y negativo si la relación existente es decreciente.

Por definición la covarianza entre dos variables no es más que el promedio de los productos de las desviaciones de ambas variables respecto a sus medias respectivas. De forma similar a como se procedió a definir la varianza, el promedio se calcula dividiendo por n-1 en vez de n.

.

La covarianza presenta el inconveniente de que depende de las dimensiones en que se expresan las variables. Así la covarianza entre TEMPERATURA y COSTO será mayor si se mide la temperatura en grados kelvin que si se mide en Fahrenheit. Para obviar este problema se utiliza universalmente en Estadística, como grado de relación lineal entre dos variables, el coeficiente de correlación lineal que no es más que la covarianza dividida por el producto de las

desviaciones típicas de las dos variables. . Se puede demostrar que el coeficiente de

correlación lineal está siempre comprendido entre -1 y 1. Los valores extremos sólo los toma en el caso de que los puntos del diagrama de dispersión estén alineados exactamente en línea recta. Cuanto más estrecho es el grado de relación lineal existente entre dos variables más cercano a 1 es el valor de r (o a -1 si la relación es decreciente). Por el contrario un valor de r nulo o cercano a cero indicará una relación lineal inexistente o nula.

OBSERVACIONES

En general cuanto más estrechamente se agrupen los puntos del diagrama de dispersión alrededor de una recta más fuerte es el grado de relación lineal existente entre las dos variables consideradas.

Es importante resaltar que tanto la covarianza como el coeficiente de correlación miden sólo el grado de relación lineal existente entre dos variables. Dos variables pueden tener una relación estrecha y sin embargo resultar r cercano a cero por ser dicha relación no lineal.

Es importante del conocimiento no estadístico del problema al momento de hacer predicciones.

EJERCICIO 1.

85

Page 86: analisis exploratorio de datos y probabilidad e inferencia estadistica

Dada una alta inflación, el señor Chávez ha cuidado mucho de su presupuesto. Como su casa tiene calefacción eléctrica, llevó un registro de la cuenta del consumo mensual de energía eléctrica durante el año pasado y del promedio mensual de la temperatura exterior. Los datos aparecen en la siguiente tabla. La temperatura está dada en grados Celsius y el costo de la energía está en dólares. TEMPERACOSTO.xls.

Tabla2. Registro mensual: TEMPERATURA-COSTO.

Mes Temperatura Promedio

costo de energía

Enero 10 120

Febrero 18 90

Marzo 35 118

Abril 39 60

Mayo 50 81

Junio 65 64

Julio 75 26

Agosto 84 38

Septiembre 52 50

Octubre 40 80

Noviembre 25 100

Diciembre 21 124

Identificar las variables, dependiente y explicativa. Hacer sus conjeturas de la relación entre las

variables a partir del siguiente gráfico y calcular la y .

86

Page 87: analisis exploratorio de datos y probabilidad e inferencia estadistica

Figura 2. Diagrama de dispersión TEMPERATURA- COSTO.

Correlations

TEMPERATURA COSTO

TEMPERATURA Pearson Correlation 1 -.863**

Sig. (2-tailed) .000

Sum of Squares and Cross-products 5929.667 -7188.500

Covariance 539.061 -653.500

N 12 12

COSTO Pearson Correlation -.863** 1

Sig. (2-tailed) .000

Sum of Squares and Cross-products -7188.500 11710.250

Covariance -653.500 1064.568

N 12 12

**. Correlation is significant at the 0.01 level (2-tailed).

RUTA:Analyze>Correlate>Bivariate (En variables trasladar TEMPERATURA,

COSTO)>Opciones (Seleccionar los estadísticos, Exclude cases pairwise)>Continue>Ok

87

Descriptive Statistics

Mean Std. Deviation N

TEMPERATURA 42.83 23.218 12

COSTO 79.25 32.628 12

Page 88: analisis exploratorio de datos y probabilidad e inferencia estadistica

4.5. Modelo de regresión simple.

En este tipo de regresión se desea caracterizar el efecto lineal de una única variable explicativa

sobre la variable respuesta. Los pasos para efectuar un análisis son los siguientes (JURAN y

GRYNA, 1997, cap. 23):

1. Representación gráfica de datos

2. Planteamiento del modelo

3. Estimación de la ecuación de predicción

4. Examen de la adecuación del modelo lineal

5. Intervalos de confianza para la estimación

En este apartado se explica el modelo de regresión lineal simple, un modelo con un solo regresor

x que tiene una relación con una respuesta y, donde la relación es una línea recta. Este modelo de

regresión lineal simple es:

(Modelo poblacional de regresión)

Donde la ordenada al origen y la pendiente son constantes desconocidas, y es una

componente aleatorio del error. Se supone que los errores tienen promedio cero y varianza

desconocida. Además se suele suponer que los errores no están correlacionados. Esto quiere decir

que el valor de un error no depende del valor de cualquier otro error.

4.5.1. Estimación de los parámetros por mínimos cuadrados

Los parámetros y son desconocidos, y se debe estimar con los datos de la muestra. Supongamos que hay n pares de datos: . Estos datos pueden obtenerse en un experimento controlado, diseñado en forma especifica para recolectarlos, o en un estudio observacional, o a partir de registros históricos existentes (lo que se llama un estudio retrospectivo). Estimación de y

Para estimar y se utiliza el método de mínimos cuadrados. Esto es, se estima y tales que la suma de los cuadrados de las diferencias entre las observaciones y la línea recta sea mínima. La ecuación se puede escribir (Modelo muestral de regresión), escritos en términos de los n pares de datos , . Así el criterio de mínimos cuadrados es:

88

Page 89: analisis exploratorio de datos y probabilidad e inferencia estadistica

. Los estimadores por mínimos cuadrados de y , que se

designarán por y , deben satisfacer

y

Simplificando estas dos ecuaciones se obtiene:

;

Que son las llamadas ecuaciones normales de mínimos cuadrados. Su solución es la siguiente:

; , en donde son los

promedios de respectivamente. Por consiguiente, , son los estimadores por

mínimos cuadrados. El modelo ajustado de regresión lineal simple es entonces:

.Esta ecuación produce un estimado puntual, de la media de y para una determinada x.

Otra forma más compacta de escribir , donde:

La diferencia entre el valor observado y el valor ajustado correspondiente se llama

residual, matemáticamente el i-ésimo residual es: .

Tiene un papel importante para investigar la adecuación del modelo de regresión ajustado.

89

Page 90: analisis exploratorio de datos y probabilidad e inferencia estadistica

4.5.2. Propiedades de los estimadores por mínimos cuadrados y el modelo ajustado de regresión.

Tenemos que:

Son combinaciones lineales de , entonces se puede escribir,

;

Propiedades útiles

1.

2.

3. La línea de regresión de mínimos cuadrados siempre pasa por el centroide de los datos que es el punto

4.

5.

90

Page 91: analisis exploratorio de datos y probabilidad e inferencia estadistica

Estimación de

Además de estimar , se requiere estimar . Se obtiene de la suma de cuadrados

residuales, o suma de cuadrados del error.

Pero

91

Page 92: analisis exploratorio de datos y probabilidad e inferencia estadistica

La suma de cuadrados residuales tiene n-2 grados de libertad, porque 2 grados de libertas se

asocial con los estimados y que se usan para obtener . El estimador insesgado de

es:

(Cuadrado Medio Residual)

Error estándar de regresión.

Es un estimado de dependiente del modelo.

4.5.3. Intervalos de confianza

Intervalos de confianza de . Si los errores se distribuyen en forma normal e

independiente, entonces la distribución de muestreo tanto de y es t con n-2 grados

de libertad.Un intervalo de confianza de para es:

Un intervalo de confianza de para es:

Estimación de intervalos de la respuesta media.

Una aplicación importante de un modelo de regresión es estimar la respuesta media, , para

determinado valor de la variable regresora x.

Sea el valor o nivel de la variable regresora para el que se desea estimar la respuesta media, es

decir, . Se supone que es cualquier valor de la variable regresora dentro del intervalo

de los datos originales de x que se usaron para ajustar el modelo.

Un estimador insesgado de se determina a partir del modelo ajustado como sigue:

92

Page 93: analisis exploratorio de datos y probabilidad e inferencia estadistica

Para obtener un intervalo de confianza de para , se debe notar primero que

es una variable aleatoria normalmente distribuida, porque es una combinación lineal de las

observaciones . La varianza de es:

La distribución de muestreo de: es una distribución t, con n-2 grados

de libertad.

Un intervalo de confianza de para la respuesta media en el punto es:

Nótese que el ancho del intervalo de confianza para es una función de . El ancho del

intervalo es mínimo para , y crece a medida que aumenta .

Las mejores estimaciones de y se hacen con valores de x cerca del centro de los datos.

4.5.4. Prueba de hipótesis de la pendiente y de la ordenada al origen.

Uso de la prueba t

Supongamos que deseamos probar que la pendiente es igual a una constante.

Es una combinación lineal de las observaciones, y está distribuida normalmente.

(Promedio de ); (Varianza de )

93

Page 94: analisis exploratorio de datos y probabilidad e inferencia estadistica

Estadístico t (Definición)

Denótese a : Como el error estándar estimado o error estándar de la pendiente,

entonces . Se rechaza la hipótesis nula si .

Hipótesis para la ordenada al origen.

;

Error estándar de la ordenada al origen.

Se rechaza la hipótesis nula sí .

Nota: El que una variable no sea significativa no quiere decir que en realidad no lo es, es

necesario el conocimiento no estadístico del problema para determinar por ejemplo si los

intervalos de los datos fue el adecuado.

Prueba de significancia de la regresión (Caso particular del test anterior: la conste es igual

a cero).

El no rechazar implica que no hay relación lineal entre x e y.

“X tiene muy poco valor para explicar la variación de Y, por lo tanto el mejor estimador para cualquier x es “La verdadera relación entre x e y no es lineal”

Si se rechaza , explica que x tiene valor para explicar la variabilidad de y. Rechazar

podría equivaler a que:

“El modelo de línea recta es adecuado”

“Aunque hay un efecto lineal en x se podrían obtener mejores resultados agregando términos

polinomiales en x”.

94

Page 95: analisis exploratorio de datos y probabilidad e inferencia estadistica

El procedimiento de prueba para se puede establecer con dos métodos.

4.6. Predicción de nuevas observaciones

Una aplicación importante del modelo de regresión es predecir nuevas observaciones y que

correspondan a un nivel especificado de la variable regresora x. Si es el valor de interés de la

variable regresora, entonces: es un estimador puntual del nuevo valor de la

respuesta .

Una aplicación importante del modelo de regresión es predecir nuevas observaciones y que

correspondan a un nivel especificado de la variable regresora x. Si es el valor de interés de la

variable regresora, entonces: es un estimador puntual del nuevo valor de la

respuesta .

A continuación se obtendrá un estimado del intervalo para esta observación futura .

Sea , con distribución normal con media cero y varianza.

El resultado de predicción de de confianza para una observación futura en es:

Lo anteriormente expuesto se puede observar en el siguiente gráfico que muestra las bandas de

confianza y de predicción para un conjunto de datos.

95

Page 96: analisis exploratorio de datos y probabilidad e inferencia estadistica

El intervalo de predicción en siempre es más ancho que el intervalo de confianza en , porque el intervalo de predicción depende tanto del error del modelo ajustado como el error asociado con observaciones futuras.

Coeficiente de determinación.

La cantidad . Se llama coeficiente de determinación.

Y su valor esperado:

: es una medida de variabilidad de y sin considerar el efecto de la variable

regresora x.

: es una medida de variabilidad de y que queda después de haber tenido en

consideración a x.

: Proporción de la variación explicada por el regresor x.

Ya que .

Regresión por el origen

EL modelo sin ordenada al origen es: . Dadas las n observaciones ,

la función de mínimos cuadrados es:

96

Page 97: analisis exploratorio de datos y probabilidad e inferencia estadistica

Siguiendo el proceso por mínimos cuadrados:

EL modelo de regresión ajustado es: .

El estimador de es:

Los intervalos de confianza son:

Para una observación futura:

Modelo con ordenada al origen

Modelo sin ordenada al origen:

A veces, el diagrama de dispersión proporciona una guía para decidir si se ajusta o no el modelo sin ordenada al origen. También, se pueden ajustar ambos modelos y escoger entre ellos de acuerdo con la calidad del ajuste obtenido. Si no se puede rechazar la hipótesis en el modelo sin ordenada al origen, quiere decir que se puede mejorar el ajuste si se usa es modelo.El cuadrado medio de residuales es una forma útil de comparar la calidad del ajuste. El modelo

que tenga el cuadrado medio residual menor, es el mejor ajuste.

En general, no es un buen estadístico para comparar los dos modelos.

97

Page 98: analisis exploratorio de datos y probabilidad e inferencia estadistica

El resultado de predicción de de confianza para una observación futura en es:

El intervalo de predicción en siempre es más ancho que el intervalo de confianza en , porque el intervalo de predicción depende tanto del error del modelo ajustado como el error asociado con observaciones futuras.

Coeficiente de determinación.

La cantidad . Se llama coeficiente de determinación.

Y su valor esperado:

: es una medida de variabilidad de y sin considerar el efecto de la variable

regresora x.

: es una medida de variabilidad de y que queda después de haber tenido en

consideración a x.

: Proporción de la variación explicada por el regresor x.

Ya que .

4.7. Transformaciones para linealizar un modelo.A partir de un diagrama de dispersión o de la teoría sobre ciertas funciones, podemos conocer que la relación entre las dos variables puede representarse adecuadamente solo por cierta función matemática curvilínea (no lineal), por ejemplo la tendencia general del crecimiento poblacional sigue un modelo exponencial positivo, el decaimiento radioactivo sigue un modelo exponencial negativo, etc. En algunos casos una función no lineal se puede lineal izar con una transformación adecuada.

Función linealizable Transformación Forma lineal

98

Page 99: analisis exploratorio de datos y probabilidad e inferencia estadistica

EJEMPLO. Los datos siguientes se obtuvieron de observaciones periódicas hechas durante el crecimiento de una población de células de levadura. Se efectuaron recuentos cada dos horas.

El gráfico de dispersión muestra que los datos provienen de una función exponencial Con el fin de transformar la curva en recta conviene hacer la transformación, tomamos los logaritmos de las células.: RUTA: Transform>Compute Variable (LOGNATURAL)>

Seguidamente se verifica por medio de un gráfico de dispersión si la transformación es adecuada

RUTA:Graphs>Legacy Dialogs>Simple Scatter>Define (Y: LOGNATURAL;X: Horas>

99

n Horas (X)

Número de células(Y)

1 2 192 4 373 6 724 8 1425 10 2956 12 5847 14 995

n Horas (X)

Número de células (Y)

Ln (Y)

1 2 19 2.9444392 4 37 3.6109183 6 72 4.2766664 8 142 4.9558275 10 295 5.6869756 12 584 6.3699017 14 995 6.902743

Page 100: analisis exploratorio de datos y probabilidad e inferencia estadistica

Como se esperaba, hoy los datos se ajustan a una línea recta. El proceso manual para obtener la

ecuación de predicción es el mismo que el de regresión simple. En SPSS se obtiene siguiendo la

RUTA: Analyze>Regression> Linear (Dependent: LOGNATURAL, Independent: Horas>Ok

ANOVAb

Model Sum of Squares Df Mean Square F Sig.

1 Regression 12.627 1 12.627 4936.297 .000a

Residual .013 5 .003

Total 12.640 6

a. Predictors: (Constant), Horas

b. Dependent Variable: LOGNATURAL

Coefficientsa

Model

Unstandardized Coefficients

Standardized Coefficients

t

Sig

.

95% Confidence Interval for B

B Std. Error Beta

Lower

Bound

Upper

Bound

1 (Consta

nt)

2.278 .043 53.28

7

.00

0

2.168 2.388

100

Page 101: analisis exploratorio de datos y probabilidad e inferencia estadistica

ANOVAb

Model Sum of Squares Df Mean Square F Sig.

1 Regression 12.627 1 12.627 4936.297 .000a

Residual .013 5 .003

Total 12.640 6

Horas.336 .005 .999

70.25

9

.00

0.323 .348

a. Dependent Variable:

LOGNATURAL

El modelo lineal encontrado es entonces: . Para determinar el modelo

ajustado a los datos originales, se debe considerar la transformación y su modelo lineal:

. Resolviendo: , entonces .

Finalmente, el modelo ajustado es: .

Las pruebas de idoneidad para el modelo se discutirán posteriormente.

En el análisis, éste caso se conoce el orden en que fueron recolectados los datos, y debe hacerse para determinar si hay dependencia de los residuos con la secuencia del tiempo de recolección

101

Page 102: analisis exploratorio de datos y probabilidad e inferencia estadistica

Para realizar una regresión no lineal mediante SPSS tenemos que elegir los menús Analize>Regression>Curve Estimation.

Este menú nos da la opción de calcular los siguientes modelos de regresión. Lineal, Logarítmica,

Inversa

Cuadrático Cubico. Potencia. o

Compuesto o

Curva S o

Crecimiento o Exponencial o

Para el caso anterior, elegimos exponencial, y los resultados son los siguientes:

Model Summary

R R SquareAdjusted R

SquareStd. Error of the Estimate

.999 .999 .999 .051The independent variable is Horas.

ANOVASum of Squares df Mean Square F Sig.

Regression 12.627 1 12.627 4936.297 .000

102

Page 103: analisis exploratorio de datos y probabilidad e inferencia estadistica

Model Summary

R R SquareAdjusted R

SquareStd. Error of the Estimate

.999 .999 .999 .051Residual .013 5 .003Total 12.640 6The independent variable is Horas.

CoefficientsUnstandardized

CoefficientsStandardized Coefficients

t Sig.B Std. Error BetaHoras .336 .005 .999 70.259 .000(Constant) 9.755 .417 23.394 .000The dependent variable is ln(células).

4.7. Ejercicios.1. Determine una ecuación que describa la relación entre la frecuencia de accidentes y el nivel

de educación preventiva

X Y XY X2

150 8.00 1200 22500200 7.00 1400 40000300 6.50 1950 90000450 5.20 2340 202500500 6.40 3200 250000600 4.40 2640 360000800 4.00 3200 640000900 3.10 2790 810000

3900 44.60 18720 241500

103

Page 104: analisis exploratorio de datos y probabilidad e inferencia estadistica

2. Una compañía que tiene 15 tiendas ha recopilado datos en relación con los metros cuadrados de área de ventas respecto a los ingresos mensuales. Trace una gráfica de los datos, y si parece apropiado un modelo lineal determine la ecuación de regresión.

3. Determine una ecuación predictiva para calcular el monto del seguro, en función del ingreso anual para los siguientes datos:

Ingreso

Prima

X Y XY X2

13 5 65 16916 15 240 25617 20 340 28918 10 180 32420 10 200 40025 12 300 62526 15 390 67632 30 960 1024

38 40152

0 1444

40 50200

0 160042 40 168 1764

104

Tienda Metros 2 Ingreso X Y XY X2

a 55 45 2475 3025o 80 60 4800 6400j 85 75 6375 7225e 90 75 6750 8100k 90 80 7200 8100d 110 95 10450 12100n 130 95 12350 16900g 140 110 15400 19600c 180 120 21600 32400l 180 105 18900 32400b 200 115 23000 40000i 200 130 26000 40000h 215 140 30100 46225f 260 170 44200 67600

m 300 200 60000 9000015 2315 1615 289600 430075

Page 105: analisis exploratorio de datos y probabilidad e inferencia estadistica

0

287 2477875

8571

4. De una distribución de dos variables se conocen los siguientes datos:

r = 0.9; Sx = 1.2; Sy = 2.1; . A partir de los mismos, obténganse las rectas de regresión mínimo cuadráticas de X sobre Y y de Y sobre X. (30%)

5. Para un mismo grupo de observaciones de las variables X e Y, se han obtenido las dos rectas de regresión siguientes:

3x + 2y = 266x + 2y = 32

a) Obtener las medias de X e Y. b) Obtener el coeficiente de correlación lineal.

6. En una distribución bidimensional se sabe que: Los valores de la variable X son (1, 2, 3, 4 y 5); la recta de regresión de Y sobre X y el coeficiente de correlación lineal (r=0.8). Hallar:

a) La media y la varianza de X b) Los valores estimados de de la recta de regresión de Y sobre X.c) La covarianzad) La media y la varianza de Y.

7. En un estudio donde se investigó la relación que existe entre la temperatura de la superficie de una carretera (X, medida en grados Fahrenheit) y la deformación del pavimento (Y). El

resumen de cantidades es la siguiente: n=20, ,

.

a) Calcular las estimaciones de mínimos cuadrados de la pendiente y la ordenada al origen.

b) ¿Qué cambio se espera en la deformación del pavimento cuando la temperatura de la superficie cambia 1°F?

c) Suponga que la temperatura se mide en grados centígrados (°C), en lugar de °F. Escriba el nuevo modelo de regresión. (Recuerde que °F= (9/5) °C+32).

8. A partir de un conjunto de valores de las variables X e Y, se ha determinado la regresión de Y sobre X, obteniéndose la siguiente recta: , r=0.95;

Se pide que, a partir de la definición de la anterior recta, determine los

105

Page 106: analisis exploratorio de datos y probabilidad e inferencia estadistica

parámetros de la recta de regresión de X sobre Y.

106

Page 107: analisis exploratorio de datos y probabilidad e inferencia estadistica

Capítulo 5. Los Valores Relativos5.1. Razones, Proporciones, Porcentajes y Tasas.

Razón: Es una fracción donde el valor considerado en el numerador no debe estar incluida en el denominador, en consecuencia la razón puede ser un número superior o inferior a la unidad.

Ejemplo: Supongamos que el número de personas que visitan un centro comercial, en un día cualquiera es 7,000, de las cuales 4,200 son mujeres y 2,800 son hombres. Obtener la razón de mujeres respecto a los hombres.

Solución:La razón o relación = 4200/2800 = 1.5, indica que las mujeres frecuentan ese centro comercial en un 50% más que los hombres.

Proporciones:Las proporciones se hacen para dar cuenta de la fracción que representa cada uno de los subconjuntos que componen el conjunto total. Por ejemplo, los subconjuntos formados por niños, jóvenes, adultos, y ancianos si, respectivamente, los comparamos con la totalidad del conjunto daremos cuenta de la proporción respectiva de cada uno de los subconjuntos. Si en una localidad viven 2,000 niños, 3,000 jóvenes, 1,000 adultos y 300 ancianos, la totalidad de la población sumarían 6,300 habitantes, y las proporciones de niños sería 0.31, de jóvenes 0.47, de adultos 0.15 y de ancianos 0.04.

Ejemplo: La población del municipio de Soyapango distribuida por rango de edades se presenta en el siguiente cuadro.

Rango de edadesSexo

TotalHombre Mujer

Edad de 0 a 10 años 25,097 23,858 48,955Edad de 11 a 15 años 12,849 12,490 25,339Edad de 16 a 20 años 11,384 11,810 23,194Edad de 21 a 30 años 19,587 23,372 42,959Edad de 31 a 45 años 21,264 28,725 49,989Edad de 46 a 65 años 16,219 21,645 37,864Edad de 66 años ó más 4,834 8,269 13,103Total 111,234 130,169 241,403

Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007.

Obtener la proporción que representa cada grupo de edades.

NOTA: Cuando el valor del numerador está incluido en el denominador se establece una proporción.

Porcentajes:

107

Page 108: analisis exploratorio de datos y probabilidad e inferencia estadistica

Los porcentajes se hacen para expresar las proporciones en base 100. En el ejemplo anterior, los niños representan el 31%, los jóvenes el 47%, los adultos el 15% y los ancianos 4%.

Ejemplo: En el censo de población de El Salvador, 2007, se encuentra que en el Municipio de Mejicanos, tiene los siguientes sobre la condición laboral, para la población mayor de 10 años.

NOMBRE DEL LUGAR

CONDICION LABORAL TotalPoblación ocupada Población que busca trabajo Inactivos

Zona Urbana 54295 5894 46288 106477CANTÓN CHANCALA 286 52 335 673CANTÓN SAN MIGUEL 467 32 478 977CANTÓN SAN ROQUE 3739 494 3991 8224 Total 58787 6472 51092 116351Obtener la proporción de la población según condición de laboral por cantón y municipio.

Tasas:

Las tasas se hacen cuando el conjunto se fracciona en dos subconjuntos y se quiere dar cuenta de la parte que representa uno de los subconjuntos sobre el total del conjunto. Esta representación se suele expresar en base 100, pero se pude hacer en base 10, 1000, etc. Por ejemplo, si el conjunto de la población activa se divide en dos subconjuntos denominados desempleados y ocupados, la tasa de desempleo sería el resultado de multiplicar por cien el número resultante de dividir el número de desempleados por el total de activos (ocupados y desocupados). Si de las 4,000 personas activas que hay en una localidad, 3,600 están ocupadas y 400 están desempleadas, la tasa de desempleo sería (400/ 4,000) X 100= 10%.

Ejemplo: En el censo de población de El Salvador, 2007, se encuentra que en el Municipio de Mejicanos, tiene los siguientes datos de analfabetismo, para la población mayor de 5 años.

LUGARES

Sabe leer y escribir

TotalSi NoZona Urbana 109205 8872 118077

CANTÓN CHANCALA 672 123 795CANTÓN SAN MIGUEL 916 221 1137CANTÓN SAN ROQUE 8027 1343 9370 Total 118820 10559 129379Obtener la tasa de analfabetismo por cantón y municipio.

Ejercicio.

108

Page 109: analisis exploratorio de datos y probabilidad e inferencia estadistica

La población de 15 años o más según su condición de analfabetismo se presenta en el siguiente cuadro.

SexoSabe leer y escribir

TotalSi No

Soyapango 161,155 10,801 171,956Ilopango 66,240 5,420 71,660San Martín 43,033 5,376 48,409Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007

Obtener las tasas de analfabetismo de cada municipio y hacer un análisis comparativo de los resultados.

5.2. Diferencia Relativa

La diferencia relativa se calcula como el cociente entre la diferencia de dos cantidades, precio absoluto y la cantidad, precio o valor del periodo de referencia. Supongamos que es una magnitud simple, representamos por el valor de la magnitud en el periodo base y por el valor de la magnitud en el periodo que queremos estudiar entonces:

La diferencia relativa está dada por:

Ejemplo:El siguiente cuadro presenta el número de homicidios para los años 2004, 2005, 2006, 2007 y 2008, para los municipios de Soyapango, Ilopango y San Martín.

Grupos de

edades

SOYAPANGO ILOPANGO SAN MARTÍN

Femenino Masculino Total Femenino Masculino Total Femenino Masculino TotalAÑO 2004

Total 15 167 182 12 78 90 11 42 53AÑO 2005

Total 14 228 242 5 74 79 11 75 86AÑO 2006

Total 16 246 262 15 69 84 6 48 54AÑO 2007

Total 20 179 199 10 67 77 8 71 79AÑO 2008

Total 10 128 138 9 66 75 7 54 61

Fuente: Fuente estadísticas de homicidios de Instituto de Medicina Legal. Los cadáveres que no se pudo identificar el sexo, no aparecen registrados en el cuadro anterior.Obtener la diferencia relativa del número de homicidios por año, sexo y municipio.

109

Page 110: analisis exploratorio de datos y probabilidad e inferencia estadistica

5.3. Los números índices

El número índice es una cifra relativa, expresada en términos porcentuales o al tanto por uno, que sirve para indicar las variaciones que sufre una variable con respecto a un valor de la misma, la cual es tomada como punto de referencia, denominada base.Es evidente que los índices no miden, tan solo sirven para indicar las variaciones en los precios, cantidades y valores de un periodo con respecto a otro.

Definición: Un índice es una medida estadística que tiene la propiedad de informar de los cambios de valor que experimenta una variable o magnitud en dos situaciones, una de las cuales se toma como referencia. La comparación suele hacerse por cociente.

A la situación inicial se le llama periodo base y a la situación que queremos comparar periodo actual o corriente.

Índices simples: Se denomina así a los referidos a una única magnitud y se obtienen dividiendo cada precio, cantidad o valor de un periodo (anual, mensual, semanal, etc.), por un precio, cantidad o valor de un periodo fijo, considerado base, multiplicado luego por 100.

Si es una magnitud simple, representamos por el valor de la magnitud en el periodo base y por

el valor de la magnitud en el periodo que queremos estudiar entonces:

El número índice simple es:

Mide la variación en tanto por uno o tanto por cien que ha sufrido la magnitud X entre los dos periodos considerados y pueden ser:

a. Valor:

b. Precio:

c. Cantidad:

Se puede calcular manteniendo fijo o constante el periodo base, permaneciendo inalterado durante el periodo que es objeto de análisis. También se puede calcular con base variable, en este caso, la base es el periodo inmediatamente anterior, partiendo de un índice iguala a 100, bajo el supuesto del desconocimiento de información anterior a ese periodo.

110

Page 111: analisis exploratorio de datos y probabilidad e inferencia estadistica

Ejemplo 1. Con los datos de la serie 2001-2006, calcular los índices de base fija 2001 y 2004; luego el índice de base variable para esa misma serie.

Base fija 2001, 2004. Base Variableaños yi Índice

2001=100% de Variación

Índice 2004=100

% de Variación

Índice Variable

% de Variación

2001 20 100 0 50 -50 100 02002 28 140 40 70 -30 140 402003 24 120 20 60 -40 85.71 -14.292004 40 200 100 100 0 166.66 66.662005 48 240 140 120 20 120 202006 70 350 250 175 75 145.83 45.83

Observe que tomando de base el año 2001, en el 2004 se tuvo un aumento del 100% y en el 2006 se tuvo un aumento de precios del 250% con respecto al año 2001; si tomamos de base el año 2004, en el 2006 se tuvo un aumento del 75%. Finalmente, si tomamos Base Variable en el año 2006 hubo un aumento del 45.83% con respecto al año 2005.

EJERCICIO DE APLICACIÓN. En enero de 2006 una fábrica pagó un total de $ 99,200,000.00 a 120 empleados en nómina. En julio del mismo año, la fábrica tuvo 30 empleados más en nómina y pagó $ 30,000,000 más que en enero. Tomando el mes de enero como base, hallar e interpretar:

a) El índice de empleo (NIE)b) El índice del costo de mano de obra (ICMD)c) Precio relativo

Solución.a) NIE= Nº de empleados en julio / Nº de empleados en enero

. Durante los 6 meses hubo un incremento de empleados del 25%

b) ICMD = Salarios pagados en Julio / Salarios pagados en enero

. Durante los 6 meses considerados en este estudio

hubo un aumento de costo de mano de obra en la empresa de 30.24%, observe que no se ha considerado en aumento de empleados.

c) El precio relativo (PR) es equivalente al riesgo relativo utilizado en medicina (RR), es decir,

. El índice de costo medio por empleado aumentó en un

4.10% para el mes de julio en relación con el mes de enero.

111

Page 112: analisis exploratorio de datos y probabilidad e inferencia estadistica

5.3.1. Relación entre índices de base fija y variable.El índice de base variable puede transformarse en índice de base fija, utilizando la siguiente relación:

donde es el índice relativo, es decir,

Ejemplo: Se tiene la información del precio de un producto. Se desea indicar la variación del precio en el 2006

respecto al precio de 2003.Solución:

Ahora, imaginemos que se tiene el índice de precios con base fija para 2003 y 2006 y se requiere la variación del precio en el 2006 respecto al precio de 2003.

Solución:

. Observe que se tiene el mismo resultado si se

dispone de los precios o de los índices de base fija.

Ahora, suponer que se tienen únicamente los índices de base variable y se requiere la variación del precio en el 2006 respecto al precio de 2003.

Solución:.

Ejercicio. Un índice para 2006 revela un aumento del 20% respecto al año anterior. En el 2007 alcanzó a 174, es decir, presenta un incremento anual del 18%. Calcular los índices de base fija de los años 2005 y 2006.Solución:Se requiere encontrar: Información disponible: .La base o periodo de inicio no se conoce, por lo tanto puede ser cualquier año, así:

además sabemos que , reemplazando 174 en la última expresión se obtiene:

.

Para obtener , se realiza un procedimiento análogo al anterior., reemplazando 147.45 se tiene:

.

112

Base fija 2002 años Yi Índice

2002 2,000 1002003 2,800 1402004 2,400 1202005 4,000 2002006 4,800 2402007 6,000 300

Page 113: analisis exploratorio de datos y probabilidad e inferencia estadistica

Ejercicio. Se tienen tres índices de base variable, cuyas cifras son: Para 2005=107, para 2006=108, para 2007=104, es decir, que entre 2004 y 2007, hubo un aumento del 19%. Decir si la afirmación anterior es cierta o falsa.Solución:Recordemos que , por lo tanto la afirmación es falsa.

5.3.2. Índices agregativos simplesCuando se dispone de una serie de precios de un grupo de artículos, dados en unidades diferentes, los índices simples ya no son utilizables, en esta situación se requiere utilizar los índices agregativos simples.

Estos índices se calculan teniendo en cuenta la suma de los precios, cantidades o valores de un grupo de artículos para un periodo, divida por la suma de los precios cantidades o valores para ese grupo de artículos en otro periodo, considerado como base. Matemáticamente se expresan como:

Las expresiones anteriores son muy útiles cuando no existen variaciones significativas entre productos, ya estos índices no se ven afectados por las variaciones en algún producto. Para recoger las variaciones entre productos se recomienda calcular primeramente los índices simples y luego sumarlos y finalmente dividirlos por el número de productos. Esto es,

Ejemplo: Con los datos de la siguiente tabla, calcular el índice agregativo de las cantidades que resultaron en mal estado de conservación, en un grupo de artículos, comparados en el mes de junio de 2009, respecto a las cantidades comparadas, en mal estado de conservación, en el mes de mayo del mismo año.

113

Artículos medida Defectuosasmayo Junio

A Kg 12 18B Lt 8 15C Docena 20 8D Libras 14 20E Unidad 50 70Total 104 131

Page 114: analisis exploratorio de datos y probabilidad e inferencia estadistica

Solución: Primer método.

. Este método es poco usual, ya que no es afectado

por las variaciones grandes que puede presenta uno varios artículos. Segundo método.

Este resultado es un poco mayor al obtenido por el primer método. Este aumento se debe, a la variación que presenta el artículo B, durante ese periodo.

5.3.3. Índices de precios

Existen gran cantidad de fórmulas para calcular índices de precios, cuyo empleo dependerá de la naturaleza misma del problema. Generalmente, las ponderaciones en los índices de precios son las cantidades y en el cálculo de los índices de cantidad las ponderaciones son los precios.

5.3.3.1 Índice de Laspeyres de precios.5.3.3.1 Índice de Laspeyres de precios.Este índice puede interpretarse, como la relación existente, al comparar los precios actuales de un grupo de artículos, con los precios de esos mismos artículos considerados en el periodo base, manteniéndose constante como ponderación las cantidades del periodo base. La expresión es la siguiente:

5.3.3.2 Índice de Paasche de precios.

Se interpreta como la relación existente entre los precios actuales de un grupo de artículos, con los precios de esos mismos artículos en el periodo base, manteniéndose constante las ponderaciones correspondientes a las cantidades de dichos artículos, dadas por el periodo que se investiga, esto es:

La diferencia entre las dos fórmulas anteriores, radica únicamente en la base tomada para las ponderaciones, en la primera se refiere a las cantidades del periodo base y en la segunda, las cantidades corresponden al periodo que se investiga.

114

Page 115: analisis exploratorio de datos y probabilidad e inferencia estadistica

5.3.3.3. Índice de Fisher de precios.

Este índice es un promedio geométrico, que se define como la raíz cuadrada del producto del índice de Laspeyres por el de Paasche, así:

5.3.4. Índices de cantidad.Los índices de cantidad de Laspeyres, Paasche y Fisher son muy parecidos a los índices de precios, con la diferencia de que las ponderaciones son los precios. Las fórmulas son las siguientes:

Ejemplo: Con los siguientes datos referentes a los precios y cantidades para un grupo de artículos dados para dos periodos.Artículos Unidad 2006 2007

Precio Cantidad Precio CantidadA Kg 26 10 38 8B Lt 6 5 10 7C Lbs 1 2 4 5D Docena 6 1 15 2E Unidad 3.6 2 2 1Calcular los índices de precios y de cantidad de las Laspeyres, Paasche y Fisher.Solución:Ordenando los datos de la tabla anterior:Articulos P06 q06 P07 q07 P06 q06 P07q07 P07q06 P06q07

A 26 10 38 8 260 304 380 208B 6 5 10 7 30 70 50 42C 1 2 4 5 2 20 8 5D 6 1 15 2 6 30 15 12E 3.6 2 2 1 7.2 2 4 3.6

305.2 426 457 270.6 Cálculo de los índices de precios

115

Page 116: analisis exploratorio de datos y probabilidad e inferencia estadistica

Laspeyres: =(457/305.2)*100 = 149.34

Paasche: = (426/270.6)*100= 157.43

Fisher:

Los índices de cantidad se calculan de forma análoga.

Laspeyres: (270.6/305.2)*100=88.66Paasche: (426/457)*100= 93.22Fisher: 90.91

Ejercicio. El índice de cantidad de un grupo de artículos es igual a 200, sí se usa la fórmula de Fisher, y a 160 si se emplea la de Laspeyres. ¿Cuál es el índice de cantidad usando la fórmula de Paasche?

Solución.

Ejercicio. Una empresa espera aumentar sus ventas en el año próximo en un 50%. ¿En qué porcentaje debería incrementar los precios para que el ingreso total se convierta en un 250%?

Solución.Se sabe que el índice de ingreso total es igual al índice de cantidad vendida por el índice de precios.250=150*ind. Precios, entonces Ind. Precios = (250/150)=166.66

Se debe aumentar los precios en un 66.67%.

Ejercicio. El índice de precios de Laspeyres es de 2/3 del de Paasche y éste asciende a 130. ¿Cuál es el índice de Fisher?

Solución.

116

Page 117: analisis exploratorio de datos y probabilidad e inferencia estadistica

5.3.5. Cálculo del salario e ingreso real.

Los números índices tienen numerosas aplicaciones, especialmente en el área económica, por ejemplo, para estimar el salario real o ingreso real, los cuales se obtienen a través de las siguientes fórmulas:

Salario real: (salario nominal/ índice de precios al consumidor)*100Ingreso real: (Ingreso nominal/índice de precios al consumidor)*100

Este proceso de convertir el salario o el ingreso nominal en real se conoce como deflación o sea la transformación de valores expresados a precios corrientes en valores o precios constantes, con respecto a un periodo.

Ejemplo: Un profesor Universitario III de la Universidad de El Salvador en junio de 2009 ganaba $ 1,400.00 dólares US y en el mes de enero de 2010, su salario fue reajustado con un aumento de $ 200.00 dólares. Se sabe además que el precio de la canasta básica para esos mismos meses y años fue de $550 y $675 respectivamente. Se quiere saber si con el reajuste en el salario mejoró la situación económica de los profesores universitarios.

Solución.El índice de precios de la canasta básica es:

Los artículos de primera necesidad aumentaron de junio de 2009 a enero de 2010 en un 22.73%, por lo tanto, tuvo que haber un incremento igual a este porcentaje o mayor, para que las condiciones económicas sean iguales o mejores en el año 2010.

Salario real= , esto indica que el aumento fue demasiado bajo, es decir,

que a pesar de estar recibiendo más dinero que antes, este salario a penas equivale a 1,303.67, el aumento esperado debió ser de $ 318.22 = 1400*0.2273, o sea que su nuevo salario debería de ser de $1,718.22 en vez de $ 1,600.

117

Page 118: analisis exploratorio de datos y probabilidad e inferencia estadistica

5.4. Guía de ejercicios Nº 5.1. Las cifras de ventas en millones de $ (dólares) de unos granos básicos almacenados desde

2002 hasta 2010 son los siguientes:

a) Hallar los índices de ventas, tomando como base primero 2002 y luego 2005.

b) Hallar los índices de ventas con base variable

2. Un empleado ganaba $ 772 dólares mensuales en 2009 en el 2010 gana $ 912 mensuales, con lo cual mejora su ingreso real en 16%. Si el actual índice de precios es de $ 560 ¿Cuál era el índice de precios del 2009?

3. La producción de tomates (en toneladas) en la provincia de Valparaíso fue durante los últimos 10 años:

Se Pide:

a) Establezca una serie de números índice, que permita estudiar la evolución de dichas producciones, considerando como base el año 1997.

b) Determine el porcentaje de variación de la producción entre los años 1997 y 2006.

c) Determine la tasa de crecimiento promedio (tcp) entre los años 1997 y 2007. 4. La entrada de turistas Alemanes a nuestro País durante los últimos 7 años según SERNATUR

viene dada por la tabla siguiente:

Se Pide:

a) Establezca una serie de números índice, que permita estudiar todos los datos, considerando como base el año 2000.

b) Con respecto al año 2003. Qué porcentaje de aumento o disminución se dio en los años 2004 y 2005.

118

Años Ventas2002 182003 182004 192005 152006 122007 162008 202009 242010 35

AÑO PRODUCCION (ton) 1997 1300 1998 1280 1999 1189 2000 1234 2001 1100 2002 1250 2003 1310 2004 1270 2005 1140 2006 1240

AÑO Número de Turistas 2000 12565 2001 13124 2002 11897 2003 14578 2004 16243 2005 14890 2006 15321

Page 119: analisis exploratorio de datos y probabilidad e inferencia estadistica

5. La Municipalidad de San Antonio, ubicada en la V Región ha estudiado el consumo de anual de agua por habitante durante los últimos 5 años, obteniendo:

Se Pide:

a) Establezca una serie de números índice, que permita estudiar todos los consumos, considerando como base el año 2002.

b) Determine el porcentaje de variación del consumo entre los años 2002 y 2006.

c) Determine la tasa de crecimiento promedio (tcp) entre los años 2002 y 2006.

6. Una fábrica de automóviles chinos produce cuatro modelos distintos, todos en versión económica, cuyos precios expresados en millones de pesos y número de unidades producidas en 1998 y 2000 son respectivamente:

Año 1998 Año 2000Modelo Precio (M$) Nº de unidades Precio (M$) Nº de unidades1 0.9 3200 1.2 56002 1.3 3200 1.5 43003 1.9 3200 2.1 20004 3.8 3200 4.3 1200

Se Pide: a) Hallar el índice de precios y de cantidad de LASPEYRE, con base el año 1998. b) Hallar el índice de precios y de cantidad de PAASCHE, con base el año 1998. c) Hallar el índice de FISHER para precio y cantidad, considerando el mismo año base.

7. Si, por ejemplo, el consumo final de un país, expresado en miles de dólares corrientes de cada año, y el I.P.C. de los mismos años son los siguientes, expresar en dólares. Constantes el consumo final de ese país:

Años Consumo final IPC2000 17 1002001 20 1052002 22 1102003 25 1152004 30 118

119

AÑO Consumo agua por habitante (lt)2002 345 2003 367 2004 354 2005 389 2006 325

Page 120: analisis exploratorio de datos y probabilidad e inferencia estadistica

Capítulo 6. Métodos de Conteo.

6.1 Introducción Antes de entrar al estudio del análisis combinatorio, se considera que dentro del muestreo aleatorio se distingue que la selección sea sin remplazamiento o con remplazamiento:a. Sin remplazamiento: Se seleccionan n elementos de la población, mediante n extracciones

sucesivas sin remplazamiento, asignando en cada una de ellas probabilidades iguales a los elementos no seleccionados en las anteriores.

b. Con remplazamiento: Se seleccionan n elementos de la población, mediante n extracciones sucesivas con remplazamiento, asignando en cada una de ellas probabilidades iguales a todos los elementos de la población.

En estos dos procedimientos podemos considerar a los objetos o elementos de la población extraídos, ordenados o sin ningún orden, originando así las muestras ordenadas, y las muestras sin ordenar.

Tenemos, pues, cuatro procedimientos básicos de muestreo aleatorio en el modelo uniforme:1. Muestreo con remplazamiento y los objetos ordenados2. Muestreo sin remplazamiento y los objetos ordenados3. Muestreo con remplazamiento y los objetos sin ordenar4. Muestreo sin remplazamiento y los objetos sin ordenar.Los dos primeros originan las muestras ordenadas.

6.2 Muestras ordenadas.El símbolo (N)n se utilizará para representar productos del tipo siguiente: (N)n = N.(N-1) . . . (N-n+1), con n entero positivo y nN, definiéndolo como (N)n =0 para los enteros n > N.

Si tenemos un conjunto 1 2, , . . ., nA a a a con n elementos, y un conjunto 1 2, , . . ., mB b b b

con m es posible formar n.m pares de la forma ( , )i ia b en donde el primer elemento del par pertenece a A y el segundo a B. Este resultado se puede generalizar.

Proposición Si tenemos k conjuntos 1, . . ., kA A con elementos 1, . . ., kn n , respectivamente, el número de ordenaciones de la forma 1( , . . ., )kx x , en donde 1x es un elemento de A1 y kx es un elemento de Ak, es 1. . . kn n .

Demostración.Este resultado se sigue por inducción.Como consecuencia del resultado anterior, se tiene que si se realizan k selecciones sucesivas con exactamente in opciones posibles en el i-ésimo paso o etapa, produce un total de 1. . . kn n resultados diferentes posibles.Teorema

120

Page 121: analisis exploratorio de datos y probabilidad e inferencia estadistica

Dada una población de N elementos se pueden seleccionar nN muestras diferentes con remplazamiento de tamaño n, y (N)n muestras diferentes sin remplazamiento de tamaño n.

Demostración.Al realizar n selecciones sucesivas con exactamente N opciones posibles, en cada una de las n selecciones, que son las correspondientes a los N elementos de la población. Así, pues, según el resultado anterior . . . . nN N N N , muestras diferente de tamaño n, en un muestreo con remplazamiento, tomando 1 2 . . . nn n n N .

Si efectuamos un muestreo sin remplazamiento, tendremos N opciones posibles en la primera selección, pero tan sólo (N-1) en la segunda, pues los elementos de la población no son devueltos a la misma; de la misma manera, en la tercera sólo se tendrán (N-3+1) opciones, y así sucesivamente hasta la n-ésima, en la cual se tendrán (N-n+1) posible opciones. Por tanto, existirán (N)n = N.(N-1) . . . (N-n+1) muestras diferentes de tamaño n, en el muestreo sin remplazamiento.

Ejemplo.Supongamos una urna que contiene 9 bolas numeradas del 1 al 9. Si realizamos un muestreo aleatorio con remplazamiento de tamaño 6, el espacio muestral , estará compuesto por

69 531,441 elementos.

Ejemplo.Si lanzamos un dado 5 veces, entonces el espacio muestral estará formado por 56 7,776 elementos, ya que este experimento es equivalente a muestrear con remplazamiento, donde el número de veces que lanzamos el dado es equivalente al tamaño n de la muestra aleatoria y N al número de caras del dado.

Ejemplo.Supongamos una urna que contiene 11 bolas numeradas del 1 al 11. Si realizamos un muestreo aleatorio sin remplazamiento de tamaño n=3, el espacio muestral estará formado por

3(11) 990 elementos.

Teorema.El número de ordenaciones diferentes de N elementos es

! .( 1). . .3.2.1N N N

Observación: El número de ordenaciones coincide con el número de muestras en un muestreo sin remplazamiento.

Ejemplo.Si se realiza un muestreo aleatorio con remplazamiento de tamaño n de una población de N elementos, el número de muestras en las que no aparece ningún elemento dos veces es

( ) .( 1). . .( 1)nN N N N n

121

Page 122: analisis exploratorio de datos y probabilidad e inferencia estadistica

6.3 Variaciones, combinaciones y permutaciones.

6.3.1. Variaciones de N elementos tomados de n en n.

Se llaman variaciones de N elementos tomados de n en n, a los diferentes grupos que pueden formarse con los N elementos dados, tomados de n en n, de modo que cada dos grupos difieran entre sí, ya por la naturaleza de un elemento, ya por el orden de sucesión de los mismos. Se represente por ,N nV .El muestreo que se considera es sin remplazamiento, pues las variaciones en las que no se especifica nada se entenderá que son sin repetición. Así pues,

, .( 1). . .( 1)N nV N N N n

6.3.2. Variaciones con repetición de N elementos tomados de n en n.

Se llaman variaciones con repetición de N elementos tomados de n en n a los diferentes grupos que pueden formarse con los N elementos dados, tomados de n en n, en los que eventualmente pueden aparecer elementos repetidos y con la condición de que dos grupos sean distintos entre sí, si tienen distintos elementos, o están situados en distintos lugares. Se representa por ,N nRV .

Observe, que aquí también se tiene en cuenta el orden de los elementos de cada grupo y de hecho de lo único que se diferencian de las variaciones antes definidas es que eventualmente algún elemento puede aparecer repetido en un mismo grupo. Es decir, el muestreo se hace con remplazamiento. Así

,n

N nRV N

6.3.3. Permutaciones.

Las permutaciones o, también llamadas, ordenaciones son aquellas formas de agrupar los elementos de un conjunto teniendo en cuenta que:

Influye el orden en que se colocan. Tomamos todos los elementos de que se disponen o una parte de ellos. Serán Permutaciones SIN repetición cuando todos los elementos de que disponemos son

distintos. Serán Permutaciones CON repetición si disponemos de elementos repetidos. (Ese es el nº

de veces que se repite el elemento en cuestión).

Permutaciones sin repetición:

122

Page 123: analisis exploratorio de datos y probabilidad e inferencia estadistica

Una permutación es una combinación en donde el orden es importante. La notación para permutaciones es P(n,r) que es la cantidad de permutaciones de “n” elementos si solamente se seleccionan “r”. Así

!( , )( )!

nP n rn r

Ejemplo: Si nueve estudiantes toman un examen y todos obtienen diferente calificación, cualquier alumno podría alcanzar la calificación más alta. La segunda calificación más alta podría ser obtenida por uno de los 8 restantes. La tercera calificación podría ser obtenida por uno de los 7 restantes. Cuántas permutaciones de tres estudiantes pueden formarse.

Solución:

Observe que interesa el orden, es decir, que en una permutación donde un estudiante aparezca con la calificación más alta y otro estudiante con la segunda calificación más alta, si intercambiamos los estudiantes obtenemos otra permutación totalmente diferente a la primera permutación.

Así, la respuesta es: 9*8*7 = 504 o equivalentemente, 9! / (9-3)! = P(9,3).

Permutaciones de n elementos:

Permutaciones de n elementos diferentes son los distintos grupos que pueden formarse entrando en cada uno de ellos los n elementos dados, difiriendo únicamente en el orden de sucesión de sus elementos. Se representa por n!

Permutaciones con repetición:

Llamaremos permutaciones con repetición de r elementos distintos tal que el primero aparece n1

veces; el segundo n2 veces; . . . ; el r-ésimo nr veces, con n1 + n2 + … + nr = N, a las distintas disposiciones que pueden formarse con los r elementos distintos, de tal forma que en cada disposición cada elemento aparezca n1, n2, … , nr veces y esto en un orden determinado. Se

representa por: 1... rn nNRP

Así: 1...

1 2

!!. !... !

rn nN

r

NRPn n n

Para tener una idea de la deducción de la ecuación anterior, observe que una población de tamaño n puede dar lugar a n! muestras ordenada de tamaño n. Además, el número de muestra ordenadas de tamaño n, en un muestreo sin remplazamiento, efectuado en una población de tamaño N, es (N)n , con lo que si llamamos A al número de subpoblaciones distintas de tamaño n de una población de N elementos, será:

123

Page 124: analisis exploratorio de datos y probabilidad e inferencia estadistica

A. n! = (N)n; entonces A = (N)n / n! = !

!( )!N Nn n N n

Ahora, tenemos r grupos distintos, n1, n2, … , nr, y los elementos del primer grupo pueden ser

seleccionados de 1

Nn

maneras, de los N- n1 elementos restantes, podemos seleccionar los n2 del

segundo grupo de 1

2

N nn

maneras, etc. Después de formar el (r-1)-ésimo grupo quedarán N-

n1 - n2 -… - nr-1 = nr elementos, que constituirán el grupo r-ésimo, que podremos seleccionar de 1 2 1. . .r r

r r

n N n n nn n

=1 manera. Por tanto, el número de permutaciones con

repetición de r elementos distintos será el producto de esos números combinatorios, es decir:

1

Nn

1

2

N nn

. . . 1 2 1. . . r

r

N n n nn

después de desarrollar estos productos se llega a :

1

Nn

1

2

N nn

. . . 1 2 1. . . r

r

N n n nn

=1 2

!!. !... !r

Nn n n

6.3.4. Combinaciones.Llamaremos combinaciones de N elementos tomados de n en n, a los diferentes grupos que se pueden formar figurando n elementos en cada uno, de modo que cada dos grupos difieran en la naturaleza de, por lo menos, un elemento. Puede observarse, que no se tiene en cuenta el orden de los elementos en la disposición. Se denota por ,N nC y el número de grupos que podemos formar de tamaño n, será:

,!

!( )!N n

N NCn n N n

Observe que una combinación, es un arreglo de elementos en donde no nos interesa el lugar o posición que ocupan los mismos dentro del arreglo.

Ejemplo 1.

a) Si se cuenta con 14 alumnos que desean colaborar en una campaña pro limpieza, cuantos grupos de limpieza podrán formarse si se desea que consten de 5 alumnos cada uno de ellos,

b) Si entre los 14 alumnos hay 8 mujeres, ¿cuántos de los grupos de limpieza tendrán a 3 mujeres?,

124

Page 125: analisis exploratorio de datos y probabilidad e inferencia estadistica

c) ¿Cuántos de los grupos de limpieza contarán con 4 hombres por lo menos?

Solución: NO INTERESA EL ORDEN.

a) n = 14, r = 5

14C5 = 14! / (14 – 5 )!5! = 14! / 9!5!

= 14 x 13 x 12 x 11 x 10 x 9!/ 9!5!

= 2,002 grupos

Entre los 2002 grupos de limpieza hay grupos que contienen solo hombres, grupos que contienen solo mujeres y grupos mixtos, con hombres y mujeres.

b) n = 14 (8 mujeres y 6 hombres), r = 5

En este caso nos interesan aquellos grupos que contengan 3 mujeres y 2 hombres

8C3*6C2 = (8! / (8 –3)!3!)*(6! / (6 – 2)!2!)

= (8! / 5!3!)*(6! / 4!2!)

= 8 x7 x 6 x 5 /2!

= 840 grupos con 3 mujeres y 2 hombres, puesto que cada grupo debe constar de 5 personas

c) En este caso nos interesan grupos en donde haya 4 hombres o más

Los grupos de interés son iguales a: grupos con 4 hombres + grupos con 5 hombres, así: 6C4*8C1 + 6C5*8C0 = 15 x 8 + 6 x 1 = 120 + 6 = 126 grupos.

Ejemplo 2.

Para aprobar un examen un alumno debe contestar 9 de 12 preguntas,

a) ¿Cuántas maneras tiene el alumno de seleccionar las 9 preguntas?, b) ¿Cuántas maneras tiene si forzosamente debe contestar las 2 primeras preguntas?,c) ¿Cuántas maneras tiene si debe contestar una de las 3 primeras preguntas?, d) ¿Cuántas maneras tiene si debe contestar como máximo una de las 3 primeras preguntas?

Solución: NO INTERESA EL ORDEN.

a) n = 12, r = 9

12C9 = 12! / (12 – 9)!9!

125

Page 126: analisis exploratorio de datos y probabilidad e inferencia estadistica

= 12! / 3!9! = 12 x 11 x 10 / 3!

= 220 maneras de seleccionar las nueve preguntas o dicho de otra manera, el alumno puede seleccionar cualquiera de 220 grupos de 9 preguntas para aprobar el examen.

b) 2C2*10C7 = 1 x 120 = 120 maneras de seleccionar las 9 preguntas entre las que están las dos primeras preguntas.

c) 3C1*9C8 = 3 x 9 = 27 maneras de seleccionar las 9 preguntas entre las que está una de las tres primeras preguntas.

d) En este caso debe seleccionar 0 ó 1 de las tres primeras preguntas

3C0*9C9 + 3C1*9C8 = (1 x 1) + (3 x 9) = 1 + 27 = 28 maneras de seleccionar las preguntas a contestar.

Ejemplo 3.

Una señora desea invitar a cenar a 5 de 11 amigos que tiene,

a) ¿Cuántas maneras tiene de invitarlos?, b) ¿Cuántas maneras tiene si entre ellos está una pareja de recién casados y no asisten el uno

sin el otro?, c) ¿Cuántas maneras tiene de invitarlos si Rafael y Arturo no se llevan bien y no van juntos?

Solución:

a) n = 11, r = 5

11C5 = 11! / (11 – 5 )!5! = 11! / 6!5!

= 11 x 10 x 9 x 8 x 7 x 6! / 6!5!

= 462 maneras de invitarlos.

Es decir, que se pueden formar 462 grupos de cinco personas para ser invitadas a cenar.

b) Esta señora tiene dos alternativas para hacer la invitación, la primera es no invitar a la pareja y la segunda es invitar a la pareja.

2C0*9C5 + 2C2*9C3 = (1 x 126) + (1 x 84) = 210 maneras de invitarlos

En este caso separamos a la pareja de los demás invitados para que efectivamente se cumpla el que no asistan o que asistan a la cena.

126

Page 127: analisis exploratorio de datos y probabilidad e inferencia estadistica

c) La señora tiene dos alternativas para hacer la invitación, una de ellas es no invitar a Rafael y a Arturo o que asista solo uno de ellos.

2C0*9C5 + 2C1*9C4 = (1 x 126) + (2 x 126) = 126 + 252 = 378 maneras de hacer la invitación.

6.3.4.1. Combinaciones con repetición.

Llamamos combinaciones con repetición de N elementos distintos tomados de n en n a todos los conjuntos de n elementos tomados entre los N dados permitiendo repetir elementos.

La fórmula para calcular el número de posibles combinaciones con repetición de N elementos distintos tomados de n en n es

, 1,

1 1!!( 1)!N m N n n

N n N nCR Cn n N

Ilustración

Suponemos que cada elemento del conjunto de los N distintos se representa por el espacio entre dos líneas verticales del siguiente dibujo formado por N+1 líneas verticales:

1 2 3 ..... N-1 N N + 1

Elegir una combinación con repetición de N elementos distintos tomados de n en n es equivalente a colocar n estrellas dentro de los N espacios pudiendo meter varias en un mismo espacio

1 2 3 ..... N-1 N N + 1 * * * * * 1 2 3 4 .... n

La posición de la primera y la última de las barras es fija y elegir una ubicación para las n estrellas es equivalente a elegir un orden entre N-1 barras y n estrellas. El número de esas posibles elecciones es el número de combinaciones sin repetición de N + n – 1 elementos tomados de n en n.

¿Cómo se forman?. Para construir las combinaciones con repetición, partimos del conjunto A=1,2,3,4 y vamos a construir todas las combinaciones con repetición posibles.

a) De un elemento. Si tenemos un conjunto de cuatro elementos y queremos hacer grupos de uno, únicamente podremos hacer cuatro grupos: 1 , 2 , 3 , 4. (C4,1)

b) De dos elementos. La forma de construirlas será similar a las combinaciones sin repetición aunque con la diferencia de que al permitirse repetir los elementos tendremos que añadir a cada una de las de orden uno, el mismo elemento y todos los siguientes. Así se obtienen: 11, 12, 13, 14, 22, 23, 24, 33, 34, 44. (C4+1,2)

127

Page 128: analisis exploratorio de datos y probabilidad e inferencia estadistica

c) De tres elementos. Se pueden construir a partir de las anteriores añadiendo a cada combinación de orden dos el último elemento y todos los elementos siguientes. Se obtienen: 111 , 112 , 113 , 114 , 122 , 123 , 124 , 133 , 134 , 144 , 222 , 223 , 224 , 233 , 234 , 244 , 333 , 334 , 344 , 444. (C4+2,3)

d) De cuatro elementos. Se pueden obtener a partir de las de orden tres, añadiendo a cada una de ellas el último elemento y los elementos siguientes. (C4+3,4)

e) De cinco o más elementos. Como estamos construyendo combinaciones con repetición y los elementos se pueden repetir, podríamos continuar construyendo combinaciones de orden cinco o más elementos. (C4+4,5)

6.4. Teorema del Binomio.

Se podría decir a primera vista, la expresión na b no parece tener mucho que ver con las combinaciones, pero como veremos a continuación, podemos obtener una fórmula para desarrollar na b utilizando la fórmula para el número de r-combinaciones de n objetos. Con frecuencia, podemos relacionar una expresión algebraica con algún proceso de conteo. Varias técnicas avanzadas de conteo utilizan estos métodos.

Los números C(n, r) se llaman Coeficientes Binomiales, pues aparecen en el desarrollo del binomio (a+b) elevado a una potencia.

El Teorema del Binomio proporciona una fórmula para los coeficientes en el desarrollo de

na b . Como ( )( ) ( )n

n factores

a b a b a b a b el desarrollo surge al elegir a o b en

cada uno de los n factores, multiplicando las selecciones entre ellas, y luego sumando todos los productos obtenidos de esta manera. Por ejemplo, en el desarrollo de 3a b , se elige a o b en el primer factor (a + b); a o b en el segundo factor (a + b), y a o b en el tercer factor (a + b); se multiplican las selecciones entre ellas y luego se suman los productos obtenidos. Si elegimos a en todos los factores y multiplicamos, obtenemos el término aaa.

Si elegimos a en el primer factor, b en el segundo factor y a en el tercer factor y multiplicamos, obtenemos el término aba. La tabla 1 muestra todas las posibilidades. Si sumamos los productos de todas las selecciones, obtenemos

128

Page 129: analisis exploratorio de datos y probabilidad e inferencia estadistica

Selección del primer factor (a+b)

Selección del segundo factor (a+b)

Selección del tercer factor (a+b)

Producto de selecciones

a a a aaa= 3aa a b aab= 2a ba b a aba= 2a ba b b Abb= 2abb a a baa= 2bab a b bab= 2abb b a bba= 2abb b b bbb= 3b

Tabla 1. Cálculo de 3a b

Un término de la forma n k ka b surge de elegir b en k factores y a de los otros n-k factores. Pero esto puede realizarse de C(n, k) formas, pues C(n, k) cuenta el número de formas de elegir k cosas de n elementos. Así, n k ka b aparece C(n, k) veces. Esto implica que

Este resultado se conoce como el teorema del binomio.

TEOREMA: Teorema del Binomio.

Si a y b son números reales y n es un entero positivo, entonces

DEMOSTRACION. La demostración aparece antes del enunciado del teorema.

EJEMPLO

Tomando n = 3 se obtiene

si se toma a = b = 1, da como resultado la siguiente identidad

129

Page 130: analisis exploratorio de datos y probabilidad e inferencia estadistica

EJEMPLO

Desarrollar utilizando el teorema del binomio. Si hacemos a = 3x , b= -2y

n = 4, obtenemos

EJEMPLO

Determine el coeficiente de en el desarrollo de El término relacionado con aparece en el teorema del binomio considerando n = 9 y k = 4.

Así el coeficiente de es 126.

EJEMPLO

Determine el coeficiente de en el desarrollo de Como

(Nueve términos)

Obtenemos cada vez que multiplicamos dos x elegidas de los nueve términos, tres y elegidas de los nueve términos para las x de C(9,2) formas. Una vez realizada esta selección, podemos elegir así tres términos para las y de C(7,3) formas. Esto deja los cuatro términos

restantes para las z. Así el coeficiente de en el desarrollo es

130

Page 131: analisis exploratorio de datos y probabilidad e inferencia estadistica

Dado un conjunto de X con n elementos, cuenta el número de subconjuntos con k elementos.

Por consiguiente, el término correspondiente al lado derecho del teorema del binomio cuenta el número de subconjuntos de X.

Exprésense los coeficientes binomiales en una disposición triangular conocida como triángulo de Pascal (véase la figura 1.).

Los dos lados superiores están formados por números 1 y cualquier valor interior es la suma de los dos números que están por encima y a los lados de él.

11 1

1 2 11 3 3 1

1 4 6 4 11 5 10 10 5 1

Figura 1. Triángulo de Pascal

Una identidad que surge de algún proceso de conteo es una identidad combinatoria y el argumento que conduce a su formulación es un argumento combinatorio.

6.5. Guía de Ejercicios N° 1.

1. Una ciudad cuenta con 7 candidatos para elegir al Alcalde y al Síndico. De cuantas maneras puede asignar estos cargos.

2. ¿De cuántas formas diferentes se pueden cubrir los puestos de presidente, vicepresidente y tesorero de un club de fútbol sabiendo que hay 12 posibles candidatos?

3. Con las letras de la palabra libro, ¿cuántas ordenaciones distintas se pueden hacer que empiecen por vocal?

4. De cuántas formas pueden mezclarse los siete colores del arcoíris tomándolos de tres en tres?

5. ¿Cuántos números de cinco cifras distintas se pueden formar con las cifras impares? ¿Cuántos de ellos son mayores de 70,000?

6. ¿De cuántos partidos consta una liguilla formada por cuatro equipos?7. A una reunión asisten 10 personas y se intercambian saludos entre todos. ¿Cuántos

saludos se han intercambiado?8. Con las cifras 1, 2 y 3, ¿cuántos números de cinco cifras pueden formarse? ¿Cuántos son

pares?9. ¿De cuántas formas pueden colocarse los 11 jugadores de un equipo de fútbol teniendo en

cuenta que el portero no puede ocupar otra posición distinta de la portería?

131

Page 132: analisis exploratorio de datos y probabilidad e inferencia estadistica

10. Una mesa presidencial está formada por ocho personas, ¿de cuántas formas distintas se pueden sentar, si el presidente y el secretario siempre van juntos?

11. ¿Cuántas diagonales tiene un pentágono y cuántos triángulos se puede informar con sus vértices?

12. Un grupo, compuesto por cinco hombres y siete mujeres, forma un comité de 2 hombres y 3 mujeres. De cuántas formas puede formarse, si:a) Puede pertenecer a él cualquier hombre o mujer.b) Una mujer determinada debe pertenecer al comité.c) Dos hombres determinados no pueden estar en el comité.

13. ¿De cuántas formas distintas pueden sentarse ocho personas en una fila de butacas?14. En una clase de 35 alumnos se quiere elegir un comité formado por tres alumnos.

¿Cuántos comités diferentes se pueden formar?15. ¿De cuántas formas distintas pueden sentarse ocho personas alrededor de una mesa

redonda?16. En una bodega hay cinco tipos diferentes de botellas. ¿De cuántas formas se pueden elegir

cuatro botellas? 17. En el palo de señales de un barco se pueden izar tres banderas rojas, dos azules y cuatro

verdes. ¿Cuántas señales distintas pueden indicarse con la colocación de las nueve banderas?

18. Se ordenan en una fila 5 bolas rojas, 2 bolas blancas y 3 bolas azules. Si las bolas de igual color no se distinguen entre sí, ¿de cuántas formas posibles pueden ordenarse?

19. Cuatro libros distintos de matemáticas, seis diferentes de física y dos diferentes de química se colocan en un estante. De cuántas formas distintas es posible ordenarlos si:1. Los libros de cada asignatura deben estar todos juntos.2. Solamente los libros de matemáticas deben estar juntos.

20. Una persona tiene cinco monedas de distintos valores. ¿Cuántas sumas diferentes de dinero puede formar con las cinco monedas?

6.6. Soluciónes.1. ¿De cuántas formas diferentes se pueden cubrir los puestos de presidente, vicepresidente y

tesorero de un club de fútbol sabiendo que hay 12 posibles candidatos?

No entran todos los elementos.

Sí importa el orden.

No se repiten los elementos.

2. Con las letras de la palabra libro, ¿cuántas ordenaciones distintas se pueden hacer que empiecen por vocal?

La palabra empieza por i u o seguida de las 4 letras restantes tomadas de 4 en 4.

132

Page 133: analisis exploratorio de datos y probabilidad e inferencia estadistica

Sí entran todos los elementos.

Sí importa el orden.

No se repiten los elementos.

3. ¿De cuántas formas pueden mezclarse los siete colores del arco iris tomándolos de tres en tres?

No entran todos los elementos.

No importa el orden.

No se repiten los elementos.

4. ¿Cuántos números de cinco cifras distintas se pueden formar con las cifras impares? ¿Cuántos de ellos son mayores de 70.000?

Sí entran todos los elementos.

Sí importa el orden.

No se repiten los elementos.

Si es impar sólo puede empezar por 7 u 9.

5. ¿De cuántos partidos consta una liguilla formada por cuatro equipos?

No entran todos los elementos.

Sí importa el orden.

No se repiten los elementos.

6. A una reunión asisten 10 personas y se intercambian saludos entre todos. ¿Cuántos saludos se han intercambiado?

133

Page 134: analisis exploratorio de datos y probabilidad e inferencia estadistica

No entran todos los elementos.

No importa el orden.

No se repiten los elementos.

7. Con las cifras 1, 2 y 3, ¿cuántos números de cinco cifras pueden formarse? ¿Cuántos son pares?

Sí entran todos los elementos: 3 < 5

Sí importa el orden.

Sí se repiten los elementos.

Si el número es par tan sólo puede terminar en 2.

8. ¿De cuántas formas pueden colocarse los 11 jugadores de un equipo de fútbol teniendo en cuenta que el portero no puede ocupar otra posición distinta de la portería?

Disponemos de 10 jugadores que pueden ocupar 10 posiciones distintas.

Sí entran todos los elementos.

Sí importa el orden.

No se repiten los elementos.

9. Una mesa presidencial está formada por ocho personas, ¿de cuántas formas distintas se pueden sentar, si el presidente y el secretario siempre van juntos?

Se forman dos grupos el primero de 2 personas y el segundo de 7 personas, en los dos se cumple que:

134

Page 135: analisis exploratorio de datos y probabilidad e inferencia estadistica

Sí entran todos los elementos.

Sí importa el orden.

No se repiten los elementos.

10. ¿Cuántas diagonales tiene un pentágono y cuántos triángulos se puede informar con sus vértices?

Vamos a determinar en primer lugar las rectas que se pueden trazar entre 2 vértices.

No entran todos los elementos.

No importa el orden.

No se repiten los elementos.

Son , a las que tenemos que restar los lados que determinan 5 rectas que no son diagonales.

11. Un grupo, compuesto por cinco hombres y siete mujeres, forma un comité de 2 hombres y 3 mujeres. De cuántas formas puede formarse, si:

1. Puede pertenecer a él cualquier hombre o mujer.

2. Una mujer determinada debe pertenecer al comité.

3. Dos hombres determinados no pueden estar en el comité.

135

Page 136: analisis exploratorio de datos y probabilidad e inferencia estadistica

12. ¿De cuántas formas distintas pueden sentarse ocho personas en una fila de butacas?

Sí entran todos los elementos. Tienen que sentarse las 8 personas.

Sí importa el orden.

No se repiten los elementos. Una persona no se puede repetir.

13. En una clase de 35 alumnos se quiere elegir un comité formado por tres alumnos. ¿Cuántos comités diferentes se pueden formar?

No entran todos los elementos.

Noimporta el orden: Juan, Ana.

Nose repiten los elementos.

14. ¿De cuántas formas distintas pueden sentarse ocho personas alrededor de una mesa redonda?

15. En una bodega hay cinco tipos diferentes de botellas. ¿De cuántas formas se pueden elegir cuatro botellas?

No entran todos los elementos. Sólo elije 4.

No importa el orden. Da igual que elija 2 botellas de anís y 2 de ron, que 2 de ron y 2 de anís.

Sí se repiten los elementos. Puede elegir más de una botella del mismo tipo.

16. En el palo de señales de un barco se pueden izar tres banderas rojas, dos azules y cuatro verdes. ¿Cuántas señales distintas pueden indicarse con la colocación de las nueve banderas?

136

Page 137: analisis exploratorio de datos y probabilidad e inferencia estadistica

Sí entran todos los elementos.

Sí importa el orden.

Sí se repiten los elementos.

17. Se ordenan en una fila 5 bolas rojas, 2 bolas blancas y 3 bolas azules. Si las bolas de igual color no se distinguen entre sí, ¿de cuántas formas posibles pueden ordenarse?

18. Cuatro libros distintos de matemáticas, seis diferentes de física y dos diferentes de química se colocan en un estante. De cuántas formas distintas es posible ordenarlos si:

1. Los libros de cada asignatura deben estar todos juntos.

2.Solamente los libros de matemáticas deben estar juntos.

19. Una persona tiene cinco monedas de distintos valores. ¿Cuántas sumas diferentes de dinero puede formar con las cinco monedas?

137

Page 138: analisis exploratorio de datos y probabilidad e inferencia estadistica

Capítulo 7. Conceptos Básicos de Probabilidad7.1 Introducción.

La palabra probabilidad aparece en nuestro lenguaje ordinario en multitud de ocasiones. Así, afirmaciones del tipo de que la probabilidad de obtener dos seis al lanzar dos dados no cargados es uno entre 36, de que hay una probabilidad ligeramente inferior a un medio de que un bebé recién nacido sea varón y de que en los próximos dos años se pueda curar el SIDA es pequeña. El primero se refiere a un juicio de probabilidad que podemos llamar clásico, en el que los posibles resultados son equiprobables. El segundo es una afirmación de tipo frecuentista y se refiere a la frecuencia relativa con la que cierta probabilidad aparece entre los miembros de una clase determinada y el tercero constituye un ejemplo de lo que podríamos llamar un juicio de credibilidad y es una medida del grado de confianza que tenemos en la verdad de una cierta proposición.

7.2. Experimento aleatorio.

La finalidad de todo experimento científico es la obtención de información de interés acerca de cualquier fenómeno de la Naturaleza. Dentro de los experimentos científicos hay algunos cuyo desarrollo es previsible con certidumbre, y sus resultados están perfectamente determinados una vez fijada las condiciones del mismo: se conocen con el nombre de “experimentos determinísticos”.

Frente a estos experimentos que pueden realizarse en contexto de certidumbre, aparecen los que pueden realizarse en un contexto de incertidumbre. A estos se les llama “experimentos o fenómenos aleatorios”; estos fenómenos dependen del “azar”. El objeto de estudio del Cálculo de Probabilidades lo constituyen los fenómenos o experimentos aleatorios. Algunas propiedades que caracterizan los fenómenos aleatorios son:

1. En las mismas condiciones iniciales pueden dar lugar a diferentes resultados finales.2. Todos los resultados posibles se conocen por anticipado.3. No se puede predecir el resultado en cada experimento particular.4. En general, puede repetirse en las mismas condiciones indefinidamente.

Ejemplo.Para fijar los elementos fundamentales que intervienen en la teoría de probabilidades, elegimos uno de los ejemplos más habituales como es el de lanzamiento de un dado.

Claramente es un fenómeno aleatorio.Los resultados posibles son: Ω = 1, 2, 3, 4, 5, 6Los aspectos que presentan incertidumbre en este experimento son: los posibles subconjuntos de Ω, así presenta incertidumbre el subconjunto 2, 4, 6 al que podemos denominar “par” o su complementario “impar”. Un segundo elemento a considerar son todos los subconjuntos de Ω, es decir, el conjunto de partes de Ω, P(Ω,) el cual obtendrá todos los elementos de interés en nuestro experimento.

138

Page 139: analisis exploratorio de datos y probabilidad e inferencia estadistica

Por último, parece razonable tener una medida de dicha incertidumbre: es decir, su probabilidad P. Así pues, en todo experimento aleatorio se deben considerar los siguientes tres elementos (Ω, P(Ω), P).

7.3. Espacio Muestral.

Dado un experimento aleatorio, llamaremos espacio muestral Ω al conjunto de todos los resultados posibles distintos de dicho experimento aleatorio. Los elementos de Ω se denominan sucesos elementales.

Ejemplos de espacios muestrales hay muchos. Consideremos el experimento aleatorio de lanzar dos monedas al aire, el espacio muestral asociado será el Ω = (C, C), (C, F), (F, C), (F, F) en el caso que se distinguiesen las dos monedas.

Tipos de espacios muestrales asociados a un experimento aleatorio.

a) Espacio muestral finito: Se da cuando Ω está formado por un número finito de elementos. Ejemplos, lanzamiento de un dado o de una moneda.

b) Espacio muestral infinito numerable: A priori un experimento de este tipo puede dar lugar a un conjunto infinito de eventualidades. Ejemplo, Lanzar una moneda hasta obtener cara por primera vez:C, FC, FFC, FFFC, . . . , FFFFF… FC, …El espacio muestral Ω deberá contener como elementos todas aquellas sucesiones finitas de la forma FF…FC.

c) Especio muestral continuo: Cuando los elementos del experimento aleatorio pueden ser cualquier valor dentro de un intervalo o región. Ejemplo, el desplazamiento de una partícula en un plano y supongamos que estamos interesados en la posición que ocupa dicha partícula en el plano, en este caso Ω es todo el plano y por tanto continuo.

7.4. Sucesos o EventosSea A una colección no vacía de subconjuntos del espacio muestral Ω, en principio, cualquier elemento de A, es decir, cualquier subconjunto de Ω contendrá una cierta incertidumbre: llamaremos a dicho conjunto suceso, siendo la medida de la incertidumbre, su probabilidad. Así, suceso es un conjunto A de A. Diremos que se ha presentado un suceso A al realizar el experimento, si el resultado de dicho experimento es algún punto (es decir, un suceso elemental de Ω contenido en A).Obviamente, los sucesos son conjuntos, por lo tanto, al hablar de uniones, intersecciones, diferencia, complementario, etc. de sucesos no es más que hablar de uniones, intersecciones, diferencias, complementarios, etc. de conjuntos. El suceso correspondiente al conjunto vacío es denominado suceso imposible y representado por y definido como el conjunto de Ω que no contiene ningún suceso elemental.

139

Page 140: analisis exploratorio de datos y probabilidad e inferencia estadistica

Desde el punto de vista matemático A no es más que una colección especificada de subconjunto de Ω. En algunos casos (cuando Ω sea finito o numerable será A=P(Ω) y contendrá 2n elementos, pero otras deberá ser A ≠ P(Ω)).

En cálculo de probabilidades la exigencia habitual que haremos a la clase A es que sea lgá ebra .

7.4.1. Estructuras con subconjunto

Definición 1. (Estructuras de Semiálgebra)

Dado el espacio total , una clase ( )S P tiene estructura de semiálgebra si y sólo si:)) ,

a Sb A B S es A B S

) ,c A S existe una sucesión finita 1 2, , ..., nA A A S con i jA A i j tal que

1

nc

ii

A A

Ejemplo. (Intervalos finitos o infinitos de )

Sea , , ( , ], ( , ], ( , ) / , , ,S a b c d a b c d verificar que S tiene estructura de

semiálgebra ( , ) .

1) S por definición2) Para todo par de intervalos de la clase, su intersección está en la clase ya que cualquier intervalo intersecado con será el mismo intervalo, y cualquier intervalo intersecado con , será , que por definición ha sido incluido en S.

Por otro lado,

( , ] ( , ] ( , ] , ,( , ] ( , ] , ,( , ] ( , ] ( , ] , ,

a b c b a S si b a c óa b c S si a b c óa b c b c S si b c a

Además,

( , ] ( , ] ( , ] , ,( , ] ( , ] , ,

a d d a S si d a óa d S si a d

Y por último,

140

Page 141: analisis exploratorio de datos y probabilidad e inferencia estadistica

( , ] ( , ) , ,( , ] ( , ) ( , ] , ,( , ] ( , ) ( , ] , ,

b c d S si b c d ób c d d c S si b d c ób c d b c S si d b c

3) Dado un intervalo, el complementario se puede poner como unión finita de elementos de la clase:Dado , c y dado , c , así pues, sólo debemos estudiar el resto de los intervalos:

, ( , ] ( , ) . , , ( , ] ( , ] ( , ),c ca a a S b c b c b c perteneciendo ambos intervalos a S. Por último, , ( , ] ( , ] .cd d d S

Ejemplo.

Sea (0,1] verificar que la clase de intervalos (a, b] con 0 1a b forman una semiálgebra.

Definición 2. (Estructura de Álgebra)

Dado el espacio total , una clase ( )Q P tiene estructura de álgebra si y sólo si:)) ,

a Qb A B Q es A B Q

) ,c A Q existe una sucesión finita 1 2, , ..., nA A A Q con i jA A i j tal que

1

nc

ii

A A

) ,d A B Q se tiene A B Q

Nota: Toda álgebra es semiálgebra y además es cerrada bajo complemento ( cA Q A Q ).

Definición 3. (Estructura de -Álgebra)

Dado el espacio total , una clase A ( )P tiene estructura de -álgebra si y sólo si:)a A)b A A cA A

c) Para toda sucesión n nA

A se tiene 1

nn

A

ANota: El conjunto vacío se encuentra en la clase y es cerrado bajo intersecciones

numerables 1 1

cc

n nn n

A A

.

Ejemplo:

141

Page 142: analisis exploratorio de datos y probabilidad e inferencia estadistica

Sea y la clase ( , ] : , C a b a b entonces la -álgebra engendrada por C es muy importante en Cálculo de Probabilidades y se denomina -álgebra de Borel. Se representa por

( )B .

La -álgebra de Borel no sólo está engendrada por C , sino que está engendrada por cualquiera de las siguientes clases de intervalos:

1 2 3 4( , ) ; ( , ) ; ( , ) ; ( , ] ; C a b C b C a C b

5 6 7[ , ) ; [ , ) ; [ , ] ; C a b C a b C a b

EjercicioSea el conjunto de casos posibles que resulta de la tirada de un dado. Decir cuáles de las siguientes clases de conjuntos son álgebras.

1

2

3

4

) ,

) , 1,3,5 , 2,4,6 , , , ,

) ,

) , 1 , 1, 5 , 2,4,6 ,

a

b I P

c P conjunto de las partes de

d

MMMM

7.5. Axiomas de ProbabilidadDefinición (Espacio Probabilizable)

Al par ( , )A , donde ( )A P es una -álgebra de conjuntos de se le denomina espacio medible o espacio probabilizable. A los elementos de A se les denomina conjuntos medibles.

7.5.1. Probabilidad (Axiomática).

El tercero de los elementos a considerar en relación con un experimento aleatorio es, la probabilidad de los sucesos de la -álgebra de subconjuntos del espacio muestral .

Axiomas de Kolmogorov.Sea ( , )A un espacio probabilizable. Definimos una función de conjunto P, de A en que cumple los siguientes axiomas:Axioma 1. A A es P(A)0 .Axioma 2. ( ) 1 P .

Axioma 3. sucesión n nA

A tal que11

( )

i j n nnn

A A i j es P A P A

Consecuencias de los Axiomas de Kolmogorov.

142

Page 143: analisis exploratorio de datos y probabilidad e inferencia estadistica

1. ( ) 0 P . En efecto, sea la sucesión , , ...A con A A ; evidentemente

1

...nn

A A A

con lo que por el axioma 3

1 21

0n n nn nn

P A P A P A P A P A P

2 Se cumple la aditividad finita. Sea la sucesión 1 2, ,..., , , ,...nA A A Donde iA A , 1,2,..., , , .i ji n y A A i j con i j n En efecto. Directamente del axioma 3 y 1.

1. Para todo A A ; es cP A =1 – P(A). En efecto, escribir el espacio total como la unión de A y su complemento, luego aplicar la función de probabilidad y el axioma 2.

2. Si A, B A y AB, entonces P(A) ≤ P(B). En efecto, B = A (B-A); P(B)= P(A) + P(B-A), entonces P(B) ≥ P(A), ya que P(B-A) ≥0.

3. Para todo A A , P(A) ≤ 1. Observe que A , entonces P(A) ≤ P( )=1.

4. Para todo A, B A , P(AB) = P(A) + P(B) - P(AB).

Verificación:

A = (AB ) (AB*) B* = B complemento.

B= (AB ) (A*B)

Ahora, P(A)= P(AB ) + P (AB*) y P(B) = P(AB ) + P (A*B) por otra parte, A B = (AB ) (AB*) (A*B)

P(A B) = P(AB ) + P (AB*) + P(A*B)

= P(AB ) + P(A) - P(AB ) + P(B) - P(AB )

= P(A) + P(B) - P(AB )

5. Como generalización de la propiedad anterior, podemos expresar la probabilidad de la unión de n elementos no disjuntos de la -álgebra A de la forma

1 2 1 2 3

1 2 1 2 21 2 1 2 3

1

1 , 1 , , 11 1

( ) ( ) ( ) ... ( 1)

n nn n nn

i i i i i i i ii i i i i ii i

i i i i i

P A P A P A A P A A A P A

La demostración se hace por inducción.

Definición 7. (Espacio probabilístico)

143

Page 144: analisis exploratorio de datos y probabilidad e inferencia estadistica

Al trío ( , A , P) donde es el espacio muestral, A -álgebra de sucesos sobre y P una medida de probabilidad sobre A recibe el nombre de espacio probabilístico, o espacio de probabilidades. A los elemento de A se les llama sucesos.

7.6. Resultado Igualmente Probables o Modelo Uniforme de ProbabilidadEn muchas ocasiones, como en el estudio de algunos jugos de azar, de ciertos procedimientos de muestreo, etc., se trabaja con espacios muestrales finitos, en los cuales los sucesos elementales son equiprobables. El modelo matemático asociado suele recibir el nombre de modelo uniforme y se expresa como sigue:

Sea ( , A , P) un espacio probabilístico tal que el conjunto de sucesos elementales asociado, 1 2, , . . . , na a a es finito. En esta situación el espacio muestral se podrá poner como

1 2 . . . na a a y por ser los sucesos elementales incompatibles dos a dos, será:

1 2( ) ( ) . . . ( ) 1nP a P a P a

Además, 1( ) , 1, . . . ,iP a i nn

con lo que todo AA unión de k sucesos elementales será:

1 2( ) ( ) ( ) . . . ( )kkP A P a P a P an

Hemos obtenido así la clásica regla de Laplace: “Cociente entre casos favorables y casos posibles” considerados éstos como equiprobables.

En este caso, necesitamos determinar qué número de situaciones son consideradas como favorables y qué número de situaciones son posibles al realizar nuestro experimento aleatorio. Para ello, es de mucha utilidad el análisis combinatorio y al de su base probabilística asociada.

Ejercicio. Se elige un número al azar del 1 al 6,000, todos igualmente probables. Hallar la probabilidad de que sea múltiplo de 2 ó de 3 ó de 4 ó de 5.

7.7. Probabilidad condicional.

El problema que vamos a tratar en este apartado va a ser el de formalizar la idea intuitiva de que la “información” aportada por el hecho de que haya ocurrido un suceso B, ha de ser recogida cambiando el espacio de partida.Consideremos el siguiente experimento aleatorio: Un encuestador elige al azar una persona en una población de N individuos. Si suponemos que todas las elecciones son equiprobables, la situación aleatoria es fácilmente descrita por el espacio probabilístico ( , A , P), en donde es el conjunto constituido por la propia población en cuestión, A =P( ) : conjunto potencia, y P está definida por las masas 1/N situadas en cada punto de . Entre los sucesos de Aconsideremos el suceso A = “Se elige una persona rubia” y el suceso B=”se elige una persona de

144

Page 145: analisis exploratorio de datos y probabilidad e inferencia estadistica

altura superior a 1.7m”. Estos sucesos son parte de , ya que después de realizar el experimento tienen respuesta las preguntas: ¿es rubia la persona encuestada? ¿es de altura superior a 1.7m? Supongamos que estamos en la situación que una persona rubia (sin saber cuál) es elegida, o dicho de otra manera ha ocurrido el suceso A. A priori, B ha podido tener lugar o no; para que hubiese ocurrido, habría sido necesario y suficiente que se hubiera elegido una persona del subconjunto AB de , y para que no hubiese ocurrido, habría sido necesario y suficiente el que se hubiese elegido una persona del subconjunto AB* de . Supongamos, que ha ocurrido A y se ha revisado “el que B tenga lugar”; A ya es un suceso seguro y B no se realizará a menos que se realizase AB. La probabilidad de realización de B, sabiendo que ha ocurrido A, es el caso de sucesos favorables AB con respecto al número de casos posibles que realizan A; es

decir, A B

A

NN

, de donde dividiendo por N las dos cantidades será:

( )( )

A B

A

NP A BN

N P AN

En resumen, sabiendo que A se ha realizado, una nueva evaluación de las probabilidades de los sucesos, conducen a una nueva ley de probabilidades sobre ( ,P( )), denotada por AP , dando al suceso A una probabilidad igual a uno, y dando una probabilidad nula a los sucesos disjuntos con A, viniendo definida por:

( )( )A

P A BP BP A

Definición. (Probabilidad condicional)

Sea ( , A , P) un espacio probabilístico y sea A A un suceso tal que P(A) > 0. Llamaremos probabilidad condicionada del suceso B respecto al A, y lo escribiremos P(B/A) a

( )/ , ( )( )

P A BP B A P AP A

> 0

Proposición.Sea ( , A , P) un espacio probabilístico y sea A A con P(A) > 0. Entonces, ( , A , P(·/A)) es un espacio de probabilidad, donde P(B/A) es la definida anteriormente.Demostración.

1. ( )/ 0( )

P A BP B AP A

; B A

2. ( ) ( )/ 1( ) ( )

P A P AP AP A P A

3. Por último, si n nA

A es una sucesión de disjuntos de A entonces

1 1

1

/( ) ( )

n nn n

nn

P A A P A AP A A

P A P A

145

Page 146: analisis exploratorio de datos y probabilidad e inferencia estadistica

= 1

1 1

/( ) ( )

nnn

nn n

P A A P A AP A A

P A P A

La parte relevante de A es A A ya que P(B/A) = 0 si BA*. De hecho, si P(A) > 0, AA = AA es una -Álgebra y P(·/A) es una probabilidad sobre AA .

Proposición.El trío (A, AA , PA) es un espacio probabilístico si P(A) > 0.Demostración.

AA es la clase de todos los sucesos que se pueden expresar como intersección de un elemento de A y A, es decir, AA = A A=BA ; B A . Pues bien, AA tiene estructura de -álgebra con espacio total el propio A, ya que:

a) A AA por ser A = A A, con A A .b) Si C AA y por C’, representemos el complementario de C en AA y por C* el

complementario en A , entonces C’ AA , ya que C’ = C* A y C* A , por ser A -álgebra y C A .

c) Para toda sucesión n nC

AA es

1

nn

C AA ya que será

1 1 1

n n n n nn n n

C B A y C B A B A

AA

Por ser 1

nn

B

A .

Por otro lado, AP es una probabilidad sobre (A, AA ) ya que AP es la restricción de P(·/A) al espacio (A, AA ).

Teorema. (Teorema del Producto o Regla de multiplicación)

Si A y B son dos sucesos del espacio probabilístico ( , A , P) con P(A) > 0 y P(B) > 0, a partir de la proposición 5 se tiene que:

( ) ( ) / ( ) ( ) / P A B P A P B A y P A B P B P A B .

Demostración (Inmediata)

El teorema anterior se puede generalizar: Sea 1 2, ,..., nA A A A con n-1

j=1

P jA > 0 entonces,

146

Page 147: analisis exploratorio de datos y probabilidad e inferencia estadistica

n

n-11 2 1 3 1 2j=1

j=1

P ( ). ( / ). ( / )...P nj

j

AA P A P A A P A A AA

fácilmente se demuestra por inducción.

Teorema. (Teorema de la probabilidad total)

Sea ( , A , P) un espacio probabilístico y sea n nA

A un sistema completo de sucesos, es decir, una sucesión de disjuntos,

1

i j nn

A A i j tal que A

Sea B A un suceso para el que se conocen las probabilidades condicionadas P(B/A i), y supongamos, por último, que se conocen también las probabilidades P(A i), con P(Ai)>0, para todo i=1,2, . . . En estas condiciones,

1

( ) ( / ) ( )

i ii

P B P B A P A

Demostración.

11 1

( ) ( ) ( / ) ( )

i i i iii i

P B P B P B A P B A P B A P A

Teorema. (Teorema de Bayes o de la Probabilidad inversa)Sea ( , A , P) un espacio probabilístico y sea n n

A

A un sistema completo de sucesos tal que P(Ai)>0, i . Sea B A un suceso con P(B)>0, para el que se conocen las probabilidades P(B/ Ai). Entonces,

1

( ) ( / )( / ) ,( ) /

i i

i

i ii

P A P B AP A B iP A P B A

Demostración: Inmediata. Aplicación del teorema de la Probabilidad total.A las probabilidades P(Ai)>0 se les suele llamar probabilidades a priori. A las P(Ai/B) probabilidades a posteriori, y a las P(B/Ai) verosimilitudes.

7.8. Independencia de sucesos.Sea ( , A , P) un espacio probabilístico y sean A, B A con P(B)>0. El teorema del producto nos dice que

147

Page 148: analisis exploratorio de datos y probabilidad e inferencia estadistica

( ) ( ) / P A B P B P A B .Existen muchos experimentos aleatorios en los que la información suministrada por el suceso B no afecta para nada la probabilidad del suceso A, es decir, P(A/B)=P(A). Pues bien, esa es precisamente la noción de independencia.

Definición. (Independencia)Sea ( , A , P) un espacio probabilístico y sea A,B A , los suceso A y B son independientes si y sólo si:

( ) ( ) ( ) P A B P A P BFrecuentemente se confunde sucesos incompatibles con sucesos independientes, observemos que los sucesos incompatibles son los más dependientes que existen, puesto que la ocurrencia de uno de ellos proporciona la máxima información; el otro suceso no va a ocurrir.

Proposición.Si A y B son dos sucesos independientes entonces,P(A/B) =P(A) si P(B)>0; y P(B/A)= P(B) si P(A) > 0.

Proposición.Si A y B son dos sucesos independientes, entonces, también lo son A y B*, A* y B, A* y B*.Demostración:P(A*B) = P(B - [ AB]) = P(B) – P(AB) , ya que (AB ) B, con lo que:

P(A*B) = P(B)(1-P(A)) = P(B)P(A*). Análogamente, se verifica la independencia de A y B*.

Por último,P(A*B*) = P[(AB)*] = 1 – P(AB) = 1- [P(A) + P(B) – P(AB)]= 1 -P(A) -P(B) + P(A)P(B) = P(A*) – P(B)(1-P(A)) =P(A*)P(B*) .

A continuación se presenta una serie de ejercicios de probabilidad, se han ordenado de acuerdo a su dificultad al momento de resolver. Los ejercicios con un * tienen un grado mayor de dificultad y los ejercicios con ** se recomienda dejarlos hasta el final ya que se requieren mucha concentración para su comprensión y resolución. Esta clasificación se hace con base al nivel de dificultad que encontró el profesor al momento de resolverlos.

7.9. Ejercicios de cálculo de probabilidad

Hoja de ejercicios 2.Ejercicio 1: Altube y Vitoria son dos estaciones metereológicas. Representaremos por A y V el que llueva respectivamente en Altube y Vitoria durante cualquier periodo de 24 horas en el mes de Junio; se tiene que P(A) = P(V) = 0, 40 y que P(A V) = 0, 28. Determínense las dos probabilidades condicionales P(A/V) y P(V/A), así como la probabilidad total P(A V). ¿Son independientes A y V? Solución. Para obtener las probabilidades condicionadas aplicamos la expresión:

148

Page 149: analisis exploratorio de datos y probabilidad e inferencia estadistica

Para obtener la probabilidad total consideramos P(A V) = P(A) + P(V) – P(A V)= 0, 40 + 0, 40 - 0, 28 = 0, 52

Se dice que dos sucesos son independientes si su probabilidad compuesta es igual al producto de sus probabilidades incondicionales respectivas. La definición formal de independencia de dos sucesos es: P(B/A) = P(B) ; P(A/B) = P(A)

También, podemos ver que en el caso de sucesos independientes la probabilidad compuesta toma la forma: P(A B) = P(A)•P(B).En nuestro caso resulta fácil comprobar que los dos sucesos no son independientes ya que se tiene: P(A/V) P(A) ; P(V/A) P(V) P(A V) P(A)•P(V)

Ejercicio 2. Un mecanismo eléctrico que contiene cuatro interruptores sólo funciona cuando todos ellos están cerrados. En sentido probabilístico, los interruptores son independientes en lo que se refiere al cierre o a la apertura, y, para cada uno de ellos, la probabilidad de que no funcione es 0,1. Calcúlese la probabilidad de que no funcione el mecanismo en conjunto, despreciando todas las causas que pueden hacer que el mecanismo no funcione, excepto los propios interruptores. Solución Representando por F el hecho de que el mecanismo no funcione y por F* el suceso complementario. Llamando S1 al suceso de que el interruptor 1 esté cerrado y S1* al suceso complementario (que esté abierto), se sabe que P(S1*)=0.1, luego P(S1) =0.9. Y análogamente para los otros interruptores. El mecanismo solo funciona cuando los interruptores están cerrados, y esto corresponde al suceso compuesto S1 S2 S3 S4, luego P(F*)=P(S1 S2 S3 S4).

Aplicando ahora el teorema sobre la ley de la probabilidad compuesta para sucesos independientes, tenemos: P(S1 S2 S3 S4) = P(S1)P(S2)P(S3)P(S4)= (0.9)(0.9)(0.9)(0.9)= 0.6561 y a partir de ahí:

P(F*)= 1 – 0.6561 = 0.3439.

Ejercicio 3. En un almacén se tiene que despachar 60 pedidos, y se sabe que 5 de ellos son de una cierta mercancía A. Si se cumplimentan los 60 pedidos al azar, ¿cuál es la probabilidad de que el primero y el cuarto pedido sean de la mercancía A y de que simultáneamente no lo sean el segundo y el tercero?. ¿Cuál es la probabilidad de que en los cuatro primeros pedidos a cumplimentar haya al menos dos pedidos de la mercancía A?Solución.

149

Page 150: analisis exploratorio de datos y probabilidad e inferencia estadistica

Vamos a representar por A el suceso consistente en que un pedido determinado que se esté despachando sea de la mercancía A, y por A* el suceso complementario consistente en que no sea de la mercancía A.

Como la probabilidad de que un pedido determinado se refiera a una clase de mercancía determinada (sea A o A*) está influida por el número de pedidos de la misma clase que se hayan despachado antes, este problema ilustra la ley general de la probabilidad compuesta, expresada en la Ley general de la probabilidad compuesta:

n

n-11 2 1 3 1 2j=1

j=1

P ( ). ( / ). ( / )...P nj

j

AA P A P A A P A A AA

Una buena forma de considerar el problema es imaginar un mazo de 60 cartas, todas iguales, excepto que 5 de ellas están señaladas con A y 55 señaladas con A*. La acción de cumplimentar los pedidos se puede asociar a la de sacar cartas de un mazo bien barajado, de forma que todas las cartas que se pueden sacar en una prueba determinada tienen las mismas probabilidades de ser elegidas.

El suceso de que los pedidos primero y cuarto sean de la mercancía A y el segundo y tercero no, corresponde a sacar la sucesión de cartas A ,A*, A*, A. Como hay 5 cartas señaladas con A, la probabilidad de que la primera carta sea una A es 5/60. En la segunda prueba hay 59 cartas en la baraja, y 55 de ellas están señaladas con A*. Luego la probabilidad condicionada de que la segunda carta sea una A* es 55/59. En la tercera prueba quedan 58 cartas, y 54 de ellas están señaladas con A*. Luego, la probabilidad condicionada de que la tercera carta sea una A* es 54/58. Finalmente, en la cuarta prueba quedan 57 cartas, de las cuales 4 están señaladas con A, luego la probabilidad de que la cuarta carta sea una A es 4/57. Por tanto, multiplicando estas probabilidades de acuerdo con el teorema que expresa la ley general de la probabilidad compuesta, obtenemos:

P(A, A*, A*, A) = (5/60) (55/59)(54/58)(4/57) = 0.0051. Si llamamos E al suceso de que al menos dos pedidos de los cuatro primeros a cumplimentar sean de la mercancía A, su probabilidad es igual a 1-P(E*), siendo E* el suceso de que los primeros cuatro pedidos contengan menos de dos pedidos de la mercancía A, es decir, cero o uno. Pero la probabilidad de que ninguno de los pedidos sea de la mercancía A está dada por:

P(0)= P(A*, A*, A*, A*)= (55/60)(54/59)(53/58)(52/57) = 0.6994.

Como el suceso de que uno de los pedidos sea de la mercancía A puede ocurrir de cuatro formas mutuamente excluyentes, su probabilidad total es:P(1) = P(A, A*, A*, A*)+ P(A*, A, A*, A*)+ P(A*, A*, A, A*)+ P(A*, A*, A*, A)

= (5/60)(55/59)(54/58)(53/57) + (55/60)(5/59)(54/58)(53/57)+ (55/60)(54/59)(5/58)(53/57)+ (55/60)(54/59)(53/58)(5/57) = 0.269

Por todo ello tendremos: P(E*)= P(0)+P(1) = 0.6994+0.269= 0.9684 y la probabilidad buscada es:

150

Page 151: analisis exploratorio de datos y probabilidad e inferencia estadistica

P(E)= 1- P(E*)= 1 - 0.9684= 0.0316.

Ejercicio 4. Sea un dado tal que la probabilidad de las distintas caras es proporcional al número de puntos inscritos en ellas. Hallar la probabilidad de obtener con este dado un número par.

Ejercicio 5. Se elige un número al azar del 1 al 6,000, todos igualmente probables. Hallar la probabilidad de que sea múltiplo de 2 ó de 3 ó de 4 ó de 5.

Ejercicio 6. En un juego de dados, hemos apostado por el “2”. Se tira el dado, y antes de ver el resultado, nos dicen que ha salido par. Hallar la probabilidad de ganar.

Ejercicio 7. En una reunión hay 25 personas. Calcular la probabilidad de que celebren su cumpleaños el mismo día del año al menos dos personas.

Ejercicio 8. Un dado sólo tiene tres caras posibles: 1, 2 y 3, igualmente probables. Realizamos el siguiente juego: tiramos el dado, si sale 3 ganamos, si sale 1 ó 2 continuamos tirando hasta repetir el resultado de la primera tirada, en cuyo caso ganamos, o hasta obtener un tres y entonces perdemos. Se pide la probabilidad de ganar.

Ejercicio 9. Un parque natural está dividido en dos partes A y B por un río. Hay 10 ciervos en la parte A y otros 10 en la parte B. Un biólogo realiza investigaciones sobre la conducta de un cierto ciervo X que está en A. Por un descuido de los vigilantes 9 ciervos de A pasan a B. Éstos lo advierten y devuelven 9 ciervos (escogidos al azar) al territorio A. Informado el biólogo de tal contingencia, desea proseguir sus investigaciones sobre X. ¿En cuál de las dos partes A y B es preferible que empiece a buscar su ciervo?

Ejercicio 10. Se hacen 6 tiradas con una moneda. Hallar la probabilidad de obtener una racha ininterrumpida de por lo menos tres caras.

Ejercicio 11. En una reunión, n personas (n > 2) lanzan una moneda al aire. Si hay una que difiere de todas las demás, su propietario paga una ronda. ¿Cuál es la probabilidad de que esto ocurra?

Ejercicio 12. Un examen consta de 5 temas numerados. Para elegir un tema al azar, se propone lanzar un dado. Si sale de 1 a 5, el número del tema es el resultado del dado; si sale 6 se vuelve a tirar hasta que sale de 1 a 5. Demostrar que la probabilidad de elección de cada tema es 1/5.

Ejercicio 13. Una urna contiene 5 bolas blancas y 3 bolas negras. Tres jugadores A, B y C extraen una bola, sin devolución, en este mismo orden. Gana el primer jugador que saca bola blanca. Calcular la probabilidad de que gane C.

Ejercicio 14. Una urna se ha llenado tirando una moneda al aire dos veces y poniendo una bola blanca por cada cara y una bola negra por cada cruz. Se extrae una bola que es blanca. Hallar la probabilidad de que la otra bola también lo sea.

Ejercicio 15. En una universidad en la que sólo hay estudiantes de Arquitectura, Ciencias y Letras, termina la carrera el 5% de Arquitectura, el 10% de Ciencias y el 20% de Letras. Se sabe

151

Page 152: analisis exploratorio de datos y probabilidad e inferencia estadistica

que el 20% estudian Arquitectura, el 30% Ciencias y el 50% Letras. Eligiendo un estudiante al azar, se pide:d) Probabilidad de que sea de Arquitectura y haya terminado la carrera.e) Nos dice que ha terminado la carrera. Probabilidad de que sea de Arquitectura.

Ejercicio 16. Un jugador tira un dado, sale 6 y gana. Hallar la probabilidad de que haya hecho trampa. (Sugerencia: Resolverlo bajo el supuesto de que el 50% de los jugadores son tramposos)

Ejercicio 17. Se lanzan tres monedas simétricas. Calcular la probabilidad de que salgan las tres tiradas iguales.

Ejercicio 18. Se lanza un dado n veces. Calcular la probabilidad de obtener al menos un seis.

Ejercicio 19. Se tiene un cuadrado inscrito en un circulo de radio r. Se eligen tres puntos al azar e independientes dentro del circulo. Hallar la probabilidad de que los tres puntos caigan dentro del cuadrado.

*Ejercicio 20. Al contestar una pregunta con sus n posibles respuestas, una persona o bien conoce la respuesta correcta (lo cual ocurre con probabilidad p) o bien lo adivina con probabilidad 1/n. Calcular la probabilidad de que conociese la respuesta, supuesto que ha contestado correctamente.

*Ejercicio 21. Con una moneda se juega a cara o cruz. Se para de lanzar cuando por primera vez la diferencia entre el número de caras y el número de cruces es en valor absoluto igual a 3. Calcular la probabilidad de que paremos de lanzar la moneda en la sexta tirada o antes. Idem en la n-ésima tirada o antes.

*Ejercicio 22. Entre 5 ciudades situada en los vértices de un pentágono A-B-C-D-E-A, un transportista que parte de A realiza viajes de modo que en cada ciudad tiene probabilidad 1/3 de ir a la izquierda y 2/3 de ir a la derecha. Calcular la probabilidad de que el primer regreso a A sea por la ciudad contraria hacia la que partió habiendo pasado una sola vez por D. Idem pero regresando por BA, y pasando además por D una sola vez.

**Ejercicio 23. Un profesor tiene una caja de cerillas en cada una de sus dos bolsillos, ambas con el mismo número N de cerillas, y va sacando al azar cerillas de cada bolsillo, una a una. Calcular la probabilidad de que en el bolsillo izquierdo quede exactamente k cerillas cuando en el derecho saca la última.

**Ejercicio 24. En 4 ciudades situadas en los vértices de un cuadrado, un transportista realiza viajes de manera que en cada ciudad tiene una probabilidad p de ir a la derecha y q=1-p de ir hacia la izquierda. Hallar la probabilidad de que el primer regreso a la ciudad de partida, A, se produzca por la ciudad contraria hacia la que partió.

7.9.1. Problemas variados de probabilidad

Hoja de ejercicios 3 (Problemas de refuerzo).

152

Page 153: analisis exploratorio de datos y probabilidad e inferencia estadistica

1. Una experiencia puede dar k resultados posibles mutuamente excluyentes, R1, R2, …,Rk cuyas probabilidades respectivas son p1, p2, … , pk, siendo su probabilidad total igual a la unidad, es decir, p1 + p2 + … + pk = l. Si se ejecutan N pruebas independientes de la experiencia, ¿cuál es la probabilidad de obtener exactamente n1 resultados del primer tipo, n2 del segundo,…, y nk del k-ésimo, siendo n1 + n2 + … + nk = N?

RESPUESTA 1.

Como las pruebas son independientes, la probabilidad de obtener un resultado determinado cualquiera Ri en una prueba dada no está influida en absoluto por los resultados de otras pruebas. Por tanto, la probabilidad Ps de una sucesión determinada cualquiera de resultados es igual al producto de sus probabilidades incondicionales separadas y, por tanto,

El número S de sucesiones distintas que dan el número deseado de resultados de cada clase es igual a Pm(N; n1, n2, … , nk) y la probabilidad total P(n1, n2,… , nk) viene dada por el producto S.Ps ; por consiguiente :

2. El informe de un ingeniero sobre las causas de avería en los calentadores de agua domésticos reveló que el 90% de las averías se debían a uno de estos tres factores : escapes en las soldaduras, escapes en las juntas, o corrosión en puntos aislados, siendo las probabilidades respectivas de 0.4 ; 0.3 y 0.2. Despreciando la posibilidad remota de que se produzcan averías simultáneas, y suponiendo pruebas independientes, ¿cuál es la probabilidad de que una muestra aleatoria de cinco averías contenga dos casos de escapes en las soldaduras, dos de escapes en las juntas, uno de corrosión en un punto aislado y ninguno debido a otras causas?

RESPUESTA 2.

Aceptando la hipótesis de que las averías simultáneas son despreciables, podemos considerar los diferentes tipos de averías como sucesos mutuamente excluyentes, e incluyendo la categoría de "averías diversas", obtenemos un sistema exhaustivo. Por tanto, podemos aplicar directamente la ley polinomial de la probabilidad, y la solución está dada por:

3. La probabilidad de que un vendedor a domicilio consiga una venta en un solo intento es 1/6.

a) ¿Cuál es la probabilidad de que consiga al menos una venta en los cinco intentos siguientes?b) ¿Cuál es la probabilidad de que consiga, en esos cinco intentos, cuatro o más ventas?

RESPUESTA 3.

Aunque puede no ser estrictamente cierto, vamos a suponer que un intento no afecta a otro.

153

1 21 2 1 2

1 2

!( , , ... , ) ...! ! ... !

kn n nk k

k

NP n n n p p pn n n

Page 154: analisis exploratorio de datos y probabilidad e inferencia estadistica

a) La probabilidad P(E) del suceso de que el vendedor consiga al menos una venta en los cinco intentos es igual a 1 ( )P E , siendo el suceso complementario de que no consiga ninguna venta. En este caso:

0 55!( ) (1/ 6) (5 / 6)0!5!

P E =0.402

Ahora, P(E)= 1-0.402= 0.598

b) El suceso E' de conseguir cuatro o más ventas se puede producir de dos maneras mutuamente excluyentes: consiguiendo exactamente cuatro ventas o consiguiendo exactamente cinco ventas. Luego:

4 1 5 05! 5!( ´) (1/ 6) (5 / 6) (1/ 6) (5 / 6) 0.0032 0.0001 0.00334!1! 5!0!

P E

4. Tres urnas, U1 , U2 , U3 , contienen bolas blancas, negras y rojas en proporciones diferentes. U1

contiene una bola blanca, dos negras y tres rojas; U2 contiene dos bolas blancas, una negra y una roja, y U3 contiene cuatro bolas blancas, cinco negras y tres rojas. Sacamos dos bolas de una urna, sin saber de qué urna son. Si resulta que una bola es blanca y la otra es roja, calcúlense las probabilidades respectivas de que la urna de la cual se han sacado las bolas sea la U1 , la U2 ó la U3.

RESPUESTA 4.

Podemos suponer razonablemente que las tres urnas tienen la misma probabilidad de haber sido elegidas, por lo que tenemos P(Ui) = 1/3 (i = 1, 2, 3). Las probabilidades condicionadas del suceso A (sacar una bola blanca y otra roja, a la vez) las calculamos como sigue: En la urna U 1

tenemos una bola blanca y tres rojas frente a 6 bolas en total. Esto supone que tenemos tres casos favorables dados por la bola blanca con cada una de las rojas y 15 casos posibles que resultan del número de combinaciones de 6 elementos tomados de dos en dos, C(6, 2) = 6!/2!(6-2)! = 15. Por todo ello, la probabilidad P(A/U1) vale 3/15 = 1/5. De forma análoga obtenemos también P(A/U2) = 1/3 y P(A/U3) = 2/11.

Sustituyendo estos valores en la fórmula de Bayes, obtenemos las probabilidades respectivas

1(1/ 3)(1/ 5) 33( / )

(1/ 3)(1/ 5) (1/ 3)(1/ 3) (1/ 3)(2 /11) 118P U A

2(1/ 3)(1/ 3) 55( / )

(1/ 3)(1/ 5) (1/ 3)(1/ 3) (1/ 3)(2 /11) 118P U A

154

Page 155: analisis exploratorio de datos y probabilidad e inferencia estadistica

3(1/ 3)(2 /11) 30( / )

(1/ 3)(1/ 5) (1/ 3)(1/ 3) (1/ 3)(2 /11) 118P U A

Resulta evidente que la suma de los tres casos es la unidad.

5. Se lanza una moneda y, si sale cara, se mete una bola negra en una urna; si sale cruz, se mete en la urna una bola blanca. Se hace esta operación cuatro veces. A continuación otra persona saca dos bolas simultáneamente de la urna, que resultan ser negras. ¿Cuál es la probabilidad de que en la urna hubiera dos bolas blancas y dos negras?

RESPUESTA 5.

Debido al método utilizado para llenar la urna, existen cinco posibilidades para la distribución final del color de las cuatro bolas, y se puede calcular la probabilidad de que se produzca cada una de las distribuciones de colores. Son las siguientes:

Grupos de 4 bolas blancas (B1) = 4!/4!0! = 1 Grupos de 3 blancas y una negra (B2) = 4!/3!1! = 4 Grupos de 2 blancas y 2 negras (B3) = 4!/2!2! = 6 Grupos de 1 blanca y 3 negras (B4) = 4!/1!3! = 4 Grupos de 4 bolas negras (B5) = 4!/0!4! = 1

En total tenemos 2n = 24 = 16 grupos, por lo que las probabilidades respectivas son: P(B1) = 1/16 ; P(B2) = 4/16 ; P(B3) = 6/16 ; P(B4) = 4/16 ; P(B5) = 1/16.

En el caso que estamos considerando, el suceso A (sacar dos bolas negras) no puede ocurrir con los antecedentes B1, y B2, por lo que las probabilidades condicionadas P(A/B1) y P(A/B2) tienen que ser nulas. Las otras tres probabilidades condicionadas se calculan como sigue: para la primera tenemos 1 caso favorable y 6 casos posibles que resultan del número de combinaciones de 4 elementos tomados de 2 en 2. Así pues: P(A/B3) = 1/C(4, 2) = 1/6Para la segunda y tercera, por una deducción análoga tenemos P(A/B4) = C(3, 2)/C(4, 2) = 1/2 ; P(A/B5) = C(4, 2)/C(4, 2) = 1

Por lo tanto, la probabilidad buscada viene dada por la fórmula de Bayes

155

Page 156: analisis exploratorio de datos y probabilidad e inferencia estadistica

6. Un avión cubre diariamente el servicio entre dos ciudades. Suponemos que la probabilidad de accidente en día sin niebla es 0.002 y en día con niebla 0.01. Cierto día de un mes que hubo 18 días sin niebla y 12 con niebla se produjo un accidente. Calcular la probabilidad de que el accidente haya ocurrido: a) en día sin niebla; b) en día con niebla.

RESPUESTA 6.

Sea A1 el suceso "día sin niebla"; A2 el suceso "día con niebla" y B el suceso "ocurrir accidente". Se tiene:

y aplicando la fórmula de Bayes:

7. Un avión con tres bombas trata de destruir una línea férrea. La probabilidad de destruir la línea con cualquiera de las bombas es 1/3. ¿Cual es la probabilidad de que la línea quede destruida si el avión emplea las tres bombas?

RESPUESTA 7.

.) Denotemos por Ai al suceso de que la bomba i destruya la línea férrea; se tiene: P(A i) = p = 1/3, con i = 1, 2, 3.Si A es el suceso de que la línea quede destruida podemos escribir:

De ese modo, la probabilidad de que la línea quede destruida es de 19/27...) El problema se puede resolver también como sigue: Sea B i el suceso de que la bomba i no destruya la línea, y B el suceso de que la línea no se destruya. Se tiene:

Como los sucesos B 1, B 2 y B 3 son independientes, resulta: P(B) = P(B 1 ).P(B 2 ).P(B 3 ) = (2/3) (2/3) (2/3)= 8/27 y la probabilidad de que la línea quede destruida vendrá dada por :

156

Page 157: analisis exploratorio de datos y probabilidad e inferencia estadistica

P(A) = 1 – P(B) = 1 – (8/27) = 19/27 y evidentemente, este resultado coincide con el anterior.

8. Se hace un disparo con cada uno de tres cañones (A, B y C), siendo la probabilidad de hacer blanco 0.1, 0.2 y 0.3, respectivamente. Calcúlese la probabilidad de cada uno de los números posibles de blancos. Calcular la probabilidad de obtener al menos un blanco.

RESPUESTA 8.

Los números posibles de blancos son: a) 3 si se hace blanco con cada uno de los cañones.b) 2 si se falla en un disparo.c) 1 si se fallan dos disparosd) 0 si se fallan los tres disparos.

En el caso (a), la probabilidad de acertar en todos los disparos vendrá dada como el producto de las probabilidades independientes de acertar cada disparo, es decir:

( )P A B C = P(A).P(B).P(C) = (0.1)*(0.2)*(0.3) = 0.006

En el caso b) tenemos: 1ª) Probabilidad de acertar A y B fallando C: P(A) .P(B) .P(C) = P(A) .P(B)[ 1 – P(C)] = 0.1 x 0.2 x 0.7 = 0.014

2ª) Probabilidad de acertar A y C fallando B : P(A).P(B').P(C) = F(A)[1 - P(B)]P(C) = 0.1 x 0.8 x 0.3 = 0.024

3ª) Probabilidad de acertar B y C fallando A : P(A').P(B).P(C) = [1 - P(A)P(B).P(C) = 0.9 x 0.2 x 0.3 = 0.054

Así, la probabilidad total de fallar un disparo es:0.014 + 0.024 + 0.054 = 0.092

En el caso (c) tenemos varias posibilidades:

1ª) Probabilidad de acertar A y fallar B y C: P(A).P(B').P(C') = P(A)[1 - P(B)][1 - P(C)] = 0.1 x 0.8 x 0.7 = 0.056

2ª) Probabilidad de acertar B y fallar A y C: P(A').P(B).P(C') = [1 - P(A)]P(B)[1 – P(C)] = 0.9 x 0.2 x 0.7 = 0.126

3ª) Probabilidad de acertar C y fallar A y B: P(A') .P(B') .P(C) = [1 - P(A)] [1 - P(B)] P(C) = 0.3 x 0.9 x 0.8 = 0.126

157

Page 158: analisis exploratorio de datos y probabilidad e inferencia estadistica

Así pues, la probabilidad total de fallar dos disparos será: 0.056 + 0.126 + 0.216 = 0.392

Caso d)Puesto que cada disparo es independiente de los otros dos, la probabilidad de fallar en todos vendrá dada por el producto de las probabilidades respectivas de fallo, es decir

( ´ ´ ´)P A B C = P(A').P(B').P(C') = [1 - P(A)][1 - P(B)][1 – P(C)] = 0.9x0.8x0.7 = 0.504

9. Distribuimos al azar r bolas en n celdas. Hallar la probabilidad de que una celda especificada a priori tenga exactamente k bolas.

10. De una urna que contiene b bolas blancas y n bolas negras se extrae k bolas al azar (sin remplazamiento). Calcular la probabilidad de que exactamente x de ellas sean blancas.

11. De los 30 temas de un examen, un alumno sabe 18. Le proponen dos tipos de examen: Los miembros del tribunal eligen 3 temas y debe contestar dos; o bien el tribunal elige 5 temas y debe contestar 3 de ellos. ¿Cuál es el examen más favorable para el alumno?

12. Una persona ha comprado 40 billetes de una lotería de 100 números. Si la lotería consta de tres premios. ¿Cuál es la probabilidad de que gane sólo un premio? ¿Al menos uno? ¿Ninguno?

13. Una caja contiene 90 piezas buenas y 10 defectuosas. Sacamos 10 piezas aleatoriamente. Calcular la probabilidad de que entre esas 10 piezas no haya ninguna defectuosa. Idem que haya k defectuosas.

14. Un grupo de diez concejales son elegidos al azar de un total de 50 municipios para formar una comisión. Suponiendo que cada municipio tiene dos concejales, ¿Cuál es la probabilidad de que los dos concejales de cierto municipio estén en dicha comisión? ¿Y de que ninguno esté?

*15. En una urna se introducen n bolas, cada una de las cuales pueden ser blanca o negra con probabilidades iguales. A continuación se extraen k bolas con remplazamiento. ¿Cuál es la probabilidad de que la urna contenga sólo bolas blancas si las k extraídas han resultado ser blancas?

*16. Una secretaria ha escrito n cartas con sus correspondientes n sobres. Se introduce al azar las cartas en los sobres, ¿Cuál es la probabilidad de que al menos una carta vaya a parar a su correspondiente sobre? Hallar el valor de esta probabilidad cuando n tiende a infinito.

** 17. La probabilidad de que un árbol de una cierta variedad de mangos tenga n flores es (1 )np p (n=0, 1, 2, 3, 4, . . .) . Cada flor tiene una probabilidad de 2/3 de ser fecundada y dar fruto, independientemente del resto de las flores del árbol. Cada fruto tiene probabilidad ¼ de ser picado por los pájaros antes de la cosecha. Se desea: a) obtener la probabilidad de que una flor produzca fruto cosechable; b) Calcular la probabilidad de que un árbol que tiene r frutos haya tenido n flores.

158

Page 159: analisis exploratorio de datos y probabilidad e inferencia estadistica

7.9.2. Hoja 4. Ejercicios de probabilidad (Repaso, Capítulo 6 y 7)

1. ¿De cuántas maneras pueden sentarse 10 personas en un banco si hay 4 sitios disponibles?2. Hay que colocar a 5 hombres y 4 mujeres en una fila de modo que las mujeres ocupen los

lugares pares. ¿De cuántas maneras puede hacerse?3. ¿Cuántos números de 4 dígitos se pueden formar con las cifras 0,1,. . . ,9. a) permitiendo

repeticiones; b) sin repeticiones.4. ¿Cuál es el mínimo número de alumnos que debe tener una clase para garantizar una

probabilidad 0.5 de que el día de cumpleaños de algún alumno coincida con el día de cumpleaños del rector de la universidad? Se asume que los años son de 365 días.

5. Un banco ha comprobado que la probabilidad de que un cliente con fondos extienda un cheque con fecha equivocada es de 0.001. En cambio, todo cliente sin fondos pone una fecha errónea en sus cheques. El 90% de los clientes del banco tienen fondos. Se recibe hoy en caja un cheque con fecha equivocada. ¿Qué probabilidad hay de que sea de un cliente sin fondos?

6. *En una bolsa hay cinco bolas, blancas o negras. Se extrae una bola y es blanca. Hállese la probabilidad de que en la bolsa haya dos blancas y tres negras si para formar la urna se tiraron cinco monedas y se metieron tantas blancas como caras resultaron y tantas negras como cruces.

7. *Una urna contiene cinco dados con sus caras de color blanco o rojo. El dado número i (i = 1; 2; 3; 4; 5) tiene i de sus caras blancas y el resto rojas. Se selecciona al azar un dado de la urna, se lanza y sale cara roja. ¿Cuál es la probabilidad de que el dado seleccionado sea el i?

8. Dos personas lanzan una moneda n veces cada una. ¿Cuál es la probabilidad de que obtengan el mismo número de caras?

9. Se tiene un examen con 10 preguntas con respuesta dicotómicas (V/F). El examen se aprueba cuando se aciertan 6 ó más preguntas. Calcular la probabilidad de aprobar el examen dado que no se sabe ninguna pregunta.

10. Una moneda tiene probabilidad p de caer cara. Hallar la probabilidad de que al tirar esta moneda 11 veces se obtenga la sexta cara en la undécima tirada.

11. N bolas se reparten al azar en n celdas (N>n). ¿Cuál es la probabilidad de que todas las celdas queden ocupadas?

12. *Un examen de oposición consta de 14 temas. Se debe escoger un tema de entre dos tomados al azar. Calcular la probabilidad de que a un alumno que ha preparado 5 temas le toque al menos uno que sabe. ¿Cuál es el número mínimo de temas que debe preparar para que tenga una probabilidad superior a 1/2 de superar el examen?

13. Obtener la probabilidad p de que al lanzar n veces dos dados se obtenga al menos un 6 doble. ¿Cuántas partidas habrá que jugar para que tengamos p = 1/2 de obtener un 6 doble?

14. N parejas se reúnen y se emparejan al azar para bailar. Calcular la probabilidad de que ninguna baile con su pareja.

159

Page 160: analisis exploratorio de datos y probabilidad e inferencia estadistica

15. *Cuatro ciudades (1,2,3 y 4) están interconectadas, un transportista realiza viajes de manera que: a) La probabilidad de ir de la ciudad 1 a la i (i=1, 2, 3, 4) es . (1, ),d i y d(1,i)=|i-1| y la suma de estas probabilidades es 1. b) La probabilidad de ir de la ciudad 2 a la j (j=1, 2, 3,4) es . (2, ),d j y d(2,j)=|j-2| y la suma de estas probabilidades es 1. c) La probabilidad de ir de la ciudad 3 a la k (k=1, 2, 3, 4) es . (3, ),d k y d(3,k)=|k-3| y la suma de estas probabilidades es 1. Si el transportista sale de la ciudad 1, ¿Cuál es la probabilidad de llegar por primera vez a la ciudad 4 sin haber regresado a la ciudad de partida?

16. El profesor Pérez olvida poner su despertador 3 de cada 10 días. Además, ha comprobado que uno de cada 10 días en los que pone el despertador acaba no levandandose a tiempo de dar su primera clase, mientras que 2 de cada 10 días en los que olvida poner el despertador, llega a tiempo a dar su primera clase.a) ¿Cuál es la probabilidad de que el profesor Pérez llegue a tiempo a dar su primera

clase?b) Si un día no ha llegado a tiempo, ¿qué probabilidad hay de que olvidase poner el

despertador la noche anterior?

17. Un banco local revisa su política de tarjetas de crédito, con el objetivo de cancelar algunas de ellas. En el pasado, el 5% de los clientes con tarjeta ha pasado a ser moroso, esto es ha dejado de pagar sin que el banco pudiera recuperar la deuda. Además, el banco ha comprobado que la probabilidad de que un cliente normal se atrase en un pago es de 0.2. Naturalmente, la probabilidad de que un cliente moroso se atrase en un pago es 1.

a) Elegido un clienta al azar, ¿qué probabilidad hay de que el cliente se atrase en un pago mensual?

b) Si un cliente se atrasa en un pago mensual, calcular la probabilidad de que el cliente acabe convirtiéndose en moroso.

c) Al banco le gustaría cancelar la línea de crédito de un cliente si la probabilidad de que éste acabe convirtiéndose en moroso es mayor de 0.25. De acuerdo con los resultados anteriores, ¿debe cancelar una línea si un cliente se atrasa en un pago? ¿Por qué?

18. *En un pueblo de n + 1 habitantes, una persona le rumorea algo a una segunda persona, quien lo repite a una tercera, etc. En cada paso se elige aleatoriamente al receptor del rumor de entre n personas. Encontrar la probabilidad de que el rumor pase r veces sin: a) Regresar al que lo originó y b) Repetírsele a una persona.

Capítulo 8. Variables aleatorias y distribuciones de probabilidad8.1. Nociones básicasPara introducir el concepto de variable aleatoria, veamos primero algunos ejemplos, al arrojar dos dados, sabemos que la suma X de los puntos que caen hacia arriba debe ser un número entero entre 2 y 12, pero no podemos predecir que valor de X aparecerá en el siguiente ensayo, por lo que decimos que X depende del azar, por lo tanto es una variable aleatoria que toma valores entre

160

Page 161: analisis exploratorio de datos y probabilidad e inferencia estadistica

2 y 12. El tiempo de vida de un foco que se extrae aleatoriamente de un lote de focos depende también del azar, este constituye otro ejemplo de una variable aleatoria que varía entre el tiempo 0 y un valor indeterminado, ya que no sabemos exactamente cuánto tiempo va durar. El número de varones de una familia con 5 hijos también es una variable aleatoria que varía de 0 a 5, ya que en una familia de cinco hijos puede que no haya ningún varón, uno, dos, tres, cuatro o cinco varones.

Si las observaciones no se dan en términos numéricos, podemos asignarles números y reducir las observaciones cualitativas al caso cuantitativo; así tenemos que la función que asigna valores numéricos a cada uno de los elementos del espacio muestra con una probabilidad definida, se denomina "variable aleatoria".

Por ejemplo, si se lanza una moneda 3 veces, el número de águilas X es una variable aleatoria que toma los valores 0, 1, 2, ó 3; es decir puede que ninguna vez, una sola, dos o tres veces salga águila como resultado; la probabilidad de que (dos águilas) es 3/8 ya que el espacio muestra S=aaa, aas, asa, ass, sas, ssa, saa, sss. Y de estos ocho resultados hay tres en los cuales hay dos águilas. Con esto podemos ver que el espacio muestral es el dominio de la función y el conjunto de valores que la variable puede tomar es el rango o recorrido de la función, que es un subconjunto de los reales .

Fig.3.1. Variable aleatoria

Si el conjunto de valores de X es un conjunto finito o infinito numerable, es decir, si se pueden enlistar o enumerar, se dice que la variable aleatoria es discreta, y si el conjunto de valores de X es no numerable, la variable aleatoria se llama variable aleatoria continua. Son ejemplos de variables aleatorias continuas: la estatura, el peso, la edad, el volumen, el pH, etc. Algunos ejemplos de variables discretas aleatorias son: el número de alumnos que asisten diariamente durante un semestre, el número de accidentes automovilísticos en una ciudad por día, el número de piezas defectuosas por lote, el número de alumnos aprobados por grupo en un examen, etc.

Una variable aleatoria X es una función cuyo dominio es el espacio muestral S y cuyo rango es un subconjunto de los números reales que tiene asociada a su conjunto de valores una función de probabilidad.

Matemáticamente, decimos: Dado un espacio de probabilidad ( , ,Pr), una variable aleatoria es cualquier función, X,

161

Page 162: analisis exploratorio de datos y probabilidad e inferencia estadistica

:

( )X

w X w

que asocia a cada suceso elemental un número real, verificando que Pr ( ) Pr[ ] Pr / ( )X B X B w X w B B

El conjunto S es el espacio muestral y es la colección de todos los subconjuntos de .

Identificación de una variable aleatoria discreta X: es preciso conocer el conjunto de los posibles resultados de X: x1, x2, …,xk, …, donde los xi no necesariamente son todos enteros, pero si se pueden contar o numerar.

El conjunto de las probabilidades siguientes:

p1 = P(X = x1)p2 = P(X = x2)...Pk = P(X = xk)...

Propiedades importantes de la función de probabilidad:a) pi ≥0 para todo ib) ∑pi = 1 para todo i

La representación gráfica de la función de probabilidad de una variable aleatoria discreta es análoga al diagrama de barras de frecuencias relativas de una variable estadística discreta.La función de distribución de una variable aleatoria discreta X es:

( ) ( ) Pr( )i

X ix t

F t P X t x

para todo t

La representación gráfica de la función de distribución de una variable aleatoria discreta es análoga al gráfico de frecuencias relativas acumuladas de una variable estadística discreta.La media de una variable aleatoria discreta X es: µ = E(X) = ∑xi pi , para todo i.

La varianza de una variable aleatoria discreta X es:σ2= Var(X) = ∑(xi-µ)2pi, para todo i

La desviación típica de una variable aleatoria discreta X es:σ = (Var(X))1/2

Ejemplo 8.1. Supongamos que la Secretaría del Medio Ambiente inspecciona una vez al mes la cantidad de un contaminante que descarga una compañía de productos químicos. Si la cantidad del contaminante excede el nivel máximo permitido, se multa a la compañía y se le obliga a corregir el problema. Consideremos las siguientes dos variables aleatorias asociadas a este problema:Primero digamos que X es el número de meses antes de que la compañía excede los límites permitidos del contaminante. Esta variable toma valores 1, 2, 3, … pero no conocemos donde termina, ya que quizás nunca exceda estos límites permitidos, por lo tanto, el conjunto de valores

162

Page 163: analisis exploratorio de datos y probabilidad e inferencia estadistica

de X es el conjunto de los números enteros positivos. Como podemos enlistar o numerar el conjunto (es un conjunto numerable) de valores de la variable X, decimos que la variable aleatoria X es una variable aleatoria discreta.

Ejemplo 8.2. Supongamos que nos interesamos por el número de varones X en el experimento de observar al azar dos niños recién nacidos (Sea H = hombre y M = mujer). Entonces, el espacio muestra, los valores de la variable aleatoria X que cuenta el número de varones y su función de probabilidad se dan en la siguiente tabla:

S Valores de X: xi

MM 0

MH , HM 1

HH 2

Ejemplo 8.3. Sea X la variable aleatoria que indica la suma de los puntos en las caras superiores al lanzar dos dados, Determine el espacio muestral, el conjunto de valores de X y las probabilidades respectivas.Solución: El espacio muestral S es el conjunto de los 36 pares ordenados que se indican a continuación:

Este conjunto se puede visualizar como el conjunto de puntos del plano cartesiano que se muestra a continuación

Fig. 3.2 Diagrama del Espacio Muestral del lanzamiento de dos dados

163

Page 164: analisis exploratorio de datos y probabilidad e inferencia estadistica

La variable aleatoria es la suma de los elementos de cada par, por lo tanto, toma los valores del 2

al 12, y las probabilidades para cada uno de los valores de la variable se indican en la siguiente tabla:

S Valores de X : xi

(1,1) 2

(1,2) (2,1) 3

(1,3) (3,1) (2,2) 4

(1,4) (4,1) (2,3) (3,2) 5

(1,5) (5,1) (2,4) (4,2) (3,3) 6

(1,6) (6,1) (2,5) (5,2) (3,4) (4,3) 7

(2,6) (6,2) (3,5) (5,3) (4,4) 8

(3,6) (6,3) (4,5) (5,4) 9

(4,6) (6,4) (5,5) 10

(5,6) (6,5) 11

(6,6) 12

Total:

La gráfica de líneas para este ejemplo es:

164

Page 165: analisis exploratorio de datos y probabilidad e inferencia estadistica

Fig. 3.3. Gráfico de probabilidad

8.2. Distribución de probabilidad binomialLa distribución binomial es típica de las variables que proceden de un experimento que cumple las siguientes condiciones:

1) El experimento está compuesto de n pruebas iguales, siendo n un número natural fijo.

2) Cada prueba resulta en un suceso que cumple las propiedades de la variable binómica o de Bernouilli, es decir, sólo existen dos posibles resultados, mutuamente excluyentes, que se denominan generalmente como éxito y fracaso.

3) La probabilidad del éxito (o del fracaso) es constante en todas las pruebas. P(éxito) = p ; P(fracaso) = 1 - p = q

4) Las pruebas son estadísticamente independientes.

En estas condiciones, la variable aleatoria X que cuenta el número de éxitos en las n pruebas se llama variable binomial. Evidentemente, el espacio muestral está compuesto por los números enteros del 0 al n. Se suele decir que una variable binómica cuenta objetos de un tipo determinado en un muestreo de n elementos con reemplazamiento.

La función de probabilidad de la variable binomial se representa como b(x,n,p) siendo n el número de pruebas y p la probabilidad del éxito, n y p son los parámetros de la distribución.

La función de probabilidad de una variable Binomial es:

165

Page 166: analisis exploratorio de datos y probabilidad e inferencia estadistica

La media y la varianza de la variable binomial se calculan como:

Media = μ = n p (verificarla)

Varianza = σ2 = n p q (verificarla)

Gráficamente el aspecto de la distribución depende de n y de p. Por ejemplo, si p=0.5 y n

cualquiera es simétrica; si p n es 0.5, la binomial no es siméttrica. El siguiente gráfico lo ilustra

para n=4.

ASPECTO DE LA BINOMIAL PARA n=4 Y p=0.5 Y p=0.25.

Fig. 3.4. Gráficos de probabilidad binomial.

Ejemplo 8.4. Se sabe que el 5% de los libros que se prestan en una biblioteca escolar se devuelven con retraso. Se realiza el experimento que consiste en observar si la devolución de 5 libros se hacen con retraso o no.a) Determinar la función de probabilidad y hacer su representación gráfica.b) Calcular la función de distribución y hacer su representación gráfica.c) Hallar la media y la varianza.

Solución:X= Variable aleatoria = Número de devoluciones con retrazo.X=0,1,2,3,4,5.a) El Modelo o función de probabilidad es

55( , 5, 0.05) 0.04 (1 0.05) , 0,1,2,3,4,5x xb x n p x

x

166

Page 167: analisis exploratorio de datos y probabilidad e inferencia estadistica

b)

0, 00.7738, 0 10.9774, 1 2

( ) 0.9988, 2 31 , 3 41 , 4 51 , 5

X

ttt

F t ttt

t

Gráfico de la función de distribución

Fig. 3.5. Gráfico de la Función de distribución

c) 2

[ ] 5(0.05) 0.25

[ ] 5(0.05)(0.95) 0.2375

E X np

V X npq

8.3. Distribución de Poisson

Una variable de tipo Poisson cuenta éxitos (es decir, objetos de un tipo determinado) que ocurren en una región del espacio o del tiempo.En este tipo de experimentos los éxitos buscados son expresados por unidad de área, tiempo, pieza, etc, etc. Ejemplos:- Número de defectos de una tela por m2

- Número de aviones que aterrizan en un aeropuerto por día, hora, minuto, etc, etc.- Número de bacterias por cm2 de cultivo- Número de llamadas telefónicas a un conmutador por hora, minuto, etc, etc.- Número de llegadas de embarcaciones a un puerto por día, mes, etc, etc.

167

Page 168: analisis exploratorio de datos y probabilidad e inferencia estadistica

El experimento que la genera debe cumplir las siguientes condiciones:

1. El número de éxitos que ocurren en cada región del tiempo o del espacio es independiente de lo que ocurra en cualquier otro tiempo o espacio disjunto del anterior.

2. La probabilidad de un éxito en un tiempo o espacio pequeño es proporcional al tamaño de este y no depende de lo que ocurra fuera de él.

3. La probabilidad de encontrar uno o más ‘éxitos en una región del tiempo o del espacio tiende a cero a medida que se reducen las dimensiones de la región en estudio.

Como consecuencia de estas condiciones, las variables Poisson típicas son variables en las que se cuentan sucesos raros. La función de probabilidad de una variable Poisson es:

El parámetro de la distribución es λ que es igual a la media y a la varianza de la variable.

µ=E[X]= λ (verificarlo)

σ2=V[X]= λ (verificarlo)

La distribución de Poisson se puede considerar como el límite al que tiende la distribución binomial cuando n tiende a y p tiende a 0, siendo np constante (y menor que 7); en esta situación sería difícil calcular probabilidades en una variable binomial y, por tanto, se utiliza una aproximación a través de una variable Poisson con media np .

La varianza de la variable aproximada es ligeramente superior a la de la variable binomial

Las variables Poisson cumplen la propiedad de que la suma de variables Poisson independientes es otra Poisson con media igual a la suma las medias.

El aspecto de la distribución depende muchísimo de la magnitud de la media. Como ejemplo, mostramos tres casos con λ = 0,5 (arriba a la izquierda), λ = 1,5 (arriba a la derecha) y λ = 5 (abajo) Obsérvese que la asimetría de la distribución disminuye al crecer λ y que, en paralelo, la gráfica empieza a tener un aspecto acampanado.

168

Page 169: analisis exploratorio de datos y probabilidad e inferencia estadistica

Fig. 3.6. Gráficos de probabilidad de Poisson.

Ejemplos:

Ejemplo 8.5. Si un banco recibe en promedio 6 cheques sin fondo por día, ¿cuáles son las probabilidades de que reciba, a) cuatro cheques sin fondo en un día dado, b) 10 cheques sin fondos en cualquiera de dos días consecutivos?

Solución:a) x = variable que nos define el número de cheques sin fondo que llegan al banco en un día cualquiera = 0, 1, 2, 3, ....., etc, etc. = 6 cheques sin fondo por día

13392024

00248012964

718266464

.).)((

!).()(

),x(p

b)x= variable que nos define el número de cheques sin fondo que llegan al banco en dos días consecutivos = 0, 1, 2, 3, ......, etc., etc. = 6 x 2 = 12 cheques sin fondo en promedio que llegan al banco en dos días consecutivos

169

Page 170: analisis exploratorio de datos y probabilidad e inferencia estadistica

Nota: siempre debe de estar en función de x siempre o dicho de otra forma, debe “hablar” de lo mismo que x.

10495303628800

0000061510101917364610

71821212101210

.).)(.(!

).()(),x(p

Ejemplo 8.6. En la inspección de hojalata producida por un proceso electrolítico continuo, se identifican 0.2 imperfecciones en promedio por minuto. Determine las probabilidades de identificar a) una imperfección en 3 minutos, b) al menos dos imperfecciones en 5 minutos, c) cuando más una imperfección en 15 minutos.

Solución:a) x = variable que nos define el número de imperfecciones en la hojalata por cada 3 minutos = 0, 1, 2, 3, ...., etc., etc. = 0.2 x 3 =0.6 imperfecciones en promedio por cada 3 minutos en la hojalata

32930701548845060

1718260601

601

.).)(.(!

).().().,x(p.

b) x = variable que nos define el número de imperfecciones en la hojalata por cada 5 minutos = 0, 1, 2, 3, ...., etc., etc. = 0.2 x 5 =1 imperfección en promedio por cada 5 minutos en la hojalata

!).)((

!).()(

),,x(p)....etc,,,x(p171821

071821

111011432110

=1-(0.367918+0.367918) = 0.26416 c) x = variable que nos define el número de imperfecciones en la hojalata por cada 15 minutos = 0, 1, 2, 3, ....., etc., etc. = 0.2 x 15 = 3 imperfecciones en promedio por cada 15 minutos en la hojalata

!).()(

!).()(

),x(p),x(p),,x(p171823

0718233130310

3130

= 0.0498026 + 0.149408 = 0.1992106

170

Page 171: analisis exploratorio de datos y probabilidad e inferencia estadistica

8.4. Distribución geométrica

Esta distribución es un caso especial de la Binomial, ya que se desea que ocurra un éxito por primera y única vez en el último ensayo que se realiza del experimento, para obtener la fórmula de esta distribución, haremos uso de un ejemplo.

Ejemplo 8.7. Se lanza al aire una moneda cargada 8 veces, de tal manera que la probabilidad de que aparezca águila es de 2/3, mientras que la probabilidad de que aparezca sello es de 1/3, Determine la probabilidad de que en el último lanzamiento aparezca una águila.

Solución: Si nosotros trazamos un diagrama de árbol que nos represente los 8 lanzamientos de la moneda, observaremos que la única rama de ese árbol que nos interesa es aquella en donde aparecen 7 sellos seguidos y por último una águila; como se muestra a continuación:

S S S S S S S A

Sí denotamos;

x = el número de repeticiones del experimento necesarias para que ocurra un éxito por primera y única vez = 8 lanzamientos

p = probabilidad de que aparezca una águila = p( éxito) = 2/3

q = probabilidad de que aparezca un sello = p(fracaso) = 1/3

Entonces la probabilidad buscada sería;

P(aparezca una águila en el último lanzamiento)=p(S)*p(S)*p(S)*p(S)*p(S)*p(S)*p(S)*p(A) =

=q*q*q*q*q*q*q*p = qx-1p

Luego, la fórmula a utilizar cuando se desee calcular probabilidades con esta distribución sería;

1( ) xp x q p

Donde:

p(x) = probabilidad de que ocurra un éxito en el ensayo x por primera y única vez

p = probabilidad de éxito

1q p = probabilidad de fracaso

171

Page 172: analisis exploratorio de datos y probabilidad e inferencia estadistica

Resolviendo el problema de ejemplo;

x = 8 lanzamientos necesarios para que aparezca por primera vez una águila

p = 2/3 probabilidad de que aparezca una águila

q = 1/3 probabilidad de que aparezca un sello

p(x=8) = (1/3)8–1(2/3)= 0.0003048

Ejemplo 8.8. Sí la probabilidad de que un cierto dispositivo de medición muestre una desviación excesiva es de 0.05, ¿cuál es la probabilidad de que; a) el sexto de estos dispositivos de medición sometidos a prueba sea el primero en mostrar una desviación excesiva?, b) el séptimo de estos dispositivos de medición sometidos a prueba, sea el primero que no muestre una desviación excesiva?.

Solución:

a) x = 6 que el sexto dispositivo de medición probado sea el primero que muestre una variación excesiva

p = 0.05 =probabilidad de que un dispositivo de medición muestre una variación excesiva

q = 0.95 =probabilidad de que un dispositivo de medición no muestre una variación excesiva

p(x = 6) = (0.95)6–1(0.05)= 0.03869

b) x = 7 que el séptimo dispositivo de medición probado, sea el primero que no muestre una desviación excesiva

p = 0.95 = probabilidad de que un dispositivo de medición no muestre una variación excesiva

q = 0.05 = probabilidad de que un dispositivo de medición muestre una variación excesiva p(x = 7) = (0.05)7–1(0.95)= 0.0000000148

8.5. Distribución hipergeométrica

Una variable tiene distribución hipergeométrica si procede de un experimento que cumple las siguientes condiciones:

172

Page 173: analisis exploratorio de datos y probabilidad e inferencia estadistica

1) Se toma una muestra de tamaño n, sin reemplazamiento, de un conjunto finito de N objetos.

2) K de los N objetos se pueden clasificar como éxitos y N - K como fracasos.X cuenta el número de éxitos obtenidos en la muestra. Los valores de X en el espacio muestral es el conjunto de los números enteros de 0 a n, ó de 0 a K si K < n.En este caso, la probabilidad del éxito en pruebas sucesivas no es constante pues depende del resultado de las pruebas anteriores. Por tanto, las pruebas no son independientes entre sí.La función de probabilidad de la variable hipergeométrica es:

Los parámetros de la distribución son n, N y K.

Notacion: !

! !n r

n nCr r n r

.

Los valores de la media y la varianza se calculan según las ecuaciones:

(verificarlas)

Si n es pequeño, con relación a N (n << N), la probabilidad de un éxito varia muy poco de una prueba a otra, así pues, la variable, en este caso, es esencialmente binomial; en esta situación, N suele ser muy grande y los números combinatorios se vuelven prácticamente inmanejables, así pues, la probabilidades se calculan más cómodamente aproximando por las ecuaciones de una binomial con p = K / N.La media de la variable aproximada (μ = n p = n (K / N)) es la misma que la de la variable antes de la aproximación; sin embargo, la varianza de la variable binomial es ligeramente superior a la de la hipergeométrica.

el factor por el que difieren ser siempre menor que 1 y tan próximo a 1 como cierto sea que n <<

N.

173

Page 174: analisis exploratorio de datos y probabilidad e inferencia estadistica

El aspecto de la distribución es bastante similar al de la binomial. Como ejemplo, mostramos los casos análogos a los de la binomial presentados anteriores.

Fig.3.7. Gráficos de probabilidad hipergeométrica

Ejemplo 8.9. Para evitar que lo descubran en la aduana, un viajero ha colocado 6 tabletas de narcótico en una botella que contiene 9 píldoras de vitamina que son similares en apariencia. Si el oficial de la aduana selecciona 3 tabletas aleatoriamente para analizarlas, a) ¿Cuál es la probabilidad de que el viajero sea arrestado por posesión de narcóticos?, b) ¿Cuál es la probabilidad de que no sea arrestado por posesión de narcóticos?.

Solución:a) N = 9+6 =15 total de tabletasa = 6 tabletas de narcóticon = 3 tabletas seleccionadasx = 0, 1, 2, o 3 tabletas de narcótico = variable que nos indica el número de tabletas de narcótico que se puede encontrar al seleccionar las 3 tabletas p(viajero sea arrestado por posesión de narcóticos) = p(de que entre las 3 tabletas seleccionadas haya 1 o más tabletas de narcótico)

315

0936

315

1926

315

29163321C

C*CC

C*CC

C*C)n;tabletasó,x(p

815380

455371

45520135216

455120

455915

455366 .))(())(())((

otra forma de resolver;p(el viajero sea arrestado por posesión de narcóticos) = 1 – p(de que entre las tabletas seleccionadas no haya una sola de narcótico)

315

39061301C

C*C)n;x(p

81538501846150

4558411 ..))((

174

Page 175: analisis exploratorio de datos y probabilidad e inferencia estadistica

b) p(no sea arrestado por posesión de narcóticos)

315

390630C

C*C)n;x(p

1846150

455841 .))((

Ejemplo 8.10. De un lote de 10 proyectiles, 4 se seleccionan al azar y se disparan. Si el lote contiene 3 proyectiles defectuosos que no explotarán, ¿cuál es la probabilidad de que , a) los 4 exploten?, b) al menos 2 no exploten?

Solución:

a) N = 10 proyectiles en totala = 7 proyectiles que explotann = 4 proyectiles seleccionadosx = 0, 1, 2, 3 o 4 proyectiles que explotan = variable que nos define el número de proyectiles que explotan entre la muestra que se dispara

166670

21035

21013544

410

0347 .))((C

C*C)n;x(p

b) N = 10 proyectiles en total a = 3 proyectiles que no explotan n = 4 proyectiles seleccionados x = 0, 1, 2 o 3 proyectiles que no explotan p(al menos 2 no exploten) = p( 2 o más proyectiles no exploten) = p(x = 2 o 3; n=4) =

3333330

21070

210763

21071213

410

17332723 .))(())((C

C*CC*C

8.6. Densidad uniforme

La función de densidad de probabilidad de una variable aleatoria con distribución uniforme continua se denota por ( , )X U a b y su función de densidad es:

175

Page 176: analisis exploratorio de datos y probabilidad e inferencia estadistica

Su gráfico es:

Tiene las siguientes propiedades:

1. ( ) 02. ( ) 1

f x xToda el área entre f x y el eje x es

La probabilidad de un intervalo [a,x] con ( , ]x a b , se puede calcular sin usar la integral:

1

b a

a x b

es el área del rectángulo de base x-a y altura 1

b a entre el área de todo el rectángulo de base b-a

y altura 1

b a. Este hecho se puede usar para calcular la función de distribución.

La función de distribución de probabilidad es:

176

Page 177: analisis exploratorio de datos y probabilidad e inferencia estadistica

La gráfica de la función de distribución es:

El valor esperado de la ( , )X U a b es:

1 1[ ] ( )b b

a aE X xf x dx x dx xdx

b a b a

Pero b

axdx es el área comprendida entre la función ( )g x x en el intervalo de [a,b]

a b

177

f(x)

B

A

Page 178: analisis exploratorio de datos y probabilidad e inferencia estadistica

el cual es un trapecio, cuya área es ( )2 2

A B a bH b a ; por tanto

[ ]2

a bE X

2( )[ ]12

b aV X

Ejemplo 8.11. Un meteorólogo hace una medición del tiempo al azar, suponiendo que está distribuida uniformemente en el intervalo [1, 4]. A) Calcule la probabilidad de que la medición este entre 5/2 y 3. b) Si se realizan 6 mediciones independientes, hallar la probabilidad de que exactamente 3 de ellas estén entre 2 y 3.

8.7. Densidad normal o de Gauss

La distribución normal fue definida por De Moivre en 1733 y es la distribución de mayor importancia en el campo de la estadística.Una variable es normal cuando se ajusta a la ley de los grandes números, es decir, cuando sus valores son el resultado de medir reiteradamente una magnitud sobre la que influyen infinitas causas de efecto infinitesimal.Las variables normales tienen una función de densidad con forma de campana a la que se llama campana de Gauss.Su función de densidad es la siguiente:

Cuando una variable aleatoria X es de densidad normal con media [ ]E X y varianza 2 [ ]V X la denotamos por 2( , )X N

Los parámetros de la distribución son la media y la varianza, μ y σ2, respectivamente. Como consecuencia, en una variable normal, media y varianza no deben estar correlacionadas en ningún caso (como desgraciadamente ocurre en la inmensa mayoría de las variables aleatorias reales que se asemejan a la normal.La curva normal cumple las siguientes propiedades:

1) El máximo de la curva coincide con la media.2) Es perfectamente simétrica respecto a la media (g1 = 0).3) La curva tiene dos puntos de inflexión situados a una desviación típica de la media. Es

convexa entre ambos puntos de inflexión y cóncava en ambas colas.

178

Page 179: analisis exploratorio de datos y probabilidad e inferencia estadistica

4) Sus colas son asintóticas al eje X.

Para calcular probabilidades en intervalos de valores de la variable, habría que integrar la función de densidad entre los extremos del intervalo. por desgracia (o por suerte), la función de densidad normal no tiene primitiva, es decir, no se puede integrar. Por ello la única solución es referirse a tablas de la función de distribución de la variable (calculadas por integración numérica) Estas tablas tendrían que ser de triple entrada (μ, σ, valor) y el asunto tendría una complejidad enorme.

Afortunadamente, cualquier que sea la variable normal, X, se puede establecer una correspondencia de sus valores con los de otra variable con distribución normal, media 0 y varianza 1, a la que se llama variable normal tipificada o Z. La equivalencia entre ambas variables se obtiene mediante la ecuación:

y

1 2 1 2

1 21 2

( ) ( ) ,P x X x P z Z z dondex xz y z

179

Page 180: analisis exploratorio de datos y probabilidad e inferencia estadistica

La gráfica de la densidad de Z es la que se muestra en el siguiente gráfico para 2 1

La función de distribución de la variable normal tipificada Z está tabulada y, simplemente, consultando en las tablas se pueden calcular probabilidades en cualquier intervalo que nos interese.

De forma análoga a lo que pasaba con las variables Poisson, la suma de variables normales independientes es otra normal.

Los histogramas que deben esperarse para una variable normal son:

Histograma de una normal idealizada Histograma de una muestra de una variable

normal

Ejemplos:

Ejemplo 8.12. Si X es una variable aleator ia de una dis tr ibución N(µ, σ) , hal lar : P(µ−3σ ≤ X ≤ µ+3σ)Solución:

180

Page 181: analisis exploratorio de datos y probabilidad e inferencia estadistica

( 3 3 ) ( 3 3) 0.9974P X P Z

Ejemplo 3.13. En una dist r ibución normal de media 4 y desviac ión t ípica 2,

calcular e l valor de a para que P(4−a ≤ x ≤ 4+a) = 0.5934.

Solución:

1 2 1 2

1 21 2 1 2

( ) ( ) 0.5934,

4 4

P x X x P z Z z dondex xz y z y x a y x a

Por tanto:

1 2

1 2

4 4 4 42 2

2 2

a az y z

a az y z

Como Z 2 =0.83, por tanto 1.66a .

8.8. Aproximación de la binomial por medio de la normal

Si una variable aleator ia es ( , , )X b x n p con n grande, entonces, esta se puede

aproximar por una 2( , (1 ))X N np np p

Las probabilidades puntuales se calculan ocupando la corrección de continuidad:( ) ( 0.5 0.5)b NP X x P x X x

8.9. Ejercicios.

1. En una c iudad se es t ima que la tempera tura máxima en el mes de junio sigue una dist r ibución normal , con media 23° y desviac ión t ípica 5° . Calcular e l número de días del mes en los que se espera alcanzar máximas ent re 21° y 27°.

2. La media de los pesos de 500 es tudiantes de un colegio es 70 kg y la desviac ión t ípica 3 kg. Suponiendo que los pesos se dist r ibuyen normalmente, hal lar cuántos estudiantes pesan:

181

Page 182: analisis exploratorio de datos y probabilidad e inferencia estadistica

a. Entre 60 kg y 75 kg.

b. Más de 90 kg.

c . Menos de 64 kg.

d. 64 kg.

e . 64 kg o menos.

3. Se supone que los resultados de un examen siguen una distribución normal con media 78 y varianza 36. Se pide:

a . ¿Cuál es la probabil idad de que una persona que se presenta el examen obtenga una cal i f icación superior a 72?

b. Calcular la proporción de es tudiantes que t ienen puntuaciones que exceden por lo menos en cinco puntos de la puntuación que marca la f rontera entre e l Apto y el No-Apto (son declarados No-Aptos e l 25% de los es tudiantes que obtuvieron las puntuaciones más bajas) .

c . Si se sabe que la calificación de un estudiante es mayor que 72 ¿cuál es la probabilidad de que su calificación sea, de hecho, superior a 84?

4. Tras un test de cul tura general se observa que las puntuaciones obtenidas s iguen una dis tr ibución una dis tr ibución N(65, 18) . Se desea clasi f icar a los examinados en t res grupos (de baja cul tura general , de cul tura genera l aceptable, de excelente cul tura general) de modo que hay en e l pr imero un 20% la población, un 65% el segundo y un 15% en el tercero. ¿Cuáles han de ser las puntuaciones que marcan e l paso de un grupo al ot ro?

5. Varios test de inteligencia dieron una puntuación que sigue una ley normal con media 100 y desviación típica 15.

a . Determinar el porcentaje de poblac ión que obtendría un coeficiente ent re 95 y 110.

b . ¿Qué intervalo centrado en 100 contiene al 50% de la población?

c. En una población de 2500 individuos ¿cuántos individuos se esperan que tengan un coefic iente superior a 125?

182

Page 183: analisis exploratorio de datos y probabilidad e inferencia estadistica

6. En una c iudad una de cada t res famil ias posee teléfono. Si se el igen al azar 90 famil ias , calcular la probabil idad de que entre el las haya por lo menos 30 tengan teléfono.

7. En un examen t ipo tes t de 200 preguntas de elección múl t iple , cada pregunta t iene una respuesta correcta y una incorrec ta . Se aprueba s i se contesta a más de 110 respuestas correctas . Suponiendo que se contes ta al azar , ca lcular la probabil idad de aprobar el examen.

8. Un estudio ha mostrado que, en un c ier to barr io , e l 60% de los hogares t ienen al menos dos te levisores Se el ige al azar una muestra de 50 hogares en el c i tado barr io . Se pide:

a . ¿Cuál es la probabi l idad de que al menos 20 de los ci tados hogares tengan cuando menos dos te levisores?

b. ¿Cuál es la probabil idad de que ent re 35 y 40 hogares tengan cuando menos dos te levisores?

183

Page 184: analisis exploratorio de datos y probabilidad e inferencia estadistica

Capítulo 9. Estimación de Parámetros.9.1. Distribución de la medida de la muestra.

Distribución muestral de : muestreo a partir de poblaciones que siguen una

distribución normal.

Cuando el muestreo se realiza a partir de una población que sigue una distribución normal, la distribución de la medida de la muestra tiene las siguientes propiedades:

1. La distribución de será normal

2. La media , de la distribución de será igual a la medida de la población de la cual se

seleccionaron las muestras.3. La varianza, , de la distribución de será igual a la varianza de la población

dividida entre el tamaño de la muestra.

Teorema del límite central.

Dada una población de cualquier forma funcional no normal con una media y varianza finita

, la distribución muestral de , calculada a partir de muestras de tamaño n de dicha

población, será casi normal con media y varianza , cuando la muestra es muy grande.

Observe que el teorema del límite central permite tomar muestras a partir de poblaciones con distribución no normal y garantizar que se obtengan aproximadamente los mismos resultados que si la población tuviera una distribución normal, siempre que se tome una muestra muy grande.

Ejemplo

Suponga que en una población grande de seres humanos, la dimensión del diámetro craneal sigue una distribución aproximadamente normal, con una media de 185.6 mm y una desviación estándar de 12.7 mm. ¿Cuál es la probabilidad de que una muestra aleatoria de tamaño 10 de esta población tenga una media mayor que 190?

Solución

184

Page 185: analisis exploratorio de datos y probabilidad e inferencia estadistica

Cuando se dice que la población sigue una distribución aproximadamente normal, se supone que la distribución muestral de sigue, para fines prácticos, una distribución normal. También se

sabe que la media y la desviación estándar de la distribución muestral son iguales a 185.6 y

, respectivamente.

Se obtiene la siguiente fórmula para transformar la distribución normal de en la distribución normal estándar:

La probabilidad que responde a la pregunta formulada se representa en el área a la derecha de de bajo la curva de la distribución muestral.

Esta área es igual al área de la derecha de:

185

Page 186: analisis exploratorio de datos y probabilidad e inferencia estadistica

Al consultar la tabla normal estándar, se encuentra que el área a la derecha de 1.10 es 0.1357; por lo tanto, se puede decir que la probabilidad de que la muestra de tamaño tenga una media mayor que 190 es 0.1357.

Ejemplo:

Si la media y desviación estándar de la concentración de hierro en el suero en hombres sanos es de 120 y 15 microgramos por cada 100 ml, respectivamente, ¿cuál es la probabilidad de que una muestra aleatoria de 50 hombres normales tenga una media entre 115 y 125 microgramos por cada 100 ml.

Solución:

La probabilidad buscada es:

Ejercicios:

1. La National Health and Nutrition Examination Survey de 1976-1980 en una investigación encontró que los niveles de colesterol en individuos varones, estadounidenses, con edades entre 20-74 años, fue de 211. La desviación estándar fue de aproximadamente de 90. Considere la distribución muestral de la media de la muestra basada en muestras de tamaño 50 extraídas de esta población de individuos varones. ¿Cuál es la media de la distribución muestral y el error estándar?

2. Si las concentraciones de ácido úrico en hombres adultos normales siguen una distribución aproximadamente normal, con una media y desviación estándar de 5.7 y 1 mg por ciento, respectivamente, encuentre la probabilidad de que una muestra de tamaño 9 proporcione una media:

i) Mayor que 6ii) Entre 5 y 6iii) Menor que 5.2

3. Para cierto sector amplio de la población en un año determinado, suponga que el número medio de días de incapacidad es de 5.4, con una desviación estándar de 2.8 días. Encuentre la probabilidad de que una muestra aleatoria de tamaño 49 de esa población tenga una media:

i) Mayor a 6 días

186

Page 187: analisis exploratorio de datos y probabilidad e inferencia estadistica

ii) Entre 4 y 6 díasiii) Entre 4.5 y 5.5 días.

9.2. Distribución de la diferencia entre las medias de dos muestras.

Con frecuencia, el interés en una investigación se dirige hacia dos poblaciones. Específicamente, puede ser que un investigador desee saber algo acerca de la diferencia entre las medias de dos poblaciones. En una investigación, por ejemplo, el investigador tal vez deseará saber si es razonable concluir que dos medias poblacionales son diferentes. En otra situación, es posible que el investigador quiera conocer la magnitud de la diferencia entre ellas. Un equipo de investigación médica, por ejemplo, quizá requiera saber si el nivel medio de colesterol en el suero es mayor en un grupo de oficinistas que en un grupo de obreros. Si los investigadores concluyen que las medias de la población son diferentes, es posible que deseen saber qué tanto difieren. El conocimiento acerca de la distribución muestral de la diferencia entre dos medias es muy útil en investigaciones de este tipo.

Ejemplo:

Suponga que se tienen dos poblaciones de individuos. Una de ellas ( la población 1 ) ha experimentado alguna enfermedad que se considera está asociada con retraso mental, y la otra (la población 2) no ha experimentado tal enfermedad. Se cree que la distribución de calificaciones de inteligencia de cada una de las poblaciones presenta una distribución aproximadamente normal con una desviación estándar de 20.

Suponga, también, que se toma una muestra de 15 individuos de cada población y se calcula en cada muestra la media de las calificaciones de inteligencia, con los siguientes resultados:

y Si no hay diferencia entre las dos poblaciones con respecto a la media

real de las calificaciones de inteligencia, ¿cuál es la probabilidad de observar una diferencia de esta magnitud

( o mayor entre las medias de las muestras?

Solución:

Para responder a esta pregunta es necesario conocer la naturaleza de la distribución muestral para la estadística principal, es decir, la diferencia entre las dos medias, . Es importante notar

que se busca la probabilidad asociada con la diferencia entre las medias de dos muestras en lugar de una.

187

Page 188: analisis exploratorio de datos y probabilidad e inferencia estadistica

Distribución muestral de : características.

Lo que se pretende es calcular la distribución de la diferencia entre las medias de las muestras. Si se elabora una gráfica de las diferencias de las muestras contra sus frecuencias de ocurrencia, se podría obtener una distribución normal con una media igual a , la diferencia entre las

medias reales de los dos grupos o poblaciones, y una varianza igual a . Esto es,

el error estándar de la diferencia entre las medias sería igual a

Para el ejemplo anterior habría una distribución normal con una media igual a 0 (si no hay diferencia entre las medias reales de la población) y una varianza de [(20)2/15]+ [(20)2/15]=53.33.

La gráfica de la distribución muestral se ilustra en la siguiente figura:

Se sabe que la distribución normal descrita en el ejemplo se puede transformar en una distribución normal estándar mediante la modificación de una fórmula estudiada con anterioridad. La nueva fórmula es como sigue:

188

Page 189: analisis exploratorio de datos y probabilidad e inferencia estadistica

El área bajo la curva de correspondiente a la probabilidad buscada es el área a la

izquierda de . Suponiendo que no hay diferencia entre las medias

de las poblaciones, el valor de z correspondiente a -13 es:

Al consultar la tabla de la normal, se encuentra que el área bajo la curva normal estándar a la izquierda de -1.78 es igual a 0.0375. Para responder a la pregunta original, se puede decir que, si no hay diferencia entre las medias poblacionales, la probabilidad de obtener una diferencia mayor o igual que 13 entre las medias de las muestras es de 0.0375.

Muestreo a partir de poblaciones normales.

El procedimiento anterior es válido incluso cuando el tamaño de la muestras n1 y n2, son diferentes, y cuando las varianzas y , tienen valores diferentes. Los resultados teóricos

sobre los que se basa este procedimiento, se resumen de la siguiente forma.

Dadas dos poblaciones con una distribución normal, con medias , y varianzas y , la

distribución muestral de la diferencia, entre las medias de muestras independientes de

tamaño n1 y n2 extraídas de esas poblaciones siguen una distribución normal con media

y varianza .

Muestreo a partir de poblaciones no normales.

La mayoría de las veces el investigador se enfrenta a uno de los siguientes problemas: 1) la necesidad de extraer de una población con distribución no normal, o 2) extraer muestras de poblaciones cuya forma funcional se desconoce. Una solución para estos problemas consiste en tomar muestras grandes, dado que, cuando el tamaño de las muestras es muy grande, el teorema del límite central es aplicable y la distribución de la diferencia entre las dos medias de las muestras sigue una distribución aproximadamente normal, con una media igual a y una

varianza . Para calcular probabilidades asociadas con los valores específicos de la

estadística, el procedimiento es el mismo que el muestreo que se hace a partir de poblaciones con distribución normal.

189

Page 190: analisis exploratorio de datos y probabilidad e inferencia estadistica

Ejemplo:

Suponga que se estableció que para cierto tipo de pacientes el tiempo promedio de visita domiciliaria hecha por una enfermera es de 45 minutos con una desviación estándar de 15 minutos, y para un segundo tipo de paciente, el promedio de visita domiciliaria es de 30 minutos con una desviación estándar de 20 minutos. Si la enfermera visita al azar a 32 pacientes del primer tipo y 40 del segundo tipo, ¿cuál es la probabilidad de que el tiempo promedio de visita domiciliaria difiera entre los dos grupos por 20 minutos o más?

Solución:

No se menciona nada respecto a la forma funcional de las poblaciones, por lo que se supone que esta característica se desconoce, o que las poblaciones no presentan una distribución normal. Puesto que las muestras son grandes (mayores que 30) en ambos casos, se hace uso de los resultados del teorema del límite central. Se sabe que la diferencia entre las muestras sigue una distribución al menos aproximadamente normal con las siguientes media y varianza:

El área bajo la curva de que se busca se encuentra a la derecha de 20. El valor

correspondiente de z en la distribución normal estándar es:

En la tabla de la distribución normal se encuentra que el área a la derecha de z=1.23 es: 1-0.8907 =0.1093. por lo tanto, se puede decir que la probabilidad de que las visitas al azar de la enfermera difieren entre las dos medias por 20 o más minutos es de 0.1093. La curva de y la curva

normal estándar correspondiente se muestran en la siguiente figura:

190

Page 191: analisis exploratorio de datos y probabilidad e inferencia estadistica

9.3. Distribución de la proporción de la muestra.

En las secciones anteriores se estudiaron las distribuciones muestrales para estadísticas calculadas a partir de variables medidas. Sin embargo, frecuentemente se tiene interés en la distribución muestral de estadísticas, como la proporción de muestras, que resulta de los datos de conteo o frecuencias.

Ejemplo:

Suponga que una población de seres humanos, 0.08 son daltónicos. Si la proporción de la población se designa como , se puede decir para este ejemplo que . Si se eligen

aleatoriamente 150 individuos de esa población, ¿cuál es la probabilidad de que la proporción en la muestra de individuos daltónicos sea igual a 0.15?

Solución:

Para responder esta pregunta es necesario conocer algunas de las propiedades de la distribución muestral de la proporción de la muestra. Se designará la proporción de la muestra con el símbolo

.

191

Page 192: analisis exploratorio de datos y probabilidad e inferencia estadistica

Distribución muestral de : características.

Cuando la muestra es grande, la distribución de las proporciones de la muestra es aproximadamente normal de acuerdo con el teorema del límite central. La media de la

distribución , que es el promedio de todas las proporciones posibles de la muestra, es igual a la

proporción real de la población , y la varianza de la distribución, es igual a o

donde . Entonces para responder a las preguntas acerca de la probabilidad

respecto a , se utiliza la siguiente fórmula:

La pregunta que surge ahora es: ¿qué tan grande debe ser la muestra para que sea válido el uso de la aproximación normal? Un criterio ampliamente utilizado es que y deben ser

mayores que 5, por lo que se seguirá dicha regla en el presente texto.

Ahora se está en posibilidad de responder a la pregunta referente al daltonismo en la muestra de 150 individuos de una población en la cual 0.08 son daltónicos. Puesto que y son

mayores que 5 (150x0.08=12 y 150x0.92=138), se puede decir que, en este caso, sigue una

distribución aproximadamente normal con una media y

. La probabilidad buscada es el área bajo la curva de a la

derecha de 0.15. Esta área es igual al área bajo la curva normal estándar a la derecha de:

La transformación para la distribución normal estándar se lleva a cabo de la manera usual: z se calcula al dividir el error estándar entre la diferencia de un valor de la estadística y su medida. Al utilizar la tabla de la distribución normal se tiene que el área a la derecha de es 1-

0.9992= 0.0008. Por lo tanto, se puede decir que la probabilidad de observar en una

192

Page 193: analisis exploratorio de datos y probabilidad e inferencia estadistica

muestra aleatoria de tamaño n=150 de una población en la que es 0.0008. De hecho, si

se extrajera una muestra de este tipo, mucha gente la consideraría un evento extraño.

Ejercicios:

1. Una investigación realizada en 1990 por el National Center for Health Statistics, 19 por ciento de los encuestados mayores de 18 años, dijo no saber del virus VIH del SIDA. ¿Cuál es la probabilidad de que en una muestra de 175 individuos de esa población 25 por ciento o más no sepa de la existencia del SIDA?

2. Se sabe que 35 por ciento de los miembros de una población sufren de enfermedades crónicas. ¿Cuál es la probabilidad de que en una muestra aleatoria de 200 individuos 80 o más de ellos tengan al menos una enfermedad crónica?

9.4. Distribución de la diferencia entre las proporciones de dos muestras.

Con frecuencia son de interés las proporciones de dos poblaciones y se desea averiguar la probabilidad asociada con la diferencia de las proporciones calculadas a partir de muestras extraídas de cada una de dichas poblaciones. La distribución muestral pertinente es la distribución de la diferencia entre las proporciones de dos muestras.

Distribución muestral de de : características.

Las características de esta distribución muestral se resumen como sigue:

Si se extraen muestras aleatorias independientes de tamaño n1 y n2 de dos poblaciones de variables dicotómicas, donde las proporciones de las observaciones con la característica de interés en ambas poblaciones son , respectivamente, la distribución de la diferencia

entre las proporciones de las muestras , es aproximadamente normal con una media de:

Con varianza

193

Page 194: analisis exploratorio de datos y probabilidad e inferencia estadistica

Cuando n1 y n2 son grandes.

Se consideran a n1 y n2 suficientemente grandes cuando

son mayores que 5.

Para responder a preguntas respecto a la diferencia entre proporciones de dos muestras, se utiliza la siguiente fórmula:

Ejemplo:

Suponga que la proporción de consumidores moderados a grandes consumidores de estupefacientes ilegales es de 0.50 para la población 1, en tanto que en la población 2 la proporción es de 0.33. ¿Cuál es la probabilidad de que muestras de tamaño 100, extraídas de cada una de las poblaciones, presente un valor de igual a 0.30?

Solución:

Se supone que la distribución muestral de es aproximadamente normal, con una media

de

Y varianza:

El área correspondiente a la probabilidad buscada es la que se encuentra baja la curva de a la derecha de 0.30. Al transformar en la distribución normal estándar se obtiene

Al consultar la tabla de la normal, se encuentra que el área bajo la curva normal estándar que está a la derecha de z=1.89 es 1-0.9706=0.0294. Por lo tanto, la probabilidad de observar una diferencia igual a 0.30 es de 0.0294.

194

Page 195: analisis exploratorio de datos y probabilidad e inferencia estadistica

Ejemplo:

Se sabe que en una población de adolescentes 10 por ciento de los varones son obesos. Si la misma proporción de mujeres en esa población son obesas, ¿cuál es la probabilidad de que una muestra al azar de 250 varones y 200 mujeres proporcione un valor de ?

Solución:

Se supone que la distribución muestral de es aproximadamente normal. Si la

proporción de individuos obesos es la misma en ambas poblaciones, la media de la distribución es igual a 0 y la varianza es:

El área de interés bajo la curva de es la que se encuentra a la derecha de 0.06. El valor

correspondiente de z es:

Al consultar la tabla de la normal se encuentra que el área a la derecha de z=2.11 es 1-0.9826=0.0174.

Ejercicios:

1. En una población de niños con retraso mental, se sabe que la proporción del os que son hiperactivos es de0.40. Se extrajo una muestra aleatoria de tamaño 120 de esa población, y otra de tamaño 100 a partir de otra población de niños con el mismo problema. Si la proporción de niños hiperactivos es la misma en ambas poblaciones, ¿cuál es la probabilidad de que la muestra presente como resultado una diferencia de 0.16

o más?

2. Se tienen bases para suponer que 40 por ciento de las casas en cierta área de la ciudad están en malas condiciones. Una muestra aleatoria de 75 casas de esa área y otra compuesta de 90 casas de otra sección dieron una diferencia . Si no hay

diferencia en la proporción de casas en malas condiciones entre esas dos áreas, ¿cuál es la probabilidad de observar una diferencia de esta magnitud o mucho mayor?

195

Page 196: analisis exploratorio de datos y probabilidad e inferencia estadistica

9.5. Intervalos de confianza

I- Concepto de Intervalo de Confianza (para una media, varianza conocida).

En el contexto de estimar un parámetro poblacional, un intervalo de confianza es un rango de valores (calculado en una muestra) en el cual se encuentra el verdadero valor del parámetro, con una probabilidad determinada.

La probabilidad de que el verdadero valor del parámetro se encuentre en el intervalo construido se denomina nivel de confianza, y se denota 1- . La probabilidad de equivocarnos se llama nivel de significancia y se simboliza . Generalmente se construyen intervalos con confianza 1-

=95% (o significancia =5%). Menos frecuentes son los intervalos con =10% ó =1%.

Para construir un intervalo de confianza, se puede comprobar que la distribución Normal Estándar cumple:

P(-1.96 < z < 1.96) = 0.95

(Lo anterior se puede comprobar con una tabla de probabilidades o un programa computacional que calcule probabilidades normales).

Luego, si una variable X tiene distribución N( , ), entonces el 95% de las veces se cumple:

Despejando en la ecuación se tiene:

El resultado es un intervalo que incluye al el 95% de las veces. Es decir, es un intervalo de confianza al 95% para la media cuando la variable X es normal y es conocido.

II- Intervalo de confianza para un promedio (Varianza desconocida):

Generalmente, cuando se quiere construir un intervalo de confianza para la media poblacional , la varianza poblacional es desconocida, por lo que el intervalo para construido al final de II es muy poco práctico.

Si en el intervalo se reemplaza la desviación estándar poblacional por la desviación estándar muestral s, el intervalo de confianza toma la forma:

La cual es una buena aproximación para el intervalo de confianza de 95% para con desconocido. Esta aproximación es mejor en la medida que el tamaño muestral sea grande.

196

Page 197: analisis exploratorio de datos y probabilidad e inferencia estadistica

Cuando el tamaño muestral es pequeño, el intervalo de confianza requiere utilizar la distribución t de Student (con n-1 grados de libertad, siendo n el tamaño de la muestra), en vez de la distribución normal (por ejemplo, para un intervalo de 95% de confianza, los límites del intervalo ya no serán construidos usando el valor 1.96). Se utiliza la siguiente expresión:

Ejemplo:Los siguientes datos son los puntajes obtenidos para 45 personas de una escala de depresión (mayor puntaje significa mayor depresión).

2 5 6 8 8 9 9 10 1111 11 13 13 14 14 14 14 1414 15 15 16 16 16 16 16 1616 16 17 17 17 18 18 18 1919 19 19 19 19 19 19 20 20

Para construir un intervalo de confianza para el puntaje promedio poblacional, asumamos que los datos tienen distribución normal, con varianza poblacional desconocida. Como es desconocido, lo estimamos por s =18,7. Luego, un intervalo de confianza aproximado es:

Luego, el intervalo de confianza para es (13.2, 15,8). Es decir, el puntaje promedio poblacional se encuentra entre 13,2 y 15,8 con una confianza 95%.

Ahora construya un intervalo de confianza utilizando la distribución t-Student.

III. Intervalo de Confianza para una Proporción.

A menudo es necesario construir intervalos de confianza para una proporción. Por ejemplo, supóngase que se toma una muestra de tamaño n de una población grande (posiblemente infinita) y que X observaciones de esta muestra pertenecen a una clase de interés.

Ejemplo: El número de caras obtenidas al lanzar una moneda n veces.

X1, X2, X3,………….Xn X caras X B(n, p)

El parámetro p es desconocido, sin embargo podemos obtener un estimador denotado por , a

partir de los datos de la muestra.

197

Page 198: analisis exploratorio de datos y probabilidad e inferencia estadistica

Nótese que es un estimador insesgado de p, ya que:

Recuérdese que para n grande, la distribución de muestreo de es aproximadamente normal con

media p y varianza p(1-p)/n. Por lo que la distribución de la siguiente variable

Tiene aproximadamente una distribución normal (Teorema de Límite Central).

Como Z N(0,1), podemos construir fácilmente el intervalo de confianza para p, tal que:

198

Page 199: analisis exploratorio de datos y probabilidad e inferencia estadistica

zα/2 - zα/2

Pero:

Luego:

Desafortunadamente el límite superior e inferior del intervalo de confianza contiene el parámetro

desconocido p. Sin embargo es válido reemplazar p por ,

El intervalo de confianza para el parámetro de proporción p es:

9.5.1. Selección del tamaño de la muestra

Para estimar un intervalo de confianza para el parámetro p, y para que este intervalo sea

confiable, es preciso considerar que la diferencia entre el estimador y el parámetro p sea

mínima con un nivel de confianza mayor o igual al (1-α)%, es decir:

199

Page 200: analisis exploratorio de datos y probabilidad e inferencia estadistica

Obsérvese que:

Por lo que:

Note que para utilizar esta ecuación se requiere una estimación del parámetro p. Si se tiene una estimación de alguna muestra anterior, entonces p puede sustituirse por , de tal manera que:

Si el tamaño muestral n es grande, el Teorema Central del Límite nos asegura que:

200

Page 201: analisis exploratorio de datos y probabilidad e inferencia estadistica

O bien:

Donde p es el porcentaje de personas con la característica de interés en la población (o sea, es el parámetro de interés) y p es su estimador muestral.

Luego, procediendo en forma análoga al caso de la media, podemos construir un intervalo de 95% de confianza para la proporción poblacional p.

Ejemplo: En un estudio de prevalencia de factores de riesgo en una cohorte de 412 mujeres mayores de 15 años en la Región Metropolitana, se encontró que el 17.6% eran hipertensas. Un intervalo de 95% de confianza para la proporción de mujeres hipertensas en la Región Metropolitana está dado por:

Luego, la proporción de hipertensas varía entre (0.139, 0.212) con una confianza de 95%.

IV. Intervalos de confianza para la diferencia de dos proporciones

Supóngase que existen dos proporciones de interés p1 y p2, y es necesario obtener un intervalo de confianza para la diferencia de p1 - p2 con un nivel de confianza de (1-α)%. Supóngase que se toman dos muestras independientes de tamaño n1 y n2 de dos poblaciones infinitamente grandes. En estas dos muestras sean X1 el número de observaciones de la primera muestra que pertenecen a la clase de interés y X2 el número de observaciones en la muestra de la segunda población que pertenecen a la clase de interés.

P1 X1, X2, X3,……..Xn1 Xn1 observaciones

P2 Y1, Y2, Y3,…….Yn2 Xn2 observaciones

= = X1~B(n1,p) X2~B(n2, p)

Luego:

201

Page 202: analisis exploratorio de datos y probabilidad e inferencia estadistica

=

=

Así para se hace la siguiente transformación:

Donde Z tiene una distribución que es aproximadamente normal, esto implica que podemos sustituir el valor de Z directamente para construir el intervalo de confianza:

Si desarrollamos esta expresión llegaremos a que el intervalo de confianza para p1 - p2 es:

Ejemplo. Se analiza la fracción de productos defectuosos producidos por dos líneas de producción. Una muestra aleatoria de 100 unidades provenientes de la línea uno contienen 10 que son defectuosas, mientras que en una muestra aleatoria de 120 unidades de la línea 2 tiene 25 que

202

Page 203: analisis exploratorio de datos y probabilidad e inferencia estadistica

son defectuosas. Encuentre un intervalo de confianza del 99% para la diferencia en fracciones de productos defectuosos producidos por las dos líneas. Solución:

Se tiene que

Pero:

Nos resta calcular . Como (1-)=0.99, entonces /2= 0.005. Luego como el valor para no se encuentra en la tabla, promediamos los valores más próximos y Luego

Sustituyendo estos valores tenemos:

El intervalo de confianza buscado es:

Ejemplos:

1. Un fabricante asegura, a una compañía que le compra un producto en forma regular, que el porcentaje de productos defectuosos no es mayor del 5%. La compañía decide comprobar la afirmación del fabricante seleccionando de su inventario, 200 unidades de este producto y probándolas. ¿Deberá sospechar la compañía de la afirmación del fabricante si se descubre un total de 19 unidades defectuosas en la muestra?

Solución:La sospecha estará apoyada si existe un intervalo de confiabilidad alto para el cual la proporción p se encuentra completamente a la derecha del valor asegurado 0.05. Si seleccionamos una

203

Page 204: analisis exploratorio de datos y probabilidad e inferencia estadistica

confiabilidad del 95%, entonces α/2=0.025, y ya conocemos que X=19 y n=200, por lo que

=19/200=0.095

Al sustituir estos valores en:

Se tiene que el intervalo de confianza del parámetro p es:

El cual resulta ser de:

Aparentemente existe una razón para sospechar del fabricante, ya que el intervalo de confianza se encuentra completamente a la derecha del valor asegurado.

2. Calcular el tamaño de la muestra del ejemplo anterior para el cual la diferencia entre el parámetro y el estimador es menor que 0.02 con un nivel de confianza mayor a 0.9.

Considérese el mismo valor para .

Solución:

204

Page 205: analisis exploratorio de datos y probabilidad e inferencia estadistica

3. Se analiza la fracción de productos defectuosos producidos por dos líneas de producción. Una muestra aleatoria de 100 unidades provenientes de la línea uno contienen 10 que son defectuosas, mientras que en una muestra aleatoria de 120 unidades de la línea 2 tiene 25 que son defectuosas. Encuentre un intervalo de confianza del 99% para la diferencia en fracciones de productos defectuosos producidos por las dos líneas.

Solución:Se tiene que

Pero:

Nos resta calcular . Como (1-)=0.99, entonces /2= 0.005.

Luego como el valor para no se encuentra en la tabla, promediamos los valores más

próximos y Luego

Sustituyendo estos valores tenemos:

El intervalo de confianza buscado es:

205

Page 206: analisis exploratorio de datos y probabilidad e inferencia estadistica

206

Page 207: analisis exploratorio de datos y probabilidad e inferencia estadistica

Capítulo 10. Contraste de hipótesis.10.1.- Introducción

Dentro del estudio de la inferencia estadística, se describe como se puede tomar una muestra aleatoria y a partir de esta muestra estimar el valor de un parámetro poblacional en la cual se puede emplear el método de muestreo y el teorema del valor central lo que permite explicar cómo a partir de una muestra se puede inferir algo acerca de una población, lo cual nos lleva a definir y elaborar una distribución de muestreo de medias muestrales que nos permite explicar el teorema del límite central y utilizar este teorema para encontrar las probabilidades de obtener las distintas medias maestrales de una población.

Pero es necesario tener conocimiento de ciertos datos de la población como la media, la desviación estándar o la forma de la población, pero a veces no se dispone de esta información.

En este caso es necesario hacer una estimación puntual que es un valor que se usa para estimar un valor poblacional. Pero una estimación puntual es un solo valor y se requiere un intervalo de valores a esto se denomina intervalos de confianza y se espera que dentro de este intervalo se encuentre el parámetro poblacional buscado. También se utiliza una estimación mediante un intervalo, el cual es un rango de valores en el que se espera se encuentre el parámetro poblacional

En nuestro caso se desarrolla un procedimiento para probar la validez de una aseveración acerca de un parámetro poblacional este método es denominado Prueba de hipótesis para una muestra.

10.2. Nociones básicas

En el análisis estadístico se hace una aseveración, es decir, se plantea una hipótesis, después se hacen las pruebas para verificar la aseveración o para determinar que no es verdadera.

Por tanto, la prueba de hipótesis es un procedimiento basado en la evidencia muestral y la teoría de probabilidad; se emplea para determinar si la hipótesis es una afirmación razonable.

Prueba de una hipótesis: se realiza mediante un procedimiento sistemático de cinco paso:

207

Page 208: analisis exploratorio de datos y probabilidad e inferencia estadistica

Siguiendo este procedimiento sistemático, al llegar al paso cinco se puede o no rechazar la hipótesis, pero debemos de tener cuidado con esta determinación ya que en la consideración de estadística no proporciona evidencia de que algo sea verdadero. Esta prueba aporta una clase de prueba más allá de una duda razonable. Analizaremos cada paso en detalle

Objetivo de la prueba de hipótesis.

El propósito de la prueba de hipótesis no es cuestionar el valor calculado del estadístico (muestral), sino hacer un juicio con respecto a la diferencia entre estadístico de muestra y un valor planteado del parámetro.

10.3. Procedimiento sistemático para una prueba de hipótesis de una muestra.

.Paso 1: Plantear la hipótesis nula Ho y la hipótesis alternativa H1.

Cualquier investigación estadística implica la existencia de hipótesis o afirmaciones acerca de las poblaciones que se estudian.

La hipótesis nula (Ho) se refiere siempre a un valor especificado del parámetro de población, no a una estadística de muestra. La letra H significa hipótesis y el subíndice cero no hay diferencia. Por lo general hay un "no" en la hipótesis nula que indica que "no hay cambio" Podemos rechazar o aceptar Ho.

La hipótesis nula es una afirmación que no se rechaza a menos que los datos maestrales proporcionen evidencia convincente de que es falsa. El planteamiento de la hipótesis nula siempre contiene un signo de igualdad con respecto al valor especificado del parámetro.

La hipótesis alternativa (H1) es cualquier hipótesis que difiera de la hipótesis nula. Es una afirmación que se acepta si los datos maestrales proporcionan evidencia suficiente de que la hipótesis nula es falsa. Se le conoce también como la hipótesis de investigación. El planteamiento de la hipótesis alternativa nunca contiene un signo de igualdad con respecto al valor especificado del parámetro.

Paso 2: Seleccionar el nivel de significancia.

208

Page 209: analisis exploratorio de datos y probabilidad e inferencia estadistica

Nivel de significancia: Probabilidad de rechazar la hipótesis nula cuando es verdadera. Se le denota mediante la letra griega α, también es denominada como nivel de riesgo, este término es más adecuado ya que se corre el riesgo de rechazar la hipótesis nula, cuando en realidad es verdadera. Este nivel esta bajo el control de la persona que realiza la prueba.

Si suponemos que la hipótesis planteada es verdadera, entonces, el nivel de significación indicará la probabilidad de no aceptarla, es decir, estén fuera de área de aceptación. El nivel de confianza (1-α), indica la probabilidad de aceptar la hipótesis planteada, cuando es verdadera en la población.

La distribución de muestreo de la estadística de prueba se divide en dos regiones, una región de rechazo (conocida como región crítica) y una región de no rechazo (aceptación). Si la estadística de prueba cae dentro de la región de aceptación, no se puede rechazar la hipótesis nula.

La región de rechazo puede considerarse como el conjunto de valores de la estadística de prueba que no tienen posibilidad de presentarse si la hipótesis nula es verdadera. Por otro lado, estos valores no son tan improbables de presentarse si la hipótesis nula es falsa. El valor crítico separa la región de no rechazo de la de rechazo.

Tipos de errores

Cualquiera sea la decisión tomada a partir de una prueba de hipótesis, ya sea de aceptación de Ho o de Ha, puede incurrirse en error:

Un error tipo I se presenta si la hipótesis nula Ho es rechazada cuando es verdadera y debía ser aceptada. La probabilidad de cometer un error tipo I se denomina con la letra alfa α

Un error tipo II, se denota con la letra griega β se presenta si la hipótesis nula es aceptada cuando de hecho es falsa y debía ser rechazada.

En la siguiente tabla se muestran las decisiones que pueden tomar el investigador y las consecuencias posibles.

Decisión H0 es cierta H0 es Falsa

209

Page 210: analisis exploratorio de datos y probabilidad e inferencia estadistica

Aceptar H0 Decisión Correcta Error tipo II ()

Rechazar H0Error tipo I

() Decisión Correcta

Para que cualquier ensayo de hipótesis sea bueno, debe diseñarse de forma que minimice los errores de decisión. En la práctica un tipo de error puede tener más importancia que el otro, y así se tiene a conseguir poner una limitación al error de mayor importancia. La única forma de reducir ambos tipos de errores es incrementar el tamaño de la muestra, lo cual puede ser o no ser posible.

Paso 3: Cálculo del valor estadístico de prueba

Valor determinado a partir de la información muestral, que se utiliza para determinar si se rechaza la hipótesis nula., existen muchos estadísticos de prueba para nuestro caso utilizaremos los estadísticos z y t. La elección de uno de estos depende de la cantidad de muestras que se toman, si las muestras son de la prueba son iguales a 30 o mas se utiliza el estadístico z, en caso contrario se utiliza el estadístico t.

Tipos de prueba

a) Prueba bilateral o de dos extremos: la hipótesis planteada se formula con la igualdad

Ejemplo

H0 : µ = 200

H1 : µ ≠ 200

b) Pruebas unilateral o de un extremo: la hipótesis planteada se formula con ≥ o ≤

H0 : µ ≥ 200 H0 : µ ≤ 200

H1 : µ < 200 H1 : µ > 200

En las pruebas de hipótesis para la media (μ), cuando se conoce la desviación estándar (σ) poblacional, o cuando el valor de la muestra es grande (30 o más), el valor estadístico de prueba es z y se determina a partir de:

210

Page 211: analisis exploratorio de datos y probabilidad e inferencia estadistica

El valor estadístico z, para muestra grande y desviación estándar poblacional desconocida se determina por la ecuación:

En la prueba para una media poblacional con muestra pequeña y desviación estándar poblacional desconocida se utiliza el valor estadístico t.

10.4. Procedimiento sistemático para una prueba de hipótesis de dos muestras independientes.

La prueba para la igualdad de medias con varianzas conocidas es:

El estadístico de prueba es

Si las varianzas son desconocidas, el estadístico de prueba es:

donde

10.5. Prueba de hipótesis para una y dos proporción independientes Prueba para una proporción:

El estadístico de prueba es:

Prueba de hipótesis sobre dos proporciones independientes:

211

Page 212: analisis exploratorio de datos y probabilidad e inferencia estadistica

Donde

Paso 4: Formular la regla de decisión

Se establece las condiciones específicas en la que se rechaza la hipótesis nula y las condiciones en que no se rechaza la hipótesis nula. La región de rechazo define la ubicación de todos los valores que son tan grandes o tan pequeños, que la probabilidad de que se presenten bajo la suposición de que la hipótesis nula es verdadera, es muy remota

Distribución muestral del valor estadístico z, con prueba de una cola a la derecha

Valor crítico: Es el punto de división entre la región en la que se rechaza la hipótesis nula y la región en la que no se rechaza la hipótesis nula.

Paso 5: Tomar una decisión.En este último paso de la prueba de hipótesis, se calcula el estadístico de prueba, se compara con el valor crítico y se toma la decisión de rechazar o no la hipótesis nula. Tenga presente que en una prueba de hipótesis solo se puede tomar una de dos decisiones: aceptar o rechazar la hipótesis nula. Debe subrayarse que siempre existe la posibilidad de rechazar la hipótesis nula cuando no debería haberse rechazado (error tipo I). También existe la posibilidad de que la hipótesis nula se acepte cuando debería haberse rechazado (error de tipo II).

Ejemplo 1: Prueba la hipótesis H0 : p = 0.4

H1 : p 0.4

Presuma que n = 200, y = .01.

Solución:

Paso 1 H0 : p = 0.4

212

Page 213: analisis exploratorio de datos y probabilidad e inferencia estadistica

H1 : p 0.4

Paso 2 Usando = .01, el diagrama de la región de rechazo es:

Paso 3 Calculando el valor z para la proporción muestral p = 0.45, obtenemos:

0346.0200

)4.01(4.0

p

Z = 45.10346.0

4.045.0

Paso 4 Dibujando z = 1.45 en el diagrama de la región de rechazo (Paso 2) obtenemos:

Paso 5 Como el valor z está fuera de la región de rechazo (sombreada), por lo tanto no rechazamos Ho.

Ejemplo. MÉTODO DEL VALOR P (MÉTODO 2, SPSS)

Dejemos que p0 sea la proporción aceptada o reclamada.

Paso 1 Establezca las hipótesis: H0 : p = p0

H1 : p > p0 ó

p < p0 ó

p p0

Paso 2 Calcule el valor z para la proporción muestral

nxp usando la fórmula:

Z =p

pp

0, donde

npp

p)1( 00

.

Paso 3 Usando la hipótesis alterna dibuja la región bajo la curva z que representa los valores extremos.

213

.005.005

-2.575 2.575

.005.005

-2.575 2.575

1.45

Valor P

z

Valor P

-zP/2P/2

-z z

Page 214: analisis exploratorio de datos y probabilidad e inferencia estadistica

ó ó

(H1 : > o) (H1 : < o) (H1 : o)

Paso 4 El valor P = al área de la cola sombreada (s) en el Paso 3.

Paso 5 Si el valor P < , entonces rechaza H0

Si el valor P , entonces no rechaces H0.

Ejemplo 1: Pruebe la hipótesis H0 : p = 0.4

H1 : p 0.4

Presuma que n = 200, y = 0.01.

Solución:

Paso 1 H0 : p = 0.4

H1 : p 0.4

Paso 2 Calculando el valor z de p , obtenemos

0346.0200

)4.01(4.0

p

Z = 45.10346.0

4.045.0

Paso 3 La región bajo la curva z que contiene los valores extremos de es

Paso 4 El valor P = suma de las áreas de las regiones sombreadas en el Paso3.

= 2(el área a la derecha de 1.45)

= 2(0.5 – 0.4265)

= 0.147

Paso 5 Como el valor P es mayor que , entonces no podemos rechazar H0.

Ejercicios.

214

P/2P/2

-1.45 1.45

Page 215: analisis exploratorio de datos y probabilidad e inferencia estadistica

1. H0 : p=0.6H1 : p 0.6, n = 100, y = 0.01

2. H0 : p = 0.29H1 : p 0.29, n = 90, y = 0.01

3. H0 : p = 0.36H1 : p < 0.36, n = 630, y = 0.05

Bibliografía

Canavos, George C. (1988). Probabilidad y Estadística Aplicaciones y Métodos.

McGrawHill.

Gardner, Robert C. (2003). Estadística para Psicología Usando SPSS para Windows.

Prentice-Hall, 1° ED.

Jhonson, R y Kuby, P. (1999). Estadística Elemental, lo Esencial. México: Thomson.

Martínez Bencardino, Ciro. (2006). Estadística Básica Aplicada. Colombia: ECOE

EDICIONES, 3° ED.

Martínez Bencardino, Ciro. (2008). Estadística y Muestreo. Colombia: ECOE

EDICIONES, 12° ED.

Montgomery, Douglas C. y Runger, George C. (1996). Probabilidad y Estadística.

McGrawHill.

Peralta Astudillo, María Josefa y at. (2000). Estadística: Problemas resueltos.

Ediciones Pirámide.

215