antologia de probabilidad y estadistica
DESCRIPTION
TRANSCRIPT
INSTITUTO TECNOLÓGICO SUPERIOR
de Acayucan
Asignatura: Probabilidad y estadística
Clave de la asignatura: SCC - 0424
Carrera: Ingeniería en Sistemas Computacionales
A N T O L O G I A
Presenta:
ING. ULISES GIRON JIMENEZ
ACAYUCAN, VER. JUNIO 2008
Probabilidad y Estadística
Ing. Ulises Girón Jiménez
III
INDICE
UNIDAD 1
OBJETIVO GENERAL...............................................................................
JUSTIFICACION........................................................................................
ESTADISTICA DESCRIPTIVA…………………….....……………………....
1.1 Conceptos básicos de estadística…………………....……...................
1.1.1 Definición de estadística.............................................................
1.1.2 Inferencia estadística..................................................................
1.1.3 Teoría de decisión......................................................................
1.1.4 Población....................................................................................
1.1.5 Muestra aleatoria........................................................................
1.1.6 Parámetros aleatorios.................................................................
1.1.7 Enfoque clásico...........................................................................
1.1.8 Enfoque Bayesiano.....................................................................
1.2 Descripción de datos………….....………………………………………
1.2.1 Datos agrupados y no agrupados...............................................
1.2.2 Frecuencia de clase....................................................................
1.2.3 Frecuencia relativa......................................................................
1.2.4 Punto medio................................................................................
10
11
12
13
13
16
16
16
20
20
20
21
22
22
22
22
23
IV
1.2.5 Límites........................................................................................
1.2.6 Histograma..................................................................................
1.2.7 Histograma de frecuencia relativa..............................................
1.3 Medidas de tendencia central……………………………………………
1.3.1 Media aritmética, geométrica y ponderada.................................
1.3.2 Mediana......................................................................................
1.3.3 Moda...........................................................................................
1.4 Medidas de dispersión…………………………………………………….
1.4.1 Varianza......................................................................................
1.4.2 Desviación estándar...................................................................
1.4.3 Desviación media........................................................................
1.4.4 Desviación mediana....................................................................
1.4.5 Rango.........................................................................................
1.5 Parámetros para datos agrupados………………………………………
1.5.1 La media.....................................................................................
1.5.2 La desviación típica....................................................................
1.6 Distribución de frecuencias………………………………...…………….
1.6.1 Distribuciones numéricas............................................................
1.6.2 Distribuciones categóricas..........................................................
1.6.3 Distribuciones acumuladas.........................................................
1.6.4 Distribuciones porcentuales........................................................
1.6.5 Distribuciones porcentuales acumuladas...................................
23
23
24
25
25
29
31
35
35
36
38
38
38
39
39
39
41
42
43
44
44
45
V
UNIDAD 2
1.7 Técnicas de agrupación de datos………………………...……………
1.7.1 Límites de clase..........................................................................
1.7.2 Rango de clase...........................................................................
1.7.3 Fronteras de clase......................................................................
1.7.4 Marca de clase............................................................................
1.7.5 Intervalo de clase………............................................................
1.7.6 Diagrama de tallos y hojas ………………………………………...
1.7.7. Diagrama de Pareto..................................................................
1.7.8 Diagrama de puntos...................................................................
1.8 Histograma……………......……………………………………………….
1.8.1 Diagrama de barras....................................................................
1.8.2 Polígono de frecuencias.............................................................
1.8.3 Ojivas.........................................................................................
1.8.4 Gráficas circulares......................................................................
1.9 Distribuciones muéstrales………………………...………………………
PROBABILIDAD……….………………………………………………………
2.1 Teoría elemental de probabilidad………………………...……....……
2.1.1 Concepto clásico y como frecuencia relativa..............................
2.1.2 Interpretación subjetiva de la probabilidad.................................
2.2 Probabilidad de eventos……………………………......………………
2.2.1 Definición de espacio muestral...................................................
46
46
46
46
47
47
50
52
59
59
59
59
60
61
62
65
66
66
69
69
69
VI
UNIDAD 3
2.2.2 Discreto y continuo.....................................................................
2.2.3 Definición de evento...................................................................
2.2.4 Simbología, uniones e intersecciones........................................
2.2.5 Diagramas de Venn....................................................................
2.3 Técnicas de conteo………………….……………………………………
2.3.1 Diagrama de árbol......................................................................
2.3.2 Notación factorial........................................................................
2.3.3 Permutación................................................................................
2.3.4 Combinaciones...........................................................................
2.4 Probabilidad con técnicas de conteo……………………………………
2.4.1 Axiomas......................................................................................
2.4.2 Teoremas....................................................................................
2.5 Probabilidad condicional………...………………………………………
2.5.1 Dependiente................................................................................
2.5.2 Independiente.............................................................................
2.6 Eventos Independientes……...…………………………………………
2.6.1 Regla de Bayes...........................................................................
FUNCIONES Y DISTRIBUCIONES MUESTRALES………………......….
3.1 Función de probabilidad………..…………………………………………
3.1.1 Variables aleatorias discretas.....................................................
71
71
71
71
72
76
80
81
91
100
100
100
101
101
110
113
113
121
121
121
VII
UNIDAD 4
3.1.2 Variables aleatorias continúas....................................................
3.2 Distribución Binomial…………………….…………....………………….
3.2.1 Conceptos de ensayos de Bernoulli...........................................
3.3 Distribución Hipergeométrica……………………………………………
3.4 Distribución de Poisson…………………………..………………………
3.5 Esperanza matemática…………………….……………………………
3.6 Distribución normal…………………………….…………………………
3.6.1 Distribución de la probabilidad continúa.....................................
3.7 Aproximación de la Binomial a la normal……………………………
3.8 Otras distribuciones muéstrales…………………….……………………
3.8.1 Distribución T- Student...............................................................
3.8.2 Distribución X cuadrada..............................................................
ESTADÍSTICA APLICADA………………...…………………………………
4.1 Inferencia estadística………………….....………………………………
4.1.1 Concepto.....................................................................................
4.1.2 Estimación..................................................................................
4.1.3 Prueba de hipótesis....................................................................
4.1.4 Método clásico de estimación (puntual)......................................
4.1.5 Estimador Insesgado..................................................................
4.2 Intervalos de confianza……………………………………………………
122
123
123
129
132
139
146
146
156
161
161
162
170
171
171
171
171
172
172
172
VIII
UNIDAD 5
4.2.1 Estimación por intervalo..............................................................
4.2.2 Límites de confianza...................................................................
4.2.3 Intervalo de confianza para una media.......................................
4.2.4 Intervalo de confianza para una diferencia de medida...............
4.2.5 Intervalo de confianza para proporciones...................................
4.2.6. Intervalo de confianza para diferencia de proporciones……….
4.3 Pruebas de hipótesis………………………….....………………………
4.3.1 Prueba de hipótesis para la media poblacional..........................
4.3.2 Prueba de hipótesis para diferencias de medias........................
4.3.3 Prueba de hipótesis para proporciones......................................
4.3.4 Prueba de hipótesis para diferencia de proporciones.................
REGRESIÓN Y CORRELACIÓN…………………………………………...
5.1 Introducción………………………………………………………………
5.1.1 Gráficas de los datos..................................................................
5.1.2 Variables de regresión independientes.......................................
5.1.3 Regresión lineal simple...............................................................
5.2 Diagrama de dispersión…………………………………………………
5.2.1 Tabla de datos.............................................................................
5.2.2. Construcción de Diagramas.......................................................
5.3. Estimación mediante la línea de regresión……………………………
5.3.1. Ecuación de la recta como ajuste de datos...............................
172
173
174
183
186
189
196
203
214
220
223
216
217
217
218
219
221
221
222
222
222
IX
5.3.2. Modelos.....................................................................................
5.4. Métodos de mínimos cuadrados…………………………………………
5.4.1 Estimación de los coeficientes de regresión..............................
5.5. Error estándar de estimación……………………………………………
5.6. Coeficiente de determinación y correlación…………………………….
5.6.1. Coeficiente de determinación de la muestra.............................
5.6.2. Coeficiente de correlación de la muestra..................................
5.7. Problemas prácticos de ajustes de curvas……………………………
Anexos…………………………………………………………………………..
..
Bibliografía………….…………………………………………………………
…
223
223
224
230
233
233
238
245
255
262
10
OBJETIVO GENERAL
El estudiante seleccionará modelos probabilísticas, aplicará cálculos de inferencia
estadística sobre datos y desarrollará modelos para la toma de decisiones en sistemas con
componentes aleatorios.
11
JUSTIFICACION
Uno de los objetivos del Instituto Tecnológico Superior de Acayucan, es el de promover,
apoyar e impulsar el trabajo creativo del docente, principalmente en la elaboración de
antología que apoya al proceso enseñanza – aprendizaje, el cual debe ser estimulado con
los comentarios y sugerencias del profesorado y conviene que sea imitado por otros
maestros, quienes con capacidad de trabajo y tiempo disponible, pueden y deben gestar
literatura de este género, dando los pasos adecuados para pulirla y poder formar así textos
que faciliten la enseñanza y el aprendizaje del curso.
El presente material de consulta y apoyo didáctico se pone en manos de nuestros maestros
y, particularmente, de los alumnos que se forman en nuestro instituto. Considero los
contenidos de esta antología como el propósito más firme de mi convencimiento para facilitar
el estudio de la probabilidad y estadística en las nuevas generaciones que me honran al
confiarme su preparación y garantizar modestamente el fijarles una enseñanza para toda la
vida.
UNIDAD 1
ESTADISTICA DESCRIPTIVA
Objetivo: El estudiante conocerá fundamentos y técnicas básicas de estadística, para organizar, representar y analizar datos obtenidos de una situación simulada o real.
UNIDAD I / ESTADISTICA DESCRIPTIVA.
13
1.1 Conceptos básicos de estadística. 1.1.1 Definición de estadística. La palabra estadística procede del vocablo "estado" pues era función principal de los
gobiernos de los estados establecer registros de población, nacimientos, defunciones, etc.
Hoy en día la mayoría de las personas entienden por estadística al conjunto de datos, tablas,
gráficos, que se suelen publicar en los periódicos.
Definición:
Estadística, rama de las matemáticas que se ocupa de reunir, organizar y analizar datos
numéricos y que ayuda a resolver problemas como el diseño de experimentos y la toma de
decisiones.
Estadística es un conjunto de métodos científicos para la recopilación, representación
condensación y análisis de los datos extraídos de un sistema en estudio. Con el objeto de
poder hacer estimaciones y sacar conclusiones, necesarias para tomar decisiones.
El análisis se hace con las herramientas estadísticas, empleando la información obtenida de
los datos, para realizar estimaciones o inferencias, testear hipótesis de trabajo y así, poder
tomar las decisiones más adecuadas en cada caso particular, basadas en la evidencia
científica suministrada por estos análisis.
El trabajo del experto estadístico no consiste ya sólo en reunir y tabular los datos, sino sobre
todo en el proceso de interpretación de esa información. El desarrollo de la teoría de la
probabilidad ha aumentado el alcance de las aplicaciones de la estadística. La probabilidad
es útil para comprobar la fiabilidad de las inferencias estadísticas y para predecir el tipo y la
cantidad de datos necesarios en un determinado estudio estadístico. Cuando a través de
una muestra pretendemos obtener información de una población entera los datos obtenidos
puede ser diferente a los reales. Son valores aproximados del parámetro desconocido. A
estos valores se les llama Estimaciones.
Al dar una estimación estoy cometiendo un error llamado error de muestreo debido a que no
se esta considerando a toda la población, sino a una parte de ella. Existen procedimientos
que pueden determinar de antemano el error que puedo cometer.
UNIDAD I / ESTADISTICA DESCRIPTIVA.
14
Aparte de estos, existen otros errores que se presentan tanto en encuestas por muestreo
como en las encuestas por censo. Este tipo de errores son mayores y de difícil corrección.
Son errores ajenos al muestreo.
¿Qué es un experimento comparativo? Es una investigación cuya finalidad es comparar los efectos de dos o más estímulos
(tratamientos A y B) aplicados a ciertos entes (unidades de experimentación , , ,).
Para ello se efectúan mediciones sobre los efectos de ambos tratamientos obteniéndose los
resultados ( , , ).
¿Qué es una encuesta por muestreo? Es una investigación que tiene por objetivo la descripción de ciertas características
( , , , … , de una población, mediante el examen de una parte de ella (muestra , ).
La medición de una característica en los elementos de la muestra produce resultados
1 4( y )Y Y . Si el muestreo es probabilístico, todos los elementos de la población tiene una
probabilidad no nula de formar parte de la muestra.
UNIDAD I / ESTADISTICA DESCRIPTIVA.
15
¿Qué es un estudio observacional? Es una investigación comparativa sin la asignación aleatoria que se hace en los
experimentos (o investigación de muestreo no probabilístico), cuya finalidad es también
comparar los efectos que dos o mas condiciones ( A y B) tienen sobre los entes observados
, , ,). Esto se lleva a cabo con extremado cuidado y control.
División de la estadística Se divide en dos partes:
Re( ) Re
( )
copilarDescriptiva Deductiva presentar
CondensarDivisión Estadistica
CaracteristicasInferencial Inferencia
muestras
⎧ ⎧ ⎧⎪ ⎪⎪
⎨⎪ ⎪⎪⎪ ⎪ ⎩⎪ ⎪⎪
⎨ ⎨⎪ ⎪⎪ ⎪⎪ ⎪ ⎧⎪ ⎪ ⎨
⎩⎪ ⎩⎩
a) Estadística descriptiva o deductiva: Es la parte de la estadística que se ocupa de
recopilar, representar y condensar los datos obtenidos del sistema en estudio,
utilizando representaciones gráficas de los datos tabulados.
b) Estadística inferencial o inferencia estadística: Utiliza datos de muestra para hacer
inferencias (característica) acerca de un conjunto de datos grandes – una población
– de cual se selecciono la muestra.
UNIDAD I / ESTADISTICA DESCRIPTIVA.
16
1.1.2 Inferencia estadística. Es la parte de la Estadística dedicada a la formulación de supuestos y estimaciones, para
hacer predicciones y poder sacar conclusiones de los datos obtenidos con el estudio de las
muestras. Y así, poder tomar decisiones con base científica. La Estadística se emplea en el
estudio de los fenómenos naturales, tanto los generados en los laboratorios por los
científicos como aquellos más allá del control humano.
Es una herramienta de uso tan amplio y general que hoy día es difícil imaginar un lugar
donde no pueda emplearse. Más aún, en algunas disciplinas es la herramienta básica de
medición, como por ejemplo en parapsicología para la determinación de PES (percepciones
extra-sensoriales).
1.1.3 Teoría de decisión. Es una herramienta básica para la toma de decisiones, basadas en evidencia científica. La
manera de hacerlo es plantear las hipótesis posibles y luego efectuarle una prueba o test
estadístico.
Llamada en algunas obras: la docimasia estadística. Cuando una conclusión se valida con
un test estadístico se la llama de tipo cuantitativo, en caso contrario la decisión adoptada es
de tipo cualitativo, o sea, una decisión tomada en forma subjetiva. El método consiste en
definir una probabilidad de aceptación del orden del 95% (o rechazo) de una hipótesis de
trabajo planteada, que permite calcular los valores críticos (o límites de aceptación) de un
estadígrafo calculado a partir de los valores medidos. La importancia de este tema es muy
grande. Basta decir que el objeto final de la Estadística es la toma de decisiones.
1.1.4 Población. La población, es el conjunto de todas las muestras posibles, que pueden obtenerse del
sistema en estudio de acuerdo al método de selección empleado.
La población, entonces, es el total hipotético de los datos que se estudian o recopilan. El
tamaño de la población se saca contando el número de elementos componentes. A veces es
un conteo simple, pero otras veces se trata de conteos ordenados.
A continuación muestra las formas de observar una población.
UNIDAD I / ESTADISTICA DESCRIPTIVA.
17
Etapas de la recopilación de datos Etapa 1 - Objetivos de la Recopilación: esta primera etapa consiste en determinar con
claridad qué es lo que se quiere lograr con la recopilación. No siempre es fácil saber lo que se
quiere y menos determinarlo en detalle. Por eso, se deben definir primero los objetivos
generales del trabajo estadístico. Y a partir de ellos se conocerán las variables a medir y así
saber cuáles elementos se necesitarán. Con esto se tiene una primera idea de los alcances y
limitaciones de la tarea a realizar, según sea el tipo de información a obtener de la población en
estudio. Los objetivos deben redactarse concisos, breves y claros. Normalmente, la persona a
cargo de la investigación es la responsable de esta etapa pues tiene una visión más completa y
actualizada del tema en estudio. Por ejemplo, si se necesita la distribución de la población por
edades y sexo, no es lo mismo disponer de la información del último censo realizado que
hacerlo uno mismo.
UNIDAD I / ESTADISTICA DESCRIPTIVA.
18
Etapa 2 - Relevamientos: esta etapa consiste en determinar lo que se tiene para alcanzar los
objetivos definidos en la etapa anterior. Se trata de listar los bienes necesarios para poder hacer
el trabajo, y el listado de los disponibles. Conviene tener en cuenta la siguiente clasificación de
los bienes: Tangibles e Intangibles.
Por su parte, los bienes tangibles son dos:
• Los materiales incluyen los de vidrio, de limpieza, drogas, reactivos, etc.
• Por equipamiento se entiende no sólo los aparatos de medición, sino los accesorios
como muebles y útiles de laboratorio y para oficina.
• El dinero o los recursos monetarios deben ser determinados con mucho detalle para
afrontar gastos e inversiones durante la investigación. Además, hay que determinar los
fondos disponibles y las posibles fuentes financieras adonde poder recurrir.
• La infraestructura incluye a los edificios, laboratorios, electricidad, agua, etc.
• El personal es todo el necesario en sus diferentes niveles, como ser: profesionales,
técnicos, ayudantes, consultores externos, de servicio, etc. Este relevamiento de los
bienes tangibles disponibles y de los necesarios para la recopilación condiciona de
alguna manera los objetivos. Puede ser que se disponga de bienes sobrados para
alcanzar los objetivos, por lo que se pueden plantear metas más ambiciosas. Por otra
parte, puede ocurrir que los bienes disponibles estén lejos de cubrir los necesarios, y
por lo tanto se deberán resignar los objetivos planteados por otros más modestos.
Por su parte, los bienes intangibles son dos:
• la organización de los bienes tangibles, de manera tal de alcanzar los objetivos, y
• los conocimientos para saber cómo usarlos. Esto es el “know how” de cada profesión. Y
también lo es la búsqueda bibliográfica de trabajos similares en revistas especializadas,
textos y otras fuentes de información. Una vez terminada esta etapa, que seguramente
habrá ayudado a depurar la anterior, se debe comenzar a pensar en las diferentes
maneras de hacerlo.
Etapa 3 - Creación de alternativas: esta etapa consiste en saber cómo hacerlo. O sea,
generar distintas alternativas de sistemas de recopilación de datos, de acuerdo con los objetivos
adoptados y los bienes disponibles. Se debe hacer un listado con todas las formas posibles de
UNIDAD I / ESTADISTICA DESCRIPTIVA.
19
efectuar la recopilación a fin de tener un panorama completo. En síntesis, se habla de fuente
propia cuando se decide extraer los datos mediante mediciones. Fuente Primaria es cuando
se toman los datos de otros investigadores que publican los resultados de sus propias
mediciones. Fuente Secundaria es cuando los datos se extraen de publicaciones que usan
como referencia a fuentes primarias.
Etapa 4 - Selección de alternativas: consiste en determinar cuál es la mejor entre las n
alternativas planteadas en la etapa anterior. Se necesita de un método para la adopción de un
criterio de selección. Etapa 5 - Prueba piloto: existe una diferencia entre el diseño en los papeles y la realidad. Es
por eso que siempre es aconsejable hacer una prueba piloto antes de la puesta en marcha para
poder juzgar cómo trabaja el sistema de recopilación de datos. Se sacan unos pocos datos y se
analizan las dificultades no previstas, junto con los resultados. Comparando los valores
obtenidos con los que se esperaba tener, se hace una especie de control previo del sistema.
Etapa 6 - Ajustes: Lo normal es tener que hacer pequeños ajustes que permitan optimizar al
sistema. De las diferencias detectadas en el control de la etapa anterior se sacan indicios. Estos
muestran qué tópicos retocar y surgen nuevas ideas de cómo hacer mejor las cosas.
Básicamente, usando el sentido común se corrigen los principales defectos, como ser: mejorar
el entrenamiento y conocimientos del personal, rediseñar formularios, calibrar equipos de
medición, estimación de la magnitud del error de medición, etc. Pero también hay técnicas de
optimización especiales como son los distintos modelos de la Investigación Operativa. Esta es
una disciplina muy emparentada con estadística y sus modelos más conocidos son: Teoría de
Líneas de Espera, Programación por Camino Crítico (PERT), Programación Dinámica y Lineal,
Reemplazos, Simulaciones, etc. Una vez hechos los ajustes, se vuelve a la etapa anterior y se
efectúa una nueva prueba piloto. Este ensayo permite decidir si se continúa adelante, o si son
necesarios más ajustes. Hay que continuar hasta que todo sea satisfactorio y recién entonces
pasar a la etapa siguiente.
Etapa 7 - Puesta en marcha: una vez optimizado y ajustado el método de obtención de datos
solo resta ponerlo en marcha. De esa manera, se logra la cantidad de datos necesarios para
alcanzar los objetivos previstos. El resultado final es la obtención de un volumen grande de
información que debe ser presentada en forma más resumida y comprensible usando tablas,
gráficos y otras formas, como se verá más adelante.
UNIDAD I / ESTADISTICA DESCRIPTIVA.
20
1.1.5 Muestra aleatoria. La muestra es un conjunto de datos obtenidos de una población cualquiera, con el método de
recopilación elegido. Se la puede imaginar como un subconjunto del conjunto población. Se
toman muestras, cuando no se puede o no conviene, tomar la población entera. Si se tiene una
población de tamaño infinito, no se podrá nunca tomar todas las muestras posibles, como por
ejemplo, las mediciones repetidas de una misma magnitud, que se pueden repetir
indefinidamente mientras el ensayo no sea destructivo (repetidas pesadas en una balanza,
medir la temperatura de un cuerpo, etc.). Hay ocasiones, donde si bien la población es finita, es
tan grande que no resulta práctico tomar todos los casos como por ejemplo, cuando la
población es la especie humana.
Lógicamente, la confiabilidad de las conclusiones extraídas concernientes a una población
dependen de si la muestra se ha escogido apropiadamente de tal modo que represente la
población suficiente. Una forma de hacer esto para poblaciones finitas es asegurarse de que
cada miembro de la población tenga igual oportunidad de encontrarse en la muestra, lo que se
conoce como muestra aleatoria.
1.1.6 Parámetros aleatorios. Parámetro, es toda magnitud que tiene el mismo valor dentro de una población. O sea, no
permite diferenciar entre sí a sus elementos componentes. Existen medidas para realizar
descripciones cuantitativas de los conjuntos de datos, o poblaciones, y de sus muestras,
diferenciándose entre ellas las que se refieren a las mismas poblaciones y a las muestras. Para
el caso de las poblaciones, las medidas que las describen se denominan parámetros, y suelen
estar representadas con letras griegas (por ejemplo y ). Por otro lado, para el caso de
aquellas medidas que describen a una muestra se les llama estadísticos o estimadores, y son
representados por letras de nuestro alfabeto (por ejemplo, x o s). Tales medidas cuantitativas
que describen a las poblaciones y a las muestras se comentarán enseguida. Se considera que
se conoce una población cuando conocemos la distribución de probabilidad f(x) de la variable
aleatoria asociada X.
1.1.7 Enfoque clásico. La utilización de esta metodología implica una cierta filosofía o visión de la Probabilidad y la
Estadística muy particular y poco frecuente. Lo particular de este enfoque es que es
razonablemente más sencillo que el enfoque clásico de la estimación y el ensayo de hipótesis, a
UNIDAD I / ESTADISTICA DESCRIPTIVA.
21
los que reemplaza y mejora por cuanto no implica aproximaciones ni requiere de la introducción
de nuevos conceptos.
1.1.8 Enfoque Bayesiano. En el enfoque Bayesiano de la Estadística, la incertidumbre presente en un modelo dado,
p(xθ), es representada a través de una distribución de probabilidad p (θ ) sobre los posibles
valores del parámetro desconocido θ (típicamente multidimensional) que define al modelo. El
Teorema de Bayes,
)()()(
)(xp
xppxp
θθθ =
Permite entonces incorporar la información contenida en un conjunto de datos ),...,( 1 nxxx = ,
produciendo una descripción conjunta de la incertidumbre sobre los valores de los parámetros
del modelo a través de la distribución final p (xθ ).
Desafortunadamente, la implementación de las técnicas Bayesianas usualmente requiere de un
esfuerzo computacional muy alto. La mayor parte de este esfuerzo se concentra en el cálculo
de ciertas características de la distribución final del parámetro de interés (que llamaremos
resúmenes inferenciales). Así, por ejemplo, para pasar de una distribución conjunta a una
colección de distribuciones y momentos marginales que sean útiles para hacer inferencias
sobre subconjuntos de parámetros, se requiere integrar. En la mayoría de los casos los
resúmenes inferenciales básicos se reducen a integrales de la forma:
( ) ( ) ( ) ( )∫= θθθθθ dzppggS
El análisis Bayesiano, en otra diferencia con la estadística clásica, permite incorporar en un
estudio información de distintas fuentes, incluso subjetivas.
De esta manera concibe, en un plano muy general, las técnicas estadísticas como mecanismos
para la actualización del conocimiento particular o general, individual o colectivo sobre el estado
que guarda la naturaleza."
UNIDAD I / ESTADISTICA DESCRIPTIVA.
22
1.2 Descripción de datos. 1.2.1 Datos agrupados y no agrupados. La principal diferencia entre ambas es que en datos agrupados se ordenan los datos de la
tabla y se almacenan en el orden del índice. Los datos agrupados mejoran el rendimiento al
almacenar los datos de la tabla junto con datos de nivel de hoja del índice. Una ordenación es
un conjunto de datos numéricos en orden creciente o decreciente. Este método de presentación
de la información consiste en presentar los datos por medio de una tabla o cuadro.
Los datos no agrupado no apunta directamente a la fila de la tabla, sino que utiliza los valores
del índice agrupado como punteros a las filas de la tabla.
Una fila de datos consiste en datos recogidos que no han sido organizados numéricamente.
1.2.2 Frecuencia de clase. La frecuencia de clase o frecuencia de categoría, es el número de observaciones que caen
dentro de una categoría
Altura ( in) Número de
estudiantes f
60 – 62
63 – 65
66 – 68
69 – 71
72 – 74
7
20
44
29
10
Total 110
1.2.3 Frecuencia relativa. La frecuencia relativa (proporción); de una clase es su frecuencia dividida por la frecuencia total
de todas las clases.
totalestudiante de numerorelativa frecuencia =
UNIDAD I / ESTADISTICA DESCRIPTIVA.
23
Altura ( in) Número de
estudiantes (f)
Frecuencia
relativa
60 – 62 7 0.0636
63 – 65 20 0.1818
66 – 68 44 0.4
69 – 71 29 0.2636
72 – 74 10 0.0909
total 110 1.0000
1.2.4 Punto medio. El punto medio del intervalo de clase, que puede tomarse como representativo de la clase, se
llama marca de clase, que se refiere al punto medio del intervalo de clase y se obtiene
promediando los limites inferior y superior de clase. Así que las marcas de clase del intervalo
60 – 62 es:
60 62 612+
=
1.2.5 Límites. Tomando encuenta la clase 60 - 62 se dice que se llaman límites de clases, el 60 se llama
límite inferior de clase y el 62 se llama límite superior de clase.
1.2.6 Histograma. Es una representación grafica para la distribución de frecuencia. Un histograma o histograma de
frecuencias, consiste en un conjunto de rectángulos con:
a) base en el eje x horizontal, centros en las marcas de clases y longitudes iguales a los
tamaños de los intervalos de clase y
b) áreas proporcionales a las frecuencias de clase.
UNIDAD I / ESTADISTICA DESCRIPTIVA.
24
Altura ( in) Número de
estudiantes (f)
Marca de
clases (X)
60 – 62 7 61
63 – 65 20 64
66 – 68 44 67
69 – 71 29 70
72 – 74 10 73
total 110
1.2.7 Histograma de frecuencia relativa. Altura ( in) Numero de
estudiantes (f)
Frecuencia
relativa
60 – 62 7 0.0636
63 – 65 20 0.1818
66 – 68 44 0.4
69 – 71 29 0.2636
72 – 74 10 0.0909
total 110 1.0000
01020304050
58 61 64 67 70 73 76
frecuencia
00.050.1
0.150.2
0.250.3
0.350.4
0.45
1 2 3 4 5
Frec
. Rel
.
Histograma de frecuencia relativa
ProblemasProblema:
extinción m
terrenos ag
numero tot
Á
T
a) Re
1.3. Me 1.3.1 MedMedia aritmSean, x1 ,x
al valor dad
o bien
s propuestoEl rascón t
mundial. En
grícolas de G
al de rascon
Área
1. Tierr
2. Tierr
3. Orkn
4. Lewi
5. N. U
6. S. U
7. Hebr
8. Coll
9. Irlan
10. Repu
Total
esuma los da
edidas de
dia aritmémética x2 ,....,xn , n o
do por:
os: errestre o g
fechas reci
Gran Bretañ
nes terrestres
ra bajas de E
ras altas de e
ney y Shetlan
is y Harris
ist y Benbec
ist y Barra
ridas interior
y Tirce
da del norte
ublica de Irla
atos con un h
tendencia
ética, geom
observacione
UN
guión de las
entes se lle
ña e Irlanda
s que habitan
Escocia
escocia
nd
cula
res
anda
histograma
a central.
métrica y p
es muéstrale
NIDAD I /
codornices
evó a cabo
(Journal of
n en cada de
ponderad
es, definirem
ESTADIST
es una ave
un censo d
applied ecol
e 10 áreas ge
Numero
ter
1
a.
os promedio
TICA DESC
e europea e
e rascones
logy) . La ta
eográficas.
de rascones
restres
12
15
34
76
82
155
76
121
128
789
1488
o de estas ob
CRIPTIVA
25
en peligro de
cantores en
abla indica e
s
bservaciones
A.
5
e
n
el
s
UNIDAD I / ESTADISTICA DESCRIPTIVA.
26
Nx
N
x
Nxxxx
x
N
jj
n ∑∑==
++++= =1321 ...
Ejemplo: La media aritmética de los números 8, 3. 5, 12 y 10
6.7538
51012538
==++++
=x
En esta expresión, puede verse que el promedio de un conjunto de números se calcula
sumándolos y luego dividiendo la suma por el número de sumandos. La estadística promedio
representa muy bien el 'centro' de la distribución de los datos cuando se trata de casos
'normales'. Entendemos aquí por casos 'normales' aquellos conjuntos de datos que no
contienen valores muy extremos, valores muy alejados de los demás. Debido a que en muchas
situaciones experimentales, el comportamiento de los datos es relativamente 'normal', el
promedio es muy usado, convirtiéndose en la primera estadística calculada para representar el
'centro' de la población en estudio.
si los números X1 , X2 , ... , Xk , ocurren f1 , f2 , ... , fk , veces respectivamente, su media
aritmética
Nfx
x
f
xf
fffxfxfxf
x k
jj
N
jjj
k
kk
∑
∑
∑
=
=++++++
=
=
=
1
1
21
2211
......
Ejemplo: si 5, 8, 6, y 2 ocurren con frecuencias 3, 2, 4 y 1 , respectivamente, su media
aritmética es
( )( ) ( )( ) ( )( ) ( )( ) 7.510
22416151423
21648253=
+++=
++++++
=x
Ejemplo:En la tabla siguiente se tiene los puntajes obtenidos en la Prueba de Aptitud
Académica por 30 jóvenes, provenientes de un mismo establecimiento educacional:
UNIDAD I / ESTADISTICA DESCRIPTIVA.
27
P. Ap. Verbal P. Ap. Matemática P. Ap. Verbal P. Ap. Matemática
685 664 730 642
490 548 618 533
580 567 690 654
705 665 680 542
470 452 690 678
620 506 710 732
650 618 742 749
702 718 685 570
643 621 595 574
540 555 674 657
575 502 722 747
600 531 585 620
500 478 505 482
680 558 600 643
587 600 543 500
Con los datos de la tabla, se puede caracterizar el establecimiento educacional usando el
promedio de cada una de las pruebas. Lo primeros que se necesita es calcular la suma de los
puntajes de los treinta alumnos.
Dichas sumas son las siguientes:
Prueba de Aptitud Verbal 18796
Prueba de Aptitud Matemática 17906
Promedio Prueba de Aptitud Verbal 626.533
Promedio Prueba de Aptitud Matemática 596.867
La Media gLa media g
del product
media geo
Ejemplo: la
G = 3 2( )
Promedio En muchas
Para hacer
necesario a
importancia
Definición.
A veces as
WK depend
Ejemplo: si
estudiante
calificacion
Ejerciciosa) hal
5, y
So
geométrica geométrica e
to:
n ometrica =
a media geom
4( ) 8( ) 4=
Ponderados ocasiones,
r presente e
asignar a cad
a dentro de l
sociada con l
dientes de la
i el examen
tiene calific
nes media es
s: llar la media
y 4
lución: 4.8
G s el resultad
nnxxx .... 21
métrica g de
. las observa
ste hecho e
da uno de és
a muestra.
los números
a relevancia a
final de un c
cación 85 e
s :
( )(71=x
aritmética d
UN
o de multipli
2, 4 y 8
mathca
aciones recol
n la búsqued
stos, una po
X1, X2, . . .
asignada a c
curso cuanta
en el exame
) ( )( )311
90170++
+
de los númer
NIDAD I /
car todos los
ad gmea
lectadas no
da de un 'ce
nderación (p
XK , ciertos f
cada número
a tres veces
en final y 7
) ( )( )3
853=
+
ros 5, 3, 6, 5
ESTADIST
s elementos
an 2 4, 8,( ) 4=
tienen la mis
entro' que re
peso o coefic
factores peso
o.
mas que una
70 y 90 en
835
415=
5, 4, 5, 2, 8, 6
TICA DESC
y extraer la
sma importa
epresente a
ciente) que re
os ( o pesos
a evaluación
los dos pa
6, 5, 4, 8, 3,
CRIPTIVA
28
raíz n -ésima
ancia relativa
los datos, es
epresente su
) W1, W2 ,...
n parcial y un
arciales , las
4, 5, 4, 8, 2
A.
8
a
a.
s
u
,
n
s
2,
UNIDAD I / ESTADISTICA DESCRIPTIVA.
29
b) De entre 100 números. 20 son cuatros, 40 son cinco, 30 son seis y los restantes siete.
Hallar su media aritmética.
Solución: 5.30
c) las calificaciones finales de un estudiante en cuatro asignatura fueron 82, 86, 90 y 70. si
los respectivos créditos otorgados a esos cursos son 3, 5, 3 y 1 , determinar una
calificación media a apropiada.
Solución: 85
d) De los 80 empleados de una empresa 6 cobra $ 7,00 a la hora y el resto $4,00 a la
hora. Hallar cuanto cobran de media por hora
Solución: $6.25
e) Cuatro grupos de estudiantes, consistentes en 15, 20, 10 y 18 individuos, dieron pesos
medios de 162, 148, 153 y 140 lb., respectivamente . hallar el peso medio de todos
esos estudiantes.
Solución: 150 lb.
1.3.2 Mediana. La mediana de un conjunto de números ordenados en magnitud es el valor central o la media
de los dos valores centrales.
Datos sin agrupar: Ejemplo: el conjunto de números 3, 4, 4, 5, 6, 8, 8, 8, 10 tiene mediana 6
mathcad median 3 4, 4, 5, 6, 8, 8, 8, 10,( ) 6=
Ejemplo: el conjunto de números 5, 5, 7, 9, 11, 12, 15, 18 tiene mediana ½ ( 9 + 11 ) = 10
Ejemplo: las notas de un estudiante en seis exámenes han sido 84, 91, 72, 68, 87 y 78. hallar la
mediana de esas notas.
Solución : las notas ordenadas son 68, 72, 78, 84, 87 , 91,
1 / 2 ( 78 + 84 ) = 81
UNIDAD I / ESTADISTICA DESCRIPTIVA.
30
Ejemplo: cinco oficinistas cobran $ 4.52, $ 5.96, $ 5.28, $ 11.20 y $ 5.75 a la hora. Hallar la
mediana
Solución = la ordenación es: $ 4.52, $ 5.28, $ 5.75 , $ 5.96, $ 11.20
La mediana es $ 5.75
Datos Agrupados: Las gráficas siguientes, correspondientes a polígonos de frecuencias absolutas acumuladas,
nos plantea de nuevo dos situaciones diferentes a considerar:
( )C
f
fN
Lmedianamediana ⎟
⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜
⎝
⎛ −+=
∑ 1
12
donde:
L1 = frontera inferior de la clase mediana.
N = numero de datos (frecuencia total)
(Σ f ) 1 = suma de la frecuencia de las clases inferiores a la de la mediana.
f mediana = frecuencia de la clase mediana.
C = anchura del intervalo de clase de la mediana.
Ejemplo:
Altura ( in) Numero de estudiantes (f)
60 – 62 7
63 – 65 20
66 – 68 44
69 – 71 29
72 – 74 10
total 110
Para indicar la posición : 552
110= ; entonces se procede a realizar una suma con las
frecuencias (f) hasta llegar al valor 55 o mas de 55 pero no menos, para suponer que ahí cae la
mediana solo que se tiene que hacer es verificar su valor.
7 + 20+ 44 = 71 por lo tanto cae en el intervalo 66 – 68
UNIDAD I / ESTADISTICA DESCRIPTIVA.
31
Datos:
5.651 =L ; 110=N ; ( ) 271=∑ f ; 44=medianaf ; 35.655.68 =−=C
( ) 41.67344
272
110
5.65 =⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜
⎝
⎛ −+=mediana
1.3.3 Moda. La moda de un conjunto de números es el valor que ocurre con mayor frecuencia; es decir, el
valor mas frecuente. La moda puede no existir e incluso no ser única. Esta estadística debe
usarse con cuidado. Su objetivo es identificar zonas donde se producen aglomeraciones de
datos, sin embargo, podría ser que por el solo hecho de haber una observación extra en un
punto aislado, éste pudiese aparecer como una moda.
Este inconveniente es especialmente delicado cuando hay pocas observaciones en la muestra,
tal como es el caso que se observa en el gráfico siguiente.
Datos sin agrupar: Ejemplo: el conjunto 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18 tiene como moda 9
mathcad mode 2 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18,( ) 9= Ejemplo: el conjunto 3, 5, 8, 10, 12, 15, 16 n o tiene moda
Ejemplo: el conjunto 2, 3, 4, 4, 4, 5, 5, 7 , 7, 7, 9 tiene dos modas 4 y 7 y se llama bimodal
Una distribución única se llama unimodal.
Datos agrupados :
CLa ⎟⎟⎠
⎞⎜⎜⎝
⎛Δ+Δ
Δ+=
21
11mod
donde:
L 1 = frontera inferior de la clase modal ( clase que contiene a la moda)
UNIDAD I / ESTADISTICA DESCRIPTIVA.
32
Δ1 = exceso de la frecuencia modal sobre la clase inferior inmediata
Δ2 = exceso de la frecuencia modal sobre la clase superior inmediata
c = anchura del intervalo de clase modal.
Ejemplo :
Altura ( in) Numero de estudiantes (f)
60 – 62 7
63 – 65 20
66 – 68 44
69 – 71 29
72 – 74 10
total 110
De acuerdo a la definición la moda será quien tenga mayor frecuencia por lo tanto cae en el
intervalo 66 – 68
5.651 =L ; 2220441 =−=Δ ; 1529442 =−=Δ ; 35.655.68 =−=C
( ) 28.6731522
225.65mod =⎟⎠⎞
⎜⎝⎛
++=a
Medidas de posición relativa (Cuartiles, deciles y percentiles). Las calificaciones de exámenes y ciertos tipos de datos sociológicos y de salud con frecuencia
se presentan en una forma que describe la posición de una observación relativa a las demás
observaciones de la distribución.
Si un conjunto de datos están ordenados por magnitud, el valor central ( o la media de los dos
centrales) que divide al conjunto en dos mitades iguales es la mediana. Extendiendo esa idea,
podemos pensar en aquellos valores que dividen al conjunto en cuatro partes iguales.
Estos valores, denotados por Q 1, Q 2, Q3 , se llaman primer, segundo y tercer cuartil. Q 2
coincide con la mediana.
UNIDAD I / ESTADISTICA DESCRIPTIVA.
33
Análogamente los valores que dividen a los datos en 10 partes iguales se llaman deciles y se
denotan D1 , D2 , . . . , D9 , mientras los valores que se dividen en 100 partes iguales se llaman
percentiles denotados P1 , P2 , . . . , P 99 .
Colectivamente cuartiles, deciles y percentiles se denominan cuantiles.
Altura ( in) Numero de estudiantes (f)
60 – 62 7
63 – 65 20
66 – 68 44
69 – 71 29
72 – 74 10
total 110
Hallar Cuartiles:
N / 4 = 100 / 4 = 25
5 + 18 = 23 63 – 65 → 62.5 – 65.5
Q1 65.525 23−( )
423( )+ 65.64=
2N / 4 = 2(100) / 4 = 50
5 + 18 = 23 63 – 65 → 62.5 – 65.5
5 + 18 + 42 = 65
Q2 65.550 23−( )
423( )+ 67.43=
3N / 4 = 3(100) / 4 = 75
5 + 18 +42 = 65 66 – 68 → 65.5 – 68.5
Q3 68.575 65−( )
273( )+ 69.61=
UNIDAD I / ESTADISTICA DESCRIPTIVA.
34
Hallar los deciles
10010
10= D1 62.510 5−( )
183( )+ 63.33=
2 100( )10
20= D2 62.520 5−( )
183( )+ 65=
5+ 18 = 23
3 100( )10
30= D3 65.530 23−( )
423( )+ 66=
5+ 18 = 23
4 100( )10
40= D4 65.540 23−( )
423( )+ 66.71=
5+ 18 = 23
5 100( )10
50= D5 65.550 23−( )
423( )+ 67.43=
5+ 18 = 23
6 100( )10
60= D6 65.560 23−( )
423( )+ 68.14=
5+ 18 + 42 = 65
7 100( )10
70= D7 68.570 65−( )
273( )+ 69.06=
5+ 18 + 42 = 65
8 100( )10
80= D8 68.580 65−( )
273( )+ 70.17=
5+ 18 + 42 = 65
UNIDAD I / ESTADISTICA DESCRIPTIVA.
35
D99 100( )
1090= 68.5
90 65−( )27
3( )+ 71.28=
Hallar percentiles P 35 y P 50
35 (100) / 100 = 35
P35 65.535 23−( )
423( )+ 66.36=
50 (100) / 100 = 50
P50 65.550 23−( )
423( )+ 67.43=
1.4. Medidas de dispersión. Medidas de Posición. La descripción de un conjunto de datos, incluye como un elemento de importancia la ubicación
de éstos dentro de un contexto de valores posibles. Por ejemplo, puede resultar de interés
conocer qué porcentaje de automóviles equipados con convertidor catalítico sobrepasa el
estándar de emisiones de gases que es aceptable según la legislación vigente. Ya no se trata
en este ejemplo de describir el centro de un conjunto de datos de esta naturaleza. Es necesario
ser más específico. Es probable que la emisión promedio de un conjunto de automóviles esté
dentro de la norma. Pero,¿es aceptable que el 25% de ellos no la cumpla?. Se ve, entonces,
que la descripción debe entregar más información de los datos para cubrir las necesidades
informativas referentes a un problema en particular.
1.4.1 Varianza. Cuadrada para poder compararla con la media y otras medidas análogas. Esta es la idea del
desvío estándar o desviación típica. También es la fórmula planteada por Gauss en su teoría
de errores casuales. Como se verá más adelante, la curva de Gauss tiene dos puntos de
inflexión simétricos ubicados a una distancia del centro igual al desvío estándar.
UNIDAD I / ESTADISTICA DESCRIPTIVA.
36
La varianza La varianza es el promedio de los cuadrados de las desviaciones de cada elemento, x i,
respecto a la media,
La varianza de un conjunto de datos se define como el cuadrado de la desviación típica y viene
dada en consecuencia por S2 . varianza poblacional (s 2)
( )N
xxS
N
jj∑
=
−= 1
2
2 ;
para una población finita con n determinaciones.
Y la varianza muestral (σ 2)
11
)(1
2
12
1
2
2
−
⎟⎠
⎞⎜⎝
⎛
−=
−
−=
∑∑
∑=
=
=
nn
yy
n
xxn
i
n
ii
i
n
ii
σ
1.4.2 Desviación estándar. A su vez, el desvío estándar poblacional (σ ) y el muestral (s) se obtienen con la raíz
cuadrada de las respectivas varianzas y Representa el alejamiento de una serie de números de
su valor medio. Se calcula a partir de todas las desviaciones individuales con respecto a la
media.
Para poder conocer o calcular tanto la media como la varianza poblacionales, se necesita
conocer la población completa. Esto es imposible en el caso de mediciones repetidas porque
estas son infinitas desde el punto de vista teórico. Análogamente, la cantidad total de muestras
que se le puede extraer a un paciente, para hacerle una determinación en el laboratorio, es tan
grande que puede ser considerada infinita. Por lo tanto, para todos
( )N
xxS
N
jj∑
=
−= 1
2
El uso de esta estadística es recomendado en aquellos conjuntos de datos que ofrecen cierto
grado de simetría respecto de su centro. En estos casos, habitualmente tiene sentido medir
discrepancias de un valor con el centro de los datos usando múltiplos de la desviación estándar.
UNIDAD I / ESTADISTICA DESCRIPTIVA.
37
A modo de ejemplo, se puede decir que un valor está bastante alejado del centro de los datos si
su distancia de él supera dos desviaciones estándar. Apoyándose en la idea anterior, la
desviación estándar puede ser usada para determinar valores que se encuentran 'cerca' del
centro. Este uso va más allá de la simple descripción, en otros ámbitos de Estadística es usada
para tomar decisiones respecto de la población de la que fue extraída la muestra.
Ejercicio: Calcular la desviación estándar de los siguientes datos:
68.2, 69.3, 70.4, 71.5, 72.6, 73.7, 74.8,
prom68.2 69.3+ 70.4+ 71.5+ 72.6+ 73.7+ 74.8+
7:=
prom 71.5=
desv68.2 71.5−( )2 69.3 71.5−( )2
+ 70.4 71.5−( )2+ 71.5 71.5−( )2
+ 72.6 71.5−( )2+ 73.7 71.5−( )2
+ 74.8 71.5−( )2+
7:=
desv 2.2=
Problema: Investigadores del Massachussets Institute of Technology (MIT) estudiaron las
propiedades espectroscopicas de asteroides de la franja principal con un diámetro menor a los
10 kilometros. Los asteroides se observaron con el telescopio hiltener del observatorio del MIT;
se registro el numero N de exposiciones de imagen espectral independientes para cada
observación. Aquí se presentan los datos de 40 observaciones de asteroides obtenidas de
Science.
Numero de exposiciones de imagen espectral independientes para 40
observaciones de asteroides.
3
1
3
6
4
1
3
3
3
4
2
1
3
2
2
2
1
3
2
2
4
3
2
3
1
2
1
2
3
6
3
2
2
1
2
4
3
1
1
2
a) Localice y y s en el listado
b) Construya los intervalos
sysysy 3,2, ±±±
UNIDAD I / ESTADISTICA DESCRIPTIVA.
38
1.4.3 Desviación media. La desviación media o desviación promedio de un conjunto de N números x 1, x 2, . . . , x N es
abreviada por MD y se define como:
N
xxDM
N
jj∑
=
−= 1..
Ejemplo: hallar la desviación media del conjunto 2, 3, 6, 8, 11
media aritmetica = 2 3+ 6+ 8+ 11+
56=
con mathcad mean 2 3, 6, 8, 11,( ) 6=
desviacion media
MD = 2 6− 3 6−+ 6 6−+ 8 6−+ 11 6−+
52.8=
1.4.4 Desviación mediana. Es la media aritmética de los valores absolutos de las desviaciones de los valores de la
variable con respecto a la mediana.
n
nMexD jj
Me∑ −
=
1.4.5 Rango. La más simple de todas es el rango, definido como la diferencia entre el valor máximo y
mínimo del grupo de datos. De fácil cálculo y comprensión, tiene la desventaja de ser la
medida más grosera de la dispersión.
Dos grupos de datos, con muy distinta dispersión pueden llegar a tener rangos similares. Uno
de ellos puede tener el 99% de los valores junto al mínimo y el otro el 99% junto al máximo,
pero al tener extremos iguales, sus rangos resultarían iguales a pesar de ser tan disímiles
intrínsecamente.
RANGO = Máx. datos - Mín. datos
1.5 Pa 1.5.1 LaSean, x1
observacio
o bien
Ejemplo: La
1.5.2 LaA su vez,
cuadrada d
de su valor
media.
arámetros
a media. ,x2 ,....,xn
ones al valor
a media aritm
a desviacióel desvío e
de las respec
r medio. Se c
para dato
, n obser
dado por:
Nx
xx
∑=
=
mética de los
8=x
ón típica.estándar pob
ctivas varian
calcula a par
UNID
os agrupa
rvaciones m
Nx
Nxxx
∑
+++ 321
s números 8
51253 +++
blacional (
nzas y Repre
rtir de todas
∑==
k
jf
S 1
DAD I / ES
dos.
muéstrales,
xn∑
=++ ...
, 3. 5, 12 y 1
538102
=+
σ ) y el mue
esenta el ale
las desviacio
( )
∑=
−
k
jj
jj
f
xxf
1
2
STADISTIC
definiremos
N
xN
jj∑
=1
0
6.7=
estral ( s) s
ejamiento de
ones individu
CA DESCR
promedio
e obtienen c
una serie d
uales con res
RIPTIVA.
39
de estas
con la raíz
e números
specto a la
UNIDAD I / ESTADISTICA DESCRIPTIVA.
40
68.2 5 -2.63586.9477 34.7385
69.3 11 -1.53582.3588 25.9472
70.4 14 -0.43580.1900 2.6595
71.5 11 0.6642 0.4411 4.8521
72.6 7 1.7642 3.1122 21.7856
73.7 3 2.8642 8.2034 24.6101
74.8 2 3.9642 15.7145 31.4290
Total 53 146.0219
70.8358
Desv.
Est. = 1.6599
Y la desviación media para datos agrupados:
∑
∑
=
=
−= k
jj
k
jjj
f
xxfDM
1
1
xx j −
xxf jj −
68.2 5 2.6358 13.1792
69.3 11 1.5358 16.8943
70.4 14 0.4358 6.1019
71.5 11 0.6642 7.3057
72.6 7 1.7642 12.3491
73.7 3 2.8642 8.5925
74.8 2 3.9642 7.9283
Total 53 72.3509
70.8358
Desv. Med. = 1.3651
jx jf xx j −2)( xx j − ( )2xxf jj −
=x
jxjf
=x
UNIDAD I / ESTADISTICA DESCRIPTIVA.
41
1.6 Distribución de frecuencias. Reglas generales para formar distribuciones de frecuencias Paso 1: Calcular el intervalo de los datos :
Intervalo = Observación Grande – Observación Pequeña.
Paso 2: Dividir el intervalo entre 5 y 20 clases de igual anchura. El número de clases es
arbitrario, pero se obtiene una mejor descripción grafica si se utiliza pocas clases cuando el
número de datos es pequeño y un mayor número de clases cuando el conjunto de datos es
grande. La frontera de la clases más baja ( o primera) deberá estar situada por debajo de la
medición más pequeña, y el ancho de la clase debe ser tal que ninguna observación pueda
quedar exactamente en la frontera de una clases. Se pueden calcular de la siguiente
manera:
clasedeanchuraclases
Intervalo #
=
O bien,
claseclasesdeanchura
Intervalo #=
Si la precisión es:
una unidad entera (1) entonces es 1/2 = 0.5, la primera clases comenzará restándole 0.5
a la observación mas pequeño
una unidad decimal (0.1) entonces es 0.1/2 = 0.05, la primera clases empieza restándole
0.05 a la observación mas pequeña.
Paso 3: para cada clase, contar el numero de observaciones que caen en esa clase. Este
número es la frecuencia de clases.
Datos obtenidos. Por ejemplo: en la tabla que sigue se recogen los pesos de 40 estudiantes varones de una
universidad, con precisión de 1 libra. Construir una distribución de frecuencias.
UNIDAD I / ESTADISTICA DESCRIPTIVA.
42
138
146
168
146
161
164
158
126
173
145
150
140
138
142
135
132
147
176
147
142
144
136
163
135
150
125
148
119
153
156
149
152
154
140
145
157
144
165
135
128
El método textual tiene una ventaja importante con respecto a los otros: se puede influenciar
al lector. El autor puede resaltar ciertas cifras de su interés, puede remarcar conceptos
apropiados para sus fines y hacer pasar desapercibidos a los otros. Se puede focalizar la
atención del lector, de tal manera que pase por alto ciertos datos evitando que saque sus
propias conclusiones.
1.6.1 Distribuciones numéricas. Método de presentación de datos tabular. Una ordenación es un conjunto de datos numéricos en orden creciente o decreciente. Este
método de presentación de la información consiste en presentar los datos por medio de una
tabla o cuadro.
Ejercicio: Los tiempos de CPU que se indican en la tabla representan el tiempo ( en
segundos) que 25 trabajos estuvieron en control de la unidad central de proceso (CPU) de
una computadora mainframe grande. Estos 25 valores representan una muestra
seleccionada de los 1000 tiempos de CPU .
Tabla de muestra de n = 25 tiempos de
CPU de trabajos (en segundos ).
1.17
1.23
0.15
0.19
0.92
1.61
3.76
2.41
0.82
0.75
1.16
1.94
0.71
0.47
2.59
1.38
0.96
0.02
2.16
3.07
3.53
4.75
1.59
2.01
1.40
UNIDAD I / ESTADISTICA DESCRIPTIVA.
43
1.6.2 Distribuciones categóricas. Al resumir grandes colecciones de datos, es útil distribuirlos en clases o categorías, y
determinar el número de individuos que pertenecen a cada clase, llamado frecuencia de
clase. Una disposición tabular de los datos por clase junto con las correspondientes
frecuencias de clase, se llama distribución de frecuencia ( o tabla de frecuencia).
Ejemplos:
Intervalo = 4.75 – 0.02 = 4.73
Anchura aproximada de la clase es:
7.0676.0773.4
7int
≅==ervalo
Nota: si deseo saber la anchura de la clases entonces selecciono de manera arbitraria el
numero de clases en este caso el numero 7 indica el numero de clases ( filas) y el resultado
es la anchura de cada clases.
Como la tabla contiene datos con valores de centésimas entonces el grado de precisión es de
0.01 por lo tanto se deberá de utilizar 0.01/2 = 0.005. por lo cual al intervalo menor que es de
0.02 se le restara 0.05. Ahora el primer valor en la tabla iniciara en 0.015.
clase Intervalo de
clase
Tabulación Frec.
1
2
3
4
5
6
7
0.015 – 0.715
0.715 – 1.415
1.415 – 2.115
2.115 – 2.815
2.815 – 3.515
3.515 – 4.215
4.215 – 4.915
/////
/////////
////
///
/
//
/
5
9
4
3
1
2
1
UNIDAD I / ESTADISTICA DESCRIPTIVA.
44
1.6.3 Distribuciones acumuladas.
Intervalo de
clase
Frecuencia
de clase
Distribución
acumulada
0.015 – 0.715
0.715 – 1.415
1.415 – 2.115
2.115 – 2.815
2.815 – 3.515
3.515 – 4.215
4.215 – 4.915
5
9
4
3
1
2
1
5
14
18
21
22
24
25
Total 25
1.6.4 Distribuciones porcentuales. En esta distribución tenemos a la distribución de frecuencia relativa y ojivas porcentuales que
se encuentra multiplicando la frecuencia relativa por cien para que los resultados estén en
porcentajes . Y la suma de todas estas frecuencias resulte al 100 %.
NFrecuenciarelativaFrecuencia =
100* Re . lFrecojivasyrelativaFrecuencia =
05
1015202530
1 2 3 4 5 6 7
Distribucion acumulada
UNIDAD I / ESTADISTICA DESCRIPTIVA.
45
Intervalo de clase Frec. Frec. relativa frecuencia relativa y ojivas porcentual (%)
0.015 – 0.715
0.715 – 1.415
1.415 – 2.115
2.115 – 2.815
2.815 – 3.515
3.515 – 4.215
4.215 – 4.915
5
9
4
3
1
2
1
0.20
0.36
0.16
0.12
0.04
0.08
0.04
20
36
16
12
4
8
4
Total 25 1.00
1.6.5 Distribuciones porcentuales acumuladas. Las distribuciones porcentuales acumuladas resulta dividiendo la distribución acumulada
entre la frecuencia total y multiplicada por 100 para que los resultados resulten en porcentajes
y al terminar el ultimo calculo debe ser al cien por ciento.
Intervalo de clase Frec. Distribución acumulada Dist. porcentuales acumulada (%)
0.015 – 0.715
0.715 – 1.415
1.415 – 2.115
2.115 – 2.815
2.815 – 3.515
3.515 – 4.215
4.215 –4.915
5
9
4
3
1
2
1
5
14
18
21
22
24
25
20
56
72
84
88
96
100 Total 25
0
5
10
15
20
25
30
35
40
1 2 3 4 5 6 7
Frecuencia relativa porcentual
UNIDAD I / ESTADISTICA DESCRIPTIVA.
46
100*.N
ADDPA =
1.7 Técnicas de agrupación de datos. 1.7.1 Límites de clase.
118 y 122 se llaman limite de clase
118 se llama limite inferior y 122 limite superior de clase
1.7.2 Rango de clase. El tamaño o anchura de un intervalo de clase es la diferencia entre las fronteras de clase
superior e inferior.
C = 122.5 – 117.5 = 5
1.7.3 Fronteras de clase. Si se dan valores con precisión de 1 unidad, el intervalo de clase 118 – 122 incluye
teóricamente todas las medias desde 117.5 a 122.5 y se llaman frontera de clase o
verdaderos limites de clase; el menor 117.5 es la frontera inferior y el mayor 122.5 la frontera
superior.
0
20
40
60
80
100
120
1 2 3 4 5 6 7
Distribucion Porcentual Acumulada
UNIDAD I / ESTADISTICA DESCRIPTIVA.
47
1.7.4 Marca de clase. La marca de clase es el punto medio del intervalo de clase y se obtiene promediando los
limites inferior y superior de clase . Así que las marcas de clase del intervalo 118 – 122 es
(118 + 122 ) / 2 = 120
1.7.5 Intervalo de clase. Los valores de 118 – 122 se les llaman intervalo de clases
Ejercicio: en la tabla siguiente se recogen los pesos de 40 estudiantes varones de una
universidad, con precisión de 1 libra. Construir:
a) una distribución de frecuencia.
b) Distribución de frecuencia acumulada
c) Grafica de la distribución de frecuencia acumulada
d) Frecuencia relativa
e) Frecuencia relativa y ojivas porcentuales
f) Grafica de la frecuencia relativa y ojivas porcentuales
g) Distribución porcentuales acumuladas
h) Grafica de la distribución porcentuales acumuladas
119 138 146 156
125 140 147 157
126 140 147 158
128 142 148 161
132 142 149 163
135 144 150 164
135 144 150 165
135 145 152 168
136 145 153 173
138 146 154 176
Los pesos son 176 y 119 lb.; El intervalo es 176 – 119 = 57 lb.
Si se usan 5 u 20 intervalos de clase su anchura será:
114.115
57== o 385.2
2057
==
UNIDAD I / ESTADISTICA DESCRIPTIVA.
48
Una colección razonable es 5 lb.
Se inicia desde un valor de precisión antes para que se considere que los valores deben de
caer dentro del intervalo.
Gráficos
Peso (lb.) Frecuencia Distribución
acumulada
frecuencia
relativa
frecuencia
relativa y ojivas
porcentual (%)
Distribución
porcentuales
acumulada (%)
118 – 122 1 1 0.025 2.5 2.5
123 – 127 2 3 0.05 5 7.5
128 – 132 2 5 0.05 5 12.5
133 – 137 4 9 0.1 10 22.5
138 – 142 6 15 0.15 15 37.5
143 – 147 8 23 0.2 20 57.5
148 – 152 5 28 0.125 12.5 70
153 – 157 4 32 0.1 10 80
158 – 162 2 34 0.05 5 85
163 – 167 3 37 0.075 7.5 92.5
168 – 172 1 38 0.025 2.5 95
173 - 177 2 40 0.05 5 100
Total 40 1.00 100
a) Distribución acumulada b) Distribución relativa y ojivas c) Frecuencia porcentual
acumulada
0
10
20
30
40
50
1 2 3 4 5 6 7 8 9 10 11 12
Distribución acumulada
0
5
10
15
20
25
1 2 3 4 5 6 7 8 9 10 11 12
frecuencia relativa y ojivas porcentual (%)
0
20
40
60
80
100
120
1 2 3 4 5 6 7 8 9 10 11 12
frecuencia porcentual acumulada
UNIDAD I / ESTADISTICA DESCRIPTIVA.
49
Ejercicio. Tabla de una distribución de frecuencia de puntuaciones de un examen final de álgebra
Grado Numero de estudiante Marca de clases (x) fx
30 – 39
40 – 49
50 – 59
60 – 69
70 – 79
80 – 89
90 - 100
1
3
11
21
43
32
9
34.5
44.5
54.5
64.5
74.5
84.5
95.0
34.5
133.5
599.5
1354.5
3203.5
2704
855
N = Σ f = 120 Σfx = 8884.5
a) marca de clases x 1 = 34.5; x2 =44.5; x3 = 54.5 ; x4 = 64.5 ; x5 = 74.5; x6 = 84.5 ; x7 = 95.0
b) media aritmética
04.74120
5.8884=== ∑
Nfx
x
c) mediana 120/2 = 60
1 + 3 + 11 + 21 = 36
1 + 3 + 11 + 21 + 43 = 79
70 – 79 43 clase mediana
110 120 130 140 150 160 170 180
PESO
0
2
4
6
8
10
12
14
Frequ
ency
Mean = 146.8Std. Dev. = 13.051N = 40
Histogram
UNIDAD I / ESTADISTICA DESCRIPTIVA.
50
( ) 08.751043
362
120
5.69 =⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜
⎝
⎛ −+=mediana
d) moda 70 – 79 43
( ) 17.76101122
225.69mod =⎟⎠⎞
⎜⎝⎛
++=a
Problema: En la tabla siguiente se recogen los pesos de 40 estudiantes varones de una
universidad con precisión de una libra.
Peso (lb.) Frecuencia (f)
118 – 126
127 – 135
136 – 144
145 – 153
154 – 162
163 – 171
172 – 180
3
5
9
12
5
4
2
N = Σf = 40
Hallar:
a) Marca de clases
b) Media aritmética
c) Mediana y moda
d) trazar un histograma y polígono de frecuencia
1.7.6 Diagrama de tallos y hojas. Un método para iniciar el análisis exploratorio de los datos, previo al uso de los métodos
estadísticos tradicionales, y que además proporciona información rápida, visual y es
relativamente nueva, es la representación gráfica de tallos y hoja. Esta representación se
basa en la ordenación de los datos a manera de gráfico, pero sin llegar a ello, utilizando las
decenas y las unidades.
UNIDAD I / ESTADISTICA DESCRIPTIVA.
51
78 93 61 100 70 83 88 74 97 72
66 73 76 81 83 64 91 70 77 86
Ahora pensaremos en cada uno de los datos separando las decenas de las unidades, es decir,
el número 51 se verá como 5 | 1.
6
7
8
9
10
1 6 4
8 0 4 2 3 6 0 7
3 8 1 3 6
3 7 1
0
Para entenderle un poco más, hemos de decir que el primer renglón que dice 6 | 1 6 4 quiere
decir que entre la lista de datos se encuentran los valores 61, 66 y 64. Esta es la representación
gráfica tallos y hoja, donde cada renglón es una posición de tallos y cada dígito de la derecha
es una hoja.
El procedimiento para realizarla es primero empezar con los tallo, es decir la columna de la
izquierda, y después dato por dato ir llenando las hojas a la derecha de la línea vertical, en el
tronco correspondiente. Además, si se desean tener los datos ordenados, y hay gente que lo
prefiere así, se pueden ordenar las hojas en cada renglón para que la representación quede
como sigue:
6
7
8
9
10
1 4 6
0 0 2 3 4 6 7 8
1 3 3 6 8
1 3 7
0
En realidad una representación de tallos y hojas presenta la misma información que la lista
original de datos, pero de una manera mucho más compacta (especialmente si la lista de datos
es más grande) y manejable.
Ejemplo: Los tiempos de CPU que se indican en la tabla representan el tiempo (en segundos)
que 25 trabajos estuvieron en control de la unidad central de proceso (CPU) de una
UNIDAD I / ESTADISTICA DESCRIPTIVA.
52
computadora mainframe grande. Estos 25 valores representan una muestra seleccionada de los
1000 tiempos de CPU:
1.17
1.23
0.15
0.19
0.92
1.61
3.76
2.41
0.82
0.75
1.16
1.94
0.71
0.47
2.59
1.38
0.96
0.02
2.16
3.07
3.53
4.75
1.59
2.01
1.40
Ramas hojas Frecuencia
0
1
2
3
4
02 15 19 47 71 75 82 92
96
16 17 23 38 40 59 61 94
01 16 41 59
07 53 76
75
9
8
4
3
1
25
1.7.7 Diagrama de Pareto. El Diagrama de Pareto constituye un sencillo y gráfico método de análisis que permite
discriminar entre las causas más importantes de un problema (los pocos y vitales) y las que lo
son menos (los muchos y triviales). El Diagrama de Pareto es una gráfica en donde se
organizan diversas clasificaciones de datos por orden descendente, de izquierda a derecha por
medio de barras sencillas después de haber reunido los datos para calificar las causas. De
modo que se pueda asignar un orden de prioridades.
Ventajas:
• Ayuda a concentrarse en las causas que tendrán mayor impacto en caso de ser
resueltas.
• Proporciona una visión simple y rápida de la importancia relativa de los problemas.
• Ayuda a evitar que se empeoren alguna causas al tratar de solucionar otras y puede
ser resueltas.
UNIDAD I / ESTADISTICA DESCRIPTIVA.
53
• Su formato altamente visible proporciona un incentivo para seguir luchando por más
mejoras.
¿Cuándo se utiliza?
• Al identificar un producto o servicio para el análisis para mejorar la calidad.
• Cuando existe la necesidad de llamar la atención a los problema o causas de una forma
sistemática.
• Al identificar oportunidades para mejorar
• Al analizar las diferentes agrupaciones de datos (ej: por producto, por segmento, del
mercado, área geográfica, etc.)
• Al buscar las causas principales de los problemas y establecer la prioridad de las
soluciones
• Al evaluar los resultados de los cambios efectuados a un proceso (antes y después)
• Cuando los datos puedan clasificarse en categorías
• Cuando el rango de cada categoría es importante
Pareto es una herramienta de análisis de datos ampliamente utilizada y es por lo tanto útil en la
determinación de la causa principal durante un esfuerzo de resolución de problemas. Este
permite ver cuáles son los problemas más grandes, permitiéndoles a los grupos establecer
prioridades.
En casos típicos, los pocos (pasos, servicios, ítems, problemas, causas) son responsables por
la mayor parte el impacto negativo sobre la calidad. Si enfocamos nuestra atención en estos
pocos vitales, podemos obtener la mayor ganancia potencial de nuestros esfuerzos por mejorar
la calidad.
Un equipo puede utilizar la Gráfica de Pareto para varios propósitos durante un proyecto para lograr mejoras:
• Para analizar las causas
• Para estudiar los resultados
• Para planear una mejora continua
• Las Gráficas de Pareto son especialmente valiosas como fotos de “antes y después”
para demostrar qué progreso se ha logrado. Como tal, la Gráfica de Pareto es una
herramienta sencilla pero poderosa.
UNIDAD I / ESTADISTICA DESCRIPTIVA.
54
¿Cómo se utiliza?
• Seleccionar categorías lógicas para el tópico de análisis identificado (incluir el periodo
de tiempo).
• Reunir datos. La utilización de un check List puede ser de mucha ayuda en este paso.
• Ordenar los datos de la mayor categoría a la menor
• Totalizar los datos para todas las categorías
• calcular el porcentaje del total que cada categoría representa
• trazar los ejes horizontales (x) y verticales (y primario - y secundario)
• trazar la escala del eje vertical izquierdo para frecuencia (de 0 al total, según se calculó
anteriormente)
• de izquierda a derecha trazar las barras para cada categoría en orden descendente. Si
existe una categoría “otros”, debe ser colocada al final, sin importar su valor. Es decir,
que no debe tenerse en cuenta al momento de ordenar de mayor a menor la frecuencia
de las categorías.
• trazar la escala del eje vertical derecho para el porcentaje acumulativo, comenzando
por el 0 y hasta el 100%
• trazar el gráfico lineal para el porcentaje acumulado, comenzando en la parte superior
de la barra de la primera categoría (la mas alta)
• dar un título al gráfico, agregar las fechas de cuando los datos fueron reunidos y citar la
fuente de los datos.
• analizar la gráfica para determinar los “pocos vitales”
Consejos para la construcción / interpretación Como hemos visto, un Diagrama de Pareto es un gráfico de barras que enumera las categorías
en orden descendente de izquierda a derecha, el cual puede ser utilizado por un equipo para
analizar causas, estudiar resultados y planear una mejora continúa.
Dentro de las dificultades que se pueden presentar al tratar de interpretar el Diagrama de
Pareto es que algunas veces los datos no indican una clara distinción entre las categorías. Esto
puede verse en el gráfico cuando todas las barras son más o menos de la misma altura.
Otra dificultad es que se necesita más de la mitad de las categorías para sumar más del 60%
del efecto de calidad, por lo que un buen análisis e interpretación depende en su gran mayoría
de un buen análisis previo de las causas y posterior recogida de datos.
UNIDAD I / ESTADISTICA DESCRIPTIVA.
55
En cualquiera de los casos, parece que el principio de Pareto no aplica. Debido a que el mismo
se ha demostrado como válido en literalmente miles de situaciones, es muy poco probable que
se haya encontrado una excepción.
Es mucho más probable que simplemente no se haya seleccionado un desglose apropiado de
las categorías.
Esto nos lleva a la conclusión que para llevar a cabo un proceso de Resolución de Problemas
/Toma de Decisiones (RP/TD) es necesario manejar cada una de las herramientas básicas de la
calidad, tanto desde el punto de vista teórico como desde su aplicación.
La interpretación de un Diagrama de Pareto se puede definir completando las siguientes
oraciones de ejemplo:
“Existen (número de categorías) contribuyentes relacionados con (efecto).
Pero estos (número de pocos vitales) corresponden al (número) % del total (efecto). Debemos
procurar estas (número) categorías pocos vitales, ya que representan la mayor ganancia
potencial para nuestros esfuerzos.”
Relación con otras herramientas Un Diagrama de Pareto generalmente se relaciona con:
• diagrama de Causa y Efecto (Ishikawa)
• Check List de Revisión
• Check List de reunión de datos
• Matriz para la Planeación de Acciones
Ejemplo: Un fabricante de heladeras desea analizar cuáles son los defectos más frecuentes que
aparecen en las unidades al salir de la línea de producción.
Para esto, empezó por clasificar todos los defectos posibles en sus diversos tipos:
UNIDAD I / ESTADISTICA DESCRIPTIVA.
56
Tipo de Defecto Detalle del Problema
Motor no detiene No para el motor cuando alcanza Temperatura
No enfría El motor arranca pero la heladera no enfría
Burlete Def. Burlete roto o deforme que no ajusta
Pintura Def. Defectos de pintura en superficies externas
Rayas Rayas en las superficies externas
No funciona Al enchufar no arranca el motor
Puerta no cierra La puerta no cierra correctamente
Gavetas Def. Gavetas interiores con rajaduras
Motor no arranca El motor no arranca después de ciclo de parada
Mala Nivelación La heladera se balancea y no se puede nivelar
Puerta Def. Puerta de refrigerador no cierra herméticamente
Otros Otros Defectos no incluidos en los anteriores
Posteriormente, un inspector revisa cada heladera a medida que sale de producción registrando
sus defectos de acuerdo con dichos tipos.
Después de inspeccionar 88 heladeras, se obtuvo una tabla como esta:
Tipo de Defecto Detalle del Problema Frec.
Burlete Def. Burlete roto o deforme que no ajusta 9
Pintura Def. Defectos de pintura en superficies externas 5
Gavetas Def. Gavetas interiores con rajaduras 1
Mala Nivelación La heladera se balancea y no se puede nivelar 1
Motor no arranca El motor no arranca después de ciclo de parada 1
Motor no detiene No para el motor cuando alcanza Temperatura 36
No enfría El motor arranca pero la heladera no enfría 27
No funciona Al enchufar no arranca el motor 2
Otros Otros Defectos no incluidos en los anteriores 0
Puerta Def. Puerta de refrigerador no cierra herméticamente 0
UNIDAD I / ESTADISTICA DESCRIPTIVA.
57
Puerta no cierra La puerta no cierra correctamente 2
Rayas Rayas en las superficies externas 4
Total: 88
Pero ¿Cuáles son los defectos que aparecen con mayor frecuencia? Para hacerlo más
evidente, antes de graficar podemos ordenar los datos de la tabla en orden decreciente de frecuencia:
Tipo de Defecto Detalle del Problema Frec. Frec. Rel. Prop. acum.
Motor no
detiene
No para el motor cuando alcanza
Temperatura
36 0.4091
0.4091
No enfría El motor arranca pero la heladera no enfría 27 0.3068 0.7159
Burlete Def. Burlete roto o deforme que no ajusta 9 0.1023 0.8182
Pintura Def. Defectos de pintura en superficies externas 5 0.0568 0.8750
Rayas Rayas en las superficies externas 4 0.0455 0.9205
No funciona Al enchufar no arranca el motor 2 0.0227 0.9432
Puerta no cierra La puerta no cierra correctamente 2 0.0227 0.9659
Gavetas Def. Gavetas interiores con rajaduras 1 0.0114 0.9773
Mala Nivelación La heladera se balancea y no se puede
nivelar
1 0.0114
0.9886
Motor no
arranca
El motor no arranca después de ciclo de
parada
1 0.0114
1.0000
Puerta Def. Puerta de refrigerador no cierra
herméticamente
0 0.0000
1.0000
Otros Otros Defectos no incluidos en los anteriores 0 0.0000 1.0000
Total: 88 1.0000
Vemos que la categoría “otros” siempre debe ir al final, sin importar su valor. De esta manera, si
hubiese tenido un valor más alto, igual debería haberse ubicado en la última fila.
UNIDAD I / ESTADISTICA DESCRIPTIVA.
58
Ahora resulta evidente cuales son los tipos de defectos más frecuentes. Podemos observar
que los 3 primeros tipos de defectos se presentan en el 82 % de las heladeras,
aproximadamente. Por el Principio de Pareto, concluimos que: La mayor parte de los defectos
encontrados en el lote pertenece sólo a 3 tipos de defectos, de manera que si se eliminan las
causas que los provocan desaparecería la mayor parte de los defectos.
Ejemplo: Considere un problema de interés para la División de Economía Comercial ( BED ,
Business Economics División) del Departamento del trabajo de Estados Unidos. Cada año, la
BED monitorea las empresas que fracasan y clasifican cada fracaso en categorías. Estas
clasificaciones se basan en opiniones de acreedores informados y los informes la BED. Estas
frecuencias se muestran en el diagrama de Pareto.
Causas subyacentes Frec. Frec. Rel. Proporción acum.
Incompetencias
Experiencia desequilibrada
Falta de experiencia gerencial
Falta de experiencia de línea
Causas desconocidas
Otras causas
698
314
236
111
83
2
0.477
0.215
0.161
0.076
0.057
0.014
0.477
0.692
0.853
0.929
0.986
1.000
Totales 1463 1.000
0.0000
0.5000
1.0000
1.5000
1 3 5 7 9 11
0
0.5
1
1.5
1 2 3 4 5 6
UNIDAD I / ESTADISTICA DESCRIPTIVA.
59
1.7.8 Diagrama de puntos. 78 93 61 100 70 83 88 74 97 72
66 73 76 81 83 64 91 70 77 86
1.8 Histograma. 1.8.1 Diagrama de barras. En este tipo de gráfica, sobre los valores de las variables se levantan barras estrechas de
longitudes proporcionales a las frecuencias correspondientes. Se utilizan para representar
variables cuantitativas discretas. Consiste en representar las cantidades con rectángulos de
igual base, y de altura proporcional a los valores respectivos. Los intervalos libres entre barras
también deben ser del mismo tamaño, aunque a veces algunos autores las muestran pegadas.
1.8.2 Polígono de frecuencias. Otra forma de representación de un uso menos común, y muy parecida a las gráficas de líneas,
es el polígono de frecuencias. La diferencia fundamental entre ambas es que en el polígono de
frecuencias se añaden dos clases con frecuencias cero: una antes de la primera clase con
0
20
40
60
80
100
120
0 5 10 15 20 25
UNIDAD I / ESTADISTICA DESCRIPTIVA.
60
datos y otra después de la última. El resultado es que se "sujeta" la línea por ambos extremos al
eje horizontal y lo que podría ser una línea separada del eje se convierte, junto con éste, en un
polígono.
El siguiente ejemplo corresponde al porcentaje del PIB gastado en docencia e investigación
durante el año de 1990 en cinco países (fuente: Revista "Ciencia y Desarrollo", 1994,
XIX(114):12):
Un polígono de frecuencia es un grafico de trozos de las frecuencias de clase con relación a la
marca de clase. Puede obtenerse conectando los puntos medios de las partes superiores de los
rectángulos de los histogramas. Se suelen añadirse longitudes PQ y RS a las marcas de clase
extremas como asociadas a una frecuencia de clase cero.
1.8.3 Ojivas. Una gráfica similar al polígono de frecuencias es la ojiva, pero ésta se obtiene de aplicar
parcialmente la misma técnica a una distribución acumulativa y de igual manera que éstas,
existen las ojivas mayor que y las ojivas menor que.
UNIDAD I / ESTADISTICA DESCRIPTIVA.
61
Existen dos diferencias fundamentales entre las ojivas y los polígonos de frecuencias (y por
ésto la aplicación de la técnica es parcial):
Un extremo de la ojiva no se "amarra" al eje horizontal, para la ojiva mayor que sucede con el
extremo izquierdo; para la ojiva menor que, con el derecho.
En el eje horizontal en lugar de colocar las marcas de clase se colocan las fronteras de clase.
Para el caso de la ojiva mayor que es la frontera menor; para la ojiva menor que, la mayor.
Las siguientes son ejemplos de ojivas, a la izquierda la mayor que, a la derecha la menor que,
utilizando los datos que se usaron para ejemplificar el histograma:
La ojiva mayor que (izquierda) se le denomina de esta manera porque viendo el punto que está
sobre la frontera de clase "4:00" se ven las visitas que se realizaron en una hora mayor que las
4:00 horas (en cuestiones temporales se diría: después de las 4:00 horas). De forma análoga,
en la ojiva menor que la frecuencia que se representa en cada frontera de clase son el número
de observaciones menores que la frontera señalada (en caso de tiempos sería el número de
observaciones antes de la hora que señala la frontera).
1.8.4 Gráficas circulares. En un diagrama de este tipo, los 360º de un círculo se reparten proporcionalmente a las
frecuencias de los distintos valores de la variable. Resultan muy adecuados cuando hay pocos
valores, o bien cuando el carácter que se estudia es cualitativo. El diagrama de sectores
siguiente refleja el resultado de una encuesta (realizada a 300 personas) sobre los tipos de
película preferidos por el público en general:
UNIDAD I / ESTADISTICA DESCRIPTIVA.
62
1.9 Distribuciones muéstrales.
Como una estadística es una variable aleatoria que depende solo de la muestra observada,
debe tener una distribución de probabilidad. Esta distribución de probabilidad de una estadística
se llama distribución muestral. La distribución muestral de la estadística depende del tamaño de
la población, el tamaño de las muestras y el método de elección de las muestras
Si se selecciona n elementos de una población de modo tal que cada conjunto de n elementos
de la población tenga la misma probabilidad de ser seleccionado, se dice que los n elementos
constituyen una muestra aleatoria.
UNIDAD I / ESTADISTICA DESCRIPTIVA.
63
El resultado de un experimento estadístico se puede registrar como un valor numérico o como
una representación descriptiva. Cuando se lanza un par de dados y el total es un resultado de
interés, registramos un valor numérico. El estadístico se interesa en primer lugar en el análisis
de los datos numéricos. En cualquier estudio, el número de observaciones posibles puede ser
pequeño, grande pero finito o infinito. Por ejemplo si a los alumnos estudiantes de cierta
escuela se les hacen una pruebas de sangre y el tipo sanguíneo se puede clasificar en ocho
maneras. Puede ser AB, A, B u O, con un signo mas o uno menos, que dependen de la
presencia o ausencia del antígeno R h. la clasificación de tipos sanguíneos solo podemos tener
tantas observaciones como estudiantes haya en la escuela. El proyecto por tanto tiene como
resultados un numero finito de observaciones.
Sea x 1 , x 2, ..., x n variable aleatorias independientes, cada una con la misma distribución de
probabilidad f (x). Definimos entonces a x 1 , x 2, ..., x n como una muestra aleatoria de tamaño n
de la población f(x) y escribimos su distribución de probabilidad conjunta como:
1 2 1 2( , ,..., ) ( ) ( ),..., ( )n nF x x x f x f x f x=
La distribución de probabilidad de una estadística se llama distribución muestral. La distribución
de probabilidad de ⎯x se llama distribución la media.
La distribución muestral de una estadística depende del tamaño de la población, el tamaño de
las muestras y el método de elección de las muestras.
Se debe ver las distribuciones muéstrales de x y S2 como el mecanismo a partir del cual
haremos finalmente inferencias de los parámetros µ y σ 2.
Cuando las muestras son lo suficientemente grandes, se pueden hacer inferencias analíticas
bastante extensas, con pocos y simples recursos, en comparación con técnicas más refinadas
de la Estadística. Esto es conveniente desde un punto de vista didáctico.
La Teoría del muestreo es el estudio de las relaciones entre una población y las muestras que
se extraen de ella. Del análisis de las muestras se pueden estimar o inferir datos de la población
como su media (μ ), varianza ( 2σ ), etc., llamados parámetros poblacionales. Cuando la
población sea finita y de un tamaño manejable en tiempo y costo, los valores poblacionales se
calculan directamente, sin necesidad del muestreo.
UNIDAD I / ESTADISTICA DESCRIPTIVA.
64
Uno de los propósitos de la estadística inferencial es estimar las características poblacionales
desconocidas, examinando la información obtenida de una muestra, de una población. El
punto de interés es la muestra, la cual debe ser representativa de la población objeto de
estudio. Se seguirán ciertos procedimientos de selección para asegurar de que las muestras
reflejen observaciones a la población de la que proceden, ya que solo se pueden hacer
observaciones probabilísticas sobre una población cuando se usan muestras representativas
de la misma.
Muestras Aleatorias Cuando nos interesa estudiar las características de poblaciones grandes, se utilizan muestras
por muchas razones; una enumeración completa de la población, llamada censo, puede ser
económicamente imposible, o no se cuenta con el tiempo suficiente.
A continuación se verá algunos usos del muestreo en diversos campos:
1. Política. Las muestras de las opiniones de los votantes se usan para que los candidatos
midan la opinión pública y el apoyo en las elecciones.
2. Educación. Las muestras de las calificaciones de los exámenes de estudiantes se usan para
determinar la eficiencia de una técnica o programa de enseñanza.
3. Industria. Muestras de los productos de una línea de ensamble sirve para controlar la calidad.
4. Medicina. Muestras de medidas de azúcar en la sangre de pacientes diabéticos prueban la
eficacia de una técnica o de un fármaco nuevo.
5. Agricultura. Las muestras del maíz cosechado en una parcela proyectan en la producción los
efectos de un fertilizante nuevo.
6. Gobierno. Una muestra de opiniones de los votantes se usaría para determinar los criterios
del público sobre cuestiones relacionadas con el bienestar y la seguridad nacional.
Tipos de distribuciones muéstrales:
• Distribución muestral de la media con varianza conocida.
• Distribución muestral de diferencia de medias.
• Distribución muestral de proporción.
• Distribución muestral de diferencia de proporciones.
• Distribución muestral de varianza.
• Distribución muestral de razón de varianza.
UNIDAD 2
PROBABILIDAD
Objetivo: Conocerá los conceptos básicos de probabilidad para aplicarlos en la solución de Problemas.
UNIDAD II / PROBABILIDAD.
66
2.1 Teoría elemental de probabilidad. La Teoría de la Probabilidad constituye la base o fundamento de la Estadística, ya que las
inferencias que hagamos sobre la población o poblaciones en estudio se moverán dentro de
unos márgenes de error controlado, el cual será medido en términos de probabilidad.
Así pues, es común y corriente hablar de la probabilidad de un suceso, entendiendo como tal
un número entre 0 y 1, de forma que si éste es cercano a 0 (a l), el suceso tiene poca
(mucha) probabilidad de ocurrir o haber ocurrido.
Vemos, pues, que conviene precisar en cada caso de qué se está hablando, tratando de
evitar afirmaciones tan comunes en los medios de comunicación como la de "... mañana es
posible que llueva pero no es probable...".
2.1.1 Concepto clásico y como frecuencia relativa. E n f o q u e c l a s i c o o a p r i o r i
C o n c e p t oE n f o q u e c o m o f r e c u e n c i a r e l a t i v a o a p o s t e r i o r i
⎧⎪⎪⎪⎨⎪⎪⎪⎩
Concepto clásico
Está basado en el concepto de resultados igualmente verosímiles y motivado por el
denominado Principio de la Razón Insuficiente, el cual postula que si no existe un
fundamento para preferir una entre varias posibilidades, todas deben ser consideradas
equiprobables.
Así, en el lanzamiento de una moneda perfecta la probabilidad de cara debe ser igual que la
de cruz y, por tanto, ambas iguales a 1/2. De la misma manera, la probabilidad de cada uno
de los seis sucesos elementales asociados al lanzamiento de un dado debe ser 1/6. Laplace
recogió esta idea y formuló la regla clásica del cociente entre casos favorables y casos
posibles, supuestos éstos igualmente verosímiles.
El problema aquí surge porque en definitiva igualmente verosímil es lo mismo que
igualmente probable, es decir, se justifica la premisa con el resultado. Además ¿qué ocurre
UNIDAD II / PROBABILIDAD.
67
cuando estamos considerando un experimento donde no se da esa simetría?, o, ¿ qué hacer
cuando el número de resultados posibles es infinito?.
Si un suceso E puede ocurrir en h maneras diferentes de un número total de n maneras
posibles, todos igualmente factibles. Entonces la probabilidad de que ocurra E (o sea un
éxito) se denota por
p = Pr E = h / n
La probabilidad de que no ocurra E (o sea un fracaso) se denota por
q = Pr no E
q = ( n – h ) / n
q = 1 – h /n
q = 1 - p
q = 1 - Pr E
Así pues, p + q = 1 , es decir,
Pr E + Pr no E = 1.
El suceso “ no E “ se denotara por E.
Ejemplo: sea e el suceso de que al tirar un dado una vez salga un 3 o un 4. Hay seis formas
de caer el dado, dando 1, 2, 3, 4, 5, o 6, como E puede ocurrir de dos formas tenemos:
p = Pr E = 2/6 = 1/3
La probabilidad de que no salga ni 3 ni 4 es:
q = Pr no E = 1 – 1/3 = 2/3
Concepto frecuentista
Es un hecho, empíricamente comprobado, que la frecuencia relativa de un suceso tiende a
estabilizarse cuando la frecuencia total aumenta. Surge así el concepto frecuentista de la
probabilidad de un suceso como un número ideal al que converge su frecuencia relativa
cuando la frecuencia total tiende a infinito.
UNIDAD II / PROBABILIDAD.
68
Así, solemos afirmar que la probabilidad de que salga un seis al tirar un dado es 1/6 porque
al hacer un gran número de tiradas su frecuencia relativa es aproximadamente esa. El
problema radica en que al no poder repetir la experiencia infinitas veces, la probabilidad de
un suceso ha de ser aproximada por su frecuencia relativa para un n suficientemente
grande, y ¿cuán grande es un n grande? 0, ¿qué hacer con aquellas experiencias que solo
se pueden repetir una vez?
Si después de n repeticiones de un experimento, donde n es muy grande, un suceso ocurre
h veces entonces la probabilidad del suceso es h / n. Esto también se llama la probabilidad
estimada o empírica, de un suceso se toma como la frecuencia relativa de ocurrencia del
suceso cuando el número de observaciones es muy grande.
Ejemplo: Si en 1000 tiradas de una moneda salen 529 caras, la frecuencia relativa de caras
es: 529/1000 = 0.529
Definición formal de Probabilidad
Los anteriores conceptos de lo que debería ser la probabilidad de un suceso, llevaron a
Kolmogorov a dar una definición axiomática de probabilidad. Es decir, a introducir rigor
matemático en el concepto de probabilidad, de forma que se pudiera desarrollar una teoría
sólida sobre el concepto definido.
Así, llamaremos probabilidad a una aplicación
[ ]1,0: aAP
Tal que:
Axioma 1: Para todo suceso A de A sea ( ) 0≥AP
Axioma 2: Sea P(Ω) = 1
Axioma 3: Para toda colección de sucesos incompatibles, iA con φ=∩ ji AA ji ≠ ,
debe ser
( )∑∞
=
∞
=
=⎟⎟⎠
⎞⎜⎜⎝
⎛
11 ii
ii APAP U
UNIDAD II / PROBABILIDAD.
69
Obsérvese que esta definición no dice cómo asignar las probabilidades ni siquiera a los
sucesos elementales. Solo dice que cualquier asignación que hagamos debe verificar estos
tres axiomas para que pueda llamarse Probabilidad.
2.1.2 Interpretación subjetiva de la probabilidad. Concepto subjetivo
Se basa en la idea de que la probabilidad que una persona da a un suceso debe depender
de su juicio y experiencia personal, pudiendo dar dos personas distintas probabilidades
diferentes a un mismo suceso. Estas ideas pueden formalizarse, y si las opiniones de una
persona satisfacen ciertas relaciones de consistencia, puede llegarse a definir una
probabilidad para los sucesos. El principal problema a que da lugar esta definición es, como
antes dijimos, que dos personas diferentes pueden dar probabilidades diferentes a un mismo
suceso.
La probabilidad subjetiva de un evento se la asigna la persona que hace el estudio, y
depende del conocimiento que esta persona tenga sobre el tema. Precisamente por su
carácter de subjetividad no se considera con validez científica, aunque en la vida diaria es de
las más comunes que se utilizan al no apoyarse más que en el sentido común y los
conocimientos previos, y no en resultados estadísticos.
2.2 Probabilidad de eventos. 2.2.1 Definición de espacio muestral. La Estadística, y por tanto el Cálculo de Probabilidades, se ocupan de los denominados
fenómenos o experimentos aleatorios. El conjunto de todos los resultados posibles
diferentes de un determinado experimento aleatorio se denomina Espacio Muestral asociado
a dicho experimento y se suele representar por Ω. A los elementos de Ω se les denomina
sucesos elementales.
Así por ejemplo, el espacio muestral asociado al experimento aleatorio consistente en el
lanzamiento de una moneda es Ω = Cara, Cruz; el espacio muestral asociado al
lanzamiento de un dado es Ω=1, 2, 3, 4, 5, 6, siendo Cara y Cruz los sucesos elementales
asociados al primer experimento aleatorio y 1, 2, 3, 4, 5 y 6 los seis sucesos elementales del
segundo experimento aleatorio.
UNIDAD II / PROBABILIDAD.
70
A pesar de la interpretación que tiene el espacio muestral, no es más que un conjunto
abstracto de puntos (los sucesos elementales), por lo que el lenguaje, los conceptos y
propiedades de la teoría de conjuntos constituyen un contexto natural en el que desarrollar el
Cálculo de Probabilidades.
Sea A el conjunto de las partes de, es decir, el conjunto de todos los subconjuntos de Ω. En
principio, cualquier elemento de A, es decir, cualquier subconjunto del espacio muestral
contendrá una cierta incertidumbre, por lo que trataremos de asignarle un número entre 0 y 1
como medida de su incertidumbre.
En Cálculo de Probabilidades dichos subconjuntos reciben en el nombre de sucesos, siendo
la medida de la incertidumbre su probabilidad. La tripleta (Ω,A,P) recibe el nombre de
espacio probabilístico.
Por tanto, asociado a todo experimento aleatorio existen tres conjuntos: El espacio muestral
, la clase de los sucesos, es decir, el conjunto de los elementos con incertidumbre asociados
a nuestro experimento aleatorio A, y una función real,
[ ]1,0: aAP
La cual asignará a cada suceso (elemento de A) un número entre cero y uno como medida
de su incertidumbre.
Advertimos no obstante, que la elección del espacio muestral asociado a un experimento
aleatorio no tiene por qué ser única, sino que dependerá de que sucesos elementales
queramos considerar como distintos y del problema de la asignación de la probabilidad
sobre esos sucesos elementales.
Problema: Liste los elementos de cada uno de los espacios muéstrales siguientes:
a) El conjunto de enteros entre 1 y 50 divisibles entre 8
b) El conjunto S = x | x 2 + 4x – 5 = 0
c) Describir un espacio muestral para una tirada de un par de dados
Solución:
a) S = 8, 16, 24, 32, 40, 48 ;
b) S = -5, 1
UNIDAD II / PROBABILIDAD.
71
c)
(1,6)
(1,5)
(1,4)
(1,3)
(1,2)
(1,1)
(2,6)
(2,5)
(2,4)
(2,3)
(2,2)
(2,1)
(3,6)
(3,5)
(3,4)
(3,3)
(3,2)
(3,1)
(4,6)
(4,5)
(4,4)
(4,3)
(4,2)
(4,1)
(5,6)
(5,5)
(5,4)
(5,3)
(5,2)
(5,1)
(6,6)
(6,5)
(6,4)
(6,3)
(6,2)
(6,1)
2.2.2 Discreto y continuo. Modelos discretos: Obedecen a la generación de variables aleatorias discretas generalmente
asociadas a la frecuencia de eventos.
Modelos continuos que generalmente se usan en la modelación individual de los montos o
pérdidas que de alguna u otra manera puedan afectar la caja de la empresa.
2.2.3 Definición de evento. Un evento es un subconjunto de un espacio muestral. La probabilidad de un evento A es
igual a la suma de las probabilidades de los sucesos simples del evento A.
2.2.4 Diagramas de Venn. La relación entre eventos y el correspondiente espacio muestral se puede ilustras de forma
grafica mediante diagramas de Venn. En un diagrama de Venn representamos el espacio
muestral como un rectángulo y los eventos con círculos trazados dentro del rectángulo. Un
universo U puede representarse geométricamente por el conjunto de puntos dentro de un
rectángulo. Tales diagramas denominados diagramas de Venn, sirven para darnos una
intuición geométrica respecto a las posibles relaciones entre conjuntos.
2.2.5 Simbología, uniones e intersecciones. La unión de dos eventos A y B es el evento que ocurre si A o B, o ambos, ocurren en una
sola realización del experimento. Denotaremos la unión de los eventos A y B mediante el
símbolo .BA∪
UNIDAD II / PROBABILIDAD.
72
Intersección: Dados dos conjuntos cualesquiera A y B llamamos "Intersección" de A y B al
conjunto formado por todos los elementos que pertenecen a A y pertenecen a B.
Simbólicamente: BA∩
Diferencia: Dados dos conjuntos cualesquiera A y B llamamos "Diferencia" de A "menos" B
al conjunto formado por los elementos que pertenecen a A y no pertenecen a B.
Simbólicamente: A - B
Complemento: Dados dos conjuntos cualesquiera A y B con B⊂ A (B Subconjunto de A)
llamamos "Complemento de B respecto a A" al conjunto de elementos que pertenecen a A y
no a B, esto es lo que le falta a B para ser igual a A.
Simbólicamente: (A∪ B ) ‘
UNIDAD II / PROBABILIDAD.
73
2.3 Técnicas de conteo. ¿Qué son las técnicas de conteo?. Las técnicas de conteo son aquellas que son usadas
para enumerar eventos difíciles de cuantificar.
Se les denomina técnicas de conteo a las combinaciones, permutaciones y diagrama de
árbol, hay que destacar que éstas nos proporcionan la información de todas las maneras
posibles en que ocurre un evento determinado.
Las bases para entender el uso de las técnicas de conteo son el principio multiplicativo y el
aditivo, los que a continuación se definen y se hace uso de ellos.
Análisis combinatorio. En muchos casos el número de puntos muéstrales en un espacio muestral no es muy
grande y así la enumeración o cuenta directa de los puntos del muestreo necesario para
obtener las probabilidades no es difícil. Sin embargo, surgen problemas cuando la cuenta
directa se convierte en una imposibilidad práctica. En tales casos se emplea el análisis
combinatorio, que podría llamarse una forma sofisticada de contar.
Principio aditivo. A menudo es más fácil calcular la probabilidad de algún evento a partir del conocimiento de
las probabilidades de otros eventos. Esto puede ser cierto si el evento en cuestión se puede
representar como la unión de otros dos eventos o como el complemento de algún evento. A
continuación se presenta varias leyes importantes que con frecuencia simplifica el cálculo de
probabilidades. La primera regla aditiva se aplica a uniones de eventos.
Si se desea llevar a efecto una actividad, la cuál tiene formas alternativas para ser realizada,
donde la primera de esas alternativas puede ser realizada de M maneras o formas, la
segunda alternativa puede realizarse de N maneras o formas ..... y la última de las
alternativas puede ser realizada de W maneras o formas, entonces esa actividad puede ser
llevada a cabo de,
M + N + .........+ W maneras o formas
UNIDAD II / PROBABILIDAD.
74
Problema: Una persona desea comprar una lavadora de ropa, para lo cual ha pensado que
puede seleccionar de entre las marcas Whirpool, Easy y General Electric, cuando acude a
hacer la compra se encuentra que la lavadora de la marca W se presenta en dos tipos de
carga ( 8 u 11 kilogramos), en cuatro colores diferentes y puede ser automática o
semiautomática, mientras que la lavadora de la marca E, se presenta en tres tipos de carga
(8, 11 o 15 kilogramos), en dos colores diferentes y puede ser automática o semiautomática
y la lavadora de la marca GE, se presenta en solo un tipo de carga, que es de 11
kilogramos, dos colores diferentes y solo hay semiautomática. ¿Cuántas maneras tiene esta
persona de comprar una lavadora?
Solución:
M = Número de maneras de seleccionar una lavadora Whirpool
N = Número de maneras de seleccionar una lavadora de la marca Easy
W = Número de maneras de seleccionar una lavadora de la marca General Electric
M = 2 x 4 x 2 = 16 maneras
N = 3 x 2 x 2 = 12 maneras
W = 1 x 2 x 1 = 2 maneras
M + N + W = 16 + 12 + 2 = 30 maneras de seleccionar una lavadora
Problema: Rafael Luna desea ir a las Vegas o a Disneylandia en las próximas vacaciones
de verano, para ir a las Vegas él tiene tres medios de transporte para ir de Chihuahua al
Paso Texas y dos medios de transporte para ir del Paso a las Vegas, mientras que para ir
del paso a Disneylandia él tiene cuatro diferentes medios de transporte,
a) ¿Cuántas maneras diferentes tiene Rafael de ir a las Vegas o a Disneylandia?,
b) ¿Cuántas maneras tiene Rafael de ir a las Vegas o a Disneylandia en un viaje
redondo, si no se regresa en el mismo medio de transporte en que se fue?.
Solución:
a) V = maneras de ir a las Vegas
D = maneras de ir a Disneylandia
V = 3 x 2 = 6 maneras
D = 3 x 4 = 12 maneras
V + D = 6 + 12 = 18 maneras de ir a las Vegas o a Disneylandia
UNIDAD II / PROBABILIDAD.
75
b) V = maneras de ir y regresar a las Vegas D = maneras de ir y regresar a
Disneylandia
V = 3 x 2 x 1 x 2 = 12 maneras
D = 3 x 4 x 3 x 2 = 72 maneras
V + D = 12 + 72 = 84 maneras de ir a las Vegas o a Disneylandia en un viaje redondo
¿Cómo podemos distinguir cuando hacer uso del principio multiplicativo y cuando del
aditivo?
Es muy simple, cuando se trata de una sola actividad, la cual requiere para ser llevada a
efecto de una serie de pasos, entonces haremos uso del principio multiplicativo y si la
actividad a desarrollar o a ser efectuada tiene alternativas para ser llevada a cabo, haremos
uso del principio aditivo.
Principio multiplicativo. Si se desea realizar una actividad que consta de r pasos, en donde el primer paso de la
actividad a realizar puede ser llevado a cabo de N1 maneras o formas, el segundo paso de
N2 maneras o formas y el r-ésimo paso de Nr maneras o formas, entonces esta actividad
puede ser llevada a efecto de;
N1 x N2 x ..........x Nr maneras o formas
El principio multiplicativo implica que cada uno de los pasos de la actividad debe ser llevado
a efecto, uno tras otro.
Problema: ¿Cuántas placas para automóvil pueden ser diseñadas si deben constar de tres
letras seguidas de cuatro números, si las letras deben ser tomadas del abecedario y los
números de entre los dígitos del 0 al 9?,
a) Si es posible repetir letras y números,
b) No es posible repetir letras y números,
c) Cuántas de las placas diseñadas en el inciso b empiezan por la letra D y empiezan
por el cero,
d) Cuantas de las placas diseñadas en el inciso b empiezan por la letra D seguida de la
G.
UNIDAD II / PROBABILIDAD.
76
Solución:
Considerando 26 letras del abecedario y los dígitos del 0 al 9
a) 26 x 26 x 26 x 10 x 10 x 10 x 10 = 175,760,000 placas para automóvil.
b) 26 x 25 x 24 x 10 x 9 x 8 x 7 = 78,624,000 placas para automóvil
c) 1 x 25 x 24 x 1 x 9 x 8 x 7 = 302,400 placas para automóvil
d) 1 x 1 x 24 x 10 x 9 x 8 x 7 = 120,960 placas para automóvil
Problema: ¿Cuántos números telefónicos es posible diseñar, los que deben constar de seis
dígitos tomados del 0 al 9?,
a) Considere que el cero no puede ir al inicio de los números y es posible repetir
dígitos,
b) El cero no debe ir en la primera posición y no es posible repetir dígitos,
c) ¿Cuántos de los números telefónicos del inciso b empiezan por el número siete?,
d) ¿Cuántos de los números telefónicos del inciso b forman un número impar?.
Solución:
a) 9 x 10 x 10 x 10 x 10 x 10 = 900,000 números telefónicos
b) 9 x 9 x 8 x 7 x 6 x 5 = 136,080 números telefónicos
c) 1 x 9 x 8 x 7 x 6 x 5 = 15,120 números telefónicos
d) 8 x 8 x 7 x 6 x 5 x 5 = 67,200 números telefónicos
Problema: En una ciudad los números de teléfono constan de 5 dígitos, cada uno de los
cuales se llama con alguno de los 10 dígitos (0 al 9). ¿Cuántos números diferentes pueden
formularse?
Solución: 10 x 10 x 10 x 10 x 10 = 100,000 números diferentes
2.3.1 Diagrama de árbol. Problema: Suponga que una persona tiene 2 formas de ir de una ciudad A a otra ciudad B; y
una vez llegada a B, tiene 3 maneras de llegar a otra ciudad C, ¿De cuántas maneras podrá
realizar el viaje de A a C pasando por B?
Solución: Si empezó a pie, podrá tomar luego avión, carro o trasatlántico, y si empezó en
bicicleta, también podrá tomar avión, carro o trasatlántico. La persona tuvo 6 formas
diferentes de realizar el viaje que son: (iniciales) pa, pc, pt, ba, bc, bt. (2 x 3 = 6)
UNIDAD II / PROBABILIDAD.
77
Problema: Se va a conformar un comité de 3 miembros compuesto por un representante de
los trabajadores, uno de la administración y uno del gobierno. Si hay 3 candidatos de los
trabajadores, 2 de la administración y 4 del gobierno, determinar cuántos comités diferentes
pueden conformarse, empleando un diagrama de árbol
Problema: Un experimento consiste en lanzar una moneda y después lanzarla una segunda
vez si sale cara. Si sale cruz en el primer lanzamiento, entonces se lanza un dado una vez.
Para listar los elementos del espacio muestral que proporciones mayor información.
UNIDAD II / PROBABILIDAD.
78
Problema: Suponga que se selecciona tres artículos de forma aleatoria de un proceso de
fabricación. Cada articulo se inspecciona y clasifica como defectuoso, D, o sin defectos N.
Problema: Un médico general clasifica a sus pacientes de acuerdo a: su sexo (masculino o
femenino), tipo de sangre (A, B, AB u O) y en cuanto a la presión sanguínea (Normal, Alta o
Baja). Mediante un diagrama de árbol diga en cuantas clasificaciones pueden estar los
pacientes de este médico?
UNIDAD II / PROBABILIDAD.
79
Si contamos todas las ramas terminales, nos damos cuenta que el número de clasificaciones
son 2 x 4 x 3 = 24 mismas que podemos enumerar;
MAN, MAA, MAB, MBN, MBA, MBB, etc, etc.
Problema: Un producto (por ejemplo, hardware para un sistema de computadoras) se puede
embarcar a través de cuatro aerolíneas diferentes, y cada aerolínea puede transportar los
embarques por tres rutas distintas. ¿Cuántas formas distintas de embarcar el producto
existen?
Problema: Dos equipos denominados A y B se disputan la final de un partido de baloncesto,
aquel equipo que gane dos juegos seguidos o complete un total de tres juegos ganados será
el que gane el torneo. Mediante un diagrama de árbol diga de cuantas maneras puede ser
ganado este torneo,
Solución:
A = gana el equipo A; B = gana el equipo B
UNIDAD II / PROBABILIDAD.
80
En este diagrama se muestran que hay solo diez maneras de que se gane el torneo, que se
obtienen contando las ramas terminales de este diagrama de árbol, las que es posible
enumerar;
AA, ABB, ABAA, ABABA, ABABB, etc, etc.
2.3.2 Notación factorial. En algunos problemas de matemáticas se nos presentan multiplicaciones de números
naturales sucesivos tal como:
4 x 3 x 2 x 1 = 24; 3 x 2 x 1 = 6; 2 x 1 = 2.
Para abreviar estas expresiones, se usa una notación especial llamada notación factorial y
nos denota las multiplicaciones sucesivas de n hasta l y se define como:
4 x 3 x 2 x 1 = 4! Se lee“cuatro factorial”
3 x 2 x 1 = 3! Se lee “tres factorial”
En términos generales:
n(n-1)(n-2)...x 2 x 1 = n! Se lee “n factorial”
Propiedades:
a) para n natural n! = n(n-1)!
Ejemplo:
7! = 7 x 6! = 7 x 6 x 5 x 4!
0! = 1
5! = 5 x 4 x 3 x 2 x 1 = 120
4! 3! = (24)(6) = 144
8! 8 7 6 5! 3365! 5!
x x x= =
UNIDAD II / PROBABILIDAD.
81
10!8! 10 9! 8 7 6! 5609!6! 9! 6!
x x x xx
= =
3! 3! 15! 5 4 3! 20x x= =
Cuando n es demasiado grande se suele utilizar la fórmula de Stirling:
! 2 * .n nn n n eπ −≅
2.3.3 Permutación. Una permutación es un arreglo de todo o parte de un conjunto de objetos, el cual tiene una
disposición de elementos en un orden especifico. Es todo arreglo de elementos en donde
nos interesa el lugar o posición que ocupa cada uno de los elementos que constituyen dicho
arreglo.
Teorema : Dado un conjunto de n elementos claramente distintos, se desea seleccionar r elementos de
los n y acomodarlos dentro de r posiciones.
El número de permutaciones diferentes de los n elementos tomados r a la vez se denota por
: n P r y es igual n Pr = n ( n – 1 ) (n – 2 ) . . . ( n – r + 1 )
)!(!rn
nPrn −=
para este caso particular r = n se convierte en:
n P n = n ( n – 1 ) (n – 2 ) . . . 1 = n !
donde n ! = n (n – 1 ) (n – 2 ) . . . (3)(2)(1) y se llama n factorial.
Esta fórmula nos permitirá obtener todos aquellos arreglos en donde el orden es importante
y solo se usen parte (r) de los n objetos con que se cuenta, además hay que hacer notar
que no se pueden repetir objetos dentro del arreglo, esto es, los n objetos son todos
diferentes.
UNIDAD II / PROBABILIDAD.
82
La demostración del teorema anterior es : hay n formas de ocupar la primera posición. Una
vez que se ocupa, hay n – 1 formas de ocupar la segunda, n – 2 formas de ocupar la
tercera, . . . , y (n – r + 1 ) formas de ocupar la n-ésima posición. Aplicaremos la regla de
multiplicativa para obtener
( )( )( ) ( ) ( )rnnrnnnnPrn −
=+−−−=!1...21
Problema: Hallar:
a) 8 P 3 b) 6 P 4 c) 15 P 1 d) 3 P 3
Solución
a) 336
b) 360
c) 15
d) 6
Problema: El numero de ordenaciones o permutaciones diferentes que consisten de 3 letras
cada una y que puede formarse de las 7 letras A, B , C, D, E, F, G, es n = 7 & r = 3
7P3 = 210
Problema: Se quieren sentar 5 hombres y 4 mujeres en una fila de modo que las mujeres
ocupen los sitios pares ¿de cuantas formas pueden sentarse?
Solución:
( 5 P 5 ) ( 4 P 4 ) = 2880 formas
Problema: ¿Cuantas representaciones diferentes serán posibles formar, si se desea que
consten de Presidente, Secretario, Tesorero, Primer Vocal y Segundo Vocal?, sí esta
representación puede ser formada de entre 25 miembros del sindicato de una pequeña
empresa.
Solución:
Por principio multiplicativo:
25 x 24 x 23 x 22 x 21 = 6,375,600 maneras
Por Fórmula:
n = 25, r = 5
UNIDAD II / PROBABILIDAD.
83
25P5 = 25!/ (25 –5)! = 25! / 20! = (25 x 24 x 23 x 22 x 21 x....x 1) / (20 x 19 x 18 x ... x 1) =
6,375,600 maneras de formar la representación
Problema:
a) ¿Cuántas maneras diferentes hay de asignar las posiciones de salida de 8 autos que
participan en una carrera de fórmula uno? (Considere que las posiciones de salida
de los autos participantes en la carrera son dadas totalmente al azar)
b) ¿Cuántas maneras diferentes hay de asignar los primeros tres premios de esta
carrera de fórmula uno?
Solución:
Por principio multiplicativo:
8 x 7 x 6 x 5 x 4 x 3 x 2 x 1= 40,320 maneras de asignar las posiciones de salida de los
autos participantes en la carrera
Por Fórmula:
n = 8, r = 8
8P8= 8! = 8 x 7 x 6 x 5 x 4 x......x 1= 40,320 maneras de asignar las posiciones de salida
......etc., etc.
a) Por principio multiplicativo:
8 x 7 x 6 = 336 maneras de asignar los tres primeros lugares de la carrera
Por fórmula:
n =8, r = 3
8P3 = 8! / (8 – 3)! = 8! / 5! = (8 x 7 x 6 x 5 x ........x1)/ (5 x 4 x 3 x......x1) = 336 maneras de
asignar los tres primeros lugares de la carrera
Problema: ¿Cuántos puntos de tres coordenadas ( x, y, z ), será posible generar con los
dígitos 0, 1, 2, 4, 6 y 9?, Si,
a) No es posible repetir dígitos,
b) Es posible repetir dígitos.
Solución:
a) Por fór
n = 6, r =
6P3 = 6!
Nota: este
b) Por el p
6 x 6 x 6 =
Problema:
ordenarse
Problema:
de química
a) los
b) sol
Solución
a) (4
b) (9
Problema:
Encuentre
Solución:
20
mula
= 3
/ (6 – 3)! = 6
inciso tamb
principio mult
= 216 puntos
De cuántas
en fila en un
Cuatro libro
a se colocan
s libros de ca
lamente los l
P 4 ) (6 P 6 )
P 9 ) (4 P 4 )
Se sacan d
el número de
P 2 = 380
6! / 3! = 6 x 5
ién puede se
tiplicativo
posibles
s maneras 3
taller, de mo
3F
P3 = 3!
3!
os distintos d
en un estant
ada asignatur
libros de mat
) ( 2 P 2 ) ( 3
) = 8709120
dos billetes
e puntos mu
5 x 4 x 3! / 3!
er resuelto p
3 fresadoras
odo que el m
4T
P4 = 4! P4
P4 =
(4!) (4!) (2!)
de matemátic
te. ¿De cua
ra deben est
temáticas de
3 P 3 ) = 207
de lotería d
uéstrales en e
UN
= 6 x 5 x 4 =
or el principi
s, 4 tornos,
mismo tipo de
4T
4 = 4! P
= 4!
(4!) = 16588
cas, seis dife
ntas formas
tar todos junt
eben estar ju
360
de 20 para u
el espacio S
NIDAD II /
= 120 puntos
o multiplicati
4 taladros
e máquina qu
2C
P2 = 2!
8
erentes de f
distintas es
tos,
untos?
un primer y
/ PROBAB
s posibles
ivo
y 2 cepillos
uede juntas.
física y dos d
posible orde
un segundo
BILIDAD.
84
s pueden
diferentes
enarlos si
o premios.
UNIDAD II / PROBABILIDAD.
85
Problema: ¿De cuantas formas puede una organización local de la sociedad americana de
química programar a tres conferencistas para tres reuniones diferentes si todos están
disponibles en cualquiera de cinco fechas posibles?
Solución:
5 P 3 = 60
Problema: El testigo de un accidente, en el que el causante se dio a la fuga, le dijo a la
policía que el numero de placas tenias las letras RLH seguidas de tres dígitos, el primero de
los cuales era un 5. si el testigo no puede recordar los dos últimos dígitos, pero está seguro
que todos los dígitos eran diferentes , encuentre el número máximo de registros de
automóviles que la policía tendrá que revisar.
Solución:
9 P 2 = 72
Problema: En una carrera de coches (50 coches) queremos saber el número de formas
distintas en que se pueden repartir los premios (primero, segundo y tercer lugar)
Solución: 50 P 3 = 117600
Problema: Alguien desea colocar 6 cuadros en línea recta sobre la pared de una biblioteca.
¿De cuantas maneras diferentes lo pueden hacer?
Solución: 6P6 = 720
Problema: ¿De cuantas maneras pueden 10 personas sentarse en una banca si solo hay 4
puestos disponibles?
Solución: 10P4 = 5040
Problemas propuestos: P1.- Un sistema de alarma de seguridad se activa y desactiva introduciendo el código
numérico de tres dígitos apropiados en el orden correcto en un tablero digital.
a) Calcule el número total de posibles combinaciones del código si ningún digito se
puede utilizar dos veces.
b) Calcule el numero total de posibles combinaciones del código si los dígitos se puede
utilizar mas de una vez.
Solución:
a) 10 P 3 = 720 b) (10)(10)(10) = 1000
UNIDAD II / PROBABILIDAD.
86
P2.- Se contrata un servicio de calificación de computadoras para encontrar las tres mejore
marcas de monitores EGA. Se incluirá un total de 10 marcas en el estudio. ¿De cuantas
formas distintas puede el servicio de calificación llegar al ordenamiento final?
Solución:
10 P 3 = 720
P3.- en una carrera de coches (50 coches) queremos saber el número de formas distintas en
que se pueden repartir los premios (primero, segundo y tercer lugar)
Solución: 50 P 3 = 117600
P4.- Alguien desea colocar 6 cuadros en línea recta sobre la pared de una biblioteca. ¿De
cuantas maneras diferentes lo pueden hacer?
Solución: 6P6 = 720
P5.- ¿De cuantas maneras pueden 10 personas sentarse en una banca si solo hay 4
puestos disponibles?
Solución: 10P4 = 5040
Permutaciones con repeticiones. Las permutaciones que ocurren al arreglar objetos en un círculo se llaman permutaciones
circulares. Dos permutaciones circulares no se consideran diferentes a menos que los
objetos correspondientes en los dos arreglos estén precedidos o seguidos por un objeto
diferente conforme recorramos en la dirección de las manecillas del reloj.
Teorema: El numero de permutaciones distintas de n cosas de las que n 1 son de una
clase, n 2 de una segunda clase , ... , n k de una k – esima
!,...,!,!!
21,...,, 21
knnnn nnn
nPk=
Problemas: Obtenga todas las señales posibles que se pueden diseñar con seis banderines,
dos de los cuales son rojos, tres son verdes y uno morado.
Solución:
n = 6 banderines; x1 = 2 banderines rojos; x2 = 3 banderines verdes; x3 = 1 banderín
morado
UNIDAD II / PROBABILIDAD.
87
6P2,3,1 = 6! / 2!3!1! = 60 señales diferentes
Problema:
a) ¿Cuántas claves de acceso a una computadora será posible diseñar con los
números 1,1,1,2,3,3,3,3?,
b) ¿cuántas de las claves anteriores empiezan por un número uno seguido de un dos?,
c) ¿cuántas de las claves del inciso a empiezan por el número dos y terminan por el
número tres?
Solución:
a) n = 8 números; x1 = 3 números uno; x2 = 1 número dos; x3 = 4 números cuatro
8P3,1,4 = 8! / 3!1!4! = 280 claves de acceso
b) n = 6 (se excluye un número uno y un dos); x1 = 2 números uno; x2 = 4 números tres
1 x 1 x 6P2,4 = 1 x 1 x 6! / 2!4! = 15 claves de acceso
El primer número uno nos indica el número de maneras cómo es posible colocar en la
primera posición de la clave de acceso un número uno, debido a que todos los números uno
son iguales, entonces tenemos una sola manera de seleccionar un número uno para la
primera posición, el siguiente número uno nos indica el número de maneras como se
colocaría en la segunda posición el número dos y la expresión siguiente nos indica todos los
arreglos posibles que es posible diseñar con los números restantes.
c) n = 6 (se excluye un número dos y un tres); x1 = 3 números uno; x2 = 3 números tres
1 x 6P3,3 x1 = 1 x 6! / 3!3! = 20 claves de acceso
El número uno inicial nos indica que existe una sola manera de seleccionar el número dos
que va en la primera posición del arreglo, mientras que el número uno final nos indica que
hay una sola manera de seleccionar el número tres que va al final del arreglo aún y cuando
haya cuatro números tres, como estos son iguales al diseñar una permutación es indistinto
cuál número tres se ponga, ya que siempre se tendrá el mismo arreglo y la expresión
intermedia nos indica todos los arreglos posibles a realizar con los números restantes.
Problema: ¿De cuántas maneras es posible plantar en una línea divisoria de un terreno dos
nogales, cuatro manzanos y tres ciruelos?
UNIDAD II / PROBABILIDAD.
88
Solución:
n = 9 árboles; x1 = 2 nogales; x2 = 4 manzanos; x3 = 3 ciruelos
9P2,4,3 = 9! / 2!4!3! = 1260 maneras de plantar los árboles
Problema: Si un equipo de fútbol soccer femenil participa en 12 juegos en una temporada,
¿cuántas maneras hay de que entre esos doce juegos en que participa, obtenga 7 victorias,
3 empates y 2 juegos perdidos?
Solución:
n = 12 juegos; x1 = 7 victorias; x2 = 3 empates; x3 = 2 juegos perdidos
12P7,3,2 = 12! / 7!3!2! = 7,920 maneras de que en la temporada este equipo logre siete
victorias, tres empates y dos juegos perdidos.
Problema: De cuantas formas diferentes se pueden arreglar 3 focos rojos, 4 amarillos, y 2
azules en una serie de luces navideñas con 9 portalámparas?
Solución:
9! 12603!(4!)(2!)
=
Problema: Usted cuanta con 12 analista de sistemas y desea asignar tres al trabajo 1, cuatro
al trabajo 2 y cinco al trabajo 3. ¿De cuantas formas distintas puede efectuar esta
asignación?
Solución:
n1 = 3, n2 = 4, n3 = 5
12! 277203!(4!)(5!)
=
Problema: ¿Cuantas muestras de 4 juntas unidades por soldadura blanda de estaño-plomo
se pueden seleccionar de un lote de 25 juntas de este tipo que están disponibles para
pruebas de resistencia?
25! 12650(4!)(21!)
=
UNIDAD II / PROBABILIDAD.
89
Pruebas ordenadas Se le llama prueba ordenada al hecho de seleccionar r objetos de entre n objetos contenidos
en una urna uno tras otro. Una prueba ordenada puede ser llevada a efecto de dos maneras:
a) Con sustitución (con reemplazo).- En este caso se procede a seleccionar el primer
objeto de entre los n que hay, se observa de qué tipo es y se procede a regresarlo a
la urna, luego se selecciona el siguiente objeto, lo anterior se repite hasta que se
han extraído los r objetos de la prueba, por tanto el número de pruebas ordenadas
de con sustitución se obtiene:
Número total de pruebas ordenadas con sustitución = n x n x n x .........x n = nr
Hay n maneras de seleccionar el primer objeto, luego al seleccionar el segundo objeto, dado
que se ha regresado a la urna el primer objeto, también se tendrán n objetos y así
sucesivamente.
b) Sin sustitución (sin reemplazo).- En este caso se procede a seleccionar el primer
objeto, el cual no es regresado a la urna, luego se selecciona el segundo objeto, lo
anterior se repite hasta completar los r objetos de la prueba, por lo que el número
total de pruebas ordenadas sin sustitución se obtiene:
Número total de pruebas ordenadas sin sustitución = n(n-1)(n-2).........(n-r +1) = nPr
Hay n maneras de seleccionar el primer objeto, luego al seleccionar el segundo objeto, hay
n –1 maneras, dado que el primer objeto no se regresa a la urna, luego cuando se extrae el
r-ésimo objeto, hay (n –r +1) de que sea seleccionado.
Problema: ¿Cuántas maneras hay de que se asignen tres premios de un sorteo en donde el
primer premio es una departamento, el segundo premio es un auto y el tercer premio es un
centro de cómputo, si los participantes en este sorteo son 120 personas,
a) sí la asignación se puede hacer con sustitución,
b) sí la asignación se puede hacer sin sustitución.
Solución:
a) Por principio multiplicativo:
120 x 120 x 120 = 1,728,000 maneras de asignar los premios
Por fórmula: n =120, r = 120
UNIDAD II / PROBABILIDAD.
90
nr = 1203 = 1,728,000 maneras de asignar los tres premios
b) Por principio multiplicativo:
120 x 119 x 118 = 1,685,040 maneras de asignar los premios
Por fórmula:
n = 120, r = 3
120P3 = 120! / (120 – 3)! = 120! / 117! = 120 x 119 x 118 = 1,685,040 maneras de asignar los
premios
Hay que hacer notar que en este caso, como los boletos que son seleccionados ya no
regresan a la urna de donde fueron extraídos, los participantes solo pueden recibir un premio
en caso de que fueran de los afortunados. Esta es la forma en que generalmente se efectúa
un sorteo.
Problema: ¿Cuántas formas hay de asignar las primeras cinco posiciones de una carrera de
autos de fórmula K, si participan 26 autos en esta carrera?. Considere que la asignación es
totalmente al azar.
Solución:
Esta asignación debe ser sin sustitución, esto es, se trata de una prueba ordenada sin
sustitución, por lo que la solución es la que se muestra.
n = 26, r = 5
26P5 = 26! / (26 – 5)! = 26! / 21! = 26 x 25 x 24 x 23 x 22 = 7,893,600 maneras de asignar las
cinco primeras posiciones de salida
Problema: ¿Cuántas formas hay de asignar el orden de participación de las primeras 5
concursantes de 11 finalistas de un concurso de Miss Mundo?
Solución:
Esta asignación debe realizarse sin sustitución, por lo que se trata de una prueba ordenada
sin sustitución.
n = 11, r = 5
UNIDAD II / PROBABILIDAD.
91
11P5 = 11! / (11 – 5)! = 11! / 6! = 11 x 10 x 9 x 8 x 7 = 55,440 maneras de asignar la
participación
2.3.4 Combinaciones. Como ya se mencionó anteriormente, una combinación, es un arreglo de elementos en
donde no nos interesa el lugar o posición que ocupan los mismos dentro del arreglo. En una
combinación nos interesa formar grupos y el contenido de los mismos.
Teorema Se desea escoger una muestra de r elementos de un conjunto de n elementos. Entonces, el
numero de muestras distintas de r elementos que se pueden escoger de n se denota por
( )nr
y es igual
=⎟⎟⎠
⎞⎜⎜⎝
⎛rn
)!(!!
rnrnCrn −
=
Observe que el orden en que se extraen los r elementos no es importante.
Demostración del teorema:
La selección de una muestra de r elementos de un conjunto de n elementos equivale a
dividir los n elementos entre k = 2 grupos: los r que se escogen para la muestra y los ( n – r )
restantes que no se seleccionan. Por tanto, al aplicar el teorema obtenemos:
=⎟⎟⎠
⎞⎜⎜⎝
⎛rn
)!(!!
rnrnCrn −
=
Problema:
Hallar el valor de
a) 7 C4 b) 6 C 5 c) 4 C 4
Solución:
a)
UNIDAD II / PROBABILIDAD.
92
35)!47(!4
!747 =
−=C
b)
6)!56(!5
!656 =
−=C
c)
1)!44(!4
!444 =
−=C
Problema: E l número de maneras en las cuales 3 cartas pueden escogerse o seleccionarse
de un total de 8 cartas diferentes es:
Solución:
56)!38(!3
!8=
−=rn C
Problema: De cuatro químicos y tres físicos encuentre el número de comités que se pueden
formar que consistan en dos químicos y un físico.
Solución:
Químico 4 C 2; Físico 3 C 1
( ) ( )
( ) ( )
4 2 3 14! 3!
2!(4 2)! 1!(3 1)!
6 3 18
C C ⎛ ⎞⎛ ⎞= =⎜ ⎟⎜ ⎟− −⎝ ⎠⎝ ⎠
=
Problema: Se contrataran cinco ingenieros de ventas de entre un grupo de 100 solicitantes.
¿De cuantas formas (combinaciones) podemos seleccionar grupos de cinco ingenieros de
ventas?
Solución:
100 C 5 = 75, 287,520
Problema: a) Si se cuenta con 14 alumnos que desean colaborar en una campaña pro
limpieza del Tec, cuantos grupos de limpieza podrán formarse si se desea que consten de 5
alumnos cada uno de ellos, b) si entre los 14 alumnos hay 8 mujeres, ¿cuantos de los
UNIDAD II / PROBABILIDAD.
93
grupos de limpieza tendrán a 3 mujeres?, c) ¿cuántos de los grupos de limpieza contarán
con 4 hombres por lo menos?
Solución:
a) n = 14, r = 5
14C5 = 2002 grupos
b) n = 14 (8 mujeres y 6 hombres), r = 5
8C3*6C2 = 840
c) En este caso nos interesan grupos en donde haya 4 hombres o más
6C4* 8C1 + 6C5* 8C0 = 15 x 8 + 6 x 1 = 120 + 6 = 126
Problema: Para contestar un examen un alumno debe contestar 9 de 12 preguntas,
a) ¿Cuántas maneras tiene el alumno de seleccionar las 9 preguntas?,
b) ¿Cuántas maneras tiene si forzosamente debe contestar las 2 primeras preguntas?,
c) ¿Cuántas maneras tiene si debe contestar una de las 3 primeras preguntas?,
d) ¿Cuántas maneras tiene si debe contestar como máximo una de las 3 primeras
preguntas?
Solución:
a) n = 12, r = 9
12C9 = 220 maneras de seleccionar las nueve preguntas o dicho de otra manera,
el alumno puede seleccionar cualquiera de 220 grupos de 9 preguntas para contestar el
examen
b) 2C2* 10C7 = 1 x 120 = 120 maneras de seleccionar las 9 preguntas entre las que están
las dos primeras preguntas
c) 3C1* 9C8 = 3 x 9 = 27 maneras de seleccionar la 9 preguntas entre las que está una
de las tres primeras preguntas
d) En este caso debe seleccionar 0 o 1 de las tres primeras preguntas
3C0* 9C9 + 3C1* 9C8 = (1 x 1) + (3 x 9)
= 1 + 27 = 28 maneras de seleccionar las preguntas a contestar
UNIDAD II / PROBABILIDAD.
94
Problema. Una señora desea invitar a cenar a 5 de 11 amigos que tiene
a) ¿Cuántas maneras tiene de invitarlos?,
b) ¿cuántas maneras tiene si entre ellos está una pareja de recién casados y no
asisten el uno sin el otro,
c) ¿Cuántas maneras tiene de invitarlos si Rafael y Arturo no se llevan bien y no van
juntos?
Solución:
a) n = 11, r = 5
11C5 = 462 maneras de invitarlos
Es decir que se pueden formar 462 grupos de cinco personas para ser invitadas a cenar.
b) Esta señora tiene dos alternativas para hacer la invitación, la primera es no
invitar a la pareja y la segunda es invitar a la pareja.
2C0* 9C5 + 2C2* 9C3 = (1 x 126) + (1 x 84) = 210 maneras de invitarlos
En este caso separamos a la pareja de los demás invitados para que efectivamente se
cumpla el que no asistan o que asistan a la cena.
c) La señora tiene dos alternativas para hacer la invitación, una de ellas es que
no invitar a Rafael y a Arturo o que asista solo uno de ellos.
2C0* 9C5 + 2C1* 9C4
= (1 x 126) + (2 x 126)
= 126 + 252 = 378 maneras de hacer la invitación
Problema: En un plano hay 10 puntos denominados A, B, C, ....,etc. etc., en una misma línea
no hay más de dos puntos,
a) ¿Cuántas líneas pueden ser trazadas a partir de los puntos?,
b) ¿Cuántas de las líneas no pasan por los puntos A o B?,
c) ¿Cuántos triángulos pueden ser trazados a partir de los puntos?,
d) ¿Cuántos de los triángulos contienen el punto A?,
e) ¿Cuántos de los triángulos tienen el lado AB?.
Solución:
a) Una línea puede ser trazada a partir de cómo mínimo dos puntos por lo tanto,
UNIDAD II / PROBABILIDAD.
95
10C2 = 10! / (10 – 2)!2! = 10! / 8!2! = 45 líneas que se pueden trazar
b) En este caso excluiremos los puntos A y B y a partir de los ocho puntos restantes se
obtendrán las líneas.
2C0* 8C2 = 1 x 28 = 28 líneas que no pasan por los puntos A o B
c) Un triángulo puede ser trazado a partir de tres puntos, luego;
10C3 = 10! / (10 – 3)!3! = 10! / 7!3! = 120 triángulos posibles de trazar
d) En este caso se separa el punto A de los demás, se selecciona y posteriormente
también se seleccionan dos puntos más.
1C1* 9C2 = 1 x 36 = 36 triángulos que contienen el punto A
e) Los puntos A y B forman parte de los triángulos a trazar por lo que;
2C2*8C1 = 1 X 8 = 8 triángulos que contienen el lado AB
Problema: De un total de 5 matemáticos y 7 físicos, se forma un comité de 2 matemáticos y
3 físicos. ¿De cuantas formas puede formarse, si
a) puede pertenecerá el cualquier matemático y físico,
b) un físico determinado debe permanecer al comité,
c) dos matemáticos determinados no pueden estar en el comité?
a) 2 Mat. de un total de 5 5 C 2
3 Fis. de un total de 7 7 C 3 = (5 C 2) ( 7 C 3) = 350
b ) 2 Mat. de un total de 5 5 C 2
2 Fis. de un total de 6 6 C 2 = (5 C 2) (6 C 2) = 150
c) 2 Mat. de un total de 3 3 C 2
3 Fis. de un total de 7 7 C 3 = (3 C 2) (7 C 3) = 105
Problema: De cuantas formas pueden 10 objetos dividirse en dos grupos de 4 y 6 objetos
respectivamente.
Solución:
(10 C 4) = 210
UNIDAD II / PROBABILIDAD.
96
Problema: Cuantas manos diferentes de 5 naipes pueden darse con un mazo normal de 52
naipes, no importa el orden en que se reciban las cartas, lo que nos indica que se trata de
una combinación.
Solución:
52 C 5 = 2598960
Problema: Si 10 alumnos desean jugar baloncesto, ¿cuántos equipos diferentes pueden
formarse con estos jugadores ? , uno de los muchachos se llama José. Solo se desea contar
los equipos que incluyen a Jose
Solución:
10 C 5 = 252 equipos diferentes
El número de equipos que incluyen a José son:
9 C 4 = 126
Problema: ¿cuántas parejas distintas pueden formarse con cinco individuos?
Solución:
5 C 2 = 10
Particiones ordenadas. Se le llama partición ordenada al hecho de repartir n objetos en células de una cantidad de
x1 objetos, x2 objetos,......y xk objetos.
Problema: ¿Cuántas maneras hay de repartir 10 libros diferentes entre tres alumnos, si al
primero le daremos 2, al segundo 3 y el resto al tercer alumno? , esta partición serían las
siguientes si se numeran los libros del 1 al 10;
Solución:
Lo primero que debemos hacer es seleccionar 2 libros de los 10 que se tienen para el primer
alumno, esto es;
10C2 = 10! / (10 – 2)!2! = 10! / 8!2! = 45 maneras de seleccionar los libros
Luego se seleccionan 3 libros de los 8 que quedan para el segundo alumno;
8C3 = 8! / (8 – 3)!3! = 8! / 5!3! = 56 maneras
Y por último se procederá a seleccionar cinco libros de los cinco que quedan para el tercer
alumno, lo que se muestra a continuación;
UNIDAD II / PROBABILIDAD.
97
5C5 = 5! / (5 –5)!5! = 5! / 0!5! = 1 manera
Por tanto el número total de particiones ordenadas en células de 2, 3 y 5 elementos se
determina:
10C2* 8C3* 5C5 = 2520
La expresión anterior nos recuerda a la fórmula utilizada para encontrar las permutaciones
de n objetos, entre los cuales hay algunos objetos que son iguales, por lo que usaremos la
misma fórmula para encontrar las particiones ordenadas.
Por tanto la fórmula para las particiones ordenadas sería:
Esta fórmula sólo puede ser utilizada cuando se reparten todos los objetos, no parte de
ellos, en ese caso se usarán combinaciones.
Donde:
nPx1,x2,.....,xk = Total de particiones ordenadas o reparticiones que es posible hacer cuando
los n objetos son repartidos en grupos de x1 objetos, x2 objetos ...... y xk objetos.
n = x1 + x2 + ......+ xk
Problema: ¿Cuántas maneras hay de repartir 9 juguetes entre tres niños, si se desea que al
primer niño le toquen 4 juguetes, al segundo 2 y al tercero 3 juguetes?
Solución:
Por combinaciones,
9C4* 5C2* 3C3 = 126*10*1= 1260 maneras de repartir los juguetes
Por fórmula,
n = 9; x1 = 4; x2 = 2; x3 =3
9P4,2,3 = 9! / 4!2!3! = 1,260 maneras de repartir los juguetes
Problema: ¿Cuántas maneras hay de repartir los mismos 9 juguetes entre tres niños, si se
desea darle 3 al primer niño, 2 al segundo niño y 2 al tercer niño?
!x!.......x!x!nx,..........x,nPx
kk
2121 =
UNIDAD II / PROBABILIDAD.
98
Solución:
En este caso únicamente se puede dar solución por combinaciones, ya que no es posible
usar la fórmula debido a que se reparten solo parte de los juguetes.
9C3* 6C2* 4C2 = 84*15*6 = 7,560 maneras de repartir los juguetes (solo se reparten 7 y
quedan dos juguetes)
Problema:
a) ¿Cuántas maneras hay de que se repartan 14 libros diferentes entre 3 alumnos, si
se pretende que al primer alumno y al segundo les toquen 5 libros a cada uno y al
tercero le toque el resto?,
b) ¿Cuántas maneras hay de que se repartan los libros si se desea dar 5 libros al
primer alumno, 3 al segundo y 2 libros al tercer alumno?
Solución:
a) Por fórmula:
n = 14 ; x1 = 5; x2 = 5; x3 = 4
14P5,5,4 = 14! / 5!5!4! = 21,021 maneras de repartir los libros en grupos de 5, 5 y 4 libros
b) Por combinaciones:
14C5* 9C3* 6C2 = 2,002*84*15 = 2,522,520 maneras de repartir 10 de los 14 libros en grupos
de 5, 3 y 2 libros
Problema:
a) ¿Cuántas maneras hay de repartir a 12 alumnos en 4 equipos de 3 personas cada
uno de ellos para que realicen prácticas de laboratorio diferentes?,
b) ¿Cuantas maneras hay de que se repartan los 12 alumnos en 4 equipos de 3
personas si se va a realizar una misma práctica?
Solución:
a) En este caso al ser prácticas de laboratorio diferentes, es posible resolver el
problema por combinaciones o por la fórmula, dado que se reparten todos los
alumnos
Por fórmula:
n = 12; x1 = 3 práctica 1; x2 = 3 práctica 2; x3 = 3 práctica 3; x4 = 3 práctica 4
UNIDAD II / PROBABILIDAD.
99
12P3,3,3,3 = 12! / 3!3!3!3! = 369,600 maneras de repartir a los estudiantes en cuatro equipos
de 3 personas para realizar prácticas diferentes
b) 12P3,3,3,3 * 1 /4! = 12! / 3!3!3!3! * 1 / 4! = 369,600 / 4! = 15,400 maneras de repartir a
los alumnos en equipos de 3 personas para realizar una misma práctica
Al multiplicar la solución que se da al inciso a, por 1/4! se está quitando el orden de los
grupos, que en este caso no nos interesa.
Ejercicios propuestos: P1.- Se contrata un servicio de calificación de computadoras para encontrar las tres mejore
marcas de monitores EGA. Se incluirá un total de 10 marcas en el estudio. ¿De cuantas
formas distintas puede el servicio de calificación pero no debe poner los tres en ningún
orden?
Solución:
10 C 3 = 120
P2.- ¿cuántas parejas distintas pueden formarse con cinco individuos?
Solución.
5 C 2 = 10
P3.- Con 5 estadistas y 6 economistas quiere formarse un comité de 3 estadistas y 2
economistas. ¿Cuántos comités diferentes pueden formarse si:
a)no se impone ninguna restricción ,
b)dos estadistas determinados deben estar en el comité
c)un economista determinado no debe estar en el comité?
Solución:
a) 150 b) 45 c) 100
P4.- Suponga que necesita reemplazar 5 empaques en un dispositivo que funciona con
energía nuclear. Si tiene una caja con 20 empaques de entre los cuales escoger, ¿cuantas
elecciones diferentes son posibles? Es decir, ¿cuantas muestras distintas de 5 empaques se
pueden seleccionar de los 20 ?
Solución:
20C5 = 15,504
UNIDAD II / PROBABILIDAD.
100
P5.- Se realizo un estudio para examinar la reacción entre la estructura de costos y la
propiedades mecánicas de granos equieje en lingotes solidificados unidireccionalmente (
Metallurgical Transactions, mayo de 1986 ). Lingotes de aleaciones de cobre se vertieron en
uno de tres tipos de moldes (columnares, mixtos o equieje) con una orientación ya sea
transversal o longitudinal. De cada lingote se tomaron cinco especimenes para pruebas de
tensión a distintas distancias (10, 35, 60, 85 y 100 milímetros ) de la cara de enfriamiento del
lingote, y se determino la resistencia al vencimiento. ¿ Cuantas mediciones de resistencia se
obtendrán si el experimento incluye un lingote para cada combinación de tipo de molde y
orientación?
Solución: (3C2)(5C2) = 30
2.4 Probabilidad con técnicas de conteo. 2.4.1 Axiomas. Axioma 1: para cada suceso a en la clase C P ( A ) ≥ 0
Axioma 2: para el suceso cierto o seguro S en la clase C P ( S ) = 1
Axioma 3: para cualquier numero mutuamente excluyente A 1, B2, ... en la clase C
P ( A1∪ A2∪ ) = p( A1) + p( A2) + ...
En particular , para solo dos sucesos mutuamente excluyentes A1, A2
P (A1∪A2) = p(A1) + p(A2)
2.4.2 Teoremas. Teorema 1 . si A1⊂ A2 entonces P (A1) ≤ P( A2) y P( A2 - A1) = P( A2 ) – P (A1)
Teorema 2. para cada suceso A 0 ≤ P ( A) ≤ 1 es decir la probabilidad de un suceso entre 0
y 1.
Teorema 3. P (∅ ) = 0 es decir el suceso imposible tiene probabilidad cero.
Teorema 4. si A ‘ es el complemento de A entonces P ( A ‘ ) = 1 – p ( A )
Teorema 5. p(A) = p(A1) + p(A2) + ... + p (A n ); En particular si A = S, el espacio muestral,
entonces p(A1) + p(A2) + ... + p (A n ) = 1
Teorema 6. si A y B son dos sucesos cualesquiera , entonces
P ( A∪ B ) = P(A) + P(B) - P ( A∩B )
Teorema 7. para dos sucesos A y B
P ( A) = P ( A∩B ) + P ( A∩B ‘ )
UNIDAD II / PROBABILIDAD.
101
Teorema 8. si un suceso A debe resultar en uno de los sucesos mutuamente excluyentes A1
, A2, ...,An entonces P ( A) = P( A∩ A1 ) + P ( A∩ A2)+ …+ P ( A ∩ An )
2.5 Probabilidad condicional. 2.5.1 Dependiente. Hay ocasiones en que nos interesa alterar nuestra estimación de la probabilidad de un
evento cuando poseemos información adicional que podría afectar el resultado. Esta
probabilidad modificada se denomina probabilidad condicional del evento.
La probabilidad de que un evento B ocurra cuando se sabe que ya ocurrió algún evento A se
llama probabilidad condicional y se denota por P(B A ). El símbolo P(B A ) por lo
general se lee “ la probabilidad de que ocurra B dado que ocurrió A “ o simplemente “ la
probabilidad de B, dado A”.
Fórmula para la probabilidad condicional
Para determinar la probabilidad condicional de que el evento A ocurra, Dado que ocurra el
evento B, divida la probabilidad de que ocurra tanto A como B entre la probabilidad de
que ocurra B; esto es,
( ) ( )( )BP
BAPBAP ∩=
donde suponemos que P ( B ) ≠ 0
Sea δ un espacio muestral en donde se ha definido un evento E, donde p(E)>0, si
deseamos determinar la probabilidad de que ocurra un evento A (el que también es definido
en el mismo espacio muestral), dado que E ya ocurrió, entonces deseamos determinar una
probabilidad de tipo condicional, la que se determina como se muestra;
Donde:
p(AE) = probabilidad de que ocurra A dado que E ya ocurrió; p(A∩E) = probabilidad de que
ocurra A y E a un mismo tiempo; p(E) = probabilidad de que ocurra E
)E(p)EA(p)E|A(p ∩
=
UNIDAD II / PROBABILIDAD.
102
Luego;
Por tanto:
Donde:
A∩E= número de elementos comunes a los eventos A y E
E= número de elementos del evento E
Luego entonces podemos usar cualquiera de las dos fórmulas para calcular la probabilidad
condicional de A dado que E ya ocurrió.
Si la ocurrencia o no de E1 no afecta para nada la probabilidad de ocurrencia de E2 ,
entonces : Pr E2 E1 = P E2 , y diremos que E1 y E2 son sucesos independientes; en
caso contrario, se dirá que son casos dependientes.
Si denotamos por E1 E2 el suceso de que ambos E1 y E2 ocurran, llamado un suceso
compuesto, entonces
Pr E1 E2 = Pr E1 Pr E2 E1
En particular,
Pr E1 E2 = Pr E1 Pr E2
Problema: La probabilidad de que un vuelo programado normalmente salga a tiempo es
P(D) = 0.83; la probabilidad de que llegue a tiempo es P ( A ) 0 0.82; y la probabilidad de que
salga y llegue a tiempo es P ( D ∩ A ) = 0.78. Encuentre la probabilidad de que un avión
a) llegue a tiempo, dado que salió a tiempo y
b) salió a tiempo, dado que llego a tiempo.
Solución:
a) La probabilidad de que un avión llegue a tiempo, dado que salió a tiempo es
( ) 0.78( | ) 0.94( ) 0.83
P D AP A DP D∩
= = =
ΙΙΙ∩Ι
=∩δ
EA)EA(PΙΙΙΙ
=δE)E(P
ΙΙΙ∩Ι
=E
EA)E|A(P
UNIDAD II / PROBABILIDAD.
103
La probabilidad de que un avión saliera a tiempo, dado que llego a tiempo es
( ) 0.78( | ) 0.95( ) 0.82
P D AP D AP A∩
= = =
Problema: Sean E1 y E2 los sucesos cara en el quinto lanzamiento y cara en el sexto
lanzamiento de una moneda, respectivamente. Entonces E1 y E2 son sucesos
independientes y por lo tanto, la probabilidad de que salga cara en ambos intentos es
Pr E1 E2 = Pr E1 Pr E2 = ½ ( ½) = ¼
Problema: Si las probabilidades de A y B de estar vivos dentro de 20 años son 0.7 y 0.5,
respectivamente, entonces la probabilidad de que ambos lo estén es
(0.7) (0.5) = 0.35
Problema: Una caja contiene 3 bolas blancas y 2 bolas negras. Sea E1 el suceso “ la primera
bola extraída es negra ” y E2 el suceso “ la segunda bola extraída es negra ”. las bolas
extraídas no se devuelven a la caja E1 y E2 son sucesos dependientes .
Solución:
Pr E1 E2 = Pr E1 P E2 = ( 2/5 )(1 / 4 ) = 1 /10
Sucesos mutuamente excluyentes Dos o más sucesos se llaman sucesos mutuamente excluyentes si la ocurrencia de
cualquiera de ellos excluye la de los otros. De modo que si E1 y E2 son sucesos mutuamente
excluyentes , entonces
Pr E1 E2 = 0
Si E1 + E2 denota el suceso de que ocurra E1 o bien E2 o ambos a la vez, entonces
Pr (E1 + E2 ) = Pr (E1 ) + Pr ( E2 ) - Pr (E1 E2 )
En particular
Pr (E1 + E2 ) = Pr (E1 ) + Pr ( E2 ) para suceso
Mutuamente excluyentes
Problema: Sea E1 el suceso “ sacar un as de una baraja” y E2 “sacar un rey”. Cual es la
probabilidad de sacar o un as o un rey en un solo ensayo es
UNIDAD II / PROBABILIDAD.
104
Solución:
Pr (E1 ) = 4 / 52 = 1/13
Pr (E2 ) = 4/52 = 1/13
Pr (E1 + E2 ) = 1 / 13 + 1/13 = 2 / 13
Problema: Una bola se extrae aleatoriamente de una caja que contiene 6 bolas rojas, 4
bolas blancas y 5 bolas azules. Determinar la probabilidad de que sea a) roja, b) blanca, c)
azul, d) no roja, e) roja o azul.
Solución:
a) pr ( roja ) = 6 / ( 6 + 4 + 5 ) = 6 / 15 = 2/5
b) Pr ( blanca = 4 / 15
c) Pr ( azul ) = 5 /15 = 1/3
d) Pr(no roja ) = 1 – Pr(roja) = 1 – 2/5 = 3/5
O bien
Pr ( no roja ) = 4 / 15 + 5 / 15 = 9/15 = 3/5
e) Pr ( roja o azul ) = pr (roja) + Pr ( blanca) = 2/5 + 4 /15 = 2/3
Problema: Sea E1 el suceso “sacar un as ” de una baraja y E2 “ sacar una espada”.
Entonces E1 y E2 no son sucesos mutuamente excluyentes, porque pueden sacarse el as
de espadas. Luego la probabilidad de sacar un as o una espada o ambos es
Pr (E1 + E2 ) = Pr (E1 ) + Pr ( E2 ) - Pr (E1 E2 ) = 4 /52 + 13/52 – 1 /52 = 16 / 52 = 4 /13
Problema: Un dado honesto se lanza dos veces. Hallar la probabilidad de obtener 4, 5 o 6 en
el primer lanzamiento y 1, 2, 3 o 4 en el segundo lanzamiento.
Solución: E1 = 4, 5 o 6 E2 = 1, 2, 3 o 4
Pr (E1 ∩ E2 ) = Pr (E1 )
Pr ( E2 E1 ) = Pr (E1 ) P (E2 ) = (3/6)(4/6) = 1/3
Problema: Se extraen tres bolas sucesivamente de la caja que contiene 6 bolas rojas, 4
bolas blancas y 5 bolas azules. Hallar la probabilidad de que se extraigan en el orden roja,
blanca y azul si las bolas , a) se remplazan, b) no se remplazan.
Solución:
a) pr ( se remplazan ) = [6 / ( 6 + 4 + 5 ) ] [4 / ( 6 + 4 + 5 )] [5 / ( 6 + 4 + 5 ) ] = 8/225
UNIDAD II / PROBABILIDAD.
105
b) Pr ( no se remplazan) = [6 / ( 6 + 4 + 5 ) ] [4 / ( 5 + 4 + 5 )] [5 / ( 5 + 3 + 5 ) ] = 4/91
Problema: Hallar la probabilidad de obtener al menos un 4 en dos lanzamientos de un dado
honrado.
Pr ( al menos un 4 en dos lanzamientos) = Pr (E1 ) + Pr ( E2 ) - Pr (E1 ∩ E2 )
= Pr (E1 ) + Pr ( E2 ) - Pr (E1) Pr(E2 ) = 1/6+1/6 - (1/6)(1/6) = 11/36
Problema: Se lanza al aire dos dados normales, si la suma de los números que aparecen es
de por lo menos siete,
a) determine la probabilidad de que en el segundo dado aparezca el número cuatro,
b) Determine la probabilidad de que ambos números sean pares,
c) Determine la probabilidad de que en el primer dado aparezca el número dos.
Solución:
El espacio muestral es el mismo que cuando se lanza un dado dos veces y se muestra a
continuación;
(1,1) (2,1) (3,1) (4,1) (5,1) (6,1)
(1,2) (2,2) (3,2) (4,2) (5,2) (6,2)
δ = (1,3) (2,3) (3,3) (4,3) (5,3) (6,3)
(1,4) (2,4) (3,4) (4,4) (5,4) (6,4)
(1,5) (2,5) (3,5) (4,5) (5,5) (6,5)
(1,6) (2,6) (3,6) (4,6) (5,6) (6,6)
a) Para calcular una probabilidad condicional es necesario definir los eventos A y E,
siendo estos,
A = evento de que en el segundo dado aparezca el número cuatro,
E = evento de que la suma de los números que aparecen sea de por lo menos siete, (que es
que es el evento que está condicionando)
E = 21 elementos, los que suman siete o más
(6,1) (5,2) (6,2)(4,3) (5,3) (6,3) (3,4) (4,4) (5,4) (6,4) (2,5) (3,5) (4,5) (5,5) (6,5) (1,6) (2,6) (3,6) (4,6) (5,6) (6,6)
E ⎧ ⎫= ⎨ ⎬⎩ ⎭
A = 6 elementos, los que en el segundo dado aparece el cuatro
UNIDAD II / PROBABILIDAD.
106
A = (1,4) (2,4) (3,4) (4,4) (5,4) (6,4)
Luego,
A∩E = (3,4) (4,4) (5,4) (6,4), A∩E= 4 elementos
Por tanto;
p(AE) = A∩E/ E= 4/21 = 0.19048
b) E = evento de que la suma de los números que aparecen sea de por lo menos siete
(6,1) (5,2) (6,2)(4,3) (5,3) (6,3)(3,4) (4,4) (5,4) (6,4)(2,5) (3,5) (4,5) (5,5) (6,5)(1,6) (2,6) (3,6) (4,6) (5,6) (6,6)
E⎧ ⎫
= ⎨ ⎬⎩ ⎭
A = evento de que ambos números sean pares
A = (2,2) (4,2) (6,2) (2,4) (4,4) (6,4) (2,6) (4,6) (6,6)
A∩E = (6,2) (4,4) (6,4) (2,6) (4,6) (6,6) A∩E=6 elementos
p(AE) = A∩E/ E = 6/ 21 = 0.28571
c) E = evento de que la suma de los números que aparecen sea de por lo menos siete
(6,1) (5,2) (6,2)(4,3) (5,3) (6,3) (3,4) (4,4) (5,4) (6,4)(2,5) (3,5) (4,5) (5,5) (6,5) (1,6) (2,6) (3,6) (4,6) (5,6) (6,6)
E ⎧ ⎫= ⎨ ⎬⎩ ⎭
A = evento de que en el primer dado aparezca el número dos
A = (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
A∩E = (2,5), A∩E= 1 elemento
P(AE) = A∩E/E = 1/21 = 0.04762
Problema: Se seleccionan al azar dos números de entre los números del 1 al 9, si la suma
de los números que aparecen es par,
a) Determine la probabilidad de que ambos números sean pares,
b) Determine la probabilidad de que ambos números sean impares.
Solución:
UNIDAD II / PROBABILIDAD.
107
δ = 9C2 = 36 maneras de seleccionar dos números de entre nueve que se tienen
(1,2)
(1,3) (2,3)
(1,4) (2,4) (3,4)
δ = (1,5) (2,5) (3,5) (4,5)
(1,6) (2,6) (3,6) (4,6) (5,6)
(1,7) (2,7) (3,7) (4,7) (5,7) (6,7)
(1,8) (2,8) (3,8) (4,8) (5,8) (6,8) (7,8)
(1,9) (2,9) (3,9) (4,9) (5,9) (6,9) (7,9) (8,9)
a) E = evento de que la suma de los números que se seleccionan sea par
E = (1,3) (2,4) (1,5) (3,5) (2,6) (4,6) (1,3) (3,7) (5,7) (2,8) (4,8) (6,8) (1,9) (3,9) (5,9) (7,9)
E = 16 elementos
A = evento de que ambos números Sean pares
A = (2,4) (2,6) (4,6)(2,8) (4,8) (6,8)
A = 6 elementos
A∩E = (2,4) (2,6) (4,6) (2,8) (4,8) (6,8)
A∩E = 6 elementos ,
p(AE) = A∩E/ E= 6/16 = 0.375
b) E = evento de que la suma de los números seleccionados es par
E = (1,3) (2,4) (1,5) (3,5) (2,6) (4,6) (1,3) (3,7) (5,7) (2,8) (4,8) (6,8) (1,9) (3,9) (5,9) (7,9)
A = evento de que ambos números sean impares
A = (1,3) (1,5) (3,5) (1,7) (3,7) (5,7) (1,9) (3,9) (5,9) (7,9)
A = 10 elementos,
A∩E = (1,3) (1,5) (3,5) (1,7) (3,7) (5,7) (1,9) (3,9) (5,9) (7,9)
A∩E= 10 elementos; p(AE)= A∩E/ E= 10/16 = 0.625
Problema: Dada la siguiente tabla referente a la producción de flechas para camión de carga
pesada; se inspeccionan 200 flechas del tipo A y B, 300 del tipo C y 400 del tipo D, a
continuación se presentan los resultados obtenidos en la inspección;
UNIDAD II / PROBABILIDAD.
108
Tipo flecha
DEFECTO A B C D TOTAL
I 54 23 40 15 132
II 28 12 14 5 59
S - DEF 118 165 246 380 909
TOTAL 200 200 300 400 1100
a) Si se selecciona una flecha al azar y resulta que es una flecha del tipo B, ¿cuál es la
probabilidad de que no tenga defectos,
b) Si la flecha seleccionada es del tipo C, ¿cuál es la probabilidad de que tenga
defectos del tipo II?,
c) Si la flecha seleccionada tiene defectos del tipo I, ¿cuál es la probabilidad de que
sea del tipo A,
d) ¿cuál es la probabilidad de que una flecha no tenga defectos?,
e) ¿cuál es la probabilidad de que una flecha tenga defectos?
Solución:
a) Definiremos los eventos;
E = evento de que la flecha seleccionada sea del tipo B = 200 elementos o flechas
A = evento de que la flecha seleccionada no tenga defectos = 909 flechas o elementos
A∩E = 165 elementos del tipo B y que no tienen defectos
p(AE) = A∩E/E= 165/200 = 0.825
b) E = evento de que la flecha sea del tipo C = 300 flechas
A = evento de que la flecha tenga defectos del tipo II =59 flechas
A∩E = 14 flechas del tipo C y que tienen defectos del II ;
p(AE) =A∩E/E= 14/300 = 0.04667
c) E = evento de que la flecha tenga defectos del tipo I = 132 flechas
A = evento de que la flecha sea del tipo A = 200 flechas
A∩E = 54 flechas con defectos del tipo I y del tipo A
p(AE) = A∩E/E= 54 / 132 = 0.40901
d) En este caso se trata de una probabilidad simple, ya que no hay un evento que esté
condicionando al evento del cual se desea determinar su probabilidad
UNIDAD II / PROBABILIDAD.
109
D = evento de que una flecha no tenga defectos = 909 flechas
δ = 1100 flechas
p(D) = 909/1100 = 0.82636
e) F = evento de que una flecha tenga defectos = 132 + 59 = 191 flechas
δ = 1100 flechas p(F) = 191 / 1100 = 0.17364
Problema: Según las estadísticas, la probabilidad de que un auto que llega a cierta
gasolinera cargue gasolina es de 0.79, mientras que la probabilidad de que ponga aceite al
motor es de 0.11 y la probabilidad de que ponga gasolina y aceite al motor es de 0.06,
a) Sí un auto carga gasolina, ¿cuál es la probabilidad de que ponga aceite?,
b) Sí un auto pone aceite al motor, ¿cuál es la probabilidad de que ponga gasolina?
Solución:
a) E = evento de que un auto cargue gasolina p(E) = 0.79
A = evento de que un auto ponga aceite al motor P(A) = 0.11
A∩E = evento de que un auto ponga gasolina y aceite p(A∩E) = 0.07
p(AE) = p(A∩E)/p(E) = 0.07/ 0.79 = 0.0881
b) E = evento de que un auto ponga aceite al motor P(E) = 0.11
A = evento de que un auto ponga gasolina P(A) = 0.79
A∩E = evento de que un auto ponga aceite al motor y ponga gasolina P(A∩E) = 0.07
P(AE) = p(A∩E)/ p(E) = 0.07/0.11 = 0.63636
Problema: La probabilidad de que un auto de carreras cargue gasolina en cierto circuito en la
primera media hora de recorrido es de 0.58, la probabilidad de que cambie de neumáticos en
esa primera media hora de recorrido es de 0.16, la probabilidad de que cargue gasolina y
cambie de neumáticos en la primera media hora de recorrido es de 0.05,
a) ¿Cuál es la probabilidad de que cargue gasolina o cambie de neumáticos en la
primera media hora de recorrido?,
b) ¿cuál es la probabilidad de que no cargue combustible y de neumáticos en la
primera media hora de recorrido,
c) Si el auto cambia de neumáticos en la primera media hora de recorrido, ¿cuál es la
probabilidad de que cargue combustible también?,
UNIDAD II / PROBABILIDAD.
110
d) Si el auto carga combustible en la primera media hora de recorrido, ¿cuál es la
probabilidad de que cambie de neumáticos también?
Solución:
a) A = evento de que cargue gasolina en la primera media hora de recorrido P(A) = 0.58
B = evento de que cambie de neumáticos en la primera hora de recorrido P(B) = 0.16
A∩B = evento de que cargue combustible y cambie de neumáticos en la primera hora de
recorrido P(A∩B) = 0.05
P(cargue gasolina o cambie de neumáticos) = p(A∪B) = p(A) + p(B) – p(A∩B)
P(cargue gasolina o cambie de neumáticos) = 0.58 + 0.16 – 0.05 = 0.69
b) p( no cargue combustible y no cambie de neumáticos) = 1 – p(A∪B) = 1 – 0.69 = 0.31
c) E = evento de que el auto cambie de neumáticos en la primera media hora de recorrido
A = evento de que el auto cargue combustible en la primera media hora de recorrido
p(AE) = p(A∩E)/ p(E) = 0.05/0.16 = 0.3125
d) E = evento de que el auto cargue combustible en la primera media hora de recorrido
A = es el evento de que el auto cambie de neumáticos en la primera media hora de recorrido
p(AE) = p(A∩E)/p(E) = 0.05/0.58 = 0.08621
2.5.2 independientes. Se dice que un evento B es independiente de un evento A, si p(BA) = p(B), esto quiere
decir que la probabilidad de que ocurra B no es afectada por la ocurrencia del evento A, la
expresión anterior se puede sustituir en el teorema de la multiplicación para probabilidad
condicional,
p(A∩B) = p(A)p(BA) = p(A)p(B)
Luego,
p(A∩B) = p(A)p(B)
Concepto de independencia
Si la expresión anterior se cumple, podemos decir que los eventos A y B son
independientes.
Problema: Pruebas repetidas e independientes.
UNIDAD II / PROBABILIDAD.
111
Sea δ el espacio muestral del lanzamiento de una moneda tres veces,
δ = AAA, AAS, ASA, ASS, SAS, SAA, SSA, SSS
p(AAA) = p(A1∩A2∩A3) = p(A1)p(A2A1)p(A3A1∩A2) = p(A)p(A)p(A) =1/2*1/2*1/2 = 1/8
p(AAS) = p(A)p(A)p(S) =1/2*1/2*1/2 =1/8
p(ASA) = p(A)p(S)p(A) = 1/2*1/2*1/2 = 1/8
etc, etc.
Con lo anterior se comprueba que efectivamente la probabilidad de cada uno de los
elementos del espacio muestral descrito anteriormente es de 1/8 como se consideraba
cuando se calculaban probabilidades para un espacio finito equiprobables.
Problema: Un equipo de fútbol soccer tiene una probabilidad de ganar de 0.6, una
probabilidad de empatar de 0.3 y una probabilidad de perder de 0.1, si este equipo participa
en dos juegos la semana próxima, determine la probabilidad de que; a. Gane el segundo
juego, b. Gane ambos juegos, c. Gane uno de los juegos, d. Gane el primer juego y empate
el segundo.
El espacio muestral sería:
δ = GG, GE, GP, EG, EE, EP, PG, PE, PP
a) p(gane el segundo juego) = p(GG, EG, PG) = (0.6)(0.6) + (0.3)(0.6) + (0.1)(0.6)
= 0.36 + 0.18 + 0.06 = 0.6
b) p(gane ambos juegos) = p(GG) = (0.6)(0.6) = 0.36
c) p(gane uno de los juegos) = p(GE, GP, EG, PG)
= (0.6)(0.3) + (0.6)(0.1) + (0.3)(0.6) + (0.1)(0.6) = 0.18 + 0.06 + 0.18 + 0.06 = 0.48
d) p(gane el primero y empate el segundo) = p(GE) = (0.6)(0.3) = 0.18
Problema: Un boxeador gana 8 de cada 10 peleas en las que compite, si este boxeador
participará en tres peleas en los próximos seis meses, determine la probabilidad de que;
a) Gane dos de las peleas
UNIDAD II / PROBABILIDAD.
112
b) Si gana dos de las peleas, ¿cuál es la probabilidad de que sean la primera y tercera
peleas?,
c) Gane la segunda pelea.
Solución: δ=GGG. GGP, GPG, GPP, PGG, PGP, PPG, PPP
a) p(gane dos de las peleas) = p(GGP, GPG, PGG)
= (0.8)(0.8)(0.2) + (0.8)(0.2)(0.8) + (0.2)(0.8)(0.8) = 0.128 + 0.128 + 0.128 = 0.384
b) E = evento de que gane dos peleas.
E = GGP, GPG, PGG , p(E) = 0.348
A = evento de que gane la primera y la tercer pelea
A=GGG, GPG A∩B = GPG, p(A∩B) = (0.8)(0.2)(0.8) =0.128
P(AE) = p(A∩E) / p(E) = 0.348/0.128= 0.3333
c) p(gane la segunda pelea) = p(GGG, GGP, PGG, PGP)
= (0.8)(0.8)(0.8) + (0.8)(0.8)(0.2) + (0.2)(0.8)(0.8) + (0.2)(0.8)(0.2)
= 0.512 + 0.128 + 0.128 + 0.032 = 0.8
Problema: Tres hombres tiran a un blanco, A tiene 1/3 de posibilidades de acertar al blanco,
B tiene 1/2 de posibilidades de acertar y C tiene 1/4 de posibilidades de pegar al blanco, si
cada uno de ellos hace un solo disparo, determine la probabilidad de que;
a) Solo uno de ellos acierte al blanco,
b) Si solo uno de ellos acierta al blanco, ¿cuál es la probabilidad de que acierte A?,
c) Determine la probabilidad de que ninguno acierte al blanco.
Solución:
Haciendo uso de un diagrama de árbol se obtiene el siguiente espacio muestral;
δ = ABC, ABC`, AB`C, AB`C`, A`BC, A`BC`, A`B`C, A`B`C`
donde:
A = acierta A, A`= no acierta A, B = acierta B, B`= no acierta B, etc., etc.
a) p(solo uno de ellos acierte al blanco)
= p(AB`C`, A`BC`, A`B`C) = 1/3*1/2*3/4 + 2/3*1/2*3/4 + 2/3*1/2*1/4
= 3/24 + 6/24 + 2/24 = 11/24 = 0.45833
UNIDAD II / PROBABILIDAD.
113
b) E = evento de que solo uno de ellos acierte al blanco
E = AB`C`, A`BC`, A`B`C; p(E) =11/24
A = evento de que A acierte al blanco
A = ABC, ABC`, AB`C, AB`C`
A∩E = AB`C` = 1/3*1/2*3/4 = 3/24
p(AE)= p(A∩E)/p(E) = (3/24)/(11/24)
= 3/11 = 0.27273
c) p(ninguno acierte al blanco) = p(A´B´C´) = 2/3*1/2*3/4 = 6/24 = 0.25
2.6. Eventos Independientes 2.6.1 Regla de Bayes. Teorema de la Probabilidad Total
Sea un espacio probabilístico (Ω, A, P) y nA A⊂ una partición de sucesos de Ω.
Es decir,
nA = ΩU y i jA A φ=I para toda i j≠
Entonces, para todo suceso B A⊂ es ( ) ( | )* ( )n nn
P B P B A P A=∑ .
Resultado que se puede parafrasear diciendo que la probabilidad de un suceso que se
puede dar de varias formas es igual a la suma de los productos de las probabilidades de
éste en cada una de esas formas, P(B / A n), por las probabilidades de que se den estas
formas, P(A n).
Problema: Una población está formada por tres grupos étnicos: A (un 30%), B (un 10%) y C
(un 6O%). Además se sabe que el porcentaje de personas con ojos claros en cada una de
estas poblaciones es, respectivamente, del 20%, 40% y 5%. Por el teorema de la
probabilidad total, la probabilidad de que un individuo elegido al azar de esta población
tenga ojos claros es: P(ojos claros) = P(A) ·P(ojos claros/A) + P(B) · P(ojos claros/B) + P(C) · P(0jos claros/C )
= 0'3 · 0'2 + 0'1 · 0'4 + 0'6 · 0'05 = 0'13.
UNIDAD II / PROBABILIDAD.
114
Teorema de Bayes
El siguiente teorema es un resultado con una gran carga filosófica detrás, el cual mide el
cambio que se va produciendo en las probabilidades de los sucesos a medida que vamos
haciendo observaciones. Paradójicamente a su importancia, su demostración no es más que
la aplicación de la definición de probabilidad condicionada seguida de la aplicación del
teorema de la probabilidad total.
Teorema:
Sea un espacio probabilístico (Ω, A, P) y nA A⊂ una partición de sucesos de Ω y B A∈
un suceso con probabilidad positiva. Entonces, para todo suceso Ai es
( ) ( | )( | )( ) ( | )
i ii
n nn
P A P B AP A BP A P B A
=∑
Este teorema tiene una interpretación intuitiva muy interesante. Si las cosas que pueden
ocurrir las tenemos clasificadas en los sucesos Ai de los cuales conocemos sus
probabilidaes P(Ai), denominadas a priori, y se observa un suceso B, la fórmula de Bayes
nos da las probabilidades a posteriori de los sucesos A<SUB<I< sub>, ajustadas o
modificadas por B.
Problema: Supongamos que tenemos una urna delante de nosotros de la cual solo
conocemos que o es la urna A1 con 3 bolas blancas y 1 negra, o es la urna A2 con 3 bolas
negras y 1 blanca. Con objeto de obtener más información acerca de cual urna tenemos
delante, realizamos un experimento consistente en extraer una bola de la urna desconocida.
Si suponemos que la bola extraida resultó blanca 1B y a priori ninguna de las dos urnas es
más verosímil que la otra, P(A1) = P(A2) = 1/2, entonces la fórmula de Bayes nos dice que las
probabilidades a posteriori de cada urna son
P(A1/1B) =3/4 y P(A2/1B) =1/4
Habiendo alterado de esta forma nuestra creencia sobre la urna que tenemos delante: Antes
creíamos que eran equiprobables y ahora creemos que es tres veces más probable que la
urna desconocida sea la A1.
UNIDAD II / PROBABILIDAD.
115
Pero, ¿qué ocurrirá si extraemos otra bola?. Lógicamente, en la fórmula de Bayes
deberemos tomar ahora como probabilidades a priori las calculadas, 3/4 y 1/4, pues éstas
son nuestras creencias sobre la composición de la urna, antes de volver a realizar el
experimento.
Si suponemos que la bola no fue reemplazada (se deja para el lector el caso de
reemplazamiento), y sale una bola negra 2N, la fórmula de Bayes nos devolvería a la
incertidumbre inicial, ya que sería
P(A1/2N) =1/2 y P(A2/2N) =1/2
Si hubiera salido blanca, la fórmula de Bayes, al igual que la lógica, también sería
concluyente,
P(A1/2B) =1 y P(A2/2B) =0
La utilización de la fórmula de Bayes, es decir, la utilización de distribuciones de probabilidad
a posteriori como modelos en la estimación de parámetros, al recoger ésta tanto la
información muestral, P(B/Ai), como la información a priori sobre ellos, P(Ai), constituye una
filosofía inferencial en gran desarrollo en los últimos años, la cual, no obstante, tiene el
inconveniente (o según ellos la ventaja) de depender de la información a priori, la cual en
muchas ocasiones es subjetiva y por tanto, pudiendo ser diferente de un investigador a otro.
Uno de los primeros intentos por utilizar la probabilidad para hacer inferencias es la base de
una rama de la metodología estadística llamada métodos estadísticos bayesianos.
Con referencia a la figura siguiente podemos escribir A como la unión de los dos eventos
mutuamente excluyentes E ∩ A y E’ ∩ A.
De aquí :
A = ( E ∩ A ) ∪ ( E’ ∩ A. ),
Y por el corolario i del teorema y además podemos escribir
P ( A ) = P [ (E ∩ A ) ∪ P ( E’ ∩ A ) ] = P (E ∩ A ) + P ( E’ ∩ A )
= P (E ) P (A E) + P ( E’ ) P ( AE’ ) .
UNIDAD II / PROBABILIDAD.
116
Problema:
P ( E) = 600/900 = 2/3 ; P (A E) = 36/600 = 3/50
P ( E ‘ ) = 1/3 P ( AE’ ) = 12/300 = 1/25
P ( A ) = (2/3)(3/50) + (1/3)(1/25) = 4/75
Una generalización de la ilustración precedente al caso donde el espacio muestral se parte
en k subconjuntos la cubre el siguiente teorema, que algunas veces se denomina teorema
de probabilidad total o regla de eliminación
Teorema 2.6.1. Si los eventos B 1 , B 2 , ..., B k constituyen una partición del espacio muestral S tal que
P(Bi ) ≠ 0
para i = 1, 2, ..., k, , entonces para cualquier evento A de S,
∑∑==
=∩=k
iii
k
ii BABPABPAP
11)|)(()()(
Problema: En cierta planta de montaje, tres maquinas, B 1, B2 y B3 , montan 30% , 45 % y 25
% de los productos, respectivamente. Se sabe de la experiencia pasada que 2% , 3% y 2%
de los productos ensamblados por cada maquina, respectivamente, tiene defectos. Ahora ,
suponga que se selecciona de forma aleatoria un producto terminado. ¿ cual es la
probabilidad de que este defectuoso?
Solución:
A = el producto esta defectuoso
B 1: el producto esta ensamblado por la maquina B 1
B2: el producto esta ensamblado por la maquina B2
B3: el producto esta ensamblado por la maquina B3
Al aplicar la regla de eliminación, podemos escribir
P ( A ) = P (B 1 ) P (A B 1) + P (B 2 ) P (A B 2) + P (B 3 ) P (A B 3)
UNIDAD II / PROBABILIDAD.
117
P (B 1 ) P (A B 1) = (0.3) (0.02) = 0.006; P (B 2 ) P (A B 2) = (0.45)(0.03) = 0.0135
P (B 3 ) P (A B 3) = (0.25)(0.02) = 0.005; P ( A ) = 0.006 + 0.0135 + 0.005 = 0.0245
¿Cuál es la probabilidad de que este producto fuera hecho por la maquina B i ?
Preguntas de este tipo se puede contestar mediante la regla de bayes
Problema: con referencia al ejemplo anterior, si se elige al azar un producto y se encuentra
que es defectuoso, ¿ cual es la probabilidad de que este ensamblado por la maquina B 3 ?
Solución:
3 33
1 1 2 2 3 3
( ) ( | )( | )( ) ( | ) ( ) ( | ) ( ) ( | )
P B P A BP B AP B P A B P B P A B P B P A B
=+ +
y después sustituir las probabilidades calculadas en el ejemplo anterior , tenemos:
30.005 0.005 10( | )
0.006 0.0135 0.005 0.0245 49P B A = = =
+ +
En vista del hecho de que se selecciono un producto defectuoso, este resultado sugiere que
probablemente no fue hecho con la maquina B 3.
Problema: Tres máquinas denominadas A, B y C, producen un 43%, 26% y 31% de la
producción total de una empresa respectivamente, se ha detectado que un 8%, 2% y 1.6%
del producto manufacturado por estas máquinas es defectuoso,
a) Se selecciona un producto al azar y se encuentra que es defectuoso, ¿cuál es la
probabilidad de que el producto haya sido fabricado en la máquina B?,
b) Si el producto seleccionado resulta que no es defectuoso, ¿cuál es la probabilidad de que
haya sido fabricado en la máquina C?
Solución:
UNIDAD II / PROBABILIDAD.
118
a) Definiremos los eventos;
D = evento de que el producto seleccionado sea defectuoso (evento que condiciona); A =
evento de que el producto sea fabricado en la máquina A; B = evento de que el producto sea
fabricado por la máquina B; C = evento de que el producto sea fabricado por la máquina C
( ) ( | )( | )( ) ( | ) ( ) ( | ) ( ) ( | )
P B P D BP B DP A P D A P B P D B P C P D C
=+ +
0.26(0.02) 0.0052( | ) 0.1166970.43(0.08) 0.26(0.02) 0.31(0.016) 0.04456
P B D = = =+ +
b) ND = evento de que el producto seleccionado no sea defectuoso (evento que condiciona)
A = evento de que el producto sea fabricado en la máquina A; B = evento de que el producto
sea fabricado por la máquina B; C = evento de que el producto sea fabricado por la máquina
C.
( ) ( | )( | )( ) ( | ) ( ) ( | ) ( ) ( | )
P C P ND CP C NDP A P ND A P B P ND B P C P ND C
=+ +
0.31(0.984) 0.30504( | ) 0.319270.43(0.92) 0.26(0.98) 0.31(0.984) 0.95544
P B D = = =+ +
Problema: Una empresa recibe visitantes en sus instalaciones y los hospeda en cualquiera
de tres hoteles de la ciudad; Palacio del Sol, Sicomoros o Fiesta Inn, en una proporción de
UNIDAD II / PROBABILIDAD.
119
18.5%, 32% y 49.5% respectivamente, de los cuales se ha tenido información de que se les
ha dado un mal servicio en un 2.8%, 1% y 4% respectivamente,
a) Si se selecciona a un visitante al azar ¿cuál es la probabilidad de que no se le
haya dado un mal servicio?
b) Si se selecciona a un visitante al azar y se encuentra que el no se quejó del
servicio prestado, ¿cuál es la probabilidad de que se haya hospedado en el
Palacio del Sol?,
c) Si el visitante seleccionado se quejó del servicio prestado, ¿cuál es la probabilidad
de que se haya hospedado en e hotel Fiesta Inn?
Solución: Haciendo uso de un diagrama de árbol;
a) NQ = evento de que un visitante no se queje del servicio; PS = evento de que un
visitante haya sido hospedado en el hotel Palacio del Sol; S = evento de que un
visitante haya sido hospedado en el hotel Sicómoro; FI = evento de que un visitante
haya sido hospedado en el hotel Fiesta Inn
( ) ( ) ( | ) ( ) ( | ) ( ) ( | )( ) 0.185(0.972) 0.32(0.99) 0.495(0.96) 0.97182
P NQ P PS P NQ PS P S P NQ S P FI P NQ FIP NQ
= + += + + =
b) NQ = evento de que un visitante no se queje del servicio; PS = evento de que un
visitante haya sido hospedado en el hotel Palacio del Sol; S = evento de que un
visitante haya sido hospedado en el hotel Sicomoro; FI = evento de que un visitante
haya sido hospedado en el hotel Fiesta Inn
UNIDAD II / PROBABILIDAD.
120
0.185(0.972) 0.17982( | ) 0.18503420.185(0.972) 0.32(0.99) 0.495(0.96) 0.97182
P PS NQ = = =+ +
c) Q = evento de que un visitante se queje del servicio; FI = evento de que un visitante
haya sido hospedado en el hotel Fiesta Inn
0.495(0.04) 0.0198( | ) 0.70260.185(0.028) 0.32(0.01) 0.495(0.04) 0.0.02818
P FI Q = = =+ +
UNIDAD 3
FUNCIONES Y DISTRIBUCIONES
MUESTRALES.
Objetivo: Establecerá las distribuciones de probabilidad, basándose en datos de situaciones reales o simuladas que impliquen eventos aleatorios. Centrará su estudio en las distribuciones Binomial, Hipergeométrica, Poisson, Normal, TStudent, chi-cuadrada y f de Fisher para su aplicación.
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
122
3.1 Función de probabilidad. 3.1.1 Variables aleatorias discretas. La estadística se ocupa de realizar inferencias acerca de poblaciones y sus características.
Se lleva a cabo experimentos cuyos resultados se encuentran sujetos al azar. Por ejemplo,
el espacio muestral que da una descripción detallada de cada posible resultado cuando se
prueban tres componentes electrónicos se puede escribir como:
S = NNN, NND, NDN, DNN, NDD, DND, DDN, DDD
Donde N denota “no defectuoso” y D denota “defectuoso”. Naturalmente, estamos
interesados en el número de defectuosos que ocurren. De esta forma a cada punto muestral
se le asignara un valor numérico de 0, 1, 2, o 3. Estos resultados son, por supuesto,
cantidades aleatorias determinadas por el resultado del experimento. Se puede ver como
valores que toma la variable aleatoria X, el número de artículos defectuosos cuando se
prueban tres componentes electrónicos.
Definición Una variable aleatoria es una función que asocia un numero real con cada elemento del
espacio muestral.
Ejemplo: supóngase que se lanza una moneda dos veces de tal forma que el espacio
muestral es S = SS, SA, AS, AA .
Represéntese por X el número de sol que puede resultar.
Punto muestral SS SA AS AA
X 2 1 1 0
Ejemplo: se sacan dos bolas de manera sucesiva sin reemplazo de una urna que contiene
cuatro bolas rojas y tres negras. Los posibles resultados y los valores x de la variable
aleatoria. x el numero de bolas rojas, son
Punto muestral RR RB BR BB
X 2 1 1 0
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
123
Definición Si un espacio muestral contiene un numero finito de posibilidades o una serie interminable
con tantos elementos como números enteros existen, se llama espacio muestral discreto.
3.1.2 Variables aleatorias continuas. Una variable aleatoria continua tiene una probabilidad cero de tomar exactamente cualquiera
de sus valores. En consecuencia, su distribución de probabilidad no se puede dar en forma
tabular. Consideremos una variable aleatoria cuyos valores son las alturas de toda la gente
mayor de 21 años de edad. Entre cualesquiera dos valores, digamos 163.5 y 164.5
centímetros, o incluso 163.99 y 164.01 centímetros, hay un número infinito de alturas unas
de las cuales es 164 centímetros. Tratamos ahora como un intervalo en lugar de un valor
puntual de nuestra variable aleatoria. Trataremos el cálculo de probabilidades para varios
intervalos de variables aleatorias continuas como:
( ) ( ), ,P a x b P W c< < >
Nótese que cuando x es continua,
( ) ( ) ( ) ( )bxaPbXPbXaPbxaP <<==+<<=≤<
Es decir no importa si incluimos o no un extremo del intervalo. Esto no es cierto, sin
embargo, cuando X es discreta. Aunque la distribución de probabilidad de variable continua
no se puede representar en forma tabular, se puede establecer como una formula. Dicha
fórmula necesariamente será función de los valores numéricos de la variable continua f(x)
por lo general se llama función de densidad de probabilidad o simplemente función de
densidad de X.
Definición Si un espacio muestral contiene un número infinito de posibilidades igual al número de
puntos en un segmento de línea, se llama espacio muestral continuo.
3.2 Distribución Binomial. 3.2.1 Conceptos de ensayos de Bernoulli. Binomial. Es la que maneja la distribución de la probabilidad de obtener cierta cantidad de
éxitos al realizar una cantidad de experimentos con probabilidad de éxito constante y con
ensayos independientes
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
124
Las características de esta distribución son: a) En los experimentos que tienen este tipo de distribución, siempre se esperan dos
tipos de resultados, ejem. Defectuoso, no defectuoso, pasa, no pasa, etc, etc.,
denominados arbitrariamente “éxito” (que es lo que se espera que ocurra) o
“fracaso” (lo contrario del éxito).
b) Las probabilidades asociadas a cada uno de estos resultados son constantes, es
decir no cambian.
c) Cada uno de los ensayos o repeticiones del experimento son independientes entre
sí.
d) El número de ensayos o repeticiones del experimento (n) es constante.
La distribución Binomial o de Bernoulli Consideremos los llamados ensayos Bernoulli, éstos son aquellos experimentos cuyo
resultado es uno de dos posibles y mutuamente excluyentes, a los que se denominarán éxito
y fracaso.
Entonces se tiene lo que se denomina experimento Binomial, donde el número de ensayos
se denota con n, la probabilidad de éxito con p y la de fracaso con q. Hay que notar que las
probabilidades de éxito y de fracaso están relacionadas de la siguiente manera: p + q =1.
La distribución de probabilidad Binomial La distribución de probabilidad para una variable aleatoria Binomial esta dada por
nx ,...,2,1,0=
Donde:
p = probabilidad de éxito en una sola prueba; q = 1 – p (probabilidad de fracaso)
n = número de pruebas; x = numero de éxitos en n pruebas. La media y la varianza de la
variable Binomial son, respectivamente, np=μ npq=2σ
Problema: Hallar la probabilidad de que al lanzar una moneda tres veces resulten (a) tres
sol; (b) dos águilas y un sol; (c) al menos un sol ; ( d) no más de una águila.
xnx qpx
nxXP −
⎟⎟⎟
⎠
⎞
⎜⎜⎜
⎝
⎛== )( xnx qp
xnxn −
−=
)!(!!
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
125
Solución:
Puede ocurrir 2 posibilidades (sol o águila ) por cada lanzamiento hay un total de
( 2) ( 2) (2) = 8 resultados posibles.
S = SSS, SSA, SAS, ASS, SAA, ASA, AAS, AAA
P(caiga un sol en una sola tirada) = p = ½
P(no caiga sol en una sola tirada) = q = 1 – p = ½
(a) p( tres sol )
n = 3 y x = 3 n – x = 3 – 3 = 0
dbinom 3 3,12,⎛⎜
⎝⎞⎟⎠
0.125=
(b) p ( dos águilas y un sol )
n = 3 ; x = 2 ; n – x = 3 – 2 = 1
dbinom 2 3,12,⎛⎜
⎝⎞⎟⎠
0.375=
( c ) p (al menos un sol ) = p ( 1 , 2 , ó 3 sol )
o bien = 1 – p (ningún sol )
n = 3 ; x = 0; n – x = 3 – 0 = 3
1 dbinom 0 3,
12,⎛⎜
⎝⎞⎟⎠
− 0.875=
(e) p(no más de una águila ) = p( 0 águila ó 1 águila) = p( 0 águila) +p(1 águila )
para 0 águila : n = 3 ; x = 0 ; n – x = 3 – 0 = 3
para 1 águila : n = 3 ; x = 1 ; n – x = 3 – 1 = 2
dbinom 0 3,12,⎛⎜
⎝⎞⎟⎠
dbinom 1 3,12,⎛⎜
⎝⎞⎟⎠
+ 0.5=
Problema: La probabilidad de que cierta clase de componente sobreviva a una prueba de
choque dada es ¾. Encuentre la probabilidad de que sobrevivan exactamente dos de los
siguientes cuatro componentes que se prueben.
Solución:
p = ¾; n = 4 ; x = 2;
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
126
b ( 2; 4, ¾ ) = 4 C2 ( ¾) 2 (1/4) 2 = 27/128 = 0.2109
Problema: La probabilidad de que un paciente se recuperé de una delicada operación de
corazón es 0.9 ¿cuál es la probabilidad de que exactamente cinco de los siguientes siete
pacientes intervenidos sobrevivan?
Solución:
n = 7; p = 0.9, q = 0.1,, x = 5
b ( 5; 7, 0.9) = 7C5 (0.9) 5 (0.1) 2 = 0.1240
Problema: Hallar la probabilidad de que en cinco lanzamientos de un dado honrado
aparezca 3
a) dos veces
b) máximo una vez
c) al menos dos veces
Solución:
p = 1/6; q = 1 – p = 5/6
a) n = 5 ; x = 2
b( 2; 5, 1/6) = 5C2 (1/6) 2 ( 5/6) 3 = 625/3888 = 0.16075
b) n = 5 , x= 0 , 1
b( 0; 5, 1/6) + b( 1; 5, 1/6) = 3125/3888= 0.80386
c) n = 5 ; x = 2, 3, 4, 5
b( 2; 5, 1/6) +b( 3; 5, 1/6) +b( 4; 5, 1/6) +b( 5; 5, 1/6) = 763/3888 = 0.19624
Problema: Si el 20 % de los tornillos producidos por una máquina son defectuosos,
determinar la probabilidad de que de 4 tornillos escogidos aleatoriamente
(a)1,
(b) 0,
(c) menos de 2, sean defectuosos.
Solución:
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
127
(a) n = 4 x =1 p = 0.2 q = 0.8
b(1 ; 4, 0.2) = 0.4096
(b) n = 4 x = 0 p = 0.2 q = 0.8
b(0 ; 4, 0.2) = 0.4096
(c ) n = 4 x = 0, 1 p = 0.2 q = 0.8
p(x<2) = P(x = 0) + P(x = 1) = 0.8192
Problema: Hallar la probabilidad de obtener un total de 7 al menos una vez en tres
lanzamiento de un par de dados honrados.
Solución:
n = 7 p =1/6 X = 0 q = 5/6
P(al menos un 7 en tres lanzamiento) = 1 – P( ningún 7 en 3 lanzamiento)
n = 3 x = 0 p = 1/6 q = 5/6
b ( 0; 3, 1/6) = 125/216 = 0.57870
P(al menos un 7 en tres lanzamiento) = 1 – 125/216
= 91/216 = 0.42130
Problema: Calcula la probabilidad de que una familia que tiene 4 hijos, 3 de ellos sean
varones.
Solución: n = 4 y p =1/2 ; x = 3
p(obtener 3 varones) = b(3;4,½) = 0.25
Problema: Se tiene una moneda trucada de modo que la probabilidad de sacar cara es
cuatro veces la de sacar cruz. Se lanza 6 veces la moneda. Calcula las siguientes
probabilidades:
a) Obtener dos veces cruz.
b) Obtener a lo sumo dos veces cruz.
Solución: Calculamos en primer lugar la probabilidad de cara y de cruz:
p(cara) + p(cruz) =1. Si llamamos x a la probabilidad de sacar cruz, podemos escribir:
4 x + x = 1; 5x=1; x =1/5 =0,2
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
128
Así resulta: p(cruz)=0,2 y p(cara)=0,8 n = 6 y p = 0,2
a) Probabilidad de obtener dos veces cruz: x = 2
b(2; 6,0.2) = 0.24
b) Probabilidad de obtener a lo sumo dos veces cruz: x ≤ 2 o bien x = 0, 1, 2
b(0; 6,0.2) + b(1; 6,0.2)+ b(2; 6,0.2) = 0.90
Problema: La probabilidad de que un alumno de 1º de Bachillerato repita curso es de 0,3.
Elegimos 20 alumnos al azar. ¿Cuál es la probabilidad de que haya exactamente 4 alumnos
repetidores?
Solución:
X = 4 n = 20; p = 0.3 ; q = 0.7
b( 4; 20, 0.3) = 0.13
Problema: Los ingenieros eléctricos saben que una corriente neutral elevada en los
sistemas de alimentación de computadoras son un problema potencial. Un estudio reciente
de las corrientes de carga en sistemas de alimentación de computadoras en instalaciones
estadounidenses revelo que el 10 % de las instalaciones tenían razones de corriente neutral
a corriente de carga total altas ( IEEE transactions on Industry Applications, Julio / agosto de
2004). Si se escoge una muestra aleatoria de cinco sistemas de alimentación de
computadora del gran número de instalaciones del país, ¿Que probabilidad hay de que
a) Exactamente tres tengan una relación de corriente neutral a corriente de carga total
alta?
b) Por lo menos tres tengan una relación alta?
c) Menos de tres tengan una relación alta?
Solución:
a) x = 3; p = 0.1; n = 5
b(3,5,0.1) = 0.0081
b) x ≥ 3; p = 0.1; n = 5
b(x = 3,4,5, n = 5, p = 0.1) = 0.0086
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
129
c) x < 3; p = 0.1; n = 5
b(x = 0,1,2, n = 5, p = 0.1) = 0.9914
3.3 Distribución Hipergeométrica. Los tipos de aplicaciones de la distribución Hipergeométrica son muy similares a los de la
Binomial. Pero en caso de la Binomial se requiere la independencia entre las pruebas.
El muestreo se debe efectuar con reemplazo de cada artículo después de que se observe.
Por otro lado, la distribución Hipergeométrica no requiere independencia y se basa en el
muestreo que se realiza sin reemplazo.
El experimentó Hipergeométrica posee las siguientes propiedades:
1. Se selecciona sin reemplazo una muestra aleatoria de tamaño n de N artículos.
2. K de los N artículos se pueden clasificar como éxitos y N – K se clasifican como fracaso.
El número x de éxitos de un experimento Hipergeométrica se denomina variable aleatoria
Hipergeométrica. En consecuencia, la distribución de probabilidad de la variable
Hipergeométrica se llama distribución Hipergeométrica, y sus valores se denotan como h(x,
N, n, k), debido a que dependen del numero de éxitos k en el conjunto N del que
seleccionamos n artículos.
Problema: Se selecciona al azar un comité de cinco personas entre tres químicos y cinco
físicos. Encuentre la distribución de probabilidad para el número de químicos en el comité.
Solución:
3 0 5 5
8 5
( )( )( 0) (0,8,5,3) 0.0179C CP x hC
= = = =
3 1 5 4
8 5
( )( )( 1) (1,8,5,3) 0.2679C CP x hC
= = = =
( ) ( )( )nN
xnkNxk
CCC
nN
xnkN
xk
knNxh −−=
⎟⎟⎠
⎞⎜⎜⎝
⎛
⎟⎟⎠
⎞⎜⎜⎝
⎛−−
⎟⎟⎠
⎞⎜⎜⎝
⎛
=,,, nx ,...,2,1,0=
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
130
3 2 5 3
8 5
( )( )( 2) (2,8,5,3) 0.5357C CP x hC
= = = =
3 3 5 2
8 5
( )( )( 3) (3,8,5,3) 0.1786C CP x hC
= = = =
En forma tabular la distribución Hipergeométrica de x es como sigue:
x 0 1 2 3
h (x, N, n k) 0.0179 0.2679 0.5357 0.1786
Problema: Lotes de 40 componentes cada uno se denomina aceptables sino contienen mas
de tres defectuosos. El procedimiento para muestrear el lote es la selección de cinco
componentes al azar y rechazar el lote si se encuentra un componente defectuoso. ¿cual es
la probabilidad de que se encuentre exactamente un defectuoso en la muestra si hay tres
defectuosos en todo el lote ?
Solución:
N = 40, n = 5; k = 3; x = 1
3 1 37 4
40 5
( )( )(1, 40,5,3) 0.3011C ChC
= =
Problema: Una caja contiene 6 bolas blancas y 4 rojas. Se realiza un experimento en el cual
se selecciona una bola aleatoriamente y se observa su color, pero no se reemplaza la bola.
Hallar la probabilidad de que después de 5 pruebas del experimento se haya escogido 3
bolas blancas.
N = 10; n = 5; x = 3; k = 6
6 3 4 2
10 5
( )( )(3,10,5,6) 0.4762C ChC
= =
Problema: Un lote de 40 artículos se seleccionan al azar 4 para probarlos y si fallan la
prueba mas de 2 se rechaza el lote completo. ¿Cuál es la probabilidad de rechazar un lote
que tenga 8 defectuosos? Dado que el muestreo se hace sin reemplazo y la fracción de
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
131
muestreo es grande (10%) tenemos una variable aleatoria Hipergeométrica. Los parámetros
son: N = 40, k = 8, n = 4, x es el numero de defectuosos en la muestra y queremos la
probabilidad p ( x > 2)
Solución:
P ( x > 2 ) = p (x = 3) + p(x = 4) = h ( 3; 40, 4, 8) + h ( 4 ; 40, 4, 8) = 0.0204
Problema: Esta es la probabilidad de rechazar un lote con 25 % de defectuosos y es muy
baja. Para mejorar el proceso de selección, los ingenieros deciden rechazar el lote cuando
haya 2 o mas defectuosos. ¿Cuál es la probabilidad de rechazar un lote que tenga 8
defectuosos? Los parámetros permanecen iguales lo que cambia es la probabilidad ahora
es: p ( x ≥ 2 ) = p (x = 2) + p ( x > 2)
Solución:
N = 40 ; n = 4, k = 8 ; x ≥ 2
p ( x ≥ 2 ) = p (x = 2) + p (x = 3) + p(x = 4)]
= h ( 2; 40, 4, 8) + h ( 3; 40, 4, 8) + h ( 4 ; 40, 4, 8) = 0.1723
Problema: Con esta nueva política de rechazar el lote cuando sean 2 o más ¿cuál es la
probabilidad de rechazar un lote con 6 defectuosos? los parámetros son, ahora N = 40, k =
6; n = 4 y queremos la probabilidad:
p (x > 10 ) = 1 - [ p (x = 0) + p ( x = 1)] = 1 – [ h (0 , 40, 4, 6) + h ( 1,40, 4,6)]=
= 1 – ( 0.5075 + 0.3929 ) = 0.0996
Problema: En el salón de tercer año de una escuela hay 35 alumnos, de los cuales 10 son
niñas y 25 niños. Se nombra un comité de 7 alumnos que represente al salón. La selección
se hace al azar. ¿ que probabilidad hay de que en el comité haya mayoría de niñas? En
situaciones se cumple las hipótesis de una Hipergeométrica. Los parámetros son : N = 35,
k = 10, n = 7, x es el numero de niñas en el comité. La probabilidad pedida es:
P (x > 3 ) = p (x = 4) + p (x = 5) + p (x = 6) + p (x = 7)
Solución:
=h(4,35,7,10)+h(5,35,7,10)+ (6,35,7,10)+h(7,35,7,10)
= 0.0718 + 0.0112 + 7.8072 x 10 – 4 + 1.7845 x 10 – 5 = 0.0838
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
132
3.4 Distribución de Poisson. Los experimentos que dan valores numéricos de una variable aleatoria x, el número de
resultados que ocurren durante un intervalo dado o en una región especifica, se llaman
experimentos de Poisson. El intervalo puede ser de cualquier longitud, como un minuto, un
días , una semana, un mes, o incluso un año. Por ello un experimento de Poisson puede
generar observaciones para la variable aleatoria x que representa el número de llamadas
telefónicas por hora que recibe una oficina, el número de días que la escuela permanece
cerrada debido a la nieve durante invierno o el número de juegos suspendidos debido a la
lluvia durante la temporada de béisbol. La región específica podría ser un segmento de
línea, un área o quizás una pieza de material. En tales casos X puede representarse el
numero de ratas de campo por acre, el numero de bacterias en un cultivo dado o el numero
de errores mecanográficos por pagina.
Un experimento de Poisson se deriva del proceso de Poisson y posee las siguientes propiedades:
1. el numero de resultados que ocurren en un intervalo o región especifica es
independiente del numero que ocurre en cualquier otro intervalo o región del espacio
disjunto. De esta forma vemos que el proceso de Poisson no tiene memoria.
2. la probabilidad de que ocurra un solo resultado durante un intervalo muy corto o una
región pequeña es proporcional a la longitud del intervalo o al tamaño de la región y
no depende del número de resultados que ocurren fuera de este intervalo o región.
3. la probabilidad de que ocurra mas de un resultado en tal intervalo corto o que caiga
en tal región pequeña insignificante.
4. El numero X de resultados que ocurren durante un experimento de Poisson se llama
variable aleatoria de Poisson y su distribución de probabilidad se llama distribución
de Poisson. El número medio de resultados en cada unidad se denota por la letra
griega lambda, λ.
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
133
La distribución de probabilidad de Poisson La distribución de probabilidad para una variable aleatoria de Poisson esta dada por :
!),(
xexp
λλλ−
= ; x = 0, 1, 2, ...
donde :
=λ Numero medio de eventos en una unidad dada de tiempo, área o volumen.
=e 2.71828...
La media y la varianza de una variable aleatoria de Poisson son , respectivamente,
λμ = y λσ =2
Problema: Supongamos que el numero de grietas por espécimen de concreto con cierto tipo
de mezcla de cemento tiene una distribución de probabilidad de Poisson aproximada.
Además, suponga que el número medio de grietas por espécimen es de 2.5.
a) Calcule la media y la desviación estándar de x, el numero de grietas por espécimen
de concreto.
b) Calcule la probabilidad de que un espécimen de concreto escogido al azar tenga
exactamente cinco grietas.
c) Calcule la probabilidad de que un espécimen de concreto escogido al azar tenga dos
o mas grietas.
Solución:
a) Tanto la media como la varianza de una variable aleatoria de Poisson son iguales a λ .
Por tanto, 5.2== λμ 5.22 == λσ
Entonces la desviación estándar es
58.15.2 ==σ
b) Queremos conocer la probabilidad de que un espécimen de concreto tenga
exactamente cinco grietas. La distribución de probabilidad de x
5.2=λ ; x = 5;
067.0!5
5.2)5(5.25
==−ep
c) Para determinar la probabilidad de que un espécimen de concreto tenga o mas
grietas necesitamos calcular
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
134
( ) ( ) ( ) ∑∞
=
=+++=≥2
)(...432)2(x
xppppxp
Si queremos calcular la probabilidad de este evento, es preciso considerar el evento
complementario. Así,
( )( ) ( )[ ]
713.0287.01101
)2(12
=−=+−=
<−=≥pp
xpxp
Problema: Si un banco recibe en promedio 6 cheques sin fondo por día, ¿cuáles son las
probabilidades de que reciba,
a) cuatro cheques sin fondo en un día dado,
b) 10 cheques sin fondos en cualquiera de dos días consecutivos?
Solución:
a) x = variable que nos define el número de cheques sin fondo que llegan al banco en un
día cualquiera = 0, 1, 2, 3, ....., etc
λ = 6 cheques sin fondo por día
e = 2.718
p(4, 6 ) = 0.1339
b) x = variable que nos define el número de cheques sin fondo que llegan al banco en dos
días consecutivos = 0, 1, 2, 3, ......, etc., etc.
λ = 6 x 2 = 12 cheques sin fondo en promedio que llegan al banco en dos días consecutivos
P(10, 12 ) = 0.1049
Problema: En la inspección de hojalata producida por un proceso electrolítico continuo, se
identifican 0.2 imperfecciones en promedio por minuto. Determine las probabilidades de
identificar
a) una imperfección en 3 minutos,
b) al menos dos imperfecciones en 5 minutos,
c) cuando más una imperfección en 15 minutos.
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
135
Solución:
a) x = variable que nos define el número de imperfecciones en la hojalata por cada 3
minutos = 0, 1, 2, 3, ...., etc., etc.
λ = 0.2 x 3 =0.6 imperfecciones en promedio por cada 3 minutos en la hojalata
P( 1, 0.6) = 0.3293
b) x = variable que nos define el número de imperfecciones en la hojalata por cada 5
minutos = 0, 1, 2, 3, ...., etc., etc.
λ = 0.2 x 5 =1 imperfección en promedio por cada 5 minutos en la hojalata
)1,1,0(1)1...,4,3,2( ==−=== λλ xpetcxp = 1- (0.367918+0.367918) = 0.26416
c) x = variable que nos define el número de imperfecciones en la hojalata por cada 15
minutos = 0, 1, 2, 3, ....., etc., etc.
λ = 0.2 x 15 = 3 imperfecciones en promedio por cada 15 minutos en la hojalata
( 0,1, 3) ( 0, 3) ( 1, 3)0.0498 0.1494 0.1992
p x p x p xλ λ λ= = = = = + = == + =
Problema: Durante un experimento de laboratorio el número promedio de partículas
radiactivas que pasan a través de un contador en un milisegundo es cuatro ¿cuál es la
probabilidad de que seis partículas entren al contador en un milisegundo dado?
λt = 4; x = 6
Aproximación de la binomial por la poisson En este caso se determinarán probabilidades de experimentos Binomiales, pero que dadas
sus características, es posible aproximarlas con la distribución de Poisson, estas
características son, n → ∞ ( n es muy grande) y p → 0 (p es muy pequeña), por lo que:
( ) 1042.0!6
4)(46
==−exf
!xqpC)p,n,x(p
xxnx
xn
λελ −− ≅=
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
136
La expresión anterior solo se cumple cuando n → ∞ y p → 0, solo en este caso, si esto no
se cumple, la aproximación no se puede llevar a efecto, por lo que la fórmula a utilizar en
este caso sería:
Donde:
λ = μ = n p = número esperado de éxitos = tasa promedio de éxitos; n = número de
repeticiones del experimento; p = probabilidad de éxito = p(éxito)
Una regla general aceptable es emplear esta aproximación si n ≥ 20 y p ≤ 0.05: sí n ≥ 100, la
aproximación es generalmente excelente siempre y cuando n p ≤10.
Problema: Se sabe que el 5% de los libros encuadernados en cierto taller tienen
encuadernaciones defectuosas. Determine la probabilidad de que 2 de 100 libros
encuadernados en ese taller, tengan encuadernaciones defectuosas, usando,
a) la fórmula de la distribución Binomial,
b) la aproximación de Poisson a la distribución Binomial.
Solución:
a) n = 100
p = 0.05 = p(encuadernación defectuosa) = p(éxito)
q = 0.95 = p(encuadernación no defectuosa) = p(fracaso)
x = variable que nos define el número de encuadernaciones defectuosas en la muestra
= 0, 1, 2, 3,....,100 encuadernaciones defectuosas
p(x = 2, n = 100, p = 0.05 ) = 0.0812
b) n = 100 encuadernaciones
p = 0.05
λ = n p = (100)(0.05)= 5
x = variable que nos define el número de encuadernaciones defectuosas en la muestra =
= 0, 1, 2, 3,....,100 encuadernaciones defectuosas
p(2, 5) = 0.0843
!x),x(p
x λελλ−
=
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
137
Al comparar los resultados de las probabilidades con una y otra distribución, nos damos
cuenta de que la diferencia entre un cálculo y otro es de tan solo 0.0031, por lo que la
aproximación de Poisson es una buena opción para calcular probabilidades Binomiales.
Problema: Un fabricante de maquinaria pesada tiene instalados en el campo 3840
generadores de gran tamaño con garantía. Sí la probabilidad de que cualquiera de ellos falle
durante el año dado es de 1/1200 determine la probabilidad de que
a) 4 generadores fallen durante el año en cuestión,
b) que más 1 de un generador falle durante el año en cuestión.
Solución:
a) n = 3840 generadores
p = 1/1200 = probabilidad de que un generador falle durante el año de garantía
λ = n p = (3840)(1/1200) = 3.2 motores en promedio pueden fallar en el año de garantía
x = variable que nos define el número de motores que pueden fallar en el año de garantía =
0, 1, 2, 3,....,3840 motores que pueden fallar en el año de garantía
dpois 4 3.2,( ) 0.1781=
b) )1(1)1( ≤−=> xpxP
1 dpois 0 3.2,( ) dpois 1 3.2,( )+( )− 0.8288= Problema: En un proceso de manufactura, en el cual se producen piezas de vidrio, ocurren
defectos o burbujas, ocasionando que la pieza sea indeseable para la venta. Se sabe que en
promedio 1 de cada 1000 piezas tiene una o más burbujas. ¿Cuál es la probabilidad de que
en una muestra aleatoria de 8000 piezas, menos de 3 de ellas tengan burbujas?
Solución:
n = 8000 piezas
p = 1/1000= 0.001 probabilidad de que una pieza tenga 1 o más burbujas
λ = np = (8000)(1/1000) = 8 piezas en promedio con 1 o más burbujas
x = variable que nos define el número de piezas que tienen 1 o más burbujas =
= 0,1, 2, 3,....,8000 piezas con una o más burbujas
dpois 0 8,( ) dpois 1 8,( )+ dpois 2 8,( )+ 0.0138=
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
138
Problema: Diez por ciento de las herramientas producidas en un proceso de fabricación
determinado resultan defectuosas. Hallar la probabilidad de que en una muestra de 10
herramientas seleccionadas aleatoriamente, exactamente 2 estén defectuosas, empleando
la aproximación de Poisson a la distribución Binomial
p = 0.1; n = 10 λ = n p = 0.1 (10) = 1 ; x = 2
dpois 2 1,( ) 0.1839=
Problema: Si la probabilidad de que un individuo sufra una reacción negativa ante una
inyección de cierto suero es 0.001, hallar la probabilidad de que entre 2000 individuos:
(a) exactamente 3 ;
(b) mas de 2 de ellos reaccionen negativamente.
Solución:
λ = N p = (2000) ( 0.001) = 2
(a) P r3 individuos reaccionen negativamente =
dpois 3 2,( ) 0.1804=
(b) P rmás de 2 de ellos reaccionen negativamente
= 1 – P r(0 ó 1 ó 2 lo sufran)
1 dpois 0 2,( ) dpois 1 2,( )+ dpois 2 2,( )+( )− 0.3233=
Problema: Diez por ciento de las herramientas producidas en un proceso de fabricación
determinado resultan defectuosas. Hallar la probabilidad de que en una muestra de 10
herramientas seleccionadas aleatoriamente, exactamente 2 estén defectuosas, empleando
a) La distribución Binomial
b) la aproximación de Poisson a la distribución Binomial.
Solución.
a) x = 2; n = 10 ; p = 10 % = 0.1 ; q = 0.9
dbinom 2 10, 0.1,( ) 0.1937=
b) λ = n p = 10 (0.1) = 1; x = 2
dpois 2 1,( ) 0.1839=
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
139
En general la aproximación es buena si P ≤ 0.1
3.5 Esperanza matemática. Media de una variable aleatoria. Si se lanzan 16 veces dos monedas y X es el número de caras que ocurre por lanzamiento,
entonces los valores de X pueden ser 0,1 y 2. Suponga que en el experimento salen cero
caras, una cara y dos caras un total de cuatro, siete y cinco veces, respectivamente. El
numero promedio de caras por lanzamiento de las dos monedas es entonces:
( )( ) ( )( ) ( )( ) 06.116
527140=
++
Este es un valor promedio y no es necesariamente un posible resultado del experimento.
O bien :
( ) ( ) ( ) 06.11652
1671
1640 =⎟
⎠⎞
⎜⎝⎛+⎟
⎠⎞
⎜⎝⎛+⎟
⎠⎞
⎜⎝⎛
Los números 4/16, 7/16, y 5/16 son las fracciones de los lanzamientos totales que tienen
como resultado cero, una y dos caras, respectivamente. Estas fracciones también son la
frecuencia relativa de los diferentes valores de X en nuestro experimento. En efecto,
entonces, podemos calcular la media o promedio de un conjunto de datos mediante el
conocimiento de los distintos valores que ocurren y sus frecuencias relativas, sin un
conocimiento del número total de observaciones en nuestro conjunto de datos.
Por tanto, si 4/16 o 1/4 de los lanzamientos tiene como resultado cero caras, 7/16 de los
lanzamientos tienen como resultado una cara y 5/16 de estos tiene dos caras, el numero
medio de caras por lanzamiento será 1.06 sin importar si el número total de lanzamiento fue
16,000 o incluso 10,000.
Utilicemos frecuencias relativas para calcular el número promedio de caras por lanzamiento
que podríamos esperar en el largo plazo. Nos referimos a este valor promedio como la
media de la variable x o la media de la distribución de probabilidad de X y la denotamos
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
140
por xμ o simplemente como μ cuando este claro a que variable nos referimos. También es
común entre los estadísticos referirse a esta media como la esperanza matemática o el valor
esperado de la variable aleatoria X y denotarla como E(X).
Supongamos que se lanza monedas legales, encontramos un espacio muestral para nuestro
experimento es
TTTHHTHHS ,,,= .
Como los 4 puntos muéstrales son iguales probables, se sigue que
( ) ( )41
21
210 =⎟
⎠⎞
⎜⎝⎛⎟⎠⎞
⎜⎝⎛=== TTPXP
( ) ( ) ( )21
41
411 =+=+== THPHTPXP
( ) ( )412 === TTPXP
Este resultado significa que una persona que lance dos monedas una y otra vez, en
promedio, obtendrá una cara por lanzamiento.
Definición Sea X una variable aleatoria con distribución de probabilidad f(x). La media o valor
esperado de X es ( ) ∑==x
xxfXE )(μ ; si X es discreta,
Problema: Un inspector de calidad muestrea un lote que contiene siete componentes; el lote
contiene cuatro componentes buenos y tres defectuosos. El inspector toma una muestra de
tres componentes. Encuentre el valor esperado del número de componentes buenos en esta
muestra.
Solución: sea X el número de componentes buenos en la muestra. La distribución de
probabilidad de x es
( )( )( )7
3
33
4
)( xxxF −= x = 0, 1, 2, 3
Unos simples cálculos dan
f(0) = 1/35 = 0.028571428,
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
141
f(1) = 12/35= 0.342857142;
f(2) = 18/35= 0.514285714;
f(3) = 4/35= 0.114285714. Por tanto.
( ) ( ) ( ) ( ) 71.17
123543
35182
35121
3510)( ==⎟
⎠⎞
⎜⎝⎛+⎟
⎠⎞
⎜⎝⎛+⎟
⎠⎞
⎜⎝⎛+⎟
⎠⎞
⎜⎝⎛== XEμ
De esta forma si se selecciona al azar una muestra de tamaño tres una y otra vez de un
lote de cuatro componentes buenos y tres defectuosos, contendría, en promedio 1.7
componentes buenos.
Problema: En un juego de azar se pagaran $5 a una persona si solo salen caras(H) o
cruces (T) cuando se lanzan tres monedas, y ella pagara $ 3 si salen una o dos caras. ¿
cual es su ganancia esperada?
Solución: el espacio muestral para los posibles resultados cuando se lanzan de manera
simultánea tres monedas, o de manera equivalente si se lanzan tres veces una moneda, es
TTTTTHTHTHTTTHHHTHHHTHHHS ,,,,,,,=
Se podría argumentar que cada una de estas posibilidades es igualmente probable y que
ocurre con la probabilidad de 1/8. un método alternativo seria aplicar la regla de la
multiplicación de probabilidad para eventos independientes a cada elemento de S. Por
ejemplo,
P ( HHT) = P(H) P(H) P(T) = (1/2)(1/2)(1/2) = 1/8
La variable aleatoria de interés es Y, el monto que el jugador puede ganar; y los valores
posibles de Y son $5 si ocurre el evento
TTTHHHE ,1 =
Y - $ 3 si ocurre el evento
TTHTHTHTTTHHHTHHHTE ,,,,,2 =
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
142
Evento. Como E1 y E2 ocurren con probabilidades ¼ y ¾, respectivamente, se sigue que
( ) ( ) ( ) 1433
415 −=⎟
⎠⎞
⎜⎝⎛−+⎟
⎠⎞
⎜⎝⎛== YEμ
En este juego la persona perderá, en promedio, $1 por lanzamiento de las tres monedas. Un
juego se considera equitativo si el jugador, en promedio, queda empatado. Por tanto, una
ganancia esperada de cero define un juego equitativo.
Consideremos una nueva variable aleatoria g(X), que depende de X; es decir, cada valor de
g(X) esta determinado al conocer los valores de X. Por ejemplo, g(X) podría ser X2 o 3X – 1 ,
de modo que siempre que x tome el valor 2, g(X) toma el valor g(2). En particular, si X es
una variable aleatoria discreta con distribución de probabilidad
),(xf 2,1,0,1−=x y 2)( XXg = entonces
( )[ ] ( ) ( )( )[ ] ( ) ( )( ) ( )( )[ ] ( ) )2(24
,11111
000
fXPXgPff
XPXPXgPfXPXgP
====+−=
=+−=======
De modo que la distribución de probabilidad de g(X) se puede escribir como
)(xg 0 1 4
[ ])()( xgXgP = )0(f )1()1( ff +− )2(f
Por definición del valor esperado de una variable aleatoria, obtenemos
[ ]( ) ( ) ( )[ ] ( )2411100
)()(
ffff
xgEXg
++−+=
=μ
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )∑=
+++−−=
xxfxg
ffff)()(
22110011 2222
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
143
este resultado se generaliza en el siguiente teorema para variables discretas y continuas.
Teorema Sea x una variable aleatoria con distribución de probabilidad f(x). La media o valor esperado
de la variable aleatoria g(X) es
( )[ ] ∑== );()()( xfxgXgEXgμ si X es discreta
Problema: Suponga que el numero de autos x que pasa por un lavado de autos entre 4:00
pm y 5:00 pm en cualquier viernes soleado tienen la siguiente distribución de probabilidad :
x 4 5 6 7 8 9
P(X = x) 1 / 12 1 / 12 1 / 4 1 / 4 1 / 6 1 / 6
Sea g(x) = 2X – 1 la cantidad de dinero en dólares, que el administrador paga al
dependiente. Encuentre las ganancias esperadas de dependiente en este periodo particular.
Solución:
( )[ ] ( )
( ) ( )
( ) ( ) ( ) ( ) ( ) ( ) 67.12$6117
6115
4113
4111
1219
1217
12
129
4
=⎟⎠⎞
⎜⎝⎛+⎟
⎠⎞
⎜⎝⎛+⎟
⎠⎞
⎜⎝⎛+⎟
⎠⎞
⎜⎝⎛+⎟
⎠⎞
⎜⎝⎛+⎟
⎠⎞
⎜⎝⎛=
−=
−=
∑=x
Xfx
XEXgE
Debemos extender ahora nuestro concepto de esperanza matemática al caso de dos
variables aleatorias X y Y con distribución de probabilidad conjunta ),( yxf .
Definición Sean X y Y variables aleatorias con distribución de probabilidad conjunta f(x , y ). La media
o valor esperado de la variable aleatoria g(X, Y ) es
( )[ ] ∑∑==x y
YXg yxfyxgYXgE ),(),(,),(μ ; si X y Y son discretas
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
144
Problema: Sean X y Y variables aleatorias con distribución de probabilidad conjunta que se
indica en la tabla siguiente:
),( yxf X Totales por
renglón 0 1 2
0 3/28 9/28 3/28 15/28
Y 1 3/14 3/14 3/7
2 1/28 1/28
Totales por
columna
5/14 15/28 3/28 1
Encuentre el valor esperado de g ( X, Y ) = XY
Solución:
( )
( ) ( )( ) ( ) ( )( ) ( ) ( )( ) ( ) ( )( ) ( ) ( )( ) ( ) ( )( ) ( )
( )143)1,1(
0,2021,1110,1012,0201,0100,000
),(2
0
2
0
==
+++++=
= ∑∑= =
fXYE
ffffffXYE
yxxyfXYEx y
Definición Sea X una variable aleatoria con distribución de probabilidad f(x). La media o valor esperado de X es
∫∞
∞−== dxxxfXE )()(μ ; si X es continua
Un ingeniero se interesa en la vida media de cierto tipo de dispositivo electrónico. Esta es
una ilustración de problema de tiempo de falla que a menudo se presenta en la práctica. El
valor esperado de la vida del dispositivo es un parámetro importante para su evaluación.
Problema: Sea X la variable que denota la vida en horas de cierto dispositivo electrónico. La
función de densidad de probabilidad es:
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
145
⎪⎪
⎩
⎪⎪
⎨
⎧
=0
000,20
)(
3xxf
caso otrocualquier en
100>x
Encuentre la vida esperada de este tipo de dispositivo.
Solución:
2002000020000)(100 2100 3 ==⎟
⎠⎞
⎜⎝⎛== ∫∫
∞∞dx
xdx
xxXEμ
Teorema Sea x una variable aleatoria con distribución de probabilidad f(x). La media o valor esperado
de la variable aleatoria g(X) es
( )[ ] dxxfxgXgEXg ∫∞
∞−== )()()(μ ; si X es continua
Problema: Sea X una variable aleatoria con función de densidad
⎪⎩
⎪⎨⎧
=0
,3)(
2xxf
caso otrocualquier en
21 <<− x
Encuentre el valor esperado de g(X) = 4X + 3 .
Solución:
( ) ( ) ( ) 83431
33434
2
1
232
1
2
=+=+
=+ ∫∫ −−dxxxdxxxXE
Debemos extender ahora nuestro concepto de esperanza matemática al caso de dos
variables aleatorias X y Y con distribución de probabilidad conjunta ),( yxf .
Definición Sean X y Y variables aleatorias con distribución de probabilidad conjunta f(x,y). La media o
valor esperado de la variable aleatoria g(X, Y ) es
( )[ ] dydxyxfyxgYXgEYXg ∫ ∫∞
∞−
∞
∞−== ),(),(,),(μ ; si X y Y son continuas.
Problema:
Solución:
Tenemos
3.6 Distr 3.6.1 DisLa distribuc
es la distride campan
la investiga
Además
mediante u
gaussiana,
ecuación a
Se dice qu
nombre de
UNIDA
Encuentre E
( ), yxf
⎜⎝⎛
XYE
ibución no
stribución ción continua
ibución normna, la cual de
ación.
, los errores
una distribuc
en honor
a partir de un
e estas varia
e curva norm
AD III / FUN
⎟⎠⎞
⎜⎝⎛
XYE para
(⎪⎩
⎪⎨⎧ +
=0
431 yx
1
0
2
0⎜⎝⎛=⎟
⎠⎞ ∫ ∫ x
yXY
ormal.
de la proba de probab
mal. Su gra
escribe much
s en las me
ión normal. L
de Karl Frie
estudio de e
ables tienen
mal o campa
NCIONES
la función de
)2y
en
0 <
431( 2+
⎟⎠⎞ yx
xy
babilidad bilidad más im
afica, que se
hos fenómen
ediciones cie
La distribució
edrich Gaus
errores en m
una distribuc
ana de Gaus
Y DISTRI
e densidad
ocualquier
,2<< x
) 1
0
2
= ∫dxdy
continúa.mportante en
denomina c
nos que ocur
entíficas se
ón normal a
ss (1777 –
mediciones re
ción normal
ss. Para exp
BUCIONE
caso otro
0 <
21
0
3
=+ dyyy
n todo el ca
curva normal
rren en la nat
aproximan e
menudo se d
1855), quie
epetidas de la
y la función
presar que u
ES MUEST
1<< y
85
=
mpo de la e
, es la curva
turaleza, la i
extremadam
denomina di
en también d
a misma can
de densidad
una variable
TRALES.
146
estadística
en forma
ndustria y
ente bien
stribución
derivo su
ntidad.
d recibe el
aleatoria
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
147
continua X, tiene una distribución normal de media y desviación típica , escribimos
.
Distribución normal
La función de densidad de la variable aleatoria normal X, con media μ y varianza ,2σ es
( ) ( ) ( )[ ]2/21
21,; σμ
πσσμ −−= xexn ∞<<∞− x
donde
...14159.3=π y ...71828.2=e
Existen unas tablas que permiten calcular probabilidades en distribuciones normales
reducidas. Por ello es aconsejable transformar cualquier variable aleatoria X que sigue que
sigue una distribución en otra variable Z que siga una distribución N(0,1).
El cambio de variable que es necesario hacer es el siguiente:
Características:
a) Es generada por una variable de tipo continuo, denominada x; -∞< x < ∞
b) La función que nos define esta distribución es:
-∞< x < ∞
Al dar a la función los valores de μ , σ2 y valores a x, obtendremos la distribución en
cuestión, la que tiene forma de campana, por lo que también se le conoce como
campana de Gauss. Hay un número infinito de funciones de densidad Normal, una
para cada combinación de μ y σ. La media μ mide la ubicación de la distribución y la
desviación estándar σ mide su dispersión.
c) Es simétrica con respecto a su eje vertical.
d) Es asintótica con respecto a su eje horizontal; esto quiere decir que jamás va a tocar
el eje de las equis.
e) El área total bajo la curva es 1.
f) Sí sumamos a μ ± σ, se observará que aproximadamente el 68.26% de los
datos se encuentran bajo la curva, si sumamos a μ ± 2σ, el 95.44% de los datos
estará entre esos límites y si sumamos a μ ± 3σ, entonces el 99.74% de los datos
caerá dentro de esos límites. Esta característica es a la vez una forma empírica y
μ σ
),( σμN
),( σμN
σμ−
=XZ
22 22
21 σμεπσ
σμ /)x(),,x(f −−=
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
148
rápida de demostrar si los datos que se analizan tienen una distribución Normal; ya
que para trabajar los datos con esta distribución, debe verificarse que efectivamente
así se distribuyen, ya que de no hacerlo, las decisiones que en un momento dado se
tomarán de un análisis de los datos con la distribución Normal, serían erróneas.
Definición La distribución de una variable aleatoria normal con media cero y varianza 1 se llama
distribución normal estándar.
Problema: Encuentre la probabilidad para cada ejercicio,
a)
La probabilidad pedida se encuentra directamente en las tablas . Basta buscar 1,2 en la
columna y 0,03 en la fila. Su intersección nos da la probabilidad.
8907.0)23.1( =≤zP
Para calcularlo a través de la fórmula original se le suma 0.5 que es de la parte de la región
negativa mas lo que se va a calcular.
0.51
2π 0
1.23
ue
u2−
2
⌠⎮⎮⎮⌡
d
⎛⎜⎜⎜⎝
⎞⎟⎟⎟⎠
⋅+ 0.8907=
b)
)23,1( ≤Zp
)24,1( ≥Zp
Dos formas
1) usando e
2) Restand
0.5 −
c) P ( z ≤ -
( 0−≤zP
d)
Observand
5,0(p
UNIDA
(ZP
s de calcular
el teorema P
do 0.5 que es
1
2 π⋅ 0
1.24
e
⌠⎮⎮⎮⌡
⎛⎜⎜⎜⎝⋅
0.72 )
) 235.072. =
do la figura se
)76,15 ≤≤ Z
AD III / FUN
1)24.1 =≥Z
r:
P + q = 1
1 0.5 +
⎡⎢⎢⎢⎣
−
s la parte com
ue
u2−
2 d
⎞⎟⎟⎟⎠
0=
58
0.51
2−
e deduce qu
)
NCIONES
2.1(1 <− ZP
1
2 π⋅ 0
1.24⌠⎮⎮⎮⌡
⎛⎜⎜⎜⎝⋅
mpleta de la
0.1075
1
2π 0.72−
0
e
⌠⎮⎮⎮⌡
⎛⎜⎜⎜⎝⋅
e
Y DISTRI
8.01)24 −=
4
ue
u2−
2 d
⎞⎟⎟⎟⎠
⎤⎥⎥⎥⎦
región somb
ue
u2−
2 d
⎞⎟⎟⎟⎠
0=
BUCIONE
10.08925=
0.1075=
breada de la
.2358
ES MUEST
075
sección pos
TRALES.
149
sitiva
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
150
(0.5 1.76) ( 1.76) ( 0.5)0.9608 0.6915 0.2693
p z p z p z≤ ≤ = ≤ − ≤= − =
1
2π 0
1.76
ue
u2−
2
⌠⎮⎮⎮⌡
d⋅1
2π 0
0.5
ue
u2−
2
⌠⎮⎮⎮⌡
d
⎛⎜⎜⎜⎝
⎞⎟⎟⎟⎠
⋅− 0.2693=
Problema: El peso de los individuos de una población se distribuye normalmente con media
de 70 Kg. y desviación típica 6 Kg. De una población de 2000 personas, calcula cuántas
tendrán un peso comprendido entre 64 y 76 Kg.
Solución:
Se trata de una distribución N (70,6)
μ = 70 Kg. , σ = 6 Kg. ; X = 64 y 76 Kg.
64 70 76 701 16 6
Z Z− −= = − = =
Z = -1 Z = 1
( )( ) ( )11
1176964(−≤−≤=
≤≤−=≤≤zpzp
zpXp
Por tanto,
p(64 ≤ X ≤ 76 ) = 0.8413 – 0.1587 = 0.6826
Esto significa que el 68,25 % de las personas pesan entre 64 y 76 Kg.
Como hay 2000 personas, calculamos el 68,25% de 2000 y obtenemos 1365 personas.
Problema: El acero que se utiliza para tuberías de agua a menudo se recubre internamente
con un mortero de cemento para evitar la corrosión. En un estudio de los recubrimientos de
mortero de una tubería empleada en un proyecto de transmisión de agua en California
(Transportation Engineering Journal, Noviembre de 1979) se especificó un espesor de 7/16
pulgadas para el mortero. Un gran número de mediciones de espesor dieron una media de
0.635 pulgadas y una desviación estándar de 0.082 pulgadas. Sí las mediciones de
espesor, tenían una distribución Normal, ¿qué porcentaje aproximado fue inferior a 7/16 de
pulgada?
σμ−
=XZ
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
151
Solución:
x = variable que nos define el espesor del mortero en pulgadas; μ = 0.635 pulgadas; σ =
0.082 pulgadas
0080.0)41.2( =−≤ZP
Por tanto, 0.008 x 100% = 0.8% de los recubrimientos de mortero tienen un espesor menor
de 7/16 pulgadas
Problema: Un tubo fluorescente estándar tiene una duración distribuida Normalmente, con
una media de 7,000 horas y una desviación estándar de 1,000 horas. Un competidor ha
inventado un sistema de iluminación fluorescente compacto que se puede insertar en los
receptáculos de lámparas incandescentes. El competidor asegura que el nuevo tubo
compacto tiene una duración distribuida Normalmente con una media de 7,500 horas y una
desviación estándar de 1,200 horas.
a) ¿Cuál tubo fluorescente tiene mayor probabilidad de tener una duración mayor de
9,000 horas?
b) ¿Cuál tubo tiene mayor probabilidad de tener una duración de menos de 5,000
horas?
Solución:
a) Tubo 1
X1 = variable que nos define la duración en horas de un tubo fluorescente
μ = 7,000 horas; σ = 1,000 horas
Tubo 2
X2 = variable que nos define la duración del tubo fluorescente del competidor
μ = 7,500 horas; σ = 1,200 horas
p(x1 > 9,000 horas) = p (z1 > 2.00 )
= 1 – 0.9772 = 0.0228
412408520820
6350437500820
6350167 ...
...
./Z −≈−=−
=−
=
0020001
000700091 .
,,,z =
−=
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
152
p(x2 > 9,000 horas) = p(z2 > 1.25) = 1 – 0.8944 = 0.1056
Por tanto el tubo fluorescente del competidor tiene una probabilidad mayor de durar más de
9,000 horas.
b)
p(x1 < 5,000 horas) = p(z1 < -2.00) = 0.0228
p(x2 < 5,000 horas) = p(z2 < - 2.08) = 0 0.0188
Por tanto, el tubo fluorescente que tiene una mayor probabilidad de durar menos de 5,000
horas es el del primer fabricante.
Problema: La distribución de la demanda (en número de unidades por unidad de tiempo) de
un producto a menudo puede aproximarse con una distribución de probabilidad Normal. Por
ejemplo, una compañía de comunicación por cable ha determinado que el número de
interruptores terminales de botón solicitados diariamente tiene una distribución Normal, con
una media de 200 y una desviación estándar de 50.
a) ¿En qué porcentaje de los días la demanda será de menos de 90 interruptores?
b) ¿En qué porcentaje de los días la demanda estará entre 225 y 275 interruptores?
c) Con base en consideraciones de costos, la compañía ha determinado que su mejor
estrategia consiste en producir una cantidad de interruptores suficiente para atender
plenamente la demanda en 94% de todos los días. ¿Cuántos interruptores terminales
deberá producir la compañía cada día?
Solución:
a) X = variable que nos indica el número de interruptores demandados por día a una
compañía de cable
μ = 200 interruptores por día; σ = 50 interruptores por día
2512001
500700092 .
,,,z =
−=
0020001
000700051 .
,,,z −=
−=
0822001
500700052 .
,,,z −=
−=
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
153
p(z = - 2.20) = 0.4861
p(x < 90) = p(z < -2.20) = 0.0139
Por tanto, 0.0139 x 100% = 1.39% de los días se tendrá una demanda menor de 90
interruptores.
b)
p(225≤ x ≥ 275) = p(z2) – p(z1) = 0.4332 – 0.1915 = 0.2417
Por tanto, 0.2417 x 100% = 24.17% de los días se tendrá una demanda entre 225 y 275
interruptores.
c) En este caso se trata de determinar que valor toma x cuando se pretende cumplir con
el 94% de la demanda de todos los días.
Por tanto despejaremos de la fórmula de z;
;
x = μ + zσ x = μ + z(p = 0.44)σ = 200 + z(p = 0.44)(50) =
= 200 + (1.55)(50) = 277.5 ≅ 278 interruptores terminales por día
¿Cómo se obtiene el valor de z?
En la tabla buscamos la z que corresponde a una probabilidad de 0.44 y nos damos cuenta
de que no existe un valor exacto de 0.44 por lo que tomamos los valores de área más
cercanos; luego,
z(p = 0.4394) = 1.50; z(p = 0.4406) = 1.60
Por tanto si interpolamos, encontramos que el valor de z para una probabilidad de 0.44 es
de 1.55, y es el valor que se sustituye en la ecuación.
20250
20090 .z −=−
=
50050
2002251 .z =
−= 501
50200275
2 .z =−
=
σμ−
=xZ
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
154
¿Cuál es la razón de usar un área de 0.44 en lugar de una de 0.94 para buscar en la tabla el
valor de z?
Es muy simple, la tabla que estamos usando es una tabla que solo trabaja con áreas que
son definidas de la media hasta el valor de x y x puede estar tanto del lado derecho de la
media, como del lado izquierdo de la media, es por esto que el área a utilizar es de 0.44 que
se encuentra al lado derecho de la media.
Problema: La nota media de las pruebas de acceso correspondientes a los estudiantes que
querían ingresar en una facultad era 5,8 y la desviación típica 1,75. Fueron admitidos los de
nota superior a 6.
a) ¿Cuál fue el porcentaje de admitidos si la distribución es normal?
b) ¿Con qué probabilidad exactamente cuatro de diez estudiantes son admitidos por
distribución binomial?
Solución:
a)μ = 5.8 ; σ = 1.75 ; x = 6
Z = ( 6 – 5.8 ) / 1.75 = 0.11
P ( X > 6 ) = p ( Z > 0.11 ) = 1 – P ( Z < 0.11 ) = 1 – 0.5438 = 0.4562 = 45.62 %
b) Es una distribución Binomial de parámetros n = 10 y p = 0,4562
p(obtener r éxitos ) = p (X = r) =
= =
Problema: Dada una distribución normal con μ = 50 y σ = 10, encuentre la probabilidad de
que x tome un valor en 45 y y 62.
Z 1 = ( 45 – 50 ) / 10 = - 0.5 Z 2 = ( 62 – 50 ) / 10 = 1.2
rnr pprn −−⎟⎟⎠
⎞⎜⎜⎝
⎛)1.( =−⎟⎟
⎠
⎞⎜⎜⎝
⎛== 64 )4562,01()4562,0(
4 10
)4(Xp
235,0)5438,0()4562,0(1.2.3.47.8.9.10 64 ==
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
155
p ( 45 < X < 62 ) = p ( -0.5 < Z < 1.2 ) = P ( Z < 1.2 ) – P ( Z < - 0.5 )
= 0.8849 – 0.3085 = 0.5764
Problema: Dada una distribución normal con μ = 300 y σ = 50, encuentre la probabilidad de
que X tome un valor mayor que 362.
Z = ( 362 – 300 ) / 50 = 1.24
P ( X > 362 ) = P ( Z > 1.24 ) = 1 – p ( Z < 1.24 ) = 1 – 0.8925 = 0.1075
Problema: Una empresa eléctrica fabrica focos que tienen una duración , antes de fundirse,
que se distribuye normalmente con media igual a 800 horas y una desviación estándar de 40
horas. Encuentre la probabilidad de que un foco se funda entre 778 y 834 horas.
Solución:
Z 1 = ( 778 – 800 ) / 40 = - 0.55 ; Z 2 = ( 834 – 800 ) / 40 = 0.85
P (778 < X < 834 ) = p ( - 0.55 < Z < 0.85 ) = P ( Z < 0.85 ) – P ( -0.55)
= 0.8023 – 0.2912 = 0.5111
Problema: En un proceso industrial el diámetro de un cojinete es una parte importante del
componente. El comprador establece que las especificaciones en el diámetro sean 3.0 ±
0.01 cm. La implicación es que ninguna parte que caiga fuera de estas especificaciones se
aceptará. Se sabe que en el proceso el diámetro de un cojinete tiene una distribución normal
con media 3.0 y una desviación estándar de 0.005. En promedio, ¿cuántos cojinetes se
descartaran?
Solución:
X 1 = 3.0 – 0.01 cm = 2.99 cm; X 2 = 3.0 + 0.01 cm = 3.01
μ = 3.0 ; σ = 0.005
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
156
Z 1 = ( 2.99 – 3.0 ) / 0.005 = - 2.0
Z 2 = ( 3.01 – 3.0 ) / 0.005 = 2.0
P ( 2.99 < x < 3.01 ) = P (-2.0 < Z < 2.0 ) = p ( Z < 2.0 ) – P ( Z < - 2.0 )
= 0.9772 – 0.0228 = 0.9544
Ejemplo: Cierta maquina fabrica resistores eléctricos que tienen una resistencia media de 40
ohmios y una desviación estándar de 2 ohmios. Suponga que la resistencia sigue una
distribución normal y se puede medir con cualquier grado de precisión, ¿qué porcentaje de
resistores tendrán una resistencia que exceda 43 ohmios?
Solución:
X = 43 ; μ = 40; σ = 2
Z = (43 – 40 ) / 2 = 1.5
P ( X > 43 ) = P ( Z > 1.5 ) = 1 – P( Z < 1.5 ) = 1 – 0.9332 = 0.0668 = 6.68 %
3.7 Aproximación de la Binomial a la normal. Cuando n es grande y p está próximo a 0,5 el comportamiento de una distribución binomial
B(n, p) es aproximadamente igual a una distribución normal,
Esto permite sustituir el estudio de una por el de una .
Suele considerarse que la aproximación es buena cuando n p>5 y n q>5
Dado que por mucho que se parezca nunca es igual una binomial que una normal, es
necesario aplicar en el cálculo de probabilidades un ajuste que recibe el nombre de
corrección de Yates. Si X es la binomial y X’ la normal, la corrección consiste en lo siguiente:
(Se asocia un intervalo unidad centrado en el punto)
),( npqnpN
),( pnB ),( npqnpN
⎟⎠⎞
⎜⎝⎛ +≤′≤−==
21
21)( rXrprXp
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
157
(se alarga el intervalo ½ por la izquierda y ½ por la derecha.)
Para valores de n mayores de 1.000 se puede suprimir la corrección.
Problema: Se lanza una moneda correcta al aire 400 veces. Calcula la probabilidad de
obtener un número de caras comprendido entre 180 y 210, ambos inclusive.
Solución:
Calculamos la media y la desviación típica de la distribución binomial:
; . Por tanto,
(180 210) (179.5 210.5)179.5 200 210.5 200
10 10
p X p x
p z
′≤ ≤ = ≤ ≤
− −⎛ ⎞≤ ≤⎜ ⎟⎝ ⎠
pero
( 2.05) ( 2.05) 1 ( 2.05) 1 0.9798 0.0202p z p z p z≤ − = ≥ = − ≤ = − =
luego
Problema: Un tirador acierta en el blanco en el 70% de los tiros. Si el tirador participa en una
competición y tira 25 veces, ¿cuál es la probabilidad de que acierte más de 10 tiros?
Solución:
Es una distribución B(25; 0,7) que podemos aproximar a través de la normal:
La aproximación será buena.
⎟⎠⎞
⎜⎝⎛ +≤′≤−=≤≤
21
21)( bXapbXap
20021.400 === npμ 10
21.
21.400 === npqσ
)05,2()05,1()05,105,2( −≤−≤=≤≤−= ZpZpZp
8531,0)05,1( =≤Zp
8329,00202,08531,0)210180( =−=≤≤ Xp
55,73,0.25.55,177,0.25.
>==>===
qnpnμ
29,23,0.7,0.25 === npqσ
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
158
( 10) ( 11) ( 10.5)10.5 17.5 ( 3.06) 1 ( 3.06) 1 0.0010 0.999
2.29
p x p x p x
p z p z p z
′> = ≥ = ≥
−⎛ ⎞≥ = ≥ − = − ≤ = − =⎜ ⎟⎝ ⎠
Problema: Hallar la probabilidad de obtener entre 3 y 6 caras inclusive en 10 lanzamientos
de una moneda honrada utilizando
(a) La distribución binomial,
(b) la aproximación normal a la distribución binomial.
Solución
a) sea X la variable aleatoria que da el numero de caras en 10 lanzamientos. Entonces :
P ( X = 3 ) = (10C 3) (1/2) 3 (1/2) 7 = 15 /128 = 0.1172
P ( X = 4 ) = (10C4 ) (1/2) 4 (1/2) 6 = 105/512 = 0.2051
P ( X = 5 ) = (10C 5) (1/2) 5 (1/2) 5 = 63/256 = 0.2461
P ( X = 6 ) = (10C 6) (1/2) 6 (1/2) 4 = 105/512 = 0.2051
Entonces la probabilidad pedida es
P ( 3 ≤ x ≤ 6 ) = 15/128 + 105/512 + 63/256 + 105/512
= 99/128 = 0.7734
Figura 1:
9998,0)06,3( =≤= Zp
numero de caras
0
0,05
0,1
0,15
0,2
0,25
0,3
0 5 10 15
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
159
Figura 2:
b) La distribución de probabilidad para el numero de caras en 10 lanzamientos de la
moneda se presentan gráficamente en las figuras 1 y 2 . en la figura 2 trata los datos como si
fueran continuos. La probabilidad pedida es la suma de las áreas de los rectángulos
sombreados en la figura 2 y puede aproximarse por el área bajo la correspondiente curva
normal, mostrada a trazos. Considerando los datos como continuos, se deduce que 3 a 6
caras pueden considerarse como 2.5 a 6.5 caras. También la media y la varianza para la
distribución Binomial están dadas por:
1 1
10(0.5) 5
10(0.5)(0.5) 1.58
2.5 5 6.5 51.58 0.951.58 1.58
( 1.58 0.95) ( 0.95) ( 1.58)0.8289 0.0571 0.7718
np
npq
z z
p z p z p z
μ
σ
= = =
= = =
− −= = − = =
− < < = < − < −= − =
Se compara muy bien con el valor verdadero de 0.7734 obtenido en el inciso a) . La
precisión es aun mejor para valores superiores de n.
numero de caras
0
0,05
0,1
0,15
0,2
0,25
0,3
0 2 4 6 8 10 12
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
160
Problema: La probabilidad de que un paciente se recupere de una rara enfermedad de la
sangre es 0.4. si se sabe que 100 personas contraen esta enfermedad, ¿cual es la
probabilidad de que menos de 30 sobrevivan ?
Solución:
1
100(0.4) 40
100(0.4)(0.4) 4.89929.5 40 2.14
4.899( 30) ( 2.14) 0.0162
np
npq
z
p x p z
μ
σ
= = =
= = =
−= = −
< = < − =
Problema: Una prueba de opción múltiple tiene 200 preguntas cada una con cuatro
respuestas posibles de las que solo una es la correcta. ¿Cual es la probabilidad De que con
puras conjeturas se obtengan de 25 a 30 respuestas correctas para 80 de los 200 problemas
acerca de los que el estudiante no tiene conocimiento?
Solución : La probabilidad de un respuesta correcta para cada una de las 80 preguntas es p
= ¼. Si X representa el número de respuesta correcta debidas a conjeturas entonces: 30
25
1(25 30) ,80,4
180 204
1 3180 3.8734 4
x
xp x b x
npμ
σ
=
=
⎛ ⎞≤ ≤ = ⎜ ⎟⎝ ⎠
⎛ ⎞= = =⎜ ⎟⎝ ⎠
⎛ ⎞⎛ ⎞= =⎜ ⎟⎜ ⎟⎝ ⎠⎝ ⎠
∑
necesitamos el área entre X 1 = 24.5 y X 2 = 30.5. Los valores Z correspondientes son
Z1 = (24.5 – 20 ) / 3.875 = 1.16 y Z 2 = (30.5 – 20 ) / 3.873 = 2.71
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
161
La probabilidad de adivinar correctamente de 25 a 30 preguntas está dada por la región
sombreada de la figura.
P ( 25 ≤ X ≤ 30 ) =p ( 1.16 < Z < 2.71 ) = p ( X < 2.71) – P ( X < 1.16)
= 0.9966 – 0.8770 = 0.1196
3.8 Otras distribuciones muéstrales. 3.8.1 Distribución T - Student.
Propiedades de las distribuciones t
1. Cada curva t tiene forma de campana con centro en cero.
2. Cada curva t esta mas dispersa que la curva normal estándar z.
3. A medida que v aumenta, la dispersión de la curva t correspondiente disminuye.
Sean 1 2, ,..., nX X X variables aleatorias independientes que son todas normales con μ y
desviación estándar. Entonces la variable aleatoria xt s
n
μ−= tiene una distribución t con v =
n – 1 grados de libertad.
Problema: El valor t con v = 14 grados de libertad que deja un área de 0.025 a la izquierda y
por tanto un área de 0.975 a la derecha es
0.975 0.025 2.145t t= − = −
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
162
Problema: Encuentre la probabilidad de 0.025 0.05t t t− < <
Solución:
Como 0.05t deja un área de 0.05 a la derecha y 0.025t− deja un área de 0.025 a la izquierda
encontramos un área total de 1- 0.05 – 0.025 = 0.925
0.025 0.05( ) 0.925P t t t− < < =
Problema: Un ingeniero químico afirma que el rendimiento medio de la población de cierto
proceso en lo lotes es 500 gramos por milímetro de materia prima. Para verificar esta
afirmación toma una muestra de 25 lotes cada mes. Si el valor de t calculado cae entre -
0.05t y 0.05t , queda satisfecho con su afirmación. ¿Qué conclusión extraería de una muestra
que tiene una media de 518 gramos por milímetro y una desviación estándar de 40 gramos?
Suponga que la distribución de rendimiento es aproximadamente normal.
Solución:
518 500 2.254025
t −= =
Este es un valor por arriba de 1.711. Si se desea obtener la probabilidad de obtener un valor
de t con 24 grados de libertad igual o mayor a 2.25 se busca en la tabla y es
aproximadamente de 0.02. De aquí es probable que el fabricante concluya que el proceso
produce un mejor producto del que piensa.
3.8.2 Distribución X cuadrada. Propiedades de las distribuciones ji – cuadrada.
1. Los valores de son mayores o iguales que cero.
2. La forma de una distribución depende del gl = n – l . En consecuencia , hay un
número infinito de distribuciones de .
3. El área bajo una curva ji – cuadrada y sobre el eje horizontal es 1.
Problema: Los siguientes son los pesos en decagramos de 10 paquetes de semillas de
pasto distribuida por cierta compañía: 46.4, 46.1, 45.8, 47.0, 46.1,45.9,45.8, 46.9, 45.2, 46.
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
163
Encuentre un intervalo de confianza de 95 % para la varianza de todos los paquetes de
semillas de pasto que distribuye esta compañía suponga una población normal.
Solución:
2( )0.5347
1ix x
sn−
= =−
∑
Al elevar este resultado al cuadrado se obtiene la varianza de la muestra
Varianza = 0.286
Para obtener un intervalo de confianza de 95% se elige un 0.05α = con 9 grados de
libertad se obtiene los valores de .
Se puede observar en la gráfica anterior que el valor . Corre en forma normal, esto es de
izquierda a derecha.
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
164
Se observa que la varianza corre en sentido contrario, pero esto es solo en la grafica. Con un
nivel de confianza del 95% se sabe que la varianza de la población de los pesos de los
paquetes de semillas de pasto está entre 0.135 y 0.935 decagramos al cuadrado.
Problemas propuestos P1. En una cierta área de la ciudad se da como una razón del 75% de los robos la necesidad
de dinero para comprar estupefacientes. Encuentre la probabilidad que dentro de los 5
próximos asaltos reportados en esa área
a) exactamente 2 se debieran a la necesidad de dinero para comprar drogas;
b) cuando mucho 3 se debieran a la misma razón arriba indicada.
P2. Un agricultor que siembra fruta afirma que 2/3 de su cosecha de duraznos han sido
contaminada por la mosca del mediterráneo. Encuentre la probabilidad de que al
inspeccionar 4 duraznos
a) los 4 estén contaminados por la mosca del mediterráneo
b) cualquier cantidad entre 1 y 3 esté contaminada.
P3. De acuerdo con una investigación llevada a cabo por la Administrative Management
Society, 1/3 de las compañías en Estados Unidos le dan a sus empleados cuatro semanas
de vacaciones después de 15 años de servicio. Encuentre la probabilidad de que 6 de las
compañías investigadas al azar, el número que les dan a sus empleados cuatro semanas de
vacaciones después de 15 años de servicio es
a) cualquier cantidad entre 2 y 5;
b) menos de 3.
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
165
P4. De acuerdo con un estudio publicado por un grupo de sociólogos de la Universidad de
Massachussets, aproximadamente 60% de los adictos al Valium en el estado de
Massachussets, lo tomaron por primera vez debido a problemas psicológicos. Encuentre la
probabilidad de que los siguientes 8 adictos entrevistados
a) exactamente 3 hayan comenzado a usarlo debido a problemas psicológicos.
b) al menos 5 de ellos comenzaran a tomarlo por problemas que no fueron
psicológicos.
P5. Al probar una cierta clase de neumático para camión en un terreno escabroso se
encontró que 25% de los camiones terminaban la prueba con los neumáticos dañados. De
los siguientes 15 camiones probados encuentre la probabilidad de que
a) De 3 a 6 tengan ponchaduras;
b) Menos de 4 tengan ponchaduras;
c) Mas de 5 tengan ponchaduras
P6. De acuerdo con un reporte publicado en la revista Parade, septiembre 14 de 1980, una
investigación a nivel nacional llevada a cabo por la Universidad de Michigan reveló que casi
el 70% de los estudiantes del último año desaprueban las medidas para controlar el hábito
de fumar mariguana todos los días. Si 12 de estos estudiantes se seleccionan al azar y se
les pregunta su opinión, encuentre la probabilidad de que el número que desaprueba dicha
medida sea
a. cualquier cantidad entre 7 y 9
b. cuando mucho 5;
c. no menos de 8
P7. La probabilidad de que un paciente se recupere de una delicada operación de corazón
es de 0.9. ¿Cuál es la probabilidad de que exactamente 5 de los próximos 7 pacientes que
se sometan a esta intervención sobrevivan?
P8. Un ingeniero de control de tráfico reporta que el 75% de los vehículos que pasan por un
punto de verificación tienen matrículas del estado. ¿Cuál es la probabilidad de que más de 7
de los siguientes 9 vehículos no sean del estado?
P9. Una investigación de los residentes de una ciudad de Estados Unidos mostró que 20%
preferían un teléfono blanco que de cualquier otro color disponible. ¿Cuál es la probabilidad
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
166
de que más de la mitad de los siguientes 20 teléfonos que se instalen en esta ciudad sean
de color blanco?
P10. Se sabe que el 40% de los ratones inyectados con un suero quedan protegidos contra
una cierta enfermedad. Si 5 ratones son inyectados, encuentre la probabilidad de que
a. Ninguno contraiga la enfermedad;
b. Menos de 2 la contraigan;
c. Más de 3 la contraigan
P11. Suponga que los motores de un aeroplano operan en forma independiente y de que
fallan con una probabilidad de 0.4. Suponiendo que uno de estos artefactos realiza un vuelo
seguro en tanto se mantenga funcionando cuando menos la mitad de sus motores,
determine qué aeroplano, uno de los 4 motores o uno de 2, tiene mayor probabilidad de
terminar su vuelo exitosamente.
P12. Las probabilidades son de 0.4, 0.2, 0.3 y 0.1, respectivamente, de que un delegado
llegue por aire a cierta convención, llegue en autobús, 3en automóvil o en tren. ¿Cuál es la
probabilidad de que entre 9 delegados seleccionados aleatoriamente en esta convención, 3
hayan llegado por aire, 3 en autobús, 1 en automóvil y 2 en tren.
P13. El dueño de una casa planta 6 tallos que selecciona al azar de una caja que contiene 5
tallos de tulipán y 4 de narciso. ¿Cuál es la probabilidad de que plante 2 tallos de narciso y 4
de tulipán?
P14. Un comité de tres integrantes se forma aleatoriamente seleccionando de entre 4
doctores y 2 enfermeras. Escriba una fórmula para la distribución de probabilidad de la
variable aleatoria X que representa el número de doctores en el comité. Encuentre P(2 ≤ X ≤
3).
P15. Una compañía está interesada en evaluar sus actuales procedimientos de inspección
en el embarque de 50 artículos idénticos. El procedimiento es tomar una muestra de 5
piezas y autorizar el embarque si se encuentra que no más de 2 están defectuosas. ¿qué
proporción del 20% de embarques defectuosos serán autorizados?
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
167
P16. La probabilidad de que una persona que vive en cierta ciudad posea un perro se estima
en 0.3. Encuentre la probabilidad de que la décima persona entrevistada aleatoriamente en
esta ciudad sea la quinta persona que posee un perro.
P17. Un científico inocula varios ratones, uno a la vez, con un germen de una enfermedad
hasta que obtiene 2 que la han contraído. Si la probabilidad de contraer la enfermedad es
1/6. ¿cuál es la probabilidad de que se requieran 8 ratones?
P18. Suponga que la probabilidad de que una persona determinada crea una historia acerca
de los atentados a una famosa actriz es de 0.8. ¿Cuál es la probabilidad de que
a) la sexta persona que escucha tal historia sea la cuarta que la crea?
b) La tercera persona que escucha tal historia sea la primera en creerla?
P19. Tres personas lanzan una moneda y la que salga dispareja paga los cafés. Si todas las
monedas caen iguales, se lanzan nuevamente. Encuentre la probabilidad de que se
necesiten menos de 4 lanzamientos.
P20. La probabilidad de que un estudiante para piloto apruebe el examen escrito para
obtener su licencia de piloto privado es de 0.7. Encuentre la probabilidad de que una
persona apruebe el examen
a. en el tercer intento
b. antes del cuarto intento
P21. El número promedio de ratas de campo por acre en un campo de trigo de 5 acres se
estima que es de 12. Encuentre la probabilidad de que menos de 7 ratas de campo se
encuentren
a. en una acre de terreno determinado;
b. en 2 de los siguientes 3 acres inspeccionados.
P22. Un restaurante prepara una ensalada que contiene en promedio 5 verduras diferentes.
Encuentre la probabilidad de que la ensalada contenga más de 5 verduras
a. en un determinado día;
b. en 3 de los siguientes 4 días;
c. por primera vez el 5 de abril.
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
168
P23. La probabilidad de que una persona muera debido a cierta infección respiratoria es
0.002. Encuentre la probabilidad de que mueran menos de 5 de las próximas 2000
personas infectadas.
P24. Suponga que en promedio 1 persona de cada 1000 comete un error numérico al
preparar su declaración de impuestos. Si se seleccionan al azar 10 000 formas y se
examinan, encuentre la probabilidad de que 6, 7 u 8 formas tengan error.
P25. La probabilidad de que un estudiante presente problemas de escoliosis (desviación
lateral sufrida por la columna vertebral) en una escuela de la localidad es de 0.004. De los
siguientes 1875 estudiantes revisados encuentre la probabilidad de que
a) menos de 5 presenten este problema
b) 8, 9 o 10 presenten este problema
P26. Se está considerando la producción de una máquina automática de soldar. Se
considerará exitosa si tiene una efectividad del 99% en sus soldaduras. De otra manera, no
se considerará eficiente. Se lleva a cabo la prueba de un prototipo y se realizan 100
soldaduras. La máquina se aceptará para su fabricación si no son defectuosas más de tres
soldaduras.
a. ¿Cuál es la probabilidad de que una máquina eficiente sea rechazada?
b. ¿Cuál es la probabilidad de que una máquina ineficiente con 95% de
soldaduras correctas sea aceptada?
P27. Una agencia que renta automóviles en un aeropuerto local tiene disponibles 5 Ford, 7
Chevrolet, 4 Dodge, 3 Datsun y 4 Toyota. Si la agencia selecciona aleatoriamente 9 de
estos vehículos para transportar delegados desde el aeropuerto hasta el centro de
convenciones en el centro de la ciudad, encuentre la probabilidad de que se utilicen 2 Ford,
3 Chevrolet, 1 Dodge, 1 Datsun y 2 Toyota.
P28. Un investigador de la UCLA reporta que las ratas viven un promedio de 40 meses
cuando sus dietas son muy restringidas y luego enriquecidas con vitaminas y proteínas.
Suponiendo que las vidas de tales ratas están normalmente distribuidas con una desviación
estándar de 6.3 meses, encuentre la probabilidad de que una rata determinada viva
a) más de 32 meses;
b) menos de 28 meses;
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.
169
c) entre 37 y 49 meses.
P29. Las piezas de pan de centeno distribuidas a las tiendas locales por una cierta
pastelería tienen una longitud de 30cm y una desviación estándar de 2cm. Suponiendo que
las longitudes están normalmente distribuidas, ¿qué porcentaje de las piezas son
a) de más de 31.7cm de longitud?
b) entre 29.3 y 33.5 cm de longitud?
c) de una longitud menor que 25.5 cm?
P38. Una máquina despachadora de refrescos está ajustada para servir un promedio de 200
ml por vaso. Si la cantidad de refresco es normalmente distribuida con una desviación
estándar igual a 15 ml.
a) ¿Qué fracción de los vasos contendrá más de 224 ml?
b) ¿Cuál es la probabilidad de que un vaso contenga entre 191 y 209 ml?
c) ¿Cuántos vasos probablemente se derramarán si se utilizan vasos de 230 ml en
los siguientes 1000 refrescos?
UNIDAD 4
ESTADISTICA APLICADA.
Objetivo: Conocerá los aspectos fundamentales de la inferencia estadística. Definirá su aplicación en situaciones reales o simuladas.
UNIDAD IV / ESTADISTICA APLICADA.
171
4.1 Inferencia estadística. 4.1.1 Concepto. La teoría de la inferencia estadística consiste en aquellos métodos por los que se realizan
inferencias o generalizaciones acerca de una población. La tendencia actual es la
distribución entre el método clásico de estimación de un parámetro de la población, por
medio del cual las inferencias se basan de manera estricta en información que se obtiene de
una muestra aleatoria seleccionada de la población, y el método Bayesiano, que utiliza el
conocimiento subjetivo previo sobre la distribución de probabilidad de los parámetros
desconocidos junto con la información que proporcionan los datos de la muestra. En esta
unidad utilizaremos los métodos clásicos para estimar los parámetros de la población
desconocidos como la media, la proporción y la varianza mediante el cálculo de estadística
de muestras aleatorias y la aplicación de la teoría de las distribuciones muéstrales.
4.1.2 Estimación. El objetivo principal de la estadística inferencial es la estimación, esto es que mediante el
estudio de una muestra de una población se quiere generalizar las conclusiones al total de la
misma. Como vimos en la sección anterior, los estadísticos varían mucho dentro de sus
distribuciones muéstrales, y mientras menor sea el error estándar de un estadístico, más
cercanos serán unos de otros sus valores.
Existen dos tipos de estimaciones para parámetros; puntuales y por intervalo. Una
estimación puntual es un único valor estadístico y se usa para estimar un parámetro, que
se calcula a partir de una muestra dada y sirve como una aproximación del valor exacto
desconocido del parámetro.
El estadístico usado se denomina estimador. Una estimación por intervalo, es la estima
de un parámetro poblacional dada por dos números entre los cuales se considera que se
encuentra dicho parámetro generalmente de ancho finito
4.1.3 Prueba de hipótesis. Las secciones anteriores han mostrado cómo puede estimarse un parámetro a partir de los
datos contenidos en una muestra. Puede encontrarse ya sea un sólo número (estimador
puntual) o un intervalo de valores posibles (intervalo de confianza). Sin embargo, muchos
UNIDAD IV / ESTADISTICA APLICADA.
172
problemas de ingeniería, ciencia, y administración, requieren que se tome una decisión entre
aceptar o rechazar una proposición sobre algún parámetro. Esta proposición recibe el
nombre de hipótesis. Este es uno de los aspectos más útiles de la inferencia estadística,
puesto que muchos tipos de problemas de toma de decisiones, pruebas o experimentos en
el mundo de la ingeniería, pueden formularse como problemas de prueba de hipótesis.
4.1.4 Método clásico de estimación (puntual).
Una estimación puntual de un parámetro θ es un solo numero que se puede considerar
como el valor mas razonable de θ . La estimación puntual se obtiene al seleccionar una
estadística apropiada y calcular su valor a partir de datos de la muestra dada. La estadística
seleccionada se llama estimador puntual de θ .
4.1.5 Estimador Insesgado.
Entre todos los estimadores de θ que son insesgados, seleccione al que tenga varianza
mínima. El resultante recibe el nombre de estimador insesgado con varianza mínima
(MVUE, minimum variance unbiased estimator) de . En otras palabras, la eficiencia se
refiere al tamaño de error estándar de la estadística. Si comparamos dos estadísticas de una
muestra del mismo tamaño y tratamos de decidir cuál de ellas es un estimador más eficiente,
escogeríamos la estadística que tuviera el menor error estándar, o la menor desviación
estándar de la distribución de muestreo. Tiene sentido pensar que un estimador con un error
estándar menor tendrá una mayor oportunidad de producir una estimación más cercana al
parámetro de población que se está considerando.
4.2 Intervalos de confianza. 4.2.1 Estimación por intervalo. Las estimaciones por intervalo de un parámetro poblacional desconocido dan idea de la
precisión y exactitud de la inferencia efectuada, junto con la probabilidad de que tal
estimación sea cierta. Se calculan a través de los llamados: intervalos de confianza. Estos se
θ
UNIDAD IV / ESTADISTICA APLICADA.
173
construyen con la función probabilística del modelo estadístico adoptado para realizar la
estimación
4.2.2 Límites de confianza. Estimas por intervalo de confianza, de parámetros poblacionales. Un intervalo de confianza con un nivel de confianza de 95% de la resistencia real promedio a
la ruptura podría tener un límite inferior de 9162.5 y uno superior de 9482.9. Entonces, en un
nivel de confianza de 95%, es posible tener cualquier valor de entre 9162.5 y 9482.9. Un
nivel de confianza de 95% implica que 95% de todas las muestras daría lugar a un intervalo
que incluye o cualquier otro parámetro que se esté estimando, y sólo 5% de las muestras
producirá un intervalo erróneo. Cuanto mayor sea el nivel de confianza podremos creer que
el valor del parámetro que se estima está dentro del intervalo.
Intervalos (S ± σ s , S ± 2σ s , S ± 3σ s ) son llamados lo limites de confianza del 68.27 %,
95.45 % y 99.73 % o como otras veces se conocen limites fiduciales.
Análogamente, S ± 1.96σ s y S ± 2.58 σ s son los limites de confianza del 95 % y 99 % ( ó
0.95 y 0.99 ) para μs.
El porcentaje de confianza se llama también nivel de confianza. Los números 1.96, 2.58,
etc., de los limites de confianza se llaman coeficientes de confianza o valores críticos y se
denotan por Zc . De los niveles de confianza se pueden obtener los coeficientes de confianza
y recíprocamente.
En la tabla siguiente se dan los valores de Z c que corresponden a distintos niveles de
confianza utilizados en la práctica. Para niveles de confianza que no se encuentra en la tabla
, los valores de Z c pueden sacarse de las tablas de la curva normal en el Apéndice A.
Nivel de confianza (%)
99.73 3.00
99 2.58
98 2.33
96 2.05
μ
μ
UNIDAD IV / ESTADISTICA APLICADA.
174
95.45 2.00
95 1.96
90 1.645
80 1.28
68.27 1.00
50 0.6745
Estos intervalos abiertos por izquierda o por derecha se denominan de una cola, mientras
que los comunes para la estimación de parámetros poblacionales son de dos colas.
Niveles de significancia Niveles de confianza Coeficiente de confianza
α ( ) 100*1 α−=NC αZ
0.0005
0.0010
0.0013
0.0050
0.0100
0.0227
0.0250
0.0500
0.1587
99.95 %
99.90 %
99.87 %
99.50 %
99.00 %
97.72 %
97.50 %
95.00 %
84.13 %
3.29
3.09
3.00
2.58
2.33
2.00
1.96
1.645
1.00
99.90% 99.00% 95.00%
1 cola 3.09 2.33 1.645
2 cola 3.29 2.58 1.96
4.2.3 Intervalo de confianza para media con varianza conocida. 1. Grandes muestras ( n ≥ 30 ).
La fórmula para el cálculo de probabilidad es la siguiente:
n
xZ σμ−
=
UNIDAD IV / ESTADISTICA APLICADA.
175
Como en este caso no conocemos el parámetro y lo queremos estimar por medio de la
media de la muestra, sólo se despejará μ de la formula anterior, quedando lo siguiente:
De esta fórmula se puede observar que tanto el tamaño de la muestra como el valor de z se
conocerán. Z se puede obtener de la tabla de la distribución normal a partir del nivel de
confianza establecido.
Pero en ocasiones se desconoce por lo que en esos casos lo correcto es utilizar otra
distribución llamada “t” de Student si la población de donde provienen los datos es normal.
Para el caso de tamaños de muestra grande se puede utilizar una estimación puntual de la
desviación estándar, es decir igualar la desviación estándar de la muestra a la de la
población (s = σ).
En el caso de muestreo en una población infinita o si el muestreo es con remplazamiento en
una población finita y por
Si el muestreo es sin remplazamiento en una población finita de tamaño N.
En general, la desviación típica poblacional σ es desconocida, de modo que para obtener
los límites de confianza anteriores se utiliza la estima muestra S.
Muestras grandes. Problema: Supóngase que las estaturas de 100 estudiantes de la universidad XYZ. Hallar
los intervalos de confianza del:
a) 95 % y
b) 99 % .
Para estimar la estatura media de ⎯X = 67.45 y 2.73σ = pulgadas de los estudiantes de la
universidad XYZ.
nZx C
σ±
a) Los límites de confianza del 95% son
nZx c
σμ ±=
σ
1−−
±=N
nNn
Zx cσμ
UNIDAD IV / ESTADISTICA APLICADA.
176
Zc = 1.96
Así, pues, el intervalo de confianza del 95 % para la media poblacional μ es 66.88 a 68.02
pulgadas, que puede denotarse por 66.88 < μ < 68.02
b) Los límites de confianza del 99 % son
Así, pues, el intervalo de confianza del 99 % para la media poblacional μ es 66.69 a 68.21
pulgadas, que puede denotarse por 66.69 < μ < 68.21
Problema: Las medidas de los diámetros de una muestra de 200 cojinetes de bolas hechos
por una determinada maquina durante una semana dieron una media de 0.824 pulgadas y
una desviación típica de 0.042 pulgadas. Hallar los limites de confianza del
a) 95 %
b) 99 %
Para el diámetro medio de todos los cojinetes.
Solución:
a) los limites de confianza del 95% son
Zc = 1.96
b) los limites de confianza del 99% son
Zc = 2.58
Problema: Hallar los limites de confianza del
a) 98 %
b) 90 %
67.45 1.962.93
100⋅+ 68.02= 67.45 1.96
2.93
100⋅− 66.88=
67.45 2.582.93
100⋅+ 68.21= 67.45 2.58
2.93
100⋅− 66.69=
0.824 1.960.042
200⋅+ 0.83= 0.824 1.96
0.042
200⋅− 0.818=
0.824 2.580.042
200⋅+ 0.832= 0.824 2.58
0.042
200⋅− 0.816=
UNIDAD IV / ESTADISTICA APLICADA.
177
c) 99.73 %
Para el diámetro medio de los cojinetes del problema anterior.
Solución:
a) Los limites de confianza del 98 %
Zc = 2.33
b) Los limites de confianza del 90 %
Zc = 1.645
c) Los limites de confianza del 99.73 %
Zc = 3.00
Problema: Al medir el tiempo de reacción, un psicólogo estima que la desviación típica del
mismo es de 0.05 segundos.
¿Cuál es el numero de medidas que deberá hacer para que sea del
a) 95 %
b) 99 %
la confianza de que error de su estima no exceda de 0.01 segundo ?
Solución:
a) Los límites de confianza del 95 % son.
Tomando σ = s = 0.05 segundos, se tiene que el error será igual a 0.01 si:
(1.96 ) ( 0.05 ) / √ n = 0.01, es decir,
√ n = (1.96)(0.05) / 0.01
√ n = 9.8
n = 96.04.
Así, pues, se puede estar en la confianza del 95 % de que el error de la estima será
menor de 0.01 si n es 96 o mayor.
0.824 2.330.042
200⋅+ 0.831= 0.824 2.33
0.042
200⋅− 0.817=
0.824 1.6450.042
200⋅+ 0.829= 0.824 1.645
0.042
200⋅− 0.819=
0.824 3.000.042
200⋅+ 0.833= 0.824 3.00
0.042
200⋅− 0.815=
UNIDAD IV / ESTADISTICA APLICADA.
178
b) Los límites de confianza del 99 % son.
Tomando σ = s = 0.05 segundos, se tiene que el error será igual a 0.01 si:
(2.58) ( 0.05 ) / √ n = 0.01, es decir,
√ n = (2.58)(0.05) / 0.01
n = 166.41.
Así, pues, se puede estar en la confianza del 99 % de que el error de la estima será menor
de 0.01 si n es 166 o mayor.
Problema: Se encuentra que la concentración promedio de zinc que se saca del agua a
partir de una muestra de mediciones de zinc en 36 sitios diferentes es de 2.6 gramos por
mililitro. Encuentre los intervalos de confianza de 95% y 99% para la concentración media de
zinc en el río. Suponga que la desviación estándar de la población es 0.3.
Solución:
Para el 95 % , Z c = 1.96
para el 99 % ; Z c = 2.58
Problema: Una empresa eléctrica fabrica focos que tienen una duración aproximadamente
distribuida de forma normal con una desviación estándar de 40 horas. Si una muestra de 30
2.6 1.960.3
36⎛⎜⎝
⎞⎟⎠
+ 2.7= 2.6 1.960.3
36⎛⎜⎝
⎞⎟⎠
− 2.5=
7.25.2 << μ
2.6 2.580.3
36⎛⎜⎝
⎞⎟⎠
+ 2.73= 2.6 2.580.3
36⎛⎜⎝
⎞⎟⎠
− 2.47=
73.247.2 << μ
UNIDAD IV / ESTADISTICA APLICADA.
179
focos tiene una duración promedio de 780 horas, encuentre un intervalo de confianza de
96% para la media de la población de todos los focos que produce esta empresa.
Solución:
Con un nivel de confianza del 96% se sabe que la duración media de los focos que produce
la empresa está entre 765 y 765 horas.
Problema: La prueba de corte sesgado es el procedimiento más aceptado para evaluar la
calidad de una unión entre un material de reparación y su sustrato de concreto. El artículo
“Testing the Bond Between Repair Materials and Concrete Substrate” informa que, en cierta
investigación, se obtuvo una resistencia promedio muestral de 17.17 N/mm2, con una
muestra de 48 observaciones de resistencia al corte, y la desviación estándar muestral fue
3.28 N/mm2. Utilice un nivel de confianza inferior del 95% para estimar la media real de la
resistencia al corte.
Solución:
Para el intervalo de confianza unilateral, se cargará el área bajo la curva hacia un solo lado
como sigue:
Inferior a 95 % de la tabla es el 90 % que tiene
Z c = 1.645
Problema: Suponga que un centro de computo regional desea evaluar el desempeño de su
sistema de memoria en disco. Una medida del desempeño es el tiempo medio entre fallas de
su unidad de disco. A fin de estimar este valor, el centro registro el tiempo entre fallas para
una muestra aleatoria de 45 fallas de la unidad de disco. Se calcularon las siguientes
estadísticas: ; s = 215 horas , estime el verdadero tiempo medio entre fallas
con un intervalo de confianza de 90%
Solución:
780 2.0540
30⎛⎜⎝
⎞⎟⎠
− 765.03= 780 2.0540
30⎛⎜⎝
⎞⎟⎠
⋅+ 794.97=
794765 << μ
39.164828.3645.117.17 =⎟
⎠
⎞⎜⎝
⎛−
horasx 1762=
UNIDAD IV / ESTADISTICA APLICADA.
180
Problema: Una muestra aleatoria de 50 calificaciones de matemáticas de un total de 200,
arrojo una media de 75 y una desviación típica de 10
a) ¿Cuales son los limites de confianza del 95 % para la estima de la media de las
200 calificaciones?
b) ¿Con que grado de confianza podrá decirse que la media de las 200 calificaciones
es 75 ± 1?
Solución:
a) Se debe emplearse la formula para poblaciones finitas con muestreo sin
remplazamiento. Entonces los limites de confianza del 95 % son :
b) Los límites de confianza pueden representarse por:
75 ± 1.23 Z c
Puesto que esto debe ser igual a 75 1 , se tiene que 1.23 Z c = 1 ó Z c = 0.81. El área
bajo la curva desde
Por simetría es : z = - 0.81 y z = 0.81 es :
( 0.81 0.81) ( 0.81) ( 0.81)0.7910 0.2090 0.5820 50.2%
p z p z p z− ≤ ≤ = ≤ − ≤ −= − = =
De aquí el grado de confianza pedido es de 58.20%
Cálculo del Tamaño de la Muestra para Estimar una Media
¿Qué tan grande debe ser una muestra si la media muestral se va a usar para estimar la
media poblacional? . La respuesta depende del error estándar de la media, si este fuera
cero, entonces se necesitaría una sola media que será igual necesariamente a la media
poblacional desconocida μ, porque σ = 0. Este caso extremo no se encuentra en la práctica,
1762 1.645215
45⎛⎜⎝
⎞⎟⎠
⋅− 1709.3= 1762 1.645215
45⎛⎜⎝
⎞⎟⎠
⋅+ 1814.7=
7.18143.1709 << μ
75 1.9610
50⋅
200 50−
200 1−⋅+ 77.41= 75 1.96
10
50⋅
200 50−
200 1−⋅− 72.59=
75 Zc10
50⋅
200 50−
200 1−⋅+
±
UNIDAD IV / ESTADISTICA APLICADA.
181
pero refuerza el hecho de que mientras menor sea el error estándar de la media, menor es el
tamaño de muestra necesario para lograr un cierto grado de precisión.
Se estableció antes que una forma de disminuir el error de estimación es aumentar el
tamaño de la muestra, si éste incluye el total de la población, entonces sería igual
a cero. Con esto en mente, parece razonable que para un nivel de confianza fijo, sea posible
determinar un tamaño de la muestra tal que el error de estimación sea tan pequeño como
queramos, para ser mas preciso, dado un nivel de confianza y un error fijo de estimación ,
se puede escoger un tamaño de muestra n tal que Nivel de confianza.
Con el propósito de determinar n. El error máximo de estimación esta dado por:
Si se eleva al cuadrado ambos lados de esta ecuación y se despeja n de la ecuación
resultante, obtenemos:
Como n debe de ser un número entero, redondeamos hacia arriba todos los resultados
fraccionarios.
En el caso de que se tenga una población finita y un muestreo sin reemplazo, el error de
estimación se convierte en:
De nuevo se eleva al cuadrado ambos lados y se despeja la n, obteniendo:
Problema: Un biólogo quiere estimar el peso promedio de los ciervos cazados en el estado
de Maryland. Un estudio anterior de diez ciervos cazados mostró que la desviación estándar
de sus pesos es de 12.2 libras. ¿Qué tan grande debe ser una muestra para que el biólogo
tenga el 95% de confianza de que el error de estimación es a lo más de 4 libras?
Solución:
μ−x
ε
=<− )( εμxP
nZσε =
2
⎟⎠⎞
⎜⎝⎛=
εσZn
1−−
⎟⎠
⎞⎜⎝
⎛=N
nNn
Zσε
222
22
)1( σεσ
ZNNZn+−
=
UNIDAD IV / ESTADISTICA APLICADA.
182
En consecuencia, si el tamaño de la muestra es 36, se puede tener un 95% de confianza en
que m difiere en menos de 4 libras de .
Problema: Una empresa eléctrica fabrica focos que tienen una duración aproximadamente
normal con una desviación estándar de 40 horas. ¿De qué tamaño se necesita una muestra
si se desea tener 96% de confianza que la media real esté dentro de 10 horas de la media
real?
Solución.
Se necesita una muestra de 68 focos para estimar la media de la población y tener un error
máximo de 10 horas. ¿Qué pasaría si en lugar de tener un error de estimación de 10 horas
sólo se requiere un error de 5 horas?
Se puede observar como el tamaño de la muestra aumenta, pero esto tiene como beneficio
una estimación más exacta.
Problema: Suponga que en el ejercicio anterior se tiene una población de 300 focos, y se
desea saber de que tamaño debe de ser la muestra. El muestreo se realizará sin reemplazo.
Solución:
( ) ( ) ( )( ) ( ) ( )( )
2 22 2
2 22 2 2 2
2.053 40 30055.21
( 1) 10 300 1 2.053 40z Nn
N zσ
ε σ= = =
− + − +
( )( ) 736.354
2.1296.1 22
=⎥⎦⎤
⎢⎣⎡=⎟
⎠⎞
⎜⎝⎛=
εσZn
x
( )45.67
1040)053.2( 22
=⎥⎦⎤
⎢⎣⎡=⎟
⎠⎞
⎜⎝⎛=
εσZn
( )74.269
540)053.2( 22
=⎥⎦⎤
⎢⎣⎡=⎟
⎠⎞
⎜⎝⎛=
εσZn
UNIDAD IV / ESTADISTICA APLICADA.
183
Si se tiene una población finita de 300 focos sólo se tiene que extraer de la población una
muestra sin reemplazo de 55 focos para poder estimar la duración media de los focos
restantes con un error máximo de 10 horas.
4.2.4. Intervalo de confianza para una diferencia de medias.
Si se tienen dos poblaciones con medias y varianzas y , respectivamente, un
estimador puntual de la diferencia entre y está dado por la estadística . Por
tanto. Para obtener una estimación puntual de - se seleccionan dos muestras
aleatorias independientes, una de cada población, de tamaño n1 y n2, se calcula la diferencia
, de las medias muéstrales. Recordando a la distribución muestral de diferencia de
medias:
Al despejar de esta ecuación - se tiene:
= ( )
En el caso en que se desconozcan las varianzas de la población y los tamaños de muestra
sean mayores a 30 se podrá utilizar la varianza de la muestra como una estimación puntual.
Problema: Se lleva a cabo un experimento en que se comparan dos tipos de motores, A y B.
Se mide el rendimiento en millas por galón de gasolina. Se realizan 50 experimentos con el
motor tipo A y 75 con el motor tipo B. La gasolina que se utiliza y las demás condiciones se
mantienen constantes. El rendimiento promedio de gasolina para el motor A es de 36 millas
por galón y el promedio para el motor B es 42 millas por galón. Encuentre un intervalo de
confianza de 96% sobre la diferencia promedio real para los motores A y B. Suponga que las
desviaciones estándar poblacionales son 6 y 8 para los motores A y B respectivamente.
Solución:
1μ 2μ 21σ 2
2σ
1μ 2μ 21 xx −
1μ 2μ
21 xx −
2
22
1
21
2121 )()(
nn
xxZ
σσ
μμ
+
−−−=
1μ 2μ
21 μμ − 21 xx − Z±2
22
1
21
nnσσ
+
UNIDAD IV / ESTADISTICA APLICADA.
184
Es deseable que la diferencia de medias sea positiva por lo que se recomienda restar la
media mayor menos la media menor. En este caso será la media del motor B menos la
media del motor A. El valor de z para un nivel de confianza del 96% es de 2.05.
= ( )
La interpretación de este ejemplo sería que con un nivel de confianza del 96% la diferencia
del rendimiento promedio esta entre 3.43 y 8.57 millas por galón a favor del motor B. Esto
quiere decir que el motor B da más rendimiento promedio que el motor A, ya que los dos
valores del intervalo son positivos.
Problema: Una compañía de taxis trata de decidir si comprar neumáticos de la marca A o de
la B para su flotilla de taxis. Para estimar la diferencia de las dos marcas, se lleva a cabo un
experimento utilizando 12 de cada marca. Los neumáticos se utilizan hasta que se
desgastan, dando como resultado promedio para la marca A 36,300 kilómetros y para la
marca B 38,100 Kilómetros. Calcule un intervalo de confianza de 95% para la diferencia
promedio de las dos marcas, si se sabe que las poblaciones se distribuyen de forma
aproximadamente normal con desviación estándar de 5000 kilómetros para la marca A y
6100 kilómetros para la marca B.
Solución:
= ( )
Como el intervalo contiene el valor “cero”, no hay razón para creer que el promedio de
duración del neumático de la marca B es mayor al de la marca A, pues el cero nos está
indicando que pueden tener la misma duración promedio.
Cálculo del Tamaño de la Muestra para Estimar la Diferencia de Medias Si se recuerda a la distribución muestral de diferencia de medias se tiene que error esta
dado por:
21 μμ − 21 xx − Z±7564
503605.2)3642(
2
22
1
21 +±−=+
nnσσ
57.843.3 <−< BA μμ
21 μμ − 21 xx − Z±12
610012
500096.1)3630038100(22
2
22
1
21 +±−=+
nnσσ
67.626268.2662 <−<− AB μμ
UNIDAD IV / ESTADISTICA APLICADA.
185
En esta ecuación se nos pueden presentar dos casos:
• Los tamaños de muestra son iguales.
• Los tamaño de muestra son diferentes
Para el primer caso no se tiene ningún problema, se eleva al cuadrado la ecuación y se
despeja n ya que n1 es igual a n2.
Para el segundo caso se pondrá una n en función de la otra. Este caso se utiliza cuando las
poblaciones son de diferente tamaño y se sabe que una es K veces mayor que la otra.
Problema: Un director de personal quiere comparar la efectividad de dos métodos de
entrenamiento para trabajadores industriales a fin de efectuar cierta operación de montaje.
Se divide un número de operarios en dos grupos iguales: el primero recibe el método de
entrenamiento 1, y el segundo, el método 2. Cada uno realizará la operación de montaje y se
registrará el tiempo de trabajo. Se espera que las mediciones para ambos grupos tengan
una desviación estándar aproximadamente de 2 minutos. Si se desea que la estimación de
la diferencia en tiempo medio de montaje sea correcta hasta por un minuto, con una
probabilidad igual a 0.95,
¿Cuántos trabajadores se tienen que incluir en cada grupo de entrenamiento?
Solución:
Cada grupo debe contener aproximadamente 31 empleados.
2
22
1
21
nnZ σσε +=
2
22
21
2 )(ε
σσ +=
Zn
311
)22()969.1()(2
222
2
22
21
2
=+
=+
=ε
σσZn
UNIDAD IV / ESTADISTICA APLICADA.
186
4.2.5 Intervalo de confianza para proporciones. Un estimador puntual de la proporción P en un experimento Binomial está dado por la
estadística P = X / N, donde x representa el número de éxitos en n pruebas.
Por tanto, la proporción de la muestra p = x /n se utilizará como estimador puntual del
parámetro P. Si no se espera que la proporción P desconocida esté demasiado cerca de 0 ó
de 1, se puede establecer un intervalo de confianza para P al considerar la distribución
muestral de proporciones.
Al despejar P de esta ecuación nos queda:
En este despeje podemos observar que se necesita el valor del parámetro P y es
precisamente lo que queremos estimar, por lo que lo sustituiremos por la proporción de la
muestra p siempre y cuando el tamaño de muestra no sea pequeño.
Cuando n es pequeña y la proporción desconocida P se considera cercana a 0 ó a 1, el
procedimiento del intervalo de confianza que se establece aquí no es confiable, por tanto, no
se debe utilizar. Para estar seguro, se debe requerir que np ó nq sea mayor o igual a 5. El
error de estimación será la diferencia absoluta entre p y P, y podemos tener el nivel de
confianza de que esta diferencia no excederá
El error de estimación será la diferencia absoluta entre p y P, y podemos tener el nivel de
confianza de que esta diferencia no excederá
nPq
PpZ −=
nPqZpP c±=
nPqZpP c±=
nPqZpP c±=
nPqZ
UNIDAD IV / ESTADISTICA APLICADA.
187
Problema: Un fabricante de reproductores de discos compactos utiliza un conjunto de
pruebas amplias para evaluar la función eléctrica de su producto. Todos los reproductores
de discos compactos deben pasar todas las pruebas antes de venderse. Una muestra
aleatoria de 500 reproductores tiene como resultado 15 que fallan en una o más pruebas.
Encuentre un intervalo de confianza de 90% para la proporción de los reproductores de
discos compactos de la población que no pasan todas las pruebas.
Solución:
500; 15 / 500 0.03; 1.645
0.0175 0.0425
n p z
pqP p zn
P
= = = =
= ±
< <
Problema: En una muestra de 400 pilas tipo B fabricadas por la Everlast Company, se
encontraron 20 defectuosas. Si la proporción p de pilas defectuosas en esa muestra se usa
para estimar P, que vendrá a ser la proporción verdadera de todas las pilas defectuosas tipo
B fabricadas por la Everlast Company, encuentre el máximo error de estimación e tal que se
pueda tener un 95% de confianza en que P dista menos de de p.
Solución:
P = x / n = 20 / 400 = 0.05
Z c = 1.96
Si p = 0.05 se usa para estimar P, podemos tener un 95% de confianza en que P dista
menos de 0.021 de p. En otras palabras, si p = 0.05 se usa para estimar P, el error máximo
de estimación será aproximadamente 0.021 con un nivel de confianza del 95%. Para calcular
el intervalo de confianza se tendría: 0.05 0.021P ε± = ±
Esto da por resultado dos valores, (0.029, 0.071). Con un nivel de confianza del 95% se
sabe que la proporción de pulas defectuosas de esta compañía está entre 0.029 y 0.071. Si
se requiere un menor error con un mismo nivel de confianza sólo se necesita aumentar el
tamaño de la muestra.
ε
021.0400
)95.0)(05.0(96.1 ===npqZε
UNIDAD IV / ESTADISTICA APLICADA.
188
Problema: En un estudio de 300 accidentes de automóvil en una ciudad específica, 60
tuvieron consecuencias fatales. Con base en esta muestra, construya un intervalo del 90%
de confianza para aproximar la proporción de todos los accidentes automovilísticos que en
esa ciudad tienen consecuencias fatales.
Solución:
P = 60/300 = 0.20 ; Zc = 1.645
(0.20)(0.8)0.20 1.645300
P = ±
0.162 < P < 0.238
Problema: Es común utilizar aceros inoxidables en las plantas químicas para manejar fluidos
corrosivos. Sin embargo, estos aceros tienen especial susceptibilidad al agrietamiento por
corrosión causada por esfuerzos en ciertos entornos. En una muestra de 295 fallas de
aleaciones de acero que ocurrieron en refinerías de petróleo y plantas petroquímicas en
Japón durante los últimos 10 años, 118 se debieron a agrietamiento por corrosión causada
por esfuerzos y a fatiga de corrosión ( Materials Performance, junio de 1981). Establezca un
intervalo de confianza de 95 % para verdadera proporción de fallas de aleaciones causadas
por agrietamiento por corrosión debida a esfuerzos.
Solución:
P = 118 / 295 = 0.4
Problemas propuestos: P1. Una encuesta sobre vivienda estadounidense realizada por el Departamento de
Comercio de Estados Unidos revelo que 750 de 1500 propietarios de casa muestreados
siguen la filosofía de “ hágalo usted mismo” , es decir, realizaron ellos mismos la mayor parte
del trabajo en por lo menos una de las mejoras o reparaciones de su hogar ( Bureau of the
Census, Statistical Brief, mayo de 1992). Estime, con un intervalo de confianza de 95 %, la
verdadera proporción de propietarios de casas estadounidenses que realizan ellos mismos
la mayor parte del trabajo de mejoramiento o reparación de sus hogares.
456.0344.0
056.04.0295
)6.0)(4.0()96.1(4.0
<<
±=±=±=
PnpqZpP
UNIDAD IV / ESTADISTICA APLICADA.
189
P2. La encuesta del “ Agujero Negro”, patrocinada por el Consejo de Investigación sobre
Empleo Profesional, informa cuales son los puestos mas difíciles de llenar en las listas de los
reclutadores. En la encuesta mas recientes, 95 de 285 reclutadores consideraron los
puestos de ingeniería como los mas difíciles de llenar. ( Industrial Engineering, agosto de
1990). Estime el verdadero porcentaje de reclutadores que consideran que los puestos mas
difíciles de llenar son los de ingeniería. Utilice un intervalo de confianza de 99 % .
P3. Como parte de un convenio de cooperación en investigación entre Estados Unidos y
Japón, se diseño un edificio de concreto armado a escala completa y se aprobó en
condiciones simuladas de carga de un terremoto en Japón (Journal of Structural
Enginnering, enero de 1986). En una parte del estudio se pidió a varios ingenieros de diseño
estadounidense que evaluaron el nuevo diseño. De los 48 ingenieros encuestados, 36
opinaron que la pared de cizallamiento de la estructura tenía un refuerzo demasiado ligero.
Establezca un intervalo de confianza de 95 % para la verdadera proporción de ingenieros de
diseño estadounidenses que consideran que la pared de cizallamiento del edificio tiene un
refuerzo demasiado ligero.
4.2.6. Intervalo de confianza para diferencia de proporciones. Para este caso en particular se utilizará la distribución muestral de diferencia de
proporciones para la estimación de la misma. Recordando la formula:
Despejando de esta ecuación:
Aquí se tiene el mismo caso que en la estimación de una proporción, ya que al hacer el
despeje nos queda las dos proporciones poblacionales y es precisamente lo que queremos
estimar, por lo que se utilizarán las proporciones de la muestra como estimadores puntuales:
2
22
1
11
2121 )()(
nqP
nqP
PPppZ+
−−−=
21 PP −
2
22
1
112121 )(
nqP
nqPZppPP +±−=−
2
22
1
112121 )(
nqP
nqPZppPP +±−=−
UNIDAD IV / ESTADISTICA APLICADA.
190
Problema: Se considera cierto cambio en un proceso de fabricación de partes componentes.
Se toman muestras del procedimiento existente y del nuevo para determinar si éste tiene
como resultado una mejoría. Si se encuentra que 75 de 1500 artículos del procedimiento
actual son defectuosos y 80 de 2000 artículos del procedimiento nuevo también lo son,
encuentre un intervalo de confianza de 90% para la diferencia real en la fracción de
defectuosos entre el proceso actual y el nuevo.
Solución:
Como el intervalo contiene el valor de cero, no hay razón para creer que el nuevo
procedimiento producirá una disminución significativa en la proporción de artículos
defectuosos comparada con el método existente.
Problema: Un artículo relacionado con la salud, reporta los siguientes datos sobre la
incidencia de disfunciones importantes entre recién nacidos con madres fumadoras de
marihuana y de madres que no la fumaban:
Usuario No usuario
Tamaño muestral 1246 11178
Numero de disfunciones 42 294
Proporción muestral 0.0337 0.0263
Encuentre el intervalo de confianza del 99% para la diferencia de proporciones.
Solución:
Representemos P1 la proporción de nacimientos donde aparecen disfunciones entre todas
las madres que fuman marihuana y definamos P2, de manera similar, para las no fumadoras.
El valor de z para un 99% de confianza es de 2.58.
2
22
1
112121 )(
nqP
nqPZppPP +±−=−
0217.00017.0 21 <−<− PP
2
22
1
112121 )(
nqP
nqPZppPP +±−=−
UNIDAD IV / ESTADISTICA APLICADA.
191
Este intervalo es bastante angosto, lo cual sugiere que P1-P2 ha sido estimado de manera
precisa.
Problema: Un ingeniero de tráfico realizo un estudio de velocidades vehiculares en un
segmento de calle en la cual se cambio varias veces el límite de velocidad señalizado.
Cuando el límite era de 30 millas por hora, el ingeniero vigilo las velocidades de 100
vehículos elegidos al azar que transitaron por la calle y observo 49 violaciones del límite de
velocidad. Después de que el limite se elevo a 35 millas por hora, el ingeniero volvió a vigilar
las velocidades de 100 vehículos elegidos aleatoriamente y observo 19 que violaron el
limite. Establezca un intervalo de confianza de 99% para , donde p1 es la
verdadera proporción de vehículos que excedieron el límite de velocidad menor ( 30 millas
por hora) y p2 es la verdadera proporción de vehículos que ( en condiciones de circulación
similares) excedieron el límite de velocidad mayor ( 35 millas por hora).
Solución:
p1 = 49/100 = 0.49
p2 = 19/100 = 0.19
Determinación de Tamaños de Muestra para Estimaciones Al iniciar cualquier investigación, la primer pregunta que surge es: ¿de qué tamaño debe ser
la o las muestras?. La respuesta a esta pregunta la veremos en esta sección, con conceptos
que ya se han visto a través de este material.
Se desea saber que tan grande se requiere que sea una muestra para asegurar que el error
al estimar P sea menor que una cantidad específica ε.
0212.00064.0 21 <−<− PP
)( 21 pp −
2
22
1
112121 )(
nqP
nqPZppPP +±−=−
464.0136.0
164.030.0100
)81.0)(19.0(100
)51.0)(49.0(58.2)19.049.0(
21
21
<−<
±=+±−=−
PP
PP
npqZ=ε
UNIDAD IV / ESTADISTICA APLICADA.
192
Elevando al cuadrado la ecuación anterior se despeja n y nos queda:
Esta fórmula está algo engañosa, pues debemos utilizar p para determinar el tamaño de la
muestra, pero p se calcula a partir de la muestra.
Existen ocasiones en las cuales se tiene una idea del comportamiento de la proporción de la
población y ese valor se puede sustituir en la fórmula, pero si no se sabe nada referente a
esa proporción entonces se tienen dos opciones:
• Tomar una muestra preliminar mayor o igual a 30 para proporcionar una estimación
de P. Después con el uso de la fórmula se podría determinar de forma aproximada
cuántas observaciones se necesitan para proporcionar el grado de precisión que se
desea.
• Tomar el valor de p como 0.5 ya que sustituyendo este en la fórmula se obtiene el
tamaño de muestra mayor posible.
En el caso de que se tenga una población finita y un muestreo sin reemplazo, el error de
estimación se convierte en:
De nuevo se eleva al cuadrado ambos lados y se despeja la n, obteniendo:
Problema: En una muestra aleatoria de 500 familias que tienen televisores en la ciudad de
Hamilton, Canadá, se encuentra que 340 están suscritas a HBO. ¿Qué tan grande se
requiere que sea una muestra si se quiere tener 95% de confianza de que la estimación de P
esté dentro de 0.02?
Solución:
p = 340/500=0.68.
2
2
εpqZn =
1−−
=N
nNnpqZε
pqZNpqNZn 22
2
)1( +−=
ε
83.2089)02.0(
)32.0)(68.0()96.1(2
2
2
2
===ε
pqZn
UNIDAD IV / ESTADISTICA APLICADA.
193
Por lo tanto si basamos nuestra estimación de P sobre una muestra aleatoria de tamaño
2090, se puede tener una confianza de 95% de que nuestra proporción muestral no diferirá
de la proporción real por más de 0.02.
Problema: Una legisladora estatal desea encuestar a los residentes de su distrito para
conocer qué proporción del electorado conoce la opinión de ella, respecto al uso de fondos
estatales para pagar abortos. ¿Qué tamaño de muestra se necesita si se requiere un
confianza del 95% y un error máximo de estimación de 0.10?
Solución:
En este problema, se desconoce totalmente la proporción de residentes que conoce la
opinión de la legisladora, por lo que se utilizará un valor de 0.5 para p.
Se requiere un tamaño de muestra de 97 residentes para que con una confianza del 95% la
estimación tenga un error máximo de 0.10.
Cálculo del Tamaño de la Muestra para Estimar la Diferencia de Proporciones Si se recuerda a la distribución muestral de diferencia de medias se tiene que error esta
dado por:
En esta ecuación se nos pueden presentar dos casos:
• Los tamaños de muestra son iguales.
• Los tamaños de muestra son diferentes.
( )2
22112
εqpqpz
n+
=
Problema: Una compañía de productos alimenticios contrató a una empresa de investigación
de mercadotecnia, para muestrear dos mercados, I y II, a fin de comparar las proporciones
de consumidores que prefieren la comida congelada de la compañía con los productos de
sus competidores. No hay información previa acerca de la magnitud de las proporciones P1 y
04.96)10.0(
)50.0)(50.0()96.1(2
2
2
2
===ε
pqZn
2
22
1
11
nqp
nqpZ +=ε
UNIDAD IV / ESTADISTICA APLICADA.
194
P2. Si la empresa de productos alimenticios quiere estimar la diferencia dentro de 0.04, con
una probabilidad de 0.95, ¿Cuántos consumidores habrá que muestrear en cada mercado?
Solución:
Se tendrá que realizar encuestas a 1201 consumidores de cada mercado para tener una
estimación con una confianza del 95% y un error máximo de 0.04.
Problemas propuestos P1. Se probó una muestra aleatoria de 400 cinescopios de televisor y se encontraron 40
defectuosos. Estime el intervalo que contiene, con un coeficiente de confianza de 0.90, a la
verdadera fracción de elementos defectuosos.
P2. Se planea realizar un estudio de tiempos para estimar el tiempo medio de un trabajo,
exacto dentro de 4 segundos y con una probabilidad de 0.90, para terminar un trabajo de
montaje. Si la experiencia previa sugiere que = 16 seg. mide la variación en el tiempo de
montaje entre un trabajador y otro al realizar una sola operación de montaje, ¿cuántos
operarios habrá que incluir en la muestra?
P3. El decano registró debidamente el porcentaje de calificaciones D y F otorgadas a los
estudiantes por dos profesores universitarios de matemáticas. El profesor I alcanzó un 32%,
contra un 21% para el profesor II, con 200 y 180 estudiantes, respectivamente. Estime la
diferencia entre los porcentajes de calificaciones D y F otorgadas por los dos profesores.
Utilice un nivel de confianza del 95% e interprete los resultados.
P4. Suponga que se quiere estimar la producción media por hora, en un proceso que
produce antibiótico. Se observa el proceso durante 100 períodos de una hora, seleccionados
al azar y se obtiene una media de 34 onzas por hora con una desviación estándar de 3
onzas por hora. Estime la producción media por hora para el proceso, utilizando un nivel de
confianza del 95%.
P5. Un ingeniero de control de calidad quiere estimar la fracción de elementos defectuosos
en un gran lote de lámparas. Por la experiencia, cree que la fracción real de defectuosos
( )( ) ( )( )[ ]( )
5.120004.0
5.05.05.05.0)96.1()(2
2
22211
2
=+
=+
=ε
qpqpZn
UNIDAD IV / ESTADISTICA APLICADA.
195
tendría que andar alrededor de 0.2. ¿Qué tan grande tendría que seleccionar la muestra si
se quiere estimar la fracción real, exacta dentro de 0.01, utilizando un nivel de confianza fe
95%?
P6. Se seleccionaron dos muestras de 400 tubos electrónicos, de cada una de dos líneas de
producción, A y B. De la línea A se obtuvieron 40 tubos defectuosos y de la B 80. Estime la
diferencia real en las fracciones de defectuosos para las dos líneas, con un coeficiente de
confianza de 0.90 e intérprete los resultados.
P7. Se tienen que seleccionar muestras aleatorias independientes de n1 = n2 = n
observaciones de cada una de dos poblaciones binomiales, 1 y 2. Si se desea estimar la
diferencia entre los dos parámetros binomiales, exacta dentro de 0.05, con una probabilidad
de 0.98. ¿qué tan grande tendría que ser n?. No se tiene información anterior acerca de los
valores P1 y P2, pero se quiere estar seguro de tener un número adecuado de
observaciones en la muestra.
P8. Se llevan a cabo pruebas de resistencia a la tensión sobre dos diferentes clases de
largueros de aluminio utilizados en la fabricación de alas de aeroplanos comerciales. De la
experiencia pasada con el proceso de fabricación se supone que las desviaciones estándar
de las resistencias a la tensión son conocidas. La desviación estándar del larguero 1 es de
1.0 Kg/mm2 y la del larguero 2 es de 1.5 Kg/mm2. Se sabe que el comportamiento de las
resistencias a la tensión de las dos clases de largueros son aproximadamente normal. Se
toma una muestra de 10 largueros del tipo 1 obteniéndose una media de 87.6 Kg/mm2, y
otra de tamaño 12 para el larguero 2 obteniéndose una media de 74.5 Kg/mm2. Estime un
intervalo de confianza del 90% para la diferencia en la resistencia a la tensión promedio. 50
P9. Se quiere estudiar la tasa de combustión de dos propelentes sólidos utilizados en los
sistemas de escape de emergencia de aeroplanos. Se sabe que la tasa de combustión de
los dos propelentes tiene aproximadamente la misma desviación estándar; esto es σ1 = σ2 =
3 cm/s. ¿Qué tamaño de muestra debe utilizarse en cada población si se desea que el error
en la estimación de la diferencia entre las medias de las tasas de combustión sea menor que
4 cm/s con una confianza del 99%?.
UNIDAD IV / ESTADISTICA APLICADA.
196
4.3 Pruebas de hipótesis.
La Teoría de la Decisión Estadística como herramienta básica para la toma de decisiones,
basadas en evidencia científica. La manera de hacerlo es plantear las hipótesis posibles y
luego efectuarle una prueba o test estadístico. Llamada en algunas obras: la docimasia
estadística. Cuando una conclusión se valida con un test estadístico se la llama de tipo
cuantitativo, en caso contrario la decisión adoptada es de tipo cualitativo, o sea, una decisión
tomada en forma subjetiva. El método consiste en definir una probabilidad de aceptación del
orden del 95% (o rechazo) de una hipótesis de trabajo planteada, que permite calcular los
valores críticos (o límites de aceptación) de un estadígrafo calculado a partir de los valores
medidos. La importancia de este tema es muy grande. Basta decir que el objeto final de la
Estadística es la toma de decisiones
Hipótesis estadística es una suposición hecha con respecto a la función de
distribución de una variable aleatoria.
Las pruebas que se realizan para plantear las hipótesis se conocen con el nombre de
ensayos de validación estadística. El problema básico es determinar si las diferencias
observadas entre el valor obtenido y el valor esperado se deben al azar, o si realmente son
diferentes.
Suponga que se tiene interés en la rapidez de combustión de un agente propulsor sólido
utilizado en los sistemas de salida de emergencia para la tripulación de aeronaves. El interés
se centra sobre la rapidez de combustión promedio. De manera específica, el interés recae
en decir si la rapidez de combustión promedio es o no 50 cm/s. Esto puede expresarse de
manera formal como
La proposición Ho; μ = 50 cm/s, se conoce como hipótesis nula, mientras que la
proposición H1; μ ≠ 50 cm/s, recibe el nombre de hipótesis alternativa. Puesto que la
hipótesis alternativa especifica valores de μ que pueden ser mayores o menores que 50
scmHscmH
/50;/50;
1
0
≠=
μμ
UNIDAD IV / ESTADISTICA APLICADA.
197
cm/s, también se conoce como hipótesis alternativa bilateral. En algunas situaciones, lo
que se desea es formular una hipótesis alternativa unilateral, como en
Ho; μ = 50 cm/s Ho; μ = 50 cm/s
H1; μ < 50 cm/s H1; μ > 50 cm/s
Es importante recordar que las hipótesis siempre son proposiciones sobre la población o
distribución bajo estudio, no proposiciones sobre la muestra. Por lo general, el valor del
parámetro de la población especificado en la hipótesis nula se determina en una de tres
maneras diferentes:
1. Puede ser resultado de la experiencia pasada o del conocimiento del proceso,
entonces el objetivo de la prueba de hipótesis usualmente es determinar si ha
cambiado el valor del parámetro.
2. Puede obtenerse a partir de alguna teoría o modelo que se relaciona con el proceso
bajo estudio. En este caso, el objetivo de la prueba de hipótesis es verificar la teoría
o modelo.
3. Cuando el valor del parámetro proviene de consideraciones externas, tales como
las especificaciones de diseño o ingeniería, o de obligaciones contractuales. En esta
situación, el objetivo usual de la prueba de hipótesis es probar el cumplimiento de
las especificaciones.
Un procedimiento que conduce a una decisión sobre una hipótesis en particular recibe el
nombre de prueba de hipótesis. Los procedimientos de prueba de hipótesis dependen del
empleo de la información contenida en la muestra aleatoria de la población de interés. Si
esta información es consistente con la hipótesis, se concluye que ésta es verdadera; sin
embargo si esta información es inconsistente con la hipótesis, se concluye que esta es falsa.
Debe hacerse hincapié en que la verdad o falsedad de una hipótesis en particular nunca
puede conocerse con certidumbre, a menos que pueda examinarse a toda la población.
Usualmente esto es imposible en muchas situaciones prácticas. Por tanto, es necesario
desarrollar un procedimiento de prueba de hipótesis teniendo en cuenta la probabilidad de
llegar a una conclusión equivocada. La hipótesis nula, representada por Ho, es la
afirmación sobre una o más características de poblaciones que al inicio se supone cierta (es
UNIDAD IV / ESTADISTICA APLICADA.
198
decir, la “creencia a priori”). La hipótesis alternativa, representada por H1, es la afirmación
contradictoria a Ho, y ésta es la hipótesis del investigador.
La hipótesis nula se rechaza en favor de la hipótesis alternativa, sólo si la evidencia
muestral sugiere que es falsa. Si la muestra no contradice decididamente a Ho, se continúa
creyendo en la validez de la hipótesis nula. Entonces, las dos conclusiones posibles de un
análisis por prueba de hipótesis son rechazar Ho o no rechazar Ho.
Para establecer la verdad o falsedad de una hipótesis estadística con certeza total, será
necesario examinar toda la población. En la mayoría de las situaciones reales no es posible
o practico efectuar este examen, y el camino más aconsejable es tomar una muestra
aleatoria de la población y con base a ella decidir si la hipótesis es verdadera o falsa.
En la prueba de una hipótesis estadística, es costumbre declarar la hipótesis como
verdadera si la probabilidad calculada excede el valor tabular llamado el nivel de
significación y se declara falsa si la probabilidad calculada es menor que el valor tabular. La
prueba a realizar dependerá del tamaño de las muestras de la homogeneidad de las
varianzas y de la dependencia o no de las variables.
Prueba de una Hipótesis Estadística Para ilustrar los conceptos generales, considere el problema de la rapidez de combustión del
agente propulsor presentado con anterioridad. La hipótesis nula es que la rapidez promedio
de combustión es 50 cm/s, mientras que la hipótesis alternativa es que ésta no es igual a 50
cm/s. Esto es, se desea probar:
Supóngase que se realiza una prueba sobre una muestra de 10 especímenes, y que se
observa cual es la rapidez de combustión promedio muestral. La media muestral es un
estimador de la media verdadera de la población. Un valor de la media muestral que este
próximo al valor hipotético μ = 50 cm/s es una evidencia de que el verdadero valor de la
media m es realmente 50 cm/s; esto es, tal evidencia apoya la hipótesis nula Ho. Por otra
parte, una media muestral muy diferente de 50 cm/s constituye una evidencia que apoya la
hipótesis alternativa H1. Por tanto, en este caso, la media muestral es el estadístico de
prueba.
scmHscmH
/50;/50;
1
0
≠=
μμ
x
UNIDAD IV / ESTADISTICA APLICADA.
199
La media muestral puede tomar muchos valores diferentes. Supóngase que si
48.5 ≤ ≤ 51.5, entonces no se rechaza la hipótesis nula Ho; μ= 50 cm/s, y que si
<48.5 ó > 51.5, entonces se acepta la hipótesis alternativa H1; μ ≠ 50 cm/s. Los
valores de x que son menores que 48.5 o mayores que 51.5 constituyen la región crítica de
la prueba, mientras que todos los valores que están en el intervalo 48.5 ≤ ≤51.5 forman la
región de aceptación. Las fronteras entre las regiones críticas y de aceptación reciben el
nombre de valores críticos. La costumbre es establecer conclusiones con respecto a la
hipótesis nula Ho. Por tanto, se rechaza Ho en favor de H1 si el estadístico de prueba cae en
la región crítica, de lo contrario, no se rechaza Ho.
Contrastes de hipótesis y significación o reglas de decisiones:
Si suponemos que una hipótesis particular es cierta pero vemos que los resultados hallados
en una muestra aleatoria difieren notablemente de los esperados bajo tal hipótesis entonces
diremos que las diferencias observadas son significativas y nos veríamos inclinados a
rechazar la hipótesis.
Los procedimientos que nos capacitan para determinar si las muestras observadas difieren
significativamente de los resultados esperados y por tanto nos ayuda a decidir si aceptamos
o rechazamos hipótesis, se llama contraste (o tests) de hipótesis o de significación o reglas
de decisión.
Nivel de significación.
Al contrastar una cierta hipótesis, la máxima probabilidad con la que estamos dispuestos a
correr el riesgo de cometer un error tipo I se llama nivel de significación del contraste. Esta
probabilidad se denota a menudo por α, se suele especificar antes de tomar una muestra, de
manera que los resultados obtenidos no influyan a nuestra elección.
Es frecuente un nivel de significación de 0.05 o 0.01, si bien se usan otros valores si por
ejemplo, se escoge el nivel de significación 0.05 (o 5 %) al diseñar una regla de decisiones
entonces hay 5 oportunidades entre 100 de rechazar la hipótesis cuando debiera haberse
aceptado; es decir, tenemos un 95 % de confianza de que hemos adoptado la decisión
correcta y por lo tanto tiene una probabilidad de 0.05 de ser falsa.
Tipos de Ensayo (Contrastes de una y de dos colas). Se pueden presentar tres tipos de ensayo de hipótesis que son:
x
x x
x
UNIDAD IV / ESTADISTICA APLICADA.
200
• Bilateral
• Unilateral Derecho
• Unilateral Izquierdo
En el test precedente estábamos interesados en los valores extremos del estadístico S o en
su correspondiente valor de Z a ambos lados de la media (o sea en las dos colas de la
distribución) tales test se llaman contraste de dos colas o bilaterales.
Con frecuencia, no obstante, estaremos interesados tan solo en valores extremos aun lado
de la media (o sea, en una de las colas de la distribución), tal como sucede cuando se
contrasta la hipótesis de que un proceso es mejor que el otro (lo cual no es lo mismo que
contrastar si un proceso es mejor o peor que el otro). Tales contrastes se llaman unilaterales
o de una cola. En tales situaciones, la región crítica es una región situada a un lado de la
distribución, con área igual al nivel de significación. Tabla de valores críticos de z para
contrastes de una o de dos colas en varios niveles de significación.
Nivel de significancia ,
α
Valores criticos z,
para tests unilateral
Valores criticos z,
para tests bilateral
0.10 -1.28 o 1.28 -1.645 y 1.645
0.05 -1.645 0 1.645 -1.96 y 1.96
0.01 -2.33 o 2.33 -2.58 y 2.58
0.005 -2.58 0 2.58 -2.81 y 2.81
0.002 -2.88 o 2.88 -3.08 y 3.08
Bilateral Unilateral Derecho
UNIDAD IV / ESTADISTICA APLICADA.
201
Unilateral Izquierdo
Uso de valores P para la toma de decisiones Al probar hipótesis en las que la estadística de prueba es discreta, la región crítica se puede
elegir de forma arbitraria y determinar su tamaño. Si es demasiado grande, se puede
reducir al hacer un ajuste en el valor crítico. Puede ser necesario aumentar el tamaño de la
muestra para compensar la disminución que ocurre de manera automática en la potencia de
la prueba (probabilidad de rechazar Ho dado que una alternativa específica es verdadera).
Por generaciones enteras de análisis estadístico, se ha hecho costumbre elegir un nivel de
significancia de 0.05 ó 0.01 y seleccionar la región crítica en consecuencia. Entonces, por
supuesto, el rechazo o no rechazo estricto de Ho dependerá de esa región crítica. En la
estadística aplicada los usuarios han adoptado de forma extensa la aproximación del valor
P. La aproximación se diseña para dar al usuario una alternativa a la simple conclusión de
“rechazo” o “no rechazo”.
La aproximación del valor P como ayuda en la toma de decisiones es bastante natural pues
casi todos los paquetes de computadora que proporcionan el cálculo de prueba de hipótesis
entregan valores de P junto con valores de la estadística de la prueba apropiada.
• Un valor P es el nivel (de significancia) más bajo en el que el valor observado de la
estadística de prueba es significativo.
• El valor P es el nivel de significancia más pequeño que conduce al rechazo de la
hipótesis nula Ho.
• El valor P es el mínimo nivel de significancia en el cual Ho sería rechazada cuando
se utiliza un procedimiento de prueba especificado con un conjunto dado de
información. Una vez que el valor de P se haya determinado, la conclusión en
cualquier nivel α particular resulta de comparar el valor P con α:
α
UNIDAD IV / ESTADISTICA APLICADA.
202
1. Valor P ≤ α ⇒rechazar Ho al nivel α.
2. Valor P > α ⇒No rechazar Ho al nivel α.
Errores de tipo I y de tipo II Si rechazamos una hipótesis cuando debiera ser aceptada diremos que se ha cometido un
error de tipo I, la probabilidad de cometer un error tipo I se denota por el símbolo . Por
otra parte, si aceptamos una hipótesis que debiera ser rechazada, diremos que se ha
cometido un error de tipo II, la probabilidad de cometer un error tipo II se denota por el
símbolo . En ambos casos se ha producido un juicio erróneo.
Decisión Ho es verdadera Ho es falsa
Aceptar Ho No hay error Error tipo II
Rechazar Ho Error tipo I No hay error
α
β
UNIDAD IV / ESTADISTICA APLICADA.
203
1. Los errores tipo I y tipo II están relacionados. Una disminución en la probabilidad de
uno por lo general tiene como resultado un aumento en la probabilidad del otro.
2. El tamaño de la región crítica, y por tanto la probabilidad de cometer un error tipo I,
siempre se puede reducir al ajustar el o los valores críticos.
3. Un aumento en el tamaño muestral n reducirá α y β de forma simultánea.
4. Si la hipótesis nula es falsa, β es un máximo cuando el valor real del parámetro se
aproxima al hipotético. Entre más grande sea la distancia entre el valor real y el valor
hipotético, será menor β.
Pasos para establecer un ensayo de hipótesis independientemente de la distribución que se
esté tratando:
1. Interpretar correctamente hacia que distribución muestral se ajustan los datos del
enunciado.
2. Interpretar correctamente los datos del enunciado diferenciando los parámetros de los
estadísticos. Así mismo se debe determinar en este punto información implícita como el tipo
de muestreo y si la población es finita o infinita.
3. Establecer simultáneamente el ensayo de hipótesis y el planteamiento gráfico del
problema. El ensayo de hipótesis está en función de parámetros ya que se quiere evaluar el
universo de donde proviene la muestra. En este punto se determina el tipo de ensayo
(unilateral o bilateral).
4. Establecer la regla de decisión. Esta se puede establecer en función del valor crítico, el
cual se obtiene dependiendo del valor de (Error tipo I o nivel de significancia) o en
función del estadístico límite de la distribución muestral. Cada una de las hipótesis deberá
ser argumentada correctamente para tomar la decisión, la cual estará en función de la
hipótesis nula o Ho.
5. Calcular el estadístico real, y situarlo para tomar la decisión.
6. Justificar la toma de decisión y concluir.
4.3.1 Prueba de hipótesis para la media poblacional.
α
n
xZ σμ−
=
UNIDAD IV / ESTADISTICA APLICADA.
204
Problema: Una muestra aleatoria de 100 muertes registradas en Estados Unidos el año
pasado muestra una vida promedio de 71.8 años. Suponga una desviación estándar
poblacional de 8.9 años, ¿esto parece indicar que la vida media de hoy en día es mayor que
70 años? Utilice un nivel de significancia de 0.05
Solución:
1. Se trata de una distribución muestral de medias con desviación estándar conocida.
2. Datos:
3. Ho : μ = 70 años
H1 : μ > 70 años
4. Región critica o regla de decisión
Si Z R ≤ 1.645 no se rechaza Ho.
Si Z R > 1.645 se rechaza Ho y se acepta H 1.
5. Cálculos:
6. Justificación y decisión:
Como 2.02 > 1.645 se rechaza Ho y se concluye con un nivel de significancia del 0.05 que la
vida media hoy en día es mayor que 70 años.
05.0100
8.719.8
70
=====
α
σμ
nx
02.2
10089
708.710 =−
=−
=
n
xZ σμ
UNIDAD IV / ESTADISTICA APLICADA.
205
Problema: Una empresa eléctrica fabrica focos que tienen una duración que se distribuye de
forma aproximadamente normal con una media de 800 horas y una desviación estándar de
40 horas. Si una muestra aleatoria de 30 focos tiene una duración promedio de 788 horas,
¿muestran los datos suficiente evidencia para decir que la duración media ha cambiado?
Utilice un nivel de significancia del 0.04.
Solución:
1. Se trata de una distribución muestral de medias con desviación estándar conocida.
2. Datos:
= 800 horas
= 40 horas
= 788 horas
n = 30
= 0.04
3. Ensayo de hipótesis
Ho; = 800 horas
H1; 800 horas
4. Regla de Decisión:
Si –2.052 ≤ZR ≤ 2.052 No se rechaza Ho
Si ZR < -2.052 ó si ZR > 2.052 Se rechaza Ho
5. Cálculos:
μ
σx
α
μ
1μ ≠
643.1
3040
8007880 −=−
=−
=
n
xZ
σμ
UNIDAD IV / ESTADISTICA APLICADA.
206
6.Justificación y decisión:
−2.052 ≤ -1.643 ≤2.052 por lo tanto, no se rechaza Ho y se concluye con un nivel de
significancia del 0.04 que la duración media de los focos no ha cambiado.
Problema: Un fabricante de equipo deportivo desarrolla un nuevo sedal sintético que afirma
tiene una resistencia media a la tensión de ocho kilogramos con una desviación estándar de
0.5 Kg. Pruebe la hipótesis μ = 8 Kg. Contra la alternativa μ ≠ 8 Kg. si se prueba una
muestra aleatoria de 50 sedales y se encuentra que tiene una resistencia media a la tensión
de 7.78 Kg. –utilice un nivel de significancia de 0.01
Solución:
1. Se trata de una distribución muestral de medias con desviación estándar conocida.
2. Datos:
= 8 Kg.
= 0.5 Kg.
= 7.8 Kg.
n = 50
= 0.01
3. Ho : μ = 8 Kg.
H1 : μ 8 Kg.
4. Regla de Decisión:
Si –2.58 ≤ ZR ≤2. 58 No se rechaza Ho
Si ZR < -2.58 ó si ZR > 2.58 Se rechaza Ho
5. Cálculos:
6. Justificación y decisión:
μ
σx
α
≠
83.2
505.0
0.88.70 −=−
=−
=
n
xZ
σμ
UNIDAD IV / ESTADISTICA APLICADA.
207
Como Si –2.83 < -2.58 por lo tanto, se rechaza Ho y se concluye que la resistencia
promedio a la tensión no es igual a 8 Kg. sino que, de hecho, es menor que 8 Kg. con un
nivel de significancia del 0.01 .
Problema: Una muestra aleatoria de 64 bolsas de palomitas de maíz pesan, en promedio
5.23 onzas con una desviación estándar de 0.24 onzas. Pruebe la hipótesis de que = 5.5
onzas contra al hipótesis alternativa, μ < 5.5 onzas en el nivel de significancia de 0.05.
Solución:
1. Se trata de una distribución muestral de medias con desviación estándar
desconocida, pero como el tamaño de muestra es mayor a 30 se puede tomar la
desviación muestral como un estimador puntual para la poblacional.
2. Datos:
μ = 5.5 onzas
σ = 0.24 onzas
x = 5.23 onzas
n = 64
a = 0.05
3. Ensayo de hipótesis
Ho; = 5.5 onzas
H1; < 5.5 onzas
4. Regla de decisión:
Si ZR -1.645 No se rechaza Ho
Si ZR < -1.645 Se rechaza Ho
5. Cálculos:
μ
μ
μ
UNIDAD IV / ESTADISTICA APLICADA.
208
6. Justificación y decisión:
Como –9 < -1.645 por lo tanto se rechaza Ho y se concluye con un nivel de significancia del
0.05 que las bolsas de palomitas pesan en promedio menos de 5.5 onzas.
Problema: La duración media de una muestra de 100 tubos fluorescentes producidos por
una compañía resulta ser 1570 hrs. Con una desviación típica de 120 hrs. Si μ es la duración
media de todos los tubos producidos por la compañía, comprobar la hipótesis μ = 1600 hrs.
Contra la hipótesis alternativa μ ≠ 1600 hrs. Con un nivel de significancia de (a) 0.05 y (b)
0.01
Solución:
a)
1. Se trata de una distribución muestral de medias con desviación estándar conocida.
2. Datos:
∝ = 0.05
n = 100
x = 1570
σ = 120 hrs.
3. Ensayo de hipotesis
H0 : μ = 1600 hrs.
H1 : μ ≠ 1600 hrs.
4. Regla de decisión
Si –1.96 ≤ZR ≤ 1.96 No se rechaza Ho
Si ZR < -1.96 ó si ZR > 1.96 Se rechaza Ho
5. Cálculos
9
6424.0
5.525.50 −=−
=−
=
n
xZ
σμ
UNIDAD IV / ESTADISTICA APLICADA.
209
6. Justificación y decisión
Como Si –2.50 < -1.96 por lo tanto, se rechaza Ho y se concluye que La duración media
de una muestra de 100 tubos fluorescentes producidos por una compañía no resulta ser
1570 hrs., sino que, de hecho , es menor que 1570 hrs. con nivel de significancia del
0.05 que la duración media de todos los tubos producidos por la compañía no ha
cambiado.
b)
1. Se trata de una distribución muestral de medias con desviación estándar conocida.
2. Datos:
∝ = 0.01
n = 100
x = 1570
σ = 120 hrs.
3. Ensayo de hipotesis
H0 : μ = 1600 hrs.
H1 : μ ≠ 1600 hrs.
4. Regla de decisión
Si –2.58 ≤ ZR ≤ 2.58 No se rechaza Ho
Si ZR < -2.58 ó si ZR > 2.58 Se rechaza Ho
5. Cálculos
6. Justificación y decisión
Como Si –2.58 ≤-2.50 ≤ 2.58 como se encuentra dentro de este rango, se acepta Ho (o no
se toma ninguna decisión) al nivel de significación del 0.01
50.2
100120
16001570−=
−=Z
50.2
100120
16001570−=
−=Z
UNIDAD IV / ESTADISTICA APLICADA.
210
Problema: La resistencia a la rotura de los cables producidos por un fabricante tiene una
media de 1800 libras y una desviación típica de 100 libras. Mediante una nueva técnica en el
proceso de fabricación se aspira a una resistencia pueda ser incrementada. Para ensayar
esta aspiración, se ensaya una muestra de 50 cables y se encuentra que su resistencia
media es de 1850 libras.¿ Puede mantenerse que, en efecto, hay un aumento de resistencia
al nivel de significación del 0.01?
Solución:
1. Se trata de una distribución muestral de medias con desviación estándar conocida.
2. Datos:
∝ = 0.01
n = 50
x = 1850 lbs
σ = 100 lbs
3. Ensayo de hipotesis
H0 : μ = 1800 lbs
H1 : μ > 1800 lbs.
4. Regla de decisión
Si ZR ≤ − 2..33 No se rechaza Ho
Si ZR > 2.33 Se rechaza Ho
5. Cálculos
6. Justificación y decisión
Como Si 3.54 > 2.33 por lo tanto, se rechaza Ho y se acepta H 1, por lo tanto se
concluye que su resistencia media no es de 1850 libras si no que mayor.
Problema: Se ha estudiado la tasa de quemado de un propulsor a chorro. Las
especificaciones requieren que la tasa media de quemado sea 40 cm/s. Además, supóngase
que sabemos que la desviación estándar de la tasa de quemado es aproximadamente de 2
54.3
50100
18001850=
−=Z
UNIDAD IV / ESTADISTICA APLICADA.
211
cm/ s. El experimentador decide especificar una probabilidad de error tipo I , y el
basara la prueba en una muestra aleatoria de tamaño n = 25. Pruebe la hipótesis de
y . Si se prueban veinticinco especímenes, y la tasa de
quemado media de muestra que se obtiene es
1. Se trata de una distribución muéstrales de medias con desviación estándar
conocida.
2. datos:
3. Ensayo de hipótesis
4. regla de decisión
-1.96 1.96 se acepta H0
Z<-1.96 ó Z>1.96 se acepta H1
5. cálculos
=
6. justificación y decisión
3.13 >1.96 se acepta H1 y se concluye que la tasa de quemado media no es igual a
40 cm/s, sino que mas de 40 cm/s.
Varianza desconocida. Las variables aleatorias X1, X2, ... X n representan una muestra aleatoria de una distribución
normal con μ y σ² desconocidas. Entonces la variable aleatoria tiene una
distribución t de student con n – 1 grados de libertad.
05.0=α
scm /40=μ scom /40≠μ
scmx /25.41=
25/2/40
/25.41
====
nscmscm
scmx
σμ
05.0=α
scmHscmH
/40:/40:
1
0
≠=
μμ
≤≤ Z
n
xZ σμ0−
= 13.3
252
4025.41=
−
sxn )( μ−
UNIDAD IV / ESTADISTICA APLICADA.
212
La estructura de la prueba es idéntica a la del caso con σ conocida, con la excepción de que
el valor σ en la estadística de prueba se reemplaza por la estimación de S calculada y la
distribución normal estándar se reemplaza con una distribución ţ. Como resultado; para la
hipótesis bilateral
Ho : μ = μ o
Hi : μ ≠ μo
El rechazo de Ho en un nivel de significancia α resulta cuando una estadística ţ calculada.
Problema: Los científicos han citado al benceno, un disolvente químico de uso común en la
síntesis de plásticos, como un posible agente causante de cáncer. Ciertos estudios han
demostrado que las personas que trabajan con benceno durante mas de cinco años tienen
una incidencia de leucemia 20 veces mayor que la población en general. En consecuencia,
el gobierno federal estadounidense ha bajado el nivel máximo permisible de benceno en
lugar de trabajo de 10 partes por millón (ppm) a 1 ppm ( información en el Florida Times –
Union, 2 de abril de 1984). Suponga que una fabrica de artículos de acero, que expone a sus
trabajadores diariamente a benceno, esta siendo investigada por la Administración de
Seguridad y Salud Ocupacional (OSHA) de Estados Unidos. Se examinan 20 muestras de
aire, tomada durante un periodo de un mes, parar determinar el contenido de benceno. Los
análisis produjeron las siguientes estadísticas resumidas:
¿La fabrica de artículos de acero esta violando las nuevas normas del gobierno? Pruebe la
hipótesis de que el nivel medio de benceno en la planta es mayor que 1 ppm ., utilizando
Solución:
1. se trata de una distribución muestral de medias con varianza desconocida.
2. datos:
ns
xt 0μ−=
ppmx 1.2= ppms 7.1=
05.0=α
UNIDAD IV / ESTADISTICA APLICADA.
213
3. Ensayo de hipótesis
H0:
H1:
4. Regla de decisión :
> 1.729 se acepta H1 y se rechaza H0
≤ -1.729 se acepta H0 y se rechaza H1
5. cálculos :
Supuesto: La distribución de frecuencia relativa de la población de niveles de benceno
para todas las muestras de aire tomadas en la planta de fabricación de artículos de
acero es aproximadamente normal.
Región de rechazo: para y gl = (n – l) = 19, se rechazara H0 si t > t 0.05 = 1.729
6. justificación y decisión.
2.89 > 1.729 se acepta H1 y se rechaza H0 . se llega a la conclusión de que la
planta esta violando las nuevas normas gubernamentales .
Problema: La resistencia al rompimiento de una fibra textil es una variable aleatoria
distribuida normalmente. Las especificaciones requieren que la resistencia media al
rompimiento deba igualar el valor de 15 psi. Al fabricante le gustaría detectar cualquier
desviación significativa respecto a este valor. En consecuencia se desea probar
y . Con un nivel de significancia de . Si una muestra
05.0120
7.11.2
=====
αμ ppmn
ppmsppmx
1=μ
1>μ
tt
ns
xt 0μ−=
05.0=α
89.220
7.111.20 =
−=
−=
ns
xt μ
psi150=μ psi150≠μ 05.0=α
UNIDAD IV / ESTADISTICA APLICADA.
214
aleatoria de 15 especimenes de prueba se selecciona y se determinan sus resistencias al
rompimiento. La media y la varianza de la muestra se calculan a partir de los datos de la
misma como y .
1. se trata de una distribución muestral de medias con varianza desconocida.
2. datos:
3. Ensayo de hipótesis
por ser bilateral
4. regla de decisión
se acepta H0
ó se acepta H1
5. Cálculos
=
6. justificación y decisión
se acepta H0 y concluiríamos que no hay evidencia suficiente
para rechazar la hipótesis de que
18.152=x 63.162 =s
05.015015
63.1618.152
2
====
=
αμnsx
150:150:
1
0
≠=
μμ
HH
05.0=α 025.0205.0
2==
α
145.2)115(,025.0 =−t 145.2)115(,025.0 −=− −t
145.2145.2 ≤≤− t145.2−<t 145.2>t
ns
xt μ−= 07.2
1563.16
15018.152=
−
145.207.2145.2 ≤≤−
psi150=μ
UNIDAD IV / ESTADISTICA APLICADA.
215
4.3.2 Prueba de hipótesis para diferencias de medias. Problema: Un diseñador de productos está interesado en reducir el tiempo de secado de
una pintura tapaporos. Se prueban dos fórmulas de pintura; la fórmula 1 tiene el contenido
químico estándar, y la fórmula 2 tiene un nuevo ingrediente secante que debe reducir el
tiempo de secado. De la experiencia se sabe que la desviación estándar del tiempo de
secado es ocho minutos, y esta variabilidad inherente no debe verse afectada por la adición
del nuevo ingrediente. Se pintan diez especímenes con la fórmula 1, y otros diez con la
fórmula 2. Los dos tiempos promedio de secado muéstrales son 121 min. y 112 min.
Respectivamente. ¿A qué conclusiones puede llegar el diseñador del producto sobre la
eficacia del nuevo ingrediente, utilizando α = 0.05?
Solución:
1. Se trata de una distribución muestral de diferencias de medias
2. Datos:
1 2
1
2
1 2
8121min112min
100.05
xxn n
σ σ
α
= ==== ==
3. Ensayo de hipótesis
0 1 2
1 1 2
: 0: 0
HH
μ μμ μ
− =− >
4. Regla de decisión
0
1
1.645 se acepta 1.645 se acepta
Z HZ H
≤>
5. Cálculos
UNIDAD IV / ESTADISTICA APLICADA.
216
2 2
(121 112) 0 2.528 810 10
Z − −= =
+
6. Justificación y decisión
Puesto que 2.52 > 1.645, se acepta H1, y se concluye con un nivel de significancia de 0.05
que la adición del nuevo ingrediente a la pintura si disminuye de manera significativa el
tiempo promedio se secado.
Problema: Se utiliza dos máquinas para llenar botellas de plástico con un volumen neto de
16.0 onzas. Las distribuciones de los volúmenes de llenado pueden suponerse normales,
con desviaciones estándar de 0.020 y 0.025 onzas. Un miembro del grupo de ingeniería de
calidad sospecha que el volumen neto de llenado de ambas máquinas es el mismo, sin
importar si este es o no de 16 onzas. De cada máquina se toma una muestra aleatoria de 10
botellas.
¿Se encuentra el ingeniero en lo correcto?
Utilice un nivel de significancia de 0.05.
MAQUINA 1 MAQUINA 2
16.03
16.04
16.05
16.05
16.02
16.01
15.96
15.98
16.02
15.99
16.02
15.97
15.96
16.01
15.99
16.03
16.04
16.02
16.01
16.00
Solución:
1. Se trata de una distribución muestral de diferencias de medias
2. Datos:
1 2
1 2
1 2
0.020; 0.02516.015; 16.005
10; 0.05x xn n
σ σ
α
= == == = =
3. Ensayo de hipótesis
UNIDAD IV / ESTADISTICA APLICADA.
217
0 1 2
1 1 2
: 0: 0
HH
μ μμ μ
− =
− ≠
4. Regla de decisión
0
1
1.96 1.96 se acepta 1.96 o 1.96 se acepta
Z HZ Z H− ≤ ≤
< − >
5. Cálculos
2 2
(16.015 16.005) 0 0.987(0.020) (0.025)
10 10
Z − −= =
+
6. Justificación y decisión
Puesto que 1.96 1.96Z− ≤ ≤ , se acepta H0, y se concluye con un nivel de significancia de
0.05 que las dos máquinas tienen el mismo promedio de llenado.
Problema: Existen dos tipos de plasticos apropiados para su uso por un fabricante de
componentes electrónicos. La tensión de ruptura de es plástico es un parámetro importante.
Se sabe que la desviación estandar es de 1.0 Psi. De una muestra aleatoria de tamaño 10 y
12 para cada plástico respectivamente. Se tiene ua media de 162.5 para el plastico 1 y de 155
para el plastico 2. La compañía no adoptara el plastico 1 a menos que la tensión de ruptura de
este exceda a la del plastico 2 al menos por 10 Psi. Con base a la información contenidad en
la muestra. ¿La compañía debera utilizar el plastico 1?. Utilice un nivel de significancia de 0.05
para llegar a una decisión.
Solución:
1. Se trata de una distribución muestral de diferencias de medias
UNIDAD IV / ESTADISTICA APLICADA.
218
2. Datos:
1 2
1
2
1
2
1.0162.515510120.05
psix psix psinn
σ σ
α
= ======
3. Ensayo de hipótesis
0 1 2
1 1 2
: 10: 10
HH
μ μμ μ
− =
− >
4. Regla de decisión
0
1
1.645 se acepta 1.645 se acepta
Z HZ H
≤
>
5. Cálculos
2 2
(162.5 155) 10 5.83(1) (1)10 12
Z − −= = −
+
.
6. Justificación y decisión
No existe evidencia suficiente para apoyar el uso del plástico 1 ya que 5.83 1.645− ≤ , se
acepta H0.
UNIDAD IV / ESTADISTICA APLICADA.
219
Problema: La gerente de planta de una fábrica enlatadora de jugo de naranja está interesada
en comprar el rendimiento de dos diferentes líneas de producción. Como la línea número 1
es relativamente nueva, sospecha que el número de cajas que se producen al día es mayor
que el correspondiente a la vieja línea 2. se toman datos al azar durante diez días para cada
línea, encontrándose que por día y 818.6 cajas por día. De la
experiencia con la operación de este tipo de equipo se sabe qué y con
un nivele de significancia de 0.05
Solución:
1. se trata de una distribución muestral de diferencias de medias.
2. datos:
; 818.6
;
;
3. ensayo de hipótesis
4. regla de decisión
Z > 1.645 se acepta H1
Z -1.645 se acepta H0
5. Cálculos
Z
6. justificación y decisión
cajasx 9.8241 = =2x
4021 =σ .502
2 =σ
cajasx 9.8241 = =2x
4021 =σ .502
2 =σ
1021 == nn 05.0=α
211
210
:
:
μμ
μμ
>
=
H
H
≤
10.2
1050
1040
0)6.8189.824(=
+
−−=
UNIDAD IV / ESTADISTICA APLICADA.
220
2.10 > 1.645 se acepta H1. se concluye que el numero medio de cajas producidas
diariamente por la nueva línea de producción es mayor que el numero medio de caja
producidas por la vieja línea.
4.3.3 Prueba de hipótesis para proporciones. Problema: Un constructor afirma que se instalan bombas de calor en 70% de todas las
casas que se construyen hoy en día en la ciudad de Richmond. ¿Estaría de acuerdo con
esta afirmación si una investigación de casas nuevas en esta ciudad muestra que 8 de 15
tienen instaladas bombas de calor? Utilice un nivel de significancia de 0.10.
Solución:
1. Se trata de una distribución muestral de proporciones.
2. Datos:
3. Ensayo de hipótesis
Ho; P = 0.70
H1; P ≠ 0.70
4. Regla de Decisión:
Si –1.645 ≤ Z ≤1.645 No se rechaza Ho
Si ZR < -1.645 ó si ZR > 1.645 Se rechaza Ho
5. Cálculos:
10.015
5333.015/870.0
==
===
αnpP
UNIDAD IV / ESTADISTICA APLICADA.
221
6. Justificación y decisión :
Como –1.645 ≤ -1.41 ≤ 1.645 No se rechaza Ho y se concluye con un nivel de significancia
de 0.10 que la afirmación del constructor es cierta.
Problema: El fabricante de una patente médica sostiene que la misma tiene un 90 % de
efectividad en el alivio de una alergia, por un periodo de 8 hrs. En una muestra de 200
individuos que tenían la alergia, la medicina suministrada alivio a 160 personas. Determinar
si la aseveración del fabricante es cierta. El nivel de significancia es 0.01
Solución:
1. Se trata de una distribución muestral de proporciones.
2. Datos:
3. Ensayo de hipótesis
H0 : p = 0.9
H1 : p < 0.9
4. Regla de decisión
Z < -2.33 se acepta H1 y se rechaza H0
Z ≥ -2.33 se acepta H0
5. Cálculos
41.1
15)30.0)(70.0(
70.0533.0−=
−=
−=
nPq
PpZ
01.0200
8.0200/16090.0
==
===
αnpP
UNIDAD IV / ESTADISTICA APLICADA.
222
6. justificación y decisión
- 4.71 < - 2.33 se acepta H1 y se rechaza H0 . se concluye que es menor al 90 % de
efectividad
Problema: Un fabricante de semiconductores produce controladores que se emplean en
aplicaciones de motores automovilísticos. El cliente requiere que la fracción de controladores
defectuosos en uno de los pasos de manufactura críticos no sea mayor que 0.05, y que el
fabricante demuestre esta característica del proceso de fabricación con este nivel de calidad,
utilizando α =0.05. El fabricante de semiconductores toma una muestra aleatoria de 200
dispositivos y encuentra que cuatro de ellos son defectuosos. ¿El fabricante puede
demostrar al cliente la calidad del proceso?
Solución:
1. Se trata de una distribución muestral de proporciones.
2. Datos:
P = 0.05
p = 4/200 = 0.02
n = 200
α = 0.05
3. ensayo de hipótesis
71.4
200)10.0)(90.0(
90.08.0−=
−=
−=
nPq
PpZ
05.0:05.0:
1
0
<=
PHPH
UNIDAD IV / ESTADISTICA APLICADA.
223
4. Regla de decisión:
Si ZR ≥ -1.645 No se rechaza Ho
Si ZR < -1.645 Se rechaza Ho
5. Cálculos:
6. Justificación y decisión:
Puesto que –1.946<-1.645, se rechaza Ho y se concluye con un nivel de significancia del
0.05 que la fracción de artículos defectuosos es menor que 0.05.
4.3.4. Prueba de hipótesis para diferencia de proporciones. Problema: Se evalúan dos tipos diferentes de soluciones para pulir, para su posible uso en
una operación de pulido en la fabricación de lentes intraoculares utilizados en el ojo humano
después de una cirugía de cataratas. Se pulen 300 lentes con la primera solución y, de
éstos, 253 no presentaron defectos inducidos por el pulido. Después se pulen otros 300
lentes con la segunda solución, de los cuales 196 resultan satisfactorios. ¿Existe alguna
razón para creer que las dos soluciones para pulir son diferentes? Utilice α = 0.01
Solución:
1. Se trata de una distribución muestral de diferencia de proporciones.
2. Datos:
p1= 253/300= 0.8433
p2 = 196/300= 0.6533
n1 = n2 = 300
3. Ensayo de hipótesis:
Ho; P1 = P2
H1; P1 P2
946.1
200)95.0)(05.0(
05.002.0−=
−=
−=
nPq
PpZ
≠
UNIDAD IV / ESTADISTICA APLICADA.
224
4. Regla de decision.
2.575 2.575 se acepta Ho 2.575 o 2.575 Se acepta H1
Si zSi Z Z
− ≤ ≤< − >
5. Cálculos
1 2
1 2
1 2
253 196 0.7483300 300
0.74831 0.2517
x xPn n
P P Pq P
+ += = =
+ +
= = == − =
1 2 1 2
1 2
( ) ( )
1 1
(0.8433 0.6533) 0 5.361 1(0.7483)(0.2517)
300 300
p p P PZ
Pqn n
Z
− − −=
⎛ ⎞+⎜ ⎟
⎝ ⎠
− −= =
⎛ ⎞+⎜ ⎟⎝ ⎠
6. Justificación y decisión :
Puesto que 5.36 > 2.575 se rechaza la hipótesis nula y se concluye con un nivel de
significancia de 0.01 que los dos fluidos para pulir son diferentes.
Problema: Se tomará el voto entre los residentes de una ciudad y el condado
circundante para determinar si se debe construir una planta química propuesta. El lugar
de construcción está dentro de los límites de la ciudad y por esta razón muchos votantes
del condado consideran que la propuesta pasará debido a la gran proporción de
votantes que favorecen la construcción. Para determinar si hay una diferencia
UNIDAD IV / ESTADISTICA APLICADA.
225
significativa en la proporción de votantes de la ciudad y votantes del condado que
favorecen la propuesta, se realiza una encuesta. Si 120 de 200 votantes de la ciudad
favorecen la propuesta y 240 de 500 residentes del condado también lo hacen.
¿Estaría de acuerdo en que la proporción de votantes de la ciudad que favorecen la
propuesta es más alto que la proporción?. Utilice un nivel de significancia de 0.025.
Solución:
1. Se trata de una distribución muestral de diferencia de proporciones.
2. Datos:
p1= 120/200 = 0.60; p2 = 240 / 500 = 0.48
n1 = 200; n2 = 500
3. Ensayo de hipótesis:
Ho; P1 = P2
H1; P1 > P2
4. Regla de decision.
Z 1.96 se acepta Ho 1.96 Se acepta H1
SiSi Z
≤>
5. Cálculos
1 2
1 2
120 240 0.48200 500
x xPn n
+ += = =
+ +
1 2 1 2
1 2
( ) ( ) (0.60 0.48) 0 2.91 11 1 (0.51)(0.49)
200 500
p p P PZ
Pqn n
− − − − −= = =
⎛ ⎞ ⎛ ⎞++ ⎜ ⎟⎜ ⎟ ⎝ ⎠⎝ ⎠
6. Justificación y decisión :
Puesto que 2.9 > 1.96 se acepta H1 y se concluye estar de acuerdo en que la proporción
de votantes de la ciudad a favor de la propuesta es más alta que la proporción de
votantes del condado..
UNIDAD 5
REGRESION Y CORRELACION.
Objetivo: Comprenderá el concepto de correlación y regresión, los expresará matemáticamente y los usará para tomar decisiones.
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
217
5.1 Introducción. A menudo, en la práctica, se requiere resolver problemas que incluyen conjuntos de
variables cuando se sabe que existen algunas relaciones inherentes entre ellas. Por
ejemplo, en una situación industrial se puede saber que el contenido de alquitrán en el flujo
saliente de un proceso químico se relaciona con la temperatura de entrada. Ya que una de
las aplicaciones más importantes de la estadística implica la estimación del valor medio de
una variable de respuesta y o la predicción de algún valor futuro y con base en el
conocimiento de un conjunto de variables independientes relacionadas, .,...,, 21 kxxx
5.1.1 Gráficas de los datos. En la grafica de los datos es la interpretación de la información que se ha recopilado a través
de un experimento en la cual consiste en la comparación por pares de datos y solo marca
cada dato a través de puntos.
Problema: El calor especifico )/( kgmolcalCp del 43OMn varía con la temperatura de
acuerdo a la siguiente tabla:
Punto T ( K) Cp
1 280 32.7
2 650 45.4
3 1000 52.15
4 1200 53.7
5 1500 52.9
6 1700 50.3
Elabore la grafica de los datos que muestra la tabla.
0
20
40
60
0 500 1000 1500 2000Cal
or e
spec
ifico
Temperatura
Grafica de datos
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
218
5.1.2 Variables de regresión independientes. Una de las aplicaciones más importantes de la estadística implica la estimación del valor
medio de una variable de respuesta o la predicción de algún valor futuro de con base
en el conocimiento de un conjunto de variables independientes relacionadas .
Por ejemplo, el gerente de un centro de procesamiento de datos podría querer relacionar el
tiempo de espera (la variable dependiente) entre el momento en que se presenta un
trabajo a una computadora y el momento en que se completa, con variables tales como el
numero y el tamaño de los trabajos que ya están esperando para ejecutarse y el tamaño de
los trabajos que se están presentando ( las variables independientes). El objetivo sería
crear una ecuación de predicción (o un modelo) que exprese como una función de las
variables independientes. Esto permitiría la gerente predecir para valores específicos de
las variables independientes y, en última instancia, utilizar los conocimientos derivados de un
estudio de la ecuación de predicción para instaurar políticas de control del tiempo de espera.
Los modelos que se emplean para relacionar una variable dependiente con las variables
independientes se denominan modelos de regresión o modelos estadísticos
lineales porque expresan el valor medio de para valores dados de como una
función lineal de un conjunto de parámetros desconocidos.
Definición La variable por predecir (o por modelar), , es la variable dependiente (o de respuesta)
Definición Las variables que se utilizan para predecir (o modelar) se denominan variables
independiente y se denotan con los símbolos , etcétera.
y y
kxxx ,...,, 21
y
y
y
y
kxxx ,...,, 21
y kxxx ,...,, 21
y
y
,,, 321 xxx
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
219
5.1.3 Regresión lineal simple. En el caso de la regresión lineal simple donde hay una sola variable de regresión
independiente x y una sola variable Y, los datos se pueden representar mediante los pares
de observaciones ( ) niyx ii ,...,2,1;, =.
El ejemplo más simple de una aproximación por mínimos cuadrados es el ajuste de una
línea recta a un conjunto de parejas de datos observadas: ),( 11 yx , ),( 22 yx ,. . . ),( nn yx .
La expresión matemática de una línea recta es:
0 1y a a x ε= + +
En donde 0a y 1a son coeficientes que representan la intersección con el eje de las
abscisas y la pendiente, respectivamente y E es el error o residuo entre el modelo y las
observaciones, que se pueden representar reordenando la ecuación como:
xaayE 10 −−=
Por lo tanto, el error o residuo es la diferencia entre el valor real de y y el valor aproximado
xaa 10 + , predicho por la ecuación lineal.
xaay 10 += Ecuación de la línea recta
Entonces, podríamos escoger un modelo que relacione a con x trazando una línea resta
a través de los puntos de la figura. Semejante modelo deterministico – uno que no
contempla errores de predicción – podría ser adecuado si todos los puntos de la figura,
quedaran sobre la línea ajustada. Sin embargo, es evidente que esta situación ideal no
ocurre para los datos de la tabla. Sin importar como tracemos una línea recta desviaran
significativamente de la línea ajustada.
La solución al problema anterior es construir un modelo probabilístico que relacione y con x;
uno que contemple la variación aleatoria de los puntos de datos a los lados de una línea
recta. Un tipo de modelo probabilístico, el modelo de regresión lineal simple, supone que
el valor medio de y para un valor dado de x se grafica como una línea recta y que los puntos
se desvían de esta línea de medias en una cantidad aleatoria (positiva o negativa) igual a
, es decir,
0 1y a a x ε= + +
y
ε
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
220
Donde 0a y 1a son parámetros desconocidos de la porción deterministico (no aleatoria) del
modelo. Si suponemos que los puntos se desvían por encima y por debajo de la línea de
medias, siendo algunas desviaciones positivas, otras negativas, y con entonces el
valor medio de es
0 1
0 1
0 1
( ) ( )( )
E y E a a xa a x Ea a x
εε
= + += + +
= +
Por tanto, el valor medio de para un valor dado de x, representado por el símbolo E (y), *
se grafica como una línea recta con ordenada al origen igual a 0a y pendiente igual a 1a .
La validez de las inferencias acerca de 0a y 1a dependerá de las distribuciones de muestreo
de los estimadores, que a su vez dependen de la distribución de probabilidad del error
aleatorio, ; por tanto, primero debemos hacer supuestos específicos respecto a . Tales
supuestos, que se resumirán a continuación, son básicos para todo análisis de regresión
estadístico.
Líneas de regresión ajustada. Supuesto I: La media de la distribución de probabilidad de es 0. Es decir, la media de los
errores a lo largo de una serie infinitamente larga de experimentos es 0 para cada valor de la
variable independiente x. Este supuesto implica que el valor medio de , para un
valor dado de x es
0 1( )E y a a x= +
Supuesto II: La varianza de la distribución de probabilidad de es constante para todos los
valores de la variable independiente x. En el caso de nuestro modelo de línea recta, este
supuesto significa que la varianza de es igual a una constante, digamos , para todos
los valores de x.
Supuesto III: La distribución de probabilidad de es normal.
Supuesto IV: Los errores asociados a cualesquier dos observaciones distintas son
0)( =εE
y
y
ε ε
ε
)(, yEy
ε
ε 2σ
ε
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
221
independientes. Es decir, el error asociado a un valor de en particular no tiene efecto
alguno sobre los errores asociados a otros valores de .
Las implicaciones de los tres primeros supuestos pueden apreciarse en la figura siguiente,
que muestra las distribuciones de errores para tres valores específicos de x, a saber,
y .
Observe que las distribuciones de frecuencia relativa de los errores son normales, con una
media de 0 y una varianza constante de . La línea recta de la figura es el valor medio
para un valor dado de x,
En la práctica, los supuestos no tienen que cumplirse al pie de la letra para que los
estimadores de mínimos cuadrados y las estadísticas de prueba (que se describirán más
adelante) tengan el grado de con fiabilidad que esperamos de un análisis de regresión.
5.2. Diagrama de dispersión 5.2.1. Tabla de datos Ejemplo: Supongamos que el inventor de un material aislante quiere determinar la magnitud
de la compresión que se producirá en un espécimen de 2 pulgadas de espesor cuando se
someta a diferentes cantidades de presión. Se prueban cinco trozos experimentales del
material bajo diferentes presiones.
Los valores de x (en unidades de 10 libras por pulgada cuadrada) y las magnitudes de
compresión resultantes (en unidades de 0.1 pulgada) se presentan en la tabla.
y
y
21, xx
3x
2σ y
y
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
222
Tabla Compresión vs. presión
para un material aislante
Espécimen Presión Compresión
X
1
2
3
4
5
1
2
3
4
5
1
1
2
2
4
5.2.2. Construcción de diagramas. En la figura se muestra una grafica de los datos llamada diagrama de dispersión.
Supongamos que creemos que el valor de tiende a aumentar de forma lineal conforme x
aumenta.
5.3. Estimación mediante la línea de regresión 5.3.1. Ecuación de la recta como ajuste de datos El método más simple de ajustar una curva a un conjunto de datos es el de trazar los puntos
y unirlos con una línea recta. Aunque es una alternativa validad y se utiliza cuando se
requiere hacer estimaciones rápidas, los resultados son independientes, desde un punto de
vista subjetivo, de la persona que traza la recta.
y
012345
0 2 4 6
Compren
sión
Presión
y
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
223
Para quitar esta dependencia se usa la regresión lineal o mínimos cuadrados.
Ecuación de la línea recta
xaay 10 +=
Polinomio de segundo grado o cuadrático:
exaxaay +++= 2210
Una extensión útil en la regresión lineal es el caso en que y es una función lineal de dos o
más variables. Por ejemplo, y pudiera ser una función lineal de 1x y 2x , de la forma:
22110 xaxaay ++=
5.3.2. Modelos Algoritmo de la solución
1. Inicio 2. Solicitud de los datos discretos ( tabla de datos encontrados experimentalmente) a
los cuales se le va a encontrar la recta que de aproxima mas a ellos. 3. Calcular con base a los datos dados el valor de n. 4. encontrar la sumatoria ∑y
5. Encontrar la sumatoria ∑x
6. encontrar la sumatoria del producto ∑ xy
7. Encontrar la sumatoria de la potencia ∑ 2x 8. Sustituir los valores encontrados en los pasos 3, 4, 5, 6, 7, en las ecuaciones del
método de mínimos cuadrados. 9. Resolver el sistema de ecuaciones para encontrar a las constantes A y B 10. sustituir los valores de A y B en la ecuación de la recta. 11. impresión de los resultados 12. Fin.
5.4. Métodos de mínimos cuadrados.
El significado de mínimos cuadrados consiste en obtener la recta que ajuste a una serie de
datos numéricos, con la condición que la suma de los cuadrados de los residuos sea mínima
posible.
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
224
a) Muestra de datos con un error significativo.
b) Ajuste polinomial con oscilaciones que violan el rango de datos.
c) Se obtienen resultados más satisfactorios usando el ajuste de mínimos cuadrados.
Si queremos escoger la línea recta "de mejor ajuste" para un conjunto de datos, debemos
estimar los parámetros desconocidos 0a y 1a del modelo de regresión lineal simple. Estos
estimadores podrían obtenerse empleando el método de máxima verosimilitud pero el
método más fácil y el más atractivo desde un punto de vista intuitivo es el método de mínimos cuadrados. Cuando se satisfacen los supuestos de la sección anterior, los
estimadores de máxima verosimilitud y de mínimos cuadrados de 0a y 1a son idénticos.
5.4.1. Estimación de los coeficientes de regresión Ecuación de la línea recta (regresión lineal)
xaay 10 +=
( )221
∑∑∑ ∑ ∑
−
−=
ii
iiii
xxn
yxyxna
xaya 10 −=
Problema:
Solución:
Problema:
automatiza
bodega de
y optimizar
1993) se es
La disposic
dentro de l
se verificó
simulación
tiempo tota
Algo que in
(y) y el núm
Ajústese una
Las bode
ados para el
be diseñarse
r el tiempo d
studió el dise
ción emplea
la bodega, e
ó simulando
se varió el n
al que un ve
nteresa a los
mero de vehí
a línea recta
i1234567
egas mode
manejo de
e con cuidad
de respuesta
eño óptimo d
da supone q
es decir, que
(en una c
número de v
ehículo bloqu
s investigado
ículos (x).
UNIDAD
a los valore
X 1 2 3 4 5 6 7
ernas utiliza
materiales.
do a modo de
a. En The Jo
de una bodeg
que los vehí
e no hay con
computadora
vehículos y s
ueó a otro).
ores es la re
D V / REGR
s x y y de la
y 0.5 2.5 2.0 4.0 3.5 6.0 5.5
an vehículo
En consecu
e evitar el co
oumal of En
ga automatiz
ículos no se
ngestionamie
) las opera
se registró el
Los datos s
elación entre
RESIÓN Y
tabla siguien
os guiados
uencia, la di
ongestionam
ngineering fo
zada.
bloquean e
ento. La valid
aciones de
l tiempo de c
e muestran
e el tiempo d
Y CORREL
nte:
computari
sposición fís
iento de los
or industry (a
entre sí cuan
dez de este
la bodega.
congestionam
en la siguie
de congestio
LACIÓN.
225
izados y
sica de la
vehículos
agosto de
ndo viajan
supuesto
En cada
miento (el
ente tabla.
onamiento
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
226
Número de
vehículos
Tiempo de congestionamiento
en minutos
Número de
vehículos
Tiempo de congestionamiento
en minutos
1
2
3
4
5
6
7
8
0
0
0.02
0.01
0.01
0.01
0.03
0.03
9
10
11
12
13
14
15
0.02
0.04
0.04
0.04
0.03
0.04
0.05
a) Construya un diagrama de dispersión para los datos.
b) Encuentre la línea de mínimos cuadrados que relaciona el número de vehículos (x)
con el tiempo de congestionamiento (y).
c) Trace la línea de mínimos cuadrados en la gráfica del inciso a.
Solución:
Problema: En la tabla siguiente se presentan los alargamientos de un resorte
correspondientes a fuerzas de diferente magnitud que lo deforman.
Puntos 1 2 3 4 5
Fuerza (kgf) : x 0 2 3 6 7
Longitud del resorte
(m) : y
0.120 0.153 0.170 0.225 0.260
y = 0.00319118x - 0.00400000
-0.010
0.010.020.030.040.050.06
0 5 10 15 20
Tiempo de congestionamiento
Aproxime e
Solución:
Problema:
acuerdo a
Punto
T ( K)
Cp
Aproxime e
esta informac
El calor es
la siguiente t
1
280
32.7
esta informac
ción por el m
specifico Cp
tabla:
2
650
45.4
ción por el m
0.000
0.050
0.100
0.150
0.200
0.250
0.300
0
UNIDAD
método de mí
/( kgmocalp
3
1000
52.15
método de mí
y
2
D V / REGR
ínimos cuadr
)ol del 3Mn
4
1200
53.7
ínimos cuadr
y = 0.0194x + 0.R2 = 0.9875
4 6
RESIÓN Y
rados, usand
43On varía co
5
0 150
52.9
rados. Usand
11565
6 8
Y CORREL
do regresión
on la tempe
6
00 17
9 50
do regresión
LACIÓN.
227
lineal.
ratura de
700
0.3
lineal.
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
228
Polinomio de segundo grado o cuadrático (regresión polinomial) 2
0 1 2y a a x a x= + +
∑∑∑∑∑∑∑∑
∑∑∑
=++
=++
=++
iiiii
iiiii
iii
yxxaxaxa
yxxaxaxa
yxaxana
242
31
20
32
210
2210
Problema: Ajuste un polinomio de segundo orden a los datos de las dos columnas del
cuadro:
ix iy
0
1
2
3
4
5
2.1
7.7
13.6
27.2
40.9
61.1
∑ 152.6
433.255.2
62
====
yxnm
∑∑∑∑
=
=
=
=
225
55
6.215
15
3
2
i
i
i
i
x
x
y
x
∑∑∑
=
=
=
8.2488
6.585
979
2
4
ii
ii
i
yx
yx
x
8.2488979225556.5852255515
6.15255156
210
210
210
=++=++
=++
aaaaaa
aaa
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
229
Regresión lineal múltiple
22110 xaxaay ++= Ahora tenemos el conjunto de ecuaciones normales:
0 1 1, 2 2,
20 1, 1 1, 2 1, 2, 1,
20 2, 1 1, 2, 2 2, 2,
i i i
i i i i i i
i i i i i i
a n a x a x y
a x a x a x x x y
a x a x x a x x y
+ + =
+ + =
+ + =
∑ ∑ ∑∑ ∑ ∑ ∑∑ ∑ ∑ ∑
Problema: Veinte tipos de hojas de aceros procesadas en frío tienen diferentes
composiciones de cobre y temperaturas de templado. Al medir su dureza resultante se
obtuvieron los siguientes valores:
y = 1.853x2 + 2.397x + 2.464R² = 0.998
010203040506070
0 1 2 3 4 5 6
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
230
Se sabe que la dureza depende en forma lineal del contenido de u de cobre en % y de la
temperatura del templado v
vauaay 210 ++=
Determine los parámetros 10 ,aa y 2a , siguiendo el criterio de los mínimos cuadrados.
Solución:
A
12
1.2
13800
1.2
0.1712
1380
13800
1380
16020000
795.7
81.258
902230
⎛⎜⎜⎝
⎞⎟⎟⎠
:=
rref A( )
1
0
0
0
1
0
0
0
1
161.336
32.969
0.086−
⎛⎜⎜⎝
⎞⎟⎟⎠
=
y 161.336 32.969u+ 0.086v−:=
5.5 Error estándar de estimación Los segmentos de línea verticales representan desviaciones de los puntos respecto a la
línea en la siguiente figura. Se puede constatar, desplazando una regla dentro de la gráfica
que es posible encontrar muchas líneas para las cuales la suma de las desviaciones (o
errores) es igual a 0, pero puede demostrarse que hay una y sólo una línea para la cual la
suma de los cuadrados de las desviaciones es mínima. La suma de los cuadrados de las
desviaciones se denomina suma de cuadrados del error y se denota con el símbolo SSE. La
línea recibe el nombre de línea de mínimos cuadrados, línea de regresión o ecuación de predicción de mínimos cuadrados.
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
231
Grafica que muestra las desviaciones de los puntos respectos a una línea recta.
Si queremos encontrar la línea de mínimos cuadrados para un conjunto de datos,
suponemos que tenemos una muestra de n puntos de datos que se pueden identificar
mediante los correspondientes valores de x y y , digamos, (x1, y1) , (x2, y2), . . . , (xn , Yn ). El
modelo de línea recta para la respuesta y en términos de x es
0 1y a a x ε= + +
La línea de medias es 0 1( )E y a a x= + y la línea ajustada, que esperamos encontrar, se
representa como 0 1ˆ ˆ ˆy a a x= + .
Entonces, la suma de los cuadrados de las desviaciones de los valores de y respecto a sus
valores estimados para toda las n puntos de datos es
[ ]2
0 11
ˆ ˆ( )n
i ii
SSE y a a x=
= − +∑ Para una regresión lineal.
22
0 1 21
ˆ ˆ( )n
i i ii
SSE y a a x a x=
⎡ ⎤= − + +⎣ ⎦∑ Para una regresión polinomial.
En la mayor parte de las situaciones prácticas, la varianza del error aleatorio es
desconocida y se debe estimar a partir de los datos de muestra. Puesto que mide la
2σ ε2σ
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
232
variación de los valores de respecto de la línea 0 1( )E y a a x= + parece intuitivamente
razonable estimar dividiendo SSE entre un número apropiado.
Teorema
Sea entonces , si se satisfacen los supuestos, la estadística
=
Tiene una distribución ji cuadrada con v = (n – 2 ) grados de libertad.
Entonces,
Donde E( ) = v = (n - 2).
Por tanto,
Y negamos a la conclusión de que s2 es un estimador insesgado de .
El procedimiento empleado para calcular SSE puede dar pie a errores de redondeo
considerables. En el siguiente recuadro se presentan la fórmula para s2 y un método para
calcular SSE.
Estimación de
donde
y2σ
).2/(2 −= nSSEs
22
σχ SSE
= 2
2)2(σ
sn −
2
222
−=
ns σχ
)(2
)( 22
2 χσ En
sE−
=
2χ
22
2 )2(2
)( σσ=−
−= n
nsE
2σ
2σ
error para libertad de Grados2 SSEs =
2−=
nSSE
( )∑ −=−= xyyyii SSSSyySSE βˆ 2
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
233
Donde 1aβ =
Advertencia: al realizar estos cálculos tal vez se sienta tentado a redondear los valores
calculados de y Asegúrese de conservar por lo menos seis cifras
significativas para cada una de estas cantidades a fin de evitar un error importante en el
cálculo de SSE.
5.6 Coeficiente de determinación y correlación 5.6.1 Coeficiente de determinación de la muestra Otra forma de medir la contribución de x a la predicción de y es considerar hasta dónde
pueden reducirse los errores de la predicción de y aprovechando la información
proporcionada por x.
a) Diagrama de dispersión de los datos
b) Supuesto: x no contribuye con información a la predicción de ;
c) Supuesto: x contribuye con información a la predicción de ; 0 1y a a x= +
Como ilustración, supongamos que una muestra de datos tiene el diagrama de dispersión
que se muestra en la figura anterior del inciso a. Si suponemos que x no contribuye con
información a la predicción de y, la mejor predicción de y será la media de la muestra, y, que
se grafica como una línea horizontal en la figura inciso b.
( )∑ ∑ ∑−=−=
ny
yyySS iiiyy
222)(
β,yySS .xySS
y yy =ˆ
y
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
234
Los segmentos de línea verticales trazados en esa figura son las desviaciones de los puntos
respecto de la media y. Observe que la suma de los cuadrados de las desviaciones para el
modelo:
es .
Supongamos ahora que ajustamos una línea de mínimos cuadrados al mismo conjunto de
datos y marcamos las desviaciones de los puntos respecto de la línea como se hace en la
figura del inciso c.
Compare las desviaciones respecto de las líneas de predicción en los incisos b y c de la
figura anterior.
Es evidente que:
1. Si x contribuye con poca o ninguna información a la predicción de , las sumas de
los cuadrados de las desviaciones para las dos líneas,
2. Si x contribuye con información a la predicción de , entonces SSE será menor que
SSyy. De hecho, si todos los puntos caen en la línea de mínimos cuadrados, entonces
SSE = 0.
Una forma cómoda de medir qué tan bien se desempeña la ecuación de mínimos
cuadrados 0 1y a a x= + como predictora de y es calcular la reducción en la suma de los
cuadrados de las desviaciones que se puede atribuir a x, expresada como una proporción de
SSyy. Esta cantidad, llamada coeficiente de determinación, es
En la regresión lineal simple se puede demostrar que esta cantidad es igual al cuadrado del
coeficiente de correlación lineal simple r.
yy =ˆ ∑ −= 2)( yySS iyy
y
∑ −= 2)( yySS iyy
∑ −= 2)ˆ( ii yySSE
y
yy
yy
SSSSESS −
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
235
Definición:
El coeficiente de determinación es
yyyy
yy
SSSSE
SSSSESS
r −=−
= 12
Este coeficiente representa la proporción de la suma de los cuadrados de las desviaciones
de los valores de y respecto de sus valores estimados ( )y que se puede atribuir a una
relación lineal y y x . (En una regresión lineal simple, este coeficiente también puede
calcularse elevando al cuadrado el coeficiente de correlación r )
Observe que r2 siempre está entre 1 y 1, porque r está entre -1 y +1. Por tanto, r2 = 0.60
significa que la suma de los cuadrados de las desviaciones de los valores de y respecto de
sus valores estimados se redujo en 60% al utilizar , en lugar de , para predecir y. O bien,
en términos más prácticos, r2 = 0.60 implica que el modelo de línea recta que relaciona a y
con x puede explicar (o dar cuenta de) 60% de la variación presente en la muestra de
valores de y.
Problema: Calcule el coeficiente de determinación para el ejemplo de compresión de ais-
lante. Los datos se repiten en la tabla siguiente:
Presión Compresión
X, 10 libras
por pulg2
Y, 0.1 de
pulgada
1
2
3
4
5
1
1
2
2
4
y y
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
236
( ) ( )
( )
2 22
2
2
1026 6
5 5
ˆ 1.10
6.0 1.1 0.82 82%6.0
iyy i
i i
yy
yy
ySS y
SSE y y
SS SSEr
SS
= − = − =
= − =
− −= = = =
∑∑
∑
(Observe que este valor también podría haberse obtenido elevando al cuadrado el
coeficiente de correlación r = 0.904.)
Ahora sabemos que al usar la presión x para predecir la compresión y con la línea de
mínimos cuadrados = -0.1 + 0.7x, la suma total de los cuadrados de las desviaciones de
los cinco valores de y respecto de sus valores estimados se redujo en 82% gracias al
empleo del predictor lineal . Es decir, 82% de la variación de los valores de compresión de
la muestra se puede explicar mediante la línea de mínimos cuadrados.
Interpretación práctica del coeficiente de determinación, r2
Aproximadamente 100(r2) % de la suma total de los cuadrados de las desviaciones de los
valores y de la muestra respecto de su media se puede explicar por ( o atribuirse a) el
empleo de x para predecir y con el modelo de línea recta.
En situaciones en las que un modelo de regresión de línea recta resulta ser un predictor
estadísticamente satisfactorio de y, el valor de r2 puede servir al analista de regresión como
guía en la búsqueda de mejores y más útiles modelos. Por ejemplo, Crandall y Cedercreutz
(1976) emplean un modelo lineal simple para relacionar el costo del trabajo mecánico
(calefacción, ventilación y plomería) en la construcción con el área de piso.
y
y
y
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
237
Con base en los datos asociados a la construcción de 26 fábricas y bodegas, se obtuvo la
ecuación de predicción de mínimos cuadrados que se indica en la figura siguiente. Se llegó
a la conclusión de que el área de piso y el costo mecánico tienen una relación lineal, ya que
la estadística t (para probar Ho: 1 0a = ) produjo un valor de 3.61, el cual es significativo con
un 0a tan pequeño como 0.002.
Por tanto, el área de piso debe servirnos para predecir el costo mecánico de una fábrica o
bodega. Sin embargo, el valor del coeficiente de determinación r2 fue de 0.35. Esto nos dice
que sólo 35% de la variación en los costos mecánicos se puede atribuir a las diferencias en
el área de piso.
Este valor relativamente pequeño de r2 impulsó a Crandall y Cedercreutz a incluir en el
modelo otras variables independientes (por ejemplo, volumen, cantidad de vidrio) en un
intento por dar cuenta de una porción significativa del 65% restante de la variación en el
costo mecánico que no puede explicarse con el área de piso.
Modelo lineal simple que relaciona el costo con el área de piso.
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
238
5.6.2 Coeficiente de correlación de la muestra
La pendiente de mínimos cuadrados, 1a proporciona información útil sobre la relación o
"asociación" lineal entre dos variables y y x. Otra forma de medir la asociación es calcular el
coeficiente de correlación r del momento de producto de Pearson. El coeficiente de
correlación, que se define en el recuadro, ofrece una medida cuantitativa de la fortaleza de la
relación lineal entre x y y en la muestra, como lo hace la pendiente de mínimos cuadrados
1a . Sin embargo, a diferencia de la pendiente, el coeficiente de correlación r es
adimensional. El valor de r siempre está entre -1 y + 1, sin importar en qué unidades se
exprese x y y..
Definición : El coeficiente de correlación r del momento de producto de Pearson es una medida de la
fortaleza de la relación lineal entre dos variables x y y en la muestra. El coeficiente se
calcula ( para una muestra de n mediciones de x y y ) como sigue
yyxx
xy
SSSSSS
r =
Puesto que tanto r como 1a proporcionan información acerca de la utilidad del modelo, no
debe sorprendemos que las fórmulas mediante las cuales se calculan sean similares. En
particular, observe que SSxy aparece en los numeradores de ambas expresiones y que, dado
que ambos denominadores siempre son positivos, r y 1a siempre tienen el mismo signo
(ambos positivos o bien ambos negativos). Un valor de r cercano o igual a 0 implica poca o
ninguna relación lineal entre y y x.
En contraste, cuanto más se acerque r a 1 o -1, más fuerte será la relación lineal entre x y y.
Y, si r = 1 o r = -1, todos los puntos caerán exactamente en la línea de mínimos cuadrados.
Un valor positivo de r implica que y aumenta cuando x aumenta; un valor negativo implica
que y disminuye cuando x aumenta.
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
239
Problema: En la tabla siguiente .Calcule el coeficiente de correlación r entre la presión x y la
compresión y.
Presión Compresión
X, 10 libras por pulg2 Y, 0.1 de pulgada
1
2
3
4
5
1
1
2
2
4
Solución:
SSxy = 7, SSxx = 10, : y .
Entonces,
( ) ( )2 2
2 1026 6
5 5i
yy i
ySS y= − = − =∑∑
y el coeficiente de correlación es
Por tanto, la presión y la magnitud de la compresión tienen una correlación elevada, al
menos para esta muestra de cinco trozos de material aislante. La implicación es que existe
una relación lineal positiva fuerte entre estas variables. No obstante, debemos tener cuidado
de no precipitamos a conclusiones injustificadas. Por ejemplo, el inventor de un nuevo
material aislante podría sentirse tentado a concluir que un aumento en la presión siempre
producirá una mayor compresión. La implicación de semejante conclusión es que existe una
relación causal entre las dos variables. Sin embargo, una correlación elevada no implica causalidad. Muchos otros factores, como la temperatura y la humedad, podrían contribuir al
aumento en el grado de compresión que se produce en los especímenes.
∑ = 10iy ∑ = 262iy
( )( )904.0
746.77
6107
====yyxx
xy
SSSSSS
r
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
240
Advertencia Una correlación elevada no implica causalidad. Si se observa un valor positivo o negativo
grande del coeficiente de correlación r de la muestra, no es correcto llegar a la conclusión de
que un cambio en x causa un cambio en y. La única conclusión puede existir una tendencia
lineal entre x y .
Tenga presente que el coeficiente de correlación r mide la correlación entre los valores x y
los valores y de la muestra, y que existe un coeficiente de correlación lineal similar para la
población de la cual se seleccionaron los puntos de datos.
El coeficiente de correlación de población se denota con el símbolo (rho). Como era
de esperar, se estima con la estadística de muestra correspondiente, r . Por otro lado, en
lugar de estimar , podríamos querer probar la hipótesis :
H0: = 0 contra
Ha: ,
es decir, probar la hipótesis de que x no contribuye con información a la predicción de y
empleando el modelo de línea recta contra la alternativa de que las dos variables tienen por
10 menos una relación lineal.
La única diferencia real entre la pendiente de mínimos cuadrados 1a y el coeficiente de
correlación r es la escala de medición. Por tanto, la información que proporcionan acerca de
la utilidad del modelo de mínimos cuadrados es en cierta medida redundante. Además, la
pendiente 1a proporciona información adicional sobre la magnitud del incremento (o
decremento) de y con cada incremento unitario de x.
Por esta razón, recomendamos utilizar la pendiente para hacer inferencias acerca de la
existencia de una relación lineal positiva o negativa entre dos variables.
Para quienes prefieren probar si hay o no una relación lineal entre dos variables empleando
el coeficiente de correlación r, bosquejamos el procedimiento en el recuadro.
y
ρ
ρ
ρ
ρ
ρ 0≠
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
241
Prueba de hipótesis para la correlación lineal Prueba de un cola Prueba de dos colas
1
: 0: 0
( 0)
oHH
ρρ
ρ
=>
< 1
: 0: 0
oHH
ρρ=
≠
Estadística de prueba: 2
21
r ntr−
=−
Región de rechazo:
( )t tt t
α
α
>
< −
Región de rechazo:
/ 2t tα>
Donde la distribución de t depende de (n – 2) gl .
Problema: Es importante que los investigadores científicos en el área de los productos
forestales sean capaces de estudiar la correlación entre la anatomía y las propiedades
mecánicas de los árboles. De acuerdo con el estudio Quantitative Anatomical Characteristics
of Plantation Grown Loblolly Pine (pinus Taeda L.) and Cottonwood (populus deltoides Bart.
Ex Marsh.) and Their Relationship to Mechanical Properties que llevó a cabo el
Departamento de Silvicultura y Productos Forestales del Instituto Politécnico y Universidad
Estatal de Virginia, un experimento en el que se seleccionaron aleatoriamente 29 pinos
loblolly para investigación que produjeron los datos de la tabla siguiente sobre la gravedad
específica en gramos /cm3 y el módulo de ruptura en kilo pascales (kPa). Calcule e interprete
el coeficiente de correlación muestra!.
Gravedad
especifica, x 3( / )g cm
Modulo de
ruptura, y
(kPa)
Gravedad
especifica, x 3( / )g cm
Modulo de
ruptura, y
(kPa)
0.414
0.383
0.399
0.402
0.442
0.422
29186
29266
26215
30162
38867
37831
0.581
0.557
0.550
0.531
0.550
0.556
85156
69571
84160
73466
78610
67657
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
242
0.466
0.500
0.514
0.530
0.569
0.558
0.577
0.572
0.548
44576
46097
59698
67705
66088
78486
89869
77369
67095
0.523
0.602
0.569
0.544
0.557
0.530
0.547
0.585
74017
87291
86836
82540
81699
82096
75657
80490
Solución
0.11273; 11807324786
34422.75972xx yy
xy
S S
S
= =
=
34422.75972 0.9435(0.11273)(11807324786)
r = =
Un coeficiente de correlación de 0.9435 indica una buena relación lineal entre X y Y. Como
r2 = 0.8902, podemos decir que aproximadamente 89% de la variación en los valores de Y
se explica por una relación lineal con X.
Una prueba de la hipótesis especial = 0 contra una alternativa apropiada es equivalente
a probar para el modelo de regresión lineal simple que utilizan la distribución t con
n – 2 grados de libertad o la distribución F con 1 y n - 2 grados de libertad. Sin embargo, si
se desea evitar el procedimiento del análisis de varianza y calcular sólo el coeficiente de
correlación muestral, se puede verificar que el valor t dado por
También se puede escribir como que, como antes, es un valor de la
estadística T que tiene una distribución t con n - 2 grados de libertad.
ρ
0=β
sSSR
Ssbt
xx
==
212
rnrt−
−=
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
243
Problema: Para los datos del ejemplo anterior pruebe la hipótesis de que no hay una
asociación lineal entre las variables.
Solución:
1
1. : 02. : 03. =0.054. Región critica: 2.052 y 2.052
oHH
t t
ρρ
α
=
≠
< − >
( )2
5. Calculos
0.9435( 27) 14.79, 0.0011 0.9435
t P= = <−
6. Decisión
Rechazar la hipótesis de no asociación lineal.
Una prueba de la hipótesis más general = o contra una alternativa adecuada se lleva a
cabo fácilmente a partir de la información muestral. Si X y Y siguen la distribución normal
bivariada, la cantidad
Es un valor de una variable aleatoria que sigue de manera aproximada la distribución normal
con media (1/2) In [(1 + ) / (1- )] y varianza 1/ (n - 3). De esta forma el procedimiento de
prueba es calcular
ρ ρ
⎟⎠⎞
⎜⎝⎛
−+
rr
11ln
21
ρ ρ
( )( )( )( )⎥⎦
⎤⎢⎣
⎡+−−+−
=
⎥⎥⎦
⎤
⎢⎢⎣
⎡⎟⎟⎠
⎞⎜⎜⎝
⎛−+
−⎟⎠⎞
⎜⎝⎛−+−
=
0
0
0
0
1111ln
23
11ln
11ln
23
ρρ
ρρ
rrn
rrnz
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
244
y comparar con los puntos críticos de la distribución normal estándar.
Problema: Para los datos del ejemplo antes de que acabamos de resolver pruebe la
hipótesis nula contra la alternativa de que . Utilice un nivel de significancia
de 0.05
Solución:
1.
2.
3.
4. Región critica :
5. Cálculos
P = 0.0655
6. Decisión : Hay en realidad alguna evidencia de que el coeficiente de
correlación excede 0.9
Relación no lineal.
Diagrama de dispersión que muestra correlación cero
9.0=ρ 9.0>ρ
9.0:. 0 =ρH
9.0:1 >ρH
05.0=α
645.1>z
51.19.1)9435.01(1.0)9435.01(ln
226
=⎥⎦
⎤⎢⎣
⎡−+
=z
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
245
5.7. Problemas prácticos de ajustes de curvas
Problema: Partir de un estudio experimental acerca de la estabilidad de arcilla muy platica,
se observo que el contenido de agua para moldeo con densidad optima dependía
linealmente de los porcentajes de cal y puzolana mezclado con la arcilla. Se tuvieron así los
resultados que dan abajo. Ajuste una ecuación de la forma:
vauaay 210 ++=
Solución:
A
7
45
62.5
45
407.5
291.25
62.5
291.25
816.25
206.4
1367.85
1789.65
⎛⎜⎜⎝
⎞⎟⎟⎠
:=
rref A( )
1
0
0
0
1
0
0
0
1
28.692
0.257
0.096−
⎛⎜⎜⎝
⎞⎟⎟⎠
=
y 28.692 0.257u+ 0.096v−:=
Problema: Al medir la velocidad (con un tubo de Pitot) en una tubería circular de diámetro
interior de 20 cm, se encontró la siguiente información:
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
246
V ( cm / s ) 600 550 450 312 240
R ( cm) 0 3 5 7 8
Donde R es la distancia en cm. medida a partir del centro del tubo.
a) Obtenga la curva v = f(R) que aproxima estos datos experimentales
b) Calcule la velocidad en el punto R = 4 cm.
Problema: Si aproxima la función dada abajo por un polinomio de segundo grado
y = -5.3472x2 - 3.0667x + 601.71
0
100
200
300
400
500
600
700
0 2 4 6 8 10
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
247
Problema: En la siguiente tabla, r es la resistencia de una bobina en ohms y T la temperatura
de la bobina en ºC. Por mínimos cuadrados determine el mejor polinomio lineal que
represente la función dada:
Problema: En una reacción gaseosa de expansión a volumen constante, se observa que la
presión del reactor (batch) aumenta con el tiempo de reacción según se muestra en la tabla
de abajo.
¿Que grado de polinomio aproxima mejor la función P = f(t) ?
y = -8.8218x2 - 1412.1x + 39694
05000
1000015000200002500030000350004000045000
0 5 10 15 20
y = 35.744x - 361.8
0102030405060708090
100
0 5 10 15
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
248
Problema: ajústese una línea recta a los valores x y y de la tabla siguiente:
ix iy
1
2
3
4
5
6
7
0.5
2.5
2.0
4.0
3.5
6.0
5.5
Solución:
y = 1.2386x + 0.8702
0
0.5
1
1.5
2
2.5
3
3.5
0 0.5 1 1.5 2
y = 0.5234x2 + 0.479x + 1.0089
0
0.5
1
1.5
2
2.5
3
3.5
0 0.5 1 1.5 2
0
2
4
6
8
0 2 4 6 8
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
249
Ejercicios propuestos
P1. En cada caso, grafique la línea que pasa por los puntos.
a. (0, 2) Y (2, 6)
b. (0, 4) Y (2, 6)
c. (0,-2) y (-1,-6)
d. (0, -4) Y (3, -7)
P2. Grafique las siguientes líneas:
a. y = 3 + 2x
b. y = l + x
c. y = - 2 + 3x
d. y = 5x
e. y = 4 - 2x
P3. Dos procesos para el taladrado hidráulico de roca son el taladrado en seco y el taladrado
húmedo. En un agujero seco se introduce aire comprimido por las varillas de taladrar para
expulsar las partículas e impulsar el martillo; en un agujero húmedo se introduce agua a
presión. Se realizó un experimento para determinar si el tiempo y que se requiere para
taladrar una distancia de cinco pies en roca aumenta con la profundidad x (The American
Statistician, febrero de 1991). Los resultados para una porción del experimento se muestran
en la siguiente tabla.
Profundidad a la que se inicia el taladro x,
pies
Tiempo para taladrar 5 pies , minutos
0
25
50
75
100
125
150
175
4.90
7.41
6.19
5.57
5.17
6.89
7.05
7.11
y
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
250
200
225
250
275
300
325
350
375
395
6.19
8.28
4.84
8.29
8.91
8.54
11.79
12.12
11.02
a) Elabore un diagrama de dispersión para datos.
b) Encuentre la ecuación de predicción de mínimos cuadrados.
c) Grafique la línea de mínimos cuadrados en el diagrama de dispersión
d) Interprete los valores de 0a y 1a
P4. Se realizó un estudio para modelar el desempeño térmico de los tubos con aletas
integrales empleados en las industrias de refrigeración y de proceso (Journal of Heat
Transfer, agosto de 1990). En el experimento se utilizaron 24 tubos con aletas integrales de
fabricación especial, con aletas rectangulares hechas de cobre. Se liberó vapor hacia abajo
en cada tubo y se midió el coeficiente de transferencia de calor del lado del vapor (con base
en el área superficial exterior del tubo). La variable dependiente en este estudio es la tasa de
promoción de la transferencia de calor y, definida como el cociente entre el coeficiente del
lado del vapor del tubo con aletas y el coeficiente del lado del vapor de un tubo liso,
evaluados a la misma temperatura. En teoría, la transferencia de calor está relacionada con
el área de la parte superior del tubo que no está "inundada" por la condensación del vapor.
Los datos de la tabla son los valores de proporción de área no inundada (x) y promoción de
la transferencia de calor (y) registrados para los 24 tubos con aletas integrales.
Proporción de área
no inundada, x
Promoción de la transferencia de
calor,
1.93
1.95
1.78
1.64
4.4
5.3
4.5
4.5
y
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
251
1.54
1.32
2.12
1.88
1.70
1.58
2.47
2.37
2.00
1.77
1.62
2.77
2.47
2.24
1.32
1.26
1.21
2.26
2.04
1.88
3.7
2.8
6.1
4.9
4.9
4.1
7.0
6.7
5.2
4.7
4.2
6.0
5.8
5.2
3.5
3.2
2.9
5.3
5.1
4.6
a) Determine la línea de mínimos cuadrados que relaciona la promoción de la
transferencia de calor con la proporción de área no inundada x.
b) Grafique los puntos de datos y trace la línea de mínimos cuadrados como verificación
de sus cálculos.
c) Interprete los valores de 0a y 1a
.
P5. La Comisión Federal de Comunicaciones (FCC) de Estados Unidos especifica que las
emisiones electromagnéticas radiadas por dispositivos digitales se deben medir en un sitio
de prueba de campo abierto. A fin de verificar la aceptabilidad de un sitio de prueba es
preciso evaluar la atenuación del sitio (es decir, la pérdida de transmisión desde la entrada
de un dipolo de media onda hasta la salida de otro cuando ambos dipolos se colocan sobre
el plano de tierra).
y
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
252
Un estudio realizado en un sitio de prueba en Fort Collins, Colorado, produjo los siguientes
datos de atenuación del sitio (en decibeles) y frecuencia de transmisión (en megahertz) para
dipolos a una distancia de 3 metros.
Frecuencia de
Transmisión X, MHZ
Atenuación del sitio ,dBL
50
100
200
300
400
500
600
700
800
900
1000
11.5
15.8
18.2
22.6
26.2
27.1
29.5
30.7
31.3
32.6
34.9
P6. Como parte de un estudio sobre la rapidez de combustión de grafito artificial en un flujo
de aire húmedo, se llevo a cabo un experimento con miras a investigar la difusividad del
oxígeno a través de una mezcla de vapor de agua (Combustion and Flame, vol. 50, 1983).
Se prepararon muestras de mezclas de nitrógeno y oxígeno con una fracción molar de agua
de 0.017 a nueve temperaturas distintas, y se midió la difusividad del oxígeno en cada una.
Los datos se reproducen en la siguiente tabla.
Temperatura Difusividad de oxigeno
x Y
1,000 1.69
1,100 1.99
1,200 2.31
1,300 2.65
1,400 3.01
1,500 3.39
1,600 3.79
1,700 4.21
1,800 4.64
y
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
253
a) Grafique los puntos de datos en un diagrama de dispersión.
b) Ajuste un modelo lineal simple que relacione la difusividad media del oxígeno,
, con la temperatura, x. Interprete las estimaciones de los parámetros del modelo.
c) Calcule SSE y S2
P7. El equilibrio termogravimétrico (TG ) es una nueva técnica que se desarrolló para evaluar
el comportamiento térmico de los compuestos químicos. Abou El Naga y Salem (1986)
compararon la técnica TG con el método estándar de evaluar la estabilidad respecto a la
termooxidación de aceite, base y sus mezclas aditivas (por ejemplo, aceites de
transformador, de turbina y de transmisión). En cada espécimen de una muestra de 10
aceites base se determinó la cantidad y de compuestos oxidativos formados en el punto de
oxidación empleando la técnica TG, así como el porcentaje total de productos de oxidación x
empleando el método estándar. Los resultados del experimento se muestran en la siguiente
tabla.
Aceite
base
Técnica TG: cantidad de
compuestos oxidativos , % en
peso
Método estándar:
Total de productos de oxidación
X, %
1
2
3
4
5
6
7
8
9
10
25.4
27.11
28.0
17.9
18.9
22.9
30.8
18.6
24.4
29.8
2.3
2.5
2.65
1.3
1.45
1.9
3.3
1.4
2.1
2.9
)(yE
y
UNIDAD V / REGRESIÓN Y CORRELACIÓN.
254
a) Ajuste un modelo lineal simple que relacione la cantidad y de compuestos oxidativas
determinados por la técnica TG con el porcentaje total de productos de oxidación x
determinados por el método estándar.
b) Grafique los puntos de datos y la línea de mínimos cuadrados en un diagrama de
dispersión.
d) Interprete los valores de 0a y 1a
c) Calcule SSE, S2 y s.
d) Interprete el valor de s.
ANEXOS
TABLAS
z0,0,0,0,0,
0,0,0,0,0,
1,1,1,1,1,
1,1,1,1,1,
2,2,2,2,2,
2,2,2,2,2,
3,3,3,3,3,
3,
APÉNDICTa
z 0,00 ,0 ,1 ,2 ,3 ,4
0,5000 0,5398 0,5793 0,6179 0,6554
,5 ,6 ,7 ,8 ,9
0,6915 0,7257 0,7580 0,7881 0,8159
,0 ,1 ,2 ,3 ,4
0,8413 0,8643 0,8849 0,9032 0,9192
,5 ,6 ,7 ,8 ,9
0,9332 0,9452 0,9554 0,9641 0,9713
,0 ,1 ,2 ,3 ,4
0,9772 0,9821 0,9861 0,9893 0,9918
,5 ,6 ,7 ,8 ,9
0,9938 0,9953 0,9965 0,9974 0,9981
,0 ,1 ,2 ,3 ,4
0,9987 0,9990 0,9993 0,9995 0,9997
,5 0,9998
CE A bla de la dis
0,01 00,5040 0,5438 0,5832 0,6217 0,6591
0,0,0,0,0,
0,6950 0,7291 0,7611 0,7910 0,8186
0,0,0,0,0,
0,8438 0,8665 0,8869 0,9049 0,9207
0,0,0,0,0,
0,9345 0,9463 0,9564 0,9649 0,9719
0,0,0,0,0,
0,9778 0,9826 0,9864 0,9896 0,9920
0,0,0,0,0,
0,9940 0,9955 0,9966 0,9975 0,9982
0,0,0,0,0,
0,9987 0,9991 0,9993 0,9995 0.9997
0,0,0,0,0,
0,9998 0,
stribución n
0,02 0,03,5080 ,5478 ,5871 ,6255 ,6628
0,5120,550,590,6290,666
,6985 ,7324 ,7642 ,7939 ,8212
0,700,7350,7670,7960,823
,8461 ,8686 ,8888 ,9066 ,9222
0,8480,8700,8900,9080,923
,9357 ,9474 ,9573 ,9656 ,9726
0,9370,9480,9580,9660,973
,9783 ,9830 ,9868 ,9898 ,9922
0,9780,9930,9870,9900,992
,9941 ,9956 ,9967 ,9976 ,9982
0,9940,9950,9960,9970,998
,9987 ,9991 ,9994 ,9995 ,9997
0,9980,9990,9990,9990,999
,9999 0,999
normal (área
3 0,04 2017109364
0,51600,55570,59480,63310,6700
1957736738
0,70540,73890,77030,79950,8264
8508078236
0,85080,87290,89250,90990,9251
7084826432
0,93820,94950,95910,96710,9738
8834710125
0,97930,98380,98750,99040,9927
4357687783
0,99450,99590,99690,99770,9984
8891949697
0,99880,99920,99940,99960,9997
99 0,9999
a bajo la cur
0,05 00,51990,55960,59870,63680,6736
00000
0,70880,74220,77340,80230,8289
00000
0,85310,87490,89440,91150,9265
00000
0,93940,95050,95990,96780,9744
00000
0,97980,98420,98780,99060,9929
00000
0,99460,99600,99700,99780,9984
00000
0,99890,99920,99940,99960,9997
00000
0,9999 0
ANEX
rva normal)
0,06 0,07,5239,5636,6026,6406,6772
0,5270,5670,6060,6440,680
,7123,7454,7764,8051,8315
0,7150,7480,7790,8070,834
,8554,8770,8962,9131,9278
0,8570,8790,8980,9140,929
,9406,9515,9608,9686,9750
0,940,9520,960,9690,975
,9803,9846,9881,9909,9931
0,9800,9850,9880,990,993
,9948,9961,9971,9979,9985
0,9940,9960,9970,9970,998
,9989,9992,9994,9996,9997
0,9980,9990,9990,9990,999
,9999 0,999
XOS / TAB
7 0,08 79 75 64 43 08
0,5319 0,5714 0,6103 0,6480 0,6844
57 86 94 78 40
0,7190 0,7517 0,7823 0,8106 0,8364
77 90 80 47 92
0,8599 0,8810 0,8997 0,9162 0,9306
18 25 16 93 56
0,9429 0,9535 0,9625 0,9699 0,9761
08 50 84 11 32
0,9812 0,9854 0,9887 0,9913 0,9934
49 62 72 79 85
0,9951 0,9963 0,9973 0,9980 0,9986
89 92 95 96 97
0,9990 0,9993 0,9995 0,9996 0,9997
99 0,9999
BLAS
256
0,09 0,53590,57530,61410,65170,6879
0,72240,75490,78520,81330,8389
0,86210,88300,90150,91770,9319
0,94410,95450,96330,97060,9767
0,98170,98570,98900,99160,9936
0,99520,99640,99740,99810,9986
0,99900,99930,99950,99970,9998
0,9999
ANEXOS / TABLAS
257
z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
-3.4 -3.3 -3.2 -3.1 -3.0
0.0003 0.0005 0.007
0.0010 0.0013
0.0003 0.0005 0.0007 0.0009 0.0013
0.0003 0.0005 0.0006 0.0009 0.0013
0.0003 0.0004 0.0006 0.0009 0.0012
0.0003 0.0004 0.0006 0.0008 0.0012
0.0003 0.0004 0.0006 0.0008 0.0011
0.00030.00040.00060.00080.0011
0.0003 0.0004 0.0005 0.0008 0.0011
0.0003 0.0004 0.0005 0.0007 0.0010
0.0002 0.0003 0.0005 0.0007 0.0010
-2.9 -2.8 -2.7 -2.6 -2.5
0.0019 0.0026 0.0035 0.0047 0.0062
0.0018 0.0025 0.0034 0.0045 0.0060
0.0017 0.0024 0.0033 0.0044 0.0059
0.0017 0.0023 0.0032 0.0043 0.0057
0.0016 0.0023 0.0031 0.0041 0.0055
0.0016 0.0022 0.0030 0.0040 0.0054
0.00150.00210.00290.00390.0052
0.0015 0.0021 0.0028 0.0038 0.0051
0.0014 0.0020 0.0027 0.0037 0.0049
0.0014 0.0019 0.0026 0.0036 0.0048
-2.4 -2.3 -2.2 -2.1 -2.0
0.0082 0.0107 0.0139 0.0179 0.0228
0.0080 0.0140 0.0136 0.0174 0.0222
0.0078 0.0102 0.0132 0.0170 0.0217
0.0075 0.0099 0.0129 0.0166 0.0212
0.0073 0.0096 0.0125 0.0162 0.0207
0.0071 0.0094 0.0122 0.0158 0.0202
0.00690.00910.01190.01540.0197
0.0068 0.0089 0.0116 0.0150 0.0192
0.0066 0.0087 0.0113 0.0146 0.0188
0.0064 0.0084 0.110
0.0143 0.0183
-1.9 -1.8 -1.7 -1.6 -1.5
0.0287 0.0359 0.0446 0.0548 0.0668
0.0281 0.0352 0.0436 0.0537 0.0655
0.0274 0.0344 0.0427 0.0526 0.0643
0.0268 0.0336 0.0418 0.0516 0.0630
0.0262 0.0329 0.0409 0.0505 0.0618
0.0256 0.0322 0.0401 0.0495 0.0606
0.02500.03140.03920.04850.0594
0.0244 0.0307 0.0384 0.0475 0.0582
0.0239 0.0301 0.0375 0.0465 0.0571
0.0233 0.0294 0.0367 0.0455 0.0559
-1.4 -1.3 -1.2 -1.1 -1.0
0.0808 0.0968 0.1151 0.1357 0.1587
0.0793 0.0951 0.1131 0.1335 0.1562
0.0778 0.0934 0.1112 0.1314 0.1539
0.0764 0.0918 0.1093 0.1292 0.1515
0.0749 0.0901 0.1075 0.1271 0.1492
0.0735 0.0885 0.1056 0.1251 0.1469
0.07220.08690.10380.12300.1446
0.0708 0.0853 0.1020 0.1210 0.1423
0.0694 0.0838 0.1003 0.1190 0.1401
0.0681 0.0823 0.0985 0.1170 0.1379
-0.9 -0.8 -0.7 -0.6 -0.5
0.1841 0.2119 0.2420 0.2743 0.3085
0.1814 0.2090 0.2389 0.2709 0.3050
0.1788 0.2061 0.2358 0.2676 0.3015
0.1762 0.2033 0.2327 0.2643 0.2981
0.1736 0.2005 0.2296 0.2611 0.2946
0.1711 0.1977 0.2266 0.2566 0.2578
0.16850.19490.22360.25460.2877
0.1660 0.1922 0.2206 0.2514 0.2843
0.1635 0.1894 0.2177 0.2483 0.2810
0.1611 0.1867 0.2148 0.2451 0.2776
-0.4 -0.3 -0.2 -0.1 -0.0
0.3446 0.3821 0.4207 0.4602 0.5000
0.3409 0.3783 0.4168 0.4562 04960
0.3372 0.3745 0.4129 0.4522 0.4920
0.3336 0.3707 0.4090 0.4483 0.4880
0.3300 0.3669 0.4052 0.4443 0.4840
0.3264 0.3632 0.4013 0.4404 0.4801
0.32280.35940.39740.43640.4761
0.3192 0.3557 0.3936 0.4325 0.4721
0.3156 0.3520 0.3897 0.4286 0.4681
0.3121 0.3483 0.3859 0.4247 0.4641
ANEXOS / TABLAS
258
APÉNDICE B
Valores críticos de la distribución t
V
α 0.40 0.30 0.20 0.15 0.10 0.05 0.025
1 2 3 4 5
0.325 0.289 0.277 0.271 0.267
0.727 0.617 0.584 0.569 0.559
1.376 1.061 0.978 0.941 0.920
1.963 1.386 1.250 1.190 1.156
3.078 1.886 1.638 1.533 1.476
6.314 2.920 2.353 2.132 2.015
12.706 4.303 3.182 2.776 2.571
6 7 8 9 10
0.265 0.263 0.262 0.261 0.260
0.553 0.549 0.546 0.543 0.542
0.906 0.896 0.889 0.883 0.879
1.134 1.119 1.108 1.100 1.093
1.440 1.415 1.397 1.383 1.372
1.943 1.895 1.860 1.833 1.812
2.447 2.365 2.306 2.262 2.228
11 12 13 14 15
0.260 0.259 0.259 0.258 0.258
0.540 0.539 0.537 0.537 0.536
0.876 0.873 0.870 0.868 0.866
1.088 1.083 1.079 1.076 1.074
1.363 1.356 1.350 1.345 1.341
1.796 1.782 1.771 1.761 1.753
2.201 2.179 2.160 2.145 2.131
16 17 18 19 20
0.258 0.257 0.257 0.257 0.257
0.535 0.534 0.534 0.533 0.533
0.865 0.863 0.862 0.861 0.860
1.071 1.069 1.067 1.066 1.064
1.337 1.333 1.330 1.328 1.325
1.746 1.740 1.734 1.729 1.725
2.120 2.110 2.101 2.093 2.086
21 22 23 24 25
0.257 0.256 0.256 0.256 0.256
0.532 0.532 0.532 0.531 0.531
0.859 0.858 0.858 0.857 0.856
1.063 1.061 1.060 1.059 1.058
1.323 1.321 1.319 1.318 1.316
1.721 1.717 1.714 1.711 1.708
2.080 2.074 2.069 2.064 2.060
26 27 28 29 30
0.256 0.256 0.256 0.256 0.256
0.531 0.531 0.530 0.530 0.530
0.856 0.855 0.855 0.854 0.854
1.058 1.057 1.056 1.055 1.055
1.315 1.314 1.313 1.311 1.310
1.706 1.703 1.701 1.699 1.697
2.056 2.052 2.048 2.045 2.042
40 60 120 ∞
0.255 0.254 0.254 0.253
0.529 0.527 0.526 0.524
0.851 0.848 0.845 0.842
1.050 1.045 1.041 1.036
1.303 1.296 1.289 1.282
1.684 1.671 1.658 1.645
2.021 2.000 1.980 1.960
ANEXOS / TABLAS
259
Continuación de valores críticos de la distribución t
V
α 0.02 0.015 0.01 0.0075 0.005 0.0025 0.0005
1 2 3 4 5
15.895 4.849 3.482 2.999 2.757
21.205 5.643 3.896 3.298 3.003
31.821 6.965 4.541 3.747 3.365
42.434 8.073 5.047 4.088 3.634
63.657 9.925 5.841 4.604 4.032
127.322 14.089 7.453 5.598 4.773
636.590 31.598 12.924 8.610 6.869
6 7 8 9 10
2.612 2.517 2.449 2.398 2.359
2.829 2.715 2.634 2.574 2.527
3.143 2.998 2.896 2.821 2.764
3.372 3.203 3.085 2.998 2.932
3.707 3.499 3.355 3.250 3.169
4.317 4.029 3.833 3.690 3.581
5.959 5.408 5.041 4.781 4.587
11 12 13 14 15
2.328 2.303 2.282 2.264 2.249
2.491 2.461 2.436 2.415 2.397
2.718 2.681 2.650 2.624 2.602
2.879 2.836 2.801 2.771 2.746
3.106 3.055 3.012 2.977 2.947
3.497 3.428 3.372 3.326 3.286
4.437 4.318 4.221 4.140 4.073
16 17 18 19 20
2.235 2.224 2.214 2.205 2.197
2.382 2.368 2.356 2.346 2.336
2.583 2.567 2.552 2.539 2.528
2.724 2.706 2.689 2.674 2.661
2.921 2.898 2.878 2.861 2.845
3.252 3.222 3.197 3.174 3.153
4.015 3.965 3.922 3.883 3.849
21 22 23 24 25
2.189 2.183 2.177 2.172 2.167
2.328 2.320 2.313 2.307 2.301
2.518 2.508 2.500 2.492 2.485
2.649 2.639 2.629 2.620 2.612
2.831 2.819 2.807 2.797 2.787
3.135 3.119 3.104 3.091 3.078
3.819 3.792 3.768 3.745 3.725
26 27 28 29 30
2.162 2.158 2.154 2.150 2.147
2.296 2.291 2.286 2.282 2.278
2.479 2.473 2.467 2.462 2.457
2.605 2.598 2.592 2.586 2.581
2.779 2.771 2.763 2.756 2.750
3.067 3.057 3.047 3.038 3.030
3.707 3.690 3.674 3.659 3.646
40 60
120 ∞
2.125 2.099 2.076 2.054
2.250 2.223 2.196 2.170
2.423 2.390 2.358 2.326
2.542 2.504 2.468 2.432
2.704 2.660 2.617 2.576
2.971 2.915 2.860 2.807
3.551 3.460 3.373 3.291
ANEXOS / TABLAS
260
APÉNDICE C
Tabla de valores críticos de la distribución ji cuadrada
ANEXOS / TABLAS
261
262
BIBLIOGRAFIA.
Chapra, S. y Canales R.; Métodos numéricos para ingenieros. Mc Graw Hill
Irwin R. Miller, John E. Freud, Richard Jhonston; Probabilidad y Estadistica para ingenieros; Ed.
Prentice Hall;
Mendenhall, Sincich; Probabilidad y estadística para ingeniería y ciencias ; Ed. Prentice Hall.
Meyer.: Probabilidad y aplicaciones Estadísticas. Ed. Addison-Wesley.
Murray Spiegel.; Probabilidad y estadística .;Ed. McGraw Hill.
Nieves – Dominguez; Numéricos para ingenieros; Mc Graw Hill
Paul L. Meyer; Probabilidad y aplicaciones Estadisticas. Ed. Fondo Educativo Interamericana.
Richard I. Levin, David S. Rubin; Estadistica para administradores; Prentice Hall.
Walpole , Myers.; Probabilidad y estadística para ingenieros Prentice Hall