antologia de probabilidad y estadistica

INSTITUTO TECNOLÓGICO SUPERIOR

de Acayucan

Asignatura: Probabilidad y estadística

Clave de la asignatura: SCC - 0424

Carrera: Ingeniería en Sistemas Computacionales

A N T O L O G I A

Presenta:

ING. ULISES GIRON JIMENEZ

ACAYUCAN, VER. JUNIO 2008

Probabilidad y Estadística

Ing. Ulises Girón Jiménez

III

INDICE

UNIDAD 1

OBJETIVO GENERAL...............................................................................

JUSTIFICACION........................................................................................

ESTADISTICA DESCRIPTIVA…………………….....……………………....

1.1 Conceptos básicos de estadística…………………....……...................

1.1.1 Definición de estadística.............................................................

1.1.2 Inferencia estadística..................................................................

1.1.3 Teoría de decisión......................................................................

1.1.4 Población....................................................................................

1.1.5 Muestra aleatoria........................................................................

1.1.6 Parámetros aleatorios.................................................................

1.1.7 Enfoque clásico...........................................................................

1.1.8 Enfoque Bayesiano.....................................................................

1.2 Descripción de datos………….....………………………………………

1.2.1 Datos agrupados y no agrupados...............................................

1.2.2 Frecuencia de clase....................................................................

1.2.3 Frecuencia relativa......................................................................

1.2.4 Punto medio................................................................................

10

11

12

13

13

16

16

16

20

20

20

21

22

22

22

22

23

IV

1.2.5 Límites........................................................................................

1.2.6 Histograma..................................................................................

1.2.7 Histograma de frecuencia relativa..............................................

1.3 Medidas de tendencia central……………………………………………

1.3.1 Media aritmética, geométrica y ponderada.................................

1.3.2 Mediana......................................................................................

1.3.3 Moda...........................................................................................

1.4 Medidas de dispersión…………………………………………………….

1.4.1 Varianza......................................................................................

1.4.2 Desviación estándar...................................................................

1.4.3 Desviación media........................................................................

1.4.4 Desviación mediana....................................................................

1.4.5 Rango.........................................................................................

1.5 Parámetros para datos agrupados………………………………………

1.5.1 La media.....................................................................................

1.5.2 La desviación típica....................................................................

1.6 Distribución de frecuencias………………………………...…………….

1.6.1 Distribuciones numéricas............................................................

1.6.2 Distribuciones categóricas..........................................................

1.6.3 Distribuciones acumuladas.........................................................

1.6.4 Distribuciones porcentuales........................................................

1.6.5 Distribuciones porcentuales acumuladas...................................

23

23

24

25

25

29

31

35

35

36

38

38

38

39

39

39

41

42

43

44

44

45

V

UNIDAD 2

1.7 Técnicas de agrupación de datos………………………...……………

1.7.1 Límites de clase..........................................................................

1.7.2 Rango de clase...........................................................................

1.7.3 Fronteras de clase......................................................................

1.7.4 Marca de clase............................................................................

1.7.5 Intervalo de clase………............................................................

1.7.6 Diagrama de tallos y hojas ………………………………………...

1.7.7. Diagrama de Pareto..................................................................

1.7.8 Diagrama de puntos...................................................................

1.8 Histograma……………......……………………………………………….

1.8.1 Diagrama de barras....................................................................

1.8.2 Polígono de frecuencias.............................................................

1.8.3 Ojivas.........................................................................................

1.8.4 Gráficas circulares......................................................................

1.9 Distribuciones muéstrales………………………...………………………

PROBABILIDAD……….………………………………………………………

2.1 Teoría elemental de probabilidad………………………...……....……

2.1.1 Concepto clásico y como frecuencia relativa..............................

2.1.2 Interpretación subjetiva de la probabilidad.................................

2.2 Probabilidad de eventos……………………………......………………

2.2.1 Definición de espacio muestral...................................................

46

46

46

46

47

47

50

52

59

59

59

59

60

61

62

65

66

66

69

69

69

VI

UNIDAD 3

2.2.2 Discreto y continuo.....................................................................

2.2.3 Definición de evento...................................................................

2.2.4 Simbología, uniones e intersecciones........................................

2.2.5 Diagramas de Venn....................................................................

2.3 Técnicas de conteo………………….……………………………………

2.3.1 Diagrama de árbol......................................................................

2.3.2 Notación factorial........................................................................

2.3.3 Permutación................................................................................

2.3.4 Combinaciones...........................................................................

2.4 Probabilidad con técnicas de conteo……………………………………

2.4.1 Axiomas......................................................................................

2.4.2 Teoremas....................................................................................

2.5 Probabilidad condicional………...………………………………………

2.5.1 Dependiente................................................................................

2.5.2 Independiente.............................................................................

2.6 Eventos Independientes……...…………………………………………

2.6.1 Regla de Bayes...........................................................................

FUNCIONES Y DISTRIBUCIONES MUESTRALES………………......….

3.1 Función de probabilidad………..…………………………………………

3.1.1 Variables aleatorias discretas.....................................................

71

71

71

71

72

76

80

81

91

100

100

100

101

101

110

113

113

121

121

121

VII

UNIDAD 4

3.1.2 Variables aleatorias continúas....................................................

3.2 Distribución Binomial…………………….…………....………………….

3.2.1 Conceptos de ensayos de Bernoulli...........................................

3.3 Distribución Hipergeométrica……………………………………………

3.4 Distribución de Poisson…………………………..………………………

3.5 Esperanza matemática…………………….……………………………

3.6 Distribución normal…………………………….…………………………

3.6.1 Distribución de la probabilidad continúa.....................................

3.7 Aproximación de la Binomial a la normal……………………………

3.8 Otras distribuciones muéstrales…………………….……………………

3.8.1 Distribución T- Student...............................................................

3.8.2 Distribución X cuadrada..............................................................

ESTADÍSTICA APLICADA………………...…………………………………

4.1 Inferencia estadística………………….....………………………………

4.1.1 Concepto.....................................................................................

4.1.2 Estimación..................................................................................

4.1.3 Prueba de hipótesis....................................................................

4.1.4 Método clásico de estimación (puntual)......................................

4.1.5 Estimador Insesgado..................................................................

4.2 Intervalos de confianza……………………………………………………

122

123

123

129

132

139

146

146

156

161

161

162

170

171

171

171

171

172

172

172

VIII

UNIDAD 5

4.2.1 Estimación por intervalo..............................................................

4.2.2 Límites de confianza...................................................................

4.2.3 Intervalo de confianza para una media.......................................

4.2.4 Intervalo de confianza para una diferencia de medida...............

4.2.5 Intervalo de confianza para proporciones...................................

4.2.6. Intervalo de confianza para diferencia de proporciones……….

4.3 Pruebas de hipótesis………………………….....………………………

4.3.1 Prueba de hipótesis para la media poblacional..........................

4.3.2 Prueba de hipótesis para diferencias de medias........................

4.3.3 Prueba de hipótesis para proporciones......................................

4.3.4 Prueba de hipótesis para diferencia de proporciones.................

REGRESIÓN Y CORRELACIÓN…………………………………………...

5.1 Introducción………………………………………………………………

5.1.1 Gráficas de los datos..................................................................

5.1.2 Variables de regresión independientes.......................................

5.1.3 Regresión lineal simple...............................................................

5.2 Diagrama de dispersión…………………………………………………

5.2.1 Tabla de datos.............................................................................

5.2.2. Construcción de Diagramas.......................................................

5.3. Estimación mediante la línea de regresión……………………………

5.3.1. Ecuación de la recta como ajuste de datos...............................

172

173

174

183

186

189

196

203

214

220

223

216

217

217

218

219

221

221

222

222

222

IX

5.3.2. Modelos.....................................................................................

5.4. Métodos de mínimos cuadrados…………………………………………

5.4.1 Estimación de los coeficientes de regresión..............................

5.5. Error estándar de estimación……………………………………………

5.6. Coeficiente de determinación y correlación…………………………….

5.6.1. Coeficiente de determinación de la muestra.............................

5.6.2. Coeficiente de correlación de la muestra..................................

5.7. Problemas prácticos de ajustes de curvas……………………………

Anexos…………………………………………………………………………..

..

Bibliografía………….…………………………………………………………

…

223

223

224

230

233

233

238

245

255

262

10

OBJETIVO GENERAL

El estudiante seleccionará modelos probabilísticas, aplicará cálculos de inferencia

estadística sobre datos y desarrollará modelos para la toma de decisiones en sistemas con

componentes aleatorios.

11

JUSTIFICACION

Uno de los objetivos del Instituto Tecnológico Superior de Acayucan, es el de promover,

apoyar e impulsar el trabajo creativo del docente, principalmente en la elaboración de

antología que apoya al proceso enseñanza – aprendizaje, el cual debe ser estimulado con

los comentarios y sugerencias del profesorado y conviene que sea imitado por otros

maestros, quienes con capacidad de trabajo y tiempo disponible, pueden y deben gestar

literatura de este género, dando los pasos adecuados para pulirla y poder formar así textos

que faciliten la enseñanza y el aprendizaje del curso.

El presente material de consulta y apoyo didáctico se pone en manos de nuestros maestros

y, particularmente, de los alumnos que se forman en nuestro instituto. Considero los

contenidos de esta antología como el propósito más firme de mi convencimiento para facilitar

el estudio de la probabilidad y estadística en las nuevas generaciones que me honran al

confiarme su preparación y garantizar modestamente el fijarles una enseñanza para toda la

vida.

UNIDAD 1

ESTADISTICA DESCRIPTIVA

Objetivo: El estudiante conocerá fundamentos y técnicas básicas de estadística, para organizar, representar y analizar datos obtenidos de una situación simulada o real.

UNIDAD I / ESTADISTICA DESCRIPTIVA.

13

1.1 Conceptos básicos de estadística. 1.1.1 Definición de estadística. La palabra estadística procede del vocablo "estado" pues era función principal de los

gobiernos de los estados establecer registros de población, nacimientos, defunciones, etc.

Hoy en día la mayoría de las personas entienden por estadística al conjunto de datos, tablas,

gráficos, que se suelen publicar en los periódicos.

Definición:

Estadística, rama de las matemáticas que se ocupa de reunir, organizar y analizar datos

numéricos y que ayuda a resolver problemas como el diseño de experimentos y la toma de

decisiones.

Estadística es un conjunto de métodos científicos para la recopilación, representación

condensación y análisis de los datos extraídos de un sistema en estudio. Con el objeto de

poder hacer estimaciones y sacar conclusiones, necesarias para tomar decisiones.

El análisis se hace con las herramientas estadísticas, empleando la información obtenida de

los datos, para realizar estimaciones o inferencias, testear hipótesis de trabajo y así, poder

tomar las decisiones más adecuadas en cada caso particular, basadas en la evidencia

científica suministrada por estos análisis.

El trabajo del experto estadístico no consiste ya sólo en reunir y tabular los datos, sino sobre

todo en el proceso de interpretación de esa información. El desarrollo de la teoría de la

probabilidad ha aumentado el alcance de las aplicaciones de la estadística. La probabilidad

es útil para comprobar la fiabilidad de las inferencias estadísticas y para predecir el tipo y la

cantidad de datos necesarios en un determinado estudio estadístico. Cuando a través de

una muestra pretendemos obtener información de una población entera los datos obtenidos

puede ser diferente a los reales. Son valores aproximados del parámetro desconocido. A

estos valores se les llama Estimaciones.

Al dar una estimación estoy cometiendo un error llamado error de muestreo debido a que no

se esta considerando a toda la población, sino a una parte de ella. Existen procedimientos

que pueden determinar de antemano el error que puedo cometer.


14

Aparte de estos, existen otros errores que se presentan tanto en encuestas por muestreo

como en las encuestas por censo. Este tipo de errores son mayores y de difícil corrección.

Son errores ajenos al muestreo.

¿Qué es un experimento comparativo? Es una investigación cuya finalidad es comparar los efectos de dos o más estímulos

(tratamientos A y B) aplicados a ciertos entes (unidades de experimentación , , ,).

Para ello se efectúan mediciones sobre los efectos de ambos tratamientos obteniéndose los

resultados ( , , ).

¿Qué es una encuesta por muestreo? Es una investigación que tiene por objetivo la descripción de ciertas características

( , , , … , de una población, mediante el examen de una parte de ella (muestra , ).

La medición de una característica en los elementos de la muestra produce resultados

1 4( y )Y Y . Si el muestreo es probabilístico, todos los elementos de la población tiene una

probabilidad no nula de formar parte de la muestra.


15

¿Qué es un estudio observacional? Es una investigación comparativa sin la asignación aleatoria que se hace en los

experimentos (o investigación de muestreo no probabilístico), cuya finalidad es también

comparar los efectos que dos o mas condiciones ( A y B) tienen sobre los entes observados

, , ,). Esto se lleva a cabo con extremado cuidado y control.

División de la estadística Se divide en dos partes:

Re( ) Re

( )

copilarDescriptiva Deductiva presentar

CondensarDivisión Estadistica

CaracteristicasInferencial Inferencia

muestras

⎧ ⎧ ⎧⎪ ⎪⎪

⎨⎪ ⎪⎪⎪ ⎪ ⎩⎪ ⎪⎪

⎨ ⎨⎪ ⎪⎪ ⎪⎪ ⎪ ⎧⎪ ⎪ ⎨

⎩⎪ ⎩⎩

a) Estadística descriptiva o deductiva: Es la parte de la estadística que se ocupa de

recopilar, representar y condensar los datos obtenidos del sistema en estudio,

utilizando representaciones gráficas de los datos tabulados.

b) Estadística inferencial o inferencia estadística: Utiliza datos de muestra para hacer

inferencias (característica) acerca de un conjunto de datos grandes – una población

– de cual se selecciono la muestra.


16

1.1.2 Inferencia estadística. Es la parte de la Estadística dedicada a la formulación de supuestos y estimaciones, para

hacer predicciones y poder sacar conclusiones de los datos obtenidos con el estudio de las

muestras. Y así, poder tomar decisiones con base científica. La Estadística se emplea en el

estudio de los fenómenos naturales, tanto los generados en los laboratorios por los

científicos como aquellos más allá del control humano.

Es una herramienta de uso tan amplio y general que hoy día es difícil imaginar un lugar

donde no pueda emplearse. Más aún, en algunas disciplinas es la herramienta básica de

medición, como por ejemplo en parapsicología para la determinación de PES (percepciones

extra-sensoriales).

1.1.3 Teoría de decisión. Es una herramienta básica para la toma de decisiones, basadas en evidencia científica. La

manera de hacerlo es plantear las hipótesis posibles y luego efectuarle una prueba o test

estadístico.

Llamada en algunas obras: la docimasia estadística. Cuando una conclusión se valida con

un test estadístico se la llama de tipo cuantitativo, en caso contrario la decisión adoptada es

de tipo cualitativo, o sea, una decisión tomada en forma subjetiva. El método consiste en

definir una probabilidad de aceptación del orden del 95% (o rechazo) de una hipótesis de

trabajo planteada, que permite calcular los valores críticos (o límites de aceptación) de un

estadígrafo calculado a partir de los valores medidos. La importancia de este tema es muy

grande. Basta decir que el objeto final de la Estadística es la toma de decisiones.

1.1.4 Población. La población, es el conjunto de todas las muestras posibles, que pueden obtenerse del

sistema en estudio de acuerdo al método de selección empleado.

La población, entonces, es el total hipotético de los datos que se estudian o recopilan. El

tamaño de la población se saca contando el número de elementos componentes. A veces es

un conteo simple, pero otras veces se trata de conteos ordenados.

A continuación muestra las formas de observar una población.


17

Etapas de la recopilación de datos Etapa 1 - Objetivos de la Recopilación: esta primera etapa consiste en determinar con

claridad qué es lo que se quiere lograr con la recopilación. No siempre es fácil saber lo que se

quiere y menos determinarlo en detalle. Por eso, se deben definir primero los objetivos

generales del trabajo estadístico. Y a partir de ellos se conocerán las variables a medir y así

saber cuáles elementos se necesitarán. Con esto se tiene una primera idea de los alcances y

limitaciones de la tarea a realizar, según sea el tipo de información a obtener de la población en

estudio. Los objetivos deben redactarse concisos, breves y claros. Normalmente, la persona a

cargo de la investigación es la responsable de esta etapa pues tiene una visión más completa y

actualizada del tema en estudio. Por ejemplo, si se necesita la distribución de la población por

edades y sexo, no es lo mismo disponer de la información del último censo realizado que

hacerlo uno mismo.


18

Etapa 2 - Relevamientos: esta etapa consiste en determinar lo que se tiene para alcanzar los

objetivos definidos en la etapa anterior. Se trata de listar los bienes necesarios para poder hacer

el trabajo, y el listado de los disponibles. Conviene tener en cuenta la siguiente clasificación de

los bienes: Tangibles e Intangibles.

Por su parte, los bienes tangibles son dos:

• Los materiales incluyen los de vidrio, de limpieza, drogas, reactivos, etc.

• Por equipamiento se entiende no sólo los aparatos de medición, sino los accesorios

como muebles y útiles de laboratorio y para oficina.

• El dinero o los recursos monetarios deben ser determinados con mucho detalle para

afrontar gastos e inversiones durante la investigación. Además, hay que determinar los

fondos disponibles y las posibles fuentes financieras adonde poder recurrir.

• La infraestructura incluye a los edificios, laboratorios, electricidad, agua, etc.

• El personal es todo el necesario en sus diferentes niveles, como ser: profesionales,

técnicos, ayudantes, consultores externos, de servicio, etc. Este relevamiento de los

bienes tangibles disponibles y de los necesarios para la recopilación condiciona de

alguna manera los objetivos. Puede ser que se disponga de bienes sobrados para

alcanzar los objetivos, por lo que se pueden plantear metas más ambiciosas. Por otra

parte, puede ocurrir que los bienes disponibles estén lejos de cubrir los necesarios, y

por lo tanto se deberán resignar los objetivos planteados por otros más modestos.

Por su parte, los bienes intangibles son dos:

• la organización de los bienes tangibles, de manera tal de alcanzar los objetivos, y

• los conocimientos para saber cómo usarlos. Esto es el “know how” de cada profesión. Y

también lo es la búsqueda bibliográfica de trabajos similares en revistas especializadas,

textos y otras fuentes de información. Una vez terminada esta etapa, que seguramente

habrá ayudado a depurar la anterior, se debe comenzar a pensar en las diferentes

maneras de hacerlo.

Etapa 3 - Creación de alternativas: esta etapa consiste en saber cómo hacerlo. O sea,

generar distintas alternativas de sistemas de recopilación de datos, de acuerdo con los objetivos

adoptados y los bienes disponibles. Se debe hacer un listado con todas las formas posibles de


19

efectuar la recopilación a fin de tener un panorama completo. En síntesis, se habla de fuente

propia cuando se decide extraer los datos mediante mediciones. Fuente Primaria es cuando

se toman los datos de otros investigadores que publican los resultados de sus propias

mediciones. Fuente Secundaria es cuando los datos se extraen de publicaciones que usan

como referencia a fuentes primarias.

Etapa 4 - Selección de alternativas: consiste en determinar cuál es la mejor entre las n

alternativas planteadas en la etapa anterior. Se necesita de un método para la adopción de un

criterio de selección. Etapa 5 - Prueba piloto: existe una diferencia entre el diseño en los papeles y la realidad. Es

por eso que siempre es aconsejable hacer una prueba piloto antes de la puesta en marcha para

poder juzgar cómo trabaja el sistema de recopilación de datos. Se sacan unos pocos datos y se

analizan las dificultades no previstas, junto con los resultados. Comparando los valores

obtenidos con los que se esperaba tener, se hace una especie de control previo del sistema.

Etapa 6 - Ajustes: Lo normal es tener que hacer pequeños ajustes que permitan optimizar al

sistema. De las diferencias detectadas en el control de la etapa anterior se sacan indicios. Estos

muestran qué tópicos retocar y surgen nuevas ideas de cómo hacer mejor las cosas.

Básicamente, usando el sentido común se corrigen los principales defectos, como ser: mejorar

el entrenamiento y conocimientos del personal, rediseñar formularios, calibrar equipos de

medición, estimación de la magnitud del error de medición, etc. Pero también hay técnicas de

optimización especiales como son los distintos modelos de la Investigación Operativa. Esta es

una disciplina muy emparentada con estadística y sus modelos más conocidos son: Teoría de

Líneas de Espera, Programación por Camino Crítico (PERT), Programación Dinámica y Lineal,

Reemplazos, Simulaciones, etc. Una vez hechos los ajustes, se vuelve a la etapa anterior y se

efectúa una nueva prueba piloto. Este ensayo permite decidir si se continúa adelante, o si son

necesarios más ajustes. Hay que continuar hasta que todo sea satisfactorio y recién entonces

pasar a la etapa siguiente.

Etapa 7 - Puesta en marcha: una vez optimizado y ajustado el método de obtención de datos

solo resta ponerlo en marcha. De esa manera, se logra la cantidad de datos necesarios para

alcanzar los objetivos previstos. El resultado final es la obtención de un volumen grande de

información que debe ser presentada en forma más resumida y comprensible usando tablas,

gráficos y otras formas, como se verá más adelante.


20

1.1.5 Muestra aleatoria. La muestra es un conjunto de datos obtenidos de una población cualquiera, con el método de

recopilación elegido. Se la puede imaginar como un subconjunto del conjunto población. Se

toman muestras, cuando no se puede o no conviene, tomar la población entera. Si se tiene una

población de tamaño infinito, no se podrá nunca tomar todas las muestras posibles, como por

ejemplo, las mediciones repetidas de una misma magnitud, que se pueden repetir

indefinidamente mientras el ensayo no sea destructivo (repetidas pesadas en una balanza,

medir la temperatura de un cuerpo, etc.). Hay ocasiones, donde si bien la población es finita, es

tan grande que no resulta práctico tomar todos los casos como por ejemplo, cuando la

población es la especie humana.

Lógicamente, la confiabilidad de las conclusiones extraídas concernientes a una población

dependen de si la muestra se ha escogido apropiadamente de tal modo que represente la

población suficiente. Una forma de hacer esto para poblaciones finitas es asegurarse de que

cada miembro de la población tenga igual oportunidad de encontrarse en la muestra, lo que se

conoce como muestra aleatoria.

1.1.6 Parámetros aleatorios. Parámetro, es toda magnitud que tiene el mismo valor dentro de una población. O sea, no

permite diferenciar entre sí a sus elementos componentes. Existen medidas para realizar

descripciones cuantitativas de los conjuntos de datos, o poblaciones, y de sus muestras,

diferenciándose entre ellas las que se refieren a las mismas poblaciones y a las muestras. Para

el caso de las poblaciones, las medidas que las describen se denominan parámetros, y suelen

estar representadas con letras griegas (por ejemplo y ). Por otro lado, para el caso de

aquellas medidas que describen a una muestra se les llama estadísticos o estimadores, y son

representados por letras de nuestro alfabeto (por ejemplo, x o s). Tales medidas cuantitativas

que describen a las poblaciones y a las muestras se comentarán enseguida. Se considera que

se conoce una población cuando conocemos la distribución de probabilidad f(x) de la variable

aleatoria asociada X.

1.1.7 Enfoque clásico. La utilización de esta metodología implica una cierta filosofía o visión de la Probabilidad y la

Estadística muy particular y poco frecuente. Lo particular de este enfoque es que es

razonablemente más sencillo que el enfoque clásico de la estimación y el ensayo de hipótesis, a


21

los que reemplaza y mejora por cuanto no implica aproximaciones ni requiere de la introducción

de nuevos conceptos.

1.1.8 Enfoque Bayesiano. En el enfoque Bayesiano de la Estadística, la incertidumbre presente en un modelo dado,

p(xθ), es representada a través de una distribución de probabilidad p (θ ) sobre los posibles

valores del parámetro desconocido θ (típicamente multidimensional) que define al modelo. El

Teorema de Bayes,

)()()(

)(xp

xppxp

θθθ =

Permite entonces incorporar la información contenida en un conjunto de datos ),...,( 1 nxxx = ,

produciendo una descripción conjunta de la incertidumbre sobre los valores de los parámetros

del modelo a través de la distribución final p (xθ ).

Desafortunadamente, la implementación de las técnicas Bayesianas usualmente requiere de un

esfuerzo computacional muy alto. La mayor parte de este esfuerzo se concentra en el cálculo

de ciertas características de la distribución final del parámetro de interés (que llamaremos

resúmenes inferenciales). Así, por ejemplo, para pasar de una distribución conjunta a una

colección de distribuciones y momentos marginales que sean útiles para hacer inferencias

sobre subconjuntos de parámetros, se requiere integrar. En la mayoría de los casos los

resúmenes inferenciales básicos se reducen a integrales de la forma:

( ) ( ) ( ) ( )∫= θθθθθ dzppggS

El análisis Bayesiano, en otra diferencia con la estadística clásica, permite incorporar en un

estudio información de distintas fuentes, incluso subjetivas.

De esta manera concibe, en un plano muy general, las técnicas estadísticas como mecanismos

para la actualización del conocimiento particular o general, individual o colectivo sobre el estado

que guarda la naturaleza."


22

1.2 Descripción de datos. 1.2.1 Datos agrupados y no agrupados. La principal diferencia entre ambas es que en datos agrupados se ordenan los datos de la

tabla y se almacenan en el orden del índice. Los datos agrupados mejoran el rendimiento al

almacenar los datos de la tabla junto con datos de nivel de hoja del índice. Una ordenación es

un conjunto de datos numéricos en orden creciente o decreciente. Este método de presentación

de la información consiste en presentar los datos por medio de una tabla o cuadro.

Los datos no agrupado no apunta directamente a la fila de la tabla, sino que utiliza los valores

del índice agrupado como punteros a las filas de la tabla.

Una fila de datos consiste en datos recogidos que no han sido organizados numéricamente.

1.2.2 Frecuencia de clase. La frecuencia de clase o frecuencia de categoría, es el número de observaciones que caen

dentro de una categoría

Altura ( in) Número de

estudiantes f

60 – 62

63 – 65

66 – 68

69 – 71

72 – 74

7

20

44

29

10

Total 110

1.2.3 Frecuencia relativa. La frecuencia relativa (proporción); de una clase es su frecuencia dividida por la frecuencia total

de todas las clases.

totalestudiante de numerorelativa frecuencia =


23


estudiantes (f)

Frecuencia

relativa

60 – 62 7 0.0636

63 – 65 20 0.1818

66 – 68 44 0.4

69 – 71 29 0.2636

72 – 74 10 0.0909

total 110 1.0000

1.2.4 Punto medio. El punto medio del intervalo de clase, que puede tomarse como representativo de la clase, se

llama marca de clase, que se refiere al punto medio del intervalo de clase y se obtiene

promediando los limites inferior y superior de clase. Así que las marcas de clase del intervalo

60 – 62 es:

60 62 612+

=

1.2.5 Límites. Tomando encuenta la clase 60 - 62 se dice que se llaman límites de clases, el 60 se llama

límite inferior de clase y el 62 se llama límite superior de clase.

1.2.6 Histograma. Es una representación grafica para la distribución de frecuencia. Un histograma o histograma de

frecuencias, consiste en un conjunto de rectángulos con:

a) base en el eje x horizontal, centros en las marcas de clases y longitudes iguales a los

tamaños de los intervalos de clase y

b) áreas proporcionales a las frecuencias de clase.


24


estudiantes (f)

Marca de

clases (X)

60 – 62 7 61

63 – 65 20 64

66 – 68 44 67

69 – 71 29 70

72 – 74 10 73

total 110

1.2.7 Histograma de frecuencia relativa. Altura ( in) Numero de

estudiantes (f)

Frecuencia

relativa

60 – 62 7 0.0636

63 – 65 20 0.1818

66 – 68 44 0.4

69 – 71 29 0.2636

72 – 74 10 0.0909

total 110 1.0000

01020304050

58 61 64 67 70 73 76

frecuencia

00.050.1

0.150.2

0.250.3

0.350.4

0.45

1 2 3 4 5

Frec

. Rel

.

Histograma de frecuencia relativa

ProblemasProblema:

extinción m

terrenos ag

numero tot

Á

T

a) Re

1.3. Me 1.3.1 MedMedia aritmSean, x1 ,x

al valor dad

o bien

s propuestoEl rascón t

mundial. En

grícolas de G

al de rascon

Área

1. Tierr

2. Tierr

3. Orkn

4. Lewi

5. N. U

6. S. U

7. Hebr

8. Coll

9. Irlan

10. Repu

Total

esuma los da

edidas de

dia aritmémética x2 ,....,xn , n o

do por:

os: errestre o g

fechas reci

Gran Bretañ

nes terrestres

ra bajas de E

ras altas de e

ney y Shetlan

is y Harris

ist y Benbec

ist y Barra

ridas interior

y Tirce

da del norte

ublica de Irla

atos con un h

tendencia

ética, geom

observacione

UN

guión de las

entes se lle

ña e Irlanda

s que habitan

Escocia

escocia

nd

cula

res

anda

histograma

a central.

métrica y p

es muéstrale

NIDAD I /

codornices

evó a cabo

(Journal of

n en cada de

ponderad

es, definirem

ESTADIST

es una ave

un censo d

applied ecol

e 10 áreas ge

Numero

ter

1

a.

os promedio

TICA DESC

e europea e

e rascones

logy) . La ta

eográficas.

de rascones

restres

12

15

34

76

82

155

76

121

128

789

1488

o de estas ob

CRIPTIVA

25

en peligro de

cantores en

abla indica e

s

bservaciones

A.

5

e

n

el

s


26

Nx

N

x

Nxxxx

x

N

jj

n ∑∑==

++++= =1321 ...

Ejemplo: La media aritmética de los números 8, 3. 5, 12 y 10

6.7538

51012538

==++++

=x

En esta expresión, puede verse que el promedio de un conjunto de números se calcula

sumándolos y luego dividiendo la suma por el número de sumandos. La estadística promedio

representa muy bien el 'centro' de la distribución de los datos cuando se trata de casos

'normales'. Entendemos aquí por casos 'normales' aquellos conjuntos de datos que no

contienen valores muy extremos, valores muy alejados de los demás. Debido a que en muchas

situaciones experimentales, el comportamiento de los datos es relativamente 'normal', el

promedio es muy usado, convirtiéndose en la primera estadística calculada para representar el

'centro' de la población en estudio.

si los números X1 , X2 , ... , Xk , ocurren f1 , f2 , ... , fk , veces respectivamente, su media

aritmética

Nfx

x

f

xf

fffxfxfxf

x k

jj

N

jjj

k

kk

∑

∑

∑

=

=++++++

=

=

=

1

1

21

2211

......

Ejemplo: si 5, 8, 6, y 2 ocurren con frecuencias 3, 2, 4 y 1 , respectivamente, su media

aritmética es

( )( ) ( )( ) ( )( ) ( )( ) 7.510

22416151423

21648253=

+++=

++++++

=x

Ejemplo:En la tabla siguiente se tiene los puntajes obtenidos en la Prueba de Aptitud

Académica por 30 jóvenes, provenientes de un mismo establecimiento educacional:


27

P. Ap. Verbal P. Ap. Matemática P. Ap. Verbal P. Ap. Matemática

685 664 730 642

490 548 618 533

580 567 690 654

705 665 680 542

470 452 690 678

620 506 710 732

650 618 742 749

702 718 685 570

643 621 595 574

540 555 674 657

575 502 722 747

600 531 585 620

500 478 505 482

680 558 600 643

587 600 543 500

Con los datos de la tabla, se puede caracterizar el establecimiento educacional usando el

promedio de cada una de las pruebas. Lo primeros que se necesita es calcular la suma de los

puntajes de los treinta alumnos.

Dichas sumas son las siguientes:

Prueba de Aptitud Verbal 18796

Prueba de Aptitud Matemática 17906

Promedio Prueba de Aptitud Verbal 626.533

Promedio Prueba de Aptitud Matemática 596.867

La Media gLa media g

del product

media geo

Ejemplo: la

G = 3 2( )

Promedio En muchas

Para hacer

necesario a

importancia

Definición.

A veces as

WK depend

Ejemplo: si

estudiante

calificacion

Ejerciciosa) hal

5, y

So

geométrica geométrica e

to:

n ometrica =

a media geom

4( ) 8( ) 4=

Ponderados ocasiones,

r presente e

asignar a cad

a dentro de l

sociada con l

dientes de la

i el examen

tiene calific

nes media es

s: llar la media

y 4

lución: 4.8

G s el resultad

nnxxx .... 21

métrica g de

. las observa

ste hecho e

da uno de és

a muestra.

los números

a relevancia a

final de un c

cación 85 e

s :

( )(71=x

aritmética d

UN

o de multipli

2, 4 y 8

mathca

aciones recol

n la búsqued

stos, una po

X1, X2, . . .

asignada a c

curso cuanta

en el exame

) ( )( )311

90170++

+

de los númer

NIDAD I /

car todos los

ad gmea

lectadas no

da de un 'ce

nderación (p

XK , ciertos f

cada número

a tres veces

en final y 7

) ( )( )3

853=

+

ros 5, 3, 6, 5

ESTADIST

s elementos

an 2 4, 8,( ) 4=

tienen la mis

entro' que re

peso o coefic

factores peso

o.

mas que una

70 y 90 en

835

415=

5, 4, 5, 2, 8, 6

TICA DESC

y extraer la

sma importa

epresente a

ciente) que re

os ( o pesos

a evaluación

los dos pa

6, 5, 4, 8, 3,

CRIPTIVA

28

raíz n -ésima

ancia relativa

los datos, es

epresente su

) W1, W2 ,...

n parcial y un

arciales , las

4, 5, 4, 8, 2

A.

8

a

a.

s

u

,

n

s

2,


29

b) De entre 100 números. 20 son cuatros, 40 son cinco, 30 son seis y los restantes siete.

Hallar su media aritmética.

Solución: 5.30

c) las calificaciones finales de un estudiante en cuatro asignatura fueron 82, 86, 90 y 70. si

los respectivos créditos otorgados a esos cursos son 3, 5, 3 y 1 , determinar una

calificación media a apropiada.

Solución: 85

d) De los 80 empleados de una empresa 6 cobra $ 7,00 a la hora y el resto $4,00 a la

hora. Hallar cuanto cobran de media por hora

Solución: $6.25

e) Cuatro grupos de estudiantes, consistentes en 15, 20, 10 y 18 individuos, dieron pesos

medios de 162, 148, 153 y 140 lb., respectivamente . hallar el peso medio de todos

esos estudiantes.

Solución: 150 lb.

1.3.2 Mediana. La mediana de un conjunto de números ordenados en magnitud es el valor central o la media

de los dos valores centrales.

Datos sin agrupar: Ejemplo: el conjunto de números 3, 4, 4, 5, 6, 8, 8, 8, 10 tiene mediana 6

mathcad median 3 4, 4, 5, 6, 8, 8, 8, 10,( ) 6=

Ejemplo: el conjunto de números 5, 5, 7, 9, 11, 12, 15, 18 tiene mediana ½ ( 9 + 11 ) = 10

Ejemplo: las notas de un estudiante en seis exámenes han sido 84, 91, 72, 68, 87 y 78. hallar la

mediana de esas notas.

Solución : las notas ordenadas son 68, 72, 78, 84, 87 , 91,

1 / 2 ( 78 + 84 ) = 81


30

Ejemplo: cinco oficinistas cobran $ 4.52, $ 5.96, $ 5.28, $ 11.20 y $ 5.75 a la hora. Hallar la

mediana

Solución = la ordenación es: $ 4.52, $ 5.28, $ 5.75 , $ 5.96, $ 11.20

La mediana es $ 5.75

Datos Agrupados: Las gráficas siguientes, correspondientes a polígonos de frecuencias absolutas acumuladas,

nos plantea de nuevo dos situaciones diferentes a considerar:

( )C

f

fN

Lmedianamediana ⎟

⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜

⎝

⎛ −+=

∑ 1

12

donde:

L1 = frontera inferior de la clase mediana.

N = numero de datos (frecuencia total)

(Σ f ) 1 = suma de la frecuencia de las clases inferiores a la de la mediana.

f mediana = frecuencia de la clase mediana.

C = anchura del intervalo de clase de la mediana.

Ejemplo:

Altura ( in) Numero de estudiantes (f)

60 – 62 7

63 – 65 20

66 – 68 44

69 – 71 29

72 – 74 10

total 110

Para indicar la posición : 552

110= ; entonces se procede a realizar una suma con las

frecuencias (f) hasta llegar al valor 55 o mas de 55 pero no menos, para suponer que ahí cae la

mediana solo que se tiene que hacer es verificar su valor.

7 + 20+ 44 = 71 por lo tanto cae en el intervalo 66 – 68


31

Datos:

5.651 =L ; 110=N ; ( ) 271=∑ f ; 44=medianaf ; 35.655.68 =−=C

( ) 41.67344

272

110

5.65 =⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜

⎝

⎛ −+=mediana

1.3.3 Moda. La moda de un conjunto de números es el valor que ocurre con mayor frecuencia; es decir, el

valor mas frecuente. La moda puede no existir e incluso no ser única. Esta estadística debe

usarse con cuidado. Su objetivo es identificar zonas donde se producen aglomeraciones de

datos, sin embargo, podría ser que por el solo hecho de haber una observación extra en un

punto aislado, éste pudiese aparecer como una moda.

Este inconveniente es especialmente delicado cuando hay pocas observaciones en la muestra,

tal como es el caso que se observa en el gráfico siguiente.

Datos sin agrupar: Ejemplo: el conjunto 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18 tiene como moda 9

mathcad mode 2 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18,( ) 9= Ejemplo: el conjunto 3, 5, 8, 10, 12, 15, 16 n o tiene moda

Ejemplo: el conjunto 2, 3, 4, 4, 4, 5, 5, 7 , 7, 7, 9 tiene dos modas 4 y 7 y se llama bimodal

Una distribución única se llama unimodal.

Datos agrupados :

CLa ⎟⎟⎠

⎞⎜⎜⎝

⎛Δ+Δ

Δ+=

21

11mod

donde:

L 1 = frontera inferior de la clase modal ( clase que contiene a la moda)


32

Δ1 = exceso de la frecuencia modal sobre la clase inferior inmediata

Δ2 = exceso de la frecuencia modal sobre la clase superior inmediata

c = anchura del intervalo de clase modal.

Ejemplo :


60 – 62 7

63 – 65 20

66 – 68 44

69 – 71 29

72 – 74 10

total 110

De acuerdo a la definición la moda será quien tenga mayor frecuencia por lo tanto cae en el

intervalo 66 – 68

5.651 =L ; 2220441 =−=Δ ; 1529442 =−=Δ ; 35.655.68 =−=C

( ) 28.6731522

225.65mod =⎟⎠⎞

⎜⎝⎛

++=a

Medidas de posición relativa (Cuartiles, deciles y percentiles). Las calificaciones de exámenes y ciertos tipos de datos sociológicos y de salud con frecuencia

se presentan en una forma que describe la posición de una observación relativa a las demás

observaciones de la distribución.

Si un conjunto de datos están ordenados por magnitud, el valor central ( o la media de los dos

centrales) que divide al conjunto en dos mitades iguales es la mediana. Extendiendo esa idea,

podemos pensar en aquellos valores que dividen al conjunto en cuatro partes iguales.

Estos valores, denotados por Q 1, Q 2, Q3 , se llaman primer, segundo y tercer cuartil. Q 2

coincide con la mediana.


33

Análogamente los valores que dividen a los datos en 10 partes iguales se llaman deciles y se

denotan D1 , D2 , . . . , D9 , mientras los valores que se dividen en 100 partes iguales se llaman

percentiles denotados P1 , P2 , . . . , P 99 .

Colectivamente cuartiles, deciles y percentiles se denominan cuantiles.


60 – 62 7

63 – 65 20

66 – 68 44

69 – 71 29

72 – 74 10

total 110

Hallar Cuartiles:

N / 4 = 100 / 4 = 25

5 + 18 = 23 63 – 65 → 62.5 – 65.5

Q1 65.525 23−( )

423( )+ 65.64=

2N / 4 = 2(100) / 4 = 50

5 + 18 = 23 63 – 65 → 62.5 – 65.5

5 + 18 + 42 = 65

Q2 65.550 23−( )

423( )+ 67.43=

3N / 4 = 3(100) / 4 = 75

5 + 18 +42 = 65 66 – 68 → 65.5 – 68.5

Q3 68.575 65−( )

273( )+ 69.61=


34

Hallar los deciles

10010

10= D1 62.510 5−( )

183( )+ 63.33=

2 100( )10

20= D2 62.520 5−( )

183( )+ 65=

5+ 18 = 23

3 100( )10

30= D3 65.530 23−( )

423( )+ 66=

5+ 18 = 23

4 100( )10

40= D4 65.540 23−( )

423( )+ 66.71=

5+ 18 = 23

5 100( )10

50= D5 65.550 23−( )

423( )+ 67.43=

5+ 18 = 23

6 100( )10

60= D6 65.560 23−( )

423( )+ 68.14=

5+ 18 + 42 = 65

7 100( )10

70= D7 68.570 65−( )

273( )+ 69.06=

5+ 18 + 42 = 65

8 100( )10

80= D8 68.580 65−( )

273( )+ 70.17=

5+ 18 + 42 = 65


35

D99 100( )

1090= 68.5

90 65−( )27

3( )+ 71.28=

Hallar percentiles P 35 y P 50

35 (100) / 100 = 35

P35 65.535 23−( )

423( )+ 66.36=

50 (100) / 100 = 50

P50 65.550 23−( )

423( )+ 67.43=

1.4. Medidas de dispersión. Medidas de Posición. La descripción de un conjunto de datos, incluye como un elemento de importancia la ubicación

de éstos dentro de un contexto de valores posibles. Por ejemplo, puede resultar de interés

conocer qué porcentaje de automóviles equipados con convertidor catalítico sobrepasa el

estándar de emisiones de gases que es aceptable según la legislación vigente. Ya no se trata

en este ejemplo de describir el centro de un conjunto de datos de esta naturaleza. Es necesario

ser más específico. Es probable que la emisión promedio de un conjunto de automóviles esté

dentro de la norma. Pero,¿es aceptable que el 25% de ellos no la cumpla?. Se ve, entonces,

que la descripción debe entregar más información de los datos para cubrir las necesidades

informativas referentes a un problema en particular.

1.4.1 Varianza. Cuadrada para poder compararla con la media y otras medidas análogas. Esta es la idea del

desvío estándar o desviación típica. También es la fórmula planteada por Gauss en su teoría

de errores casuales. Como se verá más adelante, la curva de Gauss tiene dos puntos de

inflexión simétricos ubicados a una distancia del centro igual al desvío estándar.


36

La varianza La varianza es el promedio de los cuadrados de las desviaciones de cada elemento, x i,

respecto a la media,

La varianza de un conjunto de datos se define como el cuadrado de la desviación típica y viene

dada en consecuencia por S2 . varianza poblacional (s 2)

( )N

xxS

N

jj∑

=

−= 1

2

2 ;

para una población finita con n determinaciones.

Y la varianza muestral (σ 2)

11

)(1

2

12

1

2

2

−

⎟⎠

⎞⎜⎝

⎛

−=

−

−=

∑∑

∑=

=

=

nn

yy

n

xxn

i

n

ii

i

n

ii

σ

1.4.2 Desviación estándar. A su vez, el desvío estándar poblacional (σ ) y el muestral (s) se obtienen con la raíz

cuadrada de las respectivas varianzas y Representa el alejamiento de una serie de números de

su valor medio. Se calcula a partir de todas las desviaciones individuales con respecto a la

media.

Para poder conocer o calcular tanto la media como la varianza poblacionales, se necesita

conocer la población completa. Esto es imposible en el caso de mediciones repetidas porque

estas son infinitas desde el punto de vista teórico. Análogamente, la cantidad total de muestras

que se le puede extraer a un paciente, para hacerle una determinación en el laboratorio, es tan

grande que puede ser considerada infinita. Por lo tanto, para todos

( )N

xxS

N

jj∑

=

−= 1

2

El uso de esta estadística es recomendado en aquellos conjuntos de datos que ofrecen cierto

grado de simetría respecto de su centro. En estos casos, habitualmente tiene sentido medir

discrepancias de un valor con el centro de los datos usando múltiplos de la desviación estándar.


37

A modo de ejemplo, se puede decir que un valor está bastante alejado del centro de los datos si

su distancia de él supera dos desviaciones estándar. Apoyándose en la idea anterior, la

desviación estándar puede ser usada para determinar valores que se encuentran 'cerca' del

centro. Este uso va más allá de la simple descripción, en otros ámbitos de Estadística es usada

para tomar decisiones respecto de la población de la que fue extraída la muestra.

Ejercicio: Calcular la desviación estándar de los siguientes datos:

68.2, 69.3, 70.4, 71.5, 72.6, 73.7, 74.8,

prom68.2 69.3+ 70.4+ 71.5+ 72.6+ 73.7+ 74.8+

7:=

prom 71.5=

desv68.2 71.5−( )2 69.3 71.5−( )2

+ 70.4 71.5−( )2+ 71.5 71.5−( )2

+ 72.6 71.5−( )2+ 73.7 71.5−( )2

+ 74.8 71.5−( )2+

7:=

desv 2.2=

Problema: Investigadores del Massachussets Institute of Technology (MIT) estudiaron las

propiedades espectroscopicas de asteroides de la franja principal con un diámetro menor a los

10 kilometros. Los asteroides se observaron con el telescopio hiltener del observatorio del MIT;

se registro el numero N de exposiciones de imagen espectral independientes para cada

observación. Aquí se presentan los datos de 40 observaciones de asteroides obtenidas de

Science.

Numero de exposiciones de imagen espectral independientes para 40

observaciones de asteroides.

3

1

3

6

4

1

3

3

3

4

2

1

3

2

2

2

1

3

2

2

4

3

2

3

1

2

1

2

3

6

3

2

2

1

2

4

3

1

1

2

a) Localice y y s en el listado

b) Construya los intervalos

sysysy 3,2, ±±±


38

1.4.3 Desviación media. La desviación media o desviación promedio de un conjunto de N números x 1, x 2, . . . , x N es

abreviada por MD y se define como:

N

xxDM

N

jj∑

=

−= 1..

Ejemplo: hallar la desviación media del conjunto 2, 3, 6, 8, 11

media aritmetica = 2 3+ 6+ 8+ 11+

56=

con mathcad mean 2 3, 6, 8, 11,( ) 6=

desviacion media

MD = 2 6− 3 6−+ 6 6−+ 8 6−+ 11 6−+

52.8=

1.4.4 Desviación mediana. Es la media aritmética de los valores absolutos de las desviaciones de los valores de la

variable con respecto a la mediana.

n

nMexD jj

Me∑ −

=

1.4.5 Rango. La más simple de todas es el rango, definido como la diferencia entre el valor máximo y

mínimo del grupo de datos. De fácil cálculo y comprensión, tiene la desventaja de ser la

medida más grosera de la dispersión.

Dos grupos de datos, con muy distinta dispersión pueden llegar a tener rangos similares. Uno

de ellos puede tener el 99% de los valores junto al mínimo y el otro el 99% junto al máximo,

pero al tener extremos iguales, sus rangos resultarían iguales a pesar de ser tan disímiles

intrínsecamente.

RANGO = Máx. datos - Mín. datos

1.5 Pa 1.5.1 LaSean, x1

observacio

o bien

Ejemplo: La

1.5.2 LaA su vez,

cuadrada d

de su valor

media.

arámetros

a media. ,x2 ,....,xn

ones al valor

a media aritm

a desviacióel desvío e

de las respec

r medio. Se c

para dato

, n obser

dado por:

Nx

xx

∑=

=

mética de los

8=x

ón típica.estándar pob

ctivas varian

calcula a par

UNID

os agrupa

rvaciones m

Nx

Nxxx

∑

+++ 321

s números 8

51253 +++

blacional (

nzas y Repre

rtir de todas

∑==

k

jf

S 1

DAD I / ES

dos.

muéstrales,

xn∑

=++ ...

, 3. 5, 12 y 1

538102

=+

σ ) y el mue

esenta el ale

las desviacio

( )

∑=

−

k

jj

jj

f

xxf

1

2

STADISTIC

definiremos

N

xN

jj∑

=1

0

6.7=

estral ( s) s

ejamiento de

ones individu

CA DESCR

promedio

e obtienen c

una serie d

uales con res

RIPTIVA.

39

de estas

con la raíz

e números

specto a la


40

68.2 5 -2.63586.9477 34.7385

69.3 11 -1.53582.3588 25.9472

70.4 14 -0.43580.1900 2.6595

71.5 11 0.6642 0.4411 4.8521

72.6 7 1.7642 3.1122 21.7856

73.7 3 2.8642 8.2034 24.6101

74.8 2 3.9642 15.7145 31.4290

Total 53 146.0219

70.8358

Desv.

Est. = 1.6599

Y la desviación media para datos agrupados:

∑

∑

=

=

−= k

jj

k

jjj

f

xxfDM

1

1

xx j −

xxf jj −

68.2 5 2.6358 13.1792

69.3 11 1.5358 16.8943

70.4 14 0.4358 6.1019

71.5 11 0.6642 7.3057

72.6 7 1.7642 12.3491

73.7 3 2.8642 8.5925

74.8 2 3.9642 7.9283

Total 53 72.3509

70.8358

Desv. Med. = 1.3651

jx jf xx j −2)( xx j − ( )2xxf jj −

=x

jxjf

=x


41

1.6 Distribución de frecuencias. Reglas generales para formar distribuciones de frecuencias Paso 1: Calcular el intervalo de los datos :

Intervalo = Observación Grande – Observación Pequeña.

Paso 2: Dividir el intervalo entre 5 y 20 clases de igual anchura. El número de clases es

arbitrario, pero se obtiene una mejor descripción grafica si se utiliza pocas clases cuando el

número de datos es pequeño y un mayor número de clases cuando el conjunto de datos es

grande. La frontera de la clases más baja ( o primera) deberá estar situada por debajo de la

medición más pequeña, y el ancho de la clase debe ser tal que ninguna observación pueda

quedar exactamente en la frontera de una clases. Se pueden calcular de la siguiente

manera:

clasedeanchuraclases

Intervalo #

=

O bien,

claseclasesdeanchura

Intervalo #=

Si la precisión es:

una unidad entera (1) entonces es 1/2 = 0.5, la primera clases comenzará restándole 0.5

a la observación mas pequeño

una unidad decimal (0.1) entonces es 0.1/2 = 0.05, la primera clases empieza restándole

0.05 a la observación mas pequeña.

Paso 3: para cada clase, contar el numero de observaciones que caen en esa clase. Este

número es la frecuencia de clases.

Datos obtenidos. Por ejemplo: en la tabla que sigue se recogen los pesos de 40 estudiantes varones de una

universidad, con precisión de 1 libra. Construir una distribución de frecuencias.


42

138

146

168

146

161

164

158

126

173

145

150

140

138

142

135

132

147

176

147

142

144

136

163

135

150

125

148

119

153

156

149

152

154

140

145

157

144

165

135

128

El método textual tiene una ventaja importante con respecto a los otros: se puede influenciar

al lector. El autor puede resaltar ciertas cifras de su interés, puede remarcar conceptos

apropiados para sus fines y hacer pasar desapercibidos a los otros. Se puede focalizar la

atención del lector, de tal manera que pase por alto ciertos datos evitando que saque sus

propias conclusiones.

1.6.1 Distribuciones numéricas. Método de presentación de datos tabular. Una ordenación es un conjunto de datos numéricos en orden creciente o decreciente. Este

método de presentación de la información consiste en presentar los datos por medio de una

tabla o cuadro.

Ejercicio: Los tiempos de CPU que se indican en la tabla representan el tiempo ( en

segundos) que 25 trabajos estuvieron en control de la unidad central de proceso (CPU) de

una computadora mainframe grande. Estos 25 valores representan una muestra

seleccionada de los 1000 tiempos de CPU .

Tabla de muestra de n = 25 tiempos de

CPU de trabajos (en segundos ).

1.17

1.23

0.15

0.19

0.92

1.61

3.76

2.41

0.82

0.75

1.16

1.94

0.71

0.47

2.59

1.38

0.96

0.02

2.16

3.07

3.53

4.75

1.59

2.01

1.40


43

1.6.2 Distribuciones categóricas. Al resumir grandes colecciones de datos, es útil distribuirlos en clases o categorías, y

determinar el número de individuos que pertenecen a cada clase, llamado frecuencia de

clase. Una disposición tabular de los datos por clase junto con las correspondientes

frecuencias de clase, se llama distribución de frecuencia ( o tabla de frecuencia).

Ejemplos:

Intervalo = 4.75 – 0.02 = 4.73

Anchura aproximada de la clase es:

7.0676.0773.4

7int

≅==ervalo

Nota: si deseo saber la anchura de la clases entonces selecciono de manera arbitraria el

numero de clases en este caso el numero 7 indica el numero de clases ( filas) y el resultado

es la anchura de cada clases.

Como la tabla contiene datos con valores de centésimas entonces el grado de precisión es de

0.01 por lo tanto se deberá de utilizar 0.01/2 = 0.005. por lo cual al intervalo menor que es de

0.02 se le restara 0.05. Ahora el primer valor en la tabla iniciara en 0.015.

clase Intervalo de

clase

Tabulación Frec.

1

2

3

4

5

6

7

0.015 – 0.715

0.715 – 1.415

1.415 – 2.115

2.115 – 2.815

2.815 – 3.515

3.515 – 4.215

4.215 – 4.915

/////

/////////

////

///

/

//

/

5

9

4

3

1

2

1


44

1.6.3 Distribuciones acumuladas.

Intervalo de

clase

Frecuencia

de clase

Distribución

acumulada

0.015 – 0.715

0.715 – 1.415

1.415 – 2.115

2.115 – 2.815

2.815 – 3.515

3.515 – 4.215

4.215 – 4.915

5

9

4

3

1

2

1

5

14

18

21

22

24

25

Total 25

1.6.4 Distribuciones porcentuales. En esta distribución tenemos a la distribución de frecuencia relativa y ojivas porcentuales que

se encuentra multiplicando la frecuencia relativa por cien para que los resultados estén en

porcentajes . Y la suma de todas estas frecuencias resulte al 100 %.

NFrecuenciarelativaFrecuencia =

100* Re . lFrecojivasyrelativaFrecuencia =

05

1015202530

1 2 3 4 5 6 7

Distribucion acumulada


45

Intervalo de clase Frec. Frec. relativa frecuencia relativa y ojivas porcentual (%)

0.015 – 0.715

0.715 – 1.415

1.415 – 2.115

2.115 – 2.815

2.815 – 3.515

3.515 – 4.215

4.215 – 4.915

5

9

4

3

1

2

1

0.20

0.36

0.16

0.12

0.04

0.08

0.04

20

36

16

12

4

8

4

Total 25 1.00

1.6.5 Distribuciones porcentuales acumuladas. Las distribuciones porcentuales acumuladas resulta dividiendo la distribución acumulada

entre la frecuencia total y multiplicada por 100 para que los resultados resulten en porcentajes

y al terminar el ultimo calculo debe ser al cien por ciento.

Intervalo de clase Frec. Distribución acumulada Dist. porcentuales acumulada (%)

0.015 – 0.715

0.715 – 1.415

1.415 – 2.115

2.115 – 2.815

2.815 – 3.515

3.515 – 4.215

4.215 –4.915

5

9

4

3

1

2

1

5

14

18

21

22

24

25

20

56

72

84

88

96

100 Total 25

0

5

10

15

20

25

30

35

40

1 2 3 4 5 6 7

Frecuencia relativa porcentual


46

100*.N

ADDPA =

1.7 Técnicas de agrupación de datos. 1.7.1 Límites de clase.

118 y 122 se llaman limite de clase

118 se llama limite inferior y 122 limite superior de clase

1.7.2 Rango de clase. El tamaño o anchura de un intervalo de clase es la diferencia entre las fronteras de clase

superior e inferior.

C = 122.5 – 117.5 = 5

1.7.3 Fronteras de clase. Si se dan valores con precisión de 1 unidad, el intervalo de clase 118 – 122 incluye

teóricamente todas las medias desde 117.5 a 122.5 y se llaman frontera de clase o

verdaderos limites de clase; el menor 117.5 es la frontera inferior y el mayor 122.5 la frontera

superior.

0

20

40

60

80

100

120

1 2 3 4 5 6 7

Distribucion Porcentual Acumulada


47

1.7.4 Marca de clase. La marca de clase es el punto medio del intervalo de clase y se obtiene promediando los

limites inferior y superior de clase . Así que las marcas de clase del intervalo 118 – 122 es

(118 + 122 ) / 2 = 120

1.7.5 Intervalo de clase. Los valores de 118 – 122 se les llaman intervalo de clases

Ejercicio: en la tabla siguiente se recogen los pesos de 40 estudiantes varones de una

universidad, con precisión de 1 libra. Construir:

a) una distribución de frecuencia.

b) Distribución de frecuencia acumulada

c) Grafica de la distribución de frecuencia acumulada

d) Frecuencia relativa

e) Frecuencia relativa y ojivas porcentuales

f) Grafica de la frecuencia relativa y ojivas porcentuales

g) Distribución porcentuales acumuladas

h) Grafica de la distribución porcentuales acumuladas

119 138 146 156

125 140 147 157

126 140 147 158

128 142 148 161

132 142 149 163

135 144 150 164

135 144 150 165

135 145 152 168

136 145 153 173

138 146 154 176

Los pesos son 176 y 119 lb.; El intervalo es 176 – 119 = 57 lb.

Si se usan 5 u 20 intervalos de clase su anchura será:

114.115

57== o 385.2

2057

==


48

Una colección razonable es 5 lb.

Se inicia desde un valor de precisión antes para que se considere que los valores deben de

caer dentro del intervalo.

Gráficos

Peso (lb.) Frecuencia Distribución

acumulada

frecuencia

relativa

frecuencia

relativa y ojivas

porcentual (%)

Distribución

porcentuales

acumulada (%)

118 – 122 1 1 0.025 2.5 2.5

123 – 127 2 3 0.05 5 7.5

128 – 132 2 5 0.05 5 12.5

133 – 137 4 9 0.1 10 22.5

138 – 142 6 15 0.15 15 37.5

143 – 147 8 23 0.2 20 57.5

148 – 152 5 28 0.125 12.5 70

153 – 157 4 32 0.1 10 80

158 – 162 2 34 0.05 5 85

163 – 167 3 37 0.075 7.5 92.5

168 – 172 1 38 0.025 2.5 95

173 - 177 2 40 0.05 5 100

Total 40 1.00 100

a) Distribución acumulada b) Distribución relativa y ojivas c) Frecuencia porcentual

acumulada

0

10

20

30

40

50

1 2 3 4 5 6 7 8 9 10 11 12

Distribución acumulada

0

5

10

15

20

25

1 2 3 4 5 6 7 8 9 10 11 12

frecuencia relativa y ojivas porcentual (%)

0

20

40

60

80

100

120

1 2 3 4 5 6 7 8 9 10 11 12

frecuencia porcentual acumulada


49

Ejercicio. Tabla de una distribución de frecuencia de puntuaciones de un examen final de álgebra

Grado Numero de estudiante Marca de clases (x) fx

30 – 39

40 – 49

50 – 59

60 – 69

70 – 79

80 – 89

90 - 100

1

3

11

21

43

32

9

34.5

44.5

54.5

64.5

74.5

84.5

95.0

34.5

133.5

599.5

1354.5

3203.5

2704

855

N = Σ f = 120 Σfx = 8884.5

a) marca de clases x 1 = 34.5; x2 =44.5; x3 = 54.5 ; x4 = 64.5 ; x5 = 74.5; x6 = 84.5 ; x7 = 95.0

b) media aritmética

04.74120

5.8884=== ∑

Nfx

x

c) mediana 120/2 = 60

1 + 3 + 11 + 21 = 36

1 + 3 + 11 + 21 + 43 = 79

70 – 79 43 clase mediana

110 120 130 140 150 160 170 180

PESO

0

2

4

6

8

10

12

14

Frequ

ency

Mean = 146.8Std. Dev. = 13.051N = 40

Histogram


50

( ) 08.751043

362

120

5.69 =⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜

⎝

⎛ −+=mediana

d) moda 70 – 79 43

( ) 17.76101122

225.69mod =⎟⎠⎞

⎜⎝⎛

++=a

Problema: En la tabla siguiente se recogen los pesos de 40 estudiantes varones de una

universidad con precisión de una libra.

Peso (lb.) Frecuencia (f)

118 – 126

127 – 135

136 – 144

145 – 153

154 – 162

163 – 171

172 – 180

3

5

9

12

5

4

2

N = Σf = 40

Hallar:

a) Marca de clases

b) Media aritmética

c) Mediana y moda

d) trazar un histograma y polígono de frecuencia

1.7.6 Diagrama de tallos y hojas. Un método para iniciar el análisis exploratorio de los datos, previo al uso de los métodos

estadísticos tradicionales, y que además proporciona información rápida, visual y es

relativamente nueva, es la representación gráfica de tallos y hoja. Esta representación se

basa en la ordenación de los datos a manera de gráfico, pero sin llegar a ello, utilizando las

decenas y las unidades.


51

78 93 61 100 70 83 88 74 97 72

66 73 76 81 83 64 91 70 77 86

Ahora pensaremos en cada uno de los datos separando las decenas de las unidades, es decir,

el número 51 se verá como 5 | 1.

6

7

8

9

10

1 6 4

8 0 4 2 3 6 0 7

3 8 1 3 6

3 7 1

0

Para entenderle un poco más, hemos de decir que el primer renglón que dice 6 | 1 6 4 quiere

decir que entre la lista de datos se encuentran los valores 61, 66 y 64. Esta es la representación

gráfica tallos y hoja, donde cada renglón es una posición de tallos y cada dígito de la derecha

es una hoja.

El procedimiento para realizarla es primero empezar con los tallo, es decir la columna de la

izquierda, y después dato por dato ir llenando las hojas a la derecha de la línea vertical, en el

tronco correspondiente. Además, si se desean tener los datos ordenados, y hay gente que lo

prefiere así, se pueden ordenar las hojas en cada renglón para que la representación quede

como sigue:

6

7

8

9

10

1 4 6

0 0 2 3 4 6 7 8

1 3 3 6 8

1 3 7

0

En realidad una representación de tallos y hojas presenta la misma información que la lista

original de datos, pero de una manera mucho más compacta (especialmente si la lista de datos

es más grande) y manejable.

Ejemplo: Los tiempos de CPU que se indican en la tabla representan el tiempo (en segundos)

que 25 trabajos estuvieron en control de la unidad central de proceso (CPU) de una


52

computadora mainframe grande. Estos 25 valores representan una muestra seleccionada de los

1000 tiempos de CPU:

1.17

1.23

0.15

0.19

0.92

1.61

3.76

2.41

0.82

0.75

1.16

1.94

0.71

0.47

2.59

1.38

0.96

0.02

2.16

3.07

3.53

4.75

1.59

2.01

1.40

Ramas hojas Frecuencia

0

1

2

3

4

02 15 19 47 71 75 82 92

96

16 17 23 38 40 59 61 94

01 16 41 59

07 53 76

75

9

8

4

3

1

25

1.7.7 Diagrama de Pareto. El Diagrama de Pareto constituye un sencillo y gráfico método de análisis que permite

discriminar entre las causas más importantes de un problema (los pocos y vitales) y las que lo

son menos (los muchos y triviales). El Diagrama de Pareto es una gráfica en donde se

organizan diversas clasificaciones de datos por orden descendente, de izquierda a derecha por

medio de barras sencillas después de haber reunido los datos para calificar las causas. De

modo que se pueda asignar un orden de prioridades.

Ventajas:

• Ayuda a concentrarse en las causas que tendrán mayor impacto en caso de ser

resueltas.

• Proporciona una visión simple y rápida de la importancia relativa de los problemas.

• Ayuda a evitar que se empeoren alguna causas al tratar de solucionar otras y puede

ser resueltas.


53

• Su formato altamente visible proporciona un incentivo para seguir luchando por más

mejoras.

¿Cuándo se utiliza?

• Al identificar un producto o servicio para el análisis para mejorar la calidad.

• Cuando existe la necesidad de llamar la atención a los problema o causas de una forma

sistemática.

• Al identificar oportunidades para mejorar

• Al analizar las diferentes agrupaciones de datos (ej: por producto, por segmento, del

mercado, área geográfica, etc.)

• Al buscar las causas principales de los problemas y establecer la prioridad de las

soluciones

• Al evaluar los resultados de los cambios efectuados a un proceso (antes y después)

• Cuando los datos puedan clasificarse en categorías

• Cuando el rango de cada categoría es importante

Pareto es una herramienta de análisis de datos ampliamente utilizada y es por lo tanto útil en la

determinación de la causa principal durante un esfuerzo de resolución de problemas. Este

permite ver cuáles son los problemas más grandes, permitiéndoles a los grupos establecer

prioridades.

En casos típicos, los pocos (pasos, servicios, ítems, problemas, causas) son responsables por

la mayor parte el impacto negativo sobre la calidad. Si enfocamos nuestra atención en estos

pocos vitales, podemos obtener la mayor ganancia potencial de nuestros esfuerzos por mejorar

la calidad.

Un equipo puede utilizar la Gráfica de Pareto para varios propósitos durante un proyecto para lograr mejoras:

• Para analizar las causas

• Para estudiar los resultados

• Para planear una mejora continua

• Las Gráficas de Pareto son especialmente valiosas como fotos de “antes y después”

para demostrar qué progreso se ha logrado. Como tal, la Gráfica de Pareto es una

herramienta sencilla pero poderosa.


54

¿Cómo se utiliza?

• Seleccionar categorías lógicas para el tópico de análisis identificado (incluir el periodo

de tiempo).

• Reunir datos. La utilización de un check List puede ser de mucha ayuda en este paso.

• Ordenar los datos de la mayor categoría a la menor

• Totalizar los datos para todas las categorías

• calcular el porcentaje del total que cada categoría representa

• trazar los ejes horizontales (x) y verticales (y primario - y secundario)

• trazar la escala del eje vertical izquierdo para frecuencia (de 0 al total, según se calculó

anteriormente)

• de izquierda a derecha trazar las barras para cada categoría en orden descendente. Si

existe una categoría “otros”, debe ser colocada al final, sin importar su valor. Es decir,

que no debe tenerse en cuenta al momento de ordenar de mayor a menor la frecuencia

de las categorías.

• trazar la escala del eje vertical derecho para el porcentaje acumulativo, comenzando

por el 0 y hasta el 100%

• trazar el gráfico lineal para el porcentaje acumulado, comenzando en la parte superior

de la barra de la primera categoría (la mas alta)

• dar un título al gráfico, agregar las fechas de cuando los datos fueron reunidos y citar la

fuente de los datos.

• analizar la gráfica para determinar los “pocos vitales”

Consejos para la construcción / interpretación Como hemos visto, un Diagrama de Pareto es un gráfico de barras que enumera las categorías

en orden descendente de izquierda a derecha, el cual puede ser utilizado por un equipo para

analizar causas, estudiar resultados y planear una mejora continúa.

Dentro de las dificultades que se pueden presentar al tratar de interpretar el Diagrama de

Pareto es que algunas veces los datos no indican una clara distinción entre las categorías. Esto

puede verse en el gráfico cuando todas las barras son más o menos de la misma altura.

Otra dificultad es que se necesita más de la mitad de las categorías para sumar más del 60%

del efecto de calidad, por lo que un buen análisis e interpretación depende en su gran mayoría

de un buen análisis previo de las causas y posterior recogida de datos.


55

En cualquiera de los casos, parece que el principio de Pareto no aplica. Debido a que el mismo

se ha demostrado como válido en literalmente miles de situaciones, es muy poco probable que

se haya encontrado una excepción.

Es mucho más probable que simplemente no se haya seleccionado un desglose apropiado de

las categorías.

Esto nos lleva a la conclusión que para llevar a cabo un proceso de Resolución de Problemas

/Toma de Decisiones (RP/TD) es necesario manejar cada una de las herramientas básicas de la

calidad, tanto desde el punto de vista teórico como desde su aplicación.

La interpretación de un Diagrama de Pareto se puede definir completando las siguientes

oraciones de ejemplo:

“Existen (número de categorías) contribuyentes relacionados con (efecto).

Pero estos (número de pocos vitales) corresponden al (número) % del total (efecto). Debemos

procurar estas (número) categorías pocos vitales, ya que representan la mayor ganancia

potencial para nuestros esfuerzos.”

Relación con otras herramientas Un Diagrama de Pareto generalmente se relaciona con:

• diagrama de Causa y Efecto (Ishikawa)

• Check List de Revisión

• Check List de reunión de datos

• Matriz para la Planeación de Acciones

Ejemplo: Un fabricante de heladeras desea analizar cuáles son los defectos más frecuentes que

aparecen en las unidades al salir de la línea de producción.

Para esto, empezó por clasificar todos los defectos posibles en sus diversos tipos:


56

Tipo de Defecto Detalle del Problema

Motor no detiene No para el motor cuando alcanza Temperatura

No enfría El motor arranca pero la heladera no enfría

Burlete Def. Burlete roto o deforme que no ajusta

Pintura Def. Defectos de pintura en superficies externas

Rayas Rayas en las superficies externas

No funciona Al enchufar no arranca el motor

Puerta no cierra La puerta no cierra correctamente

Gavetas Def. Gavetas interiores con rajaduras

Motor no arranca El motor no arranca después de ciclo de parada

Mala Nivelación La heladera se balancea y no se puede nivelar

Puerta Def. Puerta de refrigerador no cierra herméticamente

Otros Otros Defectos no incluidos en los anteriores

Posteriormente, un inspector revisa cada heladera a medida que sale de producción registrando

sus defectos de acuerdo con dichos tipos.

Después de inspeccionar 88 heladeras, se obtuvo una tabla como esta:

Tipo de Defecto Detalle del Problema Frec.

Burlete Def. Burlete roto o deforme que no ajusta 9

Pintura Def. Defectos de pintura en superficies externas 5

Gavetas Def. Gavetas interiores con rajaduras 1

Mala Nivelación La heladera se balancea y no se puede nivelar 1

Motor no arranca El motor no arranca después de ciclo de parada 1

Motor no detiene No para el motor cuando alcanza Temperatura 36

No enfría El motor arranca pero la heladera no enfría 27

No funciona Al enchufar no arranca el motor 2

Otros Otros Defectos no incluidos en los anteriores 0

Puerta Def. Puerta de refrigerador no cierra herméticamente 0


57

Puerta no cierra La puerta no cierra correctamente 2

Rayas Rayas en las superficies externas 4

Total: 88

Pero ¿Cuáles son los defectos que aparecen con mayor frecuencia? Para hacerlo más

evidente, antes de graficar podemos ordenar los datos de la tabla en orden decreciente de frecuencia:

Tipo de Defecto Detalle del Problema Frec. Frec. Rel. Prop. acum.

Motor no

detiene

No para el motor cuando alcanza

Temperatura

36 0.4091

0.4091

No enfría El motor arranca pero la heladera no enfría 27 0.3068 0.7159

Burlete Def. Burlete roto o deforme que no ajusta 9 0.1023 0.8182

Pintura Def. Defectos de pintura en superficies externas 5 0.0568 0.8750

Rayas Rayas en las superficies externas 4 0.0455 0.9205

No funciona Al enchufar no arranca el motor 2 0.0227 0.9432

Puerta no cierra La puerta no cierra correctamente 2 0.0227 0.9659

Gavetas Def. Gavetas interiores con rajaduras 1 0.0114 0.9773

Mala Nivelación La heladera se balancea y no se puede

nivelar

1 0.0114

0.9886

Motor no

arranca

El motor no arranca después de ciclo de

parada

1 0.0114

1.0000

Puerta Def. Puerta de refrigerador no cierra

herméticamente

0 0.0000

1.0000

Otros Otros Defectos no incluidos en los anteriores 0 0.0000 1.0000

Total: 88 1.0000

Vemos que la categoría “otros” siempre debe ir al final, sin importar su valor. De esta manera, si

hubiese tenido un valor más alto, igual debería haberse ubicado en la última fila.


58

Ahora resulta evidente cuales son los tipos de defectos más frecuentes. Podemos observar

que los 3 primeros tipos de defectos se presentan en el 82 % de las heladeras,

aproximadamente. Por el Principio de Pareto, concluimos que: La mayor parte de los defectos

encontrados en el lote pertenece sólo a 3 tipos de defectos, de manera que si se eliminan las

causas que los provocan desaparecería la mayor parte de los defectos.

Ejemplo: Considere un problema de interés para la División de Economía Comercial ( BED ,

Business Economics División) del Departamento del trabajo de Estados Unidos. Cada año, la

BED monitorea las empresas que fracasan y clasifican cada fracaso en categorías. Estas

clasificaciones se basan en opiniones de acreedores informados y los informes la BED. Estas

frecuencias se muestran en el diagrama de Pareto.

Causas subyacentes Frec. Frec. Rel. Proporción acum.

Incompetencias

Experiencia desequilibrada

Falta de experiencia gerencial

Falta de experiencia de línea

Causas desconocidas

Otras causas

698

314

236

111

83

2

0.477

0.215

0.161

0.076

0.057

0.014

0.477

0.692

0.853

0.929

0.986

1.000

Totales 1463 1.000

0.0000

0.5000

1.0000

1.5000

1 3 5 7 9 11

0

0.5

1

1.5

1 2 3 4 5 6


59

1.7.8 Diagrama de puntos. 78 93 61 100 70 83 88 74 97 72

66 73 76 81 83 64 91 70 77 86

1.8 Histograma. 1.8.1 Diagrama de barras. En este tipo de gráfica, sobre los valores de las variables se levantan barras estrechas de

longitudes proporcionales a las frecuencias correspondientes. Se utilizan para representar

variables cuantitativas discretas. Consiste en representar las cantidades con rectángulos de

igual base, y de altura proporcional a los valores respectivos. Los intervalos libres entre barras

también deben ser del mismo tamaño, aunque a veces algunos autores las muestran pegadas.

1.8.2 Polígono de frecuencias. Otra forma de representación de un uso menos común, y muy parecida a las gráficas de líneas,

es el polígono de frecuencias. La diferencia fundamental entre ambas es que en el polígono de

frecuencias se añaden dos clases con frecuencias cero: una antes de la primera clase con

0

20

40

60

80

100

120

0 5 10 15 20 25


60

datos y otra después de la última. El resultado es que se "sujeta" la línea por ambos extremos al

eje horizontal y lo que podría ser una línea separada del eje se convierte, junto con éste, en un

polígono.

El siguiente ejemplo corresponde al porcentaje del PIB gastado en docencia e investigación

durante el año de 1990 en cinco países (fuente: Revista "Ciencia y Desarrollo", 1994,

XIX(114):12):

Un polígono de frecuencia es un grafico de trozos de las frecuencias de clase con relación a la

marca de clase. Puede obtenerse conectando los puntos medios de las partes superiores de los

rectángulos de los histogramas. Se suelen añadirse longitudes PQ y RS a las marcas de clase

extremas como asociadas a una frecuencia de clase cero.

1.8.3 Ojivas. Una gráfica similar al polígono de frecuencias es la ojiva, pero ésta se obtiene de aplicar

parcialmente la misma técnica a una distribución acumulativa y de igual manera que éstas,

existen las ojivas mayor que y las ojivas menor que.


61

Existen dos diferencias fundamentales entre las ojivas y los polígonos de frecuencias (y por

ésto la aplicación de la técnica es parcial):

Un extremo de la ojiva no se "amarra" al eje horizontal, para la ojiva mayor que sucede con el

extremo izquierdo; para la ojiva menor que, con el derecho.

En el eje horizontal en lugar de colocar las marcas de clase se colocan las fronteras de clase.

Para el caso de la ojiva mayor que es la frontera menor; para la ojiva menor que, la mayor.

Las siguientes son ejemplos de ojivas, a la izquierda la mayor que, a la derecha la menor que,

utilizando los datos que se usaron para ejemplificar el histograma:

La ojiva mayor que (izquierda) se le denomina de esta manera porque viendo el punto que está

sobre la frontera de clase "4:00" se ven las visitas que se realizaron en una hora mayor que las

4:00 horas (en cuestiones temporales se diría: después de las 4:00 horas). De forma análoga,

en la ojiva menor que la frecuencia que se representa en cada frontera de clase son el número

de observaciones menores que la frontera señalada (en caso de tiempos sería el número de

observaciones antes de la hora que señala la frontera).

1.8.4 Gráficas circulares. En un diagrama de este tipo, los 360º de un círculo se reparten proporcionalmente a las

frecuencias de los distintos valores de la variable. Resultan muy adecuados cuando hay pocos

valores, o bien cuando el carácter que se estudia es cualitativo. El diagrama de sectores

siguiente refleja el resultado de una encuesta (realizada a 300 personas) sobre los tipos de

película preferidos por el público en general:


62

1.9 Distribuciones muéstrales.

Como una estadística es una variable aleatoria que depende solo de la muestra observada,

debe tener una distribución de probabilidad. Esta distribución de probabilidad de una estadística

se llama distribución muestral. La distribución muestral de la estadística depende del tamaño de

la población, el tamaño de las muestras y el método de elección de las muestras

Si se selecciona n elementos de una población de modo tal que cada conjunto de n elementos

de la población tenga la misma probabilidad de ser seleccionado, se dice que los n elementos

constituyen una muestra aleatoria.


63

El resultado de un experimento estadístico se puede registrar como un valor numérico o como

una representación descriptiva. Cuando se lanza un par de dados y el total es un resultado de

interés, registramos un valor numérico. El estadístico se interesa en primer lugar en el análisis

de los datos numéricos. En cualquier estudio, el número de observaciones posibles puede ser

pequeño, grande pero finito o infinito. Por ejemplo si a los alumnos estudiantes de cierta

escuela se les hacen una pruebas de sangre y el tipo sanguíneo se puede clasificar en ocho

maneras. Puede ser AB, A, B u O, con un signo mas o uno menos, que dependen de la

presencia o ausencia del antígeno R h. la clasificación de tipos sanguíneos solo podemos tener

tantas observaciones como estudiantes haya en la escuela. El proyecto por tanto tiene como

resultados un numero finito de observaciones.

Sea x 1 , x 2, ..., x n variable aleatorias independientes, cada una con la misma distribución de

probabilidad f (x). Definimos entonces a x 1 , x 2, ..., x n como una muestra aleatoria de tamaño n

de la población f(x) y escribimos su distribución de probabilidad conjunta como:

1 2 1 2( , ,..., ) ( ) ( ),..., ( )n nF x x x f x f x f x=

La distribución de probabilidad de una estadística se llama distribución muestral. La distribución

de probabilidad de ⎯x se llama distribución la media.

La distribución muestral de una estadística depende del tamaño de la población, el tamaño de

las muestras y el método de elección de las muestras.

Se debe ver las distribuciones muéstrales de x y S2 como el mecanismo a partir del cual

haremos finalmente inferencias de los parámetros µ y σ 2.

Cuando las muestras son lo suficientemente grandes, se pueden hacer inferencias analíticas

bastante extensas, con pocos y simples recursos, en comparación con técnicas más refinadas

de la Estadística. Esto es conveniente desde un punto de vista didáctico.

La Teoría del muestreo es el estudio de las relaciones entre una población y las muestras que

se extraen de ella. Del análisis de las muestras se pueden estimar o inferir datos de la población

como su media (μ ), varianza ( 2σ ), etc., llamados parámetros poblacionales. Cuando la

población sea finita y de un tamaño manejable en tiempo y costo, los valores poblacionales se

calculan directamente, sin necesidad del muestreo.


64

Uno de los propósitos de la estadística inferencial es estimar las características poblacionales

desconocidas, examinando la información obtenida de una muestra, de una población. El

punto de interés es la muestra, la cual debe ser representativa de la población objeto de

estudio. Se seguirán ciertos procedimientos de selección para asegurar de que las muestras

reflejen observaciones a la población de la que proceden, ya que solo se pueden hacer

observaciones probabilísticas sobre una población cuando se usan muestras representativas

de la misma.

Muestras Aleatorias Cuando nos interesa estudiar las características de poblaciones grandes, se utilizan muestras

por muchas razones; una enumeración completa de la población, llamada censo, puede ser

económicamente imposible, o no se cuenta con el tiempo suficiente.

A continuación se verá algunos usos del muestreo en diversos campos:

1. Política. Las muestras de las opiniones de los votantes se usan para que los candidatos

midan la opinión pública y el apoyo en las elecciones.

2. Educación. Las muestras de las calificaciones de los exámenes de estudiantes se usan para

determinar la eficiencia de una técnica o programa de enseñanza.

3. Industria. Muestras de los productos de una línea de ensamble sirve para controlar la calidad.

4. Medicina. Muestras de medidas de azúcar en la sangre de pacientes diabéticos prueban la

eficacia de una técnica o de un fármaco nuevo.

5. Agricultura. Las muestras del maíz cosechado en una parcela proyectan en la producción los

efectos de un fertilizante nuevo.

6. Gobierno. Una muestra de opiniones de los votantes se usaría para determinar los criterios

del público sobre cuestiones relacionadas con el bienestar y la seguridad nacional.

Tipos de distribuciones muéstrales:

• Distribución muestral de la media con varianza conocida.

• Distribución muestral de diferencia de medias.

• Distribución muestral de proporción.

• Distribución muestral de diferencia de proporciones.

• Distribución muestral de varianza.

• Distribución muestral de razón de varianza.

UNIDAD 2

PROBABILIDAD

Objetivo: Conocerá los conceptos básicos de probabilidad para aplicarlos en la solución de Problemas.

UNIDAD II / PROBABILIDAD.

66

2.1 Teoría elemental de probabilidad. La Teoría de la Probabilidad constituye la base o fundamento de la Estadística, ya que las

inferencias que hagamos sobre la población o poblaciones en estudio se moverán dentro de

unos márgenes de error controlado, el cual será medido en términos de probabilidad.

Así pues, es común y corriente hablar de la probabilidad de un suceso, entendiendo como tal

un número entre 0 y 1, de forma que si éste es cercano a 0 (a l), el suceso tiene poca

(mucha) probabilidad de ocurrir o haber ocurrido.

Vemos, pues, que conviene precisar en cada caso de qué se está hablando, tratando de

evitar afirmaciones tan comunes en los medios de comunicación como la de "... mañana es

posible que llueva pero no es probable...".

2.1.1 Concepto clásico y como frecuencia relativa. E n f o q u e c l a s i c o o a p r i o r i

C o n c e p t oE n f o q u e c o m o f r e c u e n c i a r e l a t i v a o a p o s t e r i o r i

⎧⎪⎪⎪⎨⎪⎪⎪⎩

Concepto clásico

Está basado en el concepto de resultados igualmente verosímiles y motivado por el

denominado Principio de la Razón Insuficiente, el cual postula que si no existe un

fundamento para preferir una entre varias posibilidades, todas deben ser consideradas

equiprobables.

Así, en el lanzamiento de una moneda perfecta la probabilidad de cara debe ser igual que la

de cruz y, por tanto, ambas iguales a 1/2. De la misma manera, la probabilidad de cada uno

de los seis sucesos elementales asociados al lanzamiento de un dado debe ser 1/6. Laplace

recogió esta idea y formuló la regla clásica del cociente entre casos favorables y casos

posibles, supuestos éstos igualmente verosímiles.

El problema aquí surge porque en definitiva igualmente verosímil es lo mismo que

igualmente probable, es decir, se justifica la premisa con el resultado. Además ¿qué ocurre


67

cuando estamos considerando un experimento donde no se da esa simetría?, o, ¿ qué hacer

cuando el número de resultados posibles es infinito?.

Si un suceso E puede ocurrir en h maneras diferentes de un número total de n maneras

posibles, todos igualmente factibles. Entonces la probabilidad de que ocurra E (o sea un

éxito) se denota por

p = Pr E = h / n

La probabilidad de que no ocurra E (o sea un fracaso) se denota por

q = Pr no E

q = ( n – h ) / n

q = 1 – h /n

q = 1 - p

q = 1 - Pr E

Así pues, p + q = 1 , es decir,

Pr E + Pr no E = 1.

El suceso “ no E “ se denotara por E.

Ejemplo: sea e el suceso de que al tirar un dado una vez salga un 3 o un 4. Hay seis formas

de caer el dado, dando 1, 2, 3, 4, 5, o 6, como E puede ocurrir de dos formas tenemos:

p = Pr E = 2/6 = 1/3

La probabilidad de que no salga ni 3 ni 4 es:

q = Pr no E = 1 – 1/3 = 2/3

Concepto frecuentista

Es un hecho, empíricamente comprobado, que la frecuencia relativa de un suceso tiende a

estabilizarse cuando la frecuencia total aumenta. Surge así el concepto frecuentista de la

probabilidad de un suceso como un número ideal al que converge su frecuencia relativa

cuando la frecuencia total tiende a infinito.


68

Así, solemos afirmar que la probabilidad de que salga un seis al tirar un dado es 1/6 porque

al hacer un gran número de tiradas su frecuencia relativa es aproximadamente esa. El

problema radica en que al no poder repetir la experiencia infinitas veces, la probabilidad de

un suceso ha de ser aproximada por su frecuencia relativa para un n suficientemente

grande, y ¿cuán grande es un n grande? 0, ¿qué hacer con aquellas experiencias que solo

se pueden repetir una vez?

Si después de n repeticiones de un experimento, donde n es muy grande, un suceso ocurre

h veces entonces la probabilidad del suceso es h / n. Esto también se llama la probabilidad

estimada o empírica, de un suceso se toma como la frecuencia relativa de ocurrencia del

suceso cuando el número de observaciones es muy grande.

Ejemplo: Si en 1000 tiradas de una moneda salen 529 caras, la frecuencia relativa de caras

es: 529/1000 = 0.529

Definición formal de Probabilidad

Los anteriores conceptos de lo que debería ser la probabilidad de un suceso, llevaron a

Kolmogorov a dar una definición axiomática de probabilidad. Es decir, a introducir rigor

matemático en el concepto de probabilidad, de forma que se pudiera desarrollar una teoría

sólida sobre el concepto definido.

Así, llamaremos probabilidad a una aplicación

[ ]1,0: aAP

Tal que:

Axioma 1: Para todo suceso A de A sea ( ) 0≥AP

Axioma 2: Sea P(Ω) = 1

Axioma 3: Para toda colección de sucesos incompatibles, iA con φ=∩ ji AA ji ≠ ,

debe ser

( )∑∞

=

∞

=

=⎟⎟⎠

⎞⎜⎜⎝

⎛

11 ii

ii APAP U


69

Obsérvese que esta definición no dice cómo asignar las probabilidades ni siquiera a los

sucesos elementales. Solo dice que cualquier asignación que hagamos debe verificar estos

tres axiomas para que pueda llamarse Probabilidad.

2.1.2 Interpretación subjetiva de la probabilidad. Concepto subjetivo

Se basa en la idea de que la probabilidad que una persona da a un suceso debe depender

de su juicio y experiencia personal, pudiendo dar dos personas distintas probabilidades

diferentes a un mismo suceso. Estas ideas pueden formalizarse, y si las opiniones de una

persona satisfacen ciertas relaciones de consistencia, puede llegarse a definir una

probabilidad para los sucesos. El principal problema a que da lugar esta definición es, como

antes dijimos, que dos personas diferentes pueden dar probabilidades diferentes a un mismo

suceso.

La probabilidad subjetiva de un evento se la asigna la persona que hace el estudio, y

depende del conocimiento que esta persona tenga sobre el tema. Precisamente por su

carácter de subjetividad no se considera con validez científica, aunque en la vida diaria es de

las más comunes que se utilizan al no apoyarse más que en el sentido común y los

conocimientos previos, y no en resultados estadísticos.

2.2 Probabilidad de eventos. 2.2.1 Definición de espacio muestral. La Estadística, y por tanto el Cálculo de Probabilidades, se ocupan de los denominados

fenómenos o experimentos aleatorios. El conjunto de todos los resultados posibles

diferentes de un determinado experimento aleatorio se denomina Espacio Muestral asociado

a dicho experimento y se suele representar por Ω. A los elementos de Ω se les denomina

sucesos elementales.

Así por ejemplo, el espacio muestral asociado al experimento aleatorio consistente en el

lanzamiento de una moneda es Ω = Cara, Cruz; el espacio muestral asociado al

lanzamiento de un dado es Ω=1, 2, 3, 4, 5, 6, siendo Cara y Cruz los sucesos elementales

asociados al primer experimento aleatorio y 1, 2, 3, 4, 5 y 6 los seis sucesos elementales del

segundo experimento aleatorio.


70

A pesar de la interpretación que tiene el espacio muestral, no es más que un conjunto

abstracto de puntos (los sucesos elementales), por lo que el lenguaje, los conceptos y

propiedades de la teoría de conjuntos constituyen un contexto natural en el que desarrollar el

Cálculo de Probabilidades.

Sea A el conjunto de las partes de, es decir, el conjunto de todos los subconjuntos de Ω. En

principio, cualquier elemento de A, es decir, cualquier subconjunto del espacio muestral

contendrá una cierta incertidumbre, por lo que trataremos de asignarle un número entre 0 y 1

como medida de su incertidumbre.

En Cálculo de Probabilidades dichos subconjuntos reciben en el nombre de sucesos, siendo

la medida de la incertidumbre su probabilidad. La tripleta (Ω,A,P) recibe el nombre de

espacio probabilístico.

Por tanto, asociado a todo experimento aleatorio existen tres conjuntos: El espacio muestral

, la clase de los sucesos, es decir, el conjunto de los elementos con incertidumbre asociados

a nuestro experimento aleatorio A, y una función real,

[ ]1,0: aAP

La cual asignará a cada suceso (elemento de A) un número entre cero y uno como medida

de su incertidumbre.

Advertimos no obstante, que la elección del espacio muestral asociado a un experimento

aleatorio no tiene por qué ser única, sino que dependerá de que sucesos elementales

queramos considerar como distintos y del problema de la asignación de la probabilidad

sobre esos sucesos elementales.

Problema: Liste los elementos de cada uno de los espacios muéstrales siguientes:

a) El conjunto de enteros entre 1 y 50 divisibles entre 8

b) El conjunto S = x | x 2 + 4x – 5 = 0

c) Describir un espacio muestral para una tirada de un par de dados

Solución:

a) S = 8, 16, 24, 32, 40, 48 ;

b) S = -5, 1


71

c)

(1,6)

(1,5)

(1,4)

(1,3)

(1,2)

(1,1)

(2,6)

(2,5)

(2,4)

(2,3)

(2,2)

(2,1)

(3,6)

(3,5)

(3,4)

(3,3)

(3,2)

(3,1)

(4,6)

(4,5)

(4,4)

(4,3)

(4,2)

(4,1)

(5,6)

(5,5)

(5,4)

(5,3)

(5,2)

(5,1)

(6,6)

(6,5)

(6,4)

(6,3)

(6,2)

(6,1)

2.2.2 Discreto y continuo. Modelos discretos: Obedecen a la generación de variables aleatorias discretas generalmente

asociadas a la frecuencia de eventos.

Modelos continuos que generalmente se usan en la modelación individual de los montos o

pérdidas que de alguna u otra manera puedan afectar la caja de la empresa.

2.2.3 Definición de evento. Un evento es un subconjunto de un espacio muestral. La probabilidad de un evento A es

igual a la suma de las probabilidades de los sucesos simples del evento A.

2.2.4 Diagramas de Venn. La relación entre eventos y el correspondiente espacio muestral se puede ilustras de forma

grafica mediante diagramas de Venn. En un diagrama de Venn representamos el espacio

muestral como un rectángulo y los eventos con círculos trazados dentro del rectángulo. Un

universo U puede representarse geométricamente por el conjunto de puntos dentro de un

rectángulo. Tales diagramas denominados diagramas de Venn, sirven para darnos una

intuición geométrica respecto a las posibles relaciones entre conjuntos.

2.2.5 Simbología, uniones e intersecciones. La unión de dos eventos A y B es el evento que ocurre si A o B, o ambos, ocurren en una

sola realización del experimento. Denotaremos la unión de los eventos A y B mediante el

símbolo .BA∪


72

Intersección: Dados dos conjuntos cualesquiera A y B llamamos "Intersección" de A y B al

conjunto formado por todos los elementos que pertenecen a A y pertenecen a B.

Simbólicamente: BA∩

Diferencia: Dados dos conjuntos cualesquiera A y B llamamos "Diferencia" de A "menos" B

al conjunto formado por los elementos que pertenecen a A y no pertenecen a B.

Simbólicamente: A - B

Complemento: Dados dos conjuntos cualesquiera A y B con B⊂ A (B Subconjunto de A)

llamamos "Complemento de B respecto a A" al conjunto de elementos que pertenecen a A y

no a B, esto es lo que le falta a B para ser igual a A.

Simbólicamente: (A∪ B ) ‘


73

2.3 Técnicas de conteo. ¿Qué son las técnicas de conteo?. Las técnicas de conteo son aquellas que son usadas

para enumerar eventos difíciles de cuantificar.

Se les denomina técnicas de conteo a las combinaciones, permutaciones y diagrama de

árbol, hay que destacar que éstas nos proporcionan la información de todas las maneras

posibles en que ocurre un evento determinado.

Las bases para entender el uso de las técnicas de conteo son el principio multiplicativo y el

aditivo, los que a continuación se definen y se hace uso de ellos.

Análisis combinatorio. En muchos casos el número de puntos muéstrales en un espacio muestral no es muy

grande y así la enumeración o cuenta directa de los puntos del muestreo necesario para

obtener las probabilidades no es difícil. Sin embargo, surgen problemas cuando la cuenta

directa se convierte en una imposibilidad práctica. En tales casos se emplea el análisis

combinatorio, que podría llamarse una forma sofisticada de contar.

Principio aditivo. A menudo es más fácil calcular la probabilidad de algún evento a partir del conocimiento de

las probabilidades de otros eventos. Esto puede ser cierto si el evento en cuestión se puede

representar como la unión de otros dos eventos o como el complemento de algún evento. A

continuación se presenta varias leyes importantes que con frecuencia simplifica el cálculo de

probabilidades. La primera regla aditiva se aplica a uniones de eventos.

Si se desea llevar a efecto una actividad, la cuál tiene formas alternativas para ser realizada,

donde la primera de esas alternativas puede ser realizada de M maneras o formas, la

segunda alternativa puede realizarse de N maneras o formas ..... y la última de las

alternativas puede ser realizada de W maneras o formas, entonces esa actividad puede ser

llevada a cabo de,

M + N + .........+ W maneras o formas


74

Problema: Una persona desea comprar una lavadora de ropa, para lo cual ha pensado que

puede seleccionar de entre las marcas Whirpool, Easy y General Electric, cuando acude a

hacer la compra se encuentra que la lavadora de la marca W se presenta en dos tipos de

carga ( 8 u 11 kilogramos), en cuatro colores diferentes y puede ser automática o

semiautomática, mientras que la lavadora de la marca E, se presenta en tres tipos de carga

(8, 11 o 15 kilogramos), en dos colores diferentes y puede ser automática o semiautomática

y la lavadora de la marca GE, se presenta en solo un tipo de carga, que es de 11

kilogramos, dos colores diferentes y solo hay semiautomática. ¿Cuántas maneras tiene esta

persona de comprar una lavadora?

Solución:

M = Número de maneras de seleccionar una lavadora Whirpool

N = Número de maneras de seleccionar una lavadora de la marca Easy

W = Número de maneras de seleccionar una lavadora de la marca General Electric

M = 2 x 4 x 2 = 16 maneras

N = 3 x 2 x 2 = 12 maneras

W = 1 x 2 x 1 = 2 maneras

M + N + W = 16 + 12 + 2 = 30 maneras de seleccionar una lavadora

Problema: Rafael Luna desea ir a las Vegas o a Disneylandia en las próximas vacaciones

de verano, para ir a las Vegas él tiene tres medios de transporte para ir de Chihuahua al

Paso Texas y dos medios de transporte para ir del Paso a las Vegas, mientras que para ir

del paso a Disneylandia él tiene cuatro diferentes medios de transporte,

a) ¿Cuántas maneras diferentes tiene Rafael de ir a las Vegas o a Disneylandia?,

b) ¿Cuántas maneras tiene Rafael de ir a las Vegas o a Disneylandia en un viaje

redondo, si no se regresa en el mismo medio de transporte en que se fue?.

Solución:

a) V = maneras de ir a las Vegas

D = maneras de ir a Disneylandia

V = 3 x 2 = 6 maneras

D = 3 x 4 = 12 maneras

V + D = 6 + 12 = 18 maneras de ir a las Vegas o a Disneylandia


75

b) V = maneras de ir y regresar a las Vegas D = maneras de ir y regresar a

Disneylandia

V = 3 x 2 x 1 x 2 = 12 maneras

D = 3 x 4 x 3 x 2 = 72 maneras

V + D = 12 + 72 = 84 maneras de ir a las Vegas o a Disneylandia en un viaje redondo

¿Cómo podemos distinguir cuando hacer uso del principio multiplicativo y cuando del

aditivo?

Es muy simple, cuando se trata de una sola actividad, la cual requiere para ser llevada a

efecto de una serie de pasos, entonces haremos uso del principio multiplicativo y si la

actividad a desarrollar o a ser efectuada tiene alternativas para ser llevada a cabo, haremos

uso del principio aditivo.

Principio multiplicativo. Si se desea realizar una actividad que consta de r pasos, en donde el primer paso de la

actividad a realizar puede ser llevado a cabo de N1 maneras o formas, el segundo paso de

N2 maneras o formas y el r-ésimo paso de Nr maneras o formas, entonces esta actividad

puede ser llevada a efecto de;

N1 x N2 x ..........x Nr maneras o formas

El principio multiplicativo implica que cada uno de los pasos de la actividad debe ser llevado

a efecto, uno tras otro.

Problema: ¿Cuántas placas para automóvil pueden ser diseñadas si deben constar de tres

letras seguidas de cuatro números, si las letras deben ser tomadas del abecedario y los

números de entre los dígitos del 0 al 9?,

a) Si es posible repetir letras y números,

b) No es posible repetir letras y números,

c) Cuántas de las placas diseñadas en el inciso b empiezan por la letra D y empiezan

por el cero,

d) Cuantas de las placas diseñadas en el inciso b empiezan por la letra D seguida de la

G.


76

Solución:

Considerando 26 letras del abecedario y los dígitos del 0 al 9

a) 26 x 26 x 26 x 10 x 10 x 10 x 10 = 175,760,000 placas para automóvil.

b) 26 x 25 x 24 x 10 x 9 x 8 x 7 = 78,624,000 placas para automóvil

c) 1 x 25 x 24 x 1 x 9 x 8 x 7 = 302,400 placas para automóvil

d) 1 x 1 x 24 x 10 x 9 x 8 x 7 = 120,960 placas para automóvil

Problema: ¿Cuántos números telefónicos es posible diseñar, los que deben constar de seis

dígitos tomados del 0 al 9?,

a) Considere que el cero no puede ir al inicio de los números y es posible repetir

dígitos,

b) El cero no debe ir en la primera posición y no es posible repetir dígitos,

c) ¿Cuántos de los números telefónicos del inciso b empiezan por el número siete?,

d) ¿Cuántos de los números telefónicos del inciso b forman un número impar?.

Solución:

a) 9 x 10 x 10 x 10 x 10 x 10 = 900,000 números telefónicos

b) 9 x 9 x 8 x 7 x 6 x 5 = 136,080 números telefónicos

c) 1 x 9 x 8 x 7 x 6 x 5 = 15,120 números telefónicos

d) 8 x 8 x 7 x 6 x 5 x 5 = 67,200 números telefónicos

Problema: En una ciudad los números de teléfono constan de 5 dígitos, cada uno de los

cuales se llama con alguno de los 10 dígitos (0 al 9). ¿Cuántos números diferentes pueden

formularse?

Solución: 10 x 10 x 10 x 10 x 10 = 100,000 números diferentes

2.3.1 Diagrama de árbol. Problema: Suponga que una persona tiene 2 formas de ir de una ciudad A a otra ciudad B; y

una vez llegada a B, tiene 3 maneras de llegar a otra ciudad C, ¿De cuántas maneras podrá

realizar el viaje de A a C pasando por B?

Solución: Si empezó a pie, podrá tomar luego avión, carro o trasatlántico, y si empezó en

bicicleta, también podrá tomar avión, carro o trasatlántico. La persona tuvo 6 formas

diferentes de realizar el viaje que son: (iniciales) pa, pc, pt, ba, bc, bt. (2 x 3 = 6)


77

Problema: Se va a conformar un comité de 3 miembros compuesto por un representante de

los trabajadores, uno de la administración y uno del gobierno. Si hay 3 candidatos de los

trabajadores, 2 de la administración y 4 del gobierno, determinar cuántos comités diferentes

pueden conformarse, empleando un diagrama de árbol

Problema: Un experimento consiste en lanzar una moneda y después lanzarla una segunda

vez si sale cara. Si sale cruz en el primer lanzamiento, entonces se lanza un dado una vez.

Para listar los elementos del espacio muestral que proporciones mayor información.


78

Problema: Suponga que se selecciona tres artículos de forma aleatoria de un proceso de

fabricación. Cada articulo se inspecciona y clasifica como defectuoso, D, o sin defectos N.

Problema: Un médico general clasifica a sus pacientes de acuerdo a: su sexo (masculino o

femenino), tipo de sangre (A, B, AB u O) y en cuanto a la presión sanguínea (Normal, Alta o

Baja). Mediante un diagrama de árbol diga en cuantas clasificaciones pueden estar los

pacientes de este médico?


79

Si contamos todas las ramas terminales, nos damos cuenta que el número de clasificaciones

son 2 x 4 x 3 = 24 mismas que podemos enumerar;

MAN, MAA, MAB, MBN, MBA, MBB, etc, etc.

Problema: Un producto (por ejemplo, hardware para un sistema de computadoras) se puede

embarcar a través de cuatro aerolíneas diferentes, y cada aerolínea puede transportar los

embarques por tres rutas distintas. ¿Cuántas formas distintas de embarcar el producto

existen?

Problema: Dos equipos denominados A y B se disputan la final de un partido de baloncesto,

aquel equipo que gane dos juegos seguidos o complete un total de tres juegos ganados será

el que gane el torneo. Mediante un diagrama de árbol diga de cuantas maneras puede ser

ganado este torneo,

Solución:

A = gana el equipo A; B = gana el equipo B


80

En este diagrama se muestran que hay solo diez maneras de que se gane el torneo, que se

obtienen contando las ramas terminales de este diagrama de árbol, las que es posible

enumerar;

AA, ABB, ABAA, ABABA, ABABB, etc, etc.

2.3.2 Notación factorial. En algunos problemas de matemáticas se nos presentan multiplicaciones de números

naturales sucesivos tal como:

4 x 3 x 2 x 1 = 24; 3 x 2 x 1 = 6; 2 x 1 = 2.

Para abreviar estas expresiones, se usa una notación especial llamada notación factorial y

nos denota las multiplicaciones sucesivas de n hasta l y se define como:

4 x 3 x 2 x 1 = 4! Se lee“cuatro factorial”

3 x 2 x 1 = 3! Se lee “tres factorial”

En términos generales:

n(n-1)(n-2)...x 2 x 1 = n! Se lee “n factorial”

Propiedades:

a) para n natural n! = n(n-1)!

Ejemplo:

7! = 7 x 6! = 7 x 6 x 5 x 4!

0! = 1

5! = 5 x 4 x 3 x 2 x 1 = 120

4! 3! = (24)(6) = 144

8! 8 7 6 5! 3365! 5!

x x x= =


81

10!8! 10 9! 8 7 6! 5609!6! 9! 6!

x x x xx

= =

3! 3! 15! 5 4 3! 20x x= =

Cuando n es demasiado grande se suele utilizar la fórmula de Stirling:

! 2 * .n nn n n eπ −≅

2.3.3 Permutación. Una permutación es un arreglo de todo o parte de un conjunto de objetos, el cual tiene una

disposición de elementos en un orden especifico. Es todo arreglo de elementos en donde

nos interesa el lugar o posición que ocupa cada uno de los elementos que constituyen dicho

arreglo.

Teorema : Dado un conjunto de n elementos claramente distintos, se desea seleccionar r elementos de

los n y acomodarlos dentro de r posiciones.

El número de permutaciones diferentes de los n elementos tomados r a la vez se denota por

: n P r y es igual n Pr = n ( n – 1 ) (n – 2 ) . . . ( n – r + 1 )

)!(!rn

nPrn −=

para este caso particular r = n se convierte en:

n P n = n ( n – 1 ) (n – 2 ) . . . 1 = n !

donde n ! = n (n – 1 ) (n – 2 ) . . . (3)(2)(1) y se llama n factorial.

Esta fórmula nos permitirá obtener todos aquellos arreglos en donde el orden es importante

y solo se usen parte (r) de los n objetos con que se cuenta, además hay que hacer notar

que no se pueden repetir objetos dentro del arreglo, esto es, los n objetos son todos

diferentes.


82

La demostración del teorema anterior es : hay n formas de ocupar la primera posición. Una

vez que se ocupa, hay n – 1 formas de ocupar la segunda, n – 2 formas de ocupar la

tercera, . . . , y (n – r + 1 ) formas de ocupar la n-ésima posición. Aplicaremos la regla de

multiplicativa para obtener

( )( )( ) ( ) ( )rnnrnnnnPrn −

=+−−−=!1...21

Problema: Hallar:

a) 8 P 3 b) 6 P 4 c) 15 P 1 d) 3 P 3

Solución

a) 336

b) 360

c) 15

d) 6

Problema: El numero de ordenaciones o permutaciones diferentes que consisten de 3 letras

cada una y que puede formarse de las 7 letras A, B , C, D, E, F, G, es n = 7 & r = 3

7P3 = 210

Problema: Se quieren sentar 5 hombres y 4 mujeres en una fila de modo que las mujeres

ocupen los sitios pares ¿de cuantas formas pueden sentarse?

Solución:

( 5 P 5 ) ( 4 P 4 ) = 2880 formas

Problema: ¿Cuantas representaciones diferentes serán posibles formar, si se desea que

consten de Presidente, Secretario, Tesorero, Primer Vocal y Segundo Vocal?, sí esta

representación puede ser formada de entre 25 miembros del sindicato de una pequeña

empresa.

Solución:

Por principio multiplicativo:

25 x 24 x 23 x 22 x 21 = 6,375,600 maneras

Por Fórmula:

n = 25, r = 5


83

25P5 = 25!/ (25 –5)! = 25! / 20! = (25 x 24 x 23 x 22 x 21 x....x 1) / (20 x 19 x 18 x ... x 1) =

6,375,600 maneras de formar la representación

Problema:

a) ¿Cuántas maneras diferentes hay de asignar las posiciones de salida de 8 autos que

participan en una carrera de fórmula uno? (Considere que las posiciones de salida

de los autos participantes en la carrera son dadas totalmente al azar)

b) ¿Cuántas maneras diferentes hay de asignar los primeros tres premios de esta

carrera de fórmula uno?

Solución:

Por principio multiplicativo:

8 x 7 x 6 x 5 x 4 x 3 x 2 x 1= 40,320 maneras de asignar las posiciones de salida de los

autos participantes en la carrera

Por Fórmula:

n = 8, r = 8

8P8= 8! = 8 x 7 x 6 x 5 x 4 x......x 1= 40,320 maneras de asignar las posiciones de salida

......etc., etc.

a) Por principio multiplicativo:

8 x 7 x 6 = 336 maneras de asignar los tres primeros lugares de la carrera

Por fórmula:

n =8, r = 3

8P3 = 8! / (8 – 3)! = 8! / 5! = (8 x 7 x 6 x 5 x ........x1)/ (5 x 4 x 3 x......x1) = 336 maneras de

asignar los tres primeros lugares de la carrera

Problema: ¿Cuántos puntos de tres coordenadas ( x, y, z ), será posible generar con los

dígitos 0, 1, 2, 4, 6 y 9?, Si,

a) No es posible repetir dígitos,

b) Es posible repetir dígitos.

Solución:

a) Por fór

n = 6, r =

6P3 = 6!

Nota: este

b) Por el p

6 x 6 x 6 =

Problema:

ordenarse

Problema:

de química

a) los

b) sol

Solución

a) (4

b) (9

Problema:

Encuentre

Solución:

20

mula

= 3

/ (6 – 3)! = 6

inciso tamb

principio mult

= 216 puntos

De cuántas

en fila en un

Cuatro libro

a se colocan

s libros de ca

lamente los l

P 4 ) (6 P 6 )

P 9 ) (4 P 4 )

Se sacan d

el número de

P 2 = 380

6! / 3! = 6 x 5

ién puede se

tiplicativo

posibles

s maneras 3

taller, de mo

3F

P3 = 3!

3!

os distintos d

en un estant

ada asignatur

libros de mat

) ( 2 P 2 ) ( 3

) = 8709120

dos billetes

e puntos mu

5 x 4 x 3! / 3!

er resuelto p

3 fresadoras

odo que el m

4T

P4 = 4! P4

P4 =

(4!) (4!) (2!)

de matemátic

te. ¿De cua

ra deben est

temáticas de

3 P 3 ) = 207

de lotería d

uéstrales en e

UN

= 6 x 5 x 4 =

or el principi

s, 4 tornos,

mismo tipo de

4T

4 = 4! P

= 4!

(4!) = 16588

cas, seis dife

ntas formas

tar todos junt

eben estar ju

360

de 20 para u

el espacio S

NIDAD II /

= 120 puntos

o multiplicati

4 taladros

e máquina qu

2C

P2 = 2!

8

erentes de f

distintas es

tos,

untos?

un primer y

/ PROBAB

s posibles

ivo

y 2 cepillos

uede juntas.

física y dos d

posible orde

un segundo

BILIDAD.

84

s pueden

diferentes

enarlos si

o premios.


85

Problema: ¿De cuantas formas puede una organización local de la sociedad americana de

química programar a tres conferencistas para tres reuniones diferentes si todos están

disponibles en cualquiera de cinco fechas posibles?

Solución:

5 P 3 = 60

Problema: El testigo de un accidente, en el que el causante se dio a la fuga, le dijo a la

policía que el numero de placas tenias las letras RLH seguidas de tres dígitos, el primero de

los cuales era un 5. si el testigo no puede recordar los dos últimos dígitos, pero está seguro

que todos los dígitos eran diferentes , encuentre el número máximo de registros de

automóviles que la policía tendrá que revisar.

Solución:

9 P 2 = 72

Problema: En una carrera de coches (50 coches) queremos saber el número de formas

distintas en que se pueden repartir los premios (primero, segundo y tercer lugar)

Solución: 50 P 3 = 117600

Problema: Alguien desea colocar 6 cuadros en línea recta sobre la pared de una biblioteca.

¿De cuantas maneras diferentes lo pueden hacer?

Solución: 6P6 = 720

Problema: ¿De cuantas maneras pueden 10 personas sentarse en una banca si solo hay 4

puestos disponibles?


Problemas propuestos: P1.- Un sistema de alarma de seguridad se activa y desactiva introduciendo el código

numérico de tres dígitos apropiados en el orden correcto en un tablero digital.

a) Calcule el número total de posibles combinaciones del código si ningún digito se

puede utilizar dos veces.

b) Calcule el numero total de posibles combinaciones del código si los dígitos se puede

utilizar mas de una vez.

Solución:

a) 10 P 3 = 720 b) (10)(10)(10) = 1000


86

P2.- Se contrata un servicio de calificación de computadoras para encontrar las tres mejore

marcas de monitores EGA. Se incluirá un total de 10 marcas en el estudio. ¿De cuantas

formas distintas puede el servicio de calificación llegar al ordenamiento final?

Solución:

10 P 3 = 720

P3.- en una carrera de coches (50 coches) queremos saber el número de formas distintas en

que se pueden repartir los premios (primero, segundo y tercer lugar)

Solución: 50 P 3 = 117600

P4.- Alguien desea colocar 6 cuadros en línea recta sobre la pared de una biblioteca. ¿De

cuantas maneras diferentes lo pueden hacer?


P5.- ¿De cuantas maneras pueden 10 personas sentarse en una banca si solo hay 4

puestos disponibles?


Permutaciones con repeticiones. Las permutaciones que ocurren al arreglar objetos en un círculo se llaman permutaciones

circulares. Dos permutaciones circulares no se consideran diferentes a menos que los

objetos correspondientes en los dos arreglos estén precedidos o seguidos por un objeto

diferente conforme recorramos en la dirección de las manecillas del reloj.

Teorema: El numero de permutaciones distintas de n cosas de las que n 1 son de una

clase, n 2 de una segunda clase , ... , n k de una k – esima

!,...,!,!!

21,...,, 21

knnnn nnn

nPk=

Problemas: Obtenga todas las señales posibles que se pueden diseñar con seis banderines,

dos de los cuales son rojos, tres son verdes y uno morado.

Solución:

n = 6 banderines; x1 = 2 banderines rojos; x2 = 3 banderines verdes; x3 = 1 banderín

morado


87

6P2,3,1 = 6! / 2!3!1! = 60 señales diferentes

Problema:

a) ¿Cuántas claves de acceso a una computadora será posible diseñar con los

números 1,1,1,2,3,3,3,3?,

b) ¿cuántas de las claves anteriores empiezan por un número uno seguido de un dos?,

c) ¿cuántas de las claves del inciso a empiezan por el número dos y terminan por el

número tres?

Solución:

a) n = 8 números; x1 = 3 números uno; x2 = 1 número dos; x3 = 4 números cuatro

8P3,1,4 = 8! / 3!1!4! = 280 claves de acceso

b) n = 6 (se excluye un número uno y un dos); x1 = 2 números uno; x2 = 4 números tres

1 x 1 x 6P2,4 = 1 x 1 x 6! / 2!4! = 15 claves de acceso

El primer número uno nos indica el número de maneras cómo es posible colocar en la

primera posición de la clave de acceso un número uno, debido a que todos los números uno

son iguales, entonces tenemos una sola manera de seleccionar un número uno para la

primera posición, el siguiente número uno nos indica el número de maneras como se

colocaría en la segunda posición el número dos y la expresión siguiente nos indica todos los

arreglos posibles que es posible diseñar con los números restantes.

c) n = 6 (se excluye un número dos y un tres); x1 = 3 números uno; x2 = 3 números tres

1 x 6P3,3 x1 = 1 x 6! / 3!3! = 20 claves de acceso

El número uno inicial nos indica que existe una sola manera de seleccionar el número dos

que va en la primera posición del arreglo, mientras que el número uno final nos indica que

hay una sola manera de seleccionar el número tres que va al final del arreglo aún y cuando

haya cuatro números tres, como estos son iguales al diseñar una permutación es indistinto

cuál número tres se ponga, ya que siempre se tendrá el mismo arreglo y la expresión

intermedia nos indica todos los arreglos posibles a realizar con los números restantes.

Problema: ¿De cuántas maneras es posible plantar en una línea divisoria de un terreno dos

nogales, cuatro manzanos y tres ciruelos?


88

Solución:

n = 9 árboles; x1 = 2 nogales; x2 = 4 manzanos; x3 = 3 ciruelos

9P2,4,3 = 9! / 2!4!3! = 1260 maneras de plantar los árboles

Problema: Si un equipo de fútbol soccer femenil participa en 12 juegos en una temporada,

¿cuántas maneras hay de que entre esos doce juegos en que participa, obtenga 7 victorias,

3 empates y 2 juegos perdidos?

Solución:

n = 12 juegos; x1 = 7 victorias; x2 = 3 empates; x3 = 2 juegos perdidos

12P7,3,2 = 12! / 7!3!2! = 7,920 maneras de que en la temporada este equipo logre siete

victorias, tres empates y dos juegos perdidos.

Problema: De cuantas formas diferentes se pueden arreglar 3 focos rojos, 4 amarillos, y 2

azules en una serie de luces navideñas con 9 portalámparas?

Solución:

9! 12603!(4!)(2!)

=

Problema: Usted cuanta con 12 analista de sistemas y desea asignar tres al trabajo 1, cuatro

al trabajo 2 y cinco al trabajo 3. ¿De cuantas formas distintas puede efectuar esta

asignación?

Solución:

n1 = 3, n2 = 4, n3 = 5

12! 277203!(4!)(5!)

=

Problema: ¿Cuantas muestras de 4 juntas unidades por soldadura blanda de estaño-plomo

se pueden seleccionar de un lote de 25 juntas de este tipo que están disponibles para

pruebas de resistencia?

25! 12650(4!)(21!)

=


89

Pruebas ordenadas Se le llama prueba ordenada al hecho de seleccionar r objetos de entre n objetos contenidos

en una urna uno tras otro. Una prueba ordenada puede ser llevada a efecto de dos maneras:

a) Con sustitución (con reemplazo).- En este caso se procede a seleccionar el primer

objeto de entre los n que hay, se observa de qué tipo es y se procede a regresarlo a

la urna, luego se selecciona el siguiente objeto, lo anterior se repite hasta que se

han extraído los r objetos de la prueba, por tanto el número de pruebas ordenadas

de con sustitución se obtiene:

Número total de pruebas ordenadas con sustitución = n x n x n x .........x n = nr

Hay n maneras de seleccionar el primer objeto, luego al seleccionar el segundo objeto, dado

que se ha regresado a la urna el primer objeto, también se tendrán n objetos y así

sucesivamente.

b) Sin sustitución (sin reemplazo).- En este caso se procede a seleccionar el primer

objeto, el cual no es regresado a la urna, luego se selecciona el segundo objeto, lo

anterior se repite hasta completar los r objetos de la prueba, por lo que el número

total de pruebas ordenadas sin sustitución se obtiene:

Número total de pruebas ordenadas sin sustitución = n(n-1)(n-2).........(n-r +1) = nPr

Hay n maneras de seleccionar el primer objeto, luego al seleccionar el segundo objeto, hay

n –1 maneras, dado que el primer objeto no se regresa a la urna, luego cuando se extrae el

r-ésimo objeto, hay (n –r +1) de que sea seleccionado.

Problema: ¿Cuántas maneras hay de que se asignen tres premios de un sorteo en donde el

primer premio es una departamento, el segundo premio es un auto y el tercer premio es un

centro de cómputo, si los participantes en este sorteo son 120 personas,

a) sí la asignación se puede hacer con sustitución,

b) sí la asignación se puede hacer sin sustitución.

Solución:

a) Por principio multiplicativo:

120 x 120 x 120 = 1,728,000 maneras de asignar los premios

Por fórmula: n =120, r = 120


90

nr = 1203 = 1,728,000 maneras de asignar los tres premios

b) Por principio multiplicativo:

120 x 119 x 118 = 1,685,040 maneras de asignar los premios

Por fórmula:

n = 120, r = 3

120P3 = 120! / (120 – 3)! = 120! / 117! = 120 x 119 x 118 = 1,685,040 maneras de asignar los

premios

Hay que hacer notar que en este caso, como los boletos que son seleccionados ya no

regresan a la urna de donde fueron extraídos, los participantes solo pueden recibir un premio

en caso de que fueran de los afortunados. Esta es la forma en que generalmente se efectúa

un sorteo.

Problema: ¿Cuántas formas hay de asignar las primeras cinco posiciones de una carrera de

autos de fórmula K, si participan 26 autos en esta carrera?. Considere que la asignación es

totalmente al azar.

Solución:

Esta asignación debe ser sin sustitución, esto es, se trata de una prueba ordenada sin

sustitución, por lo que la solución es la que se muestra.

n = 26, r = 5

26P5 = 26! / (26 – 5)! = 26! / 21! = 26 x 25 x 24 x 23 x 22 = 7,893,600 maneras de asignar las

cinco primeras posiciones de salida

Problema: ¿Cuántas formas hay de asignar el orden de participación de las primeras 5

concursantes de 11 finalistas de un concurso de Miss Mundo?

Solución:

Esta asignación debe realizarse sin sustitución, por lo que se trata de una prueba ordenada

sin sustitución.

n = 11, r = 5


91

11P5 = 11! / (11 – 5)! = 11! / 6! = 11 x 10 x 9 x 8 x 7 = 55,440 maneras de asignar la

participación

2.3.4 Combinaciones. Como ya se mencionó anteriormente, una combinación, es un arreglo de elementos en

donde no nos interesa el lugar o posición que ocupan los mismos dentro del arreglo. En una

combinación nos interesa formar grupos y el contenido de los mismos.

Teorema Se desea escoger una muestra de r elementos de un conjunto de n elementos. Entonces, el

numero de muestras distintas de r elementos que se pueden escoger de n se denota por

( )nr

y es igual

=⎟⎟⎠

⎞⎜⎜⎝

⎛rn

)!(!!

rnrnCrn −

=

Observe que el orden en que se extraen los r elementos no es importante.

Demostración del teorema:

La selección de una muestra de r elementos de un conjunto de n elementos equivale a

dividir los n elementos entre k = 2 grupos: los r que se escogen para la muestra y los ( n – r )

restantes que no se seleccionan. Por tanto, al aplicar el teorema obtenemos:

=⎟⎟⎠

⎞⎜⎜⎝

⎛rn

)!(!!

rnrnCrn −

=

Problema:

Hallar el valor de

a) 7 C4 b) 6 C 5 c) 4 C 4

Solución:

a)


92

35)!47(!4

!747 =

−=C

b)

6)!56(!5

!656 =

−=C

c)

1)!44(!4

!444 =

−=C

Problema: E l número de maneras en las cuales 3 cartas pueden escogerse o seleccionarse

de un total de 8 cartas diferentes es:

Solución:

56)!38(!3

!8=

−=rn C

Problema: De cuatro químicos y tres físicos encuentre el número de comités que se pueden

formar que consistan en dos químicos y un físico.

Solución:

Químico 4 C 2; Físico 3 C 1

( ) ( )

( ) ( )

4 2 3 14! 3!

2!(4 2)! 1!(3 1)!

6 3 18

C C ⎛ ⎞⎛ ⎞= =⎜ ⎟⎜ ⎟− −⎝ ⎠⎝ ⎠

=

Problema: Se contrataran cinco ingenieros de ventas de entre un grupo de 100 solicitantes.

¿De cuantas formas (combinaciones) podemos seleccionar grupos de cinco ingenieros de

ventas?

Solución:

100 C 5 = 75, 287,520

Problema: a) Si se cuenta con 14 alumnos que desean colaborar en una campaña pro

limpieza del Tec, cuantos grupos de limpieza podrán formarse si se desea que consten de 5

alumnos cada uno de ellos, b) si entre los 14 alumnos hay 8 mujeres, ¿cuantos de los


93

grupos de limpieza tendrán a 3 mujeres?, c) ¿cuántos de los grupos de limpieza contarán

con 4 hombres por lo menos?

Solución:

a) n = 14, r = 5

14C5 = 2002 grupos

b) n = 14 (8 mujeres y 6 hombres), r = 5

8C3*6C2 = 840

c) En este caso nos interesan grupos en donde haya 4 hombres o más

6C4* 8C1 + 6C5* 8C0 = 15 x 8 + 6 x 1 = 120 + 6 = 126

Problema: Para contestar un examen un alumno debe contestar 9 de 12 preguntas,

a) ¿Cuántas maneras tiene el alumno de seleccionar las 9 preguntas?,

b) ¿Cuántas maneras tiene si forzosamente debe contestar las 2 primeras preguntas?,

c) ¿Cuántas maneras tiene si debe contestar una de las 3 primeras preguntas?,

d) ¿Cuántas maneras tiene si debe contestar como máximo una de las 3 primeras

preguntas?

Solución:

a) n = 12, r = 9

12C9 = 220 maneras de seleccionar las nueve preguntas o dicho de otra manera,

el alumno puede seleccionar cualquiera de 220 grupos de 9 preguntas para contestar el

examen

b) 2C2* 10C7 = 1 x 120 = 120 maneras de seleccionar las 9 preguntas entre las que están

las dos primeras preguntas

c) 3C1* 9C8 = 3 x 9 = 27 maneras de seleccionar la 9 preguntas entre las que está una

de las tres primeras preguntas

d) En este caso debe seleccionar 0 o 1 de las tres primeras preguntas

3C0* 9C9 + 3C1* 9C8 = (1 x 1) + (3 x 9)

= 1 + 27 = 28 maneras de seleccionar las preguntas a contestar


94

Problema. Una señora desea invitar a cenar a 5 de 11 amigos que tiene

a) ¿Cuántas maneras tiene de invitarlos?,

b) ¿cuántas maneras tiene si entre ellos está una pareja de recién casados y no

asisten el uno sin el otro,

c) ¿Cuántas maneras tiene de invitarlos si Rafael y Arturo no se llevan bien y no van

juntos?

Solución:

a) n = 11, r = 5

11C5 = 462 maneras de invitarlos

Es decir que se pueden formar 462 grupos de cinco personas para ser invitadas a cenar.

b) Esta señora tiene dos alternativas para hacer la invitación, la primera es no

invitar a la pareja y la segunda es invitar a la pareja.

2C0* 9C5 + 2C2* 9C3 = (1 x 126) + (1 x 84) = 210 maneras de invitarlos

En este caso separamos a la pareja de los demás invitados para que efectivamente se

cumpla el que no asistan o que asistan a la cena.

c) La señora tiene dos alternativas para hacer la invitación, una de ellas es que

no invitar a Rafael y a Arturo o que asista solo uno de ellos.

2C0* 9C5 + 2C1* 9C4

= (1 x 126) + (2 x 126)

= 126 + 252 = 378 maneras de hacer la invitación

Problema: En un plano hay 10 puntos denominados A, B, C, ....,etc. etc., en una misma línea

no hay más de dos puntos,

a) ¿Cuántas líneas pueden ser trazadas a partir de los puntos?,

b) ¿Cuántas de las líneas no pasan por los puntos A o B?,

c) ¿Cuántos triángulos pueden ser trazados a partir de los puntos?,

d) ¿Cuántos de los triángulos contienen el punto A?,

e) ¿Cuántos de los triángulos tienen el lado AB?.

Solución:

a) Una línea puede ser trazada a partir de cómo mínimo dos puntos por lo tanto,


95

10C2 = 10! / (10 – 2)!2! = 10! / 8!2! = 45 líneas que se pueden trazar

b) En este caso excluiremos los puntos A y B y a partir de los ocho puntos restantes se

obtendrán las líneas.

2C0* 8C2 = 1 x 28 = 28 líneas que no pasan por los puntos A o B

c) Un triángulo puede ser trazado a partir de tres puntos, luego;

10C3 = 10! / (10 – 3)!3! = 10! / 7!3! = 120 triángulos posibles de trazar

d) En este caso se separa el punto A de los demás, se selecciona y posteriormente

también se seleccionan dos puntos más.

1C1* 9C2 = 1 x 36 = 36 triángulos que contienen el punto A

e) Los puntos A y B forman parte de los triángulos a trazar por lo que;

2C2*8C1 = 1 X 8 = 8 triángulos que contienen el lado AB

Problema: De un total de 5 matemáticos y 7 físicos, se forma un comité de 2 matemáticos y

3 físicos. ¿De cuantas formas puede formarse, si

a) puede pertenecerá el cualquier matemático y físico,

b) un físico determinado debe permanecer al comité,

c) dos matemáticos determinados no pueden estar en el comité?

a) 2 Mat. de un total de 5 5 C 2

3 Fis. de un total de 7 7 C 3 = (5 C 2) ( 7 C 3) = 350

b ) 2 Mat. de un total de 5 5 C 2

2 Fis. de un total de 6 6 C 2 = (5 C 2) (6 C 2) = 150

c) 2 Mat. de un total de 3 3 C 2

3 Fis. de un total de 7 7 C 3 = (3 C 2) (7 C 3) = 105

Problema: De cuantas formas pueden 10 objetos dividirse en dos grupos de 4 y 6 objetos

respectivamente.

Solución:

(10 C 4) = 210


96

Problema: Cuantas manos diferentes de 5 naipes pueden darse con un mazo normal de 52

naipes, no importa el orden en que se reciban las cartas, lo que nos indica que se trata de

una combinación.

Solución:

52 C 5 = 2598960

Problema: Si 10 alumnos desean jugar baloncesto, ¿cuántos equipos diferentes pueden

formarse con estos jugadores ? , uno de los muchachos se llama José. Solo se desea contar

los equipos que incluyen a Jose

Solución:

10 C 5 = 252 equipos diferentes

El número de equipos que incluyen a José son:

9 C 4 = 126

Problema: ¿cuántas parejas distintas pueden formarse con cinco individuos?

Solución:

5 C 2 = 10

Particiones ordenadas. Se le llama partición ordenada al hecho de repartir n objetos en células de una cantidad de

x1 objetos, x2 objetos,......y xk objetos.

Problema: ¿Cuántas maneras hay de repartir 10 libros diferentes entre tres alumnos, si al

primero le daremos 2, al segundo 3 y el resto al tercer alumno? , esta partición serían las

siguientes si se numeran los libros del 1 al 10;

Solución:

Lo primero que debemos hacer es seleccionar 2 libros de los 10 que se tienen para el primer

alumno, esto es;

10C2 = 10! / (10 – 2)!2! = 10! / 8!2! = 45 maneras de seleccionar los libros

Luego se seleccionan 3 libros de los 8 que quedan para el segundo alumno;

8C3 = 8! / (8 – 3)!3! = 8! / 5!3! = 56 maneras

Y por último se procederá a seleccionar cinco libros de los cinco que quedan para el tercer

alumno, lo que se muestra a continuación;


97

5C5 = 5! / (5 –5)!5! = 5! / 0!5! = 1 manera

Por tanto el número total de particiones ordenadas en células de 2, 3 y 5 elementos se

determina:

10C2* 8C3* 5C5 = 2520

La expresión anterior nos recuerda a la fórmula utilizada para encontrar las permutaciones

de n objetos, entre los cuales hay algunos objetos que son iguales, por lo que usaremos la

misma fórmula para encontrar las particiones ordenadas.

Por tanto la fórmula para las particiones ordenadas sería:

Esta fórmula sólo puede ser utilizada cuando se reparten todos los objetos, no parte de

ellos, en ese caso se usarán combinaciones.

Donde:

nPx1,x2,.....,xk = Total de particiones ordenadas o reparticiones que es posible hacer cuando

los n objetos son repartidos en grupos de x1 objetos, x2 objetos ...... y xk objetos.

n = x1 + x2 + ......+ xk

Problema: ¿Cuántas maneras hay de repartir 9 juguetes entre tres niños, si se desea que al

primer niño le toquen 4 juguetes, al segundo 2 y al tercero 3 juguetes?

Solución:

Por combinaciones,

9C4* 5C2* 3C3 = 126*10*1= 1260 maneras de repartir los juguetes

Por fórmula,

n = 9; x1 = 4; x2 = 2; x3 =3

9P4,2,3 = 9! / 4!2!3! = 1,260 maneras de repartir los juguetes

Problema: ¿Cuántas maneras hay de repartir los mismos 9 juguetes entre tres niños, si se

desea darle 3 al primer niño, 2 al segundo niño y 2 al tercer niño?

!x!.......x!x!nx,..........x,nPx

kk

2121 =


98

Solución:

En este caso únicamente se puede dar solución por combinaciones, ya que no es posible

usar la fórmula debido a que se reparten solo parte de los juguetes.

9C3* 6C2* 4C2 = 84*15*6 = 7,560 maneras de repartir los juguetes (solo se reparten 7 y

quedan dos juguetes)

Problema:

a) ¿Cuántas maneras hay de que se repartan 14 libros diferentes entre 3 alumnos, si

se pretende que al primer alumno y al segundo les toquen 5 libros a cada uno y al

tercero le toque el resto?,

b) ¿Cuántas maneras hay de que se repartan los libros si se desea dar 5 libros al

primer alumno, 3 al segundo y 2 libros al tercer alumno?

Solución:

a) Por fórmula:

n = 14 ; x1 = 5; x2 = 5; x3 = 4

14P5,5,4 = 14! / 5!5!4! = 21,021 maneras de repartir los libros en grupos de 5, 5 y 4 libros

b) Por combinaciones:

14C5* 9C3* 6C2 = 2,002*84*15 = 2,522,520 maneras de repartir 10 de los 14 libros en grupos

de 5, 3 y 2 libros

Problema:

a) ¿Cuántas maneras hay de repartir a 12 alumnos en 4 equipos de 3 personas cada

uno de ellos para que realicen prácticas de laboratorio diferentes?,

b) ¿Cuantas maneras hay de que se repartan los 12 alumnos en 4 equipos de 3

personas si se va a realizar una misma práctica?

Solución:

a) En este caso al ser prácticas de laboratorio diferentes, es posible resolver el

problema por combinaciones o por la fórmula, dado que se reparten todos los

alumnos

Por fórmula:

n = 12; x1 = 3 práctica 1; x2 = 3 práctica 2; x3 = 3 práctica 3; x4 = 3 práctica 4


99

12P3,3,3,3 = 12! / 3!3!3!3! = 369,600 maneras de repartir a los estudiantes en cuatro equipos

de 3 personas para realizar prácticas diferentes

b) 12P3,3,3,3 * 1 /4! = 12! / 3!3!3!3! * 1 / 4! = 369,600 / 4! = 15,400 maneras de repartir a

los alumnos en equipos de 3 personas para realizar una misma práctica

Al multiplicar la solución que se da al inciso a, por 1/4! se está quitando el orden de los

grupos, que en este caso no nos interesa.

Ejercicios propuestos: P1.- Se contrata un servicio de calificación de computadoras para encontrar las tres mejore

marcas de monitores EGA. Se incluirá un total de 10 marcas en el estudio. ¿De cuantas

formas distintas puede el servicio de calificación pero no debe poner los tres en ningún

orden?

Solución:

10 C 3 = 120

P2.- ¿cuántas parejas distintas pueden formarse con cinco individuos?

Solución.

5 C 2 = 10

P3.- Con 5 estadistas y 6 economistas quiere formarse un comité de 3 estadistas y 2

economistas. ¿Cuántos comités diferentes pueden formarse si:

a)no se impone ninguna restricción ,

b)dos estadistas determinados deben estar en el comité

c)un economista determinado no debe estar en el comité?

Solución:

a) 150 b) 45 c) 100

P4.- Suponga que necesita reemplazar 5 empaques en un dispositivo que funciona con

energía nuclear. Si tiene una caja con 20 empaques de entre los cuales escoger, ¿cuantas

elecciones diferentes son posibles? Es decir, ¿cuantas muestras distintas de 5 empaques se

pueden seleccionar de los 20 ?

Solución:

20C5 = 15,504


100

P5.- Se realizo un estudio para examinar la reacción entre la estructura de costos y la

propiedades mecánicas de granos equieje en lingotes solidificados unidireccionalmente (

Metallurgical Transactions, mayo de 1986 ). Lingotes de aleaciones de cobre se vertieron en

uno de tres tipos de moldes (columnares, mixtos o equieje) con una orientación ya sea

transversal o longitudinal. De cada lingote se tomaron cinco especimenes para pruebas de

tensión a distintas distancias (10, 35, 60, 85 y 100 milímetros ) de la cara de enfriamiento del

lingote, y se determino la resistencia al vencimiento. ¿ Cuantas mediciones de resistencia se

obtendrán si el experimento incluye un lingote para cada combinación de tipo de molde y

orientación?

Solución: (3C2)(5C2) = 30

2.4 Probabilidad con técnicas de conteo. 2.4.1 Axiomas. Axioma 1: para cada suceso a en la clase C P ( A ) ≥ 0

Axioma 2: para el suceso cierto o seguro S en la clase C P ( S ) = 1

Axioma 3: para cualquier numero mutuamente excluyente A 1, B2, ... en la clase C

P ( A1∪ A2∪ ) = p( A1) + p( A2) + ...

En particular , para solo dos sucesos mutuamente excluyentes A1, A2

P (A1∪A2) = p(A1) + p(A2)

2.4.2 Teoremas. Teorema 1 . si A1⊂ A2 entonces P (A1) ≤ P( A2) y P( A2 - A1) = P( A2 ) – P (A1)

Teorema 2. para cada suceso A 0 ≤ P ( A) ≤ 1 es decir la probabilidad de un suceso entre 0

y 1.

Teorema 3. P (∅ ) = 0 es decir el suceso imposible tiene probabilidad cero.

Teorema 4. si A ‘ es el complemento de A entonces P ( A ‘ ) = 1 – p ( A )

Teorema 5. p(A) = p(A1) + p(A2) + ... + p (A n ); En particular si A = S, el espacio muestral,

entonces p(A1) + p(A2) + ... + p (A n ) = 1

Teorema 6. si A y B son dos sucesos cualesquiera , entonces

P ( A∪ B ) = P(A) + P(B) - P ( A∩B )

Teorema 7. para dos sucesos A y B

P ( A) = P ( A∩B ) + P ( A∩B ‘ )


101

Teorema 8. si un suceso A debe resultar en uno de los sucesos mutuamente excluyentes A1

, A2, ...,An entonces P ( A) = P( A∩ A1 ) + P ( A∩ A2)+ …+ P ( A ∩ An )

2.5 Probabilidad condicional. 2.5.1 Dependiente. Hay ocasiones en que nos interesa alterar nuestra estimación de la probabilidad de un

evento cuando poseemos información adicional que podría afectar el resultado. Esta

probabilidad modificada se denomina probabilidad condicional del evento.

La probabilidad de que un evento B ocurra cuando se sabe que ya ocurrió algún evento A se

llama probabilidad condicional y se denota por P(B A ). El símbolo P(B A ) por lo

general se lee “ la probabilidad de que ocurra B dado que ocurrió A “ o simplemente “ la

probabilidad de B, dado A”.

Fórmula para la probabilidad condicional

Para determinar la probabilidad condicional de que el evento A ocurra, Dado que ocurra el

evento B, divida la probabilidad de que ocurra tanto A como B entre la probabilidad de

que ocurra B; esto es,

( ) ( )( )BP

BAPBAP ∩=

donde suponemos que P ( B ) ≠ 0

Sea δ un espacio muestral en donde se ha definido un evento E, donde p(E)>0, si

deseamos determinar la probabilidad de que ocurra un evento A (el que también es definido

en el mismo espacio muestral), dado que E ya ocurrió, entonces deseamos determinar una

probabilidad de tipo condicional, la que se determina como se muestra;

Donde:

p(AE) = probabilidad de que ocurra A dado que E ya ocurrió; p(A∩E) = probabilidad de que

ocurra A y E a un mismo tiempo; p(E) = probabilidad de que ocurra E

)E(p)EA(p)E|A(p ∩

=


102

Luego;

Por tanto:

Donde:

A∩E= número de elementos comunes a los eventos A y E

E= número de elementos del evento E

Luego entonces podemos usar cualquiera de las dos fórmulas para calcular la probabilidad

condicional de A dado que E ya ocurrió.

Si la ocurrencia o no de E1 no afecta para nada la probabilidad de ocurrencia de E2 ,

entonces : Pr E2 E1 = P E2 , y diremos que E1 y E2 son sucesos independientes; en

caso contrario, se dirá que son casos dependientes.

Si denotamos por E1 E2 el suceso de que ambos E1 y E2 ocurran, llamado un suceso

compuesto, entonces

Pr E1 E2 = Pr E1 Pr E2 E1

En particular,

Pr E1 E2 = Pr E1 Pr E2

Problema: La probabilidad de que un vuelo programado normalmente salga a tiempo es

P(D) = 0.83; la probabilidad de que llegue a tiempo es P ( A ) 0 0.82; y la probabilidad de que

salga y llegue a tiempo es P ( D ∩ A ) = 0.78. Encuentre la probabilidad de que un avión

a) llegue a tiempo, dado que salió a tiempo y

b) salió a tiempo, dado que llego a tiempo.

Solución:

a) La probabilidad de que un avión llegue a tiempo, dado que salió a tiempo es

( ) 0.78( | ) 0.94( ) 0.83

P D AP A DP D∩

= = =

ΙΙΙ∩Ι

=∩δ

EA)EA(PΙΙΙΙ

=δE)E(P

ΙΙΙ∩Ι

=E

EA)E|A(P


103

La probabilidad de que un avión saliera a tiempo, dado que llego a tiempo es

( ) 0.78( | ) 0.95( ) 0.82

P D AP D AP A∩

= = =

Problema: Sean E1 y E2 los sucesos cara en el quinto lanzamiento y cara en el sexto

lanzamiento de una moneda, respectivamente. Entonces E1 y E2 son sucesos

independientes y por lo tanto, la probabilidad de que salga cara en ambos intentos es

Pr E1 E2 = Pr E1 Pr E2 = ½ ( ½) = ¼

Problema: Si las probabilidades de A y B de estar vivos dentro de 20 años son 0.7 y 0.5,

respectivamente, entonces la probabilidad de que ambos lo estén es

(0.7) (0.5) = 0.35

Problema: Una caja contiene 3 bolas blancas y 2 bolas negras. Sea E1 el suceso “ la primera

bola extraída es negra ” y E2 el suceso “ la segunda bola extraída es negra ”. las bolas

extraídas no se devuelven a la caja E1 y E2 son sucesos dependientes .

Solución:

Pr E1 E2 = Pr E1 P E2 = ( 2/5 )(1 / 4 ) = 1 /10

Sucesos mutuamente excluyentes Dos o más sucesos se llaman sucesos mutuamente excluyentes si la ocurrencia de

cualquiera de ellos excluye la de los otros. De modo que si E1 y E2 son sucesos mutuamente

excluyentes , entonces

Pr E1 E2 = 0

Si E1 + E2 denota el suceso de que ocurra E1 o bien E2 o ambos a la vez, entonces

Pr (E1 + E2 ) = Pr (E1 ) + Pr ( E2 ) - Pr (E1 E2 )

En particular

Pr (E1 + E2 ) = Pr (E1 ) + Pr ( E2 ) para suceso

Mutuamente excluyentes

Problema: Sea E1 el suceso “ sacar un as de una baraja” y E2 “sacar un rey”. Cual es la

probabilidad de sacar o un as o un rey en un solo ensayo es


104

Solución:

Pr (E1 ) = 4 / 52 = 1/13

Pr (E2 ) = 4/52 = 1/13

Pr (E1 + E2 ) = 1 / 13 + 1/13 = 2 / 13

Problema: Una bola se extrae aleatoriamente de una caja que contiene 6 bolas rojas, 4

bolas blancas y 5 bolas azules. Determinar la probabilidad de que sea a) roja, b) blanca, c)

azul, d) no roja, e) roja o azul.

Solución:

a) pr ( roja ) = 6 / ( 6 + 4 + 5 ) = 6 / 15 = 2/5

b) Pr ( blanca = 4 / 15

c) Pr ( azul ) = 5 /15 = 1/3

d) Pr(no roja ) = 1 – Pr(roja) = 1 – 2/5 = 3/5

O bien

Pr ( no roja ) = 4 / 15 + 5 / 15 = 9/15 = 3/5

e) Pr ( roja o azul ) = pr (roja) + Pr ( blanca) = 2/5 + 4 /15 = 2/3

Problema: Sea E1 el suceso “sacar un as ” de una baraja y E2 “ sacar una espada”.

Entonces E1 y E2 no son sucesos mutuamente excluyentes, porque pueden sacarse el as

de espadas. Luego la probabilidad de sacar un as o una espada o ambos es

Pr (E1 + E2 ) = Pr (E1 ) + Pr ( E2 ) - Pr (E1 E2 ) = 4 /52 + 13/52 – 1 /52 = 16 / 52 = 4 /13

Problema: Un dado honesto se lanza dos veces. Hallar la probabilidad de obtener 4, 5 o 6 en

el primer lanzamiento y 1, 2, 3 o 4 en el segundo lanzamiento.

Solución: E1 = 4, 5 o 6 E2 = 1, 2, 3 o 4

Pr (E1 ∩ E2 ) = Pr (E1 )

Pr ( E2 E1 ) = Pr (E1 ) P (E2 ) = (3/6)(4/6) = 1/3

Problema: Se extraen tres bolas sucesivamente de la caja que contiene 6 bolas rojas, 4

bolas blancas y 5 bolas azules. Hallar la probabilidad de que se extraigan en el orden roja,

blanca y azul si las bolas , a) se remplazan, b) no se remplazan.

Solución:

a) pr ( se remplazan ) = [6 / ( 6 + 4 + 5 ) ] [4 / ( 6 + 4 + 5 )] [5 / ( 6 + 4 + 5 ) ] = 8/225


105

b) Pr ( no se remplazan) = [6 / ( 6 + 4 + 5 ) ] [4 / ( 5 + 4 + 5 )] [5 / ( 5 + 3 + 5 ) ] = 4/91

Problema: Hallar la probabilidad de obtener al menos un 4 en dos lanzamientos de un dado

honrado.

Pr ( al menos un 4 en dos lanzamientos) = Pr (E1 ) + Pr ( E2 ) - Pr (E1 ∩ E2 )

= Pr (E1 ) + Pr ( E2 ) - Pr (E1) Pr(E2 ) = 1/6+1/6 - (1/6)(1/6) = 11/36

Problema: Se lanza al aire dos dados normales, si la suma de los números que aparecen es

de por lo menos siete,

a) determine la probabilidad de que en el segundo dado aparezca el número cuatro,

b) Determine la probabilidad de que ambos números sean pares,

c) Determine la probabilidad de que en el primer dado aparezca el número dos.

Solución:

El espacio muestral es el mismo que cuando se lanza un dado dos veces y se muestra a

continuación;

(1,1) (2,1) (3,1) (4,1) (5,1) (6,1)

(1,2) (2,2) (3,2) (4,2) (5,2) (6,2)

δ = (1,3) (2,3) (3,3) (4,3) (5,3) (6,3)

(1,4) (2,4) (3,4) (4,4) (5,4) (6,4)

(1,5) (2,5) (3,5) (4,5) (5,5) (6,5)

(1,6) (2,6) (3,6) (4,6) (5,6) (6,6)

a) Para calcular una probabilidad condicional es necesario definir los eventos A y E,

siendo estos,

A = evento de que en el segundo dado aparezca el número cuatro,

E = evento de que la suma de los números que aparecen sea de por lo menos siete, (que es

que es el evento que está condicionando)

E = 21 elementos, los que suman siete o más

(6,1) (5,2) (6,2)(4,3) (5,3) (6,3) (3,4) (4,4) (5,4) (6,4) (2,5) (3,5) (4,5) (5,5) (6,5) (1,6) (2,6) (3,6) (4,6) (5,6) (6,6)

E ⎧ ⎫= ⎨ ⎬⎩ ⎭

A = 6 elementos, los que en el segundo dado aparece el cuatro


106

A = (1,4) (2,4) (3,4) (4,4) (5,4) (6,4)

Luego,

A∩E = (3,4) (4,4) (5,4) (6,4), A∩E= 4 elementos

Por tanto;

p(AE) = A∩E/ E= 4/21 = 0.19048

b) E = evento de que la suma de los números que aparecen sea de por lo menos siete

(6,1) (5,2) (6,2)(4,3) (5,3) (6,3)(3,4) (4,4) (5,4) (6,4)(2,5) (3,5) (4,5) (5,5) (6,5)(1,6) (2,6) (3,6) (4,6) (5,6) (6,6)

E⎧ ⎫

= ⎨ ⎬⎩ ⎭

A = evento de que ambos números sean pares

A = (2,2) (4,2) (6,2) (2,4) (4,4) (6,4) (2,6) (4,6) (6,6)

A∩E = (6,2) (4,4) (6,4) (2,6) (4,6) (6,6) A∩E=6 elementos

p(AE) = A∩E/ E = 6/ 21 = 0.28571

c) E = evento de que la suma de los números que aparecen sea de por lo menos siete

(6,1) (5,2) (6,2)(4,3) (5,3) (6,3) (3,4) (4,4) (5,4) (6,4)(2,5) (3,5) (4,5) (5,5) (6,5) (1,6) (2,6) (3,6) (4,6) (5,6) (6,6)

E ⎧ ⎫= ⎨ ⎬⎩ ⎭

A = evento de que en el primer dado aparezca el número dos

A = (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)

A∩E = (2,5), A∩E= 1 elemento

P(AE) = A∩E/E = 1/21 = 0.04762

Problema: Se seleccionan al azar dos números de entre los números del 1 al 9, si la suma

de los números que aparecen es par,

a) Determine la probabilidad de que ambos números sean pares,

b) Determine la probabilidad de que ambos números sean impares.

Solución:


107

δ = 9C2 = 36 maneras de seleccionar dos números de entre nueve que se tienen

(1,2)

(1,3) (2,3)

(1,4) (2,4) (3,4)

δ = (1,5) (2,5) (3,5) (4,5)

(1,6) (2,6) (3,6) (4,6) (5,6)

(1,7) (2,7) (3,7) (4,7) (5,7) (6,7)

(1,8) (2,8) (3,8) (4,8) (5,8) (6,8) (7,8)

(1,9) (2,9) (3,9) (4,9) (5,9) (6,9) (7,9) (8,9)

a) E = evento de que la suma de los números que se seleccionan sea par

E = (1,3) (2,4) (1,5) (3,5) (2,6) (4,6) (1,3) (3,7) (5,7) (2,8) (4,8) (6,8) (1,9) (3,9) (5,9) (7,9)

E = 16 elementos

A = evento de que ambos números Sean pares

A = (2,4) (2,6) (4,6)(2,8) (4,8) (6,8)

A = 6 elementos

A∩E = (2,4) (2,6) (4,6) (2,8) (4,8) (6,8)

A∩E = 6 elementos ,

p(AE) = A∩E/ E= 6/16 = 0.375

b) E = evento de que la suma de los números seleccionados es par

E = (1,3) (2,4) (1,5) (3,5) (2,6) (4,6) (1,3) (3,7) (5,7) (2,8) (4,8) (6,8) (1,9) (3,9) (5,9) (7,9)

A = evento de que ambos números sean impares

A = (1,3) (1,5) (3,5) (1,7) (3,7) (5,7) (1,9) (3,9) (5,9) (7,9)

A = 10 elementos,

A∩E = (1,3) (1,5) (3,5) (1,7) (3,7) (5,7) (1,9) (3,9) (5,9) (7,9)

A∩E= 10 elementos; p(AE)= A∩E/ E= 10/16 = 0.625

Problema: Dada la siguiente tabla referente a la producción de flechas para camión de carga

pesada; se inspeccionan 200 flechas del tipo A y B, 300 del tipo C y 400 del tipo D, a

continuación se presentan los resultados obtenidos en la inspección;


108

Tipo flecha

DEFECTO A B C D TOTAL

I 54 23 40 15 132

II 28 12 14 5 59

S - DEF 118 165 246 380 909

TOTAL 200 200 300 400 1100

a) Si se selecciona una flecha al azar y resulta que es una flecha del tipo B, ¿cuál es la

probabilidad de que no tenga defectos,

b) Si la flecha seleccionada es del tipo C, ¿cuál es la probabilidad de que tenga

defectos del tipo II?,

c) Si la flecha seleccionada tiene defectos del tipo I, ¿cuál es la probabilidad de que

sea del tipo A,

d) ¿cuál es la probabilidad de que una flecha no tenga defectos?,

e) ¿cuál es la probabilidad de que una flecha tenga defectos?

Solución:

a) Definiremos los eventos;

E = evento de que la flecha seleccionada sea del tipo B = 200 elementos o flechas

A = evento de que la flecha seleccionada no tenga defectos = 909 flechas o elementos

A∩E = 165 elementos del tipo B y que no tienen defectos

p(AE) = A∩E/E= 165/200 = 0.825

b) E = evento de que la flecha sea del tipo C = 300 flechas

A = evento de que la flecha tenga defectos del tipo II =59 flechas

A∩E = 14 flechas del tipo C y que tienen defectos del II ;

p(AE) =A∩E/E= 14/300 = 0.04667

c) E = evento de que la flecha tenga defectos del tipo I = 132 flechas

A = evento de que la flecha sea del tipo A = 200 flechas

A∩E = 54 flechas con defectos del tipo I y del tipo A

p(AE) = A∩E/E= 54 / 132 = 0.40901

d) En este caso se trata de una probabilidad simple, ya que no hay un evento que esté

condicionando al evento del cual se desea determinar su probabilidad


109

D = evento de que una flecha no tenga defectos = 909 flechas

δ = 1100 flechas

p(D) = 909/1100 = 0.82636

e) F = evento de que una flecha tenga defectos = 132 + 59 = 191 flechas

δ = 1100 flechas p(F) = 191 / 1100 = 0.17364

Problema: Según las estadísticas, la probabilidad de que un auto que llega a cierta

gasolinera cargue gasolina es de 0.79, mientras que la probabilidad de que ponga aceite al

motor es de 0.11 y la probabilidad de que ponga gasolina y aceite al motor es de 0.06,

a) Sí un auto carga gasolina, ¿cuál es la probabilidad de que ponga aceite?,

b) Sí un auto pone aceite al motor, ¿cuál es la probabilidad de que ponga gasolina?

Solución:

a) E = evento de que un auto cargue gasolina p(E) = 0.79

A = evento de que un auto ponga aceite al motor P(A) = 0.11

A∩E = evento de que un auto ponga gasolina y aceite p(A∩E) = 0.07

p(AE) = p(A∩E)/p(E) = 0.07/ 0.79 = 0.0881

b) E = evento de que un auto ponga aceite al motor P(E) = 0.11

A = evento de que un auto ponga gasolina P(A) = 0.79

A∩E = evento de que un auto ponga aceite al motor y ponga gasolina P(A∩E) = 0.07

P(AE) = p(A∩E)/ p(E) = 0.07/0.11 = 0.63636

Problema: La probabilidad de que un auto de carreras cargue gasolina en cierto circuito en la

primera media hora de recorrido es de 0.58, la probabilidad de que cambie de neumáticos en

esa primera media hora de recorrido es de 0.16, la probabilidad de que cargue gasolina y

cambie de neumáticos en la primera media hora de recorrido es de 0.05,

a) ¿Cuál es la probabilidad de que cargue gasolina o cambie de neumáticos en la

primera media hora de recorrido?,

b) ¿cuál es la probabilidad de que no cargue combustible y de neumáticos en la

primera media hora de recorrido,

c) Si el auto cambia de neumáticos en la primera media hora de recorrido, ¿cuál es la

probabilidad de que cargue combustible también?,


110

d) Si el auto carga combustible en la primera media hora de recorrido, ¿cuál es la

probabilidad de que cambie de neumáticos también?

Solución:

a) A = evento de que cargue gasolina en la primera media hora de recorrido P(A) = 0.58

B = evento de que cambie de neumáticos en la primera hora de recorrido P(B) = 0.16

A∩B = evento de que cargue combustible y cambie de neumáticos en la primera hora de

recorrido P(A∩B) = 0.05

P(cargue gasolina o cambie de neumáticos) = p(A∪B) = p(A) + p(B) – p(A∩B)

P(cargue gasolina o cambie de neumáticos) = 0.58 + 0.16 – 0.05 = 0.69

b) p( no cargue combustible y no cambie de neumáticos) = 1 – p(A∪B) = 1 – 0.69 = 0.31

c) E = evento de que el auto cambie de neumáticos en la primera media hora de recorrido

A = evento de que el auto cargue combustible en la primera media hora de recorrido

p(AE) = p(A∩E)/ p(E) = 0.05/0.16 = 0.3125

d) E = evento de que el auto cargue combustible en la primera media hora de recorrido

A = es el evento de que el auto cambie de neumáticos en la primera media hora de recorrido

p(AE) = p(A∩E)/p(E) = 0.05/0.58 = 0.08621

2.5.2 independientes. Se dice que un evento B es independiente de un evento A, si p(BA) = p(B), esto quiere

decir que la probabilidad de que ocurra B no es afectada por la ocurrencia del evento A, la

expresión anterior se puede sustituir en el teorema de la multiplicación para probabilidad

condicional,

p(A∩B) = p(A)p(BA) = p(A)p(B)

Luego,

p(A∩B) = p(A)p(B)

Concepto de independencia

Si la expresión anterior se cumple, podemos decir que los eventos A y B son

independientes.

Problema: Pruebas repetidas e independientes.


111

Sea δ el espacio muestral del lanzamiento de una moneda tres veces,

δ = AAA, AAS, ASA, ASS, SAS, SAA, SSA, SSS

p(AAA) = p(A1∩A2∩A3) = p(A1)p(A2A1)p(A3A1∩A2) = p(A)p(A)p(A) =1/2*1/2*1/2 = 1/8

p(AAS) = p(A)p(A)p(S) =1/2*1/2*1/2 =1/8

p(ASA) = p(A)p(S)p(A) = 1/2*1/2*1/2 = 1/8

etc, etc.

Con lo anterior se comprueba que efectivamente la probabilidad de cada uno de los

elementos del espacio muestral descrito anteriormente es de 1/8 como se consideraba

cuando se calculaban probabilidades para un espacio finito equiprobables.

Problema: Un equipo de fútbol soccer tiene una probabilidad de ganar de 0.6, una

probabilidad de empatar de 0.3 y una probabilidad de perder de 0.1, si este equipo participa

en dos juegos la semana próxima, determine la probabilidad de que; a. Gane el segundo

juego, b. Gane ambos juegos, c. Gane uno de los juegos, d. Gane el primer juego y empate

el segundo.

El espacio muestral sería:

δ = GG, GE, GP, EG, EE, EP, PG, PE, PP

a) p(gane el segundo juego) = p(GG, EG, PG) = (0.6)(0.6) + (0.3)(0.6) + (0.1)(0.6)

= 0.36 + 0.18 + 0.06 = 0.6

b) p(gane ambos juegos) = p(GG) = (0.6)(0.6) = 0.36

c) p(gane uno de los juegos) = p(GE, GP, EG, PG)

= (0.6)(0.3) + (0.6)(0.1) + (0.3)(0.6) + (0.1)(0.6) = 0.18 + 0.06 + 0.18 + 0.06 = 0.48

d) p(gane el primero y empate el segundo) = p(GE) = (0.6)(0.3) = 0.18

Problema: Un boxeador gana 8 de cada 10 peleas en las que compite, si este boxeador

participará en tres peleas en los próximos seis meses, determine la probabilidad de que;

a) Gane dos de las peleas


112

b) Si gana dos de las peleas, ¿cuál es la probabilidad de que sean la primera y tercera

peleas?,

c) Gane la segunda pelea.

Solución: δ=GGG. GGP, GPG, GPP, PGG, PGP, PPG, PPP

a) p(gane dos de las peleas) = p(GGP, GPG, PGG)

= (0.8)(0.8)(0.2) + (0.8)(0.2)(0.8) + (0.2)(0.8)(0.8) = 0.128 + 0.128 + 0.128 = 0.384

b) E = evento de que gane dos peleas.

E = GGP, GPG, PGG , p(E) = 0.348

A = evento de que gane la primera y la tercer pelea

A=GGG, GPG A∩B = GPG, p(A∩B) = (0.8)(0.2)(0.8) =0.128

P(AE) = p(A∩E) / p(E) = 0.348/0.128= 0.3333

c) p(gane la segunda pelea) = p(GGG, GGP, PGG, PGP)

= (0.8)(0.8)(0.8) + (0.8)(0.8)(0.2) + (0.2)(0.8)(0.8) + (0.2)(0.8)(0.2)

= 0.512 + 0.128 + 0.128 + 0.032 = 0.8

Problema: Tres hombres tiran a un blanco, A tiene 1/3 de posibilidades de acertar al blanco,

B tiene 1/2 de posibilidades de acertar y C tiene 1/4 de posibilidades de pegar al blanco, si

cada uno de ellos hace un solo disparo, determine la probabilidad de que;

a) Solo uno de ellos acierte al blanco,

b) Si solo uno de ellos acierta al blanco, ¿cuál es la probabilidad de que acierte A?,

c) Determine la probabilidad de que ninguno acierte al blanco.

Solución:

Haciendo uso de un diagrama de árbol se obtiene el siguiente espacio muestral;

δ = ABC, ABC`, AB`C, AB`C`, A`BC, A`BC`, A`B`C, A`B`C`

donde:

A = acierta A, A`= no acierta A, B = acierta B, B`= no acierta B, etc., etc.

a) p(solo uno de ellos acierte al blanco)

= p(AB`C`, A`BC`, A`B`C) = 1/3*1/2*3/4 + 2/3*1/2*3/4 + 2/3*1/2*1/4

= 3/24 + 6/24 + 2/24 = 11/24 = 0.45833


113

b) E = evento de que solo uno de ellos acierte al blanco

E = AB`C`, A`BC`, A`B`C; p(E) =11/24

A = evento de que A acierte al blanco

A = ABC, ABC`, AB`C, AB`C`

A∩E = AB`C` = 1/3*1/2*3/4 = 3/24

p(AE)= p(A∩E)/p(E) = (3/24)/(11/24)

= 3/11 = 0.27273

c) p(ninguno acierte al blanco) = p(A´B´C´) = 2/3*1/2*3/4 = 6/24 = 0.25

2.6. Eventos Independientes 2.6.1 Regla de Bayes. Teorema de la Probabilidad Total

Sea un espacio probabilístico (Ω, A, P) y nA A⊂ una partición de sucesos de Ω.

Es decir,

nA = ΩU y i jA A φ=I para toda i j≠

Entonces, para todo suceso B A⊂ es ( ) ( | )* ( )n nn

P B P B A P A=∑ .

Resultado que se puede parafrasear diciendo que la probabilidad de un suceso que se

puede dar de varias formas es igual a la suma de los productos de las probabilidades de

éste en cada una de esas formas, P(B / A n), por las probabilidades de que se den estas

formas, P(A n).

Problema: Una población está formada por tres grupos étnicos: A (un 30%), B (un 10%) y C

(un 6O%). Además se sabe que el porcentaje de personas con ojos claros en cada una de

estas poblaciones es, respectivamente, del 20%, 40% y 5%. Por el teorema de la

probabilidad total, la probabilidad de que un individuo elegido al azar de esta población

tenga ojos claros es: P(ojos claros) = P(A) ·P(ojos claros/A) + P(B) · P(ojos claros/B) + P(C) · P(0jos claros/C )

= 0'3 · 0'2 + 0'1 · 0'4 + 0'6 · 0'05 = 0'13.


114

Teorema de Bayes

El siguiente teorema es un resultado con una gran carga filosófica detrás, el cual mide el

cambio que se va produciendo en las probabilidades de los sucesos a medida que vamos

haciendo observaciones. Paradójicamente a su importancia, su demostración no es más que

la aplicación de la definición de probabilidad condicionada seguida de la aplicación del

teorema de la probabilidad total.

Teorema:

Sea un espacio probabilístico (Ω, A, P) y nA A⊂ una partición de sucesos de Ω y B A∈

un suceso con probabilidad positiva. Entonces, para todo suceso Ai es

( ) ( | )( | )( ) ( | )

i ii

n nn

P A P B AP A BP A P B A

=∑

Este teorema tiene una interpretación intuitiva muy interesante. Si las cosas que pueden

ocurrir las tenemos clasificadas en los sucesos Ai de los cuales conocemos sus

probabilidaes P(Ai), denominadas a priori, y se observa un suceso B, la fórmula de Bayes

nos da las probabilidades a posteriori de los sucesos A<SUB<I< sub>, ajustadas o

modificadas por B.

Problema: Supongamos que tenemos una urna delante de nosotros de la cual solo

conocemos que o es la urna A1 con 3 bolas blancas y 1 negra, o es la urna A2 con 3 bolas

negras y 1 blanca. Con objeto de obtener más información acerca de cual urna tenemos

delante, realizamos un experimento consistente en extraer una bola de la urna desconocida.

Si suponemos que la bola extraida resultó blanca 1B y a priori ninguna de las dos urnas es

más verosímil que la otra, P(A1) = P(A2) = 1/2, entonces la fórmula de Bayes nos dice que las

probabilidades a posteriori de cada urna son

P(A1/1B) =3/4 y P(A2/1B) =1/4

Habiendo alterado de esta forma nuestra creencia sobre la urna que tenemos delante: Antes

creíamos que eran equiprobables y ahora creemos que es tres veces más probable que la

urna desconocida sea la A1.


115

Pero, ¿qué ocurrirá si extraemos otra bola?. Lógicamente, en la fórmula de Bayes

deberemos tomar ahora como probabilidades a priori las calculadas, 3/4 y 1/4, pues éstas

son nuestras creencias sobre la composición de la urna, antes de volver a realizar el

experimento.

Si suponemos que la bola no fue reemplazada (se deja para el lector el caso de

reemplazamiento), y sale una bola negra 2N, la fórmula de Bayes nos devolvería a la

incertidumbre inicial, ya que sería

P(A1/2N) =1/2 y P(A2/2N) =1/2

Si hubiera salido blanca, la fórmula de Bayes, al igual que la lógica, también sería

concluyente,

P(A1/2B) =1 y P(A2/2B) =0

La utilización de la fórmula de Bayes, es decir, la utilización de distribuciones de probabilidad

a posteriori como modelos en la estimación de parámetros, al recoger ésta tanto la

información muestral, P(B/Ai), como la información a priori sobre ellos, P(Ai), constituye una

filosofía inferencial en gran desarrollo en los últimos años, la cual, no obstante, tiene el

inconveniente (o según ellos la ventaja) de depender de la información a priori, la cual en

muchas ocasiones es subjetiva y por tanto, pudiendo ser diferente de un investigador a otro.

Uno de los primeros intentos por utilizar la probabilidad para hacer inferencias es la base de

una rama de la metodología estadística llamada métodos estadísticos bayesianos.

Con referencia a la figura siguiente podemos escribir A como la unión de los dos eventos

mutuamente excluyentes E ∩ A y E’ ∩ A.

De aquí :

A = ( E ∩ A ) ∪ ( E’ ∩ A. ),

Y por el corolario i del teorema y además podemos escribir

P ( A ) = P [ (E ∩ A ) ∪ P ( E’ ∩ A ) ] = P (E ∩ A ) + P ( E’ ∩ A )

= P (E ) P (A E) + P ( E’ ) P ( AE’ ) .


116

Problema:

P ( E) = 600/900 = 2/3 ; P (A E) = 36/600 = 3/50

P ( E ‘ ) = 1/3 P ( AE’ ) = 12/300 = 1/25

P ( A ) = (2/3)(3/50) + (1/3)(1/25) = 4/75

Una generalización de la ilustración precedente al caso donde el espacio muestral se parte

en k subconjuntos la cubre el siguiente teorema, que algunas veces se denomina teorema

de probabilidad total o regla de eliminación

Teorema 2.6.1. Si los eventos B 1 , B 2 , ..., B k constituyen una partición del espacio muestral S tal que

P(Bi ) ≠ 0

para i = 1, 2, ..., k, , entonces para cualquier evento A de S,

∑∑==

=∩=k

iii

k

ii BABPABPAP

11)|)(()()(

Problema: En cierta planta de montaje, tres maquinas, B 1, B2 y B3 , montan 30% , 45 % y 25

% de los productos, respectivamente. Se sabe de la experiencia pasada que 2% , 3% y 2%

de los productos ensamblados por cada maquina, respectivamente, tiene defectos. Ahora ,

suponga que se selecciona de forma aleatoria un producto terminado. ¿ cual es la

probabilidad de que este defectuoso?

Solución:

A = el producto esta defectuoso

B 1: el producto esta ensamblado por la maquina B 1

B2: el producto esta ensamblado por la maquina B2

B3: el producto esta ensamblado por la maquina B3

Al aplicar la regla de eliminación, podemos escribir

P ( A ) = P (B 1 ) P (A B 1) + P (B 2 ) P (A B 2) + P (B 3 ) P (A B 3)


117

P (B 1 ) P (A B 1) = (0.3) (0.02) = 0.006; P (B 2 ) P (A B 2) = (0.45)(0.03) = 0.0135

P (B 3 ) P (A B 3) = (0.25)(0.02) = 0.005; P ( A ) = 0.006 + 0.0135 + 0.005 = 0.0245

¿Cuál es la probabilidad de que este producto fuera hecho por la maquina B i ?

Preguntas de este tipo se puede contestar mediante la regla de bayes

Problema: con referencia al ejemplo anterior, si se elige al azar un producto y se encuentra

que es defectuoso, ¿ cual es la probabilidad de que este ensamblado por la maquina B 3 ?

Solución:

3 33

1 1 2 2 3 3

( ) ( | )( | )( ) ( | ) ( ) ( | ) ( ) ( | )

P B P A BP B AP B P A B P B P A B P B P A B

=+ +

y después sustituir las probabilidades calculadas en el ejemplo anterior , tenemos:

30.005 0.005 10( | )

0.006 0.0135 0.005 0.0245 49P B A = = =

+ +

En vista del hecho de que se selecciono un producto defectuoso, este resultado sugiere que

probablemente no fue hecho con la maquina B 3.

Problema: Tres máquinas denominadas A, B y C, producen un 43%, 26% y 31% de la

producción total de una empresa respectivamente, se ha detectado que un 8%, 2% y 1.6%

del producto manufacturado por estas máquinas es defectuoso,

a) Se selecciona un producto al azar y se encuentra que es defectuoso, ¿cuál es la

probabilidad de que el producto haya sido fabricado en la máquina B?,

b) Si el producto seleccionado resulta que no es defectuoso, ¿cuál es la probabilidad de que

haya sido fabricado en la máquina C?

Solución:


118

a) Definiremos los eventos;

D = evento de que el producto seleccionado sea defectuoso (evento que condiciona); A =

evento de que el producto sea fabricado en la máquina A; B = evento de que el producto sea

fabricado por la máquina B; C = evento de que el producto sea fabricado por la máquina C

( ) ( | )( | )( ) ( | ) ( ) ( | ) ( ) ( | )

P B P D BP B DP A P D A P B P D B P C P D C

=+ +

0.26(0.02) 0.0052( | ) 0.1166970.43(0.08) 0.26(0.02) 0.31(0.016) 0.04456

P B D = = =+ +

b) ND = evento de que el producto seleccionado no sea defectuoso (evento que condiciona)

A = evento de que el producto sea fabricado en la máquina A; B = evento de que el producto

sea fabricado por la máquina B; C = evento de que el producto sea fabricado por la máquina

C.

( ) ( | )( | )( ) ( | ) ( ) ( | ) ( ) ( | )

P C P ND CP C NDP A P ND A P B P ND B P C P ND C

=+ +

0.31(0.984) 0.30504( | ) 0.319270.43(0.92) 0.26(0.98) 0.31(0.984) 0.95544

P B D = = =+ +

Problema: Una empresa recibe visitantes en sus instalaciones y los hospeda en cualquiera

de tres hoteles de la ciudad; Palacio del Sol, Sicomoros o Fiesta Inn, en una proporción de


119

18.5%, 32% y 49.5% respectivamente, de los cuales se ha tenido información de que se les

ha dado un mal servicio en un 2.8%, 1% y 4% respectivamente,

a) Si se selecciona a un visitante al azar ¿cuál es la probabilidad de que no se le

haya dado un mal servicio?

b) Si se selecciona a un visitante al azar y se encuentra que el no se quejó del

servicio prestado, ¿cuál es la probabilidad de que se haya hospedado en el

Palacio del Sol?,

c) Si el visitante seleccionado se quejó del servicio prestado, ¿cuál es la probabilidad

de que se haya hospedado en e hotel Fiesta Inn?

Solución: Haciendo uso de un diagrama de árbol;

a) NQ = evento de que un visitante no se queje del servicio; PS = evento de que un

visitante haya sido hospedado en el hotel Palacio del Sol; S = evento de que un

visitante haya sido hospedado en el hotel Sicómoro; FI = evento de que un visitante

haya sido hospedado en el hotel Fiesta Inn

( ) ( ) ( | ) ( ) ( | ) ( ) ( | )( ) 0.185(0.972) 0.32(0.99) 0.495(0.96) 0.97182

P NQ P PS P NQ PS P S P NQ S P FI P NQ FIP NQ

= + += + + =

b) NQ = evento de que un visitante no se queje del servicio; PS = evento de que un

visitante haya sido hospedado en el hotel Palacio del Sol; S = evento de que un

visitante haya sido hospedado en el hotel Sicomoro; FI = evento de que un visitante



120

0.185(0.972) 0.17982( | ) 0.18503420.185(0.972) 0.32(0.99) 0.495(0.96) 0.97182

P PS NQ = = =+ +

c) Q = evento de que un visitante se queje del servicio; FI = evento de que un visitante


0.495(0.04) 0.0198( | ) 0.70260.185(0.028) 0.32(0.01) 0.495(0.04) 0.0.02818

P FI Q = = =+ +

UNIDAD 3

FUNCIONES Y DISTRIBUCIONES

MUESTRALES.

Objetivo: Establecerá las distribuciones de probabilidad, basándose en datos de situaciones reales o simuladas que impliquen eventos aleatorios. Centrará su estudio en las distribuciones Binomial, Hipergeométrica, Poisson, Normal, TStudent, chi-cuadrada y f de Fisher para su aplicación.

UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

122

3.1 Función de probabilidad. 3.1.1 Variables aleatorias discretas. La estadística se ocupa de realizar inferencias acerca de poblaciones y sus características.

Se lleva a cabo experimentos cuyos resultados se encuentran sujetos al azar. Por ejemplo,

el espacio muestral que da una descripción detallada de cada posible resultado cuando se

prueban tres componentes electrónicos se puede escribir como:

S = NNN, NND, NDN, DNN, NDD, DND, DDN, DDD

Donde N denota “no defectuoso” y D denota “defectuoso”. Naturalmente, estamos

interesados en el número de defectuosos que ocurren. De esta forma a cada punto muestral

se le asignara un valor numérico de 0, 1, 2, o 3. Estos resultados son, por supuesto,

cantidades aleatorias determinadas por el resultado del experimento. Se puede ver como

valores que toma la variable aleatoria X, el número de artículos defectuosos cuando se

prueban tres componentes electrónicos.

Definición Una variable aleatoria es una función que asocia un numero real con cada elemento del

espacio muestral.

Ejemplo: supóngase que se lanza una moneda dos veces de tal forma que el espacio

muestral es S = SS, SA, AS, AA .

Represéntese por X el número de sol que puede resultar.

Punto muestral SS SA AS AA

X 2 1 1 0

Ejemplo: se sacan dos bolas de manera sucesiva sin reemplazo de una urna que contiene

cuatro bolas rojas y tres negras. Los posibles resultados y los valores x de la variable

aleatoria. x el numero de bolas rojas, son

Punto muestral RR RB BR BB

X 2 1 1 0


123

Definición Si un espacio muestral contiene un numero finito de posibilidades o una serie interminable

con tantos elementos como números enteros existen, se llama espacio muestral discreto.

3.1.2 Variables aleatorias continuas. Una variable aleatoria continua tiene una probabilidad cero de tomar exactamente cualquiera

de sus valores. En consecuencia, su distribución de probabilidad no se puede dar en forma

tabular. Consideremos una variable aleatoria cuyos valores son las alturas de toda la gente

mayor de 21 años de edad. Entre cualesquiera dos valores, digamos 163.5 y 164.5

centímetros, o incluso 163.99 y 164.01 centímetros, hay un número infinito de alturas unas

de las cuales es 164 centímetros. Tratamos ahora como un intervalo en lugar de un valor

puntual de nuestra variable aleatoria. Trataremos el cálculo de probabilidades para varios

intervalos de variables aleatorias continuas como:

( ) ( ), ,P a x b P W c< < >

Nótese que cuando x es continua,

( ) ( ) ( ) ( )bxaPbXPbXaPbxaP <<==+<<=≤<

Es decir no importa si incluimos o no un extremo del intervalo. Esto no es cierto, sin

embargo, cuando X es discreta. Aunque la distribución de probabilidad de variable continua

no se puede representar en forma tabular, se puede establecer como una formula. Dicha

fórmula necesariamente será función de los valores numéricos de la variable continua f(x)

por lo general se llama función de densidad de probabilidad o simplemente función de

densidad de X.

Definición Si un espacio muestral contiene un número infinito de posibilidades igual al número de

puntos en un segmento de línea, se llama espacio muestral continuo.

3.2 Distribución Binomial. 3.2.1 Conceptos de ensayos de Bernoulli. Binomial. Es la que maneja la distribución de la probabilidad de obtener cierta cantidad de

éxitos al realizar una cantidad de experimentos con probabilidad de éxito constante y con

ensayos independientes


124

Las características de esta distribución son: a) En los experimentos que tienen este tipo de distribución, siempre se esperan dos

tipos de resultados, ejem. Defectuoso, no defectuoso, pasa, no pasa, etc, etc.,

denominados arbitrariamente “éxito” (que es lo que se espera que ocurra) o

“fracaso” (lo contrario del éxito).

b) Las probabilidades asociadas a cada uno de estos resultados son constantes, es

decir no cambian.

c) Cada uno de los ensayos o repeticiones del experimento son independientes entre

sí.

d) El número de ensayos o repeticiones del experimento (n) es constante.

La distribución Binomial o de Bernoulli Consideremos los llamados ensayos Bernoulli, éstos son aquellos experimentos cuyo

resultado es uno de dos posibles y mutuamente excluyentes, a los que se denominarán éxito

y fracaso.

Entonces se tiene lo que se denomina experimento Binomial, donde el número de ensayos

se denota con n, la probabilidad de éxito con p y la de fracaso con q. Hay que notar que las

probabilidades de éxito y de fracaso están relacionadas de la siguiente manera: p + q =1.

La distribución de probabilidad Binomial La distribución de probabilidad para una variable aleatoria Binomial esta dada por

nx ,...,2,1,0=

Donde:

p = probabilidad de éxito en una sola prueba; q = 1 – p (probabilidad de fracaso)

n = número de pruebas; x = numero de éxitos en n pruebas. La media y la varianza de la

variable Binomial son, respectivamente, np=μ npq=2σ

Problema: Hallar la probabilidad de que al lanzar una moneda tres veces resulten (a) tres

sol; (b) dos águilas y un sol; (c) al menos un sol ; ( d) no más de una águila.

xnx qpx

nxXP −

⎟⎟⎟

⎠

⎞

⎜⎜⎜

⎝

⎛== )( xnx qp

xnxn −

−=

)!(!!


125

Solución:

Puede ocurrir 2 posibilidades (sol o águila ) por cada lanzamiento hay un total de

( 2) ( 2) (2) = 8 resultados posibles.

S = SSS, SSA, SAS, ASS, SAA, ASA, AAS, AAA

P(caiga un sol en una sola tirada) = p = ½

P(no caiga sol en una sola tirada) = q = 1 – p = ½

(a) p( tres sol )

n = 3 y x = 3 n – x = 3 – 3 = 0

dbinom 3 3,12,⎛⎜

⎝⎞⎟⎠

0.125=

(b) p ( dos águilas y un sol )

n = 3 ; x = 2 ; n – x = 3 – 2 = 1

dbinom 2 3,12,⎛⎜

⎝⎞⎟⎠

0.375=

( c ) p (al menos un sol ) = p ( 1 , 2 , ó 3 sol )

o bien = 1 – p (ningún sol )

n = 3 ; x = 0; n – x = 3 – 0 = 3

1 dbinom 0 3,

12,⎛⎜

⎝⎞⎟⎠

− 0.875=

(e) p(no más de una águila ) = p( 0 águila ó 1 águila) = p( 0 águila) +p(1 águila )

para 0 águila : n = 3 ; x = 0 ; n – x = 3 – 0 = 3

para 1 águila : n = 3 ; x = 1 ; n – x = 3 – 1 = 2

dbinom 0 3,12,⎛⎜

⎝⎞⎟⎠

dbinom 1 3,12,⎛⎜

⎝⎞⎟⎠

+ 0.5=

Problema: La probabilidad de que cierta clase de componente sobreviva a una prueba de

choque dada es ¾. Encuentre la probabilidad de que sobrevivan exactamente dos de los

siguientes cuatro componentes que se prueben.

Solución:

p = ¾; n = 4 ; x = 2;


126

b ( 2; 4, ¾ ) = 4 C2 ( ¾) 2 (1/4) 2 = 27/128 = 0.2109

Problema: La probabilidad de que un paciente se recuperé de una delicada operación de

corazón es 0.9 ¿cuál es la probabilidad de que exactamente cinco de los siguientes siete

pacientes intervenidos sobrevivan?

Solución:

n = 7; p = 0.9, q = 0.1,, x = 5

b ( 5; 7, 0.9) = 7C5 (0.9) 5 (0.1) 2 = 0.1240

Problema: Hallar la probabilidad de que en cinco lanzamientos de un dado honrado

aparezca 3

a) dos veces

b) máximo una vez

c) al menos dos veces

Solución:

p = 1/6; q = 1 – p = 5/6

a) n = 5 ; x = 2

b( 2; 5, 1/6) = 5C2 (1/6) 2 ( 5/6) 3 = 625/3888 = 0.16075

b) n = 5 , x= 0 , 1

b( 0; 5, 1/6) + b( 1; 5, 1/6) = 3125/3888= 0.80386

c) n = 5 ; x = 2, 3, 4, 5

b( 2; 5, 1/6) +b( 3; 5, 1/6) +b( 4; 5, 1/6) +b( 5; 5, 1/6) = 763/3888 = 0.19624

Problema: Si el 20 % de los tornillos producidos por una máquina son defectuosos,

determinar la probabilidad de que de 4 tornillos escogidos aleatoriamente

(a)1,

(b) 0,

(c) menos de 2, sean defectuosos.

Solución:


127

(a) n = 4 x =1 p = 0.2 q = 0.8

b(1 ; 4, 0.2) = 0.4096

(b) n = 4 x = 0 p = 0.2 q = 0.8

b(0 ; 4, 0.2) = 0.4096

(c ) n = 4 x = 0, 1 p = 0.2 q = 0.8

p(x<2) = P(x = 0) + P(x = 1) = 0.8192

Problema: Hallar la probabilidad de obtener un total de 7 al menos una vez en tres

lanzamiento de un par de dados honrados.

Solución:

n = 7 p =1/6 X = 0 q = 5/6

P(al menos un 7 en tres lanzamiento) = 1 – P( ningún 7 en 3 lanzamiento)

n = 3 x = 0 p = 1/6 q = 5/6

b ( 0; 3, 1/6) = 125/216 = 0.57870

P(al menos un 7 en tres lanzamiento) = 1 – 125/216

= 91/216 = 0.42130

Problema: Calcula la probabilidad de que una familia que tiene 4 hijos, 3 de ellos sean

varones.

Solución: n = 4 y p =1/2 ; x = 3

p(obtener 3 varones) = b(3;4,½) = 0.25

Problema: Se tiene una moneda trucada de modo que la probabilidad de sacar cara es

cuatro veces la de sacar cruz. Se lanza 6 veces la moneda. Calcula las siguientes

probabilidades:

a) Obtener dos veces cruz.

b) Obtener a lo sumo dos veces cruz.

Solución: Calculamos en primer lugar la probabilidad de cara y de cruz:

p(cara) + p(cruz) =1. Si llamamos x a la probabilidad de sacar cruz, podemos escribir:

4 x + x = 1; 5x=1; x =1/5 =0,2


128

Así resulta: p(cruz)=0,2 y p(cara)=0,8 n = 6 y p = 0,2

a) Probabilidad de obtener dos veces cruz: x = 2

b(2; 6,0.2) = 0.24

b) Probabilidad de obtener a lo sumo dos veces cruz: x ≤ 2 o bien x = 0, 1, 2

b(0; 6,0.2) + b(1; 6,0.2)+ b(2; 6,0.2) = 0.90

Problema: La probabilidad de que un alumno de 1º de Bachillerato repita curso es de 0,3.

Elegimos 20 alumnos al azar. ¿Cuál es la probabilidad de que haya exactamente 4 alumnos

repetidores?

Solución:

X = 4 n = 20; p = 0.3 ; q = 0.7

b( 4; 20, 0.3) = 0.13

Problema: Los ingenieros eléctricos saben que una corriente neutral elevada en los

sistemas de alimentación de computadoras son un problema potencial. Un estudio reciente

de las corrientes de carga en sistemas de alimentación de computadoras en instalaciones

estadounidenses revelo que el 10 % de las instalaciones tenían razones de corriente neutral

a corriente de carga total altas ( IEEE transactions on Industry Applications, Julio / agosto de

2004). Si se escoge una muestra aleatoria de cinco sistemas de alimentación de

computadora del gran número de instalaciones del país, ¿Que probabilidad hay de que

a) Exactamente tres tengan una relación de corriente neutral a corriente de carga total

alta?

b) Por lo menos tres tengan una relación alta?

c) Menos de tres tengan una relación alta?

Solución:

a) x = 3; p = 0.1; n = 5

b(3,5,0.1) = 0.0081

b) x ≥ 3; p = 0.1; n = 5

b(x = 3,4,5, n = 5, p = 0.1) = 0.0086


129

c) x < 3; p = 0.1; n = 5

b(x = 0,1,2, n = 5, p = 0.1) = 0.9914

3.3 Distribución Hipergeométrica. Los tipos de aplicaciones de la distribución Hipergeométrica son muy similares a los de la

Binomial. Pero en caso de la Binomial se requiere la independencia entre las pruebas.

El muestreo se debe efectuar con reemplazo de cada artículo después de que se observe.

Por otro lado, la distribución Hipergeométrica no requiere independencia y se basa en el

muestreo que se realiza sin reemplazo.

El experimentó Hipergeométrica posee las siguientes propiedades:

1. Se selecciona sin reemplazo una muestra aleatoria de tamaño n de N artículos.

2. K de los N artículos se pueden clasificar como éxitos y N – K se clasifican como fracaso.

El número x de éxitos de un experimento Hipergeométrica se denomina variable aleatoria

Hipergeométrica. En consecuencia, la distribución de probabilidad de la variable

Hipergeométrica se llama distribución Hipergeométrica, y sus valores se denotan como h(x,

N, n, k), debido a que dependen del numero de éxitos k en el conjunto N del que

seleccionamos n artículos.

Problema: Se selecciona al azar un comité de cinco personas entre tres químicos y cinco

físicos. Encuentre la distribución de probabilidad para el número de químicos en el comité.

Solución:

3 0 5 5

8 5

( )( )( 0) (0,8,5,3) 0.0179C CP x hC

= = = =

3 1 5 4

8 5

( )( )( 1) (1,8,5,3) 0.2679C CP x hC

= = = =

( ) ( )( )nN

xnkNxk

CCC

nN

xnkN

xk

knNxh −−=

⎟⎟⎠

⎞⎜⎜⎝

⎛

⎟⎟⎠

⎞⎜⎜⎝

⎛−−

⎟⎟⎠

⎞⎜⎜⎝

⎛

=,,, nx ,...,2,1,0=


130

3 2 5 3

8 5

( )( )( 2) (2,8,5,3) 0.5357C CP x hC

= = = =

3 3 5 2

8 5

( )( )( 3) (3,8,5,3) 0.1786C CP x hC

= = = =

En forma tabular la distribución Hipergeométrica de x es como sigue:

x 0 1 2 3

h (x, N, n k) 0.0179 0.2679 0.5357 0.1786

Problema: Lotes de 40 componentes cada uno se denomina aceptables sino contienen mas

de tres defectuosos. El procedimiento para muestrear el lote es la selección de cinco

componentes al azar y rechazar el lote si se encuentra un componente defectuoso. ¿cual es

la probabilidad de que se encuentre exactamente un defectuoso en la muestra si hay tres

defectuosos en todo el lote ?

Solución:

N = 40, n = 5; k = 3; x = 1

3 1 37 4

40 5

( )( )(1, 40,5,3) 0.3011C ChC

= =

Problema: Una caja contiene 6 bolas blancas y 4 rojas. Se realiza un experimento en el cual

se selecciona una bola aleatoriamente y se observa su color, pero no se reemplaza la bola.

Hallar la probabilidad de que después de 5 pruebas del experimento se haya escogido 3

bolas blancas.

N = 10; n = 5; x = 3; k = 6

6 3 4 2

10 5

( )( )(3,10,5,6) 0.4762C ChC

= =

Problema: Un lote de 40 artículos se seleccionan al azar 4 para probarlos y si fallan la

prueba mas de 2 se rechaza el lote completo. ¿Cuál es la probabilidad de rechazar un lote

que tenga 8 defectuosos? Dado que el muestreo se hace sin reemplazo y la fracción de


131

muestreo es grande (10%) tenemos una variable aleatoria Hipergeométrica. Los parámetros

son: N = 40, k = 8, n = 4, x es el numero de defectuosos en la muestra y queremos la

probabilidad p ( x > 2)

Solución:

P ( x > 2 ) = p (x = 3) + p(x = 4) = h ( 3; 40, 4, 8) + h ( 4 ; 40, 4, 8) = 0.0204

Problema: Esta es la probabilidad de rechazar un lote con 25 % de defectuosos y es muy

baja. Para mejorar el proceso de selección, los ingenieros deciden rechazar el lote cuando

haya 2 o mas defectuosos. ¿Cuál es la probabilidad de rechazar un lote que tenga 8

defectuosos? Los parámetros permanecen iguales lo que cambia es la probabilidad ahora

es: p ( x ≥ 2 ) = p (x = 2) + p ( x > 2)

Solución:

N = 40 ; n = 4, k = 8 ; x ≥ 2

p ( x ≥ 2 ) = p (x = 2) + p (x = 3) + p(x = 4)]

= h ( 2; 40, 4, 8) + h ( 3; 40, 4, 8) + h ( 4 ; 40, 4, 8) = 0.1723

Problema: Con esta nueva política de rechazar el lote cuando sean 2 o más ¿cuál es la

probabilidad de rechazar un lote con 6 defectuosos? los parámetros son, ahora N = 40, k =

6; n = 4 y queremos la probabilidad:

p (x > 10 ) = 1 - [ p (x = 0) + p ( x = 1)] = 1 – [ h (0 , 40, 4, 6) + h ( 1,40, 4,6)]=

= 1 – ( 0.5075 + 0.3929 ) = 0.0996

Problema: En el salón de tercer año de una escuela hay 35 alumnos, de los cuales 10 son

niñas y 25 niños. Se nombra un comité de 7 alumnos que represente al salón. La selección

se hace al azar. ¿ que probabilidad hay de que en el comité haya mayoría de niñas? En

situaciones se cumple las hipótesis de una Hipergeométrica. Los parámetros son : N = 35,

k = 10, n = 7, x es el numero de niñas en el comité. La probabilidad pedida es:

P (x > 3 ) = p (x = 4) + p (x = 5) + p (x = 6) + p (x = 7)

Solución:

=h(4,35,7,10)+h(5,35,7,10)+ (6,35,7,10)+h(7,35,7,10)

= 0.0718 + 0.0112 + 7.8072 x 10 – 4 + 1.7845 x 10 – 5 = 0.0838


132

3.4 Distribución de Poisson. Los experimentos que dan valores numéricos de una variable aleatoria x, el número de

resultados que ocurren durante un intervalo dado o en una región especifica, se llaman

experimentos de Poisson. El intervalo puede ser de cualquier longitud, como un minuto, un

días , una semana, un mes, o incluso un año. Por ello un experimento de Poisson puede

generar observaciones para la variable aleatoria x que representa el número de llamadas

telefónicas por hora que recibe una oficina, el número de días que la escuela permanece

cerrada debido a la nieve durante invierno o el número de juegos suspendidos debido a la

lluvia durante la temporada de béisbol. La región específica podría ser un segmento de

línea, un área o quizás una pieza de material. En tales casos X puede representarse el

numero de ratas de campo por acre, el numero de bacterias en un cultivo dado o el numero

de errores mecanográficos por pagina.

Un experimento de Poisson se deriva del proceso de Poisson y posee las siguientes propiedades:

1. el numero de resultados que ocurren en un intervalo o región especifica es

independiente del numero que ocurre en cualquier otro intervalo o región del espacio

disjunto. De esta forma vemos que el proceso de Poisson no tiene memoria.

2. la probabilidad de que ocurra un solo resultado durante un intervalo muy corto o una

región pequeña es proporcional a la longitud del intervalo o al tamaño de la región y

no depende del número de resultados que ocurren fuera de este intervalo o región.

3. la probabilidad de que ocurra mas de un resultado en tal intervalo corto o que caiga

en tal región pequeña insignificante.

4. El numero X de resultados que ocurren durante un experimento de Poisson se llama

variable aleatoria de Poisson y su distribución de probabilidad se llama distribución

de Poisson. El número medio de resultados en cada unidad se denota por la letra

griega lambda, λ.


133

La distribución de probabilidad de Poisson La distribución de probabilidad para una variable aleatoria de Poisson esta dada por :

!),(

xexp

λλλ−

= ; x = 0, 1, 2, ...

donde :

=λ Numero medio de eventos en una unidad dada de tiempo, área o volumen.

=e 2.71828...

La media y la varianza de una variable aleatoria de Poisson son , respectivamente,

λμ = y λσ =2

Problema: Supongamos que el numero de grietas por espécimen de concreto con cierto tipo

de mezcla de cemento tiene una distribución de probabilidad de Poisson aproximada.

Además, suponga que el número medio de grietas por espécimen es de 2.5.

a) Calcule la media y la desviación estándar de x, el numero de grietas por espécimen

de concreto.

b) Calcule la probabilidad de que un espécimen de concreto escogido al azar tenga

exactamente cinco grietas.

c) Calcule la probabilidad de que un espécimen de concreto escogido al azar tenga dos

o mas grietas.

Solución:

a) Tanto la media como la varianza de una variable aleatoria de Poisson son iguales a λ .

Por tanto, 5.2== λμ 5.22 == λσ

Entonces la desviación estándar es

58.15.2 ==σ

b) Queremos conocer la probabilidad de que un espécimen de concreto tenga

exactamente cinco grietas. La distribución de probabilidad de x

5.2=λ ; x = 5;

067.0!5

5.2)5(5.25

==−ep

c) Para determinar la probabilidad de que un espécimen de concreto tenga o mas

grietas necesitamos calcular


134

( ) ( ) ( ) ∑∞

=

=+++=≥2

)(...432)2(x

xppppxp

Si queremos calcular la probabilidad de este evento, es preciso considerar el evento

complementario. Así,

( )( ) ( )[ ]

713.0287.01101

)2(12

=−=+−=

<−=≥pp

xpxp

Problema: Si un banco recibe en promedio 6 cheques sin fondo por día, ¿cuáles son las

probabilidades de que reciba,

a) cuatro cheques sin fondo en un día dado,

b) 10 cheques sin fondos en cualquiera de dos días consecutivos?

Solución:

a) x = variable que nos define el número de cheques sin fondo que llegan al banco en un

día cualquiera = 0, 1, 2, 3, ....., etc

λ = 6 cheques sin fondo por día

e = 2.718

p(4, 6 ) = 0.1339

b) x = variable que nos define el número de cheques sin fondo que llegan al banco en dos

días consecutivos = 0, 1, 2, 3, ......, etc., etc.

λ = 6 x 2 = 12 cheques sin fondo en promedio que llegan al banco en dos días consecutivos

P(10, 12 ) = 0.1049

Problema: En la inspección de hojalata producida por un proceso electrolítico continuo, se

identifican 0.2 imperfecciones en promedio por minuto. Determine las probabilidades de

identificar

a) una imperfección en 3 minutos,

b) al menos dos imperfecciones en 5 minutos,

c) cuando más una imperfección en 15 minutos.


135

Solución:

a) x = variable que nos define el número de imperfecciones en la hojalata por cada 3

minutos = 0, 1, 2, 3, ...., etc., etc.

λ = 0.2 x 3 =0.6 imperfecciones en promedio por cada 3 minutos en la hojalata

P( 1, 0.6) = 0.3293

b) x = variable que nos define el número de imperfecciones en la hojalata por cada 5

minutos = 0, 1, 2, 3, ...., etc., etc.

λ = 0.2 x 5 =1 imperfección en promedio por cada 5 minutos en la hojalata

)1,1,0(1)1...,4,3,2( ==−=== λλ xpetcxp = 1- (0.367918+0.367918) = 0.26416

c) x = variable que nos define el número de imperfecciones en la hojalata por cada 15

minutos = 0, 1, 2, 3, ....., etc., etc.

λ = 0.2 x 15 = 3 imperfecciones en promedio por cada 15 minutos en la hojalata

( 0,1, 3) ( 0, 3) ( 1, 3)0.0498 0.1494 0.1992

p x p x p xλ λ λ= = = = = + = == + =

Problema: Durante un experimento de laboratorio el número promedio de partículas

radiactivas que pasan a través de un contador en un milisegundo es cuatro ¿cuál es la

probabilidad de que seis partículas entren al contador en un milisegundo dado?

λt = 4; x = 6

Aproximación de la binomial por la poisson En este caso se determinarán probabilidades de experimentos Binomiales, pero que dadas

sus características, es posible aproximarlas con la distribución de Poisson, estas

características son, n → ∞ ( n es muy grande) y p → 0 (p es muy pequeña), por lo que:

( ) 1042.0!6

4)(46

==−exf

!xqpC)p,n,x(p

xxnx

xn

λελ −− ≅=


136

La expresión anterior solo se cumple cuando n → ∞ y p → 0, solo en este caso, si esto no

se cumple, la aproximación no se puede llevar a efecto, por lo que la fórmula a utilizar en

este caso sería:

Donde:

λ = μ = n p = número esperado de éxitos = tasa promedio de éxitos; n = número de

repeticiones del experimento; p = probabilidad de éxito = p(éxito)

Una regla general aceptable es emplear esta aproximación si n ≥ 20 y p ≤ 0.05: sí n ≥ 100, la

aproximación es generalmente excelente siempre y cuando n p ≤10.

Problema: Se sabe que el 5% de los libros encuadernados en cierto taller tienen

encuadernaciones defectuosas. Determine la probabilidad de que 2 de 100 libros

encuadernados en ese taller, tengan encuadernaciones defectuosas, usando,

a) la fórmula de la distribución Binomial,

b) la aproximación de Poisson a la distribución Binomial.

Solución:

a) n = 100

p = 0.05 = p(encuadernación defectuosa) = p(éxito)

q = 0.95 = p(encuadernación no defectuosa) = p(fracaso)

x = variable que nos define el número de encuadernaciones defectuosas en la muestra

= 0, 1, 2, 3,....,100 encuadernaciones defectuosas

p(x = 2, n = 100, p = 0.05 ) = 0.0812

b) n = 100 encuadernaciones

p = 0.05

λ = n p = (100)(0.05)= 5

x = variable que nos define el número de encuadernaciones defectuosas en la muestra =

= 0, 1, 2, 3,....,100 encuadernaciones defectuosas

p(2, 5) = 0.0843

!x),x(p

x λελλ−

=


137

Al comparar los resultados de las probabilidades con una y otra distribución, nos damos

cuenta de que la diferencia entre un cálculo y otro es de tan solo 0.0031, por lo que la

aproximación de Poisson es una buena opción para calcular probabilidades Binomiales.

Problema: Un fabricante de maquinaria pesada tiene instalados en el campo 3840

generadores de gran tamaño con garantía. Sí la probabilidad de que cualquiera de ellos falle

durante el año dado es de 1/1200 determine la probabilidad de que

a) 4 generadores fallen durante el año en cuestión,

b) que más 1 de un generador falle durante el año en cuestión.

Solución:

a) n = 3840 generadores

p = 1/1200 = probabilidad de que un generador falle durante el año de garantía

λ = n p = (3840)(1/1200) = 3.2 motores en promedio pueden fallar en el año de garantía

x = variable que nos define el número de motores que pueden fallar en el año de garantía =

0, 1, 2, 3,....,3840 motores que pueden fallar en el año de garantía

dpois 4 3.2,( ) 0.1781=

b) )1(1)1( ≤−=> xpxP

1 dpois 0 3.2,( ) dpois 1 3.2,( )+( )− 0.8288= Problema: En un proceso de manufactura, en el cual se producen piezas de vidrio, ocurren

defectos o burbujas, ocasionando que la pieza sea indeseable para la venta. Se sabe que en

promedio 1 de cada 1000 piezas tiene una o más burbujas. ¿Cuál es la probabilidad de que

en una muestra aleatoria de 8000 piezas, menos de 3 de ellas tengan burbujas?

Solución:

n = 8000 piezas

p = 1/1000= 0.001 probabilidad de que una pieza tenga 1 o más burbujas

λ = np = (8000)(1/1000) = 8 piezas en promedio con 1 o más burbujas

x = variable que nos define el número de piezas que tienen 1 o más burbujas =

= 0,1, 2, 3,....,8000 piezas con una o más burbujas

dpois 0 8,( ) dpois 1 8,( )+ dpois 2 8,( )+ 0.0138=


138

Problema: Diez por ciento de las herramientas producidas en un proceso de fabricación

determinado resultan defectuosas. Hallar la probabilidad de que en una muestra de 10

herramientas seleccionadas aleatoriamente, exactamente 2 estén defectuosas, empleando

la aproximación de Poisson a la distribución Binomial

p = 0.1; n = 10 λ = n p = 0.1 (10) = 1 ; x = 2

dpois 2 1,( ) 0.1839=

Problema: Si la probabilidad de que un individuo sufra una reacción negativa ante una

inyección de cierto suero es 0.001, hallar la probabilidad de que entre 2000 individuos:

(a) exactamente 3 ;

(b) mas de 2 de ellos reaccionen negativamente.

Solución:

λ = N p = (2000) ( 0.001) = 2

(a) P r3 individuos reaccionen negativamente =

dpois 3 2,( ) 0.1804=

(b) P rmás de 2 de ellos reaccionen negativamente

= 1 – P r(0 ó 1 ó 2 lo sufran)

1 dpois 0 2,( ) dpois 1 2,( )+ dpois 2 2,( )+( )− 0.3233=

Problema: Diez por ciento de las herramientas producidas en un proceso de fabricación

determinado resultan defectuosas. Hallar la probabilidad de que en una muestra de 10

herramientas seleccionadas aleatoriamente, exactamente 2 estén defectuosas, empleando

a) La distribución Binomial

b) la aproximación de Poisson a la distribución Binomial.

Solución.

a) x = 2; n = 10 ; p = 10 % = 0.1 ; q = 0.9

dbinom 2 10, 0.1,( ) 0.1937=

b) λ = n p = 10 (0.1) = 1; x = 2

dpois 2 1,( ) 0.1839=


139

En general la aproximación es buena si P ≤ 0.1

3.5 Esperanza matemática. Media de una variable aleatoria. Si se lanzan 16 veces dos monedas y X es el número de caras que ocurre por lanzamiento,

entonces los valores de X pueden ser 0,1 y 2. Suponga que en el experimento salen cero

caras, una cara y dos caras un total de cuatro, siete y cinco veces, respectivamente. El

numero promedio de caras por lanzamiento de las dos monedas es entonces:

( )( ) ( )( ) ( )( ) 06.116

527140=

++

Este es un valor promedio y no es necesariamente un posible resultado del experimento.

O bien :

( ) ( ) ( ) 06.11652

1671

1640 =⎟

⎠⎞

⎜⎝⎛+⎟

⎠⎞

⎜⎝⎛+⎟

⎠⎞

⎜⎝⎛

Los números 4/16, 7/16, y 5/16 son las fracciones de los lanzamientos totales que tienen

como resultado cero, una y dos caras, respectivamente. Estas fracciones también son la

frecuencia relativa de los diferentes valores de X en nuestro experimento. En efecto,

entonces, podemos calcular la media o promedio de un conjunto de datos mediante el

conocimiento de los distintos valores que ocurren y sus frecuencias relativas, sin un

conocimiento del número total de observaciones en nuestro conjunto de datos.

Por tanto, si 4/16 o 1/4 de los lanzamientos tiene como resultado cero caras, 7/16 de los

lanzamientos tienen como resultado una cara y 5/16 de estos tiene dos caras, el numero

medio de caras por lanzamiento será 1.06 sin importar si el número total de lanzamiento fue

16,000 o incluso 10,000.

Utilicemos frecuencias relativas para calcular el número promedio de caras por lanzamiento

que podríamos esperar en el largo plazo. Nos referimos a este valor promedio como la

media de la variable x o la media de la distribución de probabilidad de X y la denotamos


140

por xμ o simplemente como μ cuando este claro a que variable nos referimos. También es

común entre los estadísticos referirse a esta media como la esperanza matemática o el valor

esperado de la variable aleatoria X y denotarla como E(X).

Supongamos que se lanza monedas legales, encontramos un espacio muestral para nuestro

experimento es

TTTHHTHHS ,,,= .

Como los 4 puntos muéstrales son iguales probables, se sigue que

( ) ( )41

21

210 =⎟

⎠⎞

⎜⎝⎛⎟⎠⎞

⎜⎝⎛=== TTPXP

( ) ( ) ( )21

41

411 =+=+== THPHTPXP

( ) ( )412 === TTPXP

Este resultado significa que una persona que lance dos monedas una y otra vez, en

promedio, obtendrá una cara por lanzamiento.

Definición Sea X una variable aleatoria con distribución de probabilidad f(x). La media o valor

esperado de X es ( ) ∑==x

xxfXE )(μ ; si X es discreta,

Problema: Un inspector de calidad muestrea un lote que contiene siete componentes; el lote

contiene cuatro componentes buenos y tres defectuosos. El inspector toma una muestra de

tres componentes. Encuentre el valor esperado del número de componentes buenos en esta

muestra.

Solución: sea X el número de componentes buenos en la muestra. La distribución de

probabilidad de x es

( )( )( )7

3

33

4

)( xxxF −= x = 0, 1, 2, 3

Unos simples cálculos dan

f(0) = 1/35 = 0.028571428,


141

f(1) = 12/35= 0.342857142;

f(2) = 18/35= 0.514285714;

f(3) = 4/35= 0.114285714. Por tanto.

( ) ( ) ( ) ( ) 71.17

123543

35182

35121

3510)( ==⎟

⎠⎞

⎜⎝⎛+⎟

⎠⎞

⎜⎝⎛+⎟

⎠⎞

⎜⎝⎛+⎟

⎠⎞

⎜⎝⎛== XEμ

De esta forma si se selecciona al azar una muestra de tamaño tres una y otra vez de un

lote de cuatro componentes buenos y tres defectuosos, contendría, en promedio 1.7

componentes buenos.

Problema: En un juego de azar se pagaran $5 a una persona si solo salen caras(H) o

cruces (T) cuando se lanzan tres monedas, y ella pagara $ 3 si salen una o dos caras. ¿

cual es su ganancia esperada?

Solución: el espacio muestral para los posibles resultados cuando se lanzan de manera

simultánea tres monedas, o de manera equivalente si se lanzan tres veces una moneda, es

TTTTTHTHTHTTTHHHTHHHTHHHS ,,,,,,,=

Se podría argumentar que cada una de estas posibilidades es igualmente probable y que

ocurre con la probabilidad de 1/8. un método alternativo seria aplicar la regla de la

multiplicación de probabilidad para eventos independientes a cada elemento de S. Por

ejemplo,

P ( HHT) = P(H) P(H) P(T) = (1/2)(1/2)(1/2) = 1/8

La variable aleatoria de interés es Y, el monto que el jugador puede ganar; y los valores

posibles de Y son $5 si ocurre el evento

TTTHHHE ,1 =

Y - $ 3 si ocurre el evento

TTHTHTHTTTHHHTHHHTE ,,,,,2 =


142

Evento. Como E1 y E2 ocurren con probabilidades ¼ y ¾, respectivamente, se sigue que

( ) ( ) ( ) 1433

415 −=⎟

⎠⎞

⎜⎝⎛−+⎟

⎠⎞

⎜⎝⎛== YEμ

En este juego la persona perderá, en promedio, $1 por lanzamiento de las tres monedas. Un

juego se considera equitativo si el jugador, en promedio, queda empatado. Por tanto, una

ganancia esperada de cero define un juego equitativo.

Consideremos una nueva variable aleatoria g(X), que depende de X; es decir, cada valor de

g(X) esta determinado al conocer los valores de X. Por ejemplo, g(X) podría ser X2 o 3X – 1 ,

de modo que siempre que x tome el valor 2, g(X) toma el valor g(2). En particular, si X es

una variable aleatoria discreta con distribución de probabilidad

),(xf 2,1,0,1−=x y 2)( XXg = entonces

( )[ ] ( ) ( )( )[ ] ( ) ( )( ) ( )( )[ ] ( ) )2(24

,11111

000

fXPXgPff

XPXPXgPfXPXgP

====+−=

=+−=======

De modo que la distribución de probabilidad de g(X) se puede escribir como

)(xg 0 1 4

[ ])()( xgXgP = )0(f )1()1( ff +− )2(f

Por definición del valor esperado de una variable aleatoria, obtenemos

[ ]( ) ( ) ( )[ ] ( )2411100

)()(

ffff

xgEXg

++−+=

=μ

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )∑=

+++−−=

xxfxg

ffff)()(

22110011 2222


143

este resultado se generaliza en el siguiente teorema para variables discretas y continuas.

Teorema Sea x una variable aleatoria con distribución de probabilidad f(x). La media o valor esperado

de la variable aleatoria g(X) es

( )[ ] ∑== );()()( xfxgXgEXgμ si X es discreta

Problema: Suponga que el numero de autos x que pasa por un lavado de autos entre 4:00

pm y 5:00 pm en cualquier viernes soleado tienen la siguiente distribución de probabilidad :

x 4 5 6 7 8 9

P(X = x) 1 / 12 1 / 12 1 / 4 1 / 4 1 / 6 1 / 6

Sea g(x) = 2X – 1 la cantidad de dinero en dólares, que el administrador paga al

dependiente. Encuentre las ganancias esperadas de dependiente en este periodo particular.

Solución:

( )[ ] ( )

( ) ( )

( ) ( ) ( ) ( ) ( ) ( ) 67.12$6117

6115

4113

4111

1219

1217

12

129

4

=⎟⎠⎞

⎜⎝⎛+⎟

⎠⎞

⎜⎝⎛+⎟

⎠⎞

⎜⎝⎛+⎟

⎠⎞

⎜⎝⎛+⎟

⎠⎞

⎜⎝⎛+⎟

⎠⎞

⎜⎝⎛=

−=

−=

∑=x

Xfx

XEXgE

Debemos extender ahora nuestro concepto de esperanza matemática al caso de dos

variables aleatorias X y Y con distribución de probabilidad conjunta ),( yxf .

Definición Sean X y Y variables aleatorias con distribución de probabilidad conjunta f(x , y ). La media

o valor esperado de la variable aleatoria g(X, Y ) es

( )[ ] ∑∑==x y

YXg yxfyxgYXgE ),(),(,),(μ ; si X y Y son discretas


144

Problema: Sean X y Y variables aleatorias con distribución de probabilidad conjunta que se

indica en la tabla siguiente:

),( yxf X Totales por

renglón 0 1 2

0 3/28 9/28 3/28 15/28

Y 1 3/14 3/14 3/7

2 1/28 1/28

Totales por

columna

5/14 15/28 3/28 1

Encuentre el valor esperado de g ( X, Y ) = XY

Solución:

( )

( ) ( )( ) ( ) ( )( ) ( ) ( )( ) ( ) ( )( ) ( ) ( )( ) ( ) ( )( ) ( )

( )143)1,1(

0,2021,1110,1012,0201,0100,000

),(2

0

2

0

==

+++++=

= ∑∑= =

fXYE

ffffffXYE

yxxyfXYEx y

Definición Sea X una variable aleatoria con distribución de probabilidad f(x). La media o valor esperado de X es

∫∞

∞−== dxxxfXE )()(μ ; si X es continua

Un ingeniero se interesa en la vida media de cierto tipo de dispositivo electrónico. Esta es

una ilustración de problema de tiempo de falla que a menudo se presenta en la práctica. El

valor esperado de la vida del dispositivo es un parámetro importante para su evaluación.

Problema: Sea X la variable que denota la vida en horas de cierto dispositivo electrónico. La

función de densidad de probabilidad es:


145

⎪⎪

⎩

⎪⎪

⎨

⎧

=0

000,20

)(

3xxf

caso otrocualquier en

100>x

Encuentre la vida esperada de este tipo de dispositivo.

Solución:

2002000020000)(100 2100 3 ==⎟

⎠⎞

⎜⎝⎛== ∫∫

∞∞dx

xdx

xxXEμ

Teorema Sea x una variable aleatoria con distribución de probabilidad f(x). La media o valor esperado

de la variable aleatoria g(X) es

( )[ ] dxxfxgXgEXg ∫∞

∞−== )()()(μ ; si X es continua

Problema: Sea X una variable aleatoria con función de densidad

⎪⎩

⎪⎨⎧

=0

,3)(

2xxf

caso otrocualquier en

21 <<− x

Encuentre el valor esperado de g(X) = 4X + 3 .

Solución:

( ) ( ) ( ) 83431

33434

2

1

232

1

2

=+=+

=+ ∫∫ −−dxxxdxxxXE

Debemos extender ahora nuestro concepto de esperanza matemática al caso de dos

variables aleatorias X y Y con distribución de probabilidad conjunta ),( yxf .

Definición Sean X y Y variables aleatorias con distribución de probabilidad conjunta f(x,y). La media o

valor esperado de la variable aleatoria g(X, Y ) es

( )[ ] dydxyxfyxgYXgEYXg ∫ ∫∞

∞−

∞

∞−== ),(),(,),(μ ; si X y Y son continuas.

Problema:

Solución:

Tenemos

3.6 Distr 3.6.1 DisLa distribuc

es la distride campan

la investiga

Además

mediante u

gaussiana,

ecuación a

Se dice qu

nombre de

UNIDA

Encuentre E

( ), yxf

⎜⎝⎛

XYE

ibución no

stribución ción continua

ibución normna, la cual de

ación.

, los errores

una distribuc

en honor

a partir de un

e estas varia

e curva norm

AD III / FUN

⎟⎠⎞

⎜⎝⎛

XYE para

(⎪⎩

⎪⎨⎧ +

=0

431 yx

1

0

2

0⎜⎝⎛=⎟

⎠⎞ ∫ ∫ x

yXY

ormal.

de la proba de probab

mal. Su gra

escribe much

s en las me

ión normal. L

de Karl Frie

estudio de e

ables tienen

mal o campa

NCIONES

la función de

)2y

en

0 <

431( 2+

⎟⎠⎞ yx

xy

babilidad bilidad más im

afica, que se

hos fenómen

ediciones cie

La distribució

edrich Gaus

errores en m

una distribuc

ana de Gaus

Y DISTRI

e densidad

ocualquier

,2<< x

) 1

0

2

= ∫dxdy

continúa.mportante en

denomina c

nos que ocur

entíficas se

ón normal a

ss (1777 –

mediciones re

ción normal

ss. Para exp

BUCIONE

caso otro

0 <

21

0

3

=+ dyyy

n todo el ca

curva normal

rren en la nat

aproximan e

menudo se d

1855), quie

epetidas de la

y la función

presar que u

ES MUEST

1<< y

85

=

mpo de la e

, es la curva

turaleza, la i

extremadam

denomina di

en también d

a misma can

de densidad

una variable

TRALES.

146

estadística

en forma

ndustria y

ente bien

stribución

derivo su

ntidad.

d recibe el

aleatoria


147

continua X, tiene una distribución normal de media y desviación típica , escribimos

.

Distribución normal

La función de densidad de la variable aleatoria normal X, con media μ y varianza ,2σ es

( ) ( ) ( )[ ]2/21

21,; σμ

πσσμ −−= xexn ∞<<∞− x

donde

...14159.3=π y ...71828.2=e

Existen unas tablas que permiten calcular probabilidades en distribuciones normales

reducidas. Por ello es aconsejable transformar cualquier variable aleatoria X que sigue que

sigue una distribución en otra variable Z que siga una distribución N(0,1).

El cambio de variable que es necesario hacer es el siguiente:

Características:

a) Es generada por una variable de tipo continuo, denominada x; -∞< x < ∞

b) La función que nos define esta distribución es:

-∞< x < ∞

Al dar a la función los valores de μ , σ2 y valores a x, obtendremos la distribución en

cuestión, la que tiene forma de campana, por lo que también se le conoce como

campana de Gauss. Hay un número infinito de funciones de densidad Normal, una

para cada combinación de μ y σ. La media μ mide la ubicación de la distribución y la

desviación estándar σ mide su dispersión.

c) Es simétrica con respecto a su eje vertical.

d) Es asintótica con respecto a su eje horizontal; esto quiere decir que jamás va a tocar

el eje de las equis.

e) El área total bajo la curva es 1.

f) Sí sumamos a μ ± σ, se observará que aproximadamente el 68.26% de los

datos se encuentran bajo la curva, si sumamos a μ ± 2σ, el 95.44% de los datos

estará entre esos límites y si sumamos a μ ± 3σ, entonces el 99.74% de los datos

caerá dentro de esos límites. Esta característica es a la vez una forma empírica y

μ σ

),( σμN

),( σμN

σμ−

=XZ

22 22

21 σμεπσ

σμ /)x(),,x(f −−=


148

rápida de demostrar si los datos que se analizan tienen una distribución Normal; ya

que para trabajar los datos con esta distribución, debe verificarse que efectivamente

así se distribuyen, ya que de no hacerlo, las decisiones que en un momento dado se

tomarán de un análisis de los datos con la distribución Normal, serían erróneas.

Definición La distribución de una variable aleatoria normal con media cero y varianza 1 se llama

distribución normal estándar.

Problema: Encuentre la probabilidad para cada ejercicio,

a)

La probabilidad pedida se encuentra directamente en las tablas . Basta buscar 1,2 en la

columna y 0,03 en la fila. Su intersección nos da la probabilidad.

8907.0)23.1( =≤zP

Para calcularlo a través de la fórmula original se le suma 0.5 que es de la parte de la región

negativa mas lo que se va a calcular.

0.51

2π 0

1.23

ue

u2−

2

⌠⎮⎮⎮⌡

d

⎛⎜⎜⎜⎝

⎞⎟⎟⎟⎠

⋅+ 0.8907=

b)

)23,1( ≤Zp

)24,1( ≥Zp

Dos formas

1) usando e

2) Restand

0.5 −

c) P ( z ≤ -

( 0−≤zP

d)

Observand

5,0(p

UNIDA

(ZP

s de calcular

el teorema P

do 0.5 que es

1

2 π⋅ 0

1.24

e

⌠⎮⎮⎮⌡

⎛⎜⎜⎜⎝⋅

0.72 )

) 235.072. =

do la figura se

)76,15 ≤≤ Z

AD III / FUN

1)24.1 =≥Z

r:

P + q = 1

1 0.5 +

⎡⎢⎢⎢⎣

−

s la parte com

ue

u2−

2 d

⎞⎟⎟⎟⎠

0=

58

0.51

2−

e deduce qu

)

NCIONES

2.1(1 <− ZP

1

2 π⋅ 0

1.24⌠⎮⎮⎮⌡

⎛⎜⎜⎜⎝⋅

mpleta de la

0.1075

1

2π 0.72−

0

e

⌠⎮⎮⎮⌡

⎛⎜⎜⎜⎝⋅

e

Y DISTRI

8.01)24 −=

4

ue

u2−

2 d

⎞⎟⎟⎟⎠

⎤⎥⎥⎥⎦

región somb

ue

u2−

2 d

⎞⎟⎟⎟⎠

0=

BUCIONE

10.08925=

0.1075=

breada de la

.2358

ES MUEST

075

sección pos

TRALES.

149

sitiva


150

(0.5 1.76) ( 1.76) ( 0.5)0.9608 0.6915 0.2693

p z p z p z≤ ≤ = ≤ − ≤= − =

1

2π 0

1.76

ue

u2−

2

⌠⎮⎮⎮⌡

d⋅1

2π 0

0.5

ue

u2−

2

⌠⎮⎮⎮⌡

d

⎛⎜⎜⎜⎝

⎞⎟⎟⎟⎠

⋅− 0.2693=

Problema: El peso de los individuos de una población se distribuye normalmente con media

de 70 Kg. y desviación típica 6 Kg. De una población de 2000 personas, calcula cuántas

tendrán un peso comprendido entre 64 y 76 Kg.

Solución:

Se trata de una distribución N (70,6)

μ = 70 Kg. , σ = 6 Kg. ; X = 64 y 76 Kg.

64 70 76 701 16 6

Z Z− −= = − = =

Z = -1 Z = 1

( )( ) ( )11

1176964(−≤−≤=

≤≤−=≤≤zpzp

zpXp

Por tanto,

p(64 ≤ X ≤ 76 ) = 0.8413 – 0.1587 = 0.6826

Esto significa que el 68,25 % de las personas pesan entre 64 y 76 Kg.

Como hay 2000 personas, calculamos el 68,25% de 2000 y obtenemos 1365 personas.

Problema: El acero que se utiliza para tuberías de agua a menudo se recubre internamente

con un mortero de cemento para evitar la corrosión. En un estudio de los recubrimientos de

mortero de una tubería empleada en un proyecto de transmisión de agua en California

(Transportation Engineering Journal, Noviembre de 1979) se especificó un espesor de 7/16

pulgadas para el mortero. Un gran número de mediciones de espesor dieron una media de

0.635 pulgadas y una desviación estándar de 0.082 pulgadas. Sí las mediciones de

espesor, tenían una distribución Normal, ¿qué porcentaje aproximado fue inferior a 7/16 de

pulgada?

σμ−

=XZ


151

Solución:

x = variable que nos define el espesor del mortero en pulgadas; μ = 0.635 pulgadas; σ =

0.082 pulgadas

0080.0)41.2( =−≤ZP

Por tanto, 0.008 x 100% = 0.8% de los recubrimientos de mortero tienen un espesor menor

de 7/16 pulgadas

Problema: Un tubo fluorescente estándar tiene una duración distribuida Normalmente, con

una media de 7,000 horas y una desviación estándar de 1,000 horas. Un competidor ha

inventado un sistema de iluminación fluorescente compacto que se puede insertar en los

receptáculos de lámparas incandescentes. El competidor asegura que el nuevo tubo

compacto tiene una duración distribuida Normalmente con una media de 7,500 horas y una

desviación estándar de 1,200 horas.

a) ¿Cuál tubo fluorescente tiene mayor probabilidad de tener una duración mayor de

9,000 horas?

b) ¿Cuál tubo tiene mayor probabilidad de tener una duración de menos de 5,000

horas?

Solución:

a) Tubo 1

X1 = variable que nos define la duración en horas de un tubo fluorescente

μ = 7,000 horas; σ = 1,000 horas

Tubo 2

X2 = variable que nos define la duración del tubo fluorescente del competidor

μ = 7,500 horas; σ = 1,200 horas

p(x1 > 9,000 horas) = p (z1 > 2.00 )

= 1 – 0.9772 = 0.0228

412408520820

6350437500820

6350167 ...

...

./Z −≈−=−

=−

=

0020001

000700091 .

,,,z =

−=


152

p(x2 > 9,000 horas) = p(z2 > 1.25) = 1 – 0.8944 = 0.1056

Por tanto el tubo fluorescente del competidor tiene una probabilidad mayor de durar más de

9,000 horas.

b)

p(x1 < 5,000 horas) = p(z1 < -2.00) = 0.0228

p(x2 < 5,000 horas) = p(z2 < - 2.08) = 0 0.0188

Por tanto, el tubo fluorescente que tiene una mayor probabilidad de durar menos de 5,000

horas es el del primer fabricante.

Problema: La distribución de la demanda (en número de unidades por unidad de tiempo) de

un producto a menudo puede aproximarse con una distribución de probabilidad Normal. Por

ejemplo, una compañía de comunicación por cable ha determinado que el número de

interruptores terminales de botón solicitados diariamente tiene una distribución Normal, con

una media de 200 y una desviación estándar de 50.

a) ¿En qué porcentaje de los días la demanda será de menos de 90 interruptores?

b) ¿En qué porcentaje de los días la demanda estará entre 225 y 275 interruptores?

c) Con base en consideraciones de costos, la compañía ha determinado que su mejor

estrategia consiste en producir una cantidad de interruptores suficiente para atender

plenamente la demanda en 94% de todos los días. ¿Cuántos interruptores terminales

deberá producir la compañía cada día?

Solución:

a) X = variable que nos indica el número de interruptores demandados por día a una

compañía de cable

μ = 200 interruptores por día; σ = 50 interruptores por día

2512001

500700092 .

,,,z =

−=

0020001

000700051 .

,,,z −=

−=

0822001

500700052 .

,,,z −=

−=


153

p(z = - 2.20) = 0.4861

p(x < 90) = p(z < -2.20) = 0.0139

Por tanto, 0.0139 x 100% = 1.39% de los días se tendrá una demanda menor de 90

interruptores.

b)

p(225≤ x ≥ 275) = p(z2) – p(z1) = 0.4332 – 0.1915 = 0.2417

Por tanto, 0.2417 x 100% = 24.17% de los días se tendrá una demanda entre 225 y 275

interruptores.

c) En este caso se trata de determinar que valor toma x cuando se pretende cumplir con

el 94% de la demanda de todos los días.

Por tanto despejaremos de la fórmula de z;

;

x = μ + zσ x = μ + z(p = 0.44)σ = 200 + z(p = 0.44)(50) =

= 200 + (1.55)(50) = 277.5 ≅ 278 interruptores terminales por día

¿Cómo se obtiene el valor de z?

En la tabla buscamos la z que corresponde a una probabilidad de 0.44 y nos damos cuenta

de que no existe un valor exacto de 0.44 por lo que tomamos los valores de área más

cercanos; luego,

z(p = 0.4394) = 1.50; z(p = 0.4406) = 1.60

Por tanto si interpolamos, encontramos que el valor de z para una probabilidad de 0.44 es

de 1.55, y es el valor que se sustituye en la ecuación.

20250

20090 .z −=−

=

50050

2002251 .z =

−= 501

50200275

2 .z =−

=

σμ−

=xZ


154

¿Cuál es la razón de usar un área de 0.44 en lugar de una de 0.94 para buscar en la tabla el

valor de z?

Es muy simple, la tabla que estamos usando es una tabla que solo trabaja con áreas que

son definidas de la media hasta el valor de x y x puede estar tanto del lado derecho de la

media, como del lado izquierdo de la media, es por esto que el área a utilizar es de 0.44 que

se encuentra al lado derecho de la media.

Problema: La nota media de las pruebas de acceso correspondientes a los estudiantes que

querían ingresar en una facultad era 5,8 y la desviación típica 1,75. Fueron admitidos los de

nota superior a 6.

a) ¿Cuál fue el porcentaje de admitidos si la distribución es normal?

b) ¿Con qué probabilidad exactamente cuatro de diez estudiantes son admitidos por

distribución binomial?

Solución:

a)μ = 5.8 ; σ = 1.75 ; x = 6

Z = ( 6 – 5.8 ) / 1.75 = 0.11

P ( X > 6 ) = p ( Z > 0.11 ) = 1 – P ( Z < 0.11 ) = 1 – 0.5438 = 0.4562 = 45.62 %

b) Es una distribución Binomial de parámetros n = 10 y p = 0,4562

p(obtener r éxitos ) = p (X = r) =

= =

Problema: Dada una distribución normal con μ = 50 y σ = 10, encuentre la probabilidad de

que x tome un valor en 45 y y 62.

Z 1 = ( 45 – 50 ) / 10 = - 0.5 Z 2 = ( 62 – 50 ) / 10 = 1.2

rnr pprn −−⎟⎟⎠

⎞⎜⎜⎝

⎛)1.( =−⎟⎟

⎠

⎞⎜⎜⎝

⎛== 64 )4562,01()4562,0(

4 10

)4(Xp

235,0)5438,0()4562,0(1.2.3.47.8.9.10 64 ==


155

p ( 45 < X < 62 ) = p ( -0.5 < Z < 1.2 ) = P ( Z < 1.2 ) – P ( Z < - 0.5 )

= 0.8849 – 0.3085 = 0.5764

Problema: Dada una distribución normal con μ = 300 y σ = 50, encuentre la probabilidad de

que X tome un valor mayor que 362.

Z = ( 362 – 300 ) / 50 = 1.24

P ( X > 362 ) = P ( Z > 1.24 ) = 1 – p ( Z < 1.24 ) = 1 – 0.8925 = 0.1075

Problema: Una empresa eléctrica fabrica focos que tienen una duración , antes de fundirse,

que se distribuye normalmente con media igual a 800 horas y una desviación estándar de 40

horas. Encuentre la probabilidad de que un foco se funda entre 778 y 834 horas.

Solución:

Z 1 = ( 778 – 800 ) / 40 = - 0.55 ; Z 2 = ( 834 – 800 ) / 40 = 0.85

P (778 < X < 834 ) = p ( - 0.55 < Z < 0.85 ) = P ( Z < 0.85 ) – P ( -0.55)

= 0.8023 – 0.2912 = 0.5111

Problema: En un proceso industrial el diámetro de un cojinete es una parte importante del

componente. El comprador establece que las especificaciones en el diámetro sean 3.0 ±

0.01 cm. La implicación es que ninguna parte que caiga fuera de estas especificaciones se

aceptará. Se sabe que en el proceso el diámetro de un cojinete tiene una distribución normal

con media 3.0 y una desviación estándar de 0.005. En promedio, ¿cuántos cojinetes se

descartaran?

Solución:

X 1 = 3.0 – 0.01 cm = 2.99 cm; X 2 = 3.0 + 0.01 cm = 3.01

μ = 3.0 ; σ = 0.005


156

Z 1 = ( 2.99 – 3.0 ) / 0.005 = - 2.0

Z 2 = ( 3.01 – 3.0 ) / 0.005 = 2.0

P ( 2.99 < x < 3.01 ) = P (-2.0 < Z < 2.0 ) = p ( Z < 2.0 ) – P ( Z < - 2.0 )

= 0.9772 – 0.0228 = 0.9544

Ejemplo: Cierta maquina fabrica resistores eléctricos que tienen una resistencia media de 40

ohmios y una desviación estándar de 2 ohmios. Suponga que la resistencia sigue una

distribución normal y se puede medir con cualquier grado de precisión, ¿qué porcentaje de

resistores tendrán una resistencia que exceda 43 ohmios?

Solución:

X = 43 ; μ = 40; σ = 2

Z = (43 – 40 ) / 2 = 1.5

P ( X > 43 ) = P ( Z > 1.5 ) = 1 – P( Z < 1.5 ) = 1 – 0.9332 = 0.0668 = 6.68 %

3.7 Aproximación de la Binomial a la normal. Cuando n es grande y p está próximo a 0,5 el comportamiento de una distribución binomial

B(n, p) es aproximadamente igual a una distribución normal,

Esto permite sustituir el estudio de una por el de una .

Suele considerarse que la aproximación es buena cuando n p>5 y n q>5

Dado que por mucho que se parezca nunca es igual una binomial que una normal, es

necesario aplicar en el cálculo de probabilidades un ajuste que recibe el nombre de

corrección de Yates. Si X es la binomial y X’ la normal, la corrección consiste en lo siguiente:

(Se asocia un intervalo unidad centrado en el punto)

),( npqnpN

),( pnB ),( npqnpN

⎟⎠⎞

⎜⎝⎛ +≤′≤−==

21

21)( rXrprXp


157

(se alarga el intervalo ½ por la izquierda y ½ por la derecha.)

Para valores de n mayores de 1.000 se puede suprimir la corrección.

Problema: Se lanza una moneda correcta al aire 400 veces. Calcula la probabilidad de

obtener un número de caras comprendido entre 180 y 210, ambos inclusive.

Solución:

Calculamos la media y la desviación típica de la distribución binomial:

; . Por tanto,

(180 210) (179.5 210.5)179.5 200 210.5 200

10 10

p X p x

p z

′≤ ≤ = ≤ ≤

− −⎛ ⎞≤ ≤⎜ ⎟⎝ ⎠

pero

( 2.05) ( 2.05) 1 ( 2.05) 1 0.9798 0.0202p z p z p z≤ − = ≥ = − ≤ = − =

luego

Problema: Un tirador acierta en el blanco en el 70% de los tiros. Si el tirador participa en una

competición y tira 25 veces, ¿cuál es la probabilidad de que acierte más de 10 tiros?

Solución:

Es una distribución B(25; 0,7) que podemos aproximar a través de la normal:

La aproximación será buena.

⎟⎠⎞

⎜⎝⎛ +≤′≤−=≤≤

21

21)( bXapbXap

20021.400 === npμ 10

21.

21.400 === npqσ

)05,2()05,1()05,105,2( −≤−≤=≤≤−= ZpZpZp

8531,0)05,1( =≤Zp

8329,00202,08531,0)210180( =−=≤≤ Xp

55,73,0.25.55,177,0.25.

>==>===

qnpnμ

29,23,0.7,0.25 === npqσ


158

( 10) ( 11) ( 10.5)10.5 17.5 ( 3.06) 1 ( 3.06) 1 0.0010 0.999

2.29

p x p x p x

p z p z p z

′> = ≥ = ≥

−⎛ ⎞≥ = ≥ − = − ≤ = − =⎜ ⎟⎝ ⎠

Problema: Hallar la probabilidad de obtener entre 3 y 6 caras inclusive en 10 lanzamientos

de una moneda honrada utilizando

(a) La distribución binomial,

(b) la aproximación normal a la distribución binomial.

Solución

a) sea X la variable aleatoria que da el numero de caras en 10 lanzamientos. Entonces :

P ( X = 3 ) = (10C 3) (1/2) 3 (1/2) 7 = 15 /128 = 0.1172

P ( X = 4 ) = (10C4 ) (1/2) 4 (1/2) 6 = 105/512 = 0.2051

P ( X = 5 ) = (10C 5) (1/2) 5 (1/2) 5 = 63/256 = 0.2461

P ( X = 6 ) = (10C 6) (1/2) 6 (1/2) 4 = 105/512 = 0.2051

Entonces la probabilidad pedida es

P ( 3 ≤ x ≤ 6 ) = 15/128 + 105/512 + 63/256 + 105/512

= 99/128 = 0.7734

Figura 1:

9998,0)06,3( =≤= Zp

numero de caras

0

0,05

0,1

0,15

0,2

0,25

0,3

0 5 10 15


159

Figura 2:

b) La distribución de probabilidad para el numero de caras en 10 lanzamientos de la

moneda se presentan gráficamente en las figuras 1 y 2 . en la figura 2 trata los datos como si

fueran continuos. La probabilidad pedida es la suma de las áreas de los rectángulos

sombreados en la figura 2 y puede aproximarse por el área bajo la correspondiente curva

normal, mostrada a trazos. Considerando los datos como continuos, se deduce que 3 a 6

caras pueden considerarse como 2.5 a 6.5 caras. También la media y la varianza para la

distribución Binomial están dadas por:

1 1

10(0.5) 5

10(0.5)(0.5) 1.58

2.5 5 6.5 51.58 0.951.58 1.58

( 1.58 0.95) ( 0.95) ( 1.58)0.8289 0.0571 0.7718

np

npq

z z

p z p z p z

μ

σ

= = =

= = =

− −= = − = =

− < < = < − < −= − =

Se compara muy bien con el valor verdadero de 0.7734 obtenido en el inciso a) . La

precisión es aun mejor para valores superiores de n.

numero de caras

0

0,05

0,1

0,15

0,2

0,25

0,3

0 2 4 6 8 10 12


160

Problema: La probabilidad de que un paciente se recupere de una rara enfermedad de la

sangre es 0.4. si se sabe que 100 personas contraen esta enfermedad, ¿cual es la

probabilidad de que menos de 30 sobrevivan ?

Solución:

1

100(0.4) 40

100(0.4)(0.4) 4.89929.5 40 2.14

4.899( 30) ( 2.14) 0.0162

np

npq

z

p x p z

μ

σ

= = =

= = =

−= = −

< = < − =

Problema: Una prueba de opción múltiple tiene 200 preguntas cada una con cuatro

respuestas posibles de las que solo una es la correcta. ¿Cual es la probabilidad De que con

puras conjeturas se obtengan de 25 a 30 respuestas correctas para 80 de los 200 problemas

acerca de los que el estudiante no tiene conocimiento?

Solución : La probabilidad de un respuesta correcta para cada una de las 80 preguntas es p

= ¼. Si X representa el número de respuesta correcta debidas a conjeturas entonces: 30

25

1(25 30) ,80,4

180 204

1 3180 3.8734 4

x

xp x b x

npμ

σ

=

=

⎛ ⎞≤ ≤ = ⎜ ⎟⎝ ⎠

⎛ ⎞= = =⎜ ⎟⎝ ⎠

⎛ ⎞⎛ ⎞= =⎜ ⎟⎜ ⎟⎝ ⎠⎝ ⎠

∑

necesitamos el área entre X 1 = 24.5 y X 2 = 30.5. Los valores Z correspondientes son

Z1 = (24.5 – 20 ) / 3.875 = 1.16 y Z 2 = (30.5 – 20 ) / 3.873 = 2.71


161

La probabilidad de adivinar correctamente de 25 a 30 preguntas está dada por la región

sombreada de la figura.

P ( 25 ≤ X ≤ 30 ) =p ( 1.16 < Z < 2.71 ) = p ( X < 2.71) – P ( X < 1.16)

= 0.9966 – 0.8770 = 0.1196

3.8 Otras distribuciones muéstrales. 3.8.1 Distribución T - Student.

Propiedades de las distribuciones t

1. Cada curva t tiene forma de campana con centro en cero.

2. Cada curva t esta mas dispersa que la curva normal estándar z.

3. A medida que v aumenta, la dispersión de la curva t correspondiente disminuye.

Sean 1 2, ,..., nX X X variables aleatorias independientes que son todas normales con μ y

desviación estándar. Entonces la variable aleatoria xt s

n

μ−= tiene una distribución t con v =

n – 1 grados de libertad.

Problema: El valor t con v = 14 grados de libertad que deja un área de 0.025 a la izquierda y

por tanto un área de 0.975 a la derecha es

0.975 0.025 2.145t t= − = −


162

Problema: Encuentre la probabilidad de 0.025 0.05t t t− < <

Solución:

Como 0.05t deja un área de 0.05 a la derecha y 0.025t− deja un área de 0.025 a la izquierda

encontramos un área total de 1- 0.05 – 0.025 = 0.925

0.025 0.05( ) 0.925P t t t− < < =

Problema: Un ingeniero químico afirma que el rendimiento medio de la población de cierto

proceso en lo lotes es 500 gramos por milímetro de materia prima. Para verificar esta

afirmación toma una muestra de 25 lotes cada mes. Si el valor de t calculado cae entre -

0.05t y 0.05t , queda satisfecho con su afirmación. ¿Qué conclusión extraería de una muestra

que tiene una media de 518 gramos por milímetro y una desviación estándar de 40 gramos?

Suponga que la distribución de rendimiento es aproximadamente normal.

Solución:

518 500 2.254025

t −= =

Este es un valor por arriba de 1.711. Si se desea obtener la probabilidad de obtener un valor

de t con 24 grados de libertad igual o mayor a 2.25 se busca en la tabla y es

aproximadamente de 0.02. De aquí es probable que el fabricante concluya que el proceso

produce un mejor producto del que piensa.

3.8.2 Distribución X cuadrada. Propiedades de las distribuciones ji – cuadrada.

1. Los valores de son mayores o iguales que cero.

2. La forma de una distribución depende del gl = n – l . En consecuencia , hay un

número infinito de distribuciones de .

3. El área bajo una curva ji – cuadrada y sobre el eje horizontal es 1.

Problema: Los siguientes son los pesos en decagramos de 10 paquetes de semillas de

pasto distribuida por cierta compañía: 46.4, 46.1, 45.8, 47.0, 46.1,45.9,45.8, 46.9, 45.2, 46.


163

Encuentre un intervalo de confianza de 95 % para la varianza de todos los paquetes de

semillas de pasto que distribuye esta compañía suponga una población normal.

Solución:

2( )0.5347

1ix x

sn−

= =−

∑

Al elevar este resultado al cuadrado se obtiene la varianza de la muestra

Varianza = 0.286

Para obtener un intervalo de confianza de 95% se elige un 0.05α = con 9 grados de

libertad se obtiene los valores de .

Se puede observar en la gráfica anterior que el valor . Corre en forma normal, esto es de

izquierda a derecha.


164

Se observa que la varianza corre en sentido contrario, pero esto es solo en la grafica. Con un

nivel de confianza del 95% se sabe que la varianza de la población de los pesos de los

paquetes de semillas de pasto está entre 0.135 y 0.935 decagramos al cuadrado.

Problemas propuestos P1. En una cierta área de la ciudad se da como una razón del 75% de los robos la necesidad

de dinero para comprar estupefacientes. Encuentre la probabilidad que dentro de los 5

próximos asaltos reportados en esa área

a) exactamente 2 se debieran a la necesidad de dinero para comprar drogas;

b) cuando mucho 3 se debieran a la misma razón arriba indicada.

P2. Un agricultor que siembra fruta afirma que 2/3 de su cosecha de duraznos han sido

contaminada por la mosca del mediterráneo. Encuentre la probabilidad de que al

inspeccionar 4 duraznos

a) los 4 estén contaminados por la mosca del mediterráneo

b) cualquier cantidad entre 1 y 3 esté contaminada.

P3. De acuerdo con una investigación llevada a cabo por la Administrative Management

Society, 1/3 de las compañías en Estados Unidos le dan a sus empleados cuatro semanas

de vacaciones después de 15 años de servicio. Encuentre la probabilidad de que 6 de las

compañías investigadas al azar, el número que les dan a sus empleados cuatro semanas de

vacaciones después de 15 años de servicio es

a) cualquier cantidad entre 2 y 5;

b) menos de 3.


165

P4. De acuerdo con un estudio publicado por un grupo de sociólogos de la Universidad de

Massachussets, aproximadamente 60% de los adictos al Valium en el estado de

Massachussets, lo tomaron por primera vez debido a problemas psicológicos. Encuentre la

probabilidad de que los siguientes 8 adictos entrevistados

a) exactamente 3 hayan comenzado a usarlo debido a problemas psicológicos.

b) al menos 5 de ellos comenzaran a tomarlo por problemas que no fueron

psicológicos.

P5. Al probar una cierta clase de neumático para camión en un terreno escabroso se

encontró que 25% de los camiones terminaban la prueba con los neumáticos dañados. De

los siguientes 15 camiones probados encuentre la probabilidad de que

a) De 3 a 6 tengan ponchaduras;

b) Menos de 4 tengan ponchaduras;

c) Mas de 5 tengan ponchaduras

P6. De acuerdo con un reporte publicado en la revista Parade, septiembre 14 de 1980, una

investigación a nivel nacional llevada a cabo por la Universidad de Michigan reveló que casi

el 70% de los estudiantes del último año desaprueban las medidas para controlar el hábito

de fumar mariguana todos los días. Si 12 de estos estudiantes se seleccionan al azar y se

les pregunta su opinión, encuentre la probabilidad de que el número que desaprueba dicha

medida sea

a. cualquier cantidad entre 7 y 9

b. cuando mucho 5;

c. no menos de 8

P7. La probabilidad de que un paciente se recupere de una delicada operación de corazón

es de 0.9. ¿Cuál es la probabilidad de que exactamente 5 de los próximos 7 pacientes que

se sometan a esta intervención sobrevivan?

P8. Un ingeniero de control de tráfico reporta que el 75% de los vehículos que pasan por un

punto de verificación tienen matrículas del estado. ¿Cuál es la probabilidad de que más de 7

de los siguientes 9 vehículos no sean del estado?

P9. Una investigación de los residentes de una ciudad de Estados Unidos mostró que 20%

preferían un teléfono blanco que de cualquier otro color disponible. ¿Cuál es la probabilidad


166

de que más de la mitad de los siguientes 20 teléfonos que se instalen en esta ciudad sean

de color blanco?

P10. Se sabe que el 40% de los ratones inyectados con un suero quedan protegidos contra

una cierta enfermedad. Si 5 ratones son inyectados, encuentre la probabilidad de que

a. Ninguno contraiga la enfermedad;

b. Menos de 2 la contraigan;

c. Más de 3 la contraigan

P11. Suponga que los motores de un aeroplano operan en forma independiente y de que

fallan con una probabilidad de 0.4. Suponiendo que uno de estos artefactos realiza un vuelo

seguro en tanto se mantenga funcionando cuando menos la mitad de sus motores,

determine qué aeroplano, uno de los 4 motores o uno de 2, tiene mayor probabilidad de

terminar su vuelo exitosamente.

P12. Las probabilidades son de 0.4, 0.2, 0.3 y 0.1, respectivamente, de que un delegado

llegue por aire a cierta convención, llegue en autobús, 3en automóvil o en tren. ¿Cuál es la

probabilidad de que entre 9 delegados seleccionados aleatoriamente en esta convención, 3

hayan llegado por aire, 3 en autobús, 1 en automóvil y 2 en tren.

P13. El dueño de una casa planta 6 tallos que selecciona al azar de una caja que contiene 5

tallos de tulipán y 4 de narciso. ¿Cuál es la probabilidad de que plante 2 tallos de narciso y 4

de tulipán?

P14. Un comité de tres integrantes se forma aleatoriamente seleccionando de entre 4

doctores y 2 enfermeras. Escriba una fórmula para la distribución de probabilidad de la

variable aleatoria X que representa el número de doctores en el comité. Encuentre P(2 ≤ X ≤

3).

P15. Una compañía está interesada en evaluar sus actuales procedimientos de inspección

en el embarque de 50 artículos idénticos. El procedimiento es tomar una muestra de 5

piezas y autorizar el embarque si se encuentra que no más de 2 están defectuosas. ¿qué

proporción del 20% de embarques defectuosos serán autorizados?


167

P16. La probabilidad de que una persona que vive en cierta ciudad posea un perro se estima

en 0.3. Encuentre la probabilidad de que la décima persona entrevistada aleatoriamente en

esta ciudad sea la quinta persona que posee un perro.

P17. Un científico inocula varios ratones, uno a la vez, con un germen de una enfermedad

hasta que obtiene 2 que la han contraído. Si la probabilidad de contraer la enfermedad es

1/6. ¿cuál es la probabilidad de que se requieran 8 ratones?

P18. Suponga que la probabilidad de que una persona determinada crea una historia acerca

de los atentados a una famosa actriz es de 0.8. ¿Cuál es la probabilidad de que

a) la sexta persona que escucha tal historia sea la cuarta que la crea?

b) La tercera persona que escucha tal historia sea la primera en creerla?

P19. Tres personas lanzan una moneda y la que salga dispareja paga los cafés. Si todas las

monedas caen iguales, se lanzan nuevamente. Encuentre la probabilidad de que se

necesiten menos de 4 lanzamientos.

P20. La probabilidad de que un estudiante para piloto apruebe el examen escrito para

obtener su licencia de piloto privado es de 0.7. Encuentre la probabilidad de que una

persona apruebe el examen

a. en el tercer intento

b. antes del cuarto intento

P21. El número promedio de ratas de campo por acre en un campo de trigo de 5 acres se

estima que es de 12. Encuentre la probabilidad de que menos de 7 ratas de campo se

encuentren

a. en una acre de terreno determinado;

b. en 2 de los siguientes 3 acres inspeccionados.

P22. Un restaurante prepara una ensalada que contiene en promedio 5 verduras diferentes.

Encuentre la probabilidad de que la ensalada contenga más de 5 verduras

a. en un determinado día;

b. en 3 de los siguientes 4 días;

c. por primera vez el 5 de abril.


168

P23. La probabilidad de que una persona muera debido a cierta infección respiratoria es

0.002. Encuentre la probabilidad de que mueran menos de 5 de las próximas 2000

personas infectadas.

P24. Suponga que en promedio 1 persona de cada 1000 comete un error numérico al

preparar su declaración de impuestos. Si se seleccionan al azar 10 000 formas y se

examinan, encuentre la probabilidad de que 6, 7 u 8 formas tengan error.

P25. La probabilidad de que un estudiante presente problemas de escoliosis (desviación

lateral sufrida por la columna vertebral) en una escuela de la localidad es de 0.004. De los

siguientes 1875 estudiantes revisados encuentre la probabilidad de que

a) menos de 5 presenten este problema

b) 8, 9 o 10 presenten este problema

P26. Se está considerando la producción de una máquina automática de soldar. Se

considerará exitosa si tiene una efectividad del 99% en sus soldaduras. De otra manera, no

se considerará eficiente. Se lleva a cabo la prueba de un prototipo y se realizan 100

soldaduras. La máquina se aceptará para su fabricación si no son defectuosas más de tres

soldaduras.

a. ¿Cuál es la probabilidad de que una máquina eficiente sea rechazada?

b. ¿Cuál es la probabilidad de que una máquina ineficiente con 95% de

soldaduras correctas sea aceptada?

P27. Una agencia que renta automóviles en un aeropuerto local tiene disponibles 5 Ford, 7

Chevrolet, 4 Dodge, 3 Datsun y 4 Toyota. Si la agencia selecciona aleatoriamente 9 de

estos vehículos para transportar delegados desde el aeropuerto hasta el centro de

convenciones en el centro de la ciudad, encuentre la probabilidad de que se utilicen 2 Ford,

3 Chevrolet, 1 Dodge, 1 Datsun y 2 Toyota.

P28. Un investigador de la UCLA reporta que las ratas viven un promedio de 40 meses

cuando sus dietas son muy restringidas y luego enriquecidas con vitaminas y proteínas.

Suponiendo que las vidas de tales ratas están normalmente distribuidas con una desviación

estándar de 6.3 meses, encuentre la probabilidad de que una rata determinada viva

a) más de 32 meses;

b) menos de 28 meses;


169

c) entre 37 y 49 meses.

P29. Las piezas de pan de centeno distribuidas a las tiendas locales por una cierta

pastelería tienen una longitud de 30cm y una desviación estándar de 2cm. Suponiendo que

las longitudes están normalmente distribuidas, ¿qué porcentaje de las piezas son

a) de más de 31.7cm de longitud?

b) entre 29.3 y 33.5 cm de longitud?

c) de una longitud menor que 25.5 cm?

P38. Una máquina despachadora de refrescos está ajustada para servir un promedio de 200

ml por vaso. Si la cantidad de refresco es normalmente distribuida con una desviación

estándar igual a 15 ml.

a) ¿Qué fracción de los vasos contendrá más de 224 ml?

b) ¿Cuál es la probabilidad de que un vaso contenga entre 191 y 209 ml?

c) ¿Cuántos vasos probablemente se derramarán si se utilizan vasos de 230 ml en

los siguientes 1000 refrescos?

UNIDAD 4

ESTADISTICA APLICADA.

Objetivo: Conocerá los aspectos fundamentales de la inferencia estadística. Definirá su aplicación en situaciones reales o simuladas.

UNIDAD IV / ESTADISTICA APLICADA.

171

4.1 Inferencia estadística. 4.1.1 Concepto. La teoría de la inferencia estadística consiste en aquellos métodos por los que se realizan

inferencias o generalizaciones acerca de una población. La tendencia actual es la

distribución entre el método clásico de estimación de un parámetro de la población, por

medio del cual las inferencias se basan de manera estricta en información que se obtiene de

una muestra aleatoria seleccionada de la población, y el método Bayesiano, que utiliza el

conocimiento subjetivo previo sobre la distribución de probabilidad de los parámetros

desconocidos junto con la información que proporcionan los datos de la muestra. En esta

unidad utilizaremos los métodos clásicos para estimar los parámetros de la población

desconocidos como la media, la proporción y la varianza mediante el cálculo de estadística

de muestras aleatorias y la aplicación de la teoría de las distribuciones muéstrales.

4.1.2 Estimación. El objetivo principal de la estadística inferencial es la estimación, esto es que mediante el

estudio de una muestra de una población se quiere generalizar las conclusiones al total de la

misma. Como vimos en la sección anterior, los estadísticos varían mucho dentro de sus

distribuciones muéstrales, y mientras menor sea el error estándar de un estadístico, más

cercanos serán unos de otros sus valores.

Existen dos tipos de estimaciones para parámetros; puntuales y por intervalo. Una

estimación puntual es un único valor estadístico y se usa para estimar un parámetro, que

se calcula a partir de una muestra dada y sirve como una aproximación del valor exacto

desconocido del parámetro.

El estadístico usado se denomina estimador. Una estimación por intervalo, es la estima

de un parámetro poblacional dada por dos números entre los cuales se considera que se

encuentra dicho parámetro generalmente de ancho finito

4.1.3 Prueba de hipótesis. Las secciones anteriores han mostrado cómo puede estimarse un parámetro a partir de los

datos contenidos en una muestra. Puede encontrarse ya sea un sólo número (estimador

puntual) o un intervalo de valores posibles (intervalo de confianza). Sin embargo, muchos


172

problemas de ingeniería, ciencia, y administración, requieren que se tome una decisión entre

aceptar o rechazar una proposición sobre algún parámetro. Esta proposición recibe el

nombre de hipótesis. Este es uno de los aspectos más útiles de la inferencia estadística,

puesto que muchos tipos de problemas de toma de decisiones, pruebas o experimentos en

el mundo de la ingeniería, pueden formularse como problemas de prueba de hipótesis.

4.1.4 Método clásico de estimación (puntual).

Una estimación puntual de un parámetro θ es un solo numero que se puede considerar

como el valor mas razonable de θ . La estimación puntual se obtiene al seleccionar una

estadística apropiada y calcular su valor a partir de datos de la muestra dada. La estadística

seleccionada se llama estimador puntual de θ .

4.1.5 Estimador Insesgado.

Entre todos los estimadores de θ que son insesgados, seleccione al que tenga varianza

mínima. El resultante recibe el nombre de estimador insesgado con varianza mínima

(MVUE, minimum variance unbiased estimator) de . En otras palabras, la eficiencia se

refiere al tamaño de error estándar de la estadística. Si comparamos dos estadísticas de una

muestra del mismo tamaño y tratamos de decidir cuál de ellas es un estimador más eficiente,

escogeríamos la estadística que tuviera el menor error estándar, o la menor desviación

estándar de la distribución de muestreo. Tiene sentido pensar que un estimador con un error

estándar menor tendrá una mayor oportunidad de producir una estimación más cercana al

parámetro de población que se está considerando.

4.2 Intervalos de confianza. 4.2.1 Estimación por intervalo. Las estimaciones por intervalo de un parámetro poblacional desconocido dan idea de la

precisión y exactitud de la inferencia efectuada, junto con la probabilidad de que tal

estimación sea cierta. Se calculan a través de los llamados: intervalos de confianza. Estos se

θ


173

construyen con la función probabilística del modelo estadístico adoptado para realizar la

estimación

4.2.2 Límites de confianza. Estimas por intervalo de confianza, de parámetros poblacionales. Un intervalo de confianza con un nivel de confianza de 95% de la resistencia real promedio a

la ruptura podría tener un límite inferior de 9162.5 y uno superior de 9482.9. Entonces, en un

nivel de confianza de 95%, es posible tener cualquier valor de entre 9162.5 y 9482.9. Un

nivel de confianza de 95% implica que 95% de todas las muestras daría lugar a un intervalo

que incluye o cualquier otro parámetro que se esté estimando, y sólo 5% de las muestras

producirá un intervalo erróneo. Cuanto mayor sea el nivel de confianza podremos creer que

el valor del parámetro que se estima está dentro del intervalo.

Intervalos (S ± σ s , S ± 2σ s , S ± 3σ s ) son llamados lo limites de confianza del 68.27 %,

95.45 % y 99.73 % o como otras veces se conocen limites fiduciales.

Análogamente, S ± 1.96σ s y S ± 2.58 σ s son los limites de confianza del 95 % y 99 % ( ó

0.95 y 0.99 ) para μs.

El porcentaje de confianza se llama también nivel de confianza. Los números 1.96, 2.58,

etc., de los limites de confianza se llaman coeficientes de confianza o valores críticos y se

denotan por Zc . De los niveles de confianza se pueden obtener los coeficientes de confianza

y recíprocamente.

En la tabla siguiente se dan los valores de Z c que corresponden a distintos niveles de

confianza utilizados en la práctica. Para niveles de confianza que no se encuentra en la tabla

, los valores de Z c pueden sacarse de las tablas de la curva normal en el Apéndice A.

Nivel de confianza (%)

99.73 3.00

99 2.58

98 2.33

96 2.05

μ

μ


174

95.45 2.00

95 1.96

90 1.645

80 1.28

68.27 1.00

50 0.6745

Estos intervalos abiertos por izquierda o por derecha se denominan de una cola, mientras

que los comunes para la estimación de parámetros poblacionales son de dos colas.

Niveles de significancia Niveles de confianza Coeficiente de confianza

α ( ) 100*1 α−=NC αZ

0.0005

0.0010

0.0013

0.0050

0.0100

0.0227

0.0250

0.0500

0.1587

99.95 %

99.90 %

99.87 %

99.50 %

99.00 %

97.72 %

97.50 %

95.00 %

84.13 %

3.29

3.09

3.00

2.58

2.33

2.00

1.96

1.645

1.00

99.90% 99.00% 95.00%

1 cola 3.09 2.33 1.645

2 cola 3.29 2.58 1.96

4.2.3 Intervalo de confianza para media con varianza conocida. 1. Grandes muestras ( n ≥ 30 ).

La fórmula para el cálculo de probabilidad es la siguiente:

n

xZ σμ−

=


175

Como en este caso no conocemos el parámetro y lo queremos estimar por medio de la

media de la muestra, sólo se despejará μ de la formula anterior, quedando lo siguiente:

De esta fórmula se puede observar que tanto el tamaño de la muestra como el valor de z se

conocerán. Z se puede obtener de la tabla de la distribución normal a partir del nivel de

confianza establecido.

Pero en ocasiones se desconoce por lo que en esos casos lo correcto es utilizar otra

distribución llamada “t” de Student si la población de donde provienen los datos es normal.

Para el caso de tamaños de muestra grande se puede utilizar una estimación puntual de la

desviación estándar, es decir igualar la desviación estándar de la muestra a la de la

población (s = σ).

En el caso de muestreo en una población infinita o si el muestreo es con remplazamiento en

una población finita y por

Si el muestreo es sin remplazamiento en una población finita de tamaño N.

En general, la desviación típica poblacional σ es desconocida, de modo que para obtener

los límites de confianza anteriores se utiliza la estima muestra S.

Muestras grandes. Problema: Supóngase que las estaturas de 100 estudiantes de la universidad XYZ. Hallar

los intervalos de confianza del:

a) 95 % y

b) 99 % .

Para estimar la estatura media de ⎯X = 67.45 y 2.73σ = pulgadas de los estudiantes de la

universidad XYZ.

nZx C

σ±

a) Los límites de confianza del 95% son

nZx c

σμ ±=

σ

1−−

±=N

nNn

Zx cσμ


176

Zc = 1.96

Así, pues, el intervalo de confianza del 95 % para la media poblacional μ es 66.88 a 68.02

pulgadas, que puede denotarse por 66.88 < μ < 68.02

b) Los límites de confianza del 99 % son

Así, pues, el intervalo de confianza del 99 % para la media poblacional μ es 66.69 a 68.21

pulgadas, que puede denotarse por 66.69 < μ < 68.21

Problema: Las medidas de los diámetros de una muestra de 200 cojinetes de bolas hechos

por una determinada maquina durante una semana dieron una media de 0.824 pulgadas y

una desviación típica de 0.042 pulgadas. Hallar los limites de confianza del

a) 95 %

b) 99 %

Para el diámetro medio de todos los cojinetes.

Solución:

a) los limites de confianza del 95% son

Zc = 1.96

b) los limites de confianza del 99% son

Zc = 2.58

Problema: Hallar los limites de confianza del

a) 98 %

b) 90 %

67.45 1.962.93

100⋅+ 68.02= 67.45 1.96

2.93

100⋅− 66.88=

67.45 2.582.93

100⋅+ 68.21= 67.45 2.58

2.93

100⋅− 66.69=

0.824 1.960.042

200⋅+ 0.83= 0.824 1.96

0.042

200⋅− 0.818=

0.824 2.580.042

200⋅+ 0.832= 0.824 2.58

0.042

200⋅− 0.816=


177

c) 99.73 %

Para el diámetro medio de los cojinetes del problema anterior.

Solución:

a) Los limites de confianza del 98 %

Zc = 2.33

b) Los limites de confianza del 90 %

Zc = 1.645

c) Los limites de confianza del 99.73 %

Zc = 3.00

Problema: Al medir el tiempo de reacción, un psicólogo estima que la desviación típica del

mismo es de 0.05 segundos.

¿Cuál es el numero de medidas que deberá hacer para que sea del

a) 95 %

b) 99 %

la confianza de que error de su estima no exceda de 0.01 segundo ?

Solución:

a) Los límites de confianza del 95 % son.

Tomando σ = s = 0.05 segundos, se tiene que el error será igual a 0.01 si:

(1.96 ) ( 0.05 ) / √ n = 0.01, es decir,

√ n = (1.96)(0.05) / 0.01

√ n = 9.8

n = 96.04.

Así, pues, se puede estar en la confianza del 95 % de que el error de la estima será

menor de 0.01 si n es 96 o mayor.

0.824 2.330.042

200⋅+ 0.831= 0.824 2.33

0.042

200⋅− 0.817=

0.824 1.6450.042

200⋅+ 0.829= 0.824 1.645

0.042

200⋅− 0.819=

0.824 3.000.042

200⋅+ 0.833= 0.824 3.00

0.042

200⋅− 0.815=


178

b) Los límites de confianza del 99 % son.

Tomando σ = s = 0.05 segundos, se tiene que el error será igual a 0.01 si:

(2.58) ( 0.05 ) / √ n = 0.01, es decir,

√ n = (2.58)(0.05) / 0.01

n = 166.41.

Así, pues, se puede estar en la confianza del 99 % de que el error de la estima será menor

de 0.01 si n es 166 o mayor.

Problema: Se encuentra que la concentración promedio de zinc que se saca del agua a

partir de una muestra de mediciones de zinc en 36 sitios diferentes es de 2.6 gramos por

mililitro. Encuentre los intervalos de confianza de 95% y 99% para la concentración media de

zinc en el río. Suponga que la desviación estándar de la población es 0.3.

Solución:

Para el 95 % , Z c = 1.96

para el 99 % ; Z c = 2.58

Problema: Una empresa eléctrica fabrica focos que tienen una duración aproximadamente

distribuida de forma normal con una desviación estándar de 40 horas. Si una muestra de 30

2.6 1.960.3

36⎛⎜⎝

⎞⎟⎠

+ 2.7= 2.6 1.960.3

36⎛⎜⎝

⎞⎟⎠

− 2.5=

7.25.2 << μ

2.6 2.580.3

36⎛⎜⎝

⎞⎟⎠

+ 2.73= 2.6 2.580.3

36⎛⎜⎝

⎞⎟⎠

− 2.47=

73.247.2 << μ


179

focos tiene una duración promedio de 780 horas, encuentre un intervalo de confianza de

96% para la media de la población de todos los focos que produce esta empresa.

Solución:

Con un nivel de confianza del 96% se sabe que la duración media de los focos que produce

la empresa está entre 765 y 765 horas.

Problema: La prueba de corte sesgado es el procedimiento más aceptado para evaluar la

calidad de una unión entre un material de reparación y su sustrato de concreto. El artículo

“Testing the Bond Between Repair Materials and Concrete Substrate” informa que, en cierta

investigación, se obtuvo una resistencia promedio muestral de 17.17 N/mm2, con una

muestra de 48 observaciones de resistencia al corte, y la desviación estándar muestral fue

3.28 N/mm2. Utilice un nivel de confianza inferior del 95% para estimar la media real de la

resistencia al corte.

Solución:

Para el intervalo de confianza unilateral, se cargará el área bajo la curva hacia un solo lado

como sigue:

Inferior a 95 % de la tabla es el 90 % que tiene

Z c = 1.645

Problema: Suponga que un centro de computo regional desea evaluar el desempeño de su

sistema de memoria en disco. Una medida del desempeño es el tiempo medio entre fallas de

su unidad de disco. A fin de estimar este valor, el centro registro el tiempo entre fallas para

una muestra aleatoria de 45 fallas de la unidad de disco. Se calcularon las siguientes

estadísticas: ; s = 215 horas , estime el verdadero tiempo medio entre fallas

con un intervalo de confianza de 90%

Solución:

780 2.0540

30⎛⎜⎝

⎞⎟⎠

− 765.03= 780 2.0540

30⎛⎜⎝

⎞⎟⎠

⋅+ 794.97=

794765 << μ

39.164828.3645.117.17 =⎟

⎠

⎞⎜⎝

⎛−

horasx 1762=


180

Problema: Una muestra aleatoria de 50 calificaciones de matemáticas de un total de 200,

arrojo una media de 75 y una desviación típica de 10

a) ¿Cuales son los limites de confianza del 95 % para la estima de la media de las

200 calificaciones?

b) ¿Con que grado de confianza podrá decirse que la media de las 200 calificaciones

es 75 ± 1?

Solución:

a) Se debe emplearse la formula para poblaciones finitas con muestreo sin

remplazamiento. Entonces los limites de confianza del 95 % son :

b) Los límites de confianza pueden representarse por:

75 ± 1.23 Z c

Puesto que esto debe ser igual a 75 1 , se tiene que 1.23 Z c = 1 ó Z c = 0.81. El área

bajo la curva desde

Por simetría es : z = - 0.81 y z = 0.81 es :

( 0.81 0.81) ( 0.81) ( 0.81)0.7910 0.2090 0.5820 50.2%

p z p z p z− ≤ ≤ = ≤ − ≤ −= − = =

De aquí el grado de confianza pedido es de 58.20%

Cálculo del Tamaño de la Muestra para Estimar una Media

¿Qué tan grande debe ser una muestra si la media muestral se va a usar para estimar la

media poblacional? . La respuesta depende del error estándar de la media, si este fuera

cero, entonces se necesitaría una sola media que será igual necesariamente a la media

poblacional desconocida μ, porque σ = 0. Este caso extremo no se encuentra en la práctica,

1762 1.645215

45⎛⎜⎝

⎞⎟⎠

⋅− 1709.3= 1762 1.645215

45⎛⎜⎝

⎞⎟⎠

⋅+ 1814.7=

7.18143.1709 << μ

75 1.9610

50⋅

200 50−

200 1−⋅+ 77.41= 75 1.96

10

50⋅

200 50−

200 1−⋅− 72.59=

75 Zc10

50⋅

200 50−

200 1−⋅+

±


181

pero refuerza el hecho de que mientras menor sea el error estándar de la media, menor es el

tamaño de muestra necesario para lograr un cierto grado de precisión.

Se estableció antes que una forma de disminuir el error de estimación es aumentar el

tamaño de la muestra, si éste incluye el total de la población, entonces sería igual

a cero. Con esto en mente, parece razonable que para un nivel de confianza fijo, sea posible

determinar un tamaño de la muestra tal que el error de estimación sea tan pequeño como

queramos, para ser mas preciso, dado un nivel de confianza y un error fijo de estimación ,

se puede escoger un tamaño de muestra n tal que Nivel de confianza.

Con el propósito de determinar n. El error máximo de estimación esta dado por:

Si se eleva al cuadrado ambos lados de esta ecuación y se despeja n de la ecuación

resultante, obtenemos:

Como n debe de ser un número entero, redondeamos hacia arriba todos los resultados

fraccionarios.

En el caso de que se tenga una población finita y un muestreo sin reemplazo, el error de

estimación se convierte en:

De nuevo se eleva al cuadrado ambos lados y se despeja la n, obteniendo:

Problema: Un biólogo quiere estimar el peso promedio de los ciervos cazados en el estado

de Maryland. Un estudio anterior de diez ciervos cazados mostró que la desviación estándar

de sus pesos es de 12.2 libras. ¿Qué tan grande debe ser una muestra para que el biólogo

tenga el 95% de confianza de que el error de estimación es a lo más de 4 libras?

Solución:

μ−x

ε

=<− )( εμxP

nZσε =

2

⎟⎠⎞

⎜⎝⎛=

εσZn

1−−

⎟⎠

⎞⎜⎝

⎛=N

nNn

Zσε

222

22

)1( σεσ

ZNNZn+−

=


182

En consecuencia, si el tamaño de la muestra es 36, se puede tener un 95% de confianza en

que m difiere en menos de 4 libras de .

Problema: Una empresa eléctrica fabrica focos que tienen una duración aproximadamente

normal con una desviación estándar de 40 horas. ¿De qué tamaño se necesita una muestra

si se desea tener 96% de confianza que la media real esté dentro de 10 horas de la media

real?

Solución.

Se necesita una muestra de 68 focos para estimar la media de la población y tener un error

máximo de 10 horas. ¿Qué pasaría si en lugar de tener un error de estimación de 10 horas

sólo se requiere un error de 5 horas?

Se puede observar como el tamaño de la muestra aumenta, pero esto tiene como beneficio

una estimación más exacta.

Problema: Suponga que en el ejercicio anterior se tiene una población de 300 focos, y se

desea saber de que tamaño debe de ser la muestra. El muestreo se realizará sin reemplazo.

Solución:

( ) ( ) ( )( ) ( ) ( )( )

2 22 2

2 22 2 2 2

2.053 40 30055.21

( 1) 10 300 1 2.053 40z Nn

N zσ

ε σ= = =

− + − +

( )( ) 736.354

2.1296.1 22

=⎥⎦⎤

⎢⎣⎡=⎟

⎠⎞

⎜⎝⎛=

εσZn

x

( )45.67

1040)053.2( 22

=⎥⎦⎤

⎢⎣⎡=⎟

⎠⎞

⎜⎝⎛=

εσZn

( )74.269

540)053.2( 22

=⎥⎦⎤

⎢⎣⎡=⎟

⎠⎞

⎜⎝⎛=

εσZn


183

Si se tiene una población finita de 300 focos sólo se tiene que extraer de la población una

muestra sin reemplazo de 55 focos para poder estimar la duración media de los focos

restantes con un error máximo de 10 horas.

4.2.4. Intervalo de confianza para una diferencia de medias.

Si se tienen dos poblaciones con medias y varianzas y , respectivamente, un

estimador puntual de la diferencia entre y está dado por la estadística . Por

tanto. Para obtener una estimación puntual de - se seleccionan dos muestras

aleatorias independientes, una de cada población, de tamaño n1 y n2, se calcula la diferencia

, de las medias muéstrales. Recordando a la distribución muestral de diferencia de

medias:

Al despejar de esta ecuación - se tiene:

= ( )

En el caso en que se desconozcan las varianzas de la población y los tamaños de muestra

sean mayores a 30 se podrá utilizar la varianza de la muestra como una estimación puntual.

Problema: Se lleva a cabo un experimento en que se comparan dos tipos de motores, A y B.

Se mide el rendimiento en millas por galón de gasolina. Se realizan 50 experimentos con el

motor tipo A y 75 con el motor tipo B. La gasolina que se utiliza y las demás condiciones se

mantienen constantes. El rendimiento promedio de gasolina para el motor A es de 36 millas

por galón y el promedio para el motor B es 42 millas por galón. Encuentre un intervalo de

confianza de 96% sobre la diferencia promedio real para los motores A y B. Suponga que las

desviaciones estándar poblacionales son 6 y 8 para los motores A y B respectivamente.

Solución:

1μ 2μ 21σ 2

2σ

1μ 2μ 21 xx −

1μ 2μ

21 xx −

2

22

1

21

2121 )()(

nn

xxZ

σσ

μμ

+

−−−=

1μ 2μ

21 μμ − 21 xx − Z±2

22

1

21

nnσσ

+


184

Es deseable que la diferencia de medias sea positiva por lo que se recomienda restar la

media mayor menos la media menor. En este caso será la media del motor B menos la

media del motor A. El valor de z para un nivel de confianza del 96% es de 2.05.

= ( )

La interpretación de este ejemplo sería que con un nivel de confianza del 96% la diferencia

del rendimiento promedio esta entre 3.43 y 8.57 millas por galón a favor del motor B. Esto

quiere decir que el motor B da más rendimiento promedio que el motor A, ya que los dos

valores del intervalo son positivos.

Problema: Una compañía de taxis trata de decidir si comprar neumáticos de la marca A o de

la B para su flotilla de taxis. Para estimar la diferencia de las dos marcas, se lleva a cabo un

experimento utilizando 12 de cada marca. Los neumáticos se utilizan hasta que se

desgastan, dando como resultado promedio para la marca A 36,300 kilómetros y para la

marca B 38,100 Kilómetros. Calcule un intervalo de confianza de 95% para la diferencia

promedio de las dos marcas, si se sabe que las poblaciones se distribuyen de forma

aproximadamente normal con desviación estándar de 5000 kilómetros para la marca A y

6100 kilómetros para la marca B.

Solución:

= ( )

Como el intervalo contiene el valor “cero”, no hay razón para creer que el promedio de

duración del neumático de la marca B es mayor al de la marca A, pues el cero nos está

indicando que pueden tener la misma duración promedio.

Cálculo del Tamaño de la Muestra para Estimar la Diferencia de Medias Si se recuerda a la distribución muestral de diferencia de medias se tiene que error esta

dado por:

21 μμ − 21 xx − Z±7564

503605.2)3642(

2

22

1

21 +±−=+

nnσσ

57.843.3 <−< BA μμ

21 μμ − 21 xx − Z±12

610012

500096.1)3630038100(22

2

22

1

21 +±−=+

nnσσ

67.626268.2662 <−<− AB μμ


185

En esta ecuación se nos pueden presentar dos casos:

• Los tamaños de muestra son iguales.

• Los tamaño de muestra son diferentes

Para el primer caso no se tiene ningún problema, se eleva al cuadrado la ecuación y se

despeja n ya que n1 es igual a n2.

Para el segundo caso se pondrá una n en función de la otra. Este caso se utiliza cuando las

poblaciones son de diferente tamaño y se sabe que una es K veces mayor que la otra.

Problema: Un director de personal quiere comparar la efectividad de dos métodos de

entrenamiento para trabajadores industriales a fin de efectuar cierta operación de montaje.

Se divide un número de operarios en dos grupos iguales: el primero recibe el método de

entrenamiento 1, y el segundo, el método 2. Cada uno realizará la operación de montaje y se

registrará el tiempo de trabajo. Se espera que las mediciones para ambos grupos tengan

una desviación estándar aproximadamente de 2 minutos. Si se desea que la estimación de

la diferencia en tiempo medio de montaje sea correcta hasta por un minuto, con una

probabilidad igual a 0.95,

¿Cuántos trabajadores se tienen que incluir en cada grupo de entrenamiento?

Solución:

Cada grupo debe contener aproximadamente 31 empleados.

2

22

1

21

nnZ σσε +=

2

22

21

2 )(ε

σσ +=

Zn

311

)22()969.1()(2

222

2

22

21

2

=+

=+

=ε

σσZn


186

4.2.5 Intervalo de confianza para proporciones. Un estimador puntual de la proporción P en un experimento Binomial está dado por la

estadística P = X / N, donde x representa el número de éxitos en n pruebas.

Por tanto, la proporción de la muestra p = x /n se utilizará como estimador puntual del

parámetro P. Si no se espera que la proporción P desconocida esté demasiado cerca de 0 ó

de 1, se puede establecer un intervalo de confianza para P al considerar la distribución

muestral de proporciones.

Al despejar P de esta ecuación nos queda:

En este despeje podemos observar que se necesita el valor del parámetro P y es

precisamente lo que queremos estimar, por lo que lo sustituiremos por la proporción de la

muestra p siempre y cuando el tamaño de muestra no sea pequeño.

Cuando n es pequeña y la proporción desconocida P se considera cercana a 0 ó a 1, el

procedimiento del intervalo de confianza que se establece aquí no es confiable, por tanto, no

se debe utilizar. Para estar seguro, se debe requerir que np ó nq sea mayor o igual a 5. El

error de estimación será la diferencia absoluta entre p y P, y podemos tener el nivel de

confianza de que esta diferencia no excederá

El error de estimación será la diferencia absoluta entre p y P, y podemos tener el nivel de

confianza de que esta diferencia no excederá

nPq

PpZ −=

nPqZpP c±=

nPqZpP c±=

nPqZpP c±=

nPqZ


187

Problema: Un fabricante de reproductores de discos compactos utiliza un conjunto de

pruebas amplias para evaluar la función eléctrica de su producto. Todos los reproductores

de discos compactos deben pasar todas las pruebas antes de venderse. Una muestra

aleatoria de 500 reproductores tiene como resultado 15 que fallan en una o más pruebas.

Encuentre un intervalo de confianza de 90% para la proporción de los reproductores de

discos compactos de la población que no pasan todas las pruebas.

Solución:

500; 15 / 500 0.03; 1.645

0.0175 0.0425

n p z

pqP p zn

P

= = = =

= ±

< <

Problema: En una muestra de 400 pilas tipo B fabricadas por la Everlast Company, se

encontraron 20 defectuosas. Si la proporción p de pilas defectuosas en esa muestra se usa

para estimar P, que vendrá a ser la proporción verdadera de todas las pilas defectuosas tipo

B fabricadas por la Everlast Company, encuentre el máximo error de estimación e tal que se

pueda tener un 95% de confianza en que P dista menos de de p.

Solución:

P = x / n = 20 / 400 = 0.05

Z c = 1.96

Si p = 0.05 se usa para estimar P, podemos tener un 95% de confianza en que P dista

menos de 0.021 de p. En otras palabras, si p = 0.05 se usa para estimar P, el error máximo

de estimación será aproximadamente 0.021 con un nivel de confianza del 95%. Para calcular

el intervalo de confianza se tendría: 0.05 0.021P ε± = ±

Esto da por resultado dos valores, (0.029, 0.071). Con un nivel de confianza del 95% se

sabe que la proporción de pulas defectuosas de esta compañía está entre 0.029 y 0.071. Si

se requiere un menor error con un mismo nivel de confianza sólo se necesita aumentar el

tamaño de la muestra.

ε

021.0400

)95.0)(05.0(96.1 ===npqZε


188

Problema: En un estudio de 300 accidentes de automóvil en una ciudad específica, 60

tuvieron consecuencias fatales. Con base en esta muestra, construya un intervalo del 90%

de confianza para aproximar la proporción de todos los accidentes automovilísticos que en

esa ciudad tienen consecuencias fatales.

Solución:

P = 60/300 = 0.20 ; Zc = 1.645

(0.20)(0.8)0.20 1.645300

P = ±

0.162 < P < 0.238

Problema: Es común utilizar aceros inoxidables en las plantas químicas para manejar fluidos

corrosivos. Sin embargo, estos aceros tienen especial susceptibilidad al agrietamiento por

corrosión causada por esfuerzos en ciertos entornos. En una muestra de 295 fallas de

aleaciones de acero que ocurrieron en refinerías de petróleo y plantas petroquímicas en

Japón durante los últimos 10 años, 118 se debieron a agrietamiento por corrosión causada

por esfuerzos y a fatiga de corrosión ( Materials Performance, junio de 1981). Establezca un

intervalo de confianza de 95 % para verdadera proporción de fallas de aleaciones causadas

por agrietamiento por corrosión debida a esfuerzos.

Solución:

P = 118 / 295 = 0.4

Problemas propuestos: P1. Una encuesta sobre vivienda estadounidense realizada por el Departamento de

Comercio de Estados Unidos revelo que 750 de 1500 propietarios de casa muestreados

siguen la filosofía de “ hágalo usted mismo” , es decir, realizaron ellos mismos la mayor parte

del trabajo en por lo menos una de las mejoras o reparaciones de su hogar ( Bureau of the

Census, Statistical Brief, mayo de 1992). Estime, con un intervalo de confianza de 95 %, la

verdadera proporción de propietarios de casas estadounidenses que realizan ellos mismos

la mayor parte del trabajo de mejoramiento o reparación de sus hogares.

456.0344.0

056.04.0295

)6.0)(4.0()96.1(4.0

<<

±=±=±=

PnpqZpP


189

P2. La encuesta del “ Agujero Negro”, patrocinada por el Consejo de Investigación sobre

Empleo Profesional, informa cuales son los puestos mas difíciles de llenar en las listas de los

reclutadores. En la encuesta mas recientes, 95 de 285 reclutadores consideraron los

puestos de ingeniería como los mas difíciles de llenar. ( Industrial Engineering, agosto de

1990). Estime el verdadero porcentaje de reclutadores que consideran que los puestos mas

difíciles de llenar son los de ingeniería. Utilice un intervalo de confianza de 99 % .

P3. Como parte de un convenio de cooperación en investigación entre Estados Unidos y

Japón, se diseño un edificio de concreto armado a escala completa y se aprobó en

condiciones simuladas de carga de un terremoto en Japón (Journal of Structural

Enginnering, enero de 1986). En una parte del estudio se pidió a varios ingenieros de diseño

estadounidense que evaluaron el nuevo diseño. De los 48 ingenieros encuestados, 36

opinaron que la pared de cizallamiento de la estructura tenía un refuerzo demasiado ligero.

Establezca un intervalo de confianza de 95 % para la verdadera proporción de ingenieros de

diseño estadounidenses que consideran que la pared de cizallamiento del edificio tiene un

refuerzo demasiado ligero.

4.2.6. Intervalo de confianza para diferencia de proporciones. Para este caso en particular se utilizará la distribución muestral de diferencia de

proporciones para la estimación de la misma. Recordando la formula:

Despejando de esta ecuación:

Aquí se tiene el mismo caso que en la estimación de una proporción, ya que al hacer el

despeje nos queda las dos proporciones poblacionales y es precisamente lo que queremos

estimar, por lo que se utilizarán las proporciones de la muestra como estimadores puntuales:

2

22

1

11

2121 )()(

nqP

nqP

PPppZ+

−−−=

21 PP −

2

22

1

112121 )(

nqP

nqPZppPP +±−=−

2

22

1

112121 )(

nqP

nqPZppPP +±−=−


190

Problema: Se considera cierto cambio en un proceso de fabricación de partes componentes.

Se toman muestras del procedimiento existente y del nuevo para determinar si éste tiene

como resultado una mejoría. Si se encuentra que 75 de 1500 artículos del procedimiento

actual son defectuosos y 80 de 2000 artículos del procedimiento nuevo también lo son,

encuentre un intervalo de confianza de 90% para la diferencia real en la fracción de

defectuosos entre el proceso actual y el nuevo.

Solución:

Como el intervalo contiene el valor de cero, no hay razón para creer que el nuevo

procedimiento producirá una disminución significativa en la proporción de artículos

defectuosos comparada con el método existente.

Problema: Un artículo relacionado con la salud, reporta los siguientes datos sobre la

incidencia de disfunciones importantes entre recién nacidos con madres fumadoras de

marihuana y de madres que no la fumaban:

Usuario No usuario

Tamaño muestral 1246 11178

Numero de disfunciones 42 294

Proporción muestral 0.0337 0.0263

Encuentre el intervalo de confianza del 99% para la diferencia de proporciones.

Solución:

Representemos P1 la proporción de nacimientos donde aparecen disfunciones entre todas

las madres que fuman marihuana y definamos P2, de manera similar, para las no fumadoras.

El valor de z para un 99% de confianza es de 2.58.

2

22

1

112121 )(

nqP

nqPZppPP +±−=−

0217.00017.0 21 <−<− PP

2

22

1

112121 )(

nqP

nqPZppPP +±−=−


191

Este intervalo es bastante angosto, lo cual sugiere que P1-P2 ha sido estimado de manera

precisa.

Problema: Un ingeniero de tráfico realizo un estudio de velocidades vehiculares en un

segmento de calle en la cual se cambio varias veces el límite de velocidad señalizado.

Cuando el límite era de 30 millas por hora, el ingeniero vigilo las velocidades de 100

vehículos elegidos al azar que transitaron por la calle y observo 49 violaciones del límite de

velocidad. Después de que el limite se elevo a 35 millas por hora, el ingeniero volvió a vigilar

las velocidades de 100 vehículos elegidos aleatoriamente y observo 19 que violaron el

limite. Establezca un intervalo de confianza de 99% para , donde p1 es la

verdadera proporción de vehículos que excedieron el límite de velocidad menor ( 30 millas

por hora) y p2 es la verdadera proporción de vehículos que ( en condiciones de circulación

similares) excedieron el límite de velocidad mayor ( 35 millas por hora).

Solución:

p1 = 49/100 = 0.49

p2 = 19/100 = 0.19

Determinación de Tamaños de Muestra para Estimaciones Al iniciar cualquier investigación, la primer pregunta que surge es: ¿de qué tamaño debe ser

la o las muestras?. La respuesta a esta pregunta la veremos en esta sección, con conceptos

que ya se han visto a través de este material.

Se desea saber que tan grande se requiere que sea una muestra para asegurar que el error

al estimar P sea menor que una cantidad específica ε.

0212.00064.0 21 <−<− PP

)( 21 pp −

2

22

1

112121 )(

nqP

nqPZppPP +±−=−

464.0136.0

164.030.0100

)81.0)(19.0(100

)51.0)(49.0(58.2)19.049.0(

21

21

<−<

±=+±−=−

PP

PP

npqZ=ε


192

Elevando al cuadrado la ecuación anterior se despeja n y nos queda:

Esta fórmula está algo engañosa, pues debemos utilizar p para determinar el tamaño de la

muestra, pero p se calcula a partir de la muestra.

Existen ocasiones en las cuales se tiene una idea del comportamiento de la proporción de la

población y ese valor se puede sustituir en la fórmula, pero si no se sabe nada referente a

esa proporción entonces se tienen dos opciones:

• Tomar una muestra preliminar mayor o igual a 30 para proporcionar una estimación

de P. Después con el uso de la fórmula se podría determinar de forma aproximada

cuántas observaciones se necesitan para proporcionar el grado de precisión que se

desea.

• Tomar el valor de p como 0.5 ya que sustituyendo este en la fórmula se obtiene el

tamaño de muestra mayor posible.

En el caso de que se tenga una población finita y un muestreo sin reemplazo, el error de

estimación se convierte en:

De nuevo se eleva al cuadrado ambos lados y se despeja la n, obteniendo:

Problema: En una muestra aleatoria de 500 familias que tienen televisores en la ciudad de

Hamilton, Canadá, se encuentra que 340 están suscritas a HBO. ¿Qué tan grande se

requiere que sea una muestra si se quiere tener 95% de confianza de que la estimación de P

esté dentro de 0.02?

Solución:

p = 340/500=0.68.

2

2

εpqZn =

1−−

=N

nNnpqZε

pqZNpqNZn 22

2

)1( +−=

ε

83.2089)02.0(

)32.0)(68.0()96.1(2

2

2

2

===ε

pqZn


193

Por lo tanto si basamos nuestra estimación de P sobre una muestra aleatoria de tamaño

2090, se puede tener una confianza de 95% de que nuestra proporción muestral no diferirá

de la proporción real por más de 0.02.

Problema: Una legisladora estatal desea encuestar a los residentes de su distrito para

conocer qué proporción del electorado conoce la opinión de ella, respecto al uso de fondos

estatales para pagar abortos. ¿Qué tamaño de muestra se necesita si se requiere un

confianza del 95% y un error máximo de estimación de 0.10?

Solución:

En este problema, se desconoce totalmente la proporción de residentes que conoce la

opinión de la legisladora, por lo que se utilizará un valor de 0.5 para p.

Se requiere un tamaño de muestra de 97 residentes para que con una confianza del 95% la

estimación tenga un error máximo de 0.10.

Cálculo del Tamaño de la Muestra para Estimar la Diferencia de Proporciones Si se recuerda a la distribución muestral de diferencia de medias se tiene que error esta

dado por:

En esta ecuación se nos pueden presentar dos casos:

• Los tamaños de muestra son iguales.

• Los tamaños de muestra son diferentes.

( )2

22112

εqpqpz

n+

=

Problema: Una compañía de productos alimenticios contrató a una empresa de investigación

de mercadotecnia, para muestrear dos mercados, I y II, a fin de comparar las proporciones

de consumidores que prefieren la comida congelada de la compañía con los productos de

sus competidores. No hay información previa acerca de la magnitud de las proporciones P1 y

04.96)10.0(

)50.0)(50.0()96.1(2

2

2

2

===ε

pqZn

2

22

1

11

nqp

nqpZ +=ε


194

P2. Si la empresa de productos alimenticios quiere estimar la diferencia dentro de 0.04, con

una probabilidad de 0.95, ¿Cuántos consumidores habrá que muestrear en cada mercado?

Solución:

Se tendrá que realizar encuestas a 1201 consumidores de cada mercado para tener una

estimación con una confianza del 95% y un error máximo de 0.04.

Problemas propuestos P1. Se probó una muestra aleatoria de 400 cinescopios de televisor y se encontraron 40

defectuosos. Estime el intervalo que contiene, con un coeficiente de confianza de 0.90, a la

verdadera fracción de elementos defectuosos.

P2. Se planea realizar un estudio de tiempos para estimar el tiempo medio de un trabajo,

exacto dentro de 4 segundos y con una probabilidad de 0.90, para terminar un trabajo de

montaje. Si la experiencia previa sugiere que = 16 seg. mide la variación en el tiempo de

montaje entre un trabajador y otro al realizar una sola operación de montaje, ¿cuántos

operarios habrá que incluir en la muestra?

P3. El decano registró debidamente el porcentaje de calificaciones D y F otorgadas a los

estudiantes por dos profesores universitarios de matemáticas. El profesor I alcanzó un 32%,

contra un 21% para el profesor II, con 200 y 180 estudiantes, respectivamente. Estime la

diferencia entre los porcentajes de calificaciones D y F otorgadas por los dos profesores.

Utilice un nivel de confianza del 95% e interprete los resultados.

P4. Suponga que se quiere estimar la producción media por hora, en un proceso que

produce antibiótico. Se observa el proceso durante 100 períodos de una hora, seleccionados

al azar y se obtiene una media de 34 onzas por hora con una desviación estándar de 3

onzas por hora. Estime la producción media por hora para el proceso, utilizando un nivel de

confianza del 95%.

P5. Un ingeniero de control de calidad quiere estimar la fracción de elementos defectuosos

en un gran lote de lámparas. Por la experiencia, cree que la fracción real de defectuosos

( )( ) ( )( )[ ]( )

5.120004.0

5.05.05.05.0)96.1()(2

2

22211

2

=+

=+

=ε

qpqpZn


195

tendría que andar alrededor de 0.2. ¿Qué tan grande tendría que seleccionar la muestra si

se quiere estimar la fracción real, exacta dentro de 0.01, utilizando un nivel de confianza fe

95%?

P6. Se seleccionaron dos muestras de 400 tubos electrónicos, de cada una de dos líneas de

producción, A y B. De la línea A se obtuvieron 40 tubos defectuosos y de la B 80. Estime la

diferencia real en las fracciones de defectuosos para las dos líneas, con un coeficiente de

confianza de 0.90 e intérprete los resultados.

P7. Se tienen que seleccionar muestras aleatorias independientes de n1 = n2 = n

observaciones de cada una de dos poblaciones binomiales, 1 y 2. Si se desea estimar la

diferencia entre los dos parámetros binomiales, exacta dentro de 0.05, con una probabilidad

de 0.98. ¿qué tan grande tendría que ser n?. No se tiene información anterior acerca de los

valores P1 y P2, pero se quiere estar seguro de tener un número adecuado de

observaciones en la muestra.

P8. Se llevan a cabo pruebas de resistencia a la tensión sobre dos diferentes clases de

largueros de aluminio utilizados en la fabricación de alas de aeroplanos comerciales. De la

experiencia pasada con el proceso de fabricación se supone que las desviaciones estándar

de las resistencias a la tensión son conocidas. La desviación estándar del larguero 1 es de

1.0 Kg/mm2 y la del larguero 2 es de 1.5 Kg/mm2. Se sabe que el comportamiento de las

resistencias a la tensión de las dos clases de largueros son aproximadamente normal. Se

toma una muestra de 10 largueros del tipo 1 obteniéndose una media de 87.6 Kg/mm2, y

otra de tamaño 12 para el larguero 2 obteniéndose una media de 74.5 Kg/mm2. Estime un

intervalo de confianza del 90% para la diferencia en la resistencia a la tensión promedio. 50

P9. Se quiere estudiar la tasa de combustión de dos propelentes sólidos utilizados en los

sistemas de escape de emergencia de aeroplanos. Se sabe que la tasa de combustión de

los dos propelentes tiene aproximadamente la misma desviación estándar; esto es σ1 = σ2 =

3 cm/s. ¿Qué tamaño de muestra debe utilizarse en cada población si se desea que el error

en la estimación de la diferencia entre las medias de las tasas de combustión sea menor que

4 cm/s con una confianza del 99%?.


196

4.3 Pruebas de hipótesis.

La Teoría de la Decisión Estadística como herramienta básica para la toma de decisiones,

basadas en evidencia científica. La manera de hacerlo es plantear las hipótesis posibles y

luego efectuarle una prueba o test estadístico. Llamada en algunas obras: la docimasia

estadística. Cuando una conclusión se valida con un test estadístico se la llama de tipo

cuantitativo, en caso contrario la decisión adoptada es de tipo cualitativo, o sea, una decisión

tomada en forma subjetiva. El método consiste en definir una probabilidad de aceptación del

orden del 95% (o rechazo) de una hipótesis de trabajo planteada, que permite calcular los

valores críticos (o límites de aceptación) de un estadígrafo calculado a partir de los valores

medidos. La importancia de este tema es muy grande. Basta decir que el objeto final de la

Estadística es la toma de decisiones

Hipótesis estadística es una suposición hecha con respecto a la función de

distribución de una variable aleatoria.

Las pruebas que se realizan para plantear las hipótesis se conocen con el nombre de

ensayos de validación estadística. El problema básico es determinar si las diferencias

observadas entre el valor obtenido y el valor esperado se deben al azar, o si realmente son

diferentes.

Suponga que se tiene interés en la rapidez de combustión de un agente propulsor sólido

utilizado en los sistemas de salida de emergencia para la tripulación de aeronaves. El interés

se centra sobre la rapidez de combustión promedio. De manera específica, el interés recae

en decir si la rapidez de combustión promedio es o no 50 cm/s. Esto puede expresarse de

manera formal como

La proposición Ho; μ = 50 cm/s, se conoce como hipótesis nula, mientras que la

proposición H1; μ ≠ 50 cm/s, recibe el nombre de hipótesis alternativa. Puesto que la

hipótesis alternativa especifica valores de μ que pueden ser mayores o menores que 50

scmHscmH

/50;/50;

1

0

≠=

μμ


197

cm/s, también se conoce como hipótesis alternativa bilateral. En algunas situaciones, lo

que se desea es formular una hipótesis alternativa unilateral, como en

Ho; μ = 50 cm/s Ho; μ = 50 cm/s

H1; μ < 50 cm/s H1; μ > 50 cm/s

Es importante recordar que las hipótesis siempre son proposiciones sobre la población o

distribución bajo estudio, no proposiciones sobre la muestra. Por lo general, el valor del

parámetro de la población especificado en la hipótesis nula se determina en una de tres

maneras diferentes:

1. Puede ser resultado de la experiencia pasada o del conocimiento del proceso,

entonces el objetivo de la prueba de hipótesis usualmente es determinar si ha

cambiado el valor del parámetro.

2. Puede obtenerse a partir de alguna teoría o modelo que se relaciona con el proceso

bajo estudio. En este caso, el objetivo de la prueba de hipótesis es verificar la teoría

o modelo.

3. Cuando el valor del parámetro proviene de consideraciones externas, tales como

las especificaciones de diseño o ingeniería, o de obligaciones contractuales. En esta

situación, el objetivo usual de la prueba de hipótesis es probar el cumplimiento de

las especificaciones.

Un procedimiento que conduce a una decisión sobre una hipótesis en particular recibe el

nombre de prueba de hipótesis. Los procedimientos de prueba de hipótesis dependen del

empleo de la información contenida en la muestra aleatoria de la población de interés. Si

esta información es consistente con la hipótesis, se concluye que ésta es verdadera; sin

embargo si esta información es inconsistente con la hipótesis, se concluye que esta es falsa.

Debe hacerse hincapié en que la verdad o falsedad de una hipótesis en particular nunca

puede conocerse con certidumbre, a menos que pueda examinarse a toda la población.

Usualmente esto es imposible en muchas situaciones prácticas. Por tanto, es necesario

desarrollar un procedimiento de prueba de hipótesis teniendo en cuenta la probabilidad de

llegar a una conclusión equivocada. La hipótesis nula, representada por Ho, es la

afirmación sobre una o más características de poblaciones que al inicio se supone cierta (es


198

decir, la “creencia a priori”). La hipótesis alternativa, representada por H1, es la afirmación

contradictoria a Ho, y ésta es la hipótesis del investigador.

La hipótesis nula se rechaza en favor de la hipótesis alternativa, sólo si la evidencia

muestral sugiere que es falsa. Si la muestra no contradice decididamente a Ho, se continúa

creyendo en la validez de la hipótesis nula. Entonces, las dos conclusiones posibles de un

análisis por prueba de hipótesis son rechazar Ho o no rechazar Ho.

Para establecer la verdad o falsedad de una hipótesis estadística con certeza total, será

necesario examinar toda la población. En la mayoría de las situaciones reales no es posible

o practico efectuar este examen, y el camino más aconsejable es tomar una muestra

aleatoria de la población y con base a ella decidir si la hipótesis es verdadera o falsa.

En la prueba de una hipótesis estadística, es costumbre declarar la hipótesis como

verdadera si la probabilidad calculada excede el valor tabular llamado el nivel de

significación y se declara falsa si la probabilidad calculada es menor que el valor tabular. La

prueba a realizar dependerá del tamaño de las muestras de la homogeneidad de las

varianzas y de la dependencia o no de las variables.

Prueba de una Hipótesis Estadística Para ilustrar los conceptos generales, considere el problema de la rapidez de combustión del

agente propulsor presentado con anterioridad. La hipótesis nula es que la rapidez promedio

de combustión es 50 cm/s, mientras que la hipótesis alternativa es que ésta no es igual a 50

cm/s. Esto es, se desea probar:

Supóngase que se realiza una prueba sobre una muestra de 10 especímenes, y que se

observa cual es la rapidez de combustión promedio muestral. La media muestral es un

estimador de la media verdadera de la población. Un valor de la media muestral que este

próximo al valor hipotético μ = 50 cm/s es una evidencia de que el verdadero valor de la

media m es realmente 50 cm/s; esto es, tal evidencia apoya la hipótesis nula Ho. Por otra

parte, una media muestral muy diferente de 50 cm/s constituye una evidencia que apoya la

hipótesis alternativa H1. Por tanto, en este caso, la media muestral es el estadístico de

prueba.

scmHscmH

/50;/50;

1

0

≠=

μμ

x


199

La media muestral puede tomar muchos valores diferentes. Supóngase que si

48.5 ≤ ≤ 51.5, entonces no se rechaza la hipótesis nula Ho; μ= 50 cm/s, y que si

<48.5 ó > 51.5, entonces se acepta la hipótesis alternativa H1; μ ≠ 50 cm/s. Los

valores de x que son menores que 48.5 o mayores que 51.5 constituyen la región crítica de

la prueba, mientras que todos los valores que están en el intervalo 48.5 ≤ ≤51.5 forman la

región de aceptación. Las fronteras entre las regiones críticas y de aceptación reciben el

nombre de valores críticos. La costumbre es establecer conclusiones con respecto a la

hipótesis nula Ho. Por tanto, se rechaza Ho en favor de H1 si el estadístico de prueba cae en

la región crítica, de lo contrario, no se rechaza Ho.

Contrastes de hipótesis y significación o reglas de decisiones:

Si suponemos que una hipótesis particular es cierta pero vemos que los resultados hallados

en una muestra aleatoria difieren notablemente de los esperados bajo tal hipótesis entonces

diremos que las diferencias observadas son significativas y nos veríamos inclinados a

rechazar la hipótesis.

Los procedimientos que nos capacitan para determinar si las muestras observadas difieren

significativamente de los resultados esperados y por tanto nos ayuda a decidir si aceptamos

o rechazamos hipótesis, se llama contraste (o tests) de hipótesis o de significación o reglas

de decisión.

Nivel de significación.

Al contrastar una cierta hipótesis, la máxima probabilidad con la que estamos dispuestos a

correr el riesgo de cometer un error tipo I se llama nivel de significación del contraste. Esta

probabilidad se denota a menudo por α, se suele especificar antes de tomar una muestra, de

manera que los resultados obtenidos no influyan a nuestra elección.

Es frecuente un nivel de significación de 0.05 o 0.01, si bien se usan otros valores si por

ejemplo, se escoge el nivel de significación 0.05 (o 5 %) al diseñar una regla de decisiones

entonces hay 5 oportunidades entre 100 de rechazar la hipótesis cuando debiera haberse

aceptado; es decir, tenemos un 95 % de confianza de que hemos adoptado la decisión

correcta y por lo tanto tiene una probabilidad de 0.05 de ser falsa.

Tipos de Ensayo (Contrastes de una y de dos colas). Se pueden presentar tres tipos de ensayo de hipótesis que son:

x

x x

x


200

• Bilateral

• Unilateral Derecho

• Unilateral Izquierdo

En el test precedente estábamos interesados en los valores extremos del estadístico S o en

su correspondiente valor de Z a ambos lados de la media (o sea en las dos colas de la

distribución) tales test se llaman contraste de dos colas o bilaterales.

Con frecuencia, no obstante, estaremos interesados tan solo en valores extremos aun lado

de la media (o sea, en una de las colas de la distribución), tal como sucede cuando se

contrasta la hipótesis de que un proceso es mejor que el otro (lo cual no es lo mismo que

contrastar si un proceso es mejor o peor que el otro). Tales contrastes se llaman unilaterales

o de una cola. En tales situaciones, la región crítica es una región situada a un lado de la

distribución, con área igual al nivel de significación. Tabla de valores críticos de z para

contrastes de una o de dos colas en varios niveles de significación.

Nivel de significancia ,

α

Valores criticos z,

para tests unilateral

Valores criticos z,

para tests bilateral

0.10 -1.28 o 1.28 -1.645 y 1.645

0.05 -1.645 0 1.645 -1.96 y 1.96

0.01 -2.33 o 2.33 -2.58 y 2.58

0.005 -2.58 0 2.58 -2.81 y 2.81

0.002 -2.88 o 2.88 -3.08 y 3.08

Bilateral Unilateral Derecho


201

Unilateral Izquierdo

Uso de valores P para la toma de decisiones Al probar hipótesis en las que la estadística de prueba es discreta, la región crítica se puede

elegir de forma arbitraria y determinar su tamaño. Si es demasiado grande, se puede

reducir al hacer un ajuste en el valor crítico. Puede ser necesario aumentar el tamaño de la

muestra para compensar la disminución que ocurre de manera automática en la potencia de

la prueba (probabilidad de rechazar Ho dado que una alternativa específica es verdadera).

Por generaciones enteras de análisis estadístico, se ha hecho costumbre elegir un nivel de

significancia de 0.05 ó 0.01 y seleccionar la región crítica en consecuencia. Entonces, por

supuesto, el rechazo o no rechazo estricto de Ho dependerá de esa región crítica. En la

estadística aplicada los usuarios han adoptado de forma extensa la aproximación del valor

P. La aproximación se diseña para dar al usuario una alternativa a la simple conclusión de

“rechazo” o “no rechazo”.

La aproximación del valor P como ayuda en la toma de decisiones es bastante natural pues

casi todos los paquetes de computadora que proporcionan el cálculo de prueba de hipótesis

entregan valores de P junto con valores de la estadística de la prueba apropiada.

• Un valor P es el nivel (de significancia) más bajo en el que el valor observado de la

estadística de prueba es significativo.

• El valor P es el nivel de significancia más pequeño que conduce al rechazo de la

hipótesis nula Ho.

• El valor P es el mínimo nivel de significancia en el cual Ho sería rechazada cuando

se utiliza un procedimiento de prueba especificado con un conjunto dado de

información. Una vez que el valor de P se haya determinado, la conclusión en

cualquier nivel α particular resulta de comparar el valor P con α:

α


202

1. Valor P ≤ α ⇒rechazar Ho al nivel α.

2. Valor P > α ⇒No rechazar Ho al nivel α.

Errores de tipo I y de tipo II Si rechazamos una hipótesis cuando debiera ser aceptada diremos que se ha cometido un

error de tipo I, la probabilidad de cometer un error tipo I se denota por el símbolo . Por

otra parte, si aceptamos una hipótesis que debiera ser rechazada, diremos que se ha

cometido un error de tipo II, la probabilidad de cometer un error tipo II se denota por el

símbolo . En ambos casos se ha producido un juicio erróneo.

Decisión Ho es verdadera Ho es falsa

Aceptar Ho No hay error Error tipo II

Rechazar Ho Error tipo I No hay error

α

β


203

1. Los errores tipo I y tipo II están relacionados. Una disminución en la probabilidad de

uno por lo general tiene como resultado un aumento en la probabilidad del otro.

2. El tamaño de la región crítica, y por tanto la probabilidad de cometer un error tipo I,

siempre se puede reducir al ajustar el o los valores críticos.

3. Un aumento en el tamaño muestral n reducirá α y β de forma simultánea.

4. Si la hipótesis nula es falsa, β es un máximo cuando el valor real del parámetro se

aproxima al hipotético. Entre más grande sea la distancia entre el valor real y el valor

hipotético, será menor β.

Pasos para establecer un ensayo de hipótesis independientemente de la distribución que se

esté tratando:

1. Interpretar correctamente hacia que distribución muestral se ajustan los datos del

enunciado.

2. Interpretar correctamente los datos del enunciado diferenciando los parámetros de los

estadísticos. Así mismo se debe determinar en este punto información implícita como el tipo

de muestreo y si la población es finita o infinita.

3. Establecer simultáneamente el ensayo de hipótesis y el planteamiento gráfico del

problema. El ensayo de hipótesis está en función de parámetros ya que se quiere evaluar el

universo de donde proviene la muestra. En este punto se determina el tipo de ensayo

(unilateral o bilateral).

4. Establecer la regla de decisión. Esta se puede establecer en función del valor crítico, el

cual se obtiene dependiendo del valor de (Error tipo I o nivel de significancia) o en

función del estadístico límite de la distribución muestral. Cada una de las hipótesis deberá

ser argumentada correctamente para tomar la decisión, la cual estará en función de la

hipótesis nula o Ho.

5. Calcular el estadístico real, y situarlo para tomar la decisión.

6. Justificar la toma de decisión y concluir.

4.3.1 Prueba de hipótesis para la media poblacional.

α

n

xZ σμ−

=


204

Problema: Una muestra aleatoria de 100 muertes registradas en Estados Unidos el año

pasado muestra una vida promedio de 71.8 años. Suponga una desviación estándar

poblacional de 8.9 años, ¿esto parece indicar que la vida media de hoy en día es mayor que

70 años? Utilice un nivel de significancia de 0.05

Solución:

1. Se trata de una distribución muestral de medias con desviación estándar conocida.

2. Datos:

3. Ho : μ = 70 años

H1 : μ > 70 años

4. Región critica o regla de decisión

Si Z R ≤ 1.645 no se rechaza Ho.

Si Z R > 1.645 se rechaza Ho y se acepta H 1.

5. Cálculos:

6. Justificación y decisión:

Como 2.02 > 1.645 se rechaza Ho y se concluye con un nivel de significancia del 0.05 que la

vida media hoy en día es mayor que 70 años.

05.0100

8.719.8

70

=====

α

σμ

nx

02.2

10089

708.710 =−

=−

=

n

xZ σμ


205

Problema: Una empresa eléctrica fabrica focos que tienen una duración que se distribuye de

forma aproximadamente normal con una media de 800 horas y una desviación estándar de

40 horas. Si una muestra aleatoria de 30 focos tiene una duración promedio de 788 horas,

¿muestran los datos suficiente evidencia para decir que la duración media ha cambiado?

Utilice un nivel de significancia del 0.04.

Solución:


2. Datos:

= 800 horas

= 40 horas

= 788 horas

n = 30

= 0.04

3. Ensayo de hipótesis

Ho; = 800 horas

H1; 800 horas

4. Regla de Decisión:

Si –2.052 ≤ZR ≤ 2.052 No se rechaza Ho

Si ZR < -2.052 ó si ZR > 2.052 Se rechaza Ho

5. Cálculos:

μ

σx

α

μ

1μ ≠

643.1

3040

8007880 −=−

=−

=

n

xZ

σμ


206

6.Justificación y decisión:

−2.052 ≤ -1.643 ≤2.052 por lo tanto, no se rechaza Ho y se concluye con un nivel de

significancia del 0.04 que la duración media de los focos no ha cambiado.

Problema: Un fabricante de equipo deportivo desarrolla un nuevo sedal sintético que afirma

tiene una resistencia media a la tensión de ocho kilogramos con una desviación estándar de

0.5 Kg. Pruebe la hipótesis μ = 8 Kg. Contra la alternativa μ ≠ 8 Kg. si se prueba una

muestra aleatoria de 50 sedales y se encuentra que tiene una resistencia media a la tensión

de 7.78 Kg. –utilice un nivel de significancia de 0.01

Solución:


2. Datos:

= 8 Kg.

= 0.5 Kg.

= 7.8 Kg.

n = 50

= 0.01

3. Ho : μ = 8 Kg.

H1 : μ 8 Kg.


Si –2.58 ≤ ZR ≤2. 58 No se rechaza Ho


5. Cálculos:


μ

σx

α

≠

83.2

505.0

0.88.70 −=−

=−

=

n

xZ

σμ


207

Como Si –2.83 < -2.58 por lo tanto, se rechaza Ho y se concluye que la resistencia

promedio a la tensión no es igual a 8 Kg. sino que, de hecho, es menor que 8 Kg. con un

nivel de significancia del 0.01 .

Problema: Una muestra aleatoria de 64 bolsas de palomitas de maíz pesan, en promedio

5.23 onzas con una desviación estándar de 0.24 onzas. Pruebe la hipótesis de que = 5.5

onzas contra al hipótesis alternativa, μ < 5.5 onzas en el nivel de significancia de 0.05.

Solución:

1. Se trata de una distribución muestral de medias con desviación estándar

desconocida, pero como el tamaño de muestra es mayor a 30 se puede tomar la

desviación muestral como un estimador puntual para la poblacional.

2. Datos:

μ = 5.5 onzas

σ = 0.24 onzas

x = 5.23 onzas

n = 64

a = 0.05


Ho; = 5.5 onzas

H1; < 5.5 onzas

4. Regla de decisión:

Si ZR -1.645 No se rechaza Ho

Si ZR < -1.645 Se rechaza Ho

5. Cálculos:

μ

μ

μ


208


Como –9 < -1.645 por lo tanto se rechaza Ho y se concluye con un nivel de significancia del

0.05 que las bolsas de palomitas pesan en promedio menos de 5.5 onzas.

Problema: La duración media de una muestra de 100 tubos fluorescentes producidos por

una compañía resulta ser 1570 hrs. Con una desviación típica de 120 hrs. Si μ es la duración

media de todos los tubos producidos por la compañía, comprobar la hipótesis μ = 1600 hrs.

Contra la hipótesis alternativa μ ≠ 1600 hrs. Con un nivel de significancia de (a) 0.05 y (b)

0.01

Solución:

a)


2. Datos:

∝ = 0.05

n = 100

x = 1570

σ = 120 hrs.

3. Ensayo de hipotesis

H0 : μ = 1600 hrs.

H1 : μ ≠ 1600 hrs.

4. Regla de decisión

Si –1.96 ≤ZR ≤ 1.96 No se rechaza Ho


5. Cálculos

9

6424.0

5.525.50 −=−

=−

=

n

xZ

σμ


209

6. Justificación y decisión

Como Si –2.50 < -1.96 por lo tanto, se rechaza Ho y se concluye que La duración media

de una muestra de 100 tubos fluorescentes producidos por una compañía no resulta ser

1570 hrs., sino que, de hecho , es menor que 1570 hrs. con nivel de significancia del

0.05 que la duración media de todos los tubos producidos por la compañía no ha

cambiado.

b)


2. Datos:

∝ = 0.01

n = 100

x = 1570

σ = 120 hrs.


H0 : μ = 1600 hrs.

H1 : μ ≠ 1600 hrs.


Si –2.58 ≤ ZR ≤ 2.58 No se rechaza Ho


5. Cálculos


Como Si –2.58 ≤-2.50 ≤ 2.58 como se encuentra dentro de este rango, se acepta Ho (o no

se toma ninguna decisión) al nivel de significación del 0.01

50.2

100120

16001570−=

−=Z

50.2

100120

16001570−=

−=Z


210

Problema: La resistencia a la rotura de los cables producidos por un fabricante tiene una

media de 1800 libras y una desviación típica de 100 libras. Mediante una nueva técnica en el

proceso de fabricación se aspira a una resistencia pueda ser incrementada. Para ensayar

esta aspiración, se ensaya una muestra de 50 cables y se encuentra que su resistencia

media es de 1850 libras.¿ Puede mantenerse que, en efecto, hay un aumento de resistencia

al nivel de significación del 0.01?

Solución:


2. Datos:

∝ = 0.01

n = 50

x = 1850 lbs

σ = 100 lbs


H0 : μ = 1800 lbs

H1 : μ > 1800 lbs.


Si ZR ≤ − 2..33 No se rechaza Ho

Si ZR > 2.33 Se rechaza Ho

5. Cálculos


Como Si 3.54 > 2.33 por lo tanto, se rechaza Ho y se acepta H 1, por lo tanto se

concluye que su resistencia media no es de 1850 libras si no que mayor.

Problema: Se ha estudiado la tasa de quemado de un propulsor a chorro. Las

especificaciones requieren que la tasa media de quemado sea 40 cm/s. Además, supóngase

que sabemos que la desviación estándar de la tasa de quemado es aproximadamente de 2

54.3

50100

18001850=

−=Z


211

cm/ s. El experimentador decide especificar una probabilidad de error tipo I , y el

basara la prueba en una muestra aleatoria de tamaño n = 25. Pruebe la hipótesis de

y . Si se prueban veinticinco especímenes, y la tasa de

quemado media de muestra que se obtiene es

1. Se trata de una distribución muéstrales de medias con desviación estándar

conocida.

2. datos:


4. regla de decisión

-1.96 1.96 se acepta H0

Z<-1.96 ó Z>1.96 se acepta H1

5. cálculos

=

6. justificación y decisión

3.13 >1.96 se acepta H1 y se concluye que la tasa de quemado media no es igual a

40 cm/s, sino que mas de 40 cm/s.

Varianza desconocida. Las variables aleatorias X1, X2, ... X n representan una muestra aleatoria de una distribución

normal con μ y σ² desconocidas. Entonces la variable aleatoria tiene una

distribución t de student con n – 1 grados de libertad.

05.0=α

scm /40=μ scom /40≠μ

scmx /25.41=

25/2/40

/25.41

====

nscmscm

scmx

σμ

05.0=α

scmHscmH

/40:/40:

1

0

≠=

μμ

≤≤ Z

n

xZ σμ0−

= 13.3

252

4025.41=

−

sxn )( μ−


212

La estructura de la prueba es idéntica a la del caso con σ conocida, con la excepción de que

el valor σ en la estadística de prueba se reemplaza por la estimación de S calculada y la

distribución normal estándar se reemplaza con una distribución ţ. Como resultado; para la

hipótesis bilateral

Ho : μ = μ o

Hi : μ ≠ μo

El rechazo de Ho en un nivel de significancia α resulta cuando una estadística ţ calculada.

Problema: Los científicos han citado al benceno, un disolvente químico de uso común en la

síntesis de plásticos, como un posible agente causante de cáncer. Ciertos estudios han

demostrado que las personas que trabajan con benceno durante mas de cinco años tienen

una incidencia de leucemia 20 veces mayor que la población en general. En consecuencia,

el gobierno federal estadounidense ha bajado el nivel máximo permisible de benceno en

lugar de trabajo de 10 partes por millón (ppm) a 1 ppm ( información en el Florida Times –

Union, 2 de abril de 1984). Suponga que una fabrica de artículos de acero, que expone a sus

trabajadores diariamente a benceno, esta siendo investigada por la Administración de

Seguridad y Salud Ocupacional (OSHA) de Estados Unidos. Se examinan 20 muestras de

aire, tomada durante un periodo de un mes, parar determinar el contenido de benceno. Los

análisis produjeron las siguientes estadísticas resumidas:

¿La fabrica de artículos de acero esta violando las nuevas normas del gobierno? Pruebe la

hipótesis de que el nivel medio de benceno en la planta es mayor que 1 ppm ., utilizando

Solución:

1. se trata de una distribución muestral de medias con varianza desconocida.

2. datos:

ns

xt 0μ−=

ppmx 1.2= ppms 7.1=

05.0=α


213


H0:

H1:

4. Regla de decisión :

> 1.729 se acepta H1 y se rechaza H0

≤ -1.729 se acepta H0 y se rechaza H1

5. cálculos :

Supuesto: La distribución de frecuencia relativa de la población de niveles de benceno

para todas las muestras de aire tomadas en la planta de fabricación de artículos de

acero es aproximadamente normal.

Región de rechazo: para y gl = (n – l) = 19, se rechazara H0 si t > t 0.05 = 1.729

6. justificación y decisión.

2.89 > 1.729 se acepta H1 y se rechaza H0 . se llega a la conclusión de que la

planta esta violando las nuevas normas gubernamentales .

Problema: La resistencia al rompimiento de una fibra textil es una variable aleatoria

distribuida normalmente. Las especificaciones requieren que la resistencia media al

rompimiento deba igualar el valor de 15 psi. Al fabricante le gustaría detectar cualquier

desviación significativa respecto a este valor. En consecuencia se desea probar

y . Con un nivel de significancia de . Si una muestra

05.0120

7.11.2

=====

αμ ppmn

ppmsppmx

1=μ

1>μ

tt

ns

xt 0μ−=

05.0=α

89.220

7.111.20 =

−=

−=

ns

xt μ

psi150=μ psi150≠μ 05.0=α


214

aleatoria de 15 especimenes de prueba se selecciona y se determinan sus resistencias al

rompimiento. La media y la varianza de la muestra se calculan a partir de los datos de la

misma como y .

1. se trata de una distribución muestral de medias con varianza desconocida.

2. datos:


por ser bilateral


se acepta H0

ó se acepta H1

5. Cálculos

=


se acepta H0 y concluiríamos que no hay evidencia suficiente

para rechazar la hipótesis de que

18.152=x 63.162 =s

05.015015

63.1618.152

2

====

=

αμnsx

150:150:

1

0

≠=

μμ

HH

05.0=α 025.0205.0

2==

α

145.2)115(,025.0 =−t 145.2)115(,025.0 −=− −t

145.2145.2 ≤≤− t145.2−<t 145.2>t

ns

xt μ−= 07.2

1563.16

15018.152=

−

145.207.2145.2 ≤≤−

psi150=μ


215

4.3.2 Prueba de hipótesis para diferencias de medias. Problema: Un diseñador de productos está interesado en reducir el tiempo de secado de

una pintura tapaporos. Se prueban dos fórmulas de pintura; la fórmula 1 tiene el contenido

químico estándar, y la fórmula 2 tiene un nuevo ingrediente secante que debe reducir el

tiempo de secado. De la experiencia se sabe que la desviación estándar del tiempo de

secado es ocho minutos, y esta variabilidad inherente no debe verse afectada por la adición

del nuevo ingrediente. Se pintan diez especímenes con la fórmula 1, y otros diez con la

fórmula 2. Los dos tiempos promedio de secado muéstrales son 121 min. y 112 min.

Respectivamente. ¿A qué conclusiones puede llegar el diseñador del producto sobre la

eficacia del nuevo ingrediente, utilizando α = 0.05?

Solución:

1. Se trata de una distribución muestral de diferencias de medias

2. Datos:

1 2

1

2

1 2

8121min112min

100.05

xxn n

σ σ

α

= ==== ==


0 1 2

1 1 2

: 0: 0

HH

μ μμ μ

− =− >


0

1

1.645 se acepta 1.645 se acepta

Z HZ H

≤>

5. Cálculos


216

2 2

(121 112) 0 2.528 810 10

Z − −= =

+


Puesto que 2.52 > 1.645, se acepta H1, y se concluye con un nivel de significancia de 0.05

que la adición del nuevo ingrediente a la pintura si disminuye de manera significativa el

tiempo promedio se secado.

Problema: Se utiliza dos máquinas para llenar botellas de plástico con un volumen neto de

16.0 onzas. Las distribuciones de los volúmenes de llenado pueden suponerse normales,

con desviaciones estándar de 0.020 y 0.025 onzas. Un miembro del grupo de ingeniería de

calidad sospecha que el volumen neto de llenado de ambas máquinas es el mismo, sin

importar si este es o no de 16 onzas. De cada máquina se toma una muestra aleatoria de 10

botellas.

¿Se encuentra el ingeniero en lo correcto?

Utilice un nivel de significancia de 0.05.

MAQUINA 1 MAQUINA 2

16.03

16.04

16.05

16.05

16.02

16.01

15.96

15.98

16.02

15.99

16.02

15.97

15.96

16.01

15.99

16.03

16.04

16.02

16.01

16.00

Solución:


2. Datos:

1 2

1 2

1 2

0.020; 0.02516.015; 16.005

10; 0.05x xn n

σ σ

α

= == == = =



217

0 1 2

1 1 2

: 0: 0

HH

μ μμ μ

− =

− ≠


0

1

1.96 1.96 se acepta 1.96 o 1.96 se acepta

Z HZ Z H− ≤ ≤

< − >

5. Cálculos

2 2

(16.015 16.005) 0 0.987(0.020) (0.025)

10 10

Z − −= =

+


Puesto que 1.96 1.96Z− ≤ ≤ , se acepta H0, y se concluye con un nivel de significancia de

0.05 que las dos máquinas tienen el mismo promedio de llenado.

Problema: Existen dos tipos de plasticos apropiados para su uso por un fabricante de

componentes electrónicos. La tensión de ruptura de es plástico es un parámetro importante.

Se sabe que la desviación estandar es de 1.0 Psi. De una muestra aleatoria de tamaño 10 y

12 para cada plástico respectivamente. Se tiene ua media de 162.5 para el plastico 1 y de 155

para el plastico 2. La compañía no adoptara el plastico 1 a menos que la tensión de ruptura de

este exceda a la del plastico 2 al menos por 10 Psi. Con base a la información contenidad en

la muestra. ¿La compañía debera utilizar el plastico 1?. Utilice un nivel de significancia de 0.05

para llegar a una decisión.

Solución:



218

2. Datos:

1 2

1

2

1

2

1.0162.515510120.05

psix psix psinn

σ σ

α

= ======


0 1 2

1 1 2

: 10: 10

HH

μ μμ μ

− =

− >


0

1

1.645 se acepta 1.645 se acepta

Z HZ H

≤

>

5. Cálculos

2 2

(162.5 155) 10 5.83(1) (1)10 12

Z − −= = −

+

.


No existe evidencia suficiente para apoyar el uso del plástico 1 ya que 5.83 1.645− ≤ , se

acepta H0.


219

Problema: La gerente de planta de una fábrica enlatadora de jugo de naranja está interesada

en comprar el rendimiento de dos diferentes líneas de producción. Como la línea número 1

es relativamente nueva, sospecha que el número de cajas que se producen al día es mayor

que el correspondiente a la vieja línea 2. se toman datos al azar durante diez días para cada

línea, encontrándose que por día y 818.6 cajas por día. De la

experiencia con la operación de este tipo de equipo se sabe qué y con

un nivele de significancia de 0.05

Solución:

1. se trata de una distribución muestral de diferencias de medias.

2. datos:

; 818.6

;

;

3. ensayo de hipótesis


Z > 1.645 se acepta H1

Z -1.645 se acepta H0

5. Cálculos

Z


cajasx 9.8241 = =2x

4021 =σ .502

2 =σ

cajasx 9.8241 = =2x

4021 =σ .502

2 =σ

1021 == nn 05.0=α

211

210

:

:

μμ

μμ

>

=

H

H

≤

10.2

1050

1040

0)6.8189.824(=

+

−−=


220

2.10 > 1.645 se acepta H1. se concluye que el numero medio de cajas producidas

diariamente por la nueva línea de producción es mayor que el numero medio de caja

producidas por la vieja línea.

4.3.3 Prueba de hipótesis para proporciones. Problema: Un constructor afirma que se instalan bombas de calor en 70% de todas las

casas que se construyen hoy en día en la ciudad de Richmond. ¿Estaría de acuerdo con

esta afirmación si una investigación de casas nuevas en esta ciudad muestra que 8 de 15

tienen instaladas bombas de calor? Utilice un nivel de significancia de 0.10.

Solución:

1. Se trata de una distribución muestral de proporciones.

2. Datos:


Ho; P = 0.70

H1; P ≠ 0.70


Si –1.645 ≤ Z ≤1.645 No se rechaza Ho


5. Cálculos:

10.015

5333.015/870.0

==

===

αnpP


221

6. Justificación y decisión :

Como –1.645 ≤ -1.41 ≤ 1.645 No se rechaza Ho y se concluye con un nivel de significancia

de 0.10 que la afirmación del constructor es cierta.

Problema: El fabricante de una patente médica sostiene que la misma tiene un 90 % de

efectividad en el alivio de una alergia, por un periodo de 8 hrs. En una muestra de 200

individuos que tenían la alergia, la medicina suministrada alivio a 160 personas. Determinar

si la aseveración del fabricante es cierta. El nivel de significancia es 0.01

Solución:


2. Datos:


H0 : p = 0.9

H1 : p < 0.9


Z < -2.33 se acepta H1 y se rechaza H0

Z ≥ -2.33 se acepta H0

5. Cálculos

41.1

15)30.0)(70.0(

70.0533.0−=

−=

−=

nPq

PpZ

01.0200

8.0200/16090.0

==

===

αnpP


222


- 4.71 < - 2.33 se acepta H1 y se rechaza H0 . se concluye que es menor al 90 % de

efectividad

Problema: Un fabricante de semiconductores produce controladores que se emplean en

aplicaciones de motores automovilísticos. El cliente requiere que la fracción de controladores

defectuosos en uno de los pasos de manufactura críticos no sea mayor que 0.05, y que el

fabricante demuestre esta característica del proceso de fabricación con este nivel de calidad,

utilizando α =0.05. El fabricante de semiconductores toma una muestra aleatoria de 200

dispositivos y encuentra que cuatro de ellos son defectuosos. ¿El fabricante puede

demostrar al cliente la calidad del proceso?

Solución:


2. Datos:

P = 0.05

p = 4/200 = 0.02

n = 200

α = 0.05

3. ensayo de hipótesis

71.4

200)10.0)(90.0(

90.08.0−=

−=

−=

nPq

PpZ

05.0:05.0:

1

0

<=

PHPH


223

4. Regla de decisión:

Si ZR ≥ -1.645 No se rechaza Ho

Si ZR < -1.645 Se rechaza Ho

5. Cálculos:


Puesto que –1.946<-1.645, se rechaza Ho y se concluye con un nivel de significancia del

0.05 que la fracción de artículos defectuosos es menor que 0.05.

4.3.4. Prueba de hipótesis para diferencia de proporciones. Problema: Se evalúan dos tipos diferentes de soluciones para pulir, para su posible uso en

una operación de pulido en la fabricación de lentes intraoculares utilizados en el ojo humano

después de una cirugía de cataratas. Se pulen 300 lentes con la primera solución y, de

éstos, 253 no presentaron defectos inducidos por el pulido. Después se pulen otros 300

lentes con la segunda solución, de los cuales 196 resultan satisfactorios. ¿Existe alguna

razón para creer que las dos soluciones para pulir son diferentes? Utilice α = 0.01

Solución:

1. Se trata de una distribución muestral de diferencia de proporciones.

2. Datos:

p1= 253/300= 0.8433

p2 = 196/300= 0.6533

n1 = n2 = 300

3. Ensayo de hipótesis:

Ho; P1 = P2

H1; P1 P2

946.1

200)95.0)(05.0(

05.002.0−=

−=

−=

nPq

PpZ

≠


224

4. Regla de decision.

2.575 2.575 se acepta Ho 2.575 o 2.575 Se acepta H1

Si zSi Z Z

− ≤ ≤< − >

5. Cálculos

1 2

1 2

1 2

253 196 0.7483300 300

0.74831 0.2517

x xPn n

P P Pq P

+ += = =

+ +

= = == − =

1 2 1 2

1 2

( ) ( )

1 1

(0.8433 0.6533) 0 5.361 1(0.7483)(0.2517)

300 300

p p P PZ

Pqn n

Z

− − −=

⎛ ⎞+⎜ ⎟

⎝ ⎠

− −= =

⎛ ⎞+⎜ ⎟⎝ ⎠


Puesto que 5.36 > 2.575 se rechaza la hipótesis nula y se concluye con un nivel de

significancia de 0.01 que los dos fluidos para pulir son diferentes.

Problema: Se tomará el voto entre los residentes de una ciudad y el condado

circundante para determinar si se debe construir una planta química propuesta. El lugar

de construcción está dentro de los límites de la ciudad y por esta razón muchos votantes

del condado consideran que la propuesta pasará debido a la gran proporción de

votantes que favorecen la construcción. Para determinar si hay una diferencia


225

significativa en la proporción de votantes de la ciudad y votantes del condado que

favorecen la propuesta, se realiza una encuesta. Si 120 de 200 votantes de la ciudad

favorecen la propuesta y 240 de 500 residentes del condado también lo hacen.

¿Estaría de acuerdo en que la proporción de votantes de la ciudad que favorecen la

propuesta es más alto que la proporción?. Utilice un nivel de significancia de 0.025.

Solución:

1. Se trata de una distribución muestral de diferencia de proporciones.

2. Datos:

p1= 120/200 = 0.60; p2 = 240 / 500 = 0.48

n1 = 200; n2 = 500

3. Ensayo de hipótesis:

Ho; P1 = P2

H1; P1 > P2

4. Regla de decision.

Z 1.96 se acepta Ho 1.96 Se acepta H1

SiSi Z

≤>

5. Cálculos

1 2

1 2

120 240 0.48200 500

x xPn n

+ += = =

+ +

1 2 1 2

1 2

( ) ( ) (0.60 0.48) 0 2.91 11 1 (0.51)(0.49)

200 500

p p P PZ

Pqn n

− − − − −= = =

⎛ ⎞ ⎛ ⎞++ ⎜ ⎟⎜ ⎟ ⎝ ⎠⎝ ⎠


Puesto que 2.9 > 1.96 se acepta H1 y se concluye estar de acuerdo en que la proporción

de votantes de la ciudad a favor de la propuesta es más alta que la proporción de

votantes del condado..

UNIDAD 5

REGRESION Y CORRELACION.

Objetivo: Comprenderá el concepto de correlación y regresión, los expresará matemáticamente y los usará para tomar decisiones.

UNIDAD V / REGRESIÓN Y CORRELACIÓN.

217

5.1 Introducción. A menudo, en la práctica, se requiere resolver problemas que incluyen conjuntos de

variables cuando se sabe que existen algunas relaciones inherentes entre ellas. Por

ejemplo, en una situación industrial se puede saber que el contenido de alquitrán en el flujo

saliente de un proceso químico se relaciona con la temperatura de entrada. Ya que una de

las aplicaciones más importantes de la estadística implica la estimación del valor medio de

una variable de respuesta y o la predicción de algún valor futuro y con base en el

conocimiento de un conjunto de variables independientes relacionadas, .,...,, 21 kxxx

5.1.1 Gráficas de los datos. En la grafica de los datos es la interpretación de la información que se ha recopilado a través

de un experimento en la cual consiste en la comparación por pares de datos y solo marca

cada dato a través de puntos.

Problema: El calor especifico )/( kgmolcalCp del 43OMn varía con la temperatura de

acuerdo a la siguiente tabla:

Punto T ( K) Cp

1 280 32.7

2 650 45.4

3 1000 52.15

4 1200 53.7

5 1500 52.9

6 1700 50.3

Elabore la grafica de los datos que muestra la tabla.

0

20

40

60

0 500 1000 1500 2000Cal

or e

spec

ifico

Temperatura

Grafica de datos


218

5.1.2 Variables de regresión independientes. Una de las aplicaciones más importantes de la estadística implica la estimación del valor

medio de una variable de respuesta o la predicción de algún valor futuro de con base

en el conocimiento de un conjunto de variables independientes relacionadas .

Por ejemplo, el gerente de un centro de procesamiento de datos podría querer relacionar el

tiempo de espera (la variable dependiente) entre el momento en que se presenta un

trabajo a una computadora y el momento en que se completa, con variables tales como el

numero y el tamaño de los trabajos que ya están esperando para ejecutarse y el tamaño de

los trabajos que se están presentando ( las variables independientes). El objetivo sería

crear una ecuación de predicción (o un modelo) que exprese como una función de las

variables independientes. Esto permitiría la gerente predecir para valores específicos de

las variables independientes y, en última instancia, utilizar los conocimientos derivados de un

estudio de la ecuación de predicción para instaurar políticas de control del tiempo de espera.

Los modelos que se emplean para relacionar una variable dependiente con las variables

independientes se denominan modelos de regresión o modelos estadísticos

lineales porque expresan el valor medio de para valores dados de como una

función lineal de un conjunto de parámetros desconocidos.

Definición La variable por predecir (o por modelar), , es la variable dependiente (o de respuesta)

Definición Las variables que se utilizan para predecir (o modelar) se denominan variables

independiente y se denotan con los símbolos , etcétera.

y y

kxxx ,...,, 21

y

y

y

y

kxxx ,...,, 21

y kxxx ,...,, 21

y

y

,,, 321 xxx


219

5.1.3 Regresión lineal simple. En el caso de la regresión lineal simple donde hay una sola variable de regresión

independiente x y una sola variable Y, los datos se pueden representar mediante los pares

de observaciones ( ) niyx ii ,...,2,1;, =.

El ejemplo más simple de una aproximación por mínimos cuadrados es el ajuste de una

línea recta a un conjunto de parejas de datos observadas: ),( 11 yx , ),( 22 yx ,. . . ),( nn yx .

La expresión matemática de una línea recta es:

0 1y a a x ε= + +

En donde 0a y 1a son coeficientes que representan la intersección con el eje de las

abscisas y la pendiente, respectivamente y E es el error o residuo entre el modelo y las

observaciones, que se pueden representar reordenando la ecuación como:

xaayE 10 −−=

Por lo tanto, el error o residuo es la diferencia entre el valor real de y y el valor aproximado

xaa 10 + , predicho por la ecuación lineal.

xaay 10 += Ecuación de la línea recta

Entonces, podríamos escoger un modelo que relacione a con x trazando una línea resta

a través de los puntos de la figura. Semejante modelo deterministico – uno que no

contempla errores de predicción – podría ser adecuado si todos los puntos de la figura,

quedaran sobre la línea ajustada. Sin embargo, es evidente que esta situación ideal no

ocurre para los datos de la tabla. Sin importar como tracemos una línea recta desviaran

significativamente de la línea ajustada.

La solución al problema anterior es construir un modelo probabilístico que relacione y con x;

uno que contemple la variación aleatoria de los puntos de datos a los lados de una línea

recta. Un tipo de modelo probabilístico, el modelo de regresión lineal simple, supone que

el valor medio de y para un valor dado de x se grafica como una línea recta y que los puntos

se desvían de esta línea de medias en una cantidad aleatoria (positiva o negativa) igual a

, es decir,

0 1y a a x ε= + +

y

ε


220

Donde 0a y 1a son parámetros desconocidos de la porción deterministico (no aleatoria) del

modelo. Si suponemos que los puntos se desvían por encima y por debajo de la línea de

medias, siendo algunas desviaciones positivas, otras negativas, y con entonces el

valor medio de es

0 1

0 1

0 1

( ) ( )( )

E y E a a xa a x Ea a x

εε

= + += + +

= +

Por tanto, el valor medio de para un valor dado de x, representado por el símbolo E (y), *

se grafica como una línea recta con ordenada al origen igual a 0a y pendiente igual a 1a .

La validez de las inferencias acerca de 0a y 1a dependerá de las distribuciones de muestreo

de los estimadores, que a su vez dependen de la distribución de probabilidad del error

aleatorio, ; por tanto, primero debemos hacer supuestos específicos respecto a . Tales

supuestos, que se resumirán a continuación, son básicos para todo análisis de regresión

estadístico.

Líneas de regresión ajustada. Supuesto I: La media de la distribución de probabilidad de es 0. Es decir, la media de los

errores a lo largo de una serie infinitamente larga de experimentos es 0 para cada valor de la

variable independiente x. Este supuesto implica que el valor medio de , para un

valor dado de x es

0 1( )E y a a x= +

Supuesto II: La varianza de la distribución de probabilidad de es constante para todos los

valores de la variable independiente x. En el caso de nuestro modelo de línea recta, este

supuesto significa que la varianza de es igual a una constante, digamos , para todos

los valores de x.

Supuesto III: La distribución de probabilidad de es normal.

Supuesto IV: Los errores asociados a cualesquier dos observaciones distintas son

0)( =εE

y

y

ε ε

ε

)(, yEy

ε

ε 2σ

ε


221

independientes. Es decir, el error asociado a un valor de en particular no tiene efecto

alguno sobre los errores asociados a otros valores de .

Las implicaciones de los tres primeros supuestos pueden apreciarse en la figura siguiente,

que muestra las distribuciones de errores para tres valores específicos de x, a saber,

y .

Observe que las distribuciones de frecuencia relativa de los errores son normales, con una

media de 0 y una varianza constante de . La línea recta de la figura es el valor medio

para un valor dado de x,

En la práctica, los supuestos no tienen que cumplirse al pie de la letra para que los

estimadores de mínimos cuadrados y las estadísticas de prueba (que se describirán más

adelante) tengan el grado de con fiabilidad que esperamos de un análisis de regresión.

5.2. Diagrama de dispersión 5.2.1. Tabla de datos Ejemplo: Supongamos que el inventor de un material aislante quiere determinar la magnitud

de la compresión que se producirá en un espécimen de 2 pulgadas de espesor cuando se

someta a diferentes cantidades de presión. Se prueban cinco trozos experimentales del

material bajo diferentes presiones.

Los valores de x (en unidades de 10 libras por pulgada cuadrada) y las magnitudes de

compresión resultantes (en unidades de 0.1 pulgada) se presentan en la tabla.

y

y

21, xx

3x

2σ y

y


222

Tabla Compresión vs. presión

para un material aislante

Espécimen Presión Compresión

X

1

2

3

4

5

1

2

3

4

5

1

1

2

2

4

5.2.2. Construcción de diagramas. En la figura se muestra una grafica de los datos llamada diagrama de dispersión.

Supongamos que creemos que el valor de tiende a aumentar de forma lineal conforme x

aumenta.

5.3. Estimación mediante la línea de regresión 5.3.1. Ecuación de la recta como ajuste de datos El método más simple de ajustar una curva a un conjunto de datos es el de trazar los puntos

y unirlos con una línea recta. Aunque es una alternativa validad y se utiliza cuando se

requiere hacer estimaciones rápidas, los resultados son independientes, desde un punto de

vista subjetivo, de la persona que traza la recta.

y

012345

0 2 4 6

Compren

sión

Presión

y


223

Para quitar esta dependencia se usa la regresión lineal o mínimos cuadrados.

Ecuación de la línea recta

xaay 10 +=

Polinomio de segundo grado o cuadrático:

exaxaay +++= 2210

Una extensión útil en la regresión lineal es el caso en que y es una función lineal de dos o

más variables. Por ejemplo, y pudiera ser una función lineal de 1x y 2x , de la forma:

22110 xaxaay ++=

5.3.2. Modelos Algoritmo de la solución

1. Inicio 2. Solicitud de los datos discretos ( tabla de datos encontrados experimentalmente) a

los cuales se le va a encontrar la recta que de aproxima mas a ellos. 3. Calcular con base a los datos dados el valor de n. 4. encontrar la sumatoria ∑y

5. Encontrar la sumatoria ∑x

6. encontrar la sumatoria del producto ∑ xy

7. Encontrar la sumatoria de la potencia ∑ 2x 8. Sustituir los valores encontrados en los pasos 3, 4, 5, 6, 7, en las ecuaciones del

método de mínimos cuadrados. 9. Resolver el sistema de ecuaciones para encontrar a las constantes A y B 10. sustituir los valores de A y B en la ecuación de la recta. 11. impresión de los resultados 12. Fin.

5.4. Métodos de mínimos cuadrados.

El significado de mínimos cuadrados consiste en obtener la recta que ajuste a una serie de

datos numéricos, con la condición que la suma de los cuadrados de los residuos sea mínima

posible.


224

a) Muestra de datos con un error significativo.

b) Ajuste polinomial con oscilaciones que violan el rango de datos.

c) Se obtienen resultados más satisfactorios usando el ajuste de mínimos cuadrados.

Si queremos escoger la línea recta "de mejor ajuste" para un conjunto de datos, debemos

estimar los parámetros desconocidos 0a y 1a del modelo de regresión lineal simple. Estos

estimadores podrían obtenerse empleando el método de máxima verosimilitud pero el

método más fácil y el más atractivo desde un punto de vista intuitivo es el método de mínimos cuadrados. Cuando se satisfacen los supuestos de la sección anterior, los

estimadores de máxima verosimilitud y de mínimos cuadrados de 0a y 1a son idénticos.

5.4.1. Estimación de los coeficientes de regresión Ecuación de la línea recta (regresión lineal)

xaay 10 +=

( )221

∑∑∑ ∑ ∑

−

−=

ii

iiii

xxn

yxyxna

xaya 10 −=

Problema:

Solución:

Problema:

automatiza

bodega de

y optimizar

1993) se es

La disposic

dentro de l

se verificó

simulación

tiempo tota

Algo que in

(y) y el núm

Ajústese una

Las bode

ados para el

be diseñarse

r el tiempo d

studió el dise

ción emplea

la bodega, e

ó simulando

se varió el n

al que un ve

nteresa a los

mero de vehí

a línea recta

i1234567

egas mode

manejo de

e con cuidad

de respuesta

eño óptimo d

da supone q

es decir, que

(en una c

número de v

ehículo bloqu

s investigado

ículos (x).

UNIDAD

a los valore

X 1 2 3 4 5 6 7

ernas utiliza

materiales.

do a modo de

a. En The Jo

de una bodeg

que los vehí

e no hay con

computadora

vehículos y s

ueó a otro).

ores es la re

D V / REGR

s x y y de la

y 0.5 2.5 2.0 4.0 3.5 6.0 5.5

an vehículo

En consecu

e evitar el co

oumal of En

ga automatiz

ículos no se

ngestionamie

) las opera

se registró el

Los datos s

elación entre

RESIÓN Y

tabla siguien

os guiados

uencia, la di

ongestionam

ngineering fo

zada.

bloquean e

ento. La valid

aciones de

l tiempo de c

e muestran

e el tiempo d

Y CORREL

nte:

computari

sposición fís

iento de los

or industry (a

entre sí cuan

dez de este

la bodega.

congestionam

en la siguie

de congestio

LACIÓN.

225

izados y

sica de la

vehículos

agosto de

ndo viajan

supuesto

En cada

miento (el

ente tabla.

onamiento


226

Número de

vehículos

Tiempo de congestionamiento

en minutos

Número de

vehículos


en minutos

1

2

3

4

5

6

7

8

0

0

0.02

0.01

0.01

0.01

0.03

0.03

9

10

11

12

13

14

15

0.02

0.04

0.04

0.04

0.03

0.04

0.05

a) Construya un diagrama de dispersión para los datos.

b) Encuentre la línea de mínimos cuadrados que relaciona el número de vehículos (x)

con el tiempo de congestionamiento (y).

c) Trace la línea de mínimos cuadrados en la gráfica del inciso a.

Solución:

Problema: En la tabla siguiente se presentan los alargamientos de un resorte

correspondientes a fuerzas de diferente magnitud que lo deforman.

Puntos 1 2 3 4 5

Fuerza (kgf) : x 0 2 3 6 7

Longitud del resorte

(m) : y

0.120 0.153 0.170 0.225 0.260

y = 0.00319118x - 0.00400000

-0.010

0.010.020.030.040.050.06

0 5 10 15 20


Aproxime e

Solución:

Problema:

acuerdo a

Punto

T ( K)

Cp

Aproxime e

esta informac

El calor es

la siguiente t

1

280

32.7

esta informac

ción por el m

specifico Cp

tabla:

2

650

45.4

ción por el m

0.000

0.050

0.100

0.150

0.200

0.250

0.300

0

UNIDAD

método de mí

/( kgmocalp

3

1000

52.15

método de mí

y

2

D V / REGR

ínimos cuadr

)ol del 3Mn

4

1200

53.7

ínimos cuadr

y = 0.0194x + 0.R2 = 0.9875

4 6

RESIÓN Y

rados, usand

43On varía co

5

0 150

52.9

rados. Usand

11565

6 8

Y CORREL

do regresión

on la tempe

6

00 17

9 50

do regresión

LACIÓN.

227

lineal.

ratura de

700

0.3

lineal.


228

Polinomio de segundo grado o cuadrático (regresión polinomial) 2

0 1 2y a a x a x= + +

∑∑∑∑∑∑∑∑

∑∑∑

=++

=++

=++

iiiii

iiiii

iii

yxxaxaxa

yxxaxaxa

yxaxana

242

31

20

32

210

2210

Problema: Ajuste un polinomio de segundo orden a los datos de las dos columnas del

cuadro:

ix iy

0

1

2

3

4

5

2.1

7.7

13.6

27.2

40.9

61.1

∑ 152.6

433.255.2

62

====

yxnm

∑∑∑∑

=

=

=

=

225

55

6.215

15

3

2

i

i

i

i

x

x

y

x

∑∑∑

=

=

=

8.2488

6.585

979

2

4

ii

ii

i

yx

yx

x

8.2488979225556.5852255515

6.15255156

210

210

210

=++=++

=++

aaaaaa

aaa


229

Regresión lineal múltiple

22110 xaxaay ++= Ahora tenemos el conjunto de ecuaciones normales:

0 1 1, 2 2,

20 1, 1 1, 2 1, 2, 1,

20 2, 1 1, 2, 2 2, 2,

i i i

i i i i i i

i i i i i i

a n a x a x y

a x a x a x x x y

a x a x x a x x y

+ + =

+ + =

+ + =

∑ ∑ ∑∑ ∑ ∑ ∑∑ ∑ ∑ ∑

Problema: Veinte tipos de hojas de aceros procesadas en frío tienen diferentes

composiciones de cobre y temperaturas de templado. Al medir su dureza resultante se

obtuvieron los siguientes valores:

y = 1.853x2 + 2.397x + 2.464R² = 0.998

010203040506070

0 1 2 3 4 5 6


230

Se sabe que la dureza depende en forma lineal del contenido de u de cobre en % y de la

temperatura del templado v

vauaay 210 ++=

Determine los parámetros 10 ,aa y 2a , siguiendo el criterio de los mínimos cuadrados.

Solución:

A

12

1.2

13800

1.2

0.1712

1380

13800

1380

16020000

795.7

81.258

902230

⎛⎜⎜⎝

⎞⎟⎟⎠

:=

rref A( )

1

0

0

0

1

0

0

0

1

161.336

32.969

0.086−

⎛⎜⎜⎝

⎞⎟⎟⎠

=

y 161.336 32.969u+ 0.086v−:=

5.5 Error estándar de estimación Los segmentos de línea verticales representan desviaciones de los puntos respecto a la

línea en la siguiente figura. Se puede constatar, desplazando una regla dentro de la gráfica

que es posible encontrar muchas líneas para las cuales la suma de las desviaciones (o

errores) es igual a 0, pero puede demostrarse que hay una y sólo una línea para la cual la

suma de los cuadrados de las desviaciones es mínima. La suma de los cuadrados de las

desviaciones se denomina suma de cuadrados del error y se denota con el símbolo SSE. La

línea recibe el nombre de línea de mínimos cuadrados, línea de regresión o ecuación de predicción de mínimos cuadrados.


231

Grafica que muestra las desviaciones de los puntos respectos a una línea recta.

Si queremos encontrar la línea de mínimos cuadrados para un conjunto de datos,

suponemos que tenemos una muestra de n puntos de datos que se pueden identificar

mediante los correspondientes valores de x y y , digamos, (x1, y1) , (x2, y2), . . . , (xn , Yn ). El

modelo de línea recta para la respuesta y en términos de x es

0 1y a a x ε= + +

La línea de medias es 0 1( )E y a a x= + y la línea ajustada, que esperamos encontrar, se

representa como 0 1ˆ ˆ ˆy a a x= + .

Entonces, la suma de los cuadrados de las desviaciones de los valores de y respecto a sus

valores estimados para toda las n puntos de datos es

[ ]2

0 11

ˆ ˆ( )n

i ii

SSE y a a x=

= − +∑ Para una regresión lineal.

22

0 1 21

ˆ ˆ( )n

i i ii

SSE y a a x a x=

⎡ ⎤= − + +⎣ ⎦∑ Para una regresión polinomial.

En la mayor parte de las situaciones prácticas, la varianza del error aleatorio es

desconocida y se debe estimar a partir de los datos de muestra. Puesto que mide la

2σ ε2σ


232

variación de los valores de respecto de la línea 0 1( )E y a a x= + parece intuitivamente

razonable estimar dividiendo SSE entre un número apropiado.

Teorema

Sea entonces , si se satisfacen los supuestos, la estadística

=

Tiene una distribución ji cuadrada con v = (n – 2 ) grados de libertad.

Entonces,

Donde E( ) = v = (n - 2).

Por tanto,

Y negamos a la conclusión de que s2 es un estimador insesgado de .

El procedimiento empleado para calcular SSE puede dar pie a errores de redondeo

considerables. En el siguiente recuadro se presentan la fórmula para s2 y un método para

calcular SSE.

Estimación de

donde

y2σ

).2/(2 −= nSSEs

22

σχ SSE

= 2

2)2(σ

sn −

2

222

−=

ns σχ

)(2

)( 22

2 χσ En

sE−

=

2χ

22

2 )2(2

)( σσ=−

−= n

nsE

2σ

2σ

error para libertad de Grados2 SSEs =

2−=

nSSE

( )∑ −=−= xyyyii SSSSyySSE βˆ 2


233

Donde 1aβ =

Advertencia: al realizar estos cálculos tal vez se sienta tentado a redondear los valores

calculados de y Asegúrese de conservar por lo menos seis cifras

significativas para cada una de estas cantidades a fin de evitar un error importante en el

cálculo de SSE.

5.6 Coeficiente de determinación y correlación 5.6.1 Coeficiente de determinación de la muestra Otra forma de medir la contribución de x a la predicción de y es considerar hasta dónde

pueden reducirse los errores de la predicción de y aprovechando la información

proporcionada por x.

a) Diagrama de dispersión de los datos

b) Supuesto: x no contribuye con información a la predicción de ;

c) Supuesto: x contribuye con información a la predicción de ; 0 1y a a x= +

Como ilustración, supongamos que una muestra de datos tiene el diagrama de dispersión

que se muestra en la figura anterior del inciso a. Si suponemos que x no contribuye con

información a la predicción de y, la mejor predicción de y será la media de la muestra, y, que

se grafica como una línea horizontal en la figura inciso b.

( )∑ ∑ ∑−=−=

ny

yyySS iiiyy

222)(

β,yySS .xySS

y yy =ˆ

y


234

Los segmentos de línea verticales trazados en esa figura son las desviaciones de los puntos

respecto de la media y. Observe que la suma de los cuadrados de las desviaciones para el

modelo:

es .

Supongamos ahora que ajustamos una línea de mínimos cuadrados al mismo conjunto de

datos y marcamos las desviaciones de los puntos respecto de la línea como se hace en la

figura del inciso c.

Compare las desviaciones respecto de las líneas de predicción en los incisos b y c de la

figura anterior.

Es evidente que:

1. Si x contribuye con poca o ninguna información a la predicción de , las sumas de

los cuadrados de las desviaciones para las dos líneas,

2. Si x contribuye con información a la predicción de , entonces SSE será menor que

SSyy. De hecho, si todos los puntos caen en la línea de mínimos cuadrados, entonces

SSE = 0.

Una forma cómoda de medir qué tan bien se desempeña la ecuación de mínimos

cuadrados 0 1y a a x= + como predictora de y es calcular la reducción en la suma de los

cuadrados de las desviaciones que se puede atribuir a x, expresada como una proporción de

SSyy. Esta cantidad, llamada coeficiente de determinación, es

En la regresión lineal simple se puede demostrar que esta cantidad es igual al cuadrado del

coeficiente de correlación lineal simple r.

yy =ˆ ∑ −= 2)( yySS iyy

y

∑ −= 2)( yySS iyy

∑ −= 2)ˆ( ii yySSE

y

yy

yy

SSSSESS −


235

Definición:

El coeficiente de determinación es

yyyy

yy

SSSSE

SSSSESS

r −=−

= 12

Este coeficiente representa la proporción de la suma de los cuadrados de las desviaciones

de los valores de y respecto de sus valores estimados ( )y que se puede atribuir a una

relación lineal y y x . (En una regresión lineal simple, este coeficiente también puede

calcularse elevando al cuadrado el coeficiente de correlación r )

Observe que r2 siempre está entre 1 y 1, porque r está entre -1 y +1. Por tanto, r2 = 0.60

significa que la suma de los cuadrados de las desviaciones de los valores de y respecto de

sus valores estimados se redujo en 60% al utilizar , en lugar de , para predecir y. O bien,

en términos más prácticos, r2 = 0.60 implica que el modelo de línea recta que relaciona a y

con x puede explicar (o dar cuenta de) 60% de la variación presente en la muestra de

valores de y.

Problema: Calcule el coeficiente de determinación para el ejemplo de compresión de ais-

lante. Los datos se repiten en la tabla siguiente:

Presión Compresión

X, 10 libras

por pulg2

Y, 0.1 de

pulgada

1

2

3

4

5

1

1

2

2

4

y y


236

( ) ( )

( )

2 22

2

2

1026 6

5 5

ˆ 1.10

6.0 1.1 0.82 82%6.0

iyy i

i i

yy

yy

ySS y

SSE y y

SS SSEr

SS

= − = − =

= − =

− −= = = =

∑∑

∑

(Observe que este valor también podría haberse obtenido elevando al cuadrado el

coeficiente de correlación r = 0.904.)

Ahora sabemos que al usar la presión x para predecir la compresión y con la línea de

mínimos cuadrados = -0.1 + 0.7x, la suma total de los cuadrados de las desviaciones de

los cinco valores de y respecto de sus valores estimados se redujo en 82% gracias al

empleo del predictor lineal . Es decir, 82% de la variación de los valores de compresión de

la muestra se puede explicar mediante la línea de mínimos cuadrados.

Interpretación práctica del coeficiente de determinación, r2

Aproximadamente 100(r2) % de la suma total de los cuadrados de las desviaciones de los

valores y de la muestra respecto de su media se puede explicar por ( o atribuirse a) el

empleo de x para predecir y con el modelo de línea recta.

En situaciones en las que un modelo de regresión de línea recta resulta ser un predictor

estadísticamente satisfactorio de y, el valor de r2 puede servir al analista de regresión como

guía en la búsqueda de mejores y más útiles modelos. Por ejemplo, Crandall y Cedercreutz

(1976) emplean un modelo lineal simple para relacionar el costo del trabajo mecánico

(calefacción, ventilación y plomería) en la construcción con el área de piso.

y

y

y


237

Con base en los datos asociados a la construcción de 26 fábricas y bodegas, se obtuvo la

ecuación de predicción de mínimos cuadrados que se indica en la figura siguiente. Se llegó

a la conclusión de que el área de piso y el costo mecánico tienen una relación lineal, ya que

la estadística t (para probar Ho: 1 0a = ) produjo un valor de 3.61, el cual es significativo con

un 0a tan pequeño como 0.002.

Por tanto, el área de piso debe servirnos para predecir el costo mecánico de una fábrica o

bodega. Sin embargo, el valor del coeficiente de determinación r2 fue de 0.35. Esto nos dice

que sólo 35% de la variación en los costos mecánicos se puede atribuir a las diferencias en

el área de piso.

Este valor relativamente pequeño de r2 impulsó a Crandall y Cedercreutz a incluir en el

modelo otras variables independientes (por ejemplo, volumen, cantidad de vidrio) en un

intento por dar cuenta de una porción significativa del 65% restante de la variación en el

costo mecánico que no puede explicarse con el área de piso.

Modelo lineal simple que relaciona el costo con el área de piso.


238

5.6.2 Coeficiente de correlación de la muestra

La pendiente de mínimos cuadrados, 1a proporciona información útil sobre la relación o

"asociación" lineal entre dos variables y y x. Otra forma de medir la asociación es calcular el

coeficiente de correlación r del momento de producto de Pearson. El coeficiente de

correlación, que se define en el recuadro, ofrece una medida cuantitativa de la fortaleza de la

relación lineal entre x y y en la muestra, como lo hace la pendiente de mínimos cuadrados

1a . Sin embargo, a diferencia de la pendiente, el coeficiente de correlación r es

adimensional. El valor de r siempre está entre -1 y + 1, sin importar en qué unidades se

exprese x y y..

Definición : El coeficiente de correlación r del momento de producto de Pearson es una medida de la

fortaleza de la relación lineal entre dos variables x y y en la muestra. El coeficiente se

calcula ( para una muestra de n mediciones de x y y ) como sigue

yyxx

xy

SSSSSS

r =

Puesto que tanto r como 1a proporcionan información acerca de la utilidad del modelo, no

debe sorprendemos que las fórmulas mediante las cuales se calculan sean similares. En

particular, observe que SSxy aparece en los numeradores de ambas expresiones y que, dado

que ambos denominadores siempre son positivos, r y 1a siempre tienen el mismo signo

(ambos positivos o bien ambos negativos). Un valor de r cercano o igual a 0 implica poca o

ninguna relación lineal entre y y x.

En contraste, cuanto más se acerque r a 1 o -1, más fuerte será la relación lineal entre x y y.

Y, si r = 1 o r = -1, todos los puntos caerán exactamente en la línea de mínimos cuadrados.

Un valor positivo de r implica que y aumenta cuando x aumenta; un valor negativo implica

que y disminuye cuando x aumenta.


239

Problema: En la tabla siguiente .Calcule el coeficiente de correlación r entre la presión x y la

compresión y.

Presión Compresión

X, 10 libras por pulg2 Y, 0.1 de pulgada

1

2

3

4

5

1

1

2

2

4

Solución:

SSxy = 7, SSxx = 10, : y .

Entonces,

( ) ( )2 2

2 1026 6

5 5i

yy i

ySS y= − = − =∑∑

y el coeficiente de correlación es

Por tanto, la presión y la magnitud de la compresión tienen una correlación elevada, al

menos para esta muestra de cinco trozos de material aislante. La implicación es que existe

una relación lineal positiva fuerte entre estas variables. No obstante, debemos tener cuidado

de no precipitamos a conclusiones injustificadas. Por ejemplo, el inventor de un nuevo

material aislante podría sentirse tentado a concluir que un aumento en la presión siempre

producirá una mayor compresión. La implicación de semejante conclusión es que existe una

relación causal entre las dos variables. Sin embargo, una correlación elevada no implica causalidad. Muchos otros factores, como la temperatura y la humedad, podrían contribuir al

aumento en el grado de compresión que se produce en los especímenes.

∑ = 10iy ∑ = 262iy

( )( )904.0

746.77

6107

====yyxx

xy

SSSSSS

r


240

Advertencia Una correlación elevada no implica causalidad. Si se observa un valor positivo o negativo

grande del coeficiente de correlación r de la muestra, no es correcto llegar a la conclusión de

que un cambio en x causa un cambio en y. La única conclusión puede existir una tendencia

lineal entre x y .

Tenga presente que el coeficiente de correlación r mide la correlación entre los valores x y

los valores y de la muestra, y que existe un coeficiente de correlación lineal similar para la

población de la cual se seleccionaron los puntos de datos.

El coeficiente de correlación de población se denota con el símbolo (rho). Como era

de esperar, se estima con la estadística de muestra correspondiente, r . Por otro lado, en

lugar de estimar , podríamos querer probar la hipótesis :

H0: = 0 contra

Ha: ,

es decir, probar la hipótesis de que x no contribuye con información a la predicción de y

empleando el modelo de línea recta contra la alternativa de que las dos variables tienen por

10 menos una relación lineal.

La única diferencia real entre la pendiente de mínimos cuadrados 1a y el coeficiente de

correlación r es la escala de medición. Por tanto, la información que proporcionan acerca de

la utilidad del modelo de mínimos cuadrados es en cierta medida redundante. Además, la

pendiente 1a proporciona información adicional sobre la magnitud del incremento (o

decremento) de y con cada incremento unitario de x.

Por esta razón, recomendamos utilizar la pendiente para hacer inferencias acerca de la

existencia de una relación lineal positiva o negativa entre dos variables.

Para quienes prefieren probar si hay o no una relación lineal entre dos variables empleando

el coeficiente de correlación r, bosquejamos el procedimiento en el recuadro.

y

ρ

ρ

ρ

ρ

ρ 0≠


241

Prueba de hipótesis para la correlación lineal Prueba de un cola Prueba de dos colas

1

: 0: 0

( 0)

oHH

ρρ

ρ

=>

< 1

: 0: 0

oHH

ρρ=

≠

Estadística de prueba: 2

21

r ntr−

=−

Región de rechazo:

( )t tt t

α

α

>

< −

Región de rechazo:

/ 2t tα>

Donde la distribución de t depende de (n – 2) gl .

Problema: Es importante que los investigadores científicos en el área de los productos

forestales sean capaces de estudiar la correlación entre la anatomía y las propiedades

mecánicas de los árboles. De acuerdo con el estudio Quantitative Anatomical Characteristics

of Plantation Grown Loblolly Pine (pinus Taeda L.) and Cottonwood (populus deltoides Bart.

Ex Marsh.) and Their Relationship to Mechanical Properties que llevó a cabo el

Departamento de Silvicultura y Productos Forestales del Instituto Politécnico y Universidad

Estatal de Virginia, un experimento en el que se seleccionaron aleatoriamente 29 pinos

loblolly para investigación que produjeron los datos de la tabla siguiente sobre la gravedad

específica en gramos /cm3 y el módulo de ruptura en kilo pascales (kPa). Calcule e interprete

el coeficiente de correlación muestra!.

Gravedad

especifica, x 3( / )g cm

Modulo de

ruptura, y

(kPa)

Gravedad

especifica, x 3( / )g cm

Modulo de

ruptura, y

(kPa)

0.414

0.383

0.399

0.402

0.442

0.422

29186

29266

26215

30162

38867

37831

0.581

0.557

0.550

0.531

0.550

0.556

85156

69571

84160

73466

78610

67657


242

0.466

0.500

0.514

0.530

0.569

0.558

0.577

0.572

0.548

44576

46097

59698

67705

66088

78486

89869

77369

67095

0.523

0.602

0.569

0.544

0.557

0.530

0.547

0.585

74017

87291

86836

82540

81699

82096

75657

80490

Solución

0.11273; 11807324786

34422.75972xx yy

xy

S S

S

= =

=

34422.75972 0.9435(0.11273)(11807324786)

r = =

Un coeficiente de correlación de 0.9435 indica una buena relación lineal entre X y Y. Como

r2 = 0.8902, podemos decir que aproximadamente 89% de la variación en los valores de Y

se explica por una relación lineal con X.

Una prueba de la hipótesis especial = 0 contra una alternativa apropiada es equivalente

a probar para el modelo de regresión lineal simple que utilizan la distribución t con

n – 2 grados de libertad o la distribución F con 1 y n - 2 grados de libertad. Sin embargo, si

se desea evitar el procedimiento del análisis de varianza y calcular sólo el coeficiente de

correlación muestral, se puede verificar que el valor t dado por

También se puede escribir como que, como antes, es un valor de la

estadística T que tiene una distribución t con n - 2 grados de libertad.

ρ

0=β

sSSR

Ssbt

xx

==

212

rnrt−

−=


243

Problema: Para los datos del ejemplo anterior pruebe la hipótesis de que no hay una

asociación lineal entre las variables.

Solución:

1

1. : 02. : 03. =0.054. Región critica: 2.052 y 2.052

oHH

t t

ρρ

α

=

≠

< − >

( )2

5. Calculos

0.9435( 27) 14.79, 0.0011 0.9435

t P= = <−

6. Decisión

Rechazar la hipótesis de no asociación lineal.

Una prueba de la hipótesis más general = o contra una alternativa adecuada se lleva a

cabo fácilmente a partir de la información muestral. Si X y Y siguen la distribución normal

bivariada, la cantidad

Es un valor de una variable aleatoria que sigue de manera aproximada la distribución normal

con media (1/2) In [(1 + ) / (1- )] y varianza 1/ (n - 3). De esta forma el procedimiento de

prueba es calcular

ρ ρ

⎟⎠⎞

⎜⎝⎛

−+

rr

11ln

21

ρ ρ

( )( )( )( )⎥⎦

⎤⎢⎣

⎡+−−+−

=

⎥⎥⎦

⎤

⎢⎢⎣

⎡⎟⎟⎠

⎞⎜⎜⎝

⎛−+

−⎟⎠⎞

⎜⎝⎛−+−

=

0

0

0

0

1111ln

23

11ln

11ln

23

ρρ

ρρ

rrn

rrnz


244

y comparar con los puntos críticos de la distribución normal estándar.

Problema: Para los datos del ejemplo antes de que acabamos de resolver pruebe la

hipótesis nula contra la alternativa de que . Utilice un nivel de significancia

de 0.05

Solución:

1.

2.

3.

4. Región critica :

5. Cálculos

P = 0.0655

6. Decisión : Hay en realidad alguna evidencia de que el coeficiente de

correlación excede 0.9

Relación no lineal.

Diagrama de dispersión que muestra correlación cero

9.0=ρ 9.0>ρ

9.0:. 0 =ρH

9.0:1 >ρH

05.0=α

645.1>z

51.19.1)9435.01(1.0)9435.01(ln

226

=⎥⎦

⎤⎢⎣

⎡−+

=z


245

5.7. Problemas prácticos de ajustes de curvas

Problema: Partir de un estudio experimental acerca de la estabilidad de arcilla muy platica,

se observo que el contenido de agua para moldeo con densidad optima dependía

linealmente de los porcentajes de cal y puzolana mezclado con la arcilla. Se tuvieron así los

resultados que dan abajo. Ajuste una ecuación de la forma:

vauaay 210 ++=

Solución:

A

7

45

62.5

45

407.5

291.25

62.5

291.25

816.25

206.4

1367.85

1789.65

⎛⎜⎜⎝

⎞⎟⎟⎠

:=

rref A( )

1

0

0

0

1

0

0

0

1

28.692

0.257

0.096−

⎛⎜⎜⎝

⎞⎟⎟⎠

=

y 28.692 0.257u+ 0.096v−:=

Problema: Al medir la velocidad (con un tubo de Pitot) en una tubería circular de diámetro

interior de 20 cm, se encontró la siguiente información:


246

V ( cm / s ) 600 550 450 312 240

R ( cm) 0 3 5 7 8

Donde R es la distancia en cm. medida a partir del centro del tubo.

a) Obtenga la curva v = f(R) que aproxima estos datos experimentales

b) Calcule la velocidad en el punto R = 4 cm.

Problema: Si aproxima la función dada abajo por un polinomio de segundo grado

y = -5.3472x2 - 3.0667x + 601.71

0

100

200

300

400

500

600

700

0 2 4 6 8 10


247

Problema: En la siguiente tabla, r es la resistencia de una bobina en ohms y T la temperatura

de la bobina en ºC. Por mínimos cuadrados determine el mejor polinomio lineal que

represente la función dada:

Problema: En una reacción gaseosa de expansión a volumen constante, se observa que la

presión del reactor (batch) aumenta con el tiempo de reacción según se muestra en la tabla

de abajo.

¿Que grado de polinomio aproxima mejor la función P = f(t) ?

y = -8.8218x2 - 1412.1x + 39694

05000

1000015000200002500030000350004000045000

0 5 10 15 20

y = 35.744x - 361.8

0102030405060708090

100

0 5 10 15


248

Problema: ajústese una línea recta a los valores x y y de la tabla siguiente:

ix iy

1

2

3

4

5

6

7

0.5

2.5

2.0

4.0

3.5

6.0

5.5

Solución:

y = 1.2386x + 0.8702

0

0.5

1

1.5

2

2.5

3

3.5

0 0.5 1 1.5 2

y = 0.5234x2 + 0.479x + 1.0089

0

0.5

1

1.5

2

2.5

3

3.5

0 0.5 1 1.5 2

0

2

4

6

8

0 2 4 6 8


249

Ejercicios propuestos

P1. En cada caso, grafique la línea que pasa por los puntos.

a. (0, 2) Y (2, 6)

b. (0, 4) Y (2, 6)

c. (0,-2) y (-1,-6)

d. (0, -4) Y (3, -7)

P2. Grafique las siguientes líneas:

a. y = 3 + 2x

b. y = l + x

c. y = - 2 + 3x

d. y = 5x

e. y = 4 - 2x

P3. Dos procesos para el taladrado hidráulico de roca son el taladrado en seco y el taladrado

húmedo. En un agujero seco se introduce aire comprimido por las varillas de taladrar para

expulsar las partículas e impulsar el martillo; en un agujero húmedo se introduce agua a

presión. Se realizó un experimento para determinar si el tiempo y que se requiere para

taladrar una distancia de cinco pies en roca aumenta con la profundidad x (The American

Statistician, febrero de 1991). Los resultados para una porción del experimento se muestran

en la siguiente tabla.

Profundidad a la que se inicia el taladro x,

pies

Tiempo para taladrar 5 pies , minutos

0

25

50

75

100

125

150

175

4.90

7.41

6.19

5.57

5.17

6.89

7.05

7.11

y


250

200

225

250

275

300

325

350

375

395

6.19

8.28

4.84

8.29

8.91

8.54

11.79

12.12

11.02

a) Elabore un diagrama de dispersión para datos.

b) Encuentre la ecuación de predicción de mínimos cuadrados.

c) Grafique la línea de mínimos cuadrados en el diagrama de dispersión

d) Interprete los valores de 0a y 1a

P4. Se realizó un estudio para modelar el desempeño térmico de los tubos con aletas

integrales empleados en las industrias de refrigeración y de proceso (Journal of Heat

Transfer, agosto de 1990). En el experimento se utilizaron 24 tubos con aletas integrales de

fabricación especial, con aletas rectangulares hechas de cobre. Se liberó vapor hacia abajo

en cada tubo y se midió el coeficiente de transferencia de calor del lado del vapor (con base

en el área superficial exterior del tubo). La variable dependiente en este estudio es la tasa de

promoción de la transferencia de calor y, definida como el cociente entre el coeficiente del

lado del vapor del tubo con aletas y el coeficiente del lado del vapor de un tubo liso,

evaluados a la misma temperatura. En teoría, la transferencia de calor está relacionada con

el área de la parte superior del tubo que no está "inundada" por la condensación del vapor.

Los datos de la tabla son los valores de proporción de área no inundada (x) y promoción de

la transferencia de calor (y) registrados para los 24 tubos con aletas integrales.

Proporción de área

no inundada, x

Promoción de la transferencia de

calor,

1.93

1.95

1.78

1.64

4.4

5.3

4.5

4.5

y


251

1.54

1.32

2.12

1.88

1.70

1.58

2.47

2.37

2.00

1.77

1.62

2.77

2.47

2.24

1.32

1.26

1.21

2.26

2.04

1.88

3.7

2.8

6.1

4.9

4.9

4.1

7.0

6.7

5.2

4.7

4.2

6.0

5.8

5.2

3.5

3.2

2.9

5.3

5.1

4.6

a) Determine la línea de mínimos cuadrados que relaciona la promoción de la

transferencia de calor con la proporción de área no inundada x.

b) Grafique los puntos de datos y trace la línea de mínimos cuadrados como verificación

de sus cálculos.

c) Interprete los valores de 0a y 1a

.

P5. La Comisión Federal de Comunicaciones (FCC) de Estados Unidos especifica que las

emisiones electromagnéticas radiadas por dispositivos digitales se deben medir en un sitio

de prueba de campo abierto. A fin de verificar la aceptabilidad de un sitio de prueba es

preciso evaluar la atenuación del sitio (es decir, la pérdida de transmisión desde la entrada

de un dipolo de media onda hasta la salida de otro cuando ambos dipolos se colocan sobre

el plano de tierra).

y


252

Un estudio realizado en un sitio de prueba en Fort Collins, Colorado, produjo los siguientes

datos de atenuación del sitio (en decibeles) y frecuencia de transmisión (en megahertz) para

dipolos a una distancia de 3 metros.

Frecuencia de

Transmisión X, MHZ

Atenuación del sitio ,dBL

50

100

200

300

400

500

600

700

800

900

1000

11.5

15.8

18.2

22.6

26.2

27.1

29.5

30.7

31.3

32.6

34.9

P6. Como parte de un estudio sobre la rapidez de combustión de grafito artificial en un flujo

de aire húmedo, se llevo a cabo un experimento con miras a investigar la difusividad del

oxígeno a través de una mezcla de vapor de agua (Combustion and Flame, vol. 50, 1983).

Se prepararon muestras de mezclas de nitrógeno y oxígeno con una fracción molar de agua

de 0.017 a nueve temperaturas distintas, y se midió la difusividad del oxígeno en cada una.

Los datos se reproducen en la siguiente tabla.

Temperatura Difusividad de oxigeno

x Y

1,000 1.69

1,100 1.99

1,200 2.31

1,300 2.65

1,400 3.01

1,500 3.39

1,600 3.79

1,700 4.21

1,800 4.64

y


253

a) Grafique los puntos de datos en un diagrama de dispersión.

b) Ajuste un modelo lineal simple que relacione la difusividad media del oxígeno,

, con la temperatura, x. Interprete las estimaciones de los parámetros del modelo.

c) Calcule SSE y S2

P7. El equilibrio termogravimétrico (TG ) es una nueva técnica que se desarrolló para evaluar

el comportamiento térmico de los compuestos químicos. Abou El Naga y Salem (1986)

compararon la técnica TG con el método estándar de evaluar la estabilidad respecto a la

termooxidación de aceite, base y sus mezclas aditivas (por ejemplo, aceites de

transformador, de turbina y de transmisión). En cada espécimen de una muestra de 10

aceites base se determinó la cantidad y de compuestos oxidativos formados en el punto de

oxidación empleando la técnica TG, así como el porcentaje total de productos de oxidación x

empleando el método estándar. Los resultados del experimento se muestran en la siguiente

tabla.

Aceite

base

Técnica TG: cantidad de

compuestos oxidativos , % en

peso

Método estándar:

Total de productos de oxidación

X, %

1

2

3

4

5

6

7

8

9

10

25.4

27.11

28.0

17.9

18.9

22.9

30.8

18.6

24.4

29.8

2.3

2.5

2.65

1.3

1.45

1.9

3.3

1.4

2.1

2.9

)(yE

y


254

a) Ajuste un modelo lineal simple que relacione la cantidad y de compuestos oxidativas

determinados por la técnica TG con el porcentaje total de productos de oxidación x

determinados por el método estándar.

b) Grafique los puntos de datos y la línea de mínimos cuadrados en un diagrama de

dispersión.

d) Interprete los valores de 0a y 1a

c) Calcule SSE, S2 y s.

d) Interprete el valor de s.

ANEXOS

TABLAS

z0,0,0,0,0,

0,0,0,0,0,

1,1,1,1,1,

1,1,1,1,1,

2,2,2,2,2,

2,2,2,2,2,

3,3,3,3,3,

3,

APÉNDICTa

z 0,00 ,0 ,1 ,2 ,3 ,4

0,5000 0,5398 0,5793 0,6179 0,6554

,5 ,6 ,7 ,8 ,9

0,6915 0,7257 0,7580 0,7881 0,8159

,0 ,1 ,2 ,3 ,4

0,8413 0,8643 0,8849 0,9032 0,9192

,5 ,6 ,7 ,8 ,9

0,9332 0,9452 0,9554 0,9641 0,9713

,0 ,1 ,2 ,3 ,4

0,9772 0,9821 0,9861 0,9893 0,9918

,5 ,6 ,7 ,8 ,9

0,9938 0,9953 0,9965 0,9974 0,9981

,0 ,1 ,2 ,3 ,4

0,9987 0,9990 0,9993 0,9995 0,9997

,5 0,9998

CE A bla de la dis

0,01 00,5040 0,5438 0,5832 0,6217 0,6591

0,0,0,0,0,

0,6950 0,7291 0,7611 0,7910 0,8186

0,0,0,0,0,

0,8438 0,8665 0,8869 0,9049 0,9207

0,0,0,0,0,

0,9345 0,9463 0,9564 0,9649 0,9719

0,0,0,0,0,

0,9778 0,9826 0,9864 0,9896 0,9920

0,0,0,0,0,

0,9940 0,9955 0,9966 0,9975 0,9982

0,0,0,0,0,

0,9987 0,9991 0,9993 0,9995 0.9997

0,0,0,0,0,

0,9998 0,

stribución n

0,02 0,03,5080 ,5478 ,5871 ,6255 ,6628

0,5120,550,590,6290,666

,6985 ,7324 ,7642 ,7939 ,8212

0,700,7350,7670,7960,823

,8461 ,8686 ,8888 ,9066 ,9222

0,8480,8700,8900,9080,923

,9357 ,9474 ,9573 ,9656 ,9726

0,9370,9480,9580,9660,973

,9783 ,9830 ,9868 ,9898 ,9922

0,9780,9930,9870,9900,992

,9941 ,9956 ,9967 ,9976 ,9982

0,9940,9950,9960,9970,998

,9987 ,9991 ,9994 ,9995 ,9997

0,9980,9990,9990,9990,999

,9999 0,999

normal (área

3 0,04 2017109364

0,51600,55570,59480,63310,6700

1957736738

0,70540,73890,77030,79950,8264

8508078236

0,85080,87290,89250,90990,9251

7084826432

0,93820,94950,95910,96710,9738

8834710125

0,97930,98380,98750,99040,9927

4357687783

0,99450,99590,99690,99770,9984

8891949697

0,99880,99920,99940,99960,9997

99 0,9999

a bajo la cur

0,05 00,51990,55960,59870,63680,6736

00000

0,70880,74220,77340,80230,8289

00000

0,85310,87490,89440,91150,9265

00000

0,93940,95050,95990,96780,9744

00000

0,97980,98420,98780,99060,9929

00000

0,99460,99600,99700,99780,9984

00000

0,99890,99920,99940,99960,9997

00000

0,9999 0

ANEX

rva normal)

0,06 0,07,5239,5636,6026,6406,6772

0,5270,5670,6060,6440,680

,7123,7454,7764,8051,8315

0,7150,7480,7790,8070,834

,8554,8770,8962,9131,9278

0,8570,8790,8980,9140,929

,9406,9515,9608,9686,9750

0,940,9520,960,9690,975

,9803,9846,9881,9909,9931

0,9800,9850,9880,990,993

,9948,9961,9971,9979,9985

0,9940,9960,9970,9970,998

,9989,9992,9994,9996,9997

0,9980,9990,9990,9990,999

,9999 0,999

XOS / TAB

7 0,08 79 75 64 43 08

0,5319 0,5714 0,6103 0,6480 0,6844

57 86 94 78 40

0,7190 0,7517 0,7823 0,8106 0,8364

77 90 80 47 92

0,8599 0,8810 0,8997 0,9162 0,9306

18 25 16 93 56

0,9429 0,9535 0,9625 0,9699 0,9761

08 50 84 11 32

0,9812 0,9854 0,9887 0,9913 0,9934

49 62 72 79 85

0,9951 0,9963 0,9973 0,9980 0,9986

89 92 95 96 97

0,9990 0,9993 0,9995 0,9996 0,9997

99 0,9999

BLAS

256

0,09 0,53590,57530,61410,65170,6879

0,72240,75490,78520,81330,8389

0,86210,88300,90150,91770,9319

0,94410,95450,96330,97060,9767

0,98170,98570,98900,99160,9936

0,99520,99640,99740,99810,9986

0,99900,99930,99950,99970,9998

0,9999

ANEXOS / TABLAS

257

z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

-3.4 -3.3 -3.2 -3.1 -3.0

0.0003 0.0005 0.007

0.0010 0.0013

0.0003 0.0005 0.0007 0.0009 0.0013

0.0003 0.0005 0.0006 0.0009 0.0013

0.0003 0.0004 0.0006 0.0009 0.0012

0.0003 0.0004 0.0006 0.0008 0.0012

0.0003 0.0004 0.0006 0.0008 0.0011

0.00030.00040.00060.00080.0011

0.0003 0.0004 0.0005 0.0008 0.0011

0.0003 0.0004 0.0005 0.0007 0.0010

0.0002 0.0003 0.0005 0.0007 0.0010

-2.9 -2.8 -2.7 -2.6 -2.5

0.0019 0.0026 0.0035 0.0047 0.0062

0.0018 0.0025 0.0034 0.0045 0.0060

0.0017 0.0024 0.0033 0.0044 0.0059

0.0017 0.0023 0.0032 0.0043 0.0057

0.0016 0.0023 0.0031 0.0041 0.0055

0.0016 0.0022 0.0030 0.0040 0.0054

0.00150.00210.00290.00390.0052

0.0015 0.0021 0.0028 0.0038 0.0051

0.0014 0.0020 0.0027 0.0037 0.0049

0.0014 0.0019 0.0026 0.0036 0.0048

-2.4 -2.3 -2.2 -2.1 -2.0

0.0082 0.0107 0.0139 0.0179 0.0228

0.0080 0.0140 0.0136 0.0174 0.0222

0.0078 0.0102 0.0132 0.0170 0.0217

0.0075 0.0099 0.0129 0.0166 0.0212

0.0073 0.0096 0.0125 0.0162 0.0207

0.0071 0.0094 0.0122 0.0158 0.0202

0.00690.00910.01190.01540.0197

0.0068 0.0089 0.0116 0.0150 0.0192

0.0066 0.0087 0.0113 0.0146 0.0188

0.0064 0.0084 0.110

0.0143 0.0183

-1.9 -1.8 -1.7 -1.6 -1.5

0.0287 0.0359 0.0446 0.0548 0.0668

0.0281 0.0352 0.0436 0.0537 0.0655

0.0274 0.0344 0.0427 0.0526 0.0643

0.0268 0.0336 0.0418 0.0516 0.0630

0.0262 0.0329 0.0409 0.0505 0.0618

0.0256 0.0322 0.0401 0.0495 0.0606

0.02500.03140.03920.04850.0594

0.0244 0.0307 0.0384 0.0475 0.0582

0.0239 0.0301 0.0375 0.0465 0.0571

0.0233 0.0294 0.0367 0.0455 0.0559

-1.4 -1.3 -1.2 -1.1 -1.0

0.0808 0.0968 0.1151 0.1357 0.1587

0.0793 0.0951 0.1131 0.1335 0.1562

0.0778 0.0934 0.1112 0.1314 0.1539

0.0764 0.0918 0.1093 0.1292 0.1515

0.0749 0.0901 0.1075 0.1271 0.1492

0.0735 0.0885 0.1056 0.1251 0.1469

0.07220.08690.10380.12300.1446

0.0708 0.0853 0.1020 0.1210 0.1423

0.0694 0.0838 0.1003 0.1190 0.1401

0.0681 0.0823 0.0985 0.1170 0.1379

-0.9 -0.8 -0.7 -0.6 -0.5

0.1841 0.2119 0.2420 0.2743 0.3085

0.1814 0.2090 0.2389 0.2709 0.3050

0.1788 0.2061 0.2358 0.2676 0.3015

0.1762 0.2033 0.2327 0.2643 0.2981

0.1736 0.2005 0.2296 0.2611 0.2946

0.1711 0.1977 0.2266 0.2566 0.2578

0.16850.19490.22360.25460.2877

0.1660 0.1922 0.2206 0.2514 0.2843

0.1635 0.1894 0.2177 0.2483 0.2810

0.1611 0.1867 0.2148 0.2451 0.2776

-0.4 -0.3 -0.2 -0.1 -0.0

0.3446 0.3821 0.4207 0.4602 0.5000

0.3409 0.3783 0.4168 0.4562 04960

0.3372 0.3745 0.4129 0.4522 0.4920

0.3336 0.3707 0.4090 0.4483 0.4880

0.3300 0.3669 0.4052 0.4443 0.4840

0.3264 0.3632 0.4013 0.4404 0.4801

0.32280.35940.39740.43640.4761

0.3192 0.3557 0.3936 0.4325 0.4721

0.3156 0.3520 0.3897 0.4286 0.4681

0.3121 0.3483 0.3859 0.4247 0.4641

ANEXOS / TABLAS

258

APÉNDICE B

Valores críticos de la distribución t

V

α 0.40 0.30 0.20 0.15 0.10 0.05 0.025

1 2 3 4 5

0.325 0.289 0.277 0.271 0.267

0.727 0.617 0.584 0.569 0.559

1.376 1.061 0.978 0.941 0.920

1.963 1.386 1.250 1.190 1.156

3.078 1.886 1.638 1.533 1.476

6.314 2.920 2.353 2.132 2.015

12.706 4.303 3.182 2.776 2.571

6 7 8 9 10

0.265 0.263 0.262 0.261 0.260

0.553 0.549 0.546 0.543 0.542

0.906 0.896 0.889 0.883 0.879

1.134 1.119 1.108 1.100 1.093

1.440 1.415 1.397 1.383 1.372

1.943 1.895 1.860 1.833 1.812

2.447 2.365 2.306 2.262 2.228

11 12 13 14 15

0.260 0.259 0.259 0.258 0.258

0.540 0.539 0.537 0.537 0.536

0.876 0.873 0.870 0.868 0.866

1.088 1.083 1.079 1.076 1.074

1.363 1.356 1.350 1.345 1.341

1.796 1.782 1.771 1.761 1.753

2.201 2.179 2.160 2.145 2.131

16 17 18 19 20

0.258 0.257 0.257 0.257 0.257

0.535 0.534 0.534 0.533 0.533

0.865 0.863 0.862 0.861 0.860

1.071 1.069 1.067 1.066 1.064

1.337 1.333 1.330 1.328 1.325

1.746 1.740 1.734 1.729 1.725

2.120 2.110 2.101 2.093 2.086

21 22 23 24 25

0.257 0.256 0.256 0.256 0.256

0.532 0.532 0.532 0.531 0.531

0.859 0.858 0.858 0.857 0.856

1.063 1.061 1.060 1.059 1.058

1.323 1.321 1.319 1.318 1.316

1.721 1.717 1.714 1.711 1.708

2.080 2.074 2.069 2.064 2.060

26 27 28 29 30

0.256 0.256 0.256 0.256 0.256

0.531 0.531 0.530 0.530 0.530

0.856 0.855 0.855 0.854 0.854

1.058 1.057 1.056 1.055 1.055

1.315 1.314 1.313 1.311 1.310

1.706 1.703 1.701 1.699 1.697

2.056 2.052 2.048 2.045 2.042

40 60 120 ∞

0.255 0.254 0.254 0.253

0.529 0.527 0.526 0.524

0.851 0.848 0.845 0.842

1.050 1.045 1.041 1.036

1.303 1.296 1.289 1.282

1.684 1.671 1.658 1.645

2.021 2.000 1.980 1.960

ANEXOS / TABLAS

259

Continuación de valores críticos de la distribución t

V

α 0.02 0.015 0.01 0.0075 0.005 0.0025 0.0005

1 2 3 4 5

15.895 4.849 3.482 2.999 2.757

21.205 5.643 3.896 3.298 3.003

31.821 6.965 4.541 3.747 3.365

42.434 8.073 5.047 4.088 3.634

63.657 9.925 5.841 4.604 4.032

127.322 14.089 7.453 5.598 4.773

636.590 31.598 12.924 8.610 6.869

6 7 8 9 10

2.612 2.517 2.449 2.398 2.359

2.829 2.715 2.634 2.574 2.527

3.143 2.998 2.896 2.821 2.764

3.372 3.203 3.085 2.998 2.932

3.707 3.499 3.355 3.250 3.169

4.317 4.029 3.833 3.690 3.581

5.959 5.408 5.041 4.781 4.587

11 12 13 14 15

2.328 2.303 2.282 2.264 2.249

2.491 2.461 2.436 2.415 2.397

2.718 2.681 2.650 2.624 2.602

2.879 2.836 2.801 2.771 2.746

3.106 3.055 3.012 2.977 2.947

3.497 3.428 3.372 3.326 3.286

4.437 4.318 4.221 4.140 4.073

16 17 18 19 20

2.235 2.224 2.214 2.205 2.197

2.382 2.368 2.356 2.346 2.336

2.583 2.567 2.552 2.539 2.528

2.724 2.706 2.689 2.674 2.661

2.921 2.898 2.878 2.861 2.845

3.252 3.222 3.197 3.174 3.153

4.015 3.965 3.922 3.883 3.849

21 22 23 24 25

2.189 2.183 2.177 2.172 2.167

2.328 2.320 2.313 2.307 2.301

2.518 2.508 2.500 2.492 2.485

2.649 2.639 2.629 2.620 2.612

2.831 2.819 2.807 2.797 2.787

3.135 3.119 3.104 3.091 3.078

3.819 3.792 3.768 3.745 3.725

26 27 28 29 30

2.162 2.158 2.154 2.150 2.147

2.296 2.291 2.286 2.282 2.278

2.479 2.473 2.467 2.462 2.457

2.605 2.598 2.592 2.586 2.581

2.779 2.771 2.763 2.756 2.750

3.067 3.057 3.047 3.038 3.030

3.707 3.690 3.674 3.659 3.646

40 60

120 ∞

2.125 2.099 2.076 2.054

2.250 2.223 2.196 2.170

2.423 2.390 2.358 2.326

2.542 2.504 2.468 2.432

2.704 2.660 2.617 2.576

2.971 2.915 2.860 2.807

3.551 3.460 3.373 3.291

ANEXOS / TABLAS

260

APÉNDICE C

Tabla de valores críticos de la distribución ji cuadrada

ANEXOS / TABLAS

261

262

BIBLIOGRAFIA.

Chapra, S. y Canales R.; Métodos numéricos para ingenieros. Mc Graw Hill

Irwin R. Miller, John E. Freud, Richard Jhonston; Probabilidad y Estadistica para ingenieros; Ed.

Prentice Hall;

Mendenhall, Sincich; Probabilidad y estadística para ingeniería y ciencias ; Ed. Prentice Hall.

Meyer.: Probabilidad y aplicaciones Estadísticas. Ed. Addison-Wesley.

Murray Spiegel.; Probabilidad y estadística .;Ed. McGraw Hill.

Nieves – Dominguez; Numéricos para ingenieros; Mc Graw Hill

Paul L. Meyer; Probabilidad y aplicaciones Estadisticas. Ed. Fondo Educativo Interamericana.

Richard I. Levin, David S. Rubin; Estadistica para administradores; Prentice Hall.

Walpole , Myers.; Probabilidad y estadística para ingenieros Prentice Hall

antologia de probabilidad y estadistica

Documents