estadística básica para la ingeniería.pdf
DESCRIPTION
Estadística aplicada para los estudios de ingenieria industrial.TRANSCRIPT
UNIVERSIDAD POLITÉCNICA DE VALENCIA
ESTADÍSTICA BÁSICA
PARA
INGENIERÍA
María Teresa Carot Sánchez
Gonzalo Clemente Marín
José María Sanz Juan
DEPARTAMENTO DE ESTADÍSTICA E INVESTIGACIÓN OPERATIVA APLICADAS Y CALIDAD
Enero 2013
Contenido
-2-
Contenido
-3-
CONTENIDO
1. INTRODUCCIÓN
1.1. LA METODOLOGÍA ESTADÍSTICA ............................................................ 9
1.2. EL MÉTODO CIENTÍFICO ........................................................................ 12
1.3. SOFTWARE ESTADÍSTICO ...................................................................... 14
1.4. REDONDEO DE LOS DATOS ................................................................... 15
1.5. ALFABETO GRIEGO ................................................................................. 17
2. ESTADÍSTICA DESCRIPTIVA
2.1. INTRODUCCIÓN ........................................................................................... 19
2.2 ESTADÍSTICA DESCRIPTIVA UNIDIMENSIONAL ......................................... 22
2.2.1. Tablas de frecuencias ............................................................................ 23
2.2.2. Histogramas ........................................................................................... 23
2.2.3. Polígono de frecuencias ......................................................................... 25
2.2.4. Diagrama de puntos ............................................................................... 25
2.2.5. Gráfico de tartas..................................................................................... 26
2.2.6. Gráfico de Pareto ................................................................................... 26
2.2.7. Medidas de posición .............................................................................. 27
2.2.8. Medidas de dispersión ........................................................................... 29
2.2.9. Diagrama e tallos y hojas ....................................................................... 31
2.2.10. Diagrama de caja-y-bigotes.................................................................. 32
2.3. ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL ........................................... 33
2.3.1. Tablas de frecuencia de doble entrada .................................................. 33
2.3.2. Frecuencias marginales ......................................................................... 36
2.3.3. Frecuencias condicionales ..................................................................... 37
2.3.4. Representaciones gráficas de las distribuciones bidimensionales .......... 38
2.3.5. Covarianza muestral .............................................................................. 40
2.3.6. Regresión lineal ..................................................................................... 40
2.4. PROBLEMAS Y CUESTIONES DE EXÁMENES ........................................... 41
3. PROBABILIDADES
3.1. INTRODUCCIÓN ........................................................................................... 47
3.2. PROBABILIDAD ............................................................................................. 48
3.2. ESPACIOS DE PROBABILIDADES ............................................................... 48
3.4. PROBABILIZACIÓN DE ESPACIOS MUESTRALES ..................................... 52
Probabilización de Espacios Muestrales Discretos .......................................... 52
Probabilización de Espacios Muestrales Finitos Simétricos. Combinatoria ...... 53
Combinatoria ................................................................................................... 53
Contenido
-4-
3.5. PROBABILIDAD CONDICIONADA ................................................................ 54
3.6. TEOREMA DE LA INTERSECCIÓN .............................................................. 56
3.7. TEOREMA DE LA PARTICIÓN TOTAL ......................................................... 56
3.8. SUCESOS INDEPENDIENTES ..................................................................... 57
3.9. TEOREMA DE BAYES ................................................................................... 58
3.10. PROBLEMAS PROPUESTOS ..................................................................... 59
Probabilidad condicional .................................................................................. 61
3.11. PROBLEMAS Y CUESTIONES DE EXÁMENES ........................................ 66
4. CONCEPTO DE VARIABLE ALEATORIA
4.1. DEFINICIÓN DE VARIABLE ALEATORIA UNIDIMENSIONAL ...................... 77
4.2. FUNCIÓN DE DISTRIBUCIÓN ...................................................................... 78
4.3. VARIABLES DISCRETAS .............................................................................. 79
4.4. VARIABLES CONTINUAS ............................................................................. 81
Función de densidad ....................................................................................... 81
Transformación de variables aleatorias ........................................................... 84
4.5. ESPERANZA MATEMÁTICA ......................................................................... 85
Esperanza matemática .................................................................................... 85
Momentos ........................................................................................................ 86
4.6 PARÁMETROS DE TENDENCIA .................................................................... 88
Valor medio ..................................................................................................... 88
Mediana ........................................................................................................... 89
Cuartiles .......................................................................................................... 89
Moda ............................................................................................................... 90
4.7. VARIANZA. CONCEPTO Y PROPIEDADES ................................................. 90
Desviación típica.............................................................................................. 91
4.8. OTROS PARÁMETROS DE UNA DISTRIBUCIÓN ........................................ 91
Rango o Recorrido ........................................................................................... 91
Coeficiente de variación ................................................................................... 92
Coeficiente de asimetría ................................................................................. 92
Coeficiente de apuntamiento o de curtosis ...................................................... 92
4.9. DISTRIBUCIONES BIDIMENSIONALES ....................................................... 93
Concepto ......................................................................................................... 93
Función de distribución .................................................................................... 94
Función de densidad ....................................................................................... 95
Función de densidad marginal ......................................................................... 96
Función de densidad condicional ..................................................................... 98
Independencia de variables aleatorias ............................................................. 99
Esperanza de vectores aleatorios .................................................................. 100
Momentos ...................................................................................................... 101
Matriz de varianzas-covarianzas .................................................................... 102
Contenido
-5-
Combinación lineal de variables aleatorias .................................................... 106
Curva de regresión condicional ...................................................................... 106
Recta de regresión mínimo cuadrática ........................................................... 107
4.10. PROBLEMAS PROPUESTOS ................................................................... 109
4.11. PROBLEMAS Y CUESTIONES DE EXÁMENES ....................................... 113
5. PRINCIPALES DISTRIBUCIONES DISCRETAS
5.1. DISTRIBUCIÓN DICOTÓMICA ............................................................... 121
5.2. DISTRIBUCIÓN BINOMIAL ..................................................................... 122
5.3. DISTRIBUCIÓN HIPERGEOMÉTRICA ................................................... 123
5.4. DISTRIBUCIÓN DE POISSON ................................................................ 125
5.5. DISTRIBUCIÓN BINOMIAL-NEGATIVA .................................................. 126
5.6. DISTRIBUCIÓN MULTINOMIAL .............................................................. 127
5.7. PROBLEMAS PROPUESTOS ................................................................. 129
5.8. PROBLEMAS Y CUESTIONES DE EXÁMENES .................................... 143
6. PRINCIPALES DISTRIBUCIONES CONTINUAS
6.1. DISTRIBUCIÓN UNIFORME ................................................................... 149
6.2. DISTRIBUCIÓN EXPONENCIAL ............................................................. 150
Tasa de fallos ................................................................................................ 152
6.3. DISTRIBUCIÓN NORMAL UNIDIMENSIONAL ....................................... 154
6.3.1. Variable normal tipificada ..................................................................... 155
6.3.2. Variable normal general ....................................................................... 158
6.3.3. Teorema central del límite .................................................................... 160
Aproximación de la binomial a la normal ....................................................... 161
Aproximación de la Poisson a la normal ........................................................ 162
Corrección por continuidad ............................................................................ 163
6.4. LA DISTRIBUCIÓN NORMAL BIDIMENSIONAL ..................................... 165
Distribuciones marginales .............................................................................. 166
Distribuciones condicionales .......................................................................... 166
6.5. PROBLEMAS PROPUESTOS .................................................................... 169
Distribución uniforme ..................................................................................... 169
Distribución exponencial ................................................................................ 170
Distribución Normal ........................................................................................ 172
Distribuciones bidimensionales ...................................................................... 182
6.6. PROBLEMAS Y CUESTIONES DE EXÁMENES ........................................ 185
Contenido
-6-
7. DISTRIBUCIONES DERIVADAS DE LA NORMAL
7.1. DISTRIBUCIÓN CHI-CUADRADO .......................................................... 191
7.2. DISTRIBUCIÓN t ................................................................................... 192
7.3. DISTRIBUCIÓN F.................................................................................... 194
7.4. PROBLEMAS PROPUESTOS ................................................................ 195
8. DISTRIBUCIONES EN EL MUESTRO
8.1. POBLACIÓN, MUESTREO Y MUESTRA ................................................ 197
8.2. DISTRIBUCIÓN DE LA VARIANZA MUESTRAL ..................................... 201
8.3. DISTRIBUCIÓN DE LA MEDIA MUESTRAL ........................................... 203
8.4. DISTRIBUCIÓN DEL COCIENTE DE VARIANZAS ................................. 204
8.5. DISTRIBUCIÓN DE LA PROPORCIÓN .................................................. 206
8.6. DISTRIBUCIÓN DE LA DIFERENCIA DE MEDIAS MUESTRALES ........ 207
8.7. DISTRIBUCIÓN DE LA DIFERENCIA DE PROPORCIONES ................. 208
8.8. VARIANZA EN POBLACIONES FINITAS ................................................ 210
8.9. PROBLEMAS PROPUESTOS ................................................................ 211
8.10. PROBLEMAS Y CUESTIONES DE EXÁMENES .................................... 212
9. INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA
9.1 ESTIMACIÓN PUNTUAL......................................................................... 217
9.2. ESTIMACIÓN POR INTERVALOS DE CONFIANZA ............................... 220
9.2.1. Intervalo de confianza para la media poblacional ................................. 221
9.2.2. Intervalo de confianza para la varianza poblacional ............................. 223
9.2.3. Intervalo de confianza para el cociente de varianzas poblacionales.... 224
9.2.4. Intervalo de confianza para la proporción ............................................ 225
9.2.5. Intervalo de confianza para la diferencia de proporciones .................... 227
9.2.6. Intervalo de confianza para la diferencia de medias poblacionales ...... 228
9.3. TEST DE HIPÓTESIS ............................................................................. 230
Conceptos ..................................................................................................... 230
Obtención de los tests .................................................................................. 234
9.4. TEST DE HIPÓTESIS PARÁMETRICOS ..................................................... 235
9.4.1. Contrastes de la media de una poblacional normal ............................. 235
9.4.2. Test de hipótesis para la varianza poblacional ..................................... 240
9.4.3. Test de hipótesis para el cociente de varianzas poblacionales ............ 241
9.4.4. Contrastes de proporciones ................................................................. 242
9.4.5. Test de hipótesis para la diferencia de medias poblacionales con
Contenido
-7-
muestras independientes ............................................................................... 246
9.4.6. Test para la diferencia de medias poblacionales con datos apareados ...................................................................................................................... 247
9.4.7.Test para la diferencia de proporciones ................................................ 248
9.4.8. Test de ajuste a una distribución .......................................................... 250
9.4.9. Test de independencia ......................................................................... 252
9.5. PROBLEMAS PROPUESTOS ..................................................................... 255
Test de hipótesis ............................................................................................ 256
Tabla de contingencia .................................................................................... 260
Test de ajuste a una distribución .................................................................... 261
9.6. PROBLEMAS Y CUESTIONES DE EXÁMENES ......................................... 262
10. ANÁLISIS DE LA VARIANZA
10.1. ANÁLISIS DE LA VARIANZA (I). UN FACTOR CONTROLADO................. 271
10.1.1. Generalidades ................................................................................... 271
10.1.2. Modelo teórico. Hipótesis del modelo ................................................ 273
10.1.3. Hipótesis nula ................................................................................... 276
10.1.4. Ecuación fundamental ....................................................................... 277
10.1.5. Test F ................................................................................................ 277
10.1.6. Comparación de medias. Test L.S.D. (diferencia mínima significativa) ...................................................................................................................... 278
10.2. ANÁLISIS DE LA VARIANZA (II). DOS FACTORES CONTROLADOS ...... 280
10.2.1. Introducción. Planes factoriales ......................................................... 280
10.2.2. Anova para dos factores con repeticiones ......................................... 281
10.2.3. Concepto de Interacción ................................................................... 281
10.2.4. Modelo y supuestos teóricos ............................................................. 283
10.2.5. Hipótesis Nulas ................................................................................. 284
10.2.6. Descomposición de las Sumas de Cuadrados. Test F ...................... 284
10.2.7. Comparación de Medias. Test L.S.D. ................................................ 284
10.2.8. Validación del modelo ........................................................................ 287
10.2.9. Igualdad de las varianzas ................................................................... 287
10.2.10. Estimación de los efectos ................................................................. 288
10.2.11. Predicciones .................................................................................... 289
10.3. PROBLEMAS Y CUESTIONES DE EXAMEN ............................................ 290
11. REGRESIÓN LINEAL
11.1. HIPÓTESIS DEL MODELO ..................................................................... 301
11.2. ESTIMACIÓN DE LOS COEFICIENTES DE REGRESIÓN ..................... 303
11.3. CONTRASTES DE SIGNIFICACIÓN DE LOS COEFICIENTES .............. 305
Contenido
-8-
11.4. VALIDACIÓN DEL MODELO .................................................................. 310
11.5. INTERVALOS DE PREDICCIÓN ............................................................. 313
11.6. BONDAD DE AJUSTE ............................................................................ 315
11.7. PROBLEMAS Y CUESTIONES DE EXÁMENES .................................... 317
ANEXO A. Tablas de las principales distribuciones de probabilidad
DISTRIBUCIÓN DE POISSON ........................................................................... 328
DISTRIBUCIÓN NORMAL TIPIFICADA .............................................................. 331
DISTRIBUCIÓN DE PEARSON ........................................................................ 332
DISTRIBUCIÓN t de Student ............................................................................. 335
DISTRIBUCIÓN F de snedecor ........................................................................... 338
BIBLIOGRAFÍA ......................................................................... 341
1. Introducción
-9-
1. INTRODUCCIÓN
Contenido 1.1. LA METODOLOGÍA ESTADÍSTICA ............................................................ 9 1.2. EL MÉTODO CIENTÍFICO ........................................................................ 12 1.3. SOFTWARE ESTADÍSTICO ...................................................................... 14 1.4. REDONDEO DE LOS DATOS ................................................................... 15 1.5. ALFABETO GRIEGO ................................................................................. 17
1.1. LA METODOLOGÍA ESTADÍSTICA
La estadística es la ciencia que se ocupa de recoger los datos, analizarlos, resumirlos
e interpretarlos, y todo eso para convertir los datos en información, de manera que
nos sirva para tomar buenas decisiones o bien para resolver problemas.
Cuando alguien habla de hacer una estadística quiere decir que le gustaría
saber aspectos como cuáles son los valores más frecuentes, cuáles son el máximo y
el mínimo, cuál es la distribución de sus frecuencias, porcentajes de algunos valores,
la tendencia a lo largo del tiempo o bien hacer predicciones de valores futuros.
La materia prima de la estadística son los datos, y estos se pueden obtener de
tres maneras:
1) De datos históricos: a partir de los registros, formularios, facturas, etc. Por
ejemplo, ventas de un determinado producto.
2) Datos experimentales: se hacen pruebas para ver cómo funciona un
proceso. Por ejemplo, qué relación hay entre el rendimiento y la temperatura
de un proceso.
3) A partir de encuestas: es muy común intentar conocer a una población a
partir de una pequeña parte de la misma elegida al azar. Por ejemplo, para
conocer las opiniones de los alumnos de la UPV, en lugar de preguntar a los
37000 ó más de alumnos, es más económico preguntar a una parte
representativa de la población a estudiar.
Esta tercera forma se la que vamos a seguir en primer lugar en el inicio de
esta materia en la ETSII.
Un ejemplo de encuesta es la que se muestra a continuación:
1. Introducción
-10-
Los pasos que seguimos son:
EL OBJETO DE ESTA ENCUESTA ES OBTENER DATOS PARA LA REALIZACIÓN DE EJERCICIOS EN LAS CLASE DE ESTADÍSTICA. Pregunta 1. Indique su peso en kgs.
[________] Pregunta 2. Indique su altura en cms. [________] Pregunta 3. ¿Qué medios de transporte emplea para venir a la UPV?
• 1. Coche propio • 2. Coche compartido • 3. Bus • 4. Metro o tranvía • 5. Bicicleta • 6. Andando • 7. Tren
• 8. Moto • 9. Otro Pregunta 4. Tiempo diario dedicado al estudio, en horas, de lunes a viernes [________] Pregunta 5. Tiempo dedicado al estudio durante el fin de semana (sábado y domingo), en horas.
[________] Pregunta 6. Tiempo que tarda en llegar al Politécnico por las mañanas, en minutos. [________] Pregunta 7. ¿Qué deportes practica en la UPV?
• 1. Fútbol • 2. Fútbol sala • 3. Baloncesto • 4. Tenis • 5. Natación • 6. Bici • 7. Gimnasia • 8. Artes marciales
• 9. Vela • 10. Marcha • 11. Montañismo • 12. Otros Pregunta 8. Nota de entrada en la Universidad [________]
Pregunta 9. ¿Dispone de conexión a internet desde casa? • 1. Si • 2. No Pregunta 10. En general, las instalaciones y servicios ofertados por la UPV son,
• 1. Muy malos • 2. Malos • 3. Regular • 4. Buenos • 5. Muy buenos Pregunta 11. Edad. [________]
Pregunta 12. Sexo. • 1. Hombre • 2. Mujer MUCHAS GRACIAS POR SU COLABORACIÓN
1. Introducción
-11-
1) Repartir el cuestionario a los alumnos y cumplimentarlo.
2) Introducir los datos al ordenador. Para esto podemos desarrollar un programa
de captura de los datos aprovechando el Access de Microsoft, o mejor un
programa que está preparado por la captura de los datos de los encuestas,
como puede ser el DYANE 4.
3) Una vez introducido los datos, hay que revisarlos por si hay alguien error o
valor raro que no fuera correcto.
4) Hacer análisis descriptivos de los datos:
a) Resumen de todos los valores,
b) Resumen en forma gráfica.
5) Contestar a varias preguntas, aplicando la metodología estadística pertinente.
Ejemplos de preguntas puede ser:
a) ¿Cuál es la nota media de acceso a la Universidad?
b) ¿Cuál es la proporción de alumnos que cogen la bici para venir al Poli?
c) ¿Cuál distribución de edades que hay en la clase?
d) ¿Cuál es la relación que hay entre el peso y la altura de los alumnos?
e) ¿La altura de los alumnos es diferente si es chico o chica?
f) etc.
La metodología estadística que aplican se resume en la figura siguiente
1. Introducción
-12-
Metodología
estadística
Recogida
de los datos
Organización y
representación
Estadística
predictiva
Descriptiva
Inferencia
estadística
Distribución de
frecuencias
Histogramas
Tendencia central
Dispersión
Pruebas de hipótesis
Analisis de la
variancia
Diseño de
Experimentos
Análisis de
correlación
Analisis de
regressión
Estimación
Modelos
Cálculo de
probabilidades
Variable
aleatoriaDistribuciones
Figura 1. 1. La metodología estadística
La inferencia estadística se el proceso de conocer las propiedades de una población
a partir de una muestra representativa de la misma.
La Estadística tiene su fundamento en el cálculo de probabilidades.
1.2. EL MÉTODO CIENTÍFICO
La Estadística utiliza el método científico para desarrollar sus teorías. El método
científico se basa en observar la naturaleza y formular una hipótesis de su
funcionamiento, y según esta teoría se producirán una serie de consecuencias. Si lo
que observamos no está en contradicción con estas consecuencias, aceptamos la
hipótesis inicial. Ésta es aceptada hasta que encontramos una prueba que lo
invalida, y entonces debemos formular otra hipótesis y empezar de nuevo el proceso.
En la estadística las etapas que seguimos se muestran en la Figura 1.2.:
1. Introducción
-13-
Planteamiento del
problema
Formulación del
modelo
Recogida de los
datos
Estimación de los
parámetros
Hipótesis del
modelo
Es válido?
Predicción y
control
SI
NO
Figura 1. 2. El método científico
Por ejemplo, queremos ver la predicción del peso de una persona sabiendo su
altura. Se trata de un problema de regresión y el proceso que seguimos es parecido
al de la figura anterior.
1. Introducción
-14-
1.3. SOFTWARE ESTADÍSTICO
Para el tratamiento de los datos es muy interesante disponer de unos programas en
ordenador que nos facilita todo el desarrollo.
Es muy frecuente almacenar los datos con una hoja de EXCEL y a partir de
ésta, cualquier software estadístico es capaz de leer la hoja de EXCEL y disponer los
datos para su tratamiento y análisis.
La misma hoja de EXCEL tiene un complemento de análisis de los datos. La
ventaja es que en cualquier empresa podemos disponer de la EXCEL y hacer un
análisis básico de los datos. Además, uno mismo puede desarrollar programas
específicos por el tratamiento de los datos haciendo uso de los macros y del
VisualBasic que lleva incorporado el EXCEL.
El software que vamos a utilizar en esta materia es:
1. Statgraphics para Windows. El que damos en las prácticas de estadística es la
versión 5.1 en inglés. En la UPVNET, dentro de los programas científicos,
hay disponible la última versión del Statgraphics que se denomina Centurion,
y ésta la podemos poner en inglés o en castellano.
2. EXCEL. Empleamos las funciones estadísticas o bien los complementos que
lleva la propia EXCEL. Es interesante cargar el complemento de “Análisis de
Datos”, y también se pueden emplear las tablas dinámicas para extraer
información de un conjunto de datos.
3. DYANE 4. Es un programa muy útil para el análisis de las encuestas. Se
puede utilizar por la grabación de los datos y después hacer la exportación a
un fichero en formato txt y pasarlo a formato de EXCEL.
4. MATHCAD 2000. Este software utilizamos para hacer los cálculos
matemáticos, pero también lleva todas las funciones estadísticas.
5. Lenguaje R. Es un programa de libre distribución que se puede descargar de
http://cran.r-project.org. Es muy interesante, sobre todo para principiantes, el
cargar la librería “Rcmdr”. De esta forma no hace falta saberse los comandos
del R, ya que se presenta con menús como si fuera el Statgraphics.
Otro software estadístico muy bueno y que está disponible para toda la
comunidad de la UPV es el SPSS. Se lanza accediendo a UPVNET y a la carpeta de
programas científicos. La única limitación es el número de usuarios que están
utilizándolo al mismo tiempo. Eso depende de las licencias que haya contratado la
UPV.
Programas estadísticos adicionales son:
1. SAS. Dicen que es el mejor, pero también el más caro.
1. Introducción
-15-
2. BMDP. Fue el primero que había y estaba programado en Fortran.
Actualmente hay una versión por Windows y aún hay gente que le utiliza.
3. MINITAB. Este programa lo utilizan muchas empresas para sus cálculos
estadísticos.
Actualmente todas las calculadoras científicas disponen de las funciones
estadísticas más básicas. Es importante leer las instrucciones de las calculadoras
para utilizar esas funciones. Muchas veces hemos perdido el manual de la
calculadora, pero se puede obtener una copia accediendo a la WEB.
1.4. REDONDEO DE LOS DATOS
La estadística hace mucho uso de cálculos a partir de los datos. Por eso es
importante tener en cuenta las siguientes reglas por el redondeo de los datos:
Cifras significativas:
1. La primera cifra significativa es el 1er dígito a partir de la izquierda que
es diferente de 0.
2. Cifras significativas es el número de dígitos contados a partir de la
primera incluida.
Ejemplos: 34,5 tiene 3 cifras significativas; 3,450 tiene 4 cifras
significativas; 0,0023 tiene 2 cifras significativas; 0,00230 tiene 3
cifras significativas.
Redondeo de un número que está justo a la mitad del intervalo: la regla que
se solo seguir es redondear el número par más próximo que antecede al 5.
Las máquinas redondean hacia arriba a partir del 5. Ejemplos: 33,45 se
redondea a 33,4; 33,35 podría redondearse a 33,4 ó 33,3; pero está más
próximo el valor de 33,4. Si fuera 33,445 se redondea a 33,4, ya que tiene
menos distancia al valor de 33,4.
Cifras significativas en la presentación de datos: se sigue la regla de los 2
dígitos de variación. Ejemplo, si los datos son: 4,562 ; 4,673 ; 4,726; 4,364 ;
4,891; se pueden representar como: 4,56; 4,67; 4,73; 4,36; 4,89
Cifras significativas de una probabilidad: 3 cifras (o bien 4). Ejemplo:
Probabilidad de que llueva el fin de semana se del 10,5% ó 0,105; o bien
10,54 ó 0,1054.
Decimales para el cálculo de parámetros: Ejemplo de datos originales 3,4; 3,5;
3,1; 3,3; 3,9; 3,5; 3,5
1. Introducción
-16-
3. Media aritmética: 1 cifra más. Ejemplo: 3,46
4. Desviación típica: 1 cifra más. Ejemplo: 0,24
5. Variancia: 2 cifras más. Ejemplo: 0,0595 ó bien 0,060
6. Recorrido: mismas cifras. Ejemplo: 0,8
7. Modo: mismas cifras. Ejemplo 3,5
8. Coeficiente de variación: 3 cifras. Ejemplo: 7,06% ó bien 0,0706
9. Coeficiente de correlación: 2 cifras. Ejemplo: r=0,23 y la R cuadrado
es 0,23^2=5,29%
10. Coeficientes de regresión: y=a+bx. Por ejemplo, si y tiene dos
decimales, cada uno de los sumandos debe tener como mínimo 3
decimales. Así a se expresará con 3 decimales, y b, en caso de
que x tenga valores hasta 100, debe estar expresado en 5 cifras
decimales porque al multiplicar por la cantidad x nos da un número
con 3 cifras decimales. Ejemplo: a=1,246; b=0,37152; x=75;
Y=1,246+0,37152*75=1,246+27,864=29,11
Cifras a guardar en los cálculos:
1. En los cálculos de sumas y restas de números, el resultado final no
tiene más cifras significativas después del lugar decimal que el de
con menor número de ellas después de la coma decimal. Ejemplo:
3,32+1,7= 5,0 ; 73,52-63=11,63 si no es exacto; 37,512-24 =
37,512 si 24 es exacto.
2. En los cálculos con multiplicación, división y extracción de raíces de
números, el resultado final no puede tener más cifras significativas
que los datos con menor número de ellas. Ejemplo 72,34x 5,45 =
394; 1,547/0,032 = 46; (4,89)^0,5 = 2,21; 7,381x40= 295,2 si 40 es
exacto.
1. Introducción
-17-
1.5. ALFABETO GRIEGO
Debido a la notación que se emplea en estadística, es útil conocer el alfabeto griego
que exponemos en la siguiente tabla.
Mayús. Minús. Nombre Equivalente latino Comentario
A α Alfa a Probabilidad
B β Beta b Probabilidad
Γ γ Gamma c
Δ δ Delta d
Ε ε Épsilon e error
Ζ ζ Zeta f
Η η Eta
Θ θ Theta Parámetro poblacional en general
Ι ι Iota i
Κ κ Kappa k
Λ λ Lambda l Parámetro de una exponencial o de
Poisson
Μ μ Mu m media
Ν ν Nu n
Ξ ξ Xi
Ο ο Omicron o
Π π Pi p
Ρ ρ Rho r
Σ σ Sigma s Desviación típica
Τ τ Tau t
Υ υ Upsilon u
Φ Fi v
Χ χ Chi x
Ψ ψ Psi y
Ω ω Omega z
1. Introducción
-18-
2. Estadística Descriptiva
-19-
2. ESTADÍSTICA DESCRIPTIVA
Contenido 2.1. INTRODUCCIÓN ........................................................................................... 19 2.2 ESTADÍSTICA DESCRIPTIVA UNIDIMENSIONAL ......................................... 22
2.2.1. Tablas de frecuencias ............................................................................. 23 2.2.2. Histogramas ............................................................................................ 23 2.2.3. Polígono de frecuencias .......................................................................... 25 2.2.4. Diagrama de puntos ................................................................................ 25 2.2.5. Gráfico de tartas ...................................................................................... 26 2.2.6. Gráfico de Pareto .................................................................................... 26 2.2.7. Medidas de posición ................................................................................ 27 2.2.8. Medidas de dispersión ............................................................................. 29 2.2.9. Diagrama e tallos y hojas ........................................................................ 31 2.2.10. Diagrama de caja-y-bigotes ................................................................... 32
2.3. ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL ........................................... 33 2.3.1. Tablas de frecuencia de doble entrada .................................................... 33 2.3.2. Frecuencias marginales........................................................................... 36 2.3.3. Frecuencias condicionales ...................................................................... 37 2.3.4. Representaciones gráficas de las distribuciones bidimensionales ........... 38 2.3.5. Covarianza muestral ................................................................................ 40 2.3.6. Regresión lineal ....................................................................................... 40
2.4. PROBLEMAS Y CUESTIONES DE EXÁMENES ........................................... 41
2.1. INTRODUCCIÓN
Gran parte de la Estadística trata sobre la recopilación de datos, análisis de los
mismos, y la extracción de conclusiones con objeto de resolver problemas.
Los datos que se presentan en la práctica pueden ser de tres tipos básicos:
1) Datos cualitativos, que expresan una cualidad del objeto, como puede ser
bueno, malo, o también un color, blanco, negro, azul, etc..
2) Datos cuantitativos discretos, que expresan algo que podemos contar,
por ejemplo, número de defectos que tiene una pieza mecánica, número de
terminales en funcionamiento, número de accidentes de coche en una semana, etc..
3) Datos cuantitativos continuos, es decir, pueden medirse sobre una
escala continua y llevan comas decimales, por ejemplo, el diámetro de un eje, tiempo
que tarda una transacción en ejecutarse, etc...
Decimos que los datos observados corresponden a valores de una variable
que representamos por X. Si disponemos de n datos, se representan por
x,...,x,x,x n321
2. Estadística Descriptiva
-20-
y si son todos los datos de la variable X, se denomina población y se representan por
x,...,x,x,x N321
La simple enumeración de estos datos no nos da mucha información acerca
del fenómeno que estamos observando, por lo cual siempre se prefiere condensar la
información de modo que su interpretación sea más sencilla.
La forma de condensación puede ser gráfica o numérica. Para una sola
variable vamos a estudiar los procedimientos más usuales.
Escala de los datos
Otra clasificación de los datos se refiere a la escala con que están medidos. Ésta
puede ser de cuatro tipos:
a) Escalas No Métricas (cualitativas) i. Escala nominal. Cuando la asignación de los valores es totalmente
arbitraria. Por ejemplo, el código de sexo, 1=hombre; 2=mujer.
ii. Escala ordinal. Cuando la asignación de los valores guarda una cierta relación de importancia, pero las diferencias no tienen sentido. Por ejemplo, nivel de estudios: 1=Primaria, 2=Secundaria, 3=Bachiller, 4=Graduado.
b) Escalas Métricas (cuantitativas) i. Escala de intervalo. Cuando la asignación guarda un orden de
importancia y la diferencia entre intervalos tiene sentido. Se caracteriza porque el origen de los datos es arbitrario. Por ejemplo, grado de acuerdo con una afirmación, la codificación puede ser:
1. Totalmente en desacuerdo 2. Más bien en desacuerdo. 3. Indiferente. 4. Más bien de acuerdo. 5. Totalmente de acuerdo
Pero la codificación también podría haber sido con los códigos -2, -1,
0, 1, 2.
ii. Escala de ratio o de razón. Cuando el origen de los datos no es arbitrario y tiene sentido las operaciones de multiplicación y de división. Por ejemplo, el peso, la altura, la longitud, etc.
Actividad 2.1.
En la encuesta que hay en el tema 1, para cada pregunta decir qué tipo de escala utiliza la codificación de los datos.
2. Estadística Descriptiva
-21-
Métodos estadísticos empleados para analizar la dependencia o la interdependencia
entre los datos observados
TÉCNICA DE ANÁLISIS MULTIVARIANTE
A) Relaciones de dependencia
Una variable dependiente/Múltiples
variables dependiente
Múltiples dependientes/múltiples
independientes
1. Análisis de regresión múltiple 2. Análisis de regresión logística
binaria 3. Análisis de clasificación múltiple 4. AID (Automatic interaction
detection) 5. CHAID (Chi Square Automatic
Interaction Detection) 6. Análisis conjunto categórico 7. Análisis conjunto ordinal
1. Análisis discriminante multiple 2. Análisis de correlaciones
canónicas 3. Redes neuronales artificiales
B) Relaciones de interdependencias
Entre variables Entre casos ú objetos
1. Análisis de componentes principales
2. Análisis factorial de correspondencias
3. Análisis multidimensional
1. Análisis de grupos (análisis cluster)
MÉTODOS DE DEPENDENCIA ENTRE VARIABLES
Método Relación funcional
Análisis de
regresión
simple
11 XY
(métrica) (métrica, no métrica)
Análisis de
regresión
múltiple
n211 X···XXY
(métrica) (métrica, no métrica)
Análisis de la
varianza n211 X···XXY
(métrica) (no métrica)
Análisis
multivariante de
la varianza
n21m21 X···XXY···YY
(métrica) (no métrica)
2. Estadística Descriptiva
-22-
MÉTODOS DE DEPENDENCIA ENTRE VARIABLES
Método Relación funcional
Análisis
discriminante
múltiple
n211 X···XXY
(no métrica) (métrica)
Análisis conjunto n211 X···XXY
(no métrica, métrica) (métrica)
Correlación
canónica n21m21 X···XXY···YY
(métrica, no métrica) (métrica, no métrica)
Modelo de
ecuaciones
estructurales
n112111 X···XXY
n222212 X···XXY
n332313 X···XXY
(métrica, no métrica) (métrica, no métrica)
2.2 ESTADÍSTICA DESCRIPTIVA UNIDIMENSIONAL
Si observamos una variable X y disponemos de n datos, en la forma x,...,x,x n21 , una
manera sencilla de representarlos es mediante una tabla o un histograma de
frecuencias.
Llamamos "frecuencia absoluta" de un valor, al número de veces que aparece
dicho valor. La "frecuencia relativa" es el número de veces que aparece el valor
dividido por el número total de datos observados. Esto es:
nesobservacio de total número
aparece que veces de número=relativa Frecuencia
El campo de existencia de una variable es el conjunto de posibles valores que
pueden tomar los datos.
2. Estadística Descriptiva
-23-
2.2.1. Tablas de frecuencias
Una vez ordenados los datos de menor a mayor y agrupados en intervalos, se puede
formar la siguiente tabla de frecuencias,
Nº
Límites
del
intervalo
Valor
de
clase
Frecuencia Frecuencia
relativa
Frecuencia
acumulada
Frecuencia
acumulada
relativa
1 · 1n n
n1 1n
n
n1
· · · · · 21 nn n
nn 21
· · · · · · ·
i ii bxa ix in i
i fn
n i21 n···nn
n
n···nn i21
· · · · · · ·
· · · · · · ·
k kn n
nk n 1
Sumas…………… n 1
2.2.2. Histogramas
El histograma de frecuencias divide el campo de existencia de la variable en una
serie de intervalos, que por lo general, son de igual longitud, determinando
exactamente los límites de cada intervalo.
Para cada intervalo contamos el número de datos que pertenecen al mismo, y
en un diagrama X-Y, tomando como eje X la variable, y como ordenadas el número
de datos que hay en cada intervalo, representamos unos rectángulos con base igual
2. Estadística Descriptiva
-24-
a la longitud del intervalo de clase y con altura igual al número de datos de dicha
clase.
Con el histograma podemos ver qué intervalos son más frecuentes que otros.
Para ello es importante el número de subdivisiones que hagamos, ya que si son
pocas, no veremos nada, y si son muchas, tampoco. Por lo general, el número de
intervalos se sitúa entre 5 y 20. También está la opción de tomar como número de
intervalos la raíz cuadrada del número de datos.
Si en lugar de poner como altura de los rectángulos la frecuencia absoluta,
ponemos la frecuencia relativa, se tiene el "histograma de frecuencias relativas", cuya
forma es exactamente la misma que el histograma de frecuencias absolutas, sólo que
hay un cambio de escalas en la ordenada.
Al punto medio de cada intervalo se le llama “valor de clase” y representa a
dicho intervalo.
Si empezando por la izquierda del histograma, vamos acumulando las
frecuencias de los siguientes rectángulos, y los representamos, tendremos una figura
con una serie de rectángulos escalonados. Esta figura recibe el nombre de
"histograma de frecuencias acumuladas", el cual puede ser de frecuencias absolutas
o relativas, según lo que vayamos acumulando.
Si la variable es discreta, el valor de la clase coincide con el valor discreto,
entonces recurrimos a un "diagrama de barras", colocando encima de cada valor una
barra de longitud igual a la frecuencia del valor. Lo mismo hacemos si las clases
corresponden a valores de una variable cualitativa (tipo de defecto,…)
Figura 2. 1 Ejemplo de histograma.
2. Estadística Descriptiva
-25-
2.2.3. Polígono de frecuencias
Un polígono de frecuencias se obtiene uniendo los puntos medios de la base superior
de cada rectángulo. Al igual que con los histogramas, tendremos cuatro tipos de
polígonos de frecuencias.
Histogram
43 53 63 73 83 93 103
Peso
0
3
6
9
12
15
18
freq
uen
cy
Figura 2. 2 Polígono de frecuencias
2.2.4. Diagrama de puntos
Cuando hay pocos datos se pueden representar con un diagrama de puntos, el cual
se forma haciendo coincidir un punto grueso con cada valor de X que aparece. En
caso de que haya dos iguales, se coloca un punto encima de otro.
Figura 2. 3 Diagrama de puntos
2. Estadística Descriptiva
-26-
2.2.5. Gráfico de tartas
Otra representación típica para variables cualitativas es el gráfico de tartas o en
círculo, en el cual cada clase se representa por un sector de área proporcional a su
frecuencia. La frecuencia puede ser absoluta o relativa. En este último caso se
interpreta que el 100% de la tarta se reparte entre las clases existentes.
Figura 2. 4 Gráfico de tartas
2.2.6. Gráfico de Pareto
El gráfico de Pareto es un histograma de frecuencias pero ordenado de mayor
frecuencia a menor frecuencia. De esta forma se intenta destacar el hecho de que
unas pocas clases representan casi el total de los datos aparecidos. Esto recibe el
nombre de la ley del 20-80%, que se aplican en distintos aspectos de la economía.
Figura 2. 5 Gráfico de Pareto
2. Estadística Descriptiva
-27-
Además de dar gráficamente la situación de los valores de una variable X, nos
interesa básicamente contestar a dos preguntas:
1) ¿Dónde está situada la variable?
2) ¿Cuál es su campo de variabilidad?
Para poder realizar comparaciones necesitamos unos valores numéricos.
Aquellos que contestan a la primera pregunta se llaman "parámetros de posición", y
los de la segunda pregunta, "parámetros de dispersión".
2.2.7. Medidas de posición
Los parámetros de posición que vamos a ver son: la media, la mediana, y la moda.
Si de una variable X, tenemos un conjunto de valores x,...,x,x n21 , se define la
media como:
n
x
=x
i
n
=1i
Este valor coincide con la media aritmética, pero como aquí sólo son un parte
de los posibles valores de X, se denomina "media muestral".
Cuando el conjunto de valores de que disponemos son todos los de la
variable X, al conjunto de ellos se denomina "Población", y su media recibe el nombre
de "media poblacional", representándola con el símbolo :
N
x
=m=
i
N
=1i
La media muestral representa el centro de masas de un histograma, y
corresponde al valor medio que toman los datos.
Es una medida poco robusta, ya que ante la aparición de un valor anómalo, la
media se ve bastante modificada.
La "mediana" expresa aquel valor que por debajo de él hay 50% de los datos,
y por encima el 50% de los datos. Se representa por X~
, para una muestra, y el valor
depende de si el número de datos es impar o par. Si es impar la mediana coincide
con el valor central, previamente ordenados los valores de menor a mayor, y si es
2. Estadística Descriptiva
-28-
par, se toma el punto medio de los valores centrales. De aquí que empleemos la
expresión:
impar es n si2
x+x
impar es n siX
=X~
1)+([n/2](n/2)
)2
1+n(
La "mediana poblacional" se representa por ~ .
La mediana es una medida robusta, esto es, se modifica poco ante la
aparición de un dato anómalo.
La "moda" es aquel valor de X que se repite más, es decir, el de más
frecuencia. Si solamente hay una moda, se denomina "unimodal"; si hay varias, se
llama "multimodal". Vienen a ser los picos que forman un histograma de frecuencias
no acumulado.
En una distribución simétrica, coinciden los tres parámetros, pero si hay una
cola hacia la derecha, lo que se llama "asimetría positiva", ocurre que:
moda < mediana < media
f(x)
moda
mediana
media
Asimétrica positiva
s
x~xPearson.Asim.Coef
y si la cola es hacia la izquierda, es "asimetría negativa", y ocurre que
moda > mediana > media
2. Estadística Descriptiva
-29-
f(x)
x
moda
mediana
media
Asimétrica negativa
s
x~xPearson.Asim.Coef
Se define el "percentil p%" como aquél valor de X que deja a su izquierda un
p% de los datos. Si p = 25%, se le llama "primer cuartil" Q1, si p= 50%, es el
"segundo cuartil " Q2, que coincide con la mediana, y para p=75% es el "tercer
cuartil" Q3. Los cuartiles dividen a los datos en 4 partes con igual número de ellos.
f(x)
x
25% 25%
25%25%
Q1 Q2 Q3
CUARTILES
2.2.8. Medidas de dispersión
Las principales medidas que empleamos son: la varianza, la desviación típica, el
rango, y el coeficiente de variación.
La varianza poblacional se representa por 2 , y se define con todos los datos
de la población:
2. Estadística Descriptiva
-30-
N
)-x(
=
2
i
N
=1i2
Para el conjunto de valores x,...,x,x,x n321 de la variable X, la "varianza" es:
1-n
)x-x(
=s
2
i
n
1=i’2
Dicho valor nos sirve para hacer estimaciones de la varianza poblacional y recibe el
nombre de "cuasivarianza” o varianza muestral corregida:
La varianza es una medida cuyas unidades están al cuadrado. Para hacerlas
homogéneas con las unidades de los datos y de la media se define la "desviación
típica muestral" como la raíz cuadrada con signo positivo de la varianza muestral.
Así:
s+=s 2
Cuanto mayor es la varianza, mayor es la dispersión de los datos.
Otra idea de la variabilidad de los datos la proporciona el "recorrido", que se
define como la diferencia entre el máximo y el mínimo de los valores observados. Se
expresa como:
x-x=R minax m
Si n=2 la información que dan R y s2 acerca de la dispersión de los datos es
la misma, ya que utilizan los mismos datos, pero para n=3, R ya no emplea uno de
ellos, pero aún es una buena aproximación. Para n>10, el rango ya no es útil para ver
la dispersión de los datos, y entonces se preferirá el empleo de s2 .
El "coeficiente de variación" es una medida adimensional de la dispersión, se
define como el cociente entre la desviación típica y la media, esto es:
100x
s=C.V. o bien 100CV
y permite comparar la dispersión de dos conjuntos de datos.
Así, por ejemplo, dos grupos de datos pueden tener la misma dispersión, sea
s=1, pero si la media de uno es de 10, y la del otro de 1000, lógicamente hay mayor
variación relativa en el primero que en el segundo. Este coeficiente de variación nos
da una idea de la "precisión" de los datos.
2. Estadística Descriptiva
-31-
Otras medidas de dispersión son.
El recorrido intercuartílico: Q3-Q1
Desviaciones:
i. Media de las desviaciones absolutas respecto a la media:
Dm=n
xxn
1i
i
ii. Mediana de las desviaciones absolutas respecto de la
mediana: MEDA= x~xmediana i
MEDIDA DE ASIMETRÍA
El coeficiente de asimetría es,
s
/n)x-x(
=g3
3
1
n
1=i
1
Si CA = 0 se trata de una distribución simétrica; si CA<= la distribución es
asimétrica hacia la izquierda; y si CA>0 la distribución es asimétrica hacia la derecha.
MEDIDA DEL APLANAMIENTO
El coeficiente de aplanamiento es,
s
/n)x-x(
=g4
4
i
n
1=i2
Si CC=3 tiene el mismo aplanamiento (curtosis) que una campana de Gauss;
si CC>3 la distribución es más puntiaguda que la campana de Gauss; y si CC<3, la
distribución es más plana que la campana de Gauss.
2.2.9. Diagrama e tallos y hojas
El histograma de frecuencias es una buena herramienta para identificar la forma,
posición y dispersión de los datos, pero hay una pérdida de información, ya que los
datos individuales se pierden al representarlos en un gráfico de rectángulos. Para ello
se emplean otros métodos que dan la misma idea que el histograma, sin perder la
información individual de cada dato.
2. Estadística Descriptiva
-32-
Se trata de dividir los números en dos partes. La parte de la izquierda, que
llamamos "tallo", y la parte de la derecha, que llamamos "hojas". Así el número 123,
tenemos el 12, que constituye el tallo, y el 3, que es la hoja. De esta forma para una
misma línea agrupamos todos los números que tienen el mismo tallo, así, por
ejemplo, para el 128, se agrupa junto al anterior como:
38|12
separando el tallo de las hojas mediante una barra vertical. Si tenemos el 115,
aparece otro tallo, y ahora la figura es:
38|12
5|11
De esta manera no perdemos los datos individuales, a la vez que se va
formando algo parecido a un histograma de frecuencias.
Cuando se quiere subdividir más las clases, los diez dígitos de la derecha se
van agrupando de dos en dos, formando 5 nuevas clases. Así:
Clase * = el 0 y el 1.
Clase T = el 2 y el 3.
Clase F = el 4 y el 5.
Clase S = el 6 y el 7.
Clase . = el 8 y el 9.
También se puede hacer una agrupación en dos: una del 0 al 4, y otra del 5 al
9.
2.2.10. Diagrama de caja-y-bigotes
Otra forma de representar los datos es mediante un diagrama de una Caja, cuyos
lados vienen dados por el primer cuartil y el tercer cuartil, y en su interior se dibuja el
segundo cuartil, esto es, la mediana. Partiendo de cada lado se dibujan unas líneas
que llegan hasta el 10 percentil, por un lado, y el 90 percentil por el otro. Para datos
extensos, se dibuja el 5 y el 95 percentiles. Concretamente, en el STATGRAPHICS
los bigotes se calculan con una longitud de 1,5 veces la anchura del rectángulo, y los
extiende hasta el último punto que está dentro del bigote. De esta forma aquellos
puntos que quedan fuera de los bigotes, se consideran puntos anómalos, esto es,
puntos que posiblemente no pertenecen a la distribución considerada.
2. Estadística Descriptiva
-33-
La anchura de la Caja contiene el 50% de los datos, lo cual da una idea de la
dispersión, y la posición de la mediana, junto con la longitud de los bigotes nos da
una idea de la simetría o no de los datos.
Este diagrama es muy útil para comparar dos grupos de datos y observar de
forma gráfica si hay diferencia o no entre ellos.
Box-and-Whisker Plot
45 55 65 75 85
Peso
Figura 2. 6 Diagrama de Caja y bigotes
2.3. ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL
2.3.1. Tablas de frecuencia de doble entrada
Cuando para cada elemento de la población, o bien para cada unidad de estudio, se
observan dos características, y clasificamos cada unidad según las dos
características, asignándola a una de las celdillas que resultan de dividir cada
característica en un conjunto de intervalos, y contamos el número de unidades que
resultan en cada celdilla, se tiene una tabla de doble entrada o también se llama una
tabla de contingencia.
Como ejemplos tenemos:
- De cada alumno de una clase tomamos nota de su peso y su altura y lo
clasificamos en su celdilla correspondiente.
- Cada persona se puede clasificar según que haya tomado o no la vacuna
contra la gripe y según que haya o no contraído la enfermedad.
2. Estadística Descriptiva
-34-
- En una fábrica donde hay tres turnos de producción se cuenta el número de
defectos de calidad que hay en los coches producidos y se clasifican éstos
en función del turno en que han sido producidos(1º, 2º ó 3º) y del número de
defectos que contienen (0, 1, 2, 3 >=4)
Las características observadas se representan por (X,Y) siendo X la primera
de ellas, por ejemplo el peso, e Y la segunda, por ejemplo la altura. Para las
unidades observadas 1, 2,..., n tenemos los valores
)y,x(),...,y,x(),y,x(nn2211 . Estas características, que también llamamos
variables muestrales, pueden ser ambas cualitativas, por ejemplo,
defectuoso- correcto, o tipo de defecto; o ser ambas cuantitativas, caso del
peso-altura, o bien una de ellas cualitativa y la otra cuantitativa, en cuyo
caso se dice que es una variable bidimensional mixta.
Si la primera característica podemos tener I intervalos, los cuales representan
I filas de una matriz, y para la segunda característica tenemos J columnas de una
matriz, entonces se tiene una tabla de doble entrada de la siguiente forma:
Tabla 2.1. Tabla de frecuencias
1
2
j
J
total
1
2
i nij ni
I
total n j n
Donde se tiene la siguiente notación:
nij = número de elemento en la celdilla ij.
ni = número de elementos de la fila i.
n j = número de elementos de la columna j.
n = número total de elemento observados.
2. Estadística Descriptiva
-35-
La frecuencia absoluta de cada celdilla es nij y la frecuencia relativa es:
n
n=
n
n=)y,x(f
ijij
jir
La suma de las frecuencias relativas de todas las casillas es igual a la unidad,
esto es:
1=n
n=
n
nyxf
ij
ji
jir
ji
)=,(
Como ejemplo de una tabla de doble entrada, supongamos que un fabricante
de automóviles dispone de tres turnos de fabricación de coches, y para cada turno
cuenta aquellos coches que han tenido 0 defectos de calidad, ó 1, 2,3, ó más de 4
defectos de calidad. Para un día de producción ha obtenido la siguiente tabla de
doble entrada
Tabla 2.2. Ejemplo de tabla de frecuencias
número de defectos de calidad
0 1 2 3 >=4 Total
turno
A 310 50 30 40 20 450
B 390 40 60 50 10 550
C 220 60 90 10 20 400
Total 920 150 180 100 50 1400
La tabla de frecuencias relativas es:
Tabla 2.3. Tabla de frecuencias relativas
número de defectos de calidad
0 1 2 3 >=4 Total
turno
A .221 .036 .021 .029 .014
B .279 .029 .043 .036 .007
C .157 .043 .064 .007 .014
Total
2. Estadística Descriptiva
-36-
2.3.2. Frecuencias marginales
Si a partir de una tabla de doble entrada solamente queremos estudiar una de las
características, tomaremos las frecuencias que aparecen en el lado derecho de la
tabla, si deseamos estudiar la primera característica, o bien la fila que el margen de
abajo, si deseamos estudiar las segunda característica. Cada una de esas
frecuencias son las llamadas frecuencias marginales, ya que aparecen justamente
en los márgenes de las tablas de doble entrada.
Así la frecuencia relativa de la clase xi es:
n
n=)x(f
iir
y la frecuencia relativa de la clase y j es:
n
n=)y(f
j
jr
Lógicamente se cumple que:
1=n
n=
n
nxf i
i
ir
i
)=(
y
1=n
n=
n
nyf
.j
j
jr
j
)=(
Por ejemplo la distribución de frecuencias marginales del número de defectos
de calidad es:
2. Estadística Descriptiva
-37-
Tabla 2.4. Tabla de frecuencias marginales
número de defectos de calidad
0 1 2 3 >=4 Total
turno
A .321
B .393
C .286
Total .657 .107 .129 .071 .036
2.3.3. Frecuencias condicionales
En otras situaciones se quiere conocer la distribución de una variable para un valor
dado de la otra. Por ejemplo, en la tabla de doble entrada para una valor de y j se
desea conocer la distribución de las casillas que aparecen en esa columna. Dicha
distribución recibe el nombre de distribución de frecuencias condicionales, y su valor
para cada casilla es:
n
n=)y/ x(f
j
ij
jir
Como es lógico, la suma de todas las frecuencias condicionales para ese
valor de y j es igual a la unidad.
1=n
n=
n
nyxf
j
j
j
ij
i
jir
i
)=/ (
Por ejemplo para el turno B la distribución de frecuencias condicionales es:
2. Estadística Descriptiva
-38-
Tabla 2.5. Tabla de frecuencias condicionales
número de defectos de calidad
0 1 2 3 >=4 Total
turno
A
B .709 .073 .109 .091 .018 1.000
C
Total
2.3.4. Representaciones gráficas de las distribuciones bidimensionales
Cuando se tienen los datos como )y,x(),...,y,x(),y,x(nn2211 una forma inmediata de
representación son unos ejes coordenados en los que cada punto representado
corresponde a un elemento observado con la primera coordenada igual al valor de X
y la segunda coordenada igual al valor de Y. Por ejemplo, si de cada alumno de la
clase se ha observado el peso y la altura, cada punto representa a un alumno.
El interés de estas representaciones se basa en la necesidad de contestar a
las preguntas de:
- ¿Existe una relación lineal entre las dos características?
- ¿Cuál es el grado de relación lineal que hay?
- ¿Se puede predecir un valor a partir del otro?
El diagrama que resulta recibe el nombre de diagrama de dispersión. Un
ejemplo de diagrama de dispersión aparece en la Figura 2.7.
2. Estadística Descriptiva
-39-
Plot of Peso vs Altura
150 160 170 180 190 200
Altura
45
55
65
75
85
Peso
Figura 2. 7 Gráfico de Dispersión
Otra forma de representación es el histograma en tres dimensiones. Este
consiste en representar en un sistema de ejes X-Y-Z, las celdillas de la tabla de doble
entrada como formando un suelo de baldosas en el plano X-Y, y encima de cada
baldosa, que corresponde con cada casilla, una columna de altura proporcional a la
frecuencia relativa de cada una de ellas. Un ejemplo de histograma en tres
dimensiones es el que aparece en la Figura 2.8.
Figura 2. 8 Histograma en 3 dimensiones
2. Estadística Descriptiva
-40-
El volumen del edificio que resulta se dice que es igual a la unidad. La
proyección de ese edificio sobre el plano X-Z resulta el histograma de frecuencias
relativas de X, y la proyección del edificio sobre el plano Y-Z resulta el histograma de
frecuencias relativas de la característica Y.
2.3.5. Covarianza muestral
Mediante el gráfico de dispersión o el histograma tridimensional, se puede observar si
hay una relación lineal entre las variables, es decir, si para valores altos de una de
ellas, la otra también toma valores elevados. En este caso la relación lineal es en
sentido positivo, y gráficamente los puntos tienden a situarse alrededor de una recta
de pendiente positiva.
Cuando para valores altos de X se observan valores bajos de Y se dicen que
la relación lineal es negativa.
Para dar una idea numérica de la relación lineal entre las dos variables, se
define la covarianza muestral sxy como:
)y-y)(x-x(1n
1=s ii
i
2xy
Como sxy tiene dimensiones, por ejemplo para (peso, altura) puede ser
kgs.cms, con objeto de tener una medida adimensional, se emplea el coeficiente de
correlación muestral r xy que se define por:
ss
s=r
yx
2xy
xy
r xy es un valor que siempre está entre -1 y +1. Cuánto más se acerca a la
unidad en valor absoluto, mayor es la relación lineal que hay entre las dos variables.
Si vale cero, no hay ninguna relación lineal entre las dos variables
2.3.6. Regresión lineal
Si observamos una relación lineal entre los valores de X e Y, podemos ajustar un
recta que sea la que minimice, para el conjunto de todos los casos, la suma de
cuadrados entre el valor observado y el predicho por dicha recta.
2. Estadística Descriptiva
-41-
La ecuación de la recta de regresión de ajuste por mínimos cuadrados del
valor de Y conocido un valor de x, viene dada por,
)xx(s
s·ryy
x
y
xy
O bien,
)xx(s
syy
2
x
xy
2.4. PROBLEMAS Y CUESTIONES DE EXÁMENES
2.4.1.- En las pruebas de acceso del último año se seleccionaron al azar 120
alumnos de tres tipos de colegio y se tomaron en cuenta las notas obtenidas por cada
uno de ellos. Con estos datos se definió la variable aleatoria bidimensional (Tipo de
colegio, Calificaciones obtenidas) como muestra la tabla siguiente:
SUSPENSOS APROBADOS NOTABLES SOBRESALIENTES Total
fila
-----------------------------------------------------
PUBLICO | 3 | 15 | 22 | 6 | 46
-----------------------------------------------------
PRIVADO | 3 | 24 | 8 | 5 | 40
-----------------------------------------------------
CONCERTADO | 4 | 8 | 17 | 5 | 34
-----------------------------------------------------
Total columna 10 47 47 16 120
a) Completar la tabla anterior calculando las probabilidades de la distribución
bidimensional conjunta de la variable (Tipo de colegio, Calificaciones) (0,5
puntos)
b) Completar la tabla siguiente con las distribuciones unidimensionales
marginales de las variables Tipo de colegio y Calificaciones (1 punto)
2. Estadística Descriptiva
-42-
SUSPENSOS APROBADOS NOTABLES SOBRESALIENTES Total
fila
-----------------------------------------------------
PUBLICO | 3 | 15 | 22 | 6 | 46
-----------------------------------------------------
PRIVADO | 3 | 24 | 8 | 5 | 40
-----------------------------------------------------
CONCERTADO | 4 | 8 | 17 | 5 | 34
-----------------------------------------------------
Total columna 10 47 47 16 120
c) Completar la tabla siguiente con la distribución condicional de las calificaciones en los colegios privados (0,5 puntos)
SUSPENSOS APROBADOS NOTABLES SOBRESALIENTES Tot fila
-----------------------------------------------------
PUBLICO | 3 | 15 | 22 | 6 | 46
-----------------------------------------------------
PRIVADO | 3 | 24 | 8 | 5 | 40
-----------------------------------------------------
CONCERTADO | 4 | 8 | 17 | 5 | 34
-----------------------------------------------------
Total columna 10 47 47 16 120
2. Estadística Descriptiva
-43-
SOLUCIÓN
Las frecuencias de cada casilla (en porcentaje) son:
SUSPENSOS APROBADOS NOTABLES SOBRESAL. Total
fila
PÚBLICO 3/120 15/120 22/120 6/120
PRIVADO 3/120 24/120 8/120 5/120
CONCERTADO 4/120 8/120 17/120 5/120
Total columna 120
Las distribuciones marginales (en porcentaje) son:
SUSPENSOS APROBADOS NOTABLES SOBRESAL. Total fila
PÚBLICO 46/120
PRIVADO 40/120
CONCERTADO 34/120
Total columna 10/120 47/120 47/120 5/120 120
La distribución condicional de las notas para los colegios privados (en porcentaje) es:
SUSPENSOS APROBADOS NOTABLES SOBRESAL. Total
fila
PÚBLICO
PRIVADO 3/40 24/40 8/40 5/40 40
CONCERTADO
Total columna
2.4.2.- A partir del diagrama siguiente, que representa los datos de consumo
eléctrico mensual entre enero 2010 y junio 2011, elija la respuesta correcta a las
2. Estadística Descriptiva
-44-
siguientes preguntas:
Box-and-Whisker Plot
Consumo
20 30 40 50 60 70
1. El consumo medio ha sido: (0,25 puntos)
a. 49.4
b. 56.5
c. 43.5
2. El 75% de los meses se consumió: (0,25 puntos)
a. Menos de 56.5 €.
b. Más de 56.5 €.
c. Entre 43.5 y 56.5 €.
3. El consumo mínimo observado en estos 20 meses fue de: (0,25 puntos)
a. 20 €.
b. 39 €.
c. 42.5 €.
4. La distribución tiene una asimetría… (0,25 puntos)
a. Positiva, porque el tercer cuartil es mayor que el primer cuartil.
b. Negativa, porque el tercer cuartil es mayor que el primer cuartil.
c. Se puede decir que la distribución es simétrica.
5. El 50% de los meses se consumió: (0,25 puntos)
a. Más de 56.5 €.
b. Menos de 43.5 €.
2. Estadística Descriptiva
-45-
c. Entre 43.5 y 56.5 €.
2.4.3.- Una empresa decide realizar un estudio sobre el consumo de un determinado
material, necesario para el proceso de fabricación que lleva a cabo, en función del día
de la semana, en vistas a optimizar su stock semanal del producto y la detección de
posibles anomalías. Se han analizado un total de 57 días, de lunes a viernes. Con
estos datos de consumo se realiza el diagrama Box-Whisker múltiple que se muestra
a continuación:
Lunes
Martes
Miércoles
Jueves
Viernes
Gráf ico de Cajas y Bigotes
0 100 200 300 400 500
CONSUMO
DIA
2. Estadística Descriptiva
-46-
A la vista de los diagramas, responder a las siguientes preguntas justificando
convenientemente las respuestas.
1. La mayor dispersión de consumo se produce: (0.25 puntos)
a. Los lunes b. Los martes c. Los miércoles d. Todos tiene la misma dispersión ya que el consumo es independiente
del día Pues el rango intercuartílico es mayor.
2. La mayor asimetría se presenta: (0.25 puntos) a. Los jueves y es positiva b. Los martes y es negativa c. Los martes y es positiva d. Los jueves y es negativa
Pues ese día se da la mayor distancia entre la mediana y la media, y media > mediana.
3. En términos medios, los días de menor consumo son: (0.25 puntos)
a. Los miércoles b. Los viernes c. Los martes d. No se dispone de datos suficientes
Pues la media es la que está más a la izquierda de todos los días.
4. ¿Cuál de las siguientes afirmaciones es cierta? (0.25 puntos)
a. El 75% de los lunes se consume por encima de 300 b. El 75% de los lunes se consume por debajo de 300 c. El 25% de los miércoles se consume por debajo de 260 d. El 25% de los miércoles se consume por encima de 180
El límite derecho de la caja de los lunes, que corresponde al tercer cuartil, está en 300.
3. Probabilidades
-47-
TEMA 3. PROBABILIDADES
Contenido 3.1. INTRODUCCIÓN ........................................................................................... 47
3.2. PROBABILIDAD ............................................................................................. 48
3.2. ESPACIOS DE PROBABILIDADES ............................................................... 48
3.4. PROBABILIZACIÓN DE ESPACIOS MUESTRALES ..................................... 52
Probabilización de Espacios Muestrales Discretos ............................................ 52
Probabilización de Espacios Muestrales Finitos Simétricos. Combinatoria ........ 53
Combinatoria ..................................................................................................... 53
3.5. PROBABILIDAD CONDICIONADA ................................................................ 54
3.6. TEOREMA DE LA INTERSECCIÓN............................................................... 56
3.7. TEOREMA DE LA PARTICIÓN TOTAL .......................................................... 56
3.8. SUCESOS INDEPENDIENTES ...................................................................... 57
3.9. TEOREMA DE BAYES ................................................................................... 58
3.10. PROBLEMAS PROPUESTOS ..................................................................... 59
Probabilidad condicional.................................................................................... 61
3.11. PROBLEMAS Y CUESTIONES DE EXÁMENES ........................................ 66
3.1. INTRODUCCIÓN
El objeto central del Cálculo de probabilidades y de la estadística, lo constituyen los
llamados fenómenos aleatorios. Los fenómenos aleatorios son aquellos fenómenos
reales que se caracterizan por la impredecibilidad de sus resultados y por la llamada
regularidad estadística.
El cálculo de probabilidades se ha desarrollado en situaciones en las cuales
se realiza un experimento y se observa un resultado. Pero dicho resultado no se
puede predecir de antemano con exactitud. A estos experimentos los llamamos
Experimentos Aleatorios. Este concepto tiene otras características comunes. La
primera de ellas es que no podemos saber de antemano su resultado, a lo sumo
podemos describir un conjunto de posibles resultados. Segundo es que dicho
experimento lo podemos repetir exactamente en las mismas condiciones y el
resultado ser totalmente distinto. No obstante, a medida que el número de
repeticiones del experimento va aumentando se presenta un comportamiento
característico de la frecuencia con que aparece cada resultado, que llamamos
"regularidad estadística"
3. Probabilidades
-48-
Si llamamos n al número de repeticiones del experimento aleatorio, a la
frecuencia absoluta, es decir, al número de veces que ocurre un determinado
resultado y a f r su frecuencia relativa, tendremos que:
n=f r
Por definición de fenómeno aleatorio, cuando n crece fr tiende a estabilizarse
alrededor de un cierto valor. Cuando el fenómeno aleatorio tiene esta propiedad,
diremos que posee la característica de la Regularidad Estadística.
3.2. PROBABILIDAD
Al repetir el experimento aleatorio, se observa que unos resultados aparecen más
que otros, por lo cual cabe hablar de la posibilidad de que un suceso aparezca más
veces que otro. Esto es, a cada suceso asociamos una medida de la posibilidad de
que tenga lugar. A esta medida se llama probabilidad de ocurrencia del suceso.
Tres puntos de vista o enfoques de la probabilidad:
Frecuencialista: la probabilidad de un suceso es el límite al que tiende la
frecuencia relativa con que se presenta dicho suceso.
Objetivas: es el grado de evidencia de una proposición cualquiera.
Subjetiva: es el grado de creencia personal en la veracidad de una
proposición.
3.2. ESPACIOS DE PROBABILIDADES
Figura 3. 1 Espacio muestral
E= Espacio muestral
x
x
x
x
x
A
A=suceso compuesto
x=suceso elemental
3. Probabilidades
-49-
Al conjunto de los posibles resultados del experimento aleatorio se denomina
"Espacio muestral". Gráficamente lo solemos representar por un círculo, tal como
aparece en la Figura 3. 1.
Si los resultados se pueden contar, o se pueden contabilizar, aunque sea para
un número infinito, el espacio muestral es discreto.
Si el espacio muestral es incontable, caso de un número real en el intervalo
de la recta real, se dice que el espacio muestral es "continuo".
Ejemplos de espacio muestrales son:
- Número de puntos al lanzar un dado (discreto y finito),
- Número de accionamiento de un interruptor hasta su fallo (discreto e infinito
numerable),
- Medida del peso de un paquete de arroz (contínuo).
Al espacio muestral lo representamos por la letra E.
Actividad 3.1:
¿Cuál es el espacio muestral al lanzar un dado?
¿Cuál es el espacio muestral al lanzar una moneda?
¿Cuál es el espacio muestral al medir el peso de un paquete de arroz?.
Un suceso A, es cualquier subconjunto contenido en el espacio muestral. Si el
suceso es un posible resultado del experimento aleatorio, lo llamamos "suceso
elemental". Cualquier otro subconjunto se denomina "suceso compuesto".
Otros sucesos que se definen a partir del espacio muestral son:
1) Suceso vacío. El que teóricamente nunca va a aparecer. Lo representamos por
. (ej. Obtener 7 puntos al lanzar un dado normal)
2) Suceso cierto. El que siempre aparece. El suceso E siempre aparece, ya que al
realizar el experimento aleatorio siempre tendrá lugar algún resultado del espacio
muestral.
3) Suceso complementario. Dado el suceso EA , el complementario A ocurre
cuando no aparece el A.
3. Probabilidades
-50-
4) Sucesos mutuamente excluyentes. Cuando dados dos sucesos A,A 21 , si
ocurre uno de ellos no ocurre el otro, es decir, no se pueden dar al mismo
tiempo.
5) Suceso unión. Dados dos sucesos A,A 21 , se llama suceso unión AA 21
cuando aparece el A1 o el A2 ó ambos a la vez. También recibe el nombre de
adición.
6) Suceso intersección. Dados los sucesos EA,A 21 se llama intersección
AA 21 , cuando sucede A1 y A2 a la vez.
Al igual que con el conjunto de números se establecen unas operaciones que
dan lugar a otros números, con los sucesos pertenecientes al espacio muestral, y
mediante operaciones de complementación, unión e intersección, dan lugar a otros
sucesos. El conjunto de dichos sucesos se dice que forman una -álgebra si se
cumplen las dos condiciones siguientes:
1) Si FA el suceso A también pertenece a F.
2) Si F,....A,A 21 , el suceso unión infinita también pertenece a F.
Recordar las propiedades conmutativas y asociativas de la unión y de la
intersección, y la propiedad distributiva de cada una de estas operaciones respecto
de la otra.
Realmente la probabilidad es una aplicación del espacio muestral en la recta
real. Dado un espacio muestral E, y una -algebra F, decimos que la aplicación
F:P es una probabilidad, si y solo si se cumplen los siguientes axiomas:
1) 0P(A) FA
2) 1=P(E)
3) )AP(AAA F;,....A,A i
i
ij
ji
i21 =)P( es =
A partir de estos axiomas se demuestran las siguientes propiedades:
1) Probabilidad del suceso contrario: P(A)-1=)AP(
2) Probabilidad del suceso vacío: 0=1-1=P(E)-1=)P(
3. Probabilidades
-51-
3) Inclusión. Si P(B)P(A) B,A
4) 1P(A)0 F,A , ya que cualquier EA .
5) Probabilidad de la unión: B)P(A-P(B)+P(A)=B)P(A
Gráficamente se observa en la Figura 3. 2.
Figura 3. 2 Unión de sucesos
La demostración es:
=B)A(Ay B),A(A=BA
la probabilidad será la suma de probabilidades,
B)AP(+P(A)=B)P(A
pero también el suceso B se puede poner como
B)A(B)(A=B
como son conjuntos disjuntos
B)AP(+B)P(A=P(B)
de donde despejando B)AP( queda:
B)P(A-P(B)+P(A)=B)P(A
E= Espacio muestral
B A
AB
3. Probabilidades
-52-
Como generalización de la unión de tres o más sucesos, tenemos la
expresión general de la unión de sucesos:
C)BP(A+C)P(B-C)P(A-B)P(A-P(C)+P(B)+P(A)=C)BP(A
Observar la correspondencia que hay entre probabilidades y la frecuencia
relativa de un suceso A.
A la tripleta (E,F,P) se denomina espacio probabilístico.
Actividad 3.2:
Un submarino lanza tres torpedos contra un barco. Cada uno de los torpedos
tiene una probabilidad de 0,7 de alcanzar el barco. ¿Cuál es la probabilidad
de hundir el barco?
Si de una baraja de 40 cartas extraemos 3 al azar, ¿cuál es la probabilidad
de que salgan 2 oros?
o Con reposición,
o Sin reposición.
3.4. PROBABILIZACIÓN DE ESPACIOS MUESTRALES
Podemos asimilar, desde un punto de vista mecánico, la probabilidad como la
cantidad de masa de 1 gramo que se reparte en el espacio muestral. De forma que la
probabilidad de un suceso corresponde con la cantidad de masa que incluye dicho
suceso dentro del espacio muestral. Si el espacio muestral es discreto, la cantidad de
masa de un gramo se encuentra repartida en un serie de puntos discretos. Si el
espacio muestral es continuo, la masa se reparte de forma continua en el espacio
muestral, aunque puede haber zonas donde haya más cantidad de masa que en
otras.
Probabilización de Espacios Muestrales Discretos
Cuando el espacio muestral es discreto, cada resultado elemental tiene asignado un
peso, probabilidad, de manera que la suma de pesos elementales debe dar la unidad,
ya que la unión de todos ellos forma el espacio muestral E, y cada suceso elemental
es excluyente respecto a cualquier otro suceso elemental.
Si el espacio muestral discreto es finito y, además cada uno de los resultados
es igualmente probable, entonces el peso, o probabilidad, que asignamos a cada
3. Probabilidades
-53-
suceso elemental es 1/n de resultados que hay. Pero si es un espacio muestral
discreto infinito pero numerable, como la suma debe dar 1, no puede pesar igual un
resultado que otro, no obstante se debe cumplir que la suma infinita de los pesos
converja a la unidad.
En cualquiera de los casos anteriores, la probabilidad de un suceso
compuesto es la suma de las probabilidades de los resultados individuales que lo
integran.
Probabilización de Espacios Muestrales Finitos Simétricos. Combinatoria
Para el caso de un espacio muestral discreto finito y simétrico, esto es, que cada
posible resultado tiene el mismo peso, la probabilidad de un suceso se puede calcular
sumando las probabilidades de los sucesos elementales que incluye, lo cual equivale
a aplicar la regla de:
posibles casos
favorables casos=A) P(suceso
y para hacer un recuento de casos favorables y casos posibles debemos acudir a la
combinatoria, donde habrá que distinguir si influye el orden, variaciones, o no influye
el orden, combinaciones, y dentro de cada uno de ellos, si los elementos se pueden
repetir ó no. Así tenemos el siguiente esquema:
Combinatoria
Variaciones sin repetición de m elementos tomados de n en n.:
- 1)+n-2)...(m-1)(m-m(m=V nm,
- n!=Pn
Variaciones con repetición de m elementos tomados de n en n:
- m=Vn’
nm,
- n=...++ donde !...!
n!=P
’,...,n,
Combinaciones sin repetición de m elementos tomados de n en n:
- n)!-(mn!
m!=
n
m=C nm,
Combinaciones con repetición de m elementos tomados de n en n.:
3. Probabilidades
-54-
-
n
1-n+m=C
’nm,
La probabilización de espacios muestrales contínuos se lleva a cabo mediante
una función llamada función de densidad.
Actividad 3.3:
Con las letras a, b, c, d
o ¿Cuántas palabras de 2 letras se pueden formar?
o ¿Cuántas palabras de 3 letras se pueden formar?
o ¿Cuántas palabras de 4 letras se pueden formar?
o Si podemos repetir las letras, ¿cuántas palabras de 2 letras se pueden
tener?
o Si no podemos repetir las letras, ¿cuántas combinaciones de 2 letras
podría obtener?
o Si ahora podemos repetir las letras, ¿Cuántas palabras podemos
obtener?
3.5. PROBABILIDAD CONDICIONADA
Dado un espacio muestral E, si conocemos que ha ocurrido un suceso EA , el
espacio muestral realmente se ha reducido ahora a dicho suceso A conocido, con lo
cual las probabilidades de los sucesos pertenecientes a E se modifican de acuerdo
con el conocimiento de A, y entonces el peso de cualquier EB viene dado por la
parte común de B con A en relación al total de A, que en el nuevo espacio muestral
es el suceso cierto.
Si partimos del espacio de probabilidades (E,F,P) y conocemos el suceso
0P(A) con F,A , definimos la probabilidad de suceso C condicionado a que ha
ocurrido el suceso A, como:
P(A)
A)P(B=P(B/A)=(B)PA
3. Probabilidades
-55-
Actividad 3.4:
Al lanzar un dado, ¿cuál es la probabilidad de sacar un 2?
Si antes de mostrar el dado, yo lo veo y digo que es un número par, ¿cuál es
la probabilidad de que ahora sea el 2?
Esta medida así definida cumple los axiomas de probabilidad, esto es:
1) 0P(B/A)
2) 1=P(A/A)
3) Si /A)BP(+/A)BP(=/A)BBP(;=BB 212121 .
Como es una probabilidad, reúne todas las propiedades de la misma, es decir:
1) P(B/A)-1=/A)BP( .
2) 0=/A)P( .
3) /A)BP(/A)BP( ,BB Si 2121 .
4) 1P(B/A)0 F,B .
5) /A)BBP(-/A)BP(+/A)BP(=/A)BBP( 21121 1
6) La definición de probabilidad condicional se puede aplicar a la propia probabilidad
condicional:
(B)P
B)(CP=(C/B)P
A
AA
B)P(A
C)BP(A=
P(A)
B)P(A
P(A)
A)BP(C
=
A)P(C/B=P(C/B/A)
3. Probabilidades
-56-
3.6. TEOREMA DE LA INTERSECCIÓN
La probabilidad de la intersección de dos sucesos se puede obtener de la propia
definición de probabilidad condicionada como:
)P(B).P(B/A=)P(A).P(B/A=B)P(A
Para el caso de ser tres sucesos, la probabilidad de la intersección es:
B)).P(C/AP(A).P(B/A=C)BP(A
Lo anterior también se aplica a probabilidades condicionales, así:
C)/AP(A/C).P(B=B/C)P(A
Si A y B son independientes también lo son los sucesos complementarios, así
como entre todos ellos.
3.7. TEOREMA DE LA PARTICIÓN TOTAL
Dado un espacio muestral E, recibe el nombre de partición al conjunto de sucesos
A,....,A,A,A n321 tales que:
1) =A.....AAA n321 siendo ji =AA ji , es decir son mutuamente
excluyentes.
2) La unión de dichos sucesos forman el espacio muestral, esto es:
E=A,.....,AA n21
Gráficamente se representa en la Figura 3. 3.
Figura 3. 3 Teorema de la partición
E= Espacio muestral
B
AiB
A1
A2
⁞
An
Ai
⁞
3. Probabilidades
-57-
Si definimos otro suceso B incluido en E, a su vez queda dividido por la
partición efectuada sobre E, de modo que se puede reconstruir B mediante
B)A(....B)A(B)A(=B n21
Los conjuntos BAi son mutuamente excluyentes, luego la probabilidad del
suceso B también es:
)A)P(B/AP(=B)AP(=P(B) ii
i
i
i
3.8. SUCESOS INDEPENDIENTES
Dados dos sucesos A y B, se dicen que son independientes, si el que aparezca uno
de ellos no tiene nada que ver ni influye para nada en la aparición del otro. Es decir,
que la probabilidad de uno de ellos condicionada al la presencia del otro no se ve
modificada. Matemáticamente, dos sucesos A y B son independientes si y solo si se
cumple que:
P(A)=P(A/B) ó P(B)=P(B/A)
Por la definición de probabilidad condicional, si A y B son independientes:
P(A)=P(B)
B)P(A=P(A/B)
de donde
P(A).P(B)=B)P(A
Todo ello se puede generalizar a más sucesos, de esta forma si A,....A,A n21
son independientes, la probabilidad de la intersección es el producto de
probabilidades:
)A)....P(A).P(A).P(AP(=)A.....AAAP( n321n321
Actividad 3.5:
¿Cuál es la probabilidad de que al lanzar dos monedas una sea cara y la otra
cruz?
3. Probabilidades
-58-
¿Cuál es la probabilidad de que al sacar sin reemplazamiento dos cartas de
una baraja de 40, una de ellas sea oros?
¿Cuál es la probabilidad de que al sacar 4 cartas haya 2 oros y 1 espada?
Un temario de oposición tiene 50 temas. El tribunal elige 3 al azar y tenemos
que elegir uno de ellos. Si nos estudiamos 10 de los 50 temas, ¿cuál es la
probabilidad de aprobar?
3.9. TEOREMA DE BAYES
Efectuada una partición sobre el espacio muestral E, y dado el suceso B que está
incluido en E, deseamos calcular la probabilidad condicional de un suceso Ai ,
sabiendo que ha ocurrido el suceso B. Al suceso B también se le llama el efecto, y los
sucesos 1..n)=(i Ai expresan las distintas causas que pueden producir el efecto B.
El teorema de Bayes permite calcular la probabilidad de que habiéndose presentado
el efecto B, sea debido a una de las causas Ai .
Para su cálculo aplicamos la definición de probabilidad condicional:
P(B)
B)AP(=/B)AP( i
i
Para el denominador aplicamos la fórmula de la probabilidad total, y el
numerador, como By Ai no son independientes, lo podemos expresar como
producto de probabilidades, una de ellas condicional. Así se tiene:
)A)P(B/AP(
)A).P(B/AP(=
B)AP(
B)AP(=/B)AP(
ii
i
ii
i
i
ii
Árbol de Bayes
Este tipo de problemas es muy interesante resolverlos mediante el árbol de
Bayes que se muestra a continuación,
3. Probabilidades
-59-
B
B
)A(P 1
)A(P 2
1A
2A
)A/B(P 1
)A/B(P 2
)A/B(P)·A(P)BA(P 111
)A/B(P)·A(P)BA(P 222
Actividad 3.6:
En la urna U1 hay 2 bolas blancas y 2 negras, y en la urna U2 hay 3
blancas y 1 negra. Tomamos una bola de la urna U1 y la pasamos a la
urna U2. Después sacamos una bola al azar de la urna 2 que resulta
ser blanca. ¿Cuál es la probabilidad de que la bola que haya pasado
de la urna U1 a la urna U2 sea negra?
Actividad 3.7:
Tres componentes de un sistema están situados en serie. Si cada uno
de ellos tiene una probabilidad de funcionar del 90%, ¿Cuál es la
probabilidad de que funcione todo el sistema?
¿Y si los componentes están situados en paralelo?
¿Y si los dos primeros están en paralelo y la tercero esta en serie?
3.10. PROBLEMAS PROPUESTOS
3.10.1. Se inspeccionan 4 componentes y se definen los siguientes sucesos:
A =" las cuatro componentes son defectuosas"
3. Probabilidades
-60-
B =" exactamente dos componentes funcionan correctamente"
C =" A lo sumo tres componentes son defectuosas"
¿A qué son equivalentes los siguientes sucesos?
a) BC b) BC c) ACd) AC.
Solución: a) C b) B c) E d)
3.10.2. En una ciudad se publican tres periódicos A, B y C. Supongamos que el
60% de las familias de la ciudad están suscritas al periódico A, el 40% están
suscritas al periódico B y el 30% al periódico C. Supongamos también que el
20% de las familias están suscritas a los periódicos A y B, el 10% a A y C, el
20% a B y C y el 5% a los tres periódicos A, B y C.
a. ¿Qué porcentaje de familias de la ciudad están suscritas al menos a
uno de estos tres periódicos?
b. ¿Qué porcentaje de familias de la ciudad están suscritas únicamente a
uno de los tres periódicos?
Solución: a) 0.85 b) 0.45.
3.10.3. ¿Cuál es la probabilidad de obtener en la lotería primitiva?
a) un pleno,
b) cinco y el complementario,
c) cinco aciertos,
d) cuatro aciertos,
e) tres aciertos.
Solución: a) 7.15E-8 b) 4.29E-7 c) 1.80E-5 d) 9.68E-4 e) 0.017
3.10.4. Una caja contiene 100 chips, de los cuales 75 funcionan correctamente y
25 son defectuosos. Se seleccionan aleatoriamente 12 chips. Calcular la
probabilidad de que al menos un chip seleccionado sea defectuoso.
Solución: 0.9751.
3.10.5. Si las letras a,a,e,i,i,c,d,t,t,s,s se ordenan aleatoriamente, ¿cuál es la
probabilidad de que formen la palabra "estadistica"?.
3. Probabilidades
-61-
Solución: 4.008E-7.
3.10.6. Los alumnos que se presentan a este examen realizan 3 actividades
culturales. El 60% de ellos va al cine, el 40% al teatro y el 30% a museos.
Además el 25% van al cine y al teatro, el 20% al cine y a museos, el 10% a
museos y teatros y el 2% realiza las tres actividades. ¿Qué porcentaje de
alumnos realizan al menos una de las tres actividades?
a) 0’6700
b) 0’7900
c) 0’7500
d) 0’7700
Probabilidad condicional
3.10.7. Cuatro marcas de ordenadores A, B, C y D presentan una oferta para un
cierto contrato. Un análisis de los éxitos obtenidos anteriormente por estas firmas
en contratos similares nos permite establecer que las probabilidades de llevarse
este contrato para cada una de las marcas son:
P(A) = 0.35 P(B) = 0.15 P(C) = 0.3 P(D) = 0.2
Antes de resolverse el contrato, la firma B retira su oferta. Hallar las nuevas
probabilidades de llevarse el contrato para A, C y D.
Solución: P(A) = 0.411, P(C) = 0.352, P(D) = 0.235.
3.10.8. Se hizo una encuesta a cien clientes de un almacén, de los cuales
sesenta dijeron que visitaban el almacén por un anuncio del periódico y el resto
no habían visto el anuncio. Así mismo, cuarenta clientes hicieron compra, y de
ellos treinta habían visto el anuncio.
a) ¿Cuál es la probabilidad de que una persona que no vio el anuncio, hiciera
compra?
b) ¿Cuál es la probabilidad de que una persona que vio el anuncio, comprase?
Solución: a) 1/4 b) 1/2.
3. Probabilidades
-62-
3.10.9. Se dispone de una caja que contiene 5.000 chips, de los cuales 1.000
han sido fabricados por la compañía X y el resto por la compañía Y. El 10% de
los chips fabricados por la compañía X y el 5% de los fabricados por la compañía
Y son defectuosos. Si un chip seleccionado al azar es defectuoso, calcular la
probabilidad de que proceda de la compañía X.
Solución: 1/3.
3.10.10. Un sistema recibe energía eléctrica el 30% del tiempo, energía hidráulica
el 60% y energía mecánica el 10% restante. Cuando funciona eléctricamente la
probabilidad de avería es 0.002, cuando lo hace hidráulicamente es 0.001 y
cuando lo hace mecánicamente es 0.05. Hallar la probabilidad de avería.
Solución: 0.0062.
3.10.11. Una compañía utiliza un test para la contratación del personal. El test lo
aprueban el 60% de los aspirantes. De los que pasan el test el 80% completan la
formación. En una prueba, se empleó a aquellos aspirantes que no aprobaron el
test. La formación fue terminada con éxito solo por el 50% de este grupo. Si no
se usará ningún test, que porcentaje de aspirantes podría esperarse que
completarán la formación.
Solución: 0.68.
3.10.12. Dos cajas contienen cerrojos grandes y cerrojos pequeños. Supongamos
que una caja tiene 60 cerrojos grandes y 40 cerrojos pequeños y que la otra caja
tiene 10 grandes y 20 pequeños. Seleccionamos una caja al azar y extraemos un
cerrojo de la misma. Calcular la probabilidad de que el cerrojo sea grande.
Solución: 7/15.
3.10.13. Un lote de circuitos contiene un 2% de defectuosos. Cada circuito es
comprobado antes de su uso. El téster no es totalmente fiable ya que la
probabilidad de que el téster indique que un circuito es correcto siendo correcto
es 0.95 y la probabilidad de que el téster indique que es defectuoso siendo
defectuoso es 0.94. Si el téster ha indicado que un circuito es defectuoso, ¿cuál
es la probabilidad de que efectivamente sea defectuoso?
Solución: 0.2772.
3. Probabilidades
-63-
3.10.14. De todos los estudiantes de una universidad, el 70% son mujeres y el
30% son hombres. Si el 20% de las mujeres y el 25% de los hombres fuman.
Determinar la probabilidad de que un estudiante elegido al azar sea:
a) una mujer que fuma,
b) un hombre que fuma,
c) un fumador,
d) siendo fumador sea mujer.
Solución: a) 0.14 b) 0.075 c) 0.215 d) 0.651.
3.10.15. Un canal de comunicación binario transporta información con dos tipos
de señal representados por 0 y 1. Debido a los ruidos, un 0 transmitido es
recibido a veces como 1 y un 1 transmitido es recibido a veces como 0. Para un
canal dado la probabilidad de que un 0 transmitido sea recibido como 0 es 0.94 y
la probabilidad de que un 1 transmitido sea recibido como 1 es 0.91. Por otra
parte la probabilidad de transmitir un 0 es 0.45. Si se envía una señal, calcular:
a) la probabilidad de que se reciba un 1,
b) la probabilidad de que se reciba un 0,
c) la probabilidad de que se haya transmitido un 1, sabiendo que se ha recibido
un 1,
d) la probabilidad de que se haya transmitido un 0, sabiendo que se ha recibido
un 0.
e) la probabilidad de que haya un error en la transmisión.
Solución: a) 0.5275 b) 0.4725 c) 0.9488 d) 0.8952 e) 0.0765.
3.10.16. Sea un canal de comunicación, con tres tipos de señal 1,2 y 3 .Para i
=1,2,3, Ti es el suceso "el dígito i es transmitido y Ri es el suceso "el dígito i es
recibido". Sabemos que:
P(R1/T1 )=1-α P(R2/T1 )=α/2 P(R3/T1 )=α/2
P(R1/T2)=β/2 P(R2/T2)=1-β P(R3/T2)=β/2
P(R1/T3)=/2 P(R2/T3)=/2 P(R3/T3)=1-
Sabemos también que el 3 se transmite tres veces más que el 1, y el 2 dos veces
más que el 1.
a) Si se recibe un 1, ¿cuál es la probabilidad de que se haya enviado un 1?.
b) Calcular la probabilidad de que una transmisión sea errónea.
3. Probabilidades
-64-
Solución: a)(2-2α)/(2-2α+2β+3) b) (α/6)+(β/3)+(/2)
3.10.17. Supongamos dos líneas de fabricación del mismo producto. La primera
línea fabrica 20 unidades/hora, de las cuales el 90% son apropiadas para una
segunda operación. La segunda línea produce 90 unidades/hora, de las cuales
sólo el 20% son apropiadas. Todas las unidades van a un almacén común. Si al
extraer una pieza al azar, ha resultado ser apropiada, ¿cuál es la probabilidad
de que provenga de la primera línea?
Solución: 0.5
3.10.18. Por un canal de comunicación se transmite una de las sucesiones de
letras AAAA, BBBB o CCCC con probabilidades P1, P2 y P3 (P1+P2+P3 =1).
Cada letra transmitida se recibe correctamente con una probabilidad n y cada
una de las otras dos opciones erróneas (las otras dos letras) se reciben con
probabilidad (1-n)/2. Se supone que las letras se distorsionan
independientemente unas de otras (incluso dentro de la misma secuencia). Se
pide:
a) Hallar la probabilidad de que se haya transmitido AAAA si se ha recibido
ABCA.
b) Establecer la decisión a tomar al recibir ABCA cuando n=0.7 y P1=P2=1/8.
c) ¿Cuál es la probabilidad de que una secuencia recibida contenga al menos un
error?
Solución: a) 2nP1/(2nP1+(1-n)P2+(1-n)P3) b) La decisión es que sea transmitido
CCCC c) 0.76
3.10.19. El Departamento de Control técnico (DCT) realiza la clasificación de los
aparatos fabricados. Cada aparato tiene, independientemente de los demás,
defectos con una probabilidad p. Durante una comprobación el DCT revela la
existencia de defectos con una probabilidad igual a a. Además, durante la
comprobación un aparato en buen estado puede comportarse como defectuoso
con una probabilidad b. Todos los aparatos que en la comprobación se
comportan incorrectamente son rechazados.
a) Hallar la probabilidad 0q de que un aparato no desechado tenga defectos y la
probabilidad 1q de que un aparato desechado tenga defectos.
b) ¿Para qué condiciones 0q > 1q ?
3. Probabilidades
-65-
Solución: a) q0=(1-a)p/((1-a)p+(1-b)(1-p)) y q1=ap/(ap+b(1 -p)) b) b>a
3.10.20. En los ensayos de cierto equipo se ha determinado que la probabilidad
de buen funcionamiento de un relé, en ausencia de perturbaciones es 0.99,
si sólo hay sobrecalentamiento se sitúa en 0.95, si sólo hay vibraciones en 0.9 y
si se dan ambas circunstancias baja a 0.8. Se supone que ambas
perturbaciones se presentan independientemente.
a) Hallar la probabilidad de que el relé falle en un ambiente donde la probabilidad
de sobrecalentamiento es 0.2 y la de vibraciones de 0.1.
b) Sabemos que se ha producido un fallo. Se ha detectado que ha habido
sobrecalentamiento. ¿Cuál es la probabilidad de que también hayan habido
vibraciones? Y si no se supiera nada sobre el sobrecalentamiento, ¿cuál
sería la probabilidad de que hubiera habido vibraciones?
c) Si se trabaja ahora en un entorno donde sobrecalentamiento y vibraciones no
son independientes, sino que, con las probabilidades del apartado a), la
probabilidad de que se den ambas a la vez es 0.05, ¿cuál es la probabilidad
de que el relé funcione correctamente?
Solución: a) 0.0282 b) 0.3077 0.4255 c) 0.97
3.10.21. Si A y B son dos sucesos independientes entonces: (determinar la
respuesta incorrecta)
a) A y B no siempre son independientes.
b) P(A)P(A/B)
c) )AP()B/AP(
d) )AP(/B)AP(
3.10.22. La probabilidad de que funcione una máquina cuando no existe ni
sobrecalentamiento ni vibraciones es del 99%. Si hay vibraciones y no
sobrecalentamiento, la probabilidad de que funcione es del 95%. Si hay
sobrecalentamiento y no vibraciones, la probabilidad de que funcione es del 90%.
Y si existen vibraciones y sobrecalentamiento a la vez, la probabilidad de que
funcione es del 80%. Calcular la probabilidad de que dicha máquina funcione un
día cualquiera en una fábrica en la cual la probabilidad de que existan
vibraciones es del 20% y la probabilidad de que exista sobrecalentamiento es del
15%.
a) 0’8965
3. Probabilidades
-66-
b) 0’9667
c) 0’9208
d) 0’8999
3.10.23. Un proceso de fabricación puede estar ajustado o desajustado. Cuando
está ajustado produce un 1% de piezas defectuosas y cuando está desajustado
un 10%. El proceso está desajustado el 25% del tiempo. En un momento
determinado, se toma una muestra de 10 piezas y no aparece ninguna
defectuosa. Calcular la probabilidad de que esté ajustado en ese momento.
a) 0.8582
b) 0.8861
c) 0.9121
d) 0.9362
3.10.24. Dados dos sucesos A y B pertenecientes al mismo espacio muestral E, la
probabilidad de que ocurra A es de 0.85 y la probabilidad de que ocurra B de
0.25. Entonces:
a) A y B son siempre dependientes pero no excluyentes.
b) A y B son siempre mutuamente excluyentes pero no dependientes.
c) B está siempre incluido en A.
d) ninguna de las anteriores es cierta
3.10.25. Existe un test de control de piezas que rechaza piezas buenas un 5% de
las veces y piezas malas un 95%. Se sabe que en un proceso de fabricación en
el que se aplica este test, la probabilidad de que una pieza que ha sido
rechazada sea buena es del 0.9%. ¿Qué porcentaje de piezas defectuosas se
están produciendo en dicho proceso?
a) 85.28%
b) 90.32%
c) 14.73%
d) 79.89%
3.11. PROBLEMAS Y CUESTIONES DE EXÁMENES
3.11.1. Para el siguiente esquema de fiabilidad, donde al lado de cada elemento
3. Probabilidades
-67-
figura la probabilidad de funcionamiento del elemento,
A
B
C
D
E
0,95
0,98
0,87
0,85
0,90
calcular la probabilidad de funcionamiento de todo el sistema. (1 punto)
Solución cuestión 2:
La probabilidad de funcionamiento del primer grupo es:
99987,0)]87,01)·(98,01)·(95,01[(1)]R1)(R1)(R1[(1R CBA1S
Y la probabilidad de funcionamiento del segundo grupos es:
985,0)]90,01)(85,01[(1)]R1)(R1[(1R ED2S
Y la probabilidad de funcionamiento de todo el sistema es,
9849,0985,0·99987,0R·RR 2S1SSYS
3.11.2. El departamento de recursos humanos de una gran empresa tiene clasificados a sus empleados por grupos de edad. Un total de 220 están entre 18 y 40 años, 150 entre 41 y 55 años y 50 con más de 56 años. De los más jóvenes el 20% tienen titulación superior, el 30% otras titulaciones y el resto no tiene estudios. El 15% del grupo de edad intermedia tiene titulación superior, el 40% otras titulaciones y el resto no tiene estudios. El grupo de mayor edad hay un 2% con titulación superior, 20% con otras titulaciones y el resto sin estudios. a) ¿Cuál es la probabilidad de que al seleccionar al azar a un trabajador sea del
grupo de los mayores y no tenga estudios? (0,5 puntos)
b) ¿Cuál es la probabilidad de que al elegir al azar un expediente sea de un
titulado superior? (0,5 puntos)
c) Si los expedientes se encuentran ahora agrupados en tres carpetas, una para
cada grupo de edad y se cogen al azar 6 trabajadores de una carpeta también
elegida al azar y resulta que solo 2 de ellos no tienen ningún tipo de estudio
¿Cuál es la probabilidad de que la carpeta elegida sea la de los jóvenes? (1
punto)
Solución cuestión 5:
3. Probabilidades
-68-
El árbol de Bayes es,
0,2
18-40
41-55
>=56
S
M
SE
S
M
SE
S
M
220/420
150/420
50/420
0,2
0,3
0,5
0,15
0,4
0,45
0,02
0,78
SE
C1
C2
C3
C4
C5
C6
C7
C8
C9
a) La probabilidad de que sea mayor de 56 y sin estudios es justamente el camino 9, esto es,
0929,078,0·420
509C)sSinEstudio56Edad(P ===∩>
b) La probabilidad de que al elegir uno al azar sea titulado superior es la suma de los caminos 1, 4 y 7, esto es:
16,002,0·420
5015,0·
420
1502,0·
420
220741)( CCCSuperiorP
c) Ahora el árbol de probabilidades es,
3. Probabilidades
-69-
2 de 6 sin estudios (c1)
2 de 6 sin estudios (c2)
2 de 6 sin estudios (c3)
otros
otros
otros
1/3
1/3
1/3
p1
1-p1
p2
1-p2
p3
1-p3
2344,0)5,01(5,0·2
6)2)5,0;6(B(P1p 42
2780,0)45,01(45,0·2
6)2)45,0;6(B(P1p 42
0214,0)78,01(78,0·2
6)2)78,0;6(B(P1p 42
18-40
41-55
>=56
La probabilidad pedida es,
P(jóvenes/hay 2 de 6 sin estudios)=
4391,0
0214,0·3
12780,0·
3
12344,0·
3
1
2344,0·3
1
3C2C1C
1C
3.11.3. Un fabricante de motores produce un 20% de defectuosos. El coste es de 5.000 € por unidad y el precio de venta es de 10.000 euros. Si el motor es defectuoso debe devolverse lo cobrado y pagar una indemnización de 7.000 €. a) Calcular el beneficio medio por motor si vende todos los motores tal como
salen de fábrica. (1 punto) b) Se puede hacer una prueba de control de calidad A que cuesta 3.000 €. y que
determina con toda seguridad si el motor es o no es defectuoso. Estudiar si es rentable la prueba. (1 punto)
c) Se puede utilizar una prueba alterativa B, que conduce a conclusiones erróneas en un 5% de los casos. Calcular el precio máximo que puede pagarse por dicha prueba. (1 punto)
d) En qué porcentaje de los casos en los que la prueba B indique que el motor es correcto se tendrá que pagar indemnización. (1 puntos)
NOTA: se asume que cuando la prueba indica que el motor es defectuoso no se vende el mismo, mientras que si la prueba indica que el motor es correcto, se vende.
a) E(B) = 0.8×5000 + 0.2×(-5000-7000)= 4000 – 2400 = 1600 euros
b) E(B) = 0.8×(5000-3000) + 0.2×(-5000-3000)=1600 –1600 = 0 euros. Como 0 euros es menos que 1600 euros, NO ES RENTABLE hacer la prueba.
3. Probabilidades
-70-
c)
E(B)=0.8×0.95×(5000-x)-0.8×0.05×(5000+x)-0.2×0.95×(5000+x)-0.2×0.05×(12000-
x)=1600
Despejando,
2530-x=1600, de donde el precio máximo a pagar por la prueba es 930 euros.
d)
MD=Motor defectuoso
MC=Motor correcto
PC=Prueba correcta
Por el teorema de Bayes,
P(MD/PC)= P(PC/MD)×P(MD)/P(PC)=0.05×0.2/0.77=1.3%
Donde, por el teorema de la probabilidad total,
P(PC)= P(PC/MD)×P(D)+P(PC/MC)×P(MC)=0.05×0.2+0.95×0.8=0.01+0.76=0.77
Motor Correcto
0.8
Motor Defectuoso
0.2
Prueba Correcto
0.95
Prueba
Defectuoso
0.05
Prueba
Defectuoso
0.95
Prueba Correcto
0.05
B=10000-5000-x
B=-5000-x
B=-5000-x
B=-5000-7000-x
3. Probabilidades
-71-
3.11.4. Una empresa electrónica fabrica una placa base para un determinado tipo de ordenador. Se sabe que el porcentaje de placas base defectuosas de toda la producción es del 2%. El coste de fabricación de cada placa es de 100€ y se vende cada una a 300€. Si al instalar en el ordenador se detecta que no funciona bien, se debe reemplazar por otra que seguro que no es defectuosa, pero cuyo coste de fabricación es de 150€. La empresa puede realizar un test antes de venderla, pero este test, cuando la placa es correcta, falla en el 1% de los casos, y cuando la placa realmente está mal, acierta en el 90% de los casos. Se pide:
a) Sabiendo que el test dice que una placa está bien, calcular la probabilidad de que dicha placa realmente sea defectuosa. (0,75 puntos)
b) Calcular el porcentaje de veces que se equivoca el test. (0,75 puntos) c) Si el test resulta positivo, se instala la placa tal y como está (aun pudiendo ser
defectuosa). Si el test resulta negativo, una reparación de 10 € asegura que la placa estará bien. ¿Cuál es el precio máximo que debemos pagar por el test para que, en promedio, sea rentable?(2 puntos)
d) Si la placa base internamente consta de 10 componentes idénticas e independientes, que asumimos que están montados en serie, y un requisito es que la probabilidad de no fallo de la placa base es del 80%, ¿cuál debe ser la probabilidad de no fallo de cada componente? (0,75 puntos)
Solución Cuestión 1:
C
D
+
-
+
-
C1
C2
C3
C4
0,98
0,02
0,99
0,01
0,1
0,9
a) 0021,09722,0
002,0
1,0·02,099,0·98,0
1,0·02,0
3C1C
3C)/D(P
b) P(Error)=P(C2+C3)=0,98·0,01+0,02·0,1=0,0118. Es decir, el 1,18 % de las veces
se equivoca el test.
c) El beneficio es
3. Probabilidades
-72-
C
D
+
-
+
-
C1
C2
C3
C4
0,98
0,02
0,99
0,01
0,1
0,9
=0,9702
=0,0098
=0,002
=0,018
B1=300-100=200
B2=-100+300-10=190
B3=300-100-150=50
B4=-100+300-10=190
El valor medio del beneficio es,
E(B) = 200·0,9702+(190)·0,0098+50·0,002+(190)·0,018 = 199,442
Sin hacer el test, el árbol con los beneficios es,
C
D
B1=300-100=200
B2=300-100-150=50
Y el valor medio del beneficio es,
E(B)=0,98·200+0,02·50=197
El precio máximo del test es 199,332-197=2,442 €.
d)
Para que funcione el sistema deben funcionar todos los elementos, por lo que la
probabilidad de funcionamiento del sistema es,
3. Probabilidades
-73-
8,0)C(P)C(P)····C(P)·C(P)C····CC(P)S(P 1010211021
De donde 9779,08,0)C(P 10/1 debe ser la de cada componente.
3.11.5. Los componentes de un determinado producto están dispuestos según la figura de abajo, donde al lado de cada elemento se indica la probabilidad de no fallo del mismo.
1
2
3
4
5
0,85 0,75
0,93
0,95
?
a) ¿Cuál debe ser la probabilidad de no fallo del componente 4 para que en
conjunto la probabilidad de no fallo sea del 90%?
(1.5 puntos)
SOLUCIÓN:
Llamando de R la probabilidad de no fallo de cada componente, la fiabilidad del
sistema es,
54321sys R))·R1)·(R1(1))·(R1)·(R1(1(R
Sustituyendo valores,
95.0))·R1·(25.01)·(07.0·15.01(90.0 4
95.0))·R1·(25.01(9895.090.0 4
9574.0)R1·(25.01 4
1703.025.0
9574.01)R1( 4
De donde la probabilidad de no fallo del componente 4 es 8297.0R4
3.11.6. Para comprobar si un motor eléctrico es correcto o defectuoso el Departamento de Calidad aplica dos pruebas independientes y sucesivas. La primera prueba tiene una probabilidad de acertar en el diagnóstico del 90%, y la segunda prueba, cuando el motor es correcto acierta el 95% de los casos, pero cuando el motor es defectuoso se equivoca en el 7% de las veces. Sabiendo que
3. Probabilidades
-74-
la proporción de motores defectuosos es del 5%, se pide:
a) Si una cualquiera de las pruebas, pero no ambas, dice que el motor es correcto,
¿qué proporción de casos realmente será correcto el motor?
(1 punto)
b) ¿Cuál de las dos pruebas tiene mayor probabilidad de error?
(1 punto)
SOLUCIÓN:
a) El árbol de probabilidades es,
C
D
+
-
+
-
0.07
+
-
+
-
+
-
+
-
0.95
0.05
0.90
0.10
0.10
0.90
0.95
0.05
0.95
0.05
0.93
0.07
0.093
C1
C2
C3
C4
C5
C6
C7
C8
La probabilidad que nos piden es,
945.0141.0
1331.0
0032.00047.00903.00428.0
0903.00428.0
07.0·90.0·05.093.0·10.0·05.095.0·10.0·95.005.0·90.0·95.0
95.0·10.0·95.005.0·90.0·95.0
7C6C3C2C
3C2C)1/C(P
b) La probabilidad de error de la primera prueba es del 10%, y la de la segunda
prueba, árbol de probabilidades es,
3. Probabilidades
-75-
C
D
+
-
+
-
0.95
0.05
0.95
0.05
0.07
0.93
C1
C2
C3
C4
La probabilidad de error viene dada por la suma de probabilidades de los caminos 2 y
3. Esto es,
051.007.0·05.005.0·95.03C2C)Error(P
Por lo que la prueba 1 es la de mayor probabilidad de error.
3. Probabilidades
-76-
4. Concepto de variable aleatoria
-77-
4. CONCEPTO DE VARIABLE ALEATORIA
Contenido 4.1. DEFINICIÓN DE VARIABLE ALEATORIA UNIDIMENSIONAL ...................... 77 4.2. FUNCIÓN DE DISTRIBUCIÓN ....................................................................... 78 4.3. VARIABLES DISCRETAS .............................................................................. 79 4.4. VARIABLES CONTINUAS ............................................................................. 81
Función de densidad ......................................................................................... 81 Transformación de variables aleatorias ............................................................. 84
4.5. ESPERANZA MATEMÁTICA ......................................................................... 85 Esperanza matemática ...................................................................................... 85 Momentos ......................................................................................................... 86
4.6 PARÁMETROS DE TENDENCIA .................................................................... 88 Valor medio ....................................................................................................... 88 Mediana ............................................................................................................ 89 Cuartiles ............................................................................................................ 89 Moda ................................................................................................................. 90
4.7. VARIANZA. CONCEPTO Y PROPIEDADES ................................................. 90 Desviación típica ............................................................................................... 91
4.8. OTROS PARÁMETROS DE UNA DISTRIBUCIÓN ........................................ 91 Rango o Recorrido ............................................................................................ 91 Coeficiente de variación .................................................................................... 92 Coeficiente de asimetría ................................................................................... 92 Coeficiente de apuntamiento o de curtosis ........................................................ 92
4.9. DISTRIBUCIONES BIDIMENSIONALES ....................................................... 93 Concepto ........................................................................................................... 93 Función de distribución ..................................................................................... 94 Función de densidad ......................................................................................... 95 Función de densidad marginal........................................................................... 96 Función de densidad condicional ...................................................................... 98 Independencia de variables aleatorias .............................................................. 99 Esperanza de vectores aleatorios ................................................................... 100 Momentos ....................................................................................................... 101 Matriz de varianzas-covarianzas ..................................................................... 102 Combinación lineal de variables aleatorias ...................................................... 106 Curva de regresión condicional ....................................................................... 106 Recta de regresión mínimo cuadrática ............................................................ 107
4.10. PROBLEMAS PROPUESTOS ................................................................... 109 4.11. PROBLEMAS Y CUESTIONES DE EXÁMENES ....................................... 113
4.1. DEFINICIÓN DE VARIABLE ALEATORIA UNIDIMENSIONAL
Dado un espacio de probabilidades (E,F,P) vemos que podemos asignar una
probabilidad a cada FA , pero en lugar de manejar frases para designar a los
sucesos, es más cómodo numerizar los posibles resultados del experimento
aleatorio, de esta forma todas las frases se corresponden con números. Estos
4. Concepto de variable aleatoria
-78-
números serán variables y como su resultado es impredecible las llamamos variables
aleatorias.
Más concretamente, dado un espacio probabilístico (E,F,P) diremos que la
aplicación RE:X es una variable aleatoria unidimensional, si y solo si, la
antiimagen de cualquier intervalo x],-=]I x
pertenece a la sigma-álgebra F. La
representación gráfica de una variable aleatoria aparece en la Figura 4.1
.
Figura 4. 1.Variable aleatoria.
Todos los conjuntos de la forma x],-] , más sus complementarios y los que
se pueden obtener por operaciones de unión e intersección, forman lo que se llama
un conjunto de Borel en R, y cualquier conjunto está probabilizado, ya que su
antiimagen pertenece a F, el cual está probabilizado por la medida P. Esto es, la
probabilidad asignada a un conjunto de la recta real es la probabilidad de su
antiimagen. Así:
x)P(X=x)P(X(e)=)]I(OP[=)Ip(X=)IP( xxxx
Llamando a )I(O xx el original por la aplicación X del conjunto I x .
4.2. FUNCIÓN DE DISTRIBUCIÓN
Dada una variable aleatoria X, se llama función de distribución de esta variable a la
función F(x) definida como sigue:
x)P(X=x)P(X(e)=)IP(=F(x) Rx x
4. Concepto de variable aleatoria
-79-
Esta función F(x) tiene las siguientes propiedades:
1) Rx es 1F(x)0 , pues es una probabilidad.
2) El 1=F(x) lim+x
.
3) El 0=F(x) lim-x
.
4) La F(a)-F(b)=b])]a,P(x , ya que como b<a se cumple que
b],-=]b]a]+]a,,-]
=b]]a,a],-]
y por el axioma tercera de la probabilidad,
F(a)-F(b)=b)X<P(a
luego,
b],-]P(x=b])]a,P(x+a]),-]P(x
5) F(x) es no decreciente. De la propiedad anterior:
b)X<P(a+F(a)=F(b)
6) F(x) es siempre continua por la derecha y si 0=a)=P(X , también es
continua por la izquierda. Si 0a)=P(X es discontinua por la izquierda con un salto
igual a a)=P(X .
Una analogía mecánica que resulta útil es pensar que la cantidad de masa
(tiza) de 1 gramo se reparte a lo largo de la recta real, y entonces la función de
distribución en un punto se define como la cantidad de masa que existe a su
izquierda, incluyendo dicho punto.
4.3. VARIABLES DISCRETAS
Una variable aleatoria es discreta cuando toma un conjunto finito de valores. También
se llama categórica.
4. Concepto de variable aleatoria
-80-
La cantidad de masa se encuentra almacenada en un conjunto de puntos de
la recta real. La función de probabilidad P(x) define la cantidad de masa de cada
punto. La función de distribución tiene unos saltos en los puntos discretos de masa.
Si la v.a. es discreta, la cantidad de masa está repartida en una serie de
puntos discretos de la recta real, cada uno de ellos con 0)xP( i . La función de
distribución es la suma de todas las masas que hay a la izquierda, esto es:
)xP(=F(x) i
xxi
La forma gráfica es una función escalonada donde en cada punto donde
existe la variable, hay un salto igual a la probabilidad en dicho punto.
Actividad 4.1:
Dibujar la función de probabilidad de la variable aleatoria del dado.
Dibujar la función de distribución de la variable aleatoria del dado.
¿Cuánto vale P(X=6)?
¿Cuánto vale F(2,5)?
¿Cuánto vale F(3)?
¿Cuánto vale P(X>=5)?
¿Cuánto vale P(x<5)?
Calcular la función de distribución de la variable aleatoria suma de puntos al lanzar dos dados.
Prob. de Evento,Ensayos
0,1,10
Binomial Distribución
x
pro
ba
bilid
ad
0 2 4 6 8 10
0
0,1
0,2
0,3
0,4
Figura 4. 2. Función de probabilidad discreta
4. Concepto de variable aleatoria
-81-
Figura 4. 3. Función de distribución discreta
4.4. VARIABLES CONTINUAS
Para una variable continua, la gráfica no presenta ningún salto. Se trata del límite de
la variable aleatoria discreta.
Función de densidad
Diremos que X es una v.a. continua, si existe una función f(x) no negativa, tal que
para todo a de la recta real se cumple que:
f(x)dx=(a)F
a
-
x
Esta función f(x) se denomina función de densidad.
También decimos que X es continua si la F(x) es continua en todo punto y
derivable respecto de x, excepto a lo sumo en un número finito de puntos o
intervalos. La derivada de la función de distribución es la función de densidad,
dx
dF(x)=f(x)
Por la definición matemática de derivada, se tiene que:
Prob. de Evento,Ensayos
0,1,10
Binomial Distribución
x
pro
bab
ilid
ad
acu
mula
tiva
0 2 4 6 8 10
0
0,2
0,4
0,6
0,8
1
4. Concepto de variable aleatoria
-82-
x
F(x)-x)+F(x=
dx
dF(x)=f(x)
0x
lim
El numerador del límite expresa la cantidad de masa que hay en un intervalo
de longitud x . Cuando 0x , el límite expresa la cantidad de masa que hay
encima de un incremento infinitesimal, esto es, la cantidad de masa por unidad de
longitud, lo que en mecánica recibe el nombre de una densidad, y de ahí el nombre
de función de densidad para designar f(x) .
Para una variable aleatoria continua, la probabilidad de exactamente un punto
es 0=a)=P(X , es decir, no hay probabilidad pero si hay densidad de probabilidad
encima del punto.
La cantidad de masa en el intervalo b]=]a,I es:
b)<XP(a=b)X<=P(a=f(x)dx=F(a)-F(b)=b)X<P(a
b
a
Si X es continua, la cantidad de masa en toda la recta real es:
)F(--)F(+=1=f(x)dx
+
-
la cantidad de masa en un diferencial de longitud es:
f(x)dx
La función de densidad se puede tomar como el límite de un histograma de
frecuencias cuando la base de los rectángulos es infinitesimal.
Para una variable discreta no existe la función de densidad, y la función que
expresa la cantidad de masa que hay en cada punto la denominamos "función de
probabilidad".
Actividad 4.2:
Si X está distribuida uniformemente entre 1 y 3:
o ¿Cuánto vale la función de distribución en un punto cualquiera a?
o ¿Cuánto vale la función de densidad en un punto cualquiera a?
Si X está distribuida de forma triangular como se expresa en la figura siguiente,
4. Concepto de variable aleatoria
-83-
0 3x
f(x)
Figura 4. 4 Distribución triangular
o Calcular la función de densidad y la función de distribución en un punto cualquiera a
o ¿Cuál será la probabilidad de que un punto esté entre 1,5 y 2,5?
Si X está distribuida de forma triangular como se expresa en la figura siguiente,
0 42
x
f(x)
Figura 4. 5 Distribución en triángulo isósceles
o Calcular la función de densidad y la función de distribución en un punto
cualquiera a
o ¿Cuál será la probabilidad de que un punto esté entre 1,5 y 2,5?
4. Concepto de variable aleatoria
-84-
Figura 4. 6. Función de densidad
Figura 4. 7. Función de distribución
Transformación de variables aleatorias
En muchas ocasiones una variable aleatoria se obtiene como una función de
otra variable aleatoria, esto es una transformación del tipo Y=g(X), y deseamos
conocer la distribución de la nueva variable aleatoria Y sabiendo la distribución de X.
Para ello aplicamos la definición de la función de distribución de Y,
)aY(P)a(Fy
Y sustituyendo la expresión de Y en función de X, tenemos que,
)a(gF))a(gX(P)a)X(g(P)aY(P)a(F 1
x
1
y
Media
10
Exponencial Distribución
0 10 20 30 40 50 60
x
0
0,02
0,04
0,06
0,08
0,1
dens
idad
Media
10
Exponencial Distribución
0 10 20 30 40 50 60
x
0
0,2
0,4
0,6
0,8
1
pro
ba
bili
da
d a
cu
mu
lativ
a
4. Concepto de variable aleatoria
-85-
Una vez conocida la función de distribución de Y, podemos obtener todas las
demás características de la variable Y.
e
XY
Y=g(X(e))
X(e)
Espacio muestral
Figura 4. 8. Transformación de variables
Por ejemplo, supongamos que el coste de una determinada materia prima
fluctúa en el mercado según una función de densidad de,
12x1052
x)x(f
Pero el precio de venta de dicha materia prima es Y=1,3*X+20. La
probabilidad de que el precio de venta sea menor de 34 es,
148,0dx52
x)77,10X(P
)30,1
2034X(P)3420X·30,1(P)34Y(P
77,10
10
4.5. ESPERANZA MATEMÁTICA
Esperanza matemática
Actividad 4.3:
Un casino plantea el siguiente juego de azar. Se hace una apuesta del resultado de
lanzar un dado. Se lanza una dado, si sale un 1, el casino dará 1000€, si sale un 2 ó
un 3, el casino dará 500€, y si sale un 4, un 5 ó un 6, el casino dará 100€. ¿Cuánto
tendremos que pagar por cada apuesta para participar en el juego?
4. Concepto de variable aleatoria
-86-
Dada la variable aleatoria X y una función uniforme g(x) , llamamos Esperanza
matemática de dicha función, a la expresión:
Si la v.a. es discreta, la esperanza matemática es:
)x)P(xg(=E[g(x)] ii
xi
y si la v.a. es continua, es:
g(x)f(x)dx=E[g(x)]
donde f(x) es la función de densidad de una variable aleatoria continua.
El concepto de esperanza matemática es el valor que cabe esperar de la
función g(x), si repetimos el experimento aleatorio hasta el infinito.
Actividad 4.4:
Calcular el valor medio de la suma de puntos al lanzar dos dados.
La esperanza matemática es un operador lineal, esto es, sea X una variable aleatoria,
y (x)gy (x)g 21 dos funciones uniformes de la misma, entonces la esperanza
matemática de una combinación lineal de dichas funciones es:
(x)]gE[·b+(x)]gE[·a=(x)]g·b+(x)g·E[a2121
La expresión se deduce a partir de la definición de integral de Rieman-Stieljes.
Momentos
Dada la v.a. X, para el caso particular de que la función g(x) sea x=g(x) , la
esperanza matemática de dicha función se denomina momento respecto al origen de
orden , y se escribe:
Si la v.a. es discreta, se tiene:
4. Concepto de variable aleatoria
-87-
)P( xx=)XE(= ii
xi
y si la v.a. es continua,
f(x)dxx=)XE(=_
El primer momento respecto al origen, recibe el nombre de media, o valor
medio, de la v.a. X, y se representa por la letra (griega).
Caso discreto es:
)P( xx= ii
xi
Caso continuo es:
xf(x)dx=
+
-
Si la función g(x) es ahora )-(X=g(x)
, donde a cada valor de X le hemos
restado su media, es decir hemos centrado la variable, entonces la esperanza
matemática de dicha función se denomina "momento centrado de orden , y su
expresión es:
Si la v.a. es discreta:
)P(x)-x(=)-E(X= ii
xi
y si la v.a. es continua,
f(x)dx)-(x=)-E(X=
donde f(x) es la función de densidad, de la v.a. X.
El momento centrado de orden uno es siempre nulo, ya que
0-=dx)x(f-dx)x(xf=dx)x()f-(x=)-E(X=1
ya que dx)x(f
expresa toda la cantidad de masa que hay en la recta real.
4. Concepto de variable aleatoria
-88-
Todo momento centrado se puede poner en función de momentos respecto al
origen, desarrollando el polinomio y tomando valores medios.
4.6 PARÁMETROS DE TENDENCIA
Valor medio
Ya hemos definido el valor medio como
dx)x(xf=E(X)=
+
-
y expresa, mecánicamente, el centro de gravedad de la distribución de masas.
Es una medida "poco robusta", ya que un valor extremo modifica totalmente el
centro de masas. Gráficamente se puede asimilar al punto de apoyo de una barra,
donde arriba situamos una serie de pesos, ya sea de forma puntual, caso de v.a.
discreta, o continua, caso de v.a. continua.
Tiene las siguientes propiedades:
1) Si multiplicamos la v.a. por una constante a, el valor medio queda
multiplicado por dicha constante.
a.=E(aX)
2) El valor medio de una constante es la misma constante.
a=E(a)
3) El valor medio de una suma de variables aleatorias es la suma de sus
medias.
n21n21n21 ...++=)XE(...++)XE(+)XE(=)X...++X+XE(
4) El valor medio de una combinación lineal de variables aleatorias es la
combinación lineal de sus medias, esto es:
nn2211
nn2211nn2211
a...++a+a=
)XaE...++)XaE(+)XaE(=)Xa....++Xa+XaE(
4. Concepto de variable aleatoria
-89-
Si el espacio muestral es discreto y simétrico, con n elementos, n
1=)xP( i y
el valor medio es
n=
n
1=)P(
x
xxx=E(x)
i
ii
i
ii
i
Actividad 4.5:
Calcular el valor medio de la variable aleatoria número de puntos al lanzar un dado.
Calcular el valor medio de la distribución uniforme entre a y b.
Calcular el valor medio de la distribución triangular.
Calcular el valor medio de la distribución exponencial.
Mediana
Expresa el punto por debajo del cual está el 50% de los valores y por encima el 50 %
de los valores. Matemáticamente, es aquel valor de x para el cual F(x), la función de
distribución, vale 0,5.
0,5=)xF( med
A aquel valor de x por debajo del cual hay una cantidad de masa de p%, se le
llama percentil p. De esta forma:
p=)xF( p
La mediana es el percentil 50%.
La mediana es una medida muy robusta, ya que para un valor extremo
apenas se modifica.
Cuartiles
Si la cantidad de masa la dividimos en 4 partes, a cada uno de los puntos de
la división se le llama "cuartil". Así el "tercer cuartil" es el que tiene por debajo de él
una cantidad de masa del 75%, es decir las 3/4 de los valores de x.
4. Concepto de variable aleatoria
-90-
Moda
Como su nombre indica, es el valor más frecuente, es decir, el máximo valor de
)xP( i , para una distribución discreta, o el valor máximo de la curva f(x). Esta curva
puede tener varios máximos, y entonces la distribución se denomina "multimodal".
4.7. VARIANZA. CONCEPTO Y PROPIEDADES
Se define como el momento centrado de orden 2, es decir:
222 )X(E)X(D)Xvar(
Si la v.a. es discreta:
)xP()-x(=)-E(X= i
2
i
x
22
i
y si la v.a. es continua:
f(x)dx)-(x=)-E(X=2
+
-
22
Como todos los valores están elevados al cuadrado, siempre es una cantidad
positiva. Cuanto mayor sea dicha cantidad, mayor dispersión hay en los datos.
Esta medida tiene las siguientes propiedades:
1) La varianza de una constante es cero.
0=a)-E(a=(a)D2
2) La varianza de una constante por la v.a. X es la constante al cuadrado por
la varianza de la variable aleatoria X.
(X)Da=(a.X)D222
(X)Da=)-E(Xa=])-(XaE[=)a-E(aX=(aX)D222
x
22
x
22
x
2
3) La varianza de b+X·a es:
(X)Da=b)+(aXD222
4) La varianza en función de los momentos respecto al origen vale:
4. Concepto de variable aleatoria
-91-
=)+x2-XE(=)-E(X=(X)D2222
212
22 -=+E(X)2-)XE(=
E(X)-)XE(=(X)D222
Desviación típica
La varianza es una medida al cuadrado y por lo tanto no se puede comparar con la
medida X. Para poder hacer comparaciones empleamos la raíz cuadrada en signo
positivo de la varianza, a la cual denominamos desviación típica, y se expresa por:
2+=var(x)+=D(X)=
Si la desviación típica es grande, indica que hay una gran dispersión en los
datos.
Tanto la varianza como la desviación típica son medidas poco robustas, ya
que para valores extremos (muy altos o muy bajos) se modifica en gran manera su
valor.
Actividad 4.6
Calcular la variancia de la variable aleatoria del dado.
Calcular la variancia de la distribución uniforme entre a y b.
Calcular la variancia de la distribución triangular.
Calcular la variancia de la distribución exponencial.
4.8. OTROS PARÁMETROS DE UNA DISTRIBUCIÓN
Rango o Recorrido
Otra idea de la dispersión de los datos la indica la diferencia entre el máximo y el
mínimo, a la cual denominamos "Recorrido" o "Rango" de variación de la v.a. X.
4. Concepto de variable aleatoria
-92-
Coeficiente de variación
Es el cociente entre la desviación típica y la media de la v.a.
=C.V.
Sirve para comparar dispersiones de dos distribuciones, cuando éstas tienen
diferentes situaciones en la recta real.
Coeficiente de asimetría
Para ver si una distribución es asimétrica, empleamos el momento centrado de orden
3, ya que si existe simetría respecto de la media, los valores por encima de la media
tienden a compensarse con los valores por debajo de la media, y su valor será nulo.
De lo contrario, habrá un valor + si la asimetría es hacia la derecha de la media, o un
valor "-", si la asimetría es hacia la izquierda.
Pero como son valores al cubo, para que sea una medida adimensional,
dividimos por el cubo de la desviación típica. Se representa por
3
3
i
N
1i=
1)-/(N)x-(x
=CA
Coeficiente de apuntamiento o de curtosis
Para conocer el mayor o menor grado de apuntamiento de la distribución, se emplea
el momento de orden 4, y para que sea adimensional, lo dividimos por la desviación
típica elevada a la cuarta. Se representa por:
4
4
i
N
1i=
1)-/(N)x-(x
=CC
Si es igual a 3, es el caso estándar, >3, está por encima del caso estándar, y <3 está
por debajo del caso estándar.
4. Concepto de variable aleatoria
-93-
4.9. DISTRIBUCIONES BIDIMENSIONALES
Concepto
Si al realizar un experimento observamos dos o más valores, por ejemplo, al extraer
una persona al azar podemos anotar el peso, la altura, la edad, etc. Las dos, tres o
más características observadas constituyen una variable aleatoria bidimensional o n-
dimensional.
La v.a. bidimensional se define como una aplicación del espacio muestral en
el plano R2 , de manera que a cada punto del espacio muestral le corresponde un
punto en el plano R2 .
Al igual que en el caso unidimensional, podemos pensar que la masa de 1
gramo se encuentra ahora repartida en el plano, de manera que para cualquier punto
del plano, la antiimagen del conjunto de puntos del plano,
xX,xX)/x,x(=I 221121x,x 21
es un suceso perteneciente a la -álgebra F, y por lo tanto, probabilizable.
Si las dos coordenadas son puntos discretos, entonces se dice que la v.a.
bidimensional es discreta, y si ambas son continuas, la v.a. bidimensional es
continua. Puede ser que una sea discreta y la otra continua, en cuyo caso cabe
hablar de v.a. mixtas.
Gráficamente se representa en la Figura 4.9
4. Concepto de variable aleatoria
-94-
Figura 4. 9. Definición de variable aleatoria bidimensional
Función de distribución
Dada una v.a. bidimensional, definimos la función de distribución )x,xF( 21 como
)I(e))X(e),XP((=)xX;xXP(=)x,xF( x,x21221121 21
es decir, es la cantidad de masa que existe por debajo y a la izquierda del punto
)x,x( 21 , incluyendo dicho punto.
Esta función tiene las siguientes propiedades:
1) 1)x,xF(0 21 .
2) 0=)x,xF( 21
-x
lim1
0=)x,xF( 21
-x
lim2
3) 1=)x,xF( 21
+x+x
lim2
1
4) La cantidad de masa en el rectángulo de la Figura 4.10 es:
4. Concepto de variable aleatoria
-95-
Figura 4. 10. Función de distribución
)a,aF(+)b,aF(-)b,aF(-)b,bF(=)bX<a;bX<aP( 21122121222111
5) )x,xF( 21 es siempre continua por la derecha y discontinua por la izquierda
de )x , x( 21 en aquellos puntos de probabilidad no nula.
6) Para v.a. discretas se obtiene sumando todas las masas que hay por
debajo y a la izquierda de punto )x,x( 21 , incluyendo dichos valores.
Función de densidad
Si la variable aleatoria es continua, la cantidad de masa que hay por debajo y a la
izquierda del punto )x,x( 21 equivale a calcular el volumen de masa en cada punto, la
de una función de punto, a la que llamamos función de densidad, de tal forma que:
1=xdx)dx,xf(y 0)x,xf( 2121
+
-
+
-
21
La función de distribución se obtiene a partir de la función de densidad como:
xdx)dx,xf(=b)F(a, 2121
b
-
a
-
4. Concepto de variable aleatoria
-96-
O también por derivación parcial de la función de distribución, obtenemos la
función de densidad:
xx
)x,xF(=)x,xf(
21
212
21
Como significado físico, es la cantidad de masa por unidad de superficie.
La cantidad de masa debajo de una área A viene dada por
xdx)dx,xf(=A))x,xP( 2121A21
Para un rectángulo es:
xdx)dx,xf( =)bXa;bXaP( 2121
b
a
b
a
222111
2
2
1
1
Al igual que en el caso unidimensional, cuando la v.a. es continua no existe
cantidad de masa en un punto, pero sí que hay densidad encima de él.
Función de densidad marginal
Dada la v.a. bidimensional )X,X( 21 con función de distribución )x,xF( 21 , y en el
caso continuo, función de densidad )x,xf( 21 , deseamos saber la distribución de una
de ellas, sin tener en cuenta la otra. A ello se llama distribución marginal, ya que en
una tabla de doble entrada se calculaba en el margen derecho o en el margen inferior
de la tabla, de ahí el término de "marginal".
La distribución marginal de X 1 se obtiene imponiendo la condición de que
X 2 pueda tener cualquier valor entre - y + . Así la función de distribución
marginal de X 1 es:
xdx)dx,xf( =)x,xF(=)xF( 1221
+
-
x
-
21
+x
1
1
2
lim
y la función de densidad marginal es:
x)dx,xf(=)xf( 221
+
-
1
4. Concepto de variable aleatoria
-97-
Para variables discretas se tiene que la función de probabilidad es,
)x,xP(=)XP( 2j1i
j
1i
Físicamente, viene a ser la proyección de toda la cantidad de masa que había
en el plano, sobre un solo eje, ya sea el X 1 , o el X 2 .
X1
X2
x1
Figura 4. 11 Distribución marginal de X1
Actividad 4.7:
1. Para la siguiente distribución bidimensional, calcular:
o P(X1=1).
o PX2=2).
o P(X1<=2).
o P(X1=2,X2=2)
Figura 4. 12 Distribución marginal de X1
X1 1 2 3
1
2
X2
0,28
0,24
0,18
0,15
0,09
0,06
4. Concepto de variable aleatoria
-98-
Función de densidad condicional
En otras ocasiones nos interesa conocer, para un determinado valor de la variable,
como se distribuye la otra. Por ejemplo, para aquellas personas que pesan 70 kg.,
cuál es la distribución de sus alturas. A esta distribución se llama "distribución
condicional".
Físicamente equivale a realizar un corte infinitesimal que pasa por el punto
condicionante y paralelo al otro eje. Pero como la cantidad de masa que se toma ya
no vale la unidad, debemos hacer una redistribución de manera que siga valiendo la
unidad.
La función de distribución se define como el límite de:
h)+xXxP(
h)+xXxxXP(=h)+xX<x/xXP( =)x/xF(
111
11122
0h
11122
0h
12
limlim
Si la v.a. )X,X( 21 es discreta, la probabilidad condicionada se obtiene
imponiendo la condición de que la suma de pesos debe ser la unidad, y para ello
nada más que dividir cada peso )x,xP( 21 por el total, que corresponde a la
distribución unidimensional. Esto es,
)x/x)P(xP(
)x/x).P(xP(=
)xP(
)x/x).P(xP(=
)xP(
)x,xP(=)x/XP(
2j12j
j
212
1
212
1
1212
Si la v.a. )X,X( 21 es continua, análogamente es
x)dx/x)f(xf(
)x/x).f(xf(=
)xf(
)x/x)f(xf(=
)xf(
)x,xf(=)x/xf(
2212
212
1
212
1
2112
cuya expresión es semejante al Teorema de Bayes.
Si la v.a. bidimensional es mixta se tiene en cuenta si la condicionante es
discreta o continua, y si la condicionada es discreta o continua.
Gráficamente, y empleando la analogía mecánica, es fácil deducir cada
expresión. Recordar que una v.a. discreta no tiene función de densidad. Al pasar de
discretas a continuas, la regla sencilla es que donde pone "P" se cambia a "f", de
función de densidad, y donde pone un , se cambia a .
4. Concepto de variable aleatoria
-99-
X1
X2
x1+h x1
Figura 4. 13Distribución condicional de X2/x1
Actividad 4.8:
Para la siguiente distribución bidimensional calcular:
o P(X2<=1/X1=2)
o P(X2=1/x1<=2)
o P(X1<=2/X2=2)
Figura 4. 14 Distribución condicional
Independencia de variables aleatorias
Dada una variable aleatoria bidimensional )X,X( 21 diremos que las v.a. marginales
X,X 21 son independientes, cuando para cualquier 2R)x,x( 21 se cumple que los
sucesos ]x,-] 1 y ]x,-] 2 son independientes, lo cual significa que:
)xX).P(xXP(=)xXxXP( 22112211
X1 1 2 3
1
2
X2
0,28
0,24
0,18
0,15
0,09
0,06
4. Concepto de variable aleatoria
-100-
Esto equivale a decir que la función de distribución conjunta es igual al
producto
)x(F).x(F=)x,xF( 221121
Si la v.a. es continua, y las marginales son independientes, la función de
densidad es el producto de funciones de densidad marginales.
)x(f).x(f=)x,xf( 221121
También se cumple que:
)xf(=)xf(
)x).f(xf(=
)xf(
)x,xf(=)x/xf( 2
1
21
1
2112
es decir, semejante a la probabilidad condicional.
Si las variables aleatorias marginales no son independientes, la función de
densidad conjunta se puede calcular como:
)x/x).f(xf(=)x/x).f(xf(=)x,xf( 21212121
Esperanza de vectores aleatorios
Dada la v.a. )X,X( 21 y una función uniforme )x,xg( 21 se define esperanza
matemática de dicha función, al valor medio que cabe esperar de dicha función, al
extraer infinitos valores de la v.a. bidimensional. Su expresión es
Si la v.a. es discreta,
)x,x)P(x,xg(=)]x,xE[g( 2j1i2j1i
ji
21
y si la v.a. es continua,
xdx)dx,x)f(x,xg(=)]x,xE[g( 212121R21 2
Además de la propiedad de ser operador lineal, si las variables X,X 21 son
independientes y )x(gy )x(g 2211 son funciones uniformes de Xy X 21 ,
respectivamente, entonces el valor medio del producto es el producto de valores
medios:
4. Concepto de variable aleatoria
-101-
)]x(gE[·)]x(gE[=)]x(g·)x(gE[ 22112211
La media de la suma de v.a., sean varias independientes ó no, son suma de
valores medios.
Para distribuciones condicionales, el valor medio de una función es:
x)dx/x(f )xg(=)x)/xE[g( 121c1
+
-
21
Pudiendo variar los límites de integración para cada valor de x2 .
Momentos
Si la función )x,xg( 21 es ahora x.x=)x,xg( v2
u121 , a su esperanza matemática se le
llama momento respecto al origen de orden u+v, su expresión es:
Si la v.a. es discreta
),P(. xxXX= 2j1iv2j
u1i
ji
vu,
Si la v.a. es continua,
xdx)dx,xf(x.x 2121v2
u1vu,
Si en la función xx=)x,xg( v2
u121 , a cada valor de 1,2)=(i X i le restamos su
media, su esperanza matemática recibe el nombre de momento centrado de orden
u+v, y se expresa por
)xdxd)x(f)-x()-x(=])-X.()-XE[(= 21
v
22
u
11
v
22
u
11vu,
Algunos casos particulares son:
x1,01
=
x0,12
=
0=1,0
4. Concepto de variable aleatoria
-102-
0=0,1
2x2,0 1
=
2x0,2 2
=
Todo momento centrado se puede poner en función de los momentos
respecto al origen, desarrollando los polinomios y aplicando el operador valores
medio.
Matriz de varianzas-covarianzas
El momento centrado 111,1= cuya expresión es:
)X,Xcov(=)-X)(-XE(= 2112221111
recibe el nombre de covarianza y expresa el grado de relación lineal que existe entre
Xy X 21 . Por ejemplo, si la distribución de los valores es como la que aparece en la
Figura 4. 15.
IIV
II
III
X1
X2
1
2
Figura 4. 15. Concepto de covariancia
4. Concepto de variable aleatoria
-103-
X1 1 2 3
1
2
X2
0,28
0,24
0,18
0,15
0,09
0,06
0,52 0,33 0,15
0,45
0,55
Tomando como punto de referencia el ),(21 , centro de gravedad de masas,
y trazando dos rectas paralelas a los ejes coordenados, dividimos el plano en 4
regiones, marcadas con I, II, III y IV. En la región I todos los valores de X 1 son
mayores que m1 , a igual que los de m2 , por lo que los productos )-x)(-x(2211
serán positivos. En la región III, tanto X 1 como X 2 están por debajo de sus medias,
por lo cual el producto )-x)(-x(2211 también será positivo. En cambio en las
regiones II y IV, los productos son negativos. Como se observa en la figura, hay
muchos más productos positivos que negativos, por lo cual la cantidad 11 será
positiva, indicando una relación lineal en sentido positivo, es decir, a medida que
aumenta una componente, aumenta el valor de la otra componente. Si la cantidad
0<11 indica que al aumentar una componente tiende a disminuir la otra.
Si 0=11 no hay ningún tipo de relación lineal entre las variables marginales.
Si las variables son independientes 0=11 , pero no a la inversa.
La covarianza también se puede representar por:
Actividad 4.9:
Para la siguiente distribución bidimensional, calcular la covariancia entre X1 y X2.
63,115,0·333,0·252,0·1)X(E 1 45,155,0·245,0·1)X(E 2
)XE(·)XE(-)X·XE(=)X,Xcov(== 2121211211
4. Concepto de variable aleatoria
-104-
54,209,0·2·306,0·1·3
18,0·2·215,0·1·228,0·2·124,0·1·1)X·X(E 21
1765,045,1·63,154,2
)X(E)·X(E)X·X(E)X,Xcov( 212121
Figura 4. 16 Covarianza
A la matriz ][=V ij siempre que i+j=2, recibe el nombre de matriz de
varianzas-covarianzas. Los elementos de la diagonal son las varianzas de las
distribuciones marginales.
Actividad 4.10:
¿Cuáles son los elementos de una matriz de varianza-covarianzas de 3 variables
aleatorias?
Coeficiente de correlación
La covarianza es una cantidad al cuadrado, y para que sea adimensional, se divide
por sus desviaciones típicas, recibiendo el nombre de "coeficiente de correlación".
)X).D(XD(
)X,Xcov(=
21
21
12
Siempre se cumple que )X(D).X(D)X,X(cov 22
12
212
12 es una cantidad que siempre está entre -1 y +1. Si +1=
12 , hay una
relación lineal perfecta en sentido positivo entre las variables X,X 21 , y si es
negativa, hay una relación lineal perfecta en sentido negativo.
Si 0=12 , significa que no hay correlación lineal entre las v.a. X,X 21 .
La matriz cuyo término general es el ij se llama matriz de correlación.
4. Concepto de variable aleatoria
-105-
X1 1 2 3
1
2
X2
0,28
0,24
0,18
0,15
0,09
0,06
Actividad 4.11:
Calcular el coeficiente de correlación de la distribución bidimensional siguiente,
19,315,0·333,0·252,0·1)X(E 22221
533,063,119,3)X(E)X(E)Xvar( 221
211
65,255,0·245,0·1)X(E 2222
548,045,165,2
)X(E)X(E)Xvar(
2
22
222
327,0548,0·533,0
1765,0
)X)·var(Xvar(
)X,Xcov(
21
21
Figura 4. 17 Coeficiente de correlación
4. Concepto de variable aleatoria
-106-
Combinación lineal de variables aleatorias
Si la variable aleatoria Y viene dada por una combinación lineal de las v.a. X1, X2 de
la forma
)X(Da+)X(Da=)XaXa(D 222
2122
122112
El valor medio de la v.a. Y es,
Y Si las v.a. X1, X2 son dependiente, la varianza de una combinación lineal de
variables aleatorias es:
=)a-a-Xa+XaE(=)Xa+Xa(D2
2211221122112
=))-X(a+)-X(aE(=2
222111
=)]-x)(-x(aa2+)-x(a+)-x(aE[=221121
2
2222
2
1121
=)-x)(-xE(aa2+a+a=221121
22
22
21
21
)x,xcov(aa2+a+a= 212122
22
21
21
Actividad 4.12:
Una variable X1 tiene de valor medio 4 y desviación típica 2. Otra variable aleatoria X2
tiene un valor medio de 3 y una desviación típica de 1, y la covariancia que hay entre
las dos variables se de 1,8. Calcular la variancia de la nueva variable aleatoria
Y=2·X1-X2.
Curva de regresión condicional
Dada una distribución bidimensional ),( 21 xx ,se define la curva de regresión
condicional de 12 / xx , como el lugar geométrico de los puntos medios de las
distribuciones condicionales de 12 / xx . Se expresión matemática es:
)()/()/( 1212212 xhdxxxfxxxE c
4. Concepto de variable aleatoria
-107-
X1 1 2 3
1
2
X2
0,28
0,24
0,18
0,15
0,09
0,06
Esta curva h(x1) es la que minimiza los errores de predicción de 2x conocido
1x . Se expresa también como )(ˆ12 xhx .
De forma análoga se obtendría la curva de regresión condicional de 21 / xx ,
sin más que intercambiar los subíndices.
Actividad 4.12:
Calcular el E(X2/X1=2) para la siguiente distribución bidimensional.
54,118,015,0
18,0·2
18,015,0
15,0·1
)2x/x(P·x)2x/X(E
i2x
1i2i212
Figura 4. 18 Esperanza condicional
Recta de regresión mínimo cuadrática
Si en lugar de una curva queremos encontrar la recta que minimiza la suma de los
cuadrados de los errores de predicción de 2x conocido 1x , se tiene la recta de
regresión mínimo cuadrática. Esta recta viene dada por
)x()x,xcov(
x 112
1
2122
4. Concepto de variable aleatoria
-108-
De forma análoga se obtiene la recta de regresión mínimo cuadrática de
21 / xx .
Actividad 4.13:
Calcular la recta de regresión mínima-cuadrática de la siguiente distribución
bidimensional:
)63,1x·(533,0
1765,045,1X 12
12 x·331,091,0X
Figura 4. 19 Recta de regresión mínimo cuadrática
X1
X2
)x()x,xcov(
x 112
1
2122
r.r.m.c
)x/X(E)x(hx 1212 c.r.c.
Figura 4. 20 Curva y rrmc
X1 1 2 3
1
2
X2
0,28
0,24
0,18
0,15
0,09
0,06
4. Concepto de variable aleatoria
-109-
4.10. PROBLEMAS PROPUESTOS
4.10.1. Si X es la variable aleatoria número de puntos al lanzar un dado, determinar su valor medio y su varianza.
Solución: E(x) = 7/2 D2(x) = 224/9
4.10.2. Si se selecciona al azar un número entero entre 1 y 100, ¿cuál es el valor esperado?
Solución: 50.5
4.10.3. Las lecturas sobre sensores son analógicas (continuas), y deben ser convertidas a una escala discreta para permitir su procesamiento digital. Sea X la lectura de un sensor. En un caso muy sencillo, supongamos que si la lectura iguala o supera un valor límite t=1/2, el valor almacenado es 1 y en caso contrario es 0. Si la función de densidad de X es:
otroscasos
xx
xx
xf
0
21 2
10
)(
Hallar la función de probabilidad de la variable aleatoria Y que indica el valor
almacenado.
Solución: P(Y=0)=1/8 P(Y=1 )=7/8
4.10.4. El tiempo, X, que tarda una máquina en elaborar un producto tiene como función de densidad:
otroscasos
xexf
x
0
0 2)(
2
Si el mecanismo tarda 3 minutos o menos, el beneficio del fabricante es 100 euros. Si
tarda más de tres minutos el beneficio es -200 euros. Si Y es el beneficio, hallar su
función de probabilidad y su función de distribución.
4.10.5. Un fabricante de motores produce un 30% de defectuosos. El coste es
de 4.000 €. por unidad y el precio de venta es de 9.000 .. Si el motor es defectuoso debe devolverse lo cobrado y pagar una indemnización de 6.000 €. a) Calcular el beneficio medio por motor.
4. Concepto de variable aleatoria
-110-
b) Se puede hacer una prueba de control de calidad A que cuesta 2.000 €. y que
determina con toda seguridad si el motor es o no es defectuoso. Estudiar si es
rentable la prueba.
c) Se puede utilizar una prueba alterativa B, que conduce a conclusiones
erróneas en un 10% de los casos. Calcular el precio máximo que puede
pagarse por dicha prueba.
Solución: a)500 b)300 c)990
4.10.6. La longitud de una cierta pieza se distribuye con la siguiente función de densidad:
valoresotros
xxk
xk
xf
0
5.22 )2(
21
)( 2
y se consideran correctas las piezas de longitud comprendida entre 1'5 y 2'1.Se
pide:
a) valor de la constante k
b) proporción esperada de piezas correctas
c) función de distribución de la variable longitud de la pieza
Solución: a) k=0'694 b) 0'4163
4.10.7. Sea X una variable aleatoria continua cuya función de densidad es:
3,0 0
3,0 )1()(
2
x
xxkxf
Hallar:
a) El valor de la constante k.
b) Probabilidad de que X esté comprendida entre 1 y 2.
c) Probabilidad de que X sea menor que uno.
d) Sabiendo que X es mayor que 1, probabilidad de que sea menor que 2.
Solución: a) 1/12 b) 5/18 c) 1/9 d) 5/16
4. Concepto de variable aleatoria
-111-
4.10.8. Dada la función de densidad de la variable aleatoria X:
valoresotros
x
xx
xf
0
21x -2
10
)(
Hallar su función de distribución.
Solución: 2x1si2
)x2(1)x(F;1x0si
2
x)x(F
2
x
2
x
4.10.9. La variable X está definida en el intervalo ]-, a] con función de densidad f(x). La expresión:
a
dxxfx )(
facilita:
a) el valor de la función de distribución en el punto x=a.
b) el valor de la desviación típica de X.
c) es una expresión que vale 1.
d) es el valor medio de la variable X.
4.10.10. Se realiza un estudio sobre la duración de las llamadas en una centralita telefónica y se estima que su función de densidad de la variable es:
valoresotros
xexf
x
0
0 2
1
)(2
Hallar el valor esperado de la longitud de una llamada telefónica en esa estación.
Solución: E(x)=2
4.10.11. Dada una variable aleatoria continua cuya función de densidad es:
4. Concepto de variable aleatoria
-112-
esotrosvalor
xxxf
0
21 5.0)(
Hallar su esperanza matemática.
Solución: 19/12.
4.10.12. Dada una variable aleatoria continua cuya función de densidad es:
valoresotros
xxxf
0
10 2
1)(
Hallar su varianza.
Solución: 4/45.
4.10.13. De una estación parte un tren cada 20 minutos. Un viajero llega de imprevisto. Calcular:
a) Probabilidad de que espere el tren menos de 7 minutos
b) Valor medio del tiempo de espera
c) Probabilidad de que espere exactamente 12 minutos.
Solución: a) 7/20 b) 10 c) 0.
4.10.14. Se intenta estudiar el porcentaje de tiempo en el que se esta utilizando un ordenador en un determinado departamento a lo largo de las semanas de trabajo. Supongamos que el porcentaje de utilización del ordenador sigue una función de densidad de probabilidad dada por:
resotros valo
xxxf
0
10 3)(
2
Calcular el promedio y la varianza del porcentaje de utilización del ordenador.
Solución: 0.75 0.0375
4.10.15. Un almacenista compra a principio de semana N kg. de un producto perecedero a 200 pts/kg. y lo revende a 300 pts/kg. La demanda se distribuye exponencialmente con media 100 kg/semana, y aquellos kilos que no vende se estropean y pierden. Calcular cuántos kilos del producto debe comprar a la semana para maximizar su beneficio.
4. Concepto de variable aleatoria
-113-
Solución: N= 40.55 Kg.
4.10.16. Un revendedor de entradas sabe que la demanda diaria en la reventa de las mismas se distribuye aleatoriamente, siendo Prob(D> d)= e-0.05 d. Si el revendedor compra en taquilla a 200 ptas. y revende con un beneficio del 20%, pero debe quedarse con las que no puede vender, calcular cuántas entradas debe comprar al día para maximizar su beneficio.
Solución: 4 entradas diarias
4.10.17. Si X es una variable aleatoria que mide la duración real de una lámpara, X=EXP(θ), determinar el valor medio de su duración.
Solución: 1/θ
4.10.18. Dada la función de densidad de la variable X:
otros 0
6x5 5
x6
5x1 5
1
1x0 5
x
)x(f
determinar su valor medio.
Solución: E(x) = 3
4.11. PROBLEMAS Y CUESTIONES DE EXÁMENES
4.11.1 El espesor de una plancha de acero sigue una distribución aleatoria según la
figura de abajo. La plancha de acero es adecuada para su uso siempre que el
espesor sea mayor de 1,75 mm y menor de 3 mm. Se pide:
f(x)
x1 2 3,5
4. Concepto de variable aleatoria
-114-
a) Calcular la función de densidad en cada punto. b) Calcular el E(X). c) Calcular la proporción de planchas defectuosas.
Solución:
a) Como el área total bajo la función de densidad tiene que ser la unidad, la altura de la figura debe ser,
1h)·25,3(2
h)·12(
De donde h=1/2.
La función de densidad será:
resto0
]5,3;2[x2/1h
]2,1[xbxa
)x(f
Aplicando la fórmula de la ecuación de una recta que pasa por 2 puntos, se tiene
12
0h
1x
0y
h
1x
y
y se tiene que
2
1
2
xhhx)x(fy
b) El valor medio viene dado por,
48,22·2
x
2·2
x
2·3
xdx
2
1·xdx)
2
1
2
x(xdx)x(f·x)x(E
5,3
2
22
1
235,3
2
2
1
-- ∫∫∫∞
∞
c) El porcentaje de defectuosas será la suma del porcentaje de piezas por debajo del límite inferior de tolerancias más el porcentaje de piezas defectuosas por encima del límite superior de tolerancias. Esto es,
39,025,014,0dx2
1dx
2
1x)3X(P)75,1X(Pppp
5,3
3
75,1
121
4.11.2 El contenido de arroz en gramos dentro de un paquete sigue una
distribución con función de densidad,
casootroen0)x(f
254x239para150
x2
35,5
1)x(f
a) Calcular la media y la dispersión del contenido de arroz en cada paquete. b) Si el contenido de arroz es menor de 245 gr. se considera que es un paquete
defectuoso. Calcular el porcentaje de paquetes defectuosos.
4. Concepto de variable aleatoria
-115-
c) Si el contenido de arroz pesa menos de 245 gramos, el coste es de 2x·25,1 , y
si es mayor a 245 el coste es de x·3,1 . Calcular el valor medio del coste del
contenido de arroz de un paquete. Solución:
a) El valor medio es,
15,246dx)150
x2(
35,5
1·x)X(E
254
239
Y la varianza se calcula como,
222 )X(E)X(E)X(D
Siendo 254
239
22 2,60608dx)150
x2(
35,5
1·x)X(E
38,1815,2462,60608)X(E)X(E)X(D 2222
Y la desviación típica es 29,4)X(D
b) El porcentaje de paquetes defectuosos es,
434,0dx)150
x2(
35,5
1)245X(P
245
239
c) El valor medio del coste es,
254
245
245
239
2 31920dx)150
x2(
35,5
1x·3,1dx)
150
x2(
35,5
1x·25,1)c(E
4.11.3 El espesor, X, de una determinada pieza sigue una distribución
aleatoria, según la siguiente función de densidad,
casootroen0)x(f
15x5si50
x15)x(f
Sabiendo que la tolerancia del espesor es de 10±3 mm, se pide:
a) Calcular la proporción de piezas defectuosas. b) Por término medio, ¿cuánto vale el espesor de cada pieza? c) Calcular la varianza del espesor de la pieza. d) Calcular el valor de la media y el valor de la desviación típica del espesor
medio de 5 piezas tomadas al azar. e) Si la pieza es correcta, el beneficio es de 10 €/unidad, pero si es mayor que la
tolerancia superior se tiene una pérdida de 2·(X-13) €/unidad, y en caso de ser menor que la tolerancia inferior, la pérdida es de 2·(7-X)€/unidad. Calcular
4. Concepto de variable aleatoria
-116-
el beneficio medio que obtendríamos al producir 5000 piezas. Solución:
a) La proporción de piezas correctas es,
60,0100
8
100
2
50·2
)x15(dx
50
x15dx)x(fp1
2213
7
213
7
13
7
De donde la proporción de defectuosas es del p=0,40.
b) La media de X es,
333,8150
5
100
5·15
150
15
100
15·15
150
x
2·50
x·15
dx)50
xx
50
15(dx
50
x15·x)x(E
323215
5
32
15
5
215
5
c) La varianza es,
222 )X(E)X(E)X(D
75200
5
150
5·15
200
15
150
15·15
200
x
150
x·15
dx)50
xx
50
15(dx
50
x15·x)x(E
434315
5
43
15
5
32
15
5
22
Y la varianza es,
611,533,875)x(D 22
d) Llamando a Y el espesor medio, éste es,
5
xxxxxy 54321
La media de y es,
333,8)x(E5
)x(E·5)y(E
Y la desviación típica es,
059,125
611,5·5
5
)x(D)x(D)x(D)x(D)x(D)y(D
2
5
2
4
2
3
2
2
2
1
2
e) El valor medio del beneficio viene dado por,
4. Concepto de variable aleatoria
-117-
pieza/2,5dx50
x15)·13x·(2dx
50
x15·10dx
50
x15)·x7·(2)B(E
15
13
13
7
7
5
4.11.4 Sea una variable aleatoria X que representa el espesor, en milímetros,
de las arandelas que produce una máquina. Si la variable X tiene una
función de densidad dada por:
contrariocaso0
),1.2,9.1(xx5.2)x(f
Determinar:
a) La función de distribución. a) La probabilidad de que una arandela tenga un espesor igual a 1.95 mm. b) P(1.95 < X < 2.05). c) El valor a tal que P(X < a) = 0.25 e interpretar el resultado. d) Sabiendo que la media de X es 2, calcular su varianza.
Solución:
a)
2.1x 1
(1.9,2.1)x 51.41.25x2.5xdx
1.9x 0
)x(F 2
x
1.9
b) P(X=1.95)=0
c) 5.0xdx5.2)05.2X95.1(P
1.2
9.1
d) 25.05.29.1
a
xdx 25.0)9,1a(25.1 22 a=1.95
01.0401.42xdx5.2x)]X(E[)X(E 2
1.2
9.1
2222
4.11.5 En el almacén de un taller de fontanería hay tubos de cobre de 1.25
pulgadas de diámetro interior cortados a diferentes longitudes y
amontonados los trozos en un contenedor. Asumimos que la longitud de
los tubos cortados que se utilizan es una variable aleatoria cuya función de
densidad es:
4. Concepto de variable aleatoria
-118-
contrariocaso
xkxxf
0
),20.2,40.0(/)(
Supuestos:
I. Todos los tubos se compran a un proveedor pagando un coste de 3 €/m
II. Los tubos se eligen del contenedor al azar para proceder a su montaje en la
construcción de una caldera de vapor
III. El coste de montaje de los tubos (preparación, limpieza, soldadura, etc.)
asciende a 10 €/m de tubo montado
IV. Al cliente se le cobra según los metros montados a razón de 50 €/m
V. Los tubos de longitud inferior a 0.50 m se desechan directamente y no se
montan
VI. Los tubos de longitud comprendida entre 0.5 y 2.00 m se montan enteros
VII. A los tubos con longitud mayor de 2.00 m, se les corta previamente el exceso
sobre los 2.00 m que se pierde y no se cobra. Los 2 m restantes se montan
como en el apartado anterior
Calcular:
a) El valor medio de la longitud de los tubos del contenedor.
b) El valor medio del beneficio por tubo del almacén.
Solución:
f(x)
0,40 2,2 X
4. Concepto de variable aleatoria
-119-
a) Recordando que
1)4,02,2(2
1
2
11)( 22
2,2
4,0
22,2
4,0
k
xk
dxk
xtendremosdxxf
x despejando k=2,34
5077,1)4,02,2(k3
1x
k3
1dx
k
xxdx)x(xf)X(E 33
2,2
4,0
3
x
2,2
4,0
b) x
dxxfxBBEBeneficioE )()()()(
B= (cobrado-pagado) en cada caso
B1 =0 -3x = -3x para (0,4≤ X ≤0,5)
B2 =50x-(3+10)x= 37x para (0,5≤ X ≤2.0)
B3 =(50 . 2)-(3x+2 . 10)= 80-3x para (2,0≤X ≤2,2)
2,2
0,2
0,2
5,0
5,0
4,0 34,2)380(
34,237
34,2)3()()()()( dx
xxdx
xxdx
xxdxxfxBBEBeneficioE
x
tuboeurosxxxx
/7077,542274,135064,410261,02
80
34,2
1
33,2
37
334,2
32,2
0,2
32
0,2
5,0
35,0
4,0
3
4.11.6 La longitud de una determinada pieza es una variable aleatoria con
función de densidad,
casootroen)x(f
mmxmmparax
·k)x(f
0
2001003
300
Consideramos que la pieza es correcta cuando su longitud está entre 105 mm y 190
mm. Se pide:
a) Calcular el porcentaje de piezas defectuosas. b) Calcular la función de distribución de la variable aleatoria longitud de la pieza. c) Si la longitud de la pieza es mayor de 190 la pérdida que se produce es de
10€, si la longitud es menor de 105 mm la pérdida es de 230 x· €, y si la pieza
es correcta el beneficio es de x·200 €. Por término medio, ¿cuál será el
beneficio por cada pieza producida?
4. Concepto de variable aleatoria
-120-
Solución:
La constante k la calculamos con la condición de que la integral de la función de
densidad para todo su campo de existencia es igual a la unidad.
1dxx
)x300(·k
200
100
Integrando,
130000·6
k
2
100
2
200·
3
k
2
)x300(·
3
k 22200
100
2
-
De donde k=0.0002
a) La proporción 1-p de piezas correctas es,
190
105864,0dx
3
)x300(·0002,0p1
Y la proporción de piezas defectuosas es p=1-0,864=0,136.
b) La función de distribución para x entre 100 y 200 es,
])x300(40000[6
0002,0
2
)x300(
3
0002,0dx
3
)x300(·0002,0)x(F 2
x
100
2X
100
F(x) = 0 para x<100
F(x)= 1 para x>200
c) El valor medio de cada pieza producida es,
pieza/€4060
dx3
)x300(·0002,0)·10(dx
3
)x300(·0002,0·x200
dx3
)x300(·0002,0)·x30()B(E
200
190
190
105
105
100
2
5. Principales distribuciones discretas
-121-
5. PRINCIPALES DISTRIBUCIONES DISCRETAS
Contenido 5.1. DISTRIBUCIÓN DICOTÓMICA ............................................................. 121
5.2. DISTRIBUCIÓN BINOMIAL ................................................................... 122
5.3. DISTRIBUCIÓN HIPERGEOMÉTRICA ................................................. 123
5.4. DISTRIBUCIÓN DE POISSON .............................................................. 125
5.5. DISTRIBUCIÓN BINOMIAL-NEGATIVA ................................................ 126
5.6. DISTRIBUCIÓN MULTINOMIAL ........................................................... 127
5.7. PROBLEMAS PROPUESTOS .............................................................. 129
5.8. PROBLEMAS Y CUESTIONES DE EXÁMENES .................................. 143
A continuación vamos a estudiar las principales distribuciones discretas que aparecen
en la práctica. Para cada una de ellas definimos:
1) La función de probabilidad.
2) Valor medio.
3) Varianza.
4) Suma de variables aleatorias del mismo tipo.
5) Convergencia a otras variables.
5.1. DISTRIBUCIÓN DICOTÓMICA
Diremos que X es una v.a. dicotómica de parámetro "p", y la representamos por
D(p)X
si toma únicamente dos valores posibles:
X = 1 , con probabilidad "p",
X = 0 , con probabilidad "q",
donde 1=q+p .
Se suele asociar el "1" con la presencia de un cierto suceso, y "0" por su
ausencia. Por ejemplo, una pieza mecánica puede ser defectuosa, 1, o no tener
defecto, 0. Al lanzar una moneda aparece la cara, y lo asociamos con el "1", y en
caso contrario, lo asociamos con el "0".
5. Principales distribuciones discretas
-122-
El valor medio de X se calcula como:
p=0.q+1.p=0.P(0)+1.P(1)=)P( xx=E(X) ii
xi
La varianza la calculamos a partir de los momentos respecto al origen, así
212
2 -=(X)D
de donde
p=.q0+.p1=)xP(x=)XE(= p;= 22i
2i
221
p.q=p)-p.(1=p-p=22
5.2. DISTRIBUCIÓN BINOMIAL
Al repetir un experimento aleatorio n veces, de forma independiente, el número de
veces que aparece un suceso A, de probabilidad P(A), se denomina variable
aleatoria binomial, y se representa por,
p)B(n,X
Al realizar una vez el experimento aleatorio puede ocurrir el suceso A o el
suceso contrario. Al efectuar n repeticiones, una posible secuencia puede ser:
A .......AA A A A A
Supongamos que queremos calcular la probabilidad de que al repetir n veces
el experimento aleatorio, aparezcan veces el suceso A, esto es )=P(X . Ello
significa en una secuencia de aparición de los sucesos, hay -veces el A y, por lo
tanto, -n veces el suceso A , con una cantidad de masa de )AP(P(A)-n
, y como
cada secuencia, con igual número de A son mutuamente excluyentes, el total de
secuencias viene dado por:
)!-(n!
n!
Luego la probabilidad de obtener exactamente veces el suceso A, es
)p-(1pn
=)=P(X-n
que recibe el nombre de "fórmula binomial".
5. Principales distribuciones discretas
-123-
También se puede considerar la variable binomial como una suma de "n"
variables aleatorias dicotómicas independientes, ya que al sumar el número de 1's
nos da el número de veces que aparece el suceso A. A partir de esta suma de
variables se pueden calcular las características de la binomial.
De este modo, el valor medio de la binomial es:
n.p=p=)XE(=)X....++X+XE(=E(X)n
1
i
n
1
n21
La varianza de la binomial es:
npq=pqXD=)X...++X+X(D=(X)D
n
=1i
i2
n
=1i
n2122 )=(
Si p),nB(X 11 y p),nB(X 22 e independientes, la suma de estas dos v.a.
es otra binomial de parámetros p);n+nB(X+X 2121 .
Actividad 5.1:
Probabilidad de que al lanzar 5 monedas salgan dos caras.
5.3. DISTRIBUCIÓN HIPERGEOMÉTRICA
Sea E una población finita cuyos elementos son de dos tipos: el A o el A . El número
de veces que aparece el suceso A al realizar n extracciones sin reemplazamiento, se
denomina v.a. hipergeométrica y se representa por:
p)n,H(N,X
Por ejemplo, supongamos un lote de N piezas, de las cuales hay N 1
defectuosas y N 2 correctas. Si tomamos n piezas al azar del lote y contamos el
número de piezas defectuosas que aparecen de entre esas "n", dicho número se
denomina variable hipergeométrica.
5. Principales distribuciones discretas
-124-
N1
N2
n
n-
Figura 5. 1. Distribución hipergeométrica
Se suele representar por el esquema que aparece en la Figura 5. 1 5. 1.
La función de probabilidad es:
n
N+N
-n
NN
=)=P(X21
21
Se demuestra que el valor medio de esta v.a. es:
np=E(X)
y que su varianza es:
1-N
n-Nnpq.=(x)D
2
Observar que cuando N es muy grande en relación al tamaño n de la muestra,
la varianza, tomando límites, tiende a
npq=(X)D2
esto es la varianza de la binomial. Por ello cuando se cumple la condición de que
10n
N
la variable hipergeométrica se aproxima a la binomial B(n,p). Es decir, las
extracciones sin reemplazamiento equivalen a extracciones con reemplazamiento, ya
5. Principales distribuciones discretas
-125-
que al ser el tamaño de la población muy grande en relación al tamaño de la muestra,
hay muy pocas posibilidades de que un mismo elemento sea elegido dos veces.
Actividad 5.2:
Probabilidad de que al extraer al azar 3 cartas de una baraja de 40 cartas, dos de
ellas sean oros.
En un contenedor hay 500 motores y se sabe que el 5% de ellos son defectuosos. Si
extraemos al azar 10 motores ¿cuál es la probabilidad de que en esos 10 hayan 2
motores defectuosos?
5.4. DISTRIBUCIÓN DE POISSON
Si observamos el número de defectos que aparecen en una pieza mecánica, estos
pueden ser 0,1,2,3..., y en teoría pueden haber hasta infinitos defectos. Es decir, se
trata de un espacio muestral infinito numerable.
Un modelo matemático que se ajusta bastante bien al número de defectos es
la distribución de Poisson, la cual aparece como consecuencia del límite de una v.a.
binomial p)B(n, cuando 0p ,n y se mantiene constante el producto de
=n.p .
Para obtener la función de probabilidad de la v.a. de Poisson, partimos de la
fórmula de la binomial, y hacemos tender el límite para cuando 0py n , así:
=)p-(1pn
=)=P(X-n
)p-(1p!
1)+-1)...(n-n(n=)p-(1p
)!-(n!
n!=
-n-n
Haciendo tender 1q 0,p ,n , y queda
!
.e=)=P(X
-
La media es
==E(X) 1
y la varianza es
5. Principales distribuciones discretas
-126-
=-+=-=(X)D222
122
Si )PS(X 11 y )PS(X 22 e independientes, la suma de v.a. de Poisson
da lugar a otra distribución de Poisson de parámetro suma de parámetros.
Otra forma en que aparece la distribución de Poisson es contando el número
de sucesos hasta un cierto tiempo "t", cuya expresión es:
!
)t(e=)=XP(
t-
t
donde λ·t es el promedio de sucesos que ocurren en un tiempo t.
Para obtener los distintos valores de )=P(X se emplea el ábaco de
Poisson.
Actividad 5.3:
o En una fábrica donde hay muchas máquinas se sabe que por término medio se
averían 2 al día. Se pide:
o Probabilidad de que en un día se averíen 4 máquinas.
o Probabilidad de que se averíen 4 máquinas en 5 días.
o De una determinada póliza de seguros se sabe que reclaman por término medio 4 al
mes. Si por cada póliza hay que indemnizar con 1000€, ¿cuánto dinero tenemos que
preparar para poder pagar al final del mes con una probabilidad del 95%?
5.5. DISTRIBUCIÓN BINOMIAL-NEGATIVA
El número de veces que hay que repetir un experimento aleatorio hasta que aparece
"r" veces el suceso A de probabilidad p, se llama variable aleatoria binomial
negativa, y se representa por:
p)BN(r,X
La función de probabilidad )=P(X , se calcula pensando que para que en la
repetición número haya aparecido el suceso A "r" veces, en los 1- primeros
tiene que haber aparecido de cualquier forma r-1 veces el suceso A, y en la repetición
el suceso A, de aquí:
5. Principales distribuciones discretas
-127-
qp1-r
1-=.pqp
1-r
1-=)=P(X
r-rr-1-r
El valor medio de esta variable aleatoria es:
p
r=E(X)
y su varianza
p
rq=(X)D 2
2
Un caso particular interesante es cuando r=1, esto es, el número de veces
que hay que repetir un experimento aleatorio hasta que aparece por primera vez el
suceso A. A este caso particular también recibe el nombre de "distribución
geométrica" o "distribución de Pascal".
El valor medio y la varianza son:
p
xE1
)(
2
2 )(q
pXD
Actividad 5.4:
¿Cuántas veces, por término medio, hemos de tirar un dado para que salga por
primera vez el 1?
¿Cuántas veces por término medio hemos de tirar un dado para que salga por
segundo vez el 1?
5.6. DISTRIBUCIÓN MULTINOMIAL
La distribución multinomial es una generalización de la binomial. En lugar de contar la
aparición de un suceso cada vez que realizamos un experimento aleatorio, contamos
más de un suceso. De esta forma, nombrando a A1 , A2 ,..., Ak los distintos sucesos
que pueden aparecer al efectuar el experimento aleatorio, designamos con x1 el
5. Principales distribuciones discretas
-128-
número de veces que aparece el suceso A1, x2 el número a veces que aparece el
suceso A2, y xk el número de veces que aparece el suceso Ak, al repetir n veces el
experimento aleatorio,
La variable k-dimensional (x1, x2, ...,xk) recibe el nombre de variable aleatoria
multinomial, con función de probabilidad,
k
k
k
kk pppn
xxxP
21
21
21
2211!...!!
!);...;;(
siendo pi la probabilidad que aparezca el suceso Ai al realizar una vez el experimento
aleatorio, y cumpliéndose que:
1...
....
321
321
k
k
pppp
n
Cuando k=2 se trata de la variable binomial, que tal como dice el nombre cuenta
dos sucesos aleatorios.
El valor medio de cada marginal viene dado por:
ii npxE )(
La variancia de cada marginal es:
iii qnpxD )(2
La covariancia (mide la relación lineal que hay entre dos variables) entre dos
marginales es:
jiji pnpxx ),cov(
Por ejemplo, si lanzamos n veces un dado, la variable aleatoria que cuenta el
número de 1's, 2's, 3's, 4's, 5's y 6's, es una variable aleatoria multinomial.
Actividad 5.5:
1. De 20 barajas de 40 cartas, saco al azar 8 cartas. ¿Cuál es la probabilidad de que
sean 2 oros, 1 espadas, 2 copas y 3 espadas.
5. Principales distribuciones discretas
-129-
5.7. PROBLEMAS PROPUESTOS
5.7.1.- Si X es la variable aleatoria número de veces que hay que lanzar un dado
hasta obtener por primera vez un seis, determinar su valor medio.
Solución: 6
5.7.2.- Un interruptor debe ser reemplazado después del primer fallo. La probabilidad
de que funcione adecuadamente en cualquier utilización es 0,995. Si X indica el
número de veces que el interruptor ha funcionado correctamente hasta su
reemplazamiento, calcular su valor medio y su varianza.
Solución: E(X) = 199 Var(X) = 39800
5.7.3.- Sea X el número de veces que se ha lanzado un dado hasta conseguir un
seis. Hallar:
a) Función de probabilidad de X,
b) Valor esperado de X.
Solución: a) P(X = k) =(5/6)k-1 (1/6) k =1,2, . . b) 6
5.7.4.- Una nave de fabricación está integrada por un número considerable de
máquinas idénticas y se sabe por experiencia que el promedio de las que se averían
semanalmente es de 5.
a. Calcular la probabilidad de que hayan más de 3 averiadas en la misma
semana.
b. ¿Cuál es el número de máquinas de reserva que se precisan en una semana
para tener una probabilidad al menos de 0,99 de que al averiarse cualquier
máquina podrá sustituirse.
Solución: a) 0,7340 b) 11
5.7.5.- En una central telefónica de una ciudad se reciben un promedio de 4 llamadas
por minuto, en las horas de máximo tráfico. Si la instalación tiene una capacidad tal
que puede atender a los sumo 12 llamadas por minuto, ¿cuál es la probabilidad de
que en un minuto determinado no sea posible dar línea a todos los clientes que lo
5. Principales distribuciones discretas
-130-
soliciten?
Solución: 0,0003
5.7.6.- Un servicio de mantenimiento de aviones realiza diferentes tipos de
reparaciones. Las solicitudes de reparación para un sistema particular recibidas en un
período de tiempo pueden considerarse que constituyen un proceso de Poisson.
Concretamente:
SISTEMA Nº MEDIO DE REPARACIONES
EN UNA SEMANA
motor λ1 = 2.0
diseño λ2 = 0.5
hidráulica λ3 = 1.3
tren de aterrizaje λ4 = 0.2
a) ¿Cuál es la probabilidad de que el número total de reparaciones solicitadas en
una semana sea mayor o igual que tres y menor o igual que 7?
b) Si el promedio de reparaciones de diseño se duplica y el promedio de
reparaciones de motor se reduce a la mitad, ¿cuál es la probabilidad de que
en dos semanas el número total de reparaciones sea menor o igual que 8?
Solución: a) 0.7108 b) 0.7291
5.7.7.- Los fallos de fluido eléctrico en una estación de trabajo siguen una distribución
de Poisson y tienen un promedio de 1,5 fallos al mes.
a) ¿Cuál es el número de fallos esperado en un año?
b) ¿Cuál es la probabilidad de que se produzcan más de 20 fallos en un año?
c) ¿Cuál es la probabilidad de que el próximo fallo ocurra antes de 2 meses?
d) ¿Cuál es la probabilidad de que ocurra antes de tres meses pero no antes de
2 meses?
Solución: a) 18 b) 0,2776 c) 0,9502 d) 0,0387
5.7.8.- Las máquinas de 5 fábricas diferentes se rompen con una frecuencia media de
5. Principales distribuciones discretas
-131-
1.2, 3.2, 0.7, 3.5 y 2.4 veces al día. Los procesos de rotura en los diferentes sitios son
independientes, y cada proceso se asume que satisface las condiciones de un
experimento de Poisson:
a) ¿Cuál es la probabilidad de que el número total de roturas en un día dado
exceda de 12 unidades?,
b) Después de una rotura en cualquier fábrica ¿cuál es la probabilidad de que la
próxima rotura (sea cual sea la fábrica) ocurra en las dos horas siguientes?
Solución: a) 0.3113 b) 0.60
5.7.9.- Se ha fabricado una partida de transistores con un 20% de unidades
defectuosas. Si X es una variable aleatoria que indica el número de transistores
defectuosos obtenidos al seleccionar 4 transistores de la partida, obtener su función
de probabilidad.
Solución: xx
xxP
4)8.0()2.0(
4)(
5.7.10.- Un sistema multiproceso utiliza 12 procesadores y ha sido configurado de
modo que puede satisfacer todas sus funciones, aunque mas lentamente, si
funcionan 9 procesadores. Si la probabilidad de que funcione cada procesador
durante el tiempo de ejecución de un trabajo es 0,8 y los fallos de los procesadores
son independientes ¿cuál es la probabilidad de que el sistema funcione hasta que se
complete el trabajo?
Solución: 0.7946
5.7.11.- Una compañía de seguros, que cuenta con 10.000 asegurados, determina
que el 0,005% de la población fallece cada año de un cierto tipo de accidente:
a) Calcular la probabilidad de que la compañía de seguros tenga que pagar a los
beneficiarios de 3 o más de los asegurados contra tal tipo de accidente en un
año determinado.
b) ¿Cuál es el número de accidentes al año por término medio?
Solución: a) 0,0144 b) 0,5
5. Principales distribuciones discretas
-132-
5.7.12.- Se seleccionan por separado tres muestras aleatorias en una línea de
producción en la cual el 5% de las unidades son defectuosas. Las dos primeras
muestras tienen un tamaño igual a 20 y la tercera un tamaño igual a 10. ¿Cuál es la
probabilidad de que el número de unidades defectuosas encontradas entre las tres
muestras sea mayor o igual que 1 y menor o igual que 4?.
Solución: 0.81944
5.7.13.- Una partida de bujías con alta proporción de inservibles (20%) sale al
mercado en paquetes de 4 unidades y en cajas de 10 paquetes. Calcular la
probabilidad de que:
a) Elegido un paquete al azar contenga 2 o más bujías inservibles.
b) Elegida una caja al azar contenga más de 10 bujías inservibles.
c) Elegida una caja al azar contenga 3 paquetes sin bujías inservibles.
Solución: a) 0'1808 b) 0'1608 c) 0'2062
5.7.14.- Una máquina de fabricación de tornillos produce por término medio 2
tornillos defectuosos por cada 85, empaquetándose éstos en cajas de 170 unidades.
¿Cuál es la probabilidad de que tomadas al azar 7 cajas, en sólo 2 de ellas no haya
ningún tornillo defectuoso?
Solución: 0'0064
5.7.15.- Una fábrica encuentra que el 20% de los diskettes que produce son
defectuosos. Si se eligen diez diskettes al azar de un lote, hallar la probabilidad de
que:
a) Hayan exactamente dos defectuosos.
b) Que dos o más sean defectuosos.
Solución: a) 0.3 b) 0.62419
5.7.16.- Cada hora se toman 50 unidades de la producción de una máquina. Si la
muestra contiene dos o más unidades defectuosas, se ajusta la máquina. Si esta
produce un 2% de unidades defectuosas, calcular el tiempo medio entre sucesivos
ajustes.
5. Principales distribuciones discretas
-133-
Solución: (3'784-1) horas
5.7.17.- Una industria recibe piezas en lotes de un gran número de unidades. Se
desea reparar un plan de control de calidad de tal forma que tomando al azar n
unidades del lote, si se observa alguna defectuosa se rechaza el lote. Determinar n
para que si el lote tiene un 5% de unidades defectuosas, la probabilidad de
aceptarlos sea menor de 0,01.
Solución: 90.
5.7.18.- Un cargamento de 20 acelerómetros altamente sensibles deben ser
aceptados o rechazados en base a una muestra de 5 unidades seleccionadas
aleatoriamente del lote. El cargamento será rechazado si en la muestra hay más de
una unidad defectuosa. ¿Cuál es la probabilidad de que el cargamento sea aceptado
si se sabe que el 10% de las unidades no cumplen las especificaciones?.
Solución: 0,9473
5.7.19.- Un comerciante compra relés eléctricos en lotes de 1.000 unidades. En cada
lote se seleccionan 15 unidades, y el lote se acepta si el número de unidades
defectuosas es menor o igual que 3. El fabricante sabe que hay un 10% de unidades
defectuosas en cada lote, ¿cuál es la probabilidad de que sea rechazado un lote?
Solución: 0,0555
5.7.20.- En una fábrica el número de accidentes por semana sigue una distribución
de Poisson de parámetro λ =2. Se pide:
a) Probabilidad de que en una semana haya algún accidente
b) Probabilidad de que hayan 4 accidentes en el transcurso de 2 semanas
c) Probabilidad de que hayan 2 accidentes en una semana y otros 2 en la
siguiente
d) Es lunes, y ya ha habido un accidente. Calcular la probabilidad de que en esa
semana no haya más de tres accidentes.
5. Principales distribuciones discretas
-134-
Solución: a) 0'8646 b) 0'1954 c) 0'0733 d) 0'8348
5.7.21.- Un partida de diamantes industriales con una proporción de inservibles de
15% sale al mercado en paquetes de 4 unidades y en cajas de 10 paquetes, elegida
una caja al azar calcular la probabilidad de que contenga 2 paquetes con al menos un
diamante defectuoso.
a) 0’0567
b) 0’1860
c) 0’2456
d) 0’0836
5.7.22.- Una línea de fabricación está compuesta por un número considerable de
robots ¿Cuál es el número de robots de reserva que se precisan en una semana para
tener una probabilidad al menos del 90% de que al averiarse cualquier robot podrá
sustituirse?. Se sabe por experiencia que el promedio de averías es de 9’5 a la
semana.
a) 10
b) 16
c) 13
d) 14
5.7.23.- En una empresa de electrónica se reciben componentes en lotes de gran
tamaño. Un lote se considera correcto si tiene menos de un 1‰ de piezas
defectuosas. Se toma una muestra de tamaño n y si no aparece ninguna defectuosa
se acepta el lote. Calcular el tamaño de muestra mínimo que se debe tomar si
queremos cometer un error de segunda especie con probabilidad menor del 8%
cuando el porcentaje de piezas defectuosas en el lote sea del 1%
a) 230
b) 240
c) 252
d) 265
5. Principales distribuciones discretas
-135-
5.7.24.- De un paquete de bolígrafos en los que hay un 18% que no funcionan, ¿cuál
es la probabilidad de tener que probar 6 de ellos hasta encontrar 3 que funcionen?.
a) 0.0116
b) 0.0326
c) 0.0097
d) 0.0177
5.7.25.- El número medio de defectos por metro cuadrado de una superficie cerámica
es de 0.29, ¿cuál es la probabilidad de que una superficie de 50 m2 encontremos 12
o mas defectos?
a) 0.9389
b) 0.2911
c) 0.8200
d) 0.7799
5.7.26.- La probabilidad de que en un telar se produzca al menos una avería en un
día, es del 5%. Calcular, por término medio, el número de averías que se producirán
semanalmente.
a) 0.359
b) 20.97
c) 0.0513
d) 0.0073
5.7.27.- En un lote de 40 diamantes industriales para máquinas de corte, existe una
probabilidad del 25 % de que un diamante no cumpla las características físicas para
ser utilizado. ¿Cuántos diamantes debemos tomar para tener una probabilidad de
0.98785 de que al menos uno nos va a ser útil?
5. Principales distribuciones discretas
-136-
a) 8
b) 7
c) 5
d) 3
5.7.28.- Un plan de muestreo de materias primas en lotes de 1000 unidades, consiste
en tomar 10 piezas al azar, y si aparece alguna defectuosa se rechaza el lote.
Calcular la proporción de piezas defectuosas en un lote que tenga una probabilidad
de ser rechazado, según dicho plan de muestreo, de 0.1.
a) 0.3162
b) 0.2056
c) 0.0513
d) 0.0104
5.7.29.- Se denomina fiabilidad de un sistema informático a la probabilidad de que
funcione satisfactoriamente. Supongamos que esta formado por 50 componentes
cuya función requiere el correcto funcionamiento de al menos 40 de ellos. La
probabilidad de que cada componente funcione después de 100 horas es 0.9 y los
componentes se averían independientemente. ¿cual es la fiabilidad del sistema
informático después de 100 horas?
Solución: 0.985
5.7.30.- De una Base de Datos se cogen 20 registros para su verificación. Se
considera que la Base de Datos es correcta cuando no hay ningún registro
defectuoso. ¿Cual es la probabilidad de aceptar cuando la Base de Datos tiene un
10% de registros defectuosos?
5. Principales distribuciones discretas
-137-
Solución: 0.12
5.7.31.- Se tiene constatado que 1/3 de una Base de Datos de Clientes de un
empresa son extranjeros. Tomando una muestra al azar de 10 registros de la Base
de Datos, estudiar:
a) Probabilidad de que hayan 2 empresas extranjeras.
b) Probabilidad de que hayan más de 3 empresas extranjeras.
c) Probabilidad de que hayan como máximo cinco empresas extranjeras.
Solución: a) 0.1951 b) 0.44 c) 0.9235
5.7.32.- El control de calidad de las carcasas de ordenadores, se realiza tomando 2
unidades y contando el nº de defectos que aparecen. El promedio de defectos que se
ha tenido hasta el presente es de 1.3 (entre las dos unidades). ¿Cuál es la
probabilidad de que, sin cambios en el proceso, aparezca una muestra con más de 5
defectos?
Solución: 0.002
5.7.33.- Si de cada 200 diskettes hay uno con virus, ¿cuántos discos debemos
verificar para tener una probabilidad de 0.85 de encontrar al menos uno con virus?
Solución: 379
5.7.34.- En un proceso de fabricación de componentes electrónicos se produce un
0.5% de unidades defectuosas. Dichas componentes se expiden en cajas de 3.000
unidades.
a) ¿Cuál puede ser la población de estudio?, ¿y la variable aleatoria?, ¿cómo se
distribuye?
b) Se desea acompañar cada caja con un certificado garantizando que la caja
contiene como mínimo C componentes correctas. ¿cuál es el máximo valor que
puede darse a C si se desea que la probabilidad de cumplir la garantía sea
5. Principales distribuciones discretas
-138-
superior al 99%?
Solución: a) X= B(3000, 0.005) , N(15, 3.863) b) 2976 unidades
5.7.35.- Una persona rellena sus quinielas completamente al azar,
a) ¿Cuántas tendría que rellenar si deseara tener una probabilidad superior al
95% de acertar al menos 13 resultados?
b) Si rellena 100.000 quinielas de la misma forma ¿cuál es la probabilidad de
obtener al menos dos veces una de 14 aciertos?
c) ¿Y si rellena 1.000.000 quinielas?
Solución: a) 494.018 quinielas b) 0.000308 c) 0.01992
5.7.36.- Una empresa de software desea vender un nuevo programa de aplicación en
empresas, para ello envía publicidad postal a una muestra de 40 empresas,
invitándoles a conocer la última novedad de la empresa y ofrecerles un obsequio a
cambio. Los expertos estiman que un 30% de las empresas responderán a la
invitación pero que, de éstas, sólo un 20% adquirirá el programa. Calcula la
probabilidad de que después de la demostración nadie haya decidido comprar el
programa.
Solución: 0.084
5.7.37.- Una determinada normativa oficial exige que para unos envíos de disquetes,
el porcentaje de defectuosos no puede exceder del 10%; con el fin de controlar el
cumplimiento de dicho requisito un servicio de control inspecciona cada partida
seleccionando N disquetes al azar y rechazando el envío si encuentra más de 2
defectuosos.
a) Calcular cuánto debe valer N para que la probabilidad de aceptar un envío
que no satisfaga el requisito de calidad exigido sea inferior al 5 %.
b) Los disquetes se agrupan en cajas de 10 unidades que se envían en
paquetes de 50 cajas. Una caja se considera defectuosa si tiene más de 1
disquete defectuoso. Si un envío tiene un 10% de disquetes defectuosos ¿cuál
es la probabilidad de que un paquete no tenga ninguna caja defectuosa? (definir
5. Principales distribuciones discretas
-139-
las poblaciones y variables aleatorias de estudio en cada caso).
Solución: a) N= 62 unidades b) p= 0.0000002062
5.7.38.- Para controlar la calidad de las partidas de cierto tipo de piezas que se
reciben en una factoría se utiliza el siguiente plan de muestreo en dos etapas:
1 - Se toma una primera muestra de 50 piezas. La partida se acepta si todas las
piezas resultan correctas y se rechaza si hay más de 2 defectuosas.
2- En el resto de los casos se toma una muestra de otras 50 piezas,
aceptándose definitivamente la partida si en el total de las dos muestras hay
menos de 3 piezas defectuosas y rechazándose en el caso contrario.
a) ¿Qué probabilidad tiene el plan anterior de aceptar una partida que tenga un
1% de piezas defectuosas?.
b) Si todas las partidas que llegan a la factoría tienen un 1% de piezas
defectuosas, en promedio ¿ qué número de piezas se examinarán por partida?
Solución: a) 0.9285 b) 69.04 unidades revisadas
5.7.39.- Se sabe que una mecanógrafa comete en promedio un error cada 1000
caracteres tecleados. Calcular la probabilidad de que en un escrito que contiene 3000
letras haya más de dos errores.
Solución: 0.577
5.7.40.- Una peña juega a las quinielas 1000 boletos cada semana manteniendo 6
partidos fijos rellenando al azar los resultados (1, X ó 2) de los 8 restantes.
Supongamos que la peña acierta siempre los resultados de los 6 fijos:
a) ¿Cómo se distribuye la variable aleatoria X: número de aciertos en una
quiniela?
b) Un boleto resulta premiado si ha acertado al menos 12 resultados, ¿cómo se
distribuye la variable aleatoria Y: número de boletos premiados obtenidos en una
semana?
c) La peña juega todos los años de la forma indicada las 40 jornadas en las que
hay quinielas, ¿cómo se distribuye la variable aleatoria Z: número de semanas
en que la peña obtiene algún premio a lo largo del año? (definir también la
población y sucesos de estudio en todos los casos, y no considerar el partido del
5. Principales distribuciones discretas
-140-
pleno al 15, es decir sólo 14 partidos).
Solución: a) X: B(14, 0.33) b) Y: B(1000, 0.0196)» N(19.66, 4.43) c) Z: B(40,1)
5.7.41.- Un campo de naranjos es atacado por una plaga de mosca del Mediterráneo
y se sabe que cada mosca deposita sus huevos (es decir "pica") en una sola naranja.
Suponiendo que en el huerto hay 200.000 naranjas y que es atacado por 50.000
moscas
a) ¿Cuál es la probabilidad de que una naranja tenga más de una picada?.
b) Si las naranjas del huerto se vendieran en bolsas de 10 unidades ¿cuál sería
la probabilidad de que hubiera 10 naranjas sanas en la bolsa? (definir las
poblaciones y variables aleatorias de estudio en cada caso, así como los
supuestos para las que estén justificadas las distribuciones propuestas).
Solución: a) 0.0265 b) 0.082
5.7.42.- Se sabe que el 1 por mil de las ostras que se encuentran en determinada
zona tiene una perla en su interior. Para hacer una determinada joya se precisan 5
ostras. ¿cuál es el número mínimo de ostras que hay que coger si se desea tener una
probabilidad superior al 95% de reunir las 5 perlas necesarias?.
Solución: 9000 ostras
5.7.43.- Una determinada pieza de una máquina sufre a lo largo de su funcionamiento
impactos accidentales que la van deteriorando progresivamente. Estos impactos, no
apreciables exteriormente, se presentan siguiendo un proceso de Poisson de
parámetro λ=0.4 impactos por hora.
Se sabe que, a causa del deterioro ocasionado, la pieza falla al recibir el
decimoquinto impacto. Con el fin de evitar el fallo de la pieza, que puede
ocasionar serios daños a toda la máquina, la sección de mantenimiento ha
decidido sustituir sistemáticamente la pieza por otra nueva tras cada Z horas de
funcionamiento.
¿Cuánto debe valer como máximo Z, si se desea que la probabilidad de fallo de
una pieza sea inferior a 0.05?
5. Principales distribuciones discretas
-141-
Solución: 21.57
5.7.44.- La pérdida espontánea de información de un "bit" almacenado en una
memoria de cálculo se denomina fallo S. Este tipo de fallo no es muy frecuente
apareciendo en promedio uno por cada millón de horas y por "bit" almacenado. Sin
embargo, cuando el "chip" está expuesto a partículas alfa (núcleos de Helio), lo que
ocurre de forma natural en el ambiente, esta probabilidad de fallo S se ve
incrementada, siendo igual a 1 fallo por cada 1000 horas.
Si "chips" que contienen 6000 "bits" son expuestos a partículas alfa:
a) ¿Qué distribución sigue la variable aleatoria X: número de fallos S por hora en
un "chip"? ¿Cuál es la población objeto de estudio? Justifica las respuestas.
b) ¿Cuál es la probabilidad de que en una hora haya al menos un fallo S en un
"chip"?. ¿Sería anormal que hubiera cinco o más fallos S en una hora? Justifica
la respuesta obteniendo la probabilidad del suceso correspondiente.
c) Si un módulo contiene dos "chips" de estas característica, ¿sería extraño que
en dicho módulo hubiera más de 20 fallos S en una hora? Justifica la respuesta
obteniendo la probabilidad del suceso correspondiente.
d) ¿Cuál es la mediana de la distribución del número de fallos S por módulo y
por hora? ¿Qué indica? ¿Cuál crees que será el coeficiente de asimetría de esta
distribución? Justifica las respuestas.
Solución: a) 0.998 b) 9 0.715 c) 0.01 d) 12 y CA=0
5.7.45.- Para poder aceptar las partidas de diskettes que ofrece un nuevo proveedor,
una multinacional exige que el porcentaje de diskettes con algún sector defectuoso
no puede exceder el 2.5%.
Con el fin de controlar el cumplimiento de este requisito, un servicio de control en
recepción inspecciona cada envío, seleccionando N diskettes al azar y rechazando
dicho envío si encuentra más de dos diskettes defectuosos.
a) Calcular cuánto debe valer N para que la probabilidad de aceptar un envío
que no satisfaga el requisito exigido sea inferior al 5%. (Utilizar aproximación de
Poisson).
b) Los diskettes se comercializan en paquetes de 10 unidades, y a su vez los
paquetes se envían en cajas de 15 paquetes cada una. Un paquete se considera
5. Principales distribuciones discretas
-142-
defectuoso si tiene más de 1 diskette dañado. Si un envío tiene un 8% de
diskettes defectuosos:
b1) ¿Cómo se distribuye la variable aleatoria X: número de paquetes
defectuosos en una caja?
b2) ¿Sobre qué población estará definida X?
b3) ¿Cuál es la probabilidad de que una caja no tenga ningún paquete
defectuoso?
Solución: a) N>248 b3) 0.044
5.7.46.- Un canal binario simétrico transmite los dígitos 0 y 1. Se supone que hay una
probabilidad de 0,2 de que al transmitir uno de los números se reciba otro a causa de
ruidos o perturbaciones. supongamos que se envía un mensaje importante y para
transmitir "0" enviamos "000" y análogamente para "1" enviamos "111". Se supone
que el receptor al traducir la señal recibida utiliza la regla de la mayoría.
Ejemplo:
Si se recibe "110" se traduce como 1
Si se recibe "010" se traduce como 0
... ... ...
¿Cuál es la probabilidad de que al traducir una señal sea errónea?
Solución: 10.4%
5. Principales distribuciones discretas
-143-
5.8. PROBLEMAS Y CUESTIONES DE EXÁMENES
5.8.1.- En un taller se ha recibido un envío de 150 tuercas de rosca métrica 5, 2500
tuercas de rosca métrica 6 y 2350 tuercas de rosca métrica 7. Por un error del
proveedor vienen todas mezcladas en una única caja.
a) Si tomamos 10 tuercas al azar, calcular la probabilidad de que haya
exactamente 5 de rosca métrica 6. (0,5 puntos)
b) Ahora separamos una caja con 100 tuercas elegidas al azar ¿Cuál es la
probabilidad de que haya más de 2 y menos de 5 tuercas de rosca métrica 5?
(0,5 puntos)
c) Si un operario necesita exactamente 4 tuercas de rosca métrica 6. Si las va
cogiendo una a una al azar ¿Cuál es la probabilidad de que tenga que sacar
exactamente 7 tuercas hasta conseguir las 4 necesarias? (0,5 puntos)
d) Si un operario coge un puñado de 10 tuercas ¿Cuál es la probabilidad de que
haya exactamente 5 de rosca métrica 6 y otras 5 de rosca métrica 7? (0,5
puntos)
e) Si necesitamos exactamente 5 tuercas de rosca métrica 5 ¿Cuántas
deberemos coger aleatoriamente para garantizarnos una probabilidad del 90%
de que conseguiremos las 5 necesarias? (1 punto)
SOLUCIÓN
a) Llamando a X= número de roscas de métrica 6, ésta sigue una distribución
binomial de parámetros,
)5,0;10()5000
2500;10( BpnBX
La probabilidad pedida es
2461,05,0·2525,0·5,0·5
10)5( 1055
XP
b) Llamando ahora a X= número de roscas de métrica 5, ésta sigue una distribución
binomial de parámetros,
)03,0;100()5000
150;100( BpnBX
Y esta distribución, como n>30 y p<0,1 y np<5, se puede aproximar a una distribución
de Poisson de parámetros )3(Ps . La probabilidad pedida es,
5. Principales distribuciones discretas
-144-
3911,04232,08153,0)2X(P)4X(P)5X2X(P
c) Si llamamos a X= número de tuercas que sacamos hasta tener 4 de métrica 5,
ésta es una distribución binomial negativa de parámetros,
)5,0p;4r(BNX
La probabilidad de que exactamente X sea 7 es,
rr )p1(p1r
1)X(P
1563,05,0·20)5,01·(5,0·14
17)7X(P 7474
d) En este caso la X se trata de una distribución multinomial de parámetros,
)47,0p5,0p03,0p;10n(MX 321
Y la probabilidad pedida es,
1806,047,0·5,0·03,0·!5!5!0
!10)5,5,0( 550
321 XXXP
e) El número de roscas de métrica 5 que hay en n elegidas al azar, sigue una
distribución binomial de parámetros,
)03,0·()03,0;( nPspnBX
La condición impuesta es que 9,0)5)·03,0(( nPsP , y su contraria es
10,0)4)·03,0(( nPsP
Buscando en las tablas se tiene que 8n·03,0 de donde,
26767,26603,0
8n
5.8.2.-
a) En la empresa FORD ESPAÑA S.A. se lleva a cabo el control de calidad del
proceso de imprimación de las carrocerías contando los defectos de todo tipo
(rayas, manchas, pelusas, cráteres,…) que aparecen en las carrocerías antes
5. Principales distribuciones discretas
-145-
de proceder al lijado de dichos defectos como paso previo al pintado de las
carrocerías. El ingeniero de calidad de la planta propone un plan de control de
calidad consistente en contar los defectos en 2 carrocerías y rechazar que el
proceso sea correcto si en total aparecen más de C defectos. ¿Cuál debe ser
ese valor C si queremos que cuando el promedio de defectos por carrocería
sea de 1,45 aceptemos el proceso como correcto en el 99% de los casos?(1,5
puntos)
b) En la misma empresa se inspeccionan las grapas de sujeción de la tapicería
cogiendo n grapas y aceptando el lote si en ellas aparece como máximo 5
defectuosas. ¿Cuál debe ser el número de grapas a inspeccionar si queremos
que un lote con solo un 1% de grapas defectuosas sea aceptado con una
probabilidad mayor del 99%? (1,5 puntos)
SOLUCIÓN
a) El número de defectos en una carrocería es una variable X=Ps(λ) y en dos
carrocerías Y=X1+X2=Ps(2λ).
Según la propuesta habrá que calcular un C tal que
P(Ps(2x1,45)≤C)=0,99.
En las tablas de la variable de Poisson esto ocurre para C=7
b) El número de grapas defectuosas en una muestra de n grapas es X=B(n,
P)≈Ps(nP) (después comprobaremos la aproximación)
Habrá que buscar n para que
P(Ps(n0,01)≤5)=0,99
En las tablas de la Poisson, para λ=1,70 tenemos p(Ps(1,70)≤5)=0,9920 (>0,99)
Luego λ=1,70=n·0,01→n=170
Justificación: n=170 >50, p=0,01<0,10 y nP=1,70< 5 luego vale la aproximación
5.8.3.- El director de una fábrica, un Graduado en Tecnologías Industriales, debe
decidir el número de operarios de una cierta sección de la fábrica que va a
contratar. Dichos operarios procesan unidades de un cierto producto, que llegan a
su sección cada mañana a primera hora. El número de unidades de dicho
producto que llega a la sección cada día se distribuye según una Poisson con
media 5. Cada operario puede procesar una y sólo una unidad por día. Las
unidades que no se procesen se acumulan en un contenedor único y serán
eliminadas mediante el uso de una máquina recicladora, lo que genera un coste
5. Principales distribuciones discretas
-146-
igual a 1000 € por día que se utilice (independientemente del número de unidades
que tenga que reciclar).
a) ¿Cuántos operarios tendrá que contratar como mínimo para asegurarse que,
con una probabilidad del 95%, todas las unidades que llegan en un día
cualquiera serán procesadas? (1.25 puntos)
b) Suponiendo que se dispone de 9 operarios, ¿cuál es la probabilidad de que se
tenga que usar la máquina recicladora más de 5 veces en un año? ¿Cuál será,
en promedio, el gasto de la fábrica en la máquina recicladora por año?
(Suponer que la fábrica opera 300 días al año). (1.25 puntos)
c) En promedio, ¿cuántos días pasarán a partir de hoy hasta que la máquina
recicladora tenga que actuar por primera vez? ¿Y por segunda vez? (0.5
puntos).
SOLUCIÓN
a) X=Ps(5)
Hay que buscar a/ P(Ps(5)≤a)≥0,95 según ábaco P(Ps(5)≤9)=0,97 a=9
trabajadores
b) Según los datos anteriores P(Ps(5)>9)=0,03 que es la probabilidad de que en
un día tengamos que utilizar la recicladora por uno o más equipos reciclados
El número de días en 300 que se utiliza la recicladora X=B(n=300, P=0,03)=Ps(9)
P(X>5)=1-P(X≤5)=1-P(Ps(9)≤5)=1-0,12=0,88
El coste anual de la recicladora es Y=1000X y su valor medio
E(Y)=1000E(X)=1000 x 9 =9000 Euros/año
c) Días hasta 1ª vez X=Bn(r=1, P=0,03) E(X)=r/P= 1/0,03=33,33
Días hasta 2ª vez X=Bn(r=2, P=0,03) E(X)=r/P= 2/0,03=66,66
5. Principales distribuciones discretas
-147-
5.8.4.- Una empresa de telefonía móvil factura un 5% de llamadas de duración
superior a 10 minutos.
a) Calcular la probabilidad de que en 15 llamadas elegidas al azar haya
exactamente 1 con duración superior a 10 minutos (1 punto)
b) ¿Cuál es el promedio de llamadas que tendremos que verificar hasta
encontrar 10 con duración inferior a 10 minutos? (1 punto)
SOLUCIÓN
a) El número de llamadas con duración superior a 10´ en una muestra de n=15
llamadas, si sabemos que hay un 5% de llamadas con duración superior a ese tiempo
será una variable
X=B(n=15; P=0,05)
3658,0)05,01(05,01
15)1( 141
XPLa
b) El número de llamadas hasta obtener 10 con una duración inferior a 10´ será una
variable X=BN(r=10;P=0,95)
y su valor medio E(X)=r/P=10/0,95=10,526
5. Principales distribuciones discretas
-148-
6. Principales Distribuciones Continuas
-149-
TEMA 6. PRINCIPALES DISTRIBUCIONES CONTINUAS
Contenido 6.1. DISTRIBUCIÓN UNIFORME ................................................................... 149
6.2. DISTRIBUCIÓN EXPONENCIAL ............................................................. 150
Tasa de fallos .................................................................................................. 152
6.3. DISTRIBUCIÓN NORMAL UNIDIMENSIONAL ....................................... 154
6.3.1. Variable normal tipificada ...................................................................... 155
6.3.2. Variable normal general......................................................................... 158
6.3.3. Teorema central del límite ..................................................................... 160
Aproximación de la binomial a la normal ........................................................ 161
Aproximación de la Poisson a la normal .......................................................... 162
Corrección por continuidad .............................................................................. 163
6.4. LA DISTRIBUCIÓN NORMAL BIDIMENSIONAL ..................................... 165
Distribuciones marginales ............................................................................... 166
Distribuciones condicionales ........................................................................... 166
6.5. PROBLEMAS PROPUESTOS .................................................................... 169
Distribución uniforme ....................................................................................... 169
Distribución exponencial.................................................................................. 170
Distribución Normal ......................................................................................... 172
Distribuciones bidimensionales ....................................................................... 182
6.6. PROBLEMAS Y CUESTIONES DE EXÁMENES ........................................ 185
6.1. DISTRIBUCIÓN UNIFORME
La variable aleatoria X sigue una distribución uniforme en el intervalo [a;b] cuando
cualquier punto del mismo tiene la misma densidad de probabilidad. De este modo la
función de densidad es constante en todo el intervalo de definición de la variable, tal
y como se expresa en la figura de abajo,
Figura 6. 1. Función de densidad de la distribución uniforme
b
a
fx(x)
X
6. Principales Distribuciones Discretas
-150-
El valor de la altura de la función de densidad tiene que ser de tal forma que el área
bajo dicha función y el eje de abscisas sea la unidad. De aquí que la función de
densidad sea,
ab
1)x(f
La función de distribución viene dada por,
ab
axdx
ab
1xdx)x(f)x(F
x
a
x
a
El valor medio es,
b
a
22b
a
2b
a 2
ab
)ab(2
ab
2
x
ab
1dx
ab
1xdx)x(fx)X(E
Y la varianza se calcula como,
12
)ab()X(E)X(E)mX(E)X(D
2222
x
2
Actividad 6.1:
A partir de un valor al azar entre 0 y 1, obtener un valor al azar de una
uniforme entre 1 y 6.
6.2. DISTRIBUCIÓN EXPONENCIAL
Sea X una v.a. no negativa con función de densidad
a esta v.a. se denomina distribución exponencial, y se representa por )(X EXP .
El valor medio y la varianza son:
1=E(X)
2
2 1=(X)D
y la función de distribución es:
+<x0 para e=f(x) x-
6. Principales Distribuciones Continuas
-151-
Figura 6. 2. Función de densidad exponencial
Figura 6. 3. Función de distribución de la exponencial
Cuando veíamos la distribución de Poisson, definíamos el "proceso de
Poisson" como aquel que cuenta el número de sucesos hasta un tiempo t, cuya
función de probabilidad es:
El tiempo aleatorio entre dos sucesos viene dado por la distribución
exponencial. Así, llamando a "T" la v.a. que indica el tiempo hasta el siguiente
!
)t.(e=)=P(X(t)
t-
x
1
FX(x)
6/ 4/ 3/ 2/ 1/ 5/ 0
0 1/ 2/ 3/ 4/ 5/ 6/ X
fX(x)
6. Principales Distribuciones Discretas
-152-
suceso, se cumple que ese tiempo será mayor que uno en concreto "t", siempre y
cuando de o a t, no haya ocurrido nada, esto es:
y la función de distribución es:
que es la función de distribución de la exponencial y es un modelo matemático muy
empleado en el cálculo los tiempos de vida de un elemento en su periodo de vida útil.
Otra característica de la exponencial es la falta de memoria, es decir,
sabiendo que es mayor que cierto valor, la probabilidad de que sea mayor que otro
valor más avanzado es independiente de lo anterior al primer valor, esto es:
Actividad 6.2:
A partir de un valor al azar de una uniforme entre 0 y 1, obtener un valor al
azar de una exponencial de media 20.
¿Cuál es la probabilidad de obtener un valor menor que la media de una
distribución exponencial?
¿Cuánto vale la mediana de una distribución exponencial de media 20?
Tasa de fallos
Se trata del número de fallos por unidad de tiempo que tiene lugar en una población
de muchos elementos. Matemáticamente se define como un límite de la probabilidad
que un elemento falle en el intervalo de t a t+t, cuando sabemos que el elemento
estaba funcionando en el instante t, todo eso dividido por incremento de t y cuando
este incremento tiende a cero. La expresión que resulta es:
e=0!
)t.(e=0)=P(X(t)=t)>P(T t-
0t-
e-1=t)>P(T-1=(t)Ft-
T
e=e
e=
t)>P(X
s)+t>P(X=t)>s/X+t>P(X s-
t
s)+(t-
6. Principales Distribuciones Continuas
-153-
La función R(t) = P(T>t) es la probabilidad que el elemento esté en
funcionamiento durante un tiempo t, y se define como la fiabilidad de dicho elemento.
La tasa de fallos h(t) viene a ser la velocidad de extinción de los elementos de
una población. Si dibujamos la función h(t) tomando como abscisas el tiempo, la
forma es como se ve en la Figura 6. 4.
h(t)=Tasa de fallos
(función de azar)
t=tiempo
precocesaccidentales fatiga
Figura 6. 4. Tasa de fallos
A esta curva se llama “curva en bañera”. En ella se distinguen claramente tres zonas:
1. Zona A, de fallos precoces o infantiles. Es la etapa de fallos en garantía. Al
principio hay muchos elementos que fallan y poco a poco va decreciendo la
velocidad de fallos.
2. Zona B, de fallos accidentales. Los fallos en esta etapa son accidentales o
debidos al azar. Es la etapa de madurez o periodo de vida útil y la tasa de
fallos h(t) es constante en el tiempo.
3. Zona C, de fallos por envejecimiento. A partir de una determinada edad
aparecen fallos por desgaste o envejecimiento de los elementos.
La distribución exponencial es representativa de los fallos accidentales, donde h(t)
es constante. Así, para la distribución exponencial la tasa de fallo es:
6. Principales Distribuciones Discretas
-154-
Y es la constante de esa tasa de fallo, que expresa el número de fallos por
unidad de tiempo. Tener en cuenta que la media de la variable exponencial es
justamente la inversa de esa tasa de fallos.
En las otras dos zonas, la tasa de fallo se puede aproximar por medio de una
ecuación lineal de la forma
h(t)=·(·t)-1
De manera que:
Si β = 1, h(t) = y se trata de la distribución exponencial.
Si β > 1, h(t) es creciente y es representativo de la zona por
envejecimiento. La distribución que sigue los tiempos de fallo es una
Weibull.
Si β <1, h(t) es decreciente y es representativo de la zona infantil. La
distribución del tiempo de fallo es también una Weibull.
La tasa de fallo tiene mucha importancia en la Ingeniería de Fiabilidad y del
Mantenimiento
6.3. DISTRIBUCIÓN NORMAL UNIDIMENSIONAL
La distribución más importante, tanto por aspectos teóricos como prácticos, es la
distribución normal, la más empleada y la que modeliza el mayor número de
comportamientos de la vida real.
La primera vez que se empleó la distribución normal fue durante el siglo XVIII
en la observación de los errores de medición, de forma que sus valores se ajustaban
bastante bien a una curva en forma de campana. La primera vez que se utilizó esta
distribución fue debido a Moivre en 1733, para demostrar la aproximación de la
binomial a la distribución normal. Esta distribución fue conocida también por Laplace
hacia el año 1775, para demostrar que la suma de los efectos de muchas variables
cada una con poca importancia en relación a las demás, era una distribución normal.
No obstante debido a un error histórico, se atribuyó a Gauss, cuya primera referencia
apareció en 1809, y por ello también se le da el nombre de "campana de Gauss" o
distribución Gaussiana.
En un principio se pensaba que todas las distribuciones seguían una campana
de Gauss, de ahí su nombre de "normal" o "estándar" para referirse a ella, ya que era
“lo normal” es que apareciera.
6. Principales Distribuciones Continuas
-155-
6.3.1. Variable normal tipificada
Aquella variable continua, con campo de existencia en toda la recta real, y con
función de densidad
+<x<- para e2
1=f(x) x
2
1- 2
se denomina variable "normal tipificada", y se representa por N(0;1)X .
f(x) es una función de densidad, ya que 0f(x) y se demuestra que su
integral para todo el campo de existencia vale la unidad. La forma de la función f(x)
aparece en la Figura 6. 5.
Figura 6. 5. Función de densidad de la normal N(0;1)
El área que hay bajo la curva f(x), la cual tiene forma de campana, y la recta
real vale la unidad.
1=f(x)dx
+
-
Del estudio de la curva f(x) se deducen las siguientes propiedades:
1) Asíntotas.
2) Simétrica respecto a x=0.
-3 -2 -1 2 1 3 0
fZ(z)
Z
6. Principales Distribuciones Discretas
-156-
f(-x)=f(x)
3) Tiene un máximo en el punto x=0.
4) Para 0<x es creciente y para 0>x es decreciente.
5) En -1=x y +1=x hay puntos de inflexión, y es cóncava para 1|>x| , y convexa
en aquellos puntos en que 1|<x| .
Todas estas propiedades corroboran la forma de campana que tiene la
función de densidad.
La media es y la varianza son:
0==E(X) 1
de ahí la notación de N(0;1) para caracterizar a la distribución, donde 0 corresponde
a la media, y 1 a la desviación típica.
Una de las características de la distribución Normal es que la distribución de
probabilidades es siempre la de la figura 6.6
-3
99’73%
95’44%
68’26%
-2 -1 +2 +1 +3 X
Figura 6.6. Áreas bajo la campana de Gauss
La función de distribución de la N(0;1) es
dxe2
1=F(x) x
2
1-
x
-
2
y para cada valor de x se obtiene un valor. Como la integral no es inmediata, se ha
tabulado su valor para cada punto x, de esta manera tenemos las áreas a la izquierda
para cada punto, según la Figura 6..
6. Principales Distribuciones Continuas
-157-
Figura 6.7. Función de distribución de la normal N(0;1)
Los valores de la normal tipificada o estándar, también se representan por z, y
mediante el símbolo z expresamos aquel valor de la abscisa que tiene a su derecha
una probabilidad , según la Figura 6. 6
Figura 6. 6. Área a la derecha de un valor de la normal N(0;1)
De la Figura 6. 5 se deduce que
-1=f(x)dx =f(x)dxz
-
+
z
Actividad 6.3:
Calcular las siguientes probabilidades de una normal tipificada:
o P(Z<1)
-3 -2 -1 2 1 3 0
fZ(z)
Z
z
-3 -2 -1 2 1 3 0
fZ(z)
Z
FZ(z)
6. Principales Distribuciones Discretas
-158-
o P(Z>2)
o P(-1<Z<+1)
o P(-1.25<Z<2.37)
Calcular los siguientes valores de la normal tipificada:
o P(Z<a)=0.60
o P(Z>a)=0.35
o P(-a<Z<+a)=0.95
o Z0.05
o Z0.90
6.3.2. Variable normal general
Dada la v.a. normal tipificada N(0;1)X , si aplicamos la transformación lineal
b+aX=Y
resulta la distribución normal general, cuyo campo de existencia es toda la recta real.
El valor medio de Y es,
y=b=b+0a=b+E(X)a=b)+XE(a=E(Y)
es decir, el coeficiente b coincide con la media de la distribución.
La varianza de Y es 2
Y22222 =.1a=(X)Da=b)+(aXD=(Y)D
de donde "a" puede ser positivo o negativo, pero su módulo coincide con la
desviación típica de y, así:
|=a| esto es XY ·
La variable Y se representa por );N(Y , ya que conociendo y
conocemos todas sus características.
La función de densidad de Y es, a partir de la fórmula del cambio de variable,
dx
dy
1(x(y))f=
dy
dx(x(y))f=(y)f xxy
||
-y=x
6. Principales Distribuciones Continuas
-159-
despejando x,
e2
1=
|a|
1.e
2
1=(y)f 2
2
2
2)-(y
2
1-
)-(y
2
1-
y
Se observa que esta función es simétrica respecto de , y tiene los puntos de
inflexión en .
La función de distribución es:
dye2.
1=F(y)
-y
2
1-
y
-
2
Como para cada valor de y habría que tener una tablas con todas las
áreas a la izquierda, lo que se hace es tipificar la variable y calcular el área de la
normal tipificada. "Tipificar" o "estandarizar" una variable significa restar su valor
medio y dividirla por la desviación típica. Así,
-a-YP=a)P(Y
y la variable
-Y tiene una distribución N(0;1) , por lo tanto:
-a=
-aN(0;1)P=a)P(Y
y expresa el valor de Y que deja a su derecha un área de .
Actividad 6.4:
De una variable aleatoria normal de media 15 y desviación típica 1.5, calcular
las siguientes probabilidades:
P(Y<16)
P(Y>12.5)
P(12<Y<17)
La combinación lineal de un conjunto de variables normales e independientes, es a
6. Principales Distribuciones Discretas
-160-
su vez otra distribución normal. Esto es, si X,...,X,X n21 son v.a. normales
);N(X iii , e independientes,
Xa....++Xa+Xa=Y nn2211
entonces Y sigue una distribución normal con
nn2211y a+...+a+a=
2n
2n
22
22
21
21
2a....++a+a=(Y)D
6.3.3. Teorema central del límite
Si Y es una suma de n variables aleatorias independientes que satisfacen ciertas
condiciones generales, entonces para n suficientemente grande, Y se distribuye
según una v.a. normal.
Más concretamente, el teorema central del límite dice que si X,...X,X n21 es
una secuencia de n v.a. independientes con ii =)XE( y ii2 =)X(D , y
X...++X+X=Y n21 , entonces la suma tipificada
2i
n
=1i
in
-Y=S
converge a una distribución normal N(0;1) .
Cada X i representa una aportación a la suma Y, la cual es de pequeña
importancia en relación a las demás, pero la suma de muchos factores de pequeña
importancia cada uno de ellos, da lugar a la distribución normal.
Un caso particular del teorema central del límite es cuando todas las variables
aleatorias son independientes y tienen la misma distribución. Esta propiedad se
recoge como el Teorema de Lindenberg-Levy.
Dicho teorema dice que para una sucesión de variables aleatorias
independientes X,...,X,X n21 , la suma tipificada converge a una distribución normal
N(0;1).
6. Principales Distribuciones Continuas
-161-
De esta forma, si E(Xi)= y D2(Xi)=
2, la media y la varianza de
Y=X1+X2+···+Xn es:
n21n21 +...++=]X+...+X+XE[=E(Y)
2
n2122 n=)X...++X+X(D=(Y)D
n=D(Y)
De aquí que:
n
n-Y=S n
converge a una N(0;1).
Aproximación de la binomial a la normal
Hemos visto que la v.a. binomial se puede considerar como la suma de n variables
aleatorias dicotómicas D(p) cada una de ellas con igual distribución. En
consecuencia, si n , entonces podemos aplicar el teorema de Lindenberg-Levy,
y la suma tipificada converge a una distribución normal N(0;1).
De esta forma
X....++X+X=Y p)B(n,Y n21
pq=)X(D p=)XE( D(p)X i2
ii
de donde np)Y(E y npq)Y(D2 por lo que
N(0;1)npq
np-Y=S n
Ello equivale a decir que:
)npqN(np;>----------p)B(n,
La aproximación a la normal es bastante buena cuando se dan las siguientes
condiciones:
1) 30>n .
2) 9,0p1,0
3) 5p·n
6. Principales Distribuciones Discretas
-162-
Figura 6. 7. Aproximación de la Binomial a la Normal
Aproximación de la Poisson a la normal
La distribución de Poisson de parámetro , por su propiedad aditiva, se
puede considerar como la suma de variables independientes de parámetro "1", y
en consecuencia también podemos aplicar el teorema de Lindenberg-Levy. De este
modo:
X...+X+X=Y ; )PS(Y 21
1=)X(D ; 1=)XE( ; PS(1)X i2
ii
cuando
N(0;1)-y
=1
1-Y=S n
·
·
lo cual es equivalente a
),N(>-----------)PS(
La aproximación es bastante buena a partir de 5> .
B(10,0’1)
B(40,0’2)
Distribución Binomial
x
PX(x)
0 10 20
0
0,1
0,2
0,3
0,4
6. Principales Distribuciones Continuas
-163-
Figura 6. 8. Aproximación de la Poisson a la Normal
Corrección por continuidad
Al aproximar la distribución binomial o la de Poisson a una normal, estamos pasando
de una variable discreta a otra continua, y al calcular probabilidades se comete un
error que puede ser apreciable cuando np o bien están entre 5 y 25. Cuando np o
bien son elevados, el error cometido no es muy importante.
Por ejemplo, supongamos que X sigue una distribución de Poisson de
parámetro =8, y nos piden calcular la probabilidad P(X>10). Aplicando la distribución
de Poisson,
1841,08159,01!c
8·e1)10X(P1)10X(P
10
0c
c8
Mediante la aproximación a la normal es,
2398,0)7071,0Z(P8
810ZP)10X(P
La diferencia con el valor exacto de la Poisson es muy apreciable.
Gráficamente es,
Ps(10)
Ps(2)
Distribución de Poisson
x
0 5 10 15 20 25
0
0,05
0,1
0,15
0,2
0,25
0,3
PX(x)
6. Principales Distribuciones Discretas
-164-
Histogram for X
10
X
0
4
8
12
16
fre
qu
en
cy
119
10,5
Error sin la corrección por continuidad
Área exacta de 0,1841
Figura 6. 9. Corrección por continuidad
El error sería menor si al efectuar la aproximación a la variable continua, en
lugar de calcular el área a la derecha de 10, tomáramos el área a la derecha de 10,5,
y así el cálculo es,
1884,0)8839,0(8
85,10)5,10()10(
ZPZPXPXP
Y esto es mucho mejor aproximación al valor exacto de 0,1841 que sin hacer
esta corrección por continuidad.
De esta forma, si el área pedida hubiera sido,
)( bXaP
Al pasar a una variable continua, y teniendo en cuenta que las desigualdades
puede ser estrictas o no, para el caso anterior la corrección por continuidad es,
)5,05,0( bXaP
Gráficamente es,
6. Principales Distribuciones Continuas
-165-
a b
P(a<X<b)
9 10 11
9,5 10,5
P(X=10)
Figura 6. 10. Corrección por continuidad
6.4. LA DISTRIBUCIÓN NORMAL BIDIMENSIONAL
Para una variable aleatoria n-dimensional y
la función de densidad conjunta de la
normal general es:
e
| Vdet
)-y(V)-y(2
1-
1/2
1-’
| 2
1=)yf(
n
y en el caso de dos dimensiones, el vector de medias
es:
b=)yE(=
b=)yE(=
222
111
y la matriz V de varianzas-covarianzas es:
2212
1211
=V
Calculando la inversa de V y el determinante de V , la función de densidad
bidimensional es:
e-12
1=)y,yf(
2
22
2
2
22
1
11
1
11
2
2
-y+
-y-y2-
-y
)-2(1
1-
2
21
21
6. Principales Distribuciones Discretas
-166-
Si 0= la función de densidad conjunta se puede expresar como producto
de funciones de densidad marginales y de ahí que y e y 21 sean independientes. Esta
implicación solamente se cumple para las variables normales.
Lo anterior equivale a decir que si la matriz de varianzas-covarianzas tiene
todos sus elementos nulos excepto en la diagonal, todas las marginales son
independientes entre si.
Figura 6. 11. Distribución normal bidimensional
Distribuciones marginales
Las distribuciones marginales siguen otra distribución normal, es decir,
),N(Y e );N(Y 222111
Hay que pensar que la proyección de la campana de Gauss sobre cualquiera
de los planos de Y Y 21 define otra campana de Gauss.
Distribuciones condicionales
Dada la campana de Gauss en tres dimensiones, si efectuamos un corte infinitesimal,
la forma que tiene la distribución de masas es otra campana de Gauss. La función de
densidad condicional de Y 2 sabiendo un valor de y1 es:
f(y1,y2)
y2
y1
6. Principales Distribuciones Continuas
-167-
)yf(
)y,yf( = )y/y(f
1
1212c
que efectuando las correspondientes operaciones y agrupando términos es:
2
2
11
1
2
22
2
2
2
12c
-1
)-y(+-y
2
1-
2-1
1=)y/y(f exp
En consecuencia, la distribución condicional es otra normal,
2
211
1
2
212 -1);-y(+ Ny/Y
Lógicamente si 0= queda la distribución marginal de y2 .
Lo mismo se puede decir de la distribución condicional de Y 1 dado un valor
de y2 :
2
122
2
1
121 -1);-y(+ Ny/Y
sin más que intercambiar los índices.
Todas las distribuciones condicionales tienen la misma desviación típica al no
depender ésta del valor y condicionante.
6. Principales Distribuciones Discretas
-168-
Figura 6. 12. Distribución normal bidimensional con correlación de 0.6
)y/y(f 12
1y
2y
)y/Y(E 12
Figura 6.12. Distribución condicional de Y2 dado y1.
f(y1,y2)
y2
y1
6. Principales Distribuciones Continuas
-169-
)y/y(E 21
)y/y(f 21
1y
2y
Figura 6.13. Distribución condicional de Y1 dado y2
6.5. PROBLEMAS PROPUESTOS
Distribución uniforme
6.5.1. Se ha desarrollado un programa de simulación para una determinada investigación que tarda en ejecutarse entre 10 y 30 segundos, siguiendo una distribución uniforme. ¿Qué número máximo de simulaciones se pueden hacer para que la probabilidad de tardar más de 45 minutos sea inferior a 1.5% ?
Solución: 127
6.5.2. La venta diaria de una fábrica de montaje de ordenadores se adapta a una distribución uniforme entre 20 y 40 unidades.
a) Después de transcurridos 182 días de venta, ¿cuál es la probabilidad de
haber vendido más de 5.600 ordenadores, suponiendo las ventas
independientes de un día para otro?.
b) ¿Cuántos días de venta debemos considerar para asegurar, con un 67% de
probabilidad, la venta de más de 6.000 unidades?
Solución: a) 0.036 b) más de 202 días
6.5.3. El tiempo que tarda un programa en ejecutar un determinado procedimiento sigue un modelo uniforme de 0 a 12 milisegundos. Calcula:
6. Principales Distribuciones Discretas
-170-
a) La proporción de ejecuciones superiores a 5 milisegundos.
b) Aplicando la función de densidad, el primer y tercer cuartil.
Solución: a) 0.5833 b) 3 y 9
Distribución exponencial
6.5.4. La distribución exponencial se utiliza a menudo para modelizar la duración de un sistema. En este caso, la variable X indica el tiempo que funciona el sistema antes de fallar. Si la duración de un sistema, en años, sigue una distribución exponencial de media E(X)=6 meses:
a) ¿cuál será la función de densidad de la variable aleatoria X?
b) ¿Y la desviación típica?
c) ¿cuál será la probabilidad de que el sistema funcione por lo menos durante 1
año?
Solución: b) σ=1/2 c) 0.1353
6.5.5. Si el tiempo de vida de una máquina sigue una distribución exponencial, siendo el tiempo medio entre fallos (MTBF) de 200 horas ¿Cual es la probabilidad de que transcurran más de 200 horas sin que se produzca una avería?
Solución: 0'37
6.5.6. Se ha comprobado que la vida de un diseño de un sistema informático sigue una distribución exponencial con media de 8 años (sin que se modifique substancialmente el diseño). Se pide:
a) Calcular la probabilidad de que un diseño tenga una vida entre 3 y 12 años.
b) La probabilidad de que un diseño que ha vivido sin modificarse más de 10
años, perdure 15 años más.
Solución: a) 0,47 b) 0,15335
6.5.7. Una empresa de fabricación de carcasas de ordenador, tiene tres plantas de proceso, y todas reciben planchas de metal para cortar y confeccionar las carcasas (en kg.). La cantidad de Kg. de plancha de metal que puede procesar una planta en un día se puede representar mediante una función exponencial con un promedio de 4 (en miles de Kg.), para cada una de las tres plantas. Si las plantas trabajan de forma independiente, calcular la probabilidad de que sean exactamente dos de las tres plantas las que procesen más de 4 (miles de Kg.) en
6. Principales Distribuciones Continuas
-171-
un día determinado.
Solución: 0.26
6.5.8. La duración X de unos componentes electrónicos fluctúa aleatoriamente, verificándose que Prob(X>x)= e-λx. Se sabe que las componentes duran en promedio 400 horas de funcionamiento. ¿Qué porcentajes de las componentes duran más de 400 horas?
Solución: 0.37
6.5.9. La probabilidad de que la vida de unos componentes electrónicos sea superior a t, decrece exponencialmente a medida que aumenta dicho parámetro, fluctuando aleatoriamente, verificándose que P( V > t )=e -λt. Se sabe que en el 50% de los casos la vida no sobrepasa 100 horas de funcionamiento.
Calcular la probabilidad de que con dos componentes, la vida del conjunto
sobrepase 100 horas:
a) Situados en paralelo.
b) Situados en serie.
Solución: a) 0.75 b) 0.25
6.5.10. En el servicio técnico de mantenimiento y reparación de una compañía de ordenadores, el tiempo en horas que transcurre entre dos avisos consecutivos de avería sigue una distribución exponencial con media de un cuarto de hora, en cualquier momento del día. Se pide :
a) Probabilidad de que si a las diez y media se recibe una llamada de aviso, la
próxima se reciba después de las 11h.
b) ¿Cuál es el número máximo de avisos que se recibirán entre las once y media
y las trece horas con una probabilidad del 98%?
Solución: a) 0,1353 b) Aprox. 11 avisos.
6.5.11. El personal de una empresa de ingeniería usa un terminal para realizar cálculos técnicos. El tiempo que cada técnico emplea en una sesión es en promedio 20 minutos. (Asumiendo que dicho tiempo sigue una distribución
exponencial con xe·)x(f ;x>0).
a) Calcular la probabilidad de que un técnico emplee menos de 20 minutos en su
sesión.
6. Principales Distribuciones Discretas
-172-
b) Cuando un técnico va a usar el terminal, encuentra que está ocupado por otro
que lleva ya media hora. ¿Cuál es la probabilidad de que tenga que esperar
más de 10 minutos antes de que quede libre?
c) Sabiendo que una mañana deben realizarse 10 sesiones en el terminal (cada
una de las cuales empieza nada más terminar la anterior), calcular
aproximadamente la probabilidad de que todas ellas puedan finalizarse a lo
largo de las 4 horas de la jornada de la mañana.
Solución: a) 0.6321 b) P(X>10) c) 0.7364
6.5.12. Un dispositivo está formado por dos componentes electrónicos iguales A y B montados en serie. La duración en horas de funcionamiento de dichos componentes fluctúa aleatoriamente siguiendo una distribución exponencial de parámetro z. Si por motivos de seguridad es necesario que el dispositivo tenga una fiabilidad del 99.4% a las t horas de funcionamiento, ¿qué fiabilidad se requiere a las t horas para cada uno de los dos componentes?
Solución: 0.997
6.5.13. La duración de un determinado componente electrónico sigue una distribución exponencial de media 1000 horas. Un componente de este tipo lleva funcionando 300 horas. ¿Cuál es la probabilidad de que siga funcionando durante más de 700 horas adicionales?
Solución: 0.496
Distribución Normal
6.5.14. Si Z es una variable aleatoria N(0,1), hallar:
a) P(Z 1.85)
b) P(Z -1.85)
c) P(1 Z 1.85)
d) P(-1.85 Z -1)
e) P(-1 Z 1.85)
Solución: a) 0.9678 b) 0.0322 c) 0.1265 d) 0.1265 e) 0.8091
6.5.15. Sea X una variable N(5,2). Calcular:
a) P(1 X 8)
6. Principales Distribuciones Continuas
-173-
b) P(X 1)
c) P(X -1)
Solución: a) 0.9104 b) 0.0228 c) 0.00135.
6.5.16. Los límites medios de tolerancia de un interruptor son 40±0,5 amperios. Si un interruptor se dispara a una intensidad menor de 39,5 o mayor de 40,5 se considera defectuoso. Si los puntos de ruptura de los interruptores de una partida se distribuyen normalmente con media 39,5 y desviación típica 0,2, ¿cuál será el porcentaje de interruptores defectuosos en esa partida?
Solución: 0,5
6.5.17. En la producción de piezas para un motor de combustión interna, los pesos presentan bastante dispersión. Una dispersión demasiado grande provoca un mal funcionamiento. Supongamos que un fabricante concreto desea rechazar el 3% de los cojinetes de menor peso y el 3% de los cojinetes de mayor peso. Si el peso medio es 4,72 Kg, la desviación típica es 0,006 kg y la distribución de los pesos es normal, determinar el peso máximo y el peso mínimo para que una pieza sea aceptada.
Solución: 4.7087 y 4.7313
6.5.18. Se admite que los pesos, expresados en kilogramos, de los jóvenes varones de un cierto grupo, se distribuyen según una ley normal N(69, 6). Se desea poder afirmar que la probabilidad de que el peso X de un joven, tomado al azar de ese grupo, sea mayor que una cantidad L es 0.9. Calcular L.
Solución: 61.29
6.5.19. Los coeficientes intelectuales de los alumnos de un colegio siguen la ley normal y se sabe que P(X>1.4)=0.1056 y P(X>1)=0.4013. Calcular los parámetros de la distribución.
Solución: N=0.9 a=0.4
6.5.20. Dada una variable aleatoria normal X tal que P(X≤15)=0.1 y P(X≤20)=0.95, calcular:
a) P(X13)
b) un valor a tal que P(Xa)=0.05
c) un valor b tal que P(X>b)=0.5.
6. Principales Distribuciones Discretas
-174-
Solución: a)0.00695 b)14.39 c)17.19
6.5.21. La señal recibida por la pantalla de un ordenador se considera apta si la desviación del voltaje observado respecto del teórico no es mayor de 10 voltios. Las desviaciones observadas obedecen a una ley normal de media 0 y desviación típica 5. Calcular que porcentaje de señales recibidas por la pantalla se consideran aptas.
Solución: 97,7%
6.5.22. En un sistema binario, la información se representa mediante señales eléctricas (por ejemplo voltaje). Un voltaje representa el bit 0 y otro el bit 1. Supongamos que deseamos representar los bits 0 y 1 por los voltajes 2 y 3 respectivamente. Debido a las fluctuaciones del voltaje en un circuito, la terminal de entrada de un circuito digital no siempre recibe el voltaje destinado ya que es frecuentemente distorsionada debido a ruidos en el canal. Muy a menudo, el ruido se modela como una variable aleatoria distribuida normalmente y se denomina ruido Gaussiano. Si el ruido es Gaussiano con media N=0 y desviación típica a=0,22, y la terminal de entrada reconoce el bit 0 si el voltaje recibido es menor de 2,6 y el bit 1 si el voltaje recibido es mayor o igual que 2,6, calcular la probabilidad de que el receptor reconozca:
a) un 1 cuando se ha transmitido un 0
b) un 0 cuando se ha transmitido un 1.
Solución: 0.0032 0.0344
6.5.23. El tiempo medio de CPU necesario para la ejecución de una clase de programas en un ordenador central es 2,52 minutos y la desviación típica es 0,37 minutos. Si el tiempo de ejecución se distribuye normalmente, ¿Cuál es la probabilidad de que un programa seleccionado aleatoriamente requiera entre 2 y 4 minutos de CPU? ¿cuál es la probabilidad de que la diferencia en valor absoluto entre el tiempo de ejecución y la media sea menor o igual que 1 minuto?
Solución: 0.92 0.9931
6.5.24. El nivel de decibelios de un escape averiado sigue una distribución normal con media 90.4 decibelios y varianza 5.8 decibelios2 . Si se toma el valor medio de dos medidas, en lugar de una medida única ¿cuál será su distribución? ¿qué sucede a la varianza cuando se promedian dos medidas, en lugar de tomar una única?.
Solución: N(90'4,1'70)
6. Principales Distribuciones Continuas
-175-
6.5.25. Un ingeniero de proyectos que está colaborando en el diseño de una refinería petroquímica. Se deben realizar cuatro actividades secuencialmente y sin solapamiento. Las duraciones de las actividades se supone que son variable aleatoria independientes normalmente distribuidas:
ACTIVIDAD MEDIA DESVIACIÓN TÍPICA
a 50 días 5 días
b 20 días 3 días
c 70 días 10 días
d 40 días 4 días
¿Cuál es la probabilidad de que el tiempo total necesario para que se elaboren
las cuatro actividades no supere los 200 días?
Solución: 0'9485
6.5.26. Los diámetros de los ejes fabricados para una determinada aplicación están distribuidos normalmente con una media de 3'810 cm y una desviación típica de 0'051. Las arandelas de los ejes tienen diámetros interiores que están normalmente distribuidos con una media de 3'942 cm y una desviación típica de 0'025. Dados un eje y una arandela seleccionados al azar, ¿cuál es la probabilidad de que el eje no entre en la arandela?
Solución: 0'0102
6.5.27. El peso neto de un paquete es una variable aleatoria N(20,2) y el del envase es una variable aleatoria N(1, 0'2). Colocamos 13 de estos paquetes sobre un soporte de madera que pesa 50 Kg. ¿Cuál es la probabilidad de que al ponerlos en un montacargas cuya carga límite es de 300 Kg. este no arranque?
Solución: 0'9990.
6.5.28. Los diámetros de los tornillos de una caja, medidos en cm siguen una distribución N(2,0'03) y los diámetros interiores de las tuercas de otra caja siguen una distribución N(2'02, 0'04). Un tornillo y una tuerca ajustarán si el diámetro interior de la tuerca es mayor que el diámetro del tornillo y la diferencia entre estos diámetros no es mayor de 0'05 cm. Si se seleccionan al azar un tornillo y una tuerca ¿cuál es la probabilidad de que ajusten?
Solución: 0'3811
6.5.29. En un examen de selectividad, los estudiantes del colegio A alcanzan
6. Principales Distribuciones Discretas
-176-
calificaciones que se distribuyen N(625,10) y los del colegio B alcanzan calificaciones que se distribuyen N(600,12'25). Si 2 estudiantes del colegio A y 3 del colegio B hacen este examen ¿cuál es la probabilidad de que el promedio de las dos calificaciones de los estudiantes del colegio A sea mayor que el promedio de los 3 estudiantes del colegio B?
Solución: 0’9938
6.5.30. La dimensión principal de cierta pieza producida en una fábrica se distribuye normalmente con media 150 y varianza 0,16. Se sabe que las piezas son aceptables si la longitud se halla comprendida entre 149.2 y 150.4. Calcular la probabilidad de que al menos el 90% de las piezas de un lote sean correctas:
a) En el caso de que el tamaño del lote sea 10.
b) En el caso de que sea 100.
Solución: a) 0.4342 b) 0.0239 (0.0178 sin aplicar la corrección por continuidad)
6.5.31. La resistencia eléctrica de las lámparas fabricadas según un determinado proceso, se distribuye normalmente con μ=2.000 y σ=200. Dichas lámparas se empaquetan en lotes de 100 unidades. Una lámpara se considera defectuosa si su resistencia es inferior a 1900 y un lote se considera de baja calidad si 20 o más lámparas son defectuosas. Calcular la probabilidad p de que un lote sea defectuoso.
Solución: 0'993
6.5.32. Si el tiempo de vida de un componente eléctrico sigue una distribución exponencial, siendo el tiempo medio entre fallos es de 100 horas. Calcular la probabilidad de que transcurran más de 200 horas sin averías.
a) 0’3679
b) 0’1353
c) 0’6065
d) 0’0183
6.5.33. Una máquina fabrica piezas cuya longitud sigue una distribución Normal. La probabilidad de que una pieza tenga una longitud mayor que 10 cm es del 6’68%, y la probabilidad de que sea menor que 5 cm es del 15’87%. Si una pieza se considera correcta cuando su longitud se encuentra entre 3 y 12 cm. Calcular el porcentaje de piezas defectuosas fabricadas por la máquina.
a) 0’0290
b) 0’1919
c) 0’0668
6. Principales Distribuciones Continuas
-177-
d) 0’1857
6.5.34. El peso en vacío de una bombona de butano sigue una distribución normal de media 6 Kg y desviación típica 1 Kg. El peso del gas es una variable normal e independiente de la anterior de media 13 Kg y desviación típica 1’5 Kg. Si el butanero pesa 86’94 Kg y el montacargas no soporta más de 100 Kg. Calcular la probabilidad de que el montacargas suba.
a) 0’0005
b) 0’0040
c) 0’0322
d) 0’0427
6.5.35. HIJOS DE ILUMINADA S.A. es una empresa que se dedica a producir bombillas. En una de sus líneas se fabrican bombillas de 40 Vatios y se introducen en paquetes de 40 bombillas. El filamento de las mismas tiene una resistencia con distribución NORMAL N(605,1.18) ohmios, y una bombilla se considera correcta cuando su resistencia esta situada entre los valores 607.86Ω y 600.96Ω.¿Cuál es la probabilidad de que elegido un paquete (de 40 bombillas) al azar, contenga 2 ó más bombillas defectuosas (por la resistencia)?
a) 0.81142
b) 0.00849
c) 0.18858
d) 0.04084
6.5.36. Disponemos de un montacargas que soporta 100 Kg, y queremos utilizarlo para que, en un 95% de las veces, pueda subir 3 paquetes de cemento. Para su traslado, los paquetes son colocados sobre un palet de madera. El peso individual de cada paquete tiene una distribución normal N(20,0.5)Kg. ¿Cuál debe ser el peso máximo del palet?
a) 37.53
b) 36.51
c) 38.57
d) 29.53
6.5.37. Una determinada máquina fabrica láminas de acero cuyo espesor sigue una distribución normal N(0.1, 0.005) cm. La máquina se considera que funciona mal, y por tanto se debe revisar, si al tomar una muestra, el espesor promedio de las láminas es superior a 0.1041cm. Calcular el número de piezas que deberemos tomar para que, cuando la máquina funcione bien, sólo tengamos que revisarla en un 5% de las veces.
a) 9
6. Principales Distribuciones Discretas
-178-
b) 6
c) 4
d) 8
6.5.38. La media de una variable aleatoria normal que modeliza el tiempo de ejecución de un determinado algoritmo es de 5 veces la desviación típica. Se
cumple además que P(X6)=0.84134. Calcular la media y la desviación típica.
Solución: 5 y 1
6.5.39. El tiempo de transmisión vía modem de un fichero con una gran cantidad de información, que se realiza semanalmente en una empresa (45 veces al año), se distribuye normalmente con una media de 168 seg. y una desviación típica de 5 seg. Calcular:
a) El número de veces con un tiempo de transmisión entre 165 y 175 seg.
b) El número de veces con un tiempo de transmisión mayor que 180 seg.
Solución: a) 29 b) 0.369
6.5.40. En un multiplexor de gran potencia, se pueden establecer 4600 conexiones por minuto. El número de conexiones por minuto se ha podido estudiar, que es una variable aleatoria que sigue una distribución de Poisson de valor λ=4489. Calcular la probabilidad de que en un minuto el multiplexor esté saturado de llamadas.
Solución: 0.0480
6.5.41. Una empresa de fabricación de mesas de ordenador, posee dos plantas de producción (A y B), en la planta A, la altura de las mesas fluctúan con media 75 cm. y σ=1.2 cm, y en la planta B, la altura de las mesas fluctúan con media 77 cm. y σ=0.9 cm. Suponiendo que ambas variables se distribuyen normalmente, determinar la probabilidad de que al seleccionar al azar una mesa de la planta A y otra de la planta B, resulte la mesa de la planta A mas alta que la de la planta B.
Solución: 0.0918
6.5.42. La dimensión de un determinado componente electrónico (para incorporarlo en la placa base) fabricada por una determinada firma, exige que esté comprendida entre 149.2 mm y 150.4 mm (fuera de estos limites hay problemas). Se comienza a trabajar con un proveedor cuya dimensión de la componente se distribuye normalmente con media 150 mm y varianza 0.16 mm.
6. Principales Distribuciones Continuas
-179-
Calcular la probabilidad de que al menos el 90% de los componentes de un lote sean correctas:
a) Si el tamaño del lote es 10.
b) Si el tamaño del lote es 100.
Solución: a) 0.434 b) 0.0236
6.5.43. El tiempo medio de CPU necesario para la ejecución de una clase de programas en un ordenador central es 2.52 minutos y la desviación típica es 0.37 minutos. Si el tiempo de ejecución se distribuye normalmente.
a) Determinar la probabilidad de que un programa seleccionado aleatoriamente
requiera entre 2 y 4 minutos de CPU.
b) Calcular la probabilidad de que la diferencia en valor absoluto entre el tiempo
de ejecución y la media sea menor o igual que 1 minuto.
Solución: a) 0.92 b) 0.9931
6.5.44. La variable X se distribuye normalmente con media 200. Se sabe que la probabilidad de que X sea superior a 250 es 0.2. Calcular cuántos valores independientes de X deben observarse para tener una probabilidad mayor que 0.5 de que el mayor de ellos sea superior a 300.
Solución: 15 (clave: P(xmax>300)=1-P(Todos<300))
6.5.45. Unas 180 personas matriculadas en la universidad están en una cola para pagar las matrículas de los cursos; el importe no es el mismo en cada caso pero se estima una media por persona de 85.000 ptas. y una desviación de 12.300 ptas. ¿Qué probabilidad hay de que el cajero haya recibido en total más de 15 millones de ptas.?
Solución: 0.9656
6.5.46. Se calcula que durante el próximo mes de enero las ventas de una empresa de ordenadores bajarán entre 350 y 610 millones de ptas., con una probabilidad del 80%, siendo la cifra más probable de disminución de ventas los 480 millones de pts. ¿cuál es la probabilidad de que las ventas disminuyan menos de 500 millones de pts. aceptando un modelo de distribución aproximadamente normal?
Solución: 0.5792
6.5.47. Se ha advertido que el número de errores al escribir por primera vez un
6. Principales Distribuciones Discretas
-180-
programa sigue una distribución de Poisson de media 0.8 errores por página del listado. Calcula la probabilidad de que:
a) Haya algún error en una página.
b) En un procedimiento de diez páginas haya más de diez errores.
c) En las 500 páginas de que consta el programa haya menos de 350 errores.
Solución: a) 0.55067 b) 0.18411 c) 0.005868
6.5.48. Se ha calculado, de acuerdo con experiencias anteriores, que dos de cada cinco alumnos matriculados en una determinada asignatura, no acudirán a realizar el examen. Teniendo en cuenta que los alumnos son convocados en distintas aulas de examen, ¿a cuántos debe convocarse en un aula, con capacidad para 120 personas, para poder asegurar espacio para todos los que se presenten, con una probabilidad de 0.975?
Solución: 180 alumnos
6.5.49. La resistencia de un montacargas de una fábrica es de 10 Tm.; en el mismo se cargan paquetes de peso aleatorio distribuido uniformemente entre 40 y 60 Kg. Determinar el número máximo de paquetes que pueden cargarse manteniendo la probabilidad de rebasar la carga crítica inferior al 1 por mil.
Solución: 195 paquetes.
6.5.50. El número de placas base correctas que se elaboran en una fábrica de componentes de ordenador cuadruplica al de placas defectuosas. Se pide:
a) La probabilidad de que de 200 placas producidas en un día más de 40 y
menos de 70 sean defectuosas.
b) Las placas que deben producirse en un día para, con un 90% de probabilidad,
asegurar más de 100 placas correctas con el fin de satisfacer la demanda.
Solución: a) 0.464 b) 133 piezas
6.5.51. El peso de las naranjas que llegan a una envasadora se distribuye normalmente con media 150 gr. y desviación típica 30 gr. Calcular el número mínimo de naranjas que es necesario introducir en una bolsa para que la probabilidad de que ésta pese menos de 5 Kg. sea inferior al 1%.
Solución: 37 naranjas
6.5.52. En una población normal de media 20 y desviación típica 4, ¿a qué
6. Principales Distribuciones Continuas
-181-
distancia de la media se encuentra?:
a) el segundo cuartil.
b) el tercer cuartil.
c) el valor que dista 1.5 veces el Intervalo intercuartílico por encima del tercer
cuartil.
Solución: a) 0 b) 2.7 c) 30.8
6.5.53. Un fabricante exige a sus proveedores de placas de montaje que un determinado orificio de las mismas tenga un diámetro comprendido entre 96 y 102 micras, debiendo desecharse las que no verifiquen esta condición. Si un proveedor sabe que las placas que produce son de una calidad tal, que el
10% de ellas tienen el orificio con un diámetro mayor de 100 micras y que el 5%
de las placas lo tienen inferior a 97 micras, y suponiendo que dicho diámetro se
distribuye normalmente, determinar el porcentaje de placas que deben ser
desechadas por el proveedor. ¿Qué debería hacer éste para disminuir dicho
porcentaje?.
Solución: 0.6%
6.5.54. Un determinado microprocesador tiene una probabilidad de error de cálculo de una entre un millón. Para un determinado proceso se realizan 4.800.000 operaciones y el efecto de cada error es restar una décima de unidad de su valor correcto. ¿Cuál es la probabilidad de que el número obtenido sea exactamente una unidad por debajo del valor real?
Solución: 0.015
6.5.55. Por un punto de una carretera pasa en promedio un coche cada 20 segundos en un sentido y un coche cada 15 segundos en el sentido contrario.
a) ¿Qué tiempo transcurrirá en promedio entre el paso por el punto de dos
coches consecutivos, sea cual sea el sentido en el que circulen? (Indicar con
precisión las hipótesis realizadas para responder a esta cuestión.)
b) t segundos después del paso de un coche llega por un lateral a dicho punto
un peatón que desea cruzar. ¿Cómo se distribuirá la variable aleatoria "tiempo
desde que llega hasta que pasa un coche"? Justificar la respuesta.
c) Si el peatón necesita disponer de 10 segundos sin que pase ningún vehículo
para poder cruzar ¿cuál es la probabilidad de que pueda cruzar nada más
llegar sin tener que esperar?
Solución: a) 8.6 seg c) 0.31
6. Principales Distribuciones Discretas
-182-
6.5.56. Una industria dispone de dos envasadoras de un producto químico. La primera dosifica el 75% de la producción y la segunda el resto. Se sabe que el peso de producto por envase es una variable N(170,7) en la primera envasadora y N(176,7) en la segunda. Se consideran como incorrectos aquellos paquetes cuyo contenido neto es superior a 180 gr. Se pide:
a) Calcular la probabilidad que tiene cada envasadora de producir una paquete
incorrecto
b) Si se elige un paquete al azar y resulta ser incorrecto, hallar la probabilidad de
que haya sido envasado por la segunda máquina
c) Si se eligen 5 paquetes al azar, calcular la probabilidad de que 2 de ellos
hayan sido envasados por la 1ª máquina.
Solución: a) 0.0764 y 0.2843 b) 0.55 c) 0.0330
Distribuciones bidimensionales
6.5.57. Un sistema electrónico contiene cuatro componentes. Sea Xj el tiempo transcurrido hasta que falla la componente j (j=1,2,3,4). Suponemos que X1,X2,X3 y X4 son variable aleatoria independientes y cada una de ellas tiene como función de distribución F. El sistema funciona mientras funcione el componente 1 y al menos uno de los otros tres componentes. Determinar la función de distribución de la variable aleatoria X que indica el tiempo de duración del sistema.
Solución: FX(t)=1-(1-F(t))(1-F(t)3) t>0
6.5.58. Dos sistemas de ignición son utilizados en un satélite, como un dispositivo redundante para ayudar a garantizar la ignición. Si ambos sistemas poseen tiempos de supervivencia distribuidos exponencialmente, el primero con una media de 3 años y el segundo con una media de 4 años, ¿cuál es la probabilidad de que al menos uno sobreviva 2 años?.
Solución: 0'8086.
6.5.59. Sea X la temperatura en ºF e Y la cantidad de lluvia en pulgadas/acre de una ciudad seleccionada aleatoriamente. Se sabe que:
Cov(X,Y)=8'12 Var(X)=78'24 Var(Y)=2'17
6. Principales Distribuciones Continuas
-183-
Calcular el coeficiente de correlación existente entre estas dos variables, ¿qué
conclusiones se pueden obtener?
Si hubiéramos medido la temperatura en grados Celsius y la lluvia en litros/m2,
¿sería diferente el valor de la covarianza? ¿y el valor del coeficiente de
correlación?.
Solución: 0'623
6.5.60. Sean X1, X2 y X3 tres variables aleatorias independientes e idénticamente distribuidas. Cada una de ellas tiene una distribución uniforme sobre el intervalo (0,1). Determinar el valor de E[(X1-2X2+X3)
2].
Solución: 0.5
6.5.61. Sean X e Y dos variable aleatoria tales que Var(X)=9 Var(Y)=4 y cov(X,Y)=-1. Calcular:
a) Var(X+Y)
b) Var(X-3Y+4).
Solución: a) 11 b) 51
6.5.62. Sean X e Y dos variables aleatorias, que pueden ser dependientes, tales que Var(X)=Var(Y). Demostrar que la covarianza de las variables aleatorias X+Y y X-Y es nula.
6.5.63. El coste de fabricar un pequeña pieza para una máquina de corte es una variable aleatoria (X) con función de densidad f(x) = x/2 - 5 en el intervalo [10,12] y nula en el resto. El precio de venta es otra variable aleatoria (Y), que se puede calcular en función del coste de fabricación, según la expresión: precio de venta (Y) = coste(x) + 10% coste(x). Calcular la probabilidad de que el precio de venta de una pieza sea inferior 13.
a) 0.8265
b) 0.9649
c) 0.7641
d) 0.5153
6.5.64. La recta de regresión mínimo cuadrática de Y/X
a) Es el lugar geométrico de los valores medios de Y/Xi.
b) Es siempre la mejor función de predicción de los valores de Y a partir de los
6. Principales Distribuciones Discretas
-184-
de X.
c) Pasa siempre por el punto medio de la distribución de (X,Y)
d) Tiene pendiente negativa si el coeficiente de correlación entre X e Y es
próximo a cero.
6.5.65. Un ingeniero que está diseñando la cabina de un avión, considera que el brazo del piloto alcanza una longitud X y su altura sentado es Y. Estas variables siguen una distribución normal bivariante siendo μX=88'9 μy=91'44 σX=4'06 σY=3'3 ρ=0'8 . Hallar la probabilidad de que un piloto seleccionado al azar:
a) alcance con el brazo una longitud de más de 96'52
b) tenga sentado una altura de más de 96'52.
Solución: a) 0'0307 b) 0'0618
6.5.66. Una empresa grande de ingeniería y arquitectura pasa un conjunto de tests a los aspirantes a entrar en la sección de diseño. Los índices importantes son la destreza manual X y la visión espacial Y que se consideran juntos. Datos anteriores sugieren que estas dos variables tienen una distribución normal bivariante con parámetros μX=75, μY=60, σX=10, σY=15 y ρ=0,6.
a) Obtener la distribución condicional de la puntuación conseguida en visión
espacial, Y, para una destreza manual baja X=50, y para una destreza manual
alta X=90.
b) Si se requiere una puntuación mínima en visión espacial de 80 para ser
aceptado ¿cuál es la probabilidad de que sea aceptado un aspirante con una
puntuación en destreza manual de 50? ¿y con una puntuación de 90? ¿existe
alguna relación entre las variables X e Y?.
Solución: a) N(37'5,12) N(73'5,12) b) 2x10-4 0'2946
6.5.67. Dado un lote específico de engranajes, se cree que la duración del tratamiento de calor a que ha sido sometido, X, y la profundidad del endurecimiento Y tienen una distribución normal bivariante con μX =18 segundos, μY =7'87 mm, σX = 4'8, σY = 2'03 y ρ = 0'87 .
a) Obtener la recta de regresión E(Y/X=x) que proporciona el valor esperado de
la distribución condicional de la profundidad del endurecimiento para los
distintos tiempos.
b) Obtener la distribución condicional del endurecimiento para una duración
del tratamiento de 15 segundos.
c) Si X=15, ¿cuál es la probabilidad de que la profundidad del endurecimiento
6. Principales Distribuciones Continuas
-185-
esté entre 5'84 y 9'90?
d) Si la profundidad del endurecimiento es de 7,62, ¿cuál es el valor esperado de
la duración del tratamiento?
Solución: a) E(Y/X=x)=7'87+0'3679(x-18); b) N(6'76,1); c) 0'8204; d) 17'44
6.5.68. Se supone que la resistencia a la rotura de las soldaduras, Y, y el diámetro de las soldaduras, X, siguen una distribución normal bivariante. El modelo tiene los parámetros μX=0'201 pulgadas, μY=2240 p.s.i., σX=0'046, σy=342 y ρ=0'75.
a) Obtener E(Y/X=x)
b) si se observa un diámetro de 0'184 ¿cuál es la distribución condicional de la
resistencia a la rotura?
c) Si X=0'184, ¿cuál es la probabilidad de que la resistencia a la rotura sea
mayor de 1500 p.s.i.?
Solución: a) E(Y/X=x)=2240+5576'08(x-0'201) b) N(2145'20,226'211) c) 0'9978
6.5.69. En los mensajes que se transmiten en una red de ordenadores se tiene constatado que la Carga del Sistema (X) y el Tiempo de Respuesta (Y) fluctúan aleatoriamente con media mx = 20.5 trabajos y my = 5.2 seg., desviaciones típicas σx =5.7 trabajos y σy =1.3 seg. y coeficiente de correlación r=0.85. ¿Entre que limites fluctuara el Tiempo de Respuesta del 95% de los mensajes cuando hay una carga de 22 trabajos?
Solución: 4.125 y 6.865
6.5.70. En una red de ordenadores se ha realizado un estudio de regresión comprobándose que la relación entre la carga del sistema y el tiempo de respuesta de cualquier consulta, se ajusta mediante la recta TIEMPO_RESPUESTA en función de la CARGA_SISTEMA, con un coeficiente de correlación de 0.9, y se sabe que cuando la carga del sistema es de 6 trabajos, el tiempo medio de respuesta de cualquier consulta fluctúa en el 95% de los casos entre 15 y 35 segundos. ¿ cuánto vale la desviación típica de la variable TIEMPO_RESPUESTA?
Solución: 11.47
6.6. PROBLEMAS Y CUESTIONES DE EXÁMENES
6.6.1. Se sabe que el tiempo de vida de un determinado componente electrónico sigue una distribución exponencial de media 125 minutos. Se pide:
6. Principales Distribuciones Discretas
-186-
a) Probabilidad de que el componente dure más de 3 horas. (0.5 puntos)
b) Sabiendo que el componente estaba funcionando a las 3 horas, calcular la probabilidad de que siga funcionando después de 4 horas. (0.5 puntos)
c) Si colocamos 2 componentes en serie, ¿cuál es la probabilidad de que la vida del sistema formado por estos dos componentes dure más de 100 minutos? Considerar componentes independientes. (1 punto)
d) Cuando falla un componente lo sustituimos por otro. Si al final hemos utilizado 50 componentes, ¿cuál es la probabilidad de que la suma de las vidas de los 50 componentes esté entre 100 horas y 110 horas? (1 punto)
SOLUCIÓN:
La vida del componente sigue una distribución exponencial )008,0125/1(EXPX
a) La probabilidad de que dure más de 3 horas es,
2369,0eee)180X(P 44,1180·008,0180·
b) Sabiendo que a los 180 minutos ya estaba funcionando, la probabilidad de que dure más de 240 minutos es,
6188,0eeee
e
)180X(P
)240X(P
)180X(P
)180X240X(P)180X/240X(P 48,060·008,060·
180·
240·
c) Para el sistema en serie, para que la vida del sistema dure más de 100 minutos se debe cumplir que los dos componentes duren más de 100 minutos, y como son componentes independientes, la probabilidad es,
2019,0e
eee·e)100X(P)·100X(P)100X100X(P)100X(P
6,1
100·008,0·2100··2100·100·2121
d) De acuerdo con el teorema central del límite, la suma de variables independientes y con la misma distribución sigue una normal de media la suma de las medias y varianza la suma de varianzas. Esto es,
5021 X...XXS
utosmin6250125·501
·50)X(E...)X(E)X(E)X...XX(E)S(E 50215021
2
2250
2
2
2
1
2
5021
22 7812500080
150
150 utosmin
,··)X(D...)X(D)X(D)X...XX(D)S(D
6. Principales Distribuciones Continuas
-187-
utosmin,)S(D 88883
La probabilidad que nos piden es,
26530388606539028303960
88883
62506000
88883
62506600660060006011060100
,,,),(,
,,)S(P)·S·(P
6.6.2. En el envasado de una marca de frutos secos, por normativa uno de los parámetros a controlar es el peso de cada paquete. Esta variable sigue una distribución Normal de media 110 g y de desviación típica 2 g.
a. Calcular la probabilidad de que un paquete pese más de 113 g. (0,5 puntos)
Llamando X al peso por cada paquete y siguiendo esta una distribución del tipo
X~N(110,2), la probabilidad pedida es:
b. De acuerdo a la normativa para el control del contenido efectivo de los
productos alimenticios envasados, un paquete de estas características se
considera defectuoso si su contenido es inferior al 95,5% del valor nominal,
que en este caso coincide con la media. Calcular la proporción de paquetes
defectuosos, es decir, que incumplen la normativa. (1 punto)
Los paquetes que incumplirán la normativa serán aquellos que su peso sea
inferior a
=0,955 Es por ello que la probabilidad pedida será:
c. Estos paquetes se envasan en cajas de 40 unidades. Si una caja contiene 3 o
más paquetes defectuosos son retirados de la cadena de producción.
Determinar el porcentaje de cajas que se retiran de la cadena de envasado. (1
punto)
6. Principales Distribuciones Discretas
-188-
Se retiran aquellas caja con 3 o más paquetes defectuosos, por lo que se define
una nueva variable Y que determina el número de defectuosos en cada caja. Esta
nueva variable sigue una distribución del tipo Y~B( 40, 0,0067).
La probabilidad pedida será:
d. Una cadena de supermercados hace un pedido de 200 cajas de dicho
producto. Calcular la probabilidad de que en el total del pedido haya más de
10 paquetes que incumplan la normativa. (1 punto)
Definimos una nueva variable T que sume el número de defectuosas que hay en
las 200 cajas, esto es:
, siendo Yi el número de paquetes defectuosos en la caja i,
tal y como se definió en el apartado anterior.
Esta nueva variable, por el Teorema Central del Límite, tendrá como distribución
T~ N(200·40·0,0067, 00 0 0 0 0 9 )=N(53,6, 7,3) por lo que la
probabilidad pedida es:
e. En el proceso de control de calidad, ¿cuantas cajas por término medio han de
controlarse hasta encontrar la primera que sea defectuosa? (1 punto)
Sea S, el número de cajas a controlar antes de encontrar una defectuosa. Esta
variable sigue una distribución de tipo S~BN(1, 0,00247), por lo que en término
medio el número de cajas que tiene que controlar hasta que parezca la primera
defectuosa es:
cajas habrá que controlar
6.6.3. El 50% de unos cartuchos de tinta para impresión duran 10 horas. Admitiendo que la duración de los cartuchos sigue una distribución exponencial, se pide:
a) Calcular la probabilidad de que un cartucho recién instalado permita imprimir durante más de 18 horas. (1 punto)
b) ¿Cuál es la probabilidad de que con los 20 cartuchos que vienen en una caja podamos imprimir durante más de 300 horas. (1 punto)
6. Principales Distribuciones Continuas
-189-
Solución:
a) La función de distribución de la exponencial es xx e1)x(F . Para x=10
5,0e1 10· y despejando el valor de es
0693,010
5,0ln
La probabilidad pedida es,
2873,0ee)18X(P 18·0693,018·
b) la duración total de los cartuchos es,
2021 X...XXY
Aplicando el teorema central del límite, la variable Y se aproxima a una normal
de media y varianza dado por,
6,2880693,0
1·20)X(E)Y(E
20
1i
i
51,41640693,0
1·20)Xvar()Yvar(
2
20
1i
i
5,64)Y(D
La probabilidad pedida es,
4299,0)1767,0Z(P5,64
6,288300ZP)300Y(P
6.6.4. La vida de un componente electrónico y la temperatura del entorno siguen una distribución normal bivariante de covarianza -30 h ºC. La vida del componente se distribuye de forma normal, con media 100 horas y desviación típica 10. Sabemos además que la probabilidad de que la temperatura sea superior a 30º es 0,0228 y la de que sea superior a 20 ºC es 0,5. Se pide:
a) Calcular la probabilidad de que el componente funcione más de 100 horas si
la temperatura es de 25 ºC. (1 punto)
Solución:
como P(T>20)=0.5, la media de la temperatura será 20, y
1-f(z)=0.0228 para z=2.0, por lo tanto s=30-20/2.0=5
De modo que el vector de medias será m=(100, 20) y la matriz V será (100,-
30//-30,25). El coeficiente de correlación será entonces r=-0.6
(X|y=25)=N(100-0.6*10/5*(25-20); 10*sqrt(1-0.6²))=N(94,8)
Por lo tanto P(X>100)=1- f((100-94)/8)=1- f(0.75)=0.227
6. Principales Distribuciones Discretas
-190-
7. Distribuciones derivadas de la normal
-191-
7. DISTRIBUCIONES DERIVADAS DE LA NORMAL
Contenido 7.1. DISTRIBUCIÓN CHI-CUADRADO ............................................................ 191
7.2. DISTRIBUCIÓN t .................................................................................... 192
7.3. DISTRIBUCIÓN F ..................................................................................... 194
7.4. PROBLEMAS PROPUESTOS .................................................................. 195
7.1. DISTRIBUCIÓN CHI-CUADRADO
La distribución chi-cuadrado aparece cuando hacemos la suma de variables aleatorias normales tipificadas y al cuadrado. De esta forma, z1, z2, …, zn son v.a.
N(0;1) e independientes, la variable chi-cuadrado se define como
2
n
2
2
2
1
2
n Z...ZZ
La función de densidad es asimétrica a la derecha.
Grad. de libertad3591530
Chi-Cuadrado Distribución
x
de
nsid
ad
0 20 40 60 80
0
0,04
0,08
0,12
0,16
0,2
0,24
3
5
15 309
Figura 7. 1. Función de densidad de la chi-cuadrado
El número de sumandos son los grados de libertad de la chi-cuadrado. El valor medio es
n)(E 2
n
y la variancia viene dada por,
n2)(D 2
n
2
7. Distribuciones derivadas de la normal
-192-
El interés de esta variable se debe a que la varianza muestral sigue una distribución chi-cuadrado. Más concretamente,
2
1n2
2s)1n(
El valor de es aquel valor de la chi-cuadrado que deja a su derecha un
área de probabilidad , según la expresión
)(P )(2
n
2
n
Actividad 7.1:
Calcular la probabilidad )5(P 2
3
Calcular el valor de a tal que 10,0)a(P 2
3 , esto es )10,0(2
3 o bien
2
10,0;3 .
7.2. DISTRIBUCIÓN t
La t de STUDENT se define como el cociente entre una variable normal N(0;1) y la raíz cuadrado de una chi-cuadrado dividida ésta por sus grados de libertad. Así,
n
Zt
2
n
n
Donde z es una variable N(0;1) e independiente de la chi quadrado. La forma de la función de densidad es parecida a la normal N(0;1), pero un poco más aplanada. Cuando n>30, la función de densidad de la t coincide con la función de densidad de la normal N(0;1).
)(2 n
7. Distribuciones derivadas de la normal
-193-
Grad. de libertad2591730
t de Student Distribución
x
de
nsid
ad
-8 -4 0 4 8
0
0,1
0,2
0,3
0,4
2
30
Figura 7. 2. Función de densidad de la t de Student
El valor medio de la tn es,
0]t[E n
La varianza de la tn es,
2n
n)t(D n
2
para n>2
La cantidad es aquel valor de la tn que deja a su derecha un área de
probabilidad α, según la expresión,
)tt(P nn
La media muestral está relacionada con una distribución t cuando la desviación típica no es conocida y se estima a partir de la desviación típica muestral, más concretamente, la expresión,
1ntns
x
sigue una distribución tn-1 con n-1 grados de libertad.
Actividad 7.2:
Calcular la probabilidad de P(t3> 2,33)
Calcular la probabilidad de P(t5<-1,96)
Calcular la probabilidad de P(|t7|>2,1)
Calcular el valor de a que cumple P(t9>a)=0,10, esto es 100
9
,t
nt
7. Distribuciones derivadas de la normal
-194-
7.3. DISTRIBUCIÓN F
La distribución F aparece como un cociente de dos variables chi-cuadrado cada una de ellas divididas por sus grados de libertad, e independientes, esto es,
2
2
n
1
2
n
n,n
n
nF
2
1
21
Se dice que el cociente sigue una distribución F con n1 y n2 grados de
libertad, n1 para el numerador y n2 para el denominador.
La función de densidad es asimétrica hacia la derecha.
Figura 7. 3. Función de densidad de una F
El valor medio de una F es,
2n
n]F[E
2
2n,n 21
para n2 >2
y la varianza es,
)4n)(2n(n
)2nn(n2)F(D
221
21
2
2n,n
2
21
El valor de es aquel valor de la F que deja a su derecha un área de
probabilidad , según la expresión,
Numerador g.l.,Denominador g.l.10,105,913,16
F (índice de varianza) Distribución
x
de
nsid
ad
0 1 2 3 4 5
0
0,2
0,4
0,6
0,8
1
21 ,nnF
7. Distribuciones derivadas de la normal
-195-
)FF(P2121 n,nn,n
El cociente de dos varianzas muestrales sigue una distribución F, más con concretamente,
1n,1n
2
2
2
2
2
1
2
1
21F
s
s
Actividad 7.3:
Calcular la probabilidad de )10F(P 5;3
Calcular el valor de a tal que 05,0)aF(P 9;7 , esto es 05,0
9;7F
7.4. PROBLEMAS PROPUESTOS
7.4.1. Determinar a y b para que P(as2b)=0'8 si s2 procede de una muestra
aleatoria simple de tamaño 16 de una población NORMAL N(8,2).
Solución: a = 2.28, b = 5.95
7. Distribuciones derivadas de la normal
-196-
8. Distribuciones en el muestreo
-197-
8. DISTRIBUCIONES EN EL MUESTRO
Contenido 8.1. POBLACIÓN, MUESTREO Y MUESTRA .................................................... 197
8.2. DISTRIBUCIÓN DE LA VARIANZA MUESTRAL ......................................... 201
8.3. DISTRIBUCIÓN DE LA MEDIA MUESTRAL ............................................... 203
8.4. DISTRIBUCIÓN DEL COCIENTE DE VARIANZAS ..................................... 204
8.5. DISTRIBUCIÓN DE LA PROPORCIÓN ...................................................... 206
8.6. DISTRIBUCIÓN DE LA DIFERENCIA DE MEDIAS MUESTRALES ............ 207
8.7. DISTRIBUCIÓN DE LA DIFERENCIA DE PROPORCIONES ..................... 208
8.8. VARIANZA EN POBLACIONES FINITAS .................................................... 210
8.9. PROBLEMAS PROPUESTOS .................................................................... 211
8.10. PROBLEMAS Y CUESTIONES DE EXÁMENES ........................................ 212
8.1. POBLACIÓN, MUESTREO Y MUESTRA
Población y muestra
El conjunto de todos los elementos bajo estudio se denomina “Población”, y a una
parte de ellos recibe el nombre de “Muestra”. Por ejemplo si queremos estudiar el
nivel de renta en la Comunidad Valenciana, la población es el conjunto de individuos
que pertenecen a dicha Comunidad y una muestra es una parte de esa población,
elegida al azar, a partir de la cual se quiere deducir las características de toda la
población.
Conociendo cada elemento de la población, conocemos todas las
características y parámetros de la misma. Una población se puede caracterizar por
una función de distribución, la cual depende de un conjunto de parámetros. Así:
),...,,F(x; k21
Si todos los elementos de la población son conocidos, los parámetros
k21 ,...,, son perfectamente conocidos. A estos parámetros se denominan
"parámetros poblacionales" y se representan por letras griegas.
El problema estriba en que no podemos conocer todos los elementos de la
población, debido a uno de los siguientes motivos:
8. Distribuciones en el muestreo
-198-
1) La población es muy extensa y llevaría mucho tiempo su recopilación.
2) El coste de obtener la información es muy elevado.
3) Al obtener la información se puede destrozar el elemento de la población.
Por ejemplo, para obtener la tensión de rotura de una barra de acero.
4) La población como tal puede no existir todavía. Por ejemplo, el conjunto de
piezas producidas por una máquina.
En tales casos no queda más remedio que tomar una pequeña parte de la
población y a partir de ella intentar deducir el valor de los parámetros poblacionales.
A esa pequeña parte de la población se denomina "muestra".
Los datos de una muestra se pueden considerar como un conjunto de
variables aleatorias, todas ellas con la misma función de distribución
),...,,F(x, k21 , así:
)x,...,x,x(=x n21
A cualquier función de estos valores, )x,...,x,x( n21 , se denomina
"estadístico".
El problema se reduce a obtener un estadístico, función de los datos
muestrales, que nos dé una aproximación del parámetro poblacional, lo cual se
expresa por:
)x,...,x,x(= n2111ˆˆ
La cantidad 1 varía para cada x,...,x,x n21 , luego se puede considerar como
una función o transformación de n-variables aleatorias, y por lo tanto, tendrá una
media, una varianza, así como su propia )F(1 ,
)E(1
)(D 1
2
Con lo cual nos interesa estudiar las propiedades de esa distribución en
relación al parámetro desconocido poblacional.
A las distribuciones que tienen los estadísticos muestrales, y que dependen
de los parámetros poblacionales y del tamaño de la muestra, se denominan
Distribuciones en el Muestreo y son las que nos permitirán relacionar los estadísticos
muestrales con los parámetros de la población con vistas a un posible conocimiento
de estos últimos.
8. Distribuciones en el muestreo
-199-
Población
Muestra 1
Muestra
2
Muestra
m
1x
2x
mx
1s
2s
ms
N(15; 2.5)
n=10
.
.
.
.
Histogram
-3,7 -1,7 0,3 2,3 4,3
X
0
100
200
300
400
500
600
freq
uen
cy
Histogram
-1 -0,5 0 0,5 1 1,5
MEANS
0
20
40
60
80
freq
uen
cy
Histogram
SIGMAS
freq
uen
cy
0 0,3 0,6 0,9 1,2 1,5 1,8
0
20
40
60
80
Figura 8. 1. Población y muestra
Se debe cuidar mucho la forma de extracción de la muestra, ya que ésta debe
ser representativa de la población. Si al obtener la muestra, cada elemento de la
población tiene la misma posibilidad de salir, se dice que la muestra es "aleatoria
simple".
Si el tamaño de la población no es muy elevado en relación al tamaño de la
muestra, se aplican unos procedimientos que se estudian en "Muestreo en
poblaciones finitas". En este tema suponemos que el tamaño de la población es muy
grande en relación a la muestra, es decir, estamos en "Muestreo en poblaciones
infinitas".
8. Distribuciones en el muestreo
-200-
Tipos de muestreo
Los muestreos pueden ser probabilísticos y no probabilísticos. Entre los
probabilísticos, los más utilizados son:
Muestreo aleatorio simple. Cada elemento de la población tiene la misma
probabilidad de salir elegido para formar parte de la muestra.
Muestreo sistemático. Cuando la población esté enumerada en una lista y
queremos obtener los elementos a lo largo de la lista. Para ello se divide el
tamaño de la población entre el número de elementos a extraer en la muestra.
Esté cociente dará, por ejemplo, un valor h. A continuación se elige un
número al azar de 1 a h, por ejemplo k, y los elementos a extraer son el k, el
k+h, el k+2h, y así sucesivamente.
Muestreo estratificado. Cuando en la población se pueden formar grupos
con una cierta homogeneidad (Ej. Grupos de edad, grupos por estatus
económico, etc.). A cada grupo se denomina estrato, y el tamaño n de la
muestra a tomar se subdivide para cada estrato según algún criterio de
afijación.
Muestreo por conglomerados. Cuando en la población se pueden formar
grupos con una cierta heterogeneidad, y cada uno de esos grupos, de por sí,
puede representar al total de la población. El procedimiento es traer un
número al azar de conglomerados, y para cada uno de ellos examinamos
todos sus elementos.
Muestreo por etapas. Viene a ser una generalización de los conglomerados.
En lugar de examinar todos los elementos del conglomerado, se toma una
muestra aleatoria del mismo.
Entre los muestreos no probabilísticos, los más empleados son:
El muestreo opinático. Es función del entrevistador la elección del elemento
de la población a examinar.
El muestreo por cuotas. Se requiere un cierto número de elementos para
cada grupo de la población. Se van tomando elementos de la población,
según algún procedimiento establecido de antemano, antes que se cubre la
cuota para dichos tipos de elementos.
Muestreo por bola de nieve. Cuando es difícil acceder a los elementos de la
población, debido a su desconocimiento. Cuando se encuentra a alguno de
ellos, se le pregunta si nos puede indicar la existencia de otros. A su vez esos
otros nos pueden guiar para encontrar nuevos elementos de la población.
8. Distribuciones en el muestreo
-201-
Distribuciones muestrales
En este apartado supondremos que la población estudiada sigue una distribución
normal, );N( , y que de ella, extraemos unos valores )x,...,x,x( n21 al azar e
independientemente. Cada X i se puede considerar, antes de que aparezca el valor
concreto, como );N( , es decir, son variables aleatorias independientes con la
misma distribución normal.
fX(x)
X
)x(PX
X
1/n
POBLACIÓN MUESTRA
Características poblacionales
(constantes)
Características muestrales
(variables aleatorias)
(X1, X2, ..., Xn)
(media)
2 (varianza)
(desviación típica)
p (proporción)
x (media muestral)
2ns (varianza muestral)
21ns (cuasivarianza)
sn (desv. típica muestral) sn-1 (cuasidesviación típica)
f (proporción muestral)
Figura 8. 2 Distribuciones muestrales
8.2. DISTRIBUCIÓN DE LA VARIANZA MUESTRAL
Una distribución 2
n se define como una suma de variables N(0;1) al cuadrado e
independientes. El valor medio y la varianza son:
2n = )(D
n = )E(
2
m
2
2
n
8. Distribuciones en el muestreo
-202-
Cuando n>30 se distribuye según una normal )2nN(n; .
El estadístico
n
)x-x(
S
2
i
in
2
se denomina varianza muestral y al definido por
1
2
1
n
)x-x(
S
2
i
in
se le conoce como varianza muestral corregida o cuasivarianza muestral.
La raíz cuadrada positiva de la varianza muestral es la desviación típica
muestral y se representa por s
Sea )x,...,x,x( n21 una muestra aleatoria simple extraída de una población
normal );N( , se demuestra que el estadístico
2
2
i
i
)x-x(
sigue una distribución 2
1-n.
Multiplicando y dividiendo por n
2
-1n
2
22
2
i
i =sn
=n
)x-x(n
o por (n-1),
2
1-n2
’2
2
2
i
i =s
1)-(n=1)-(n
)x-x(1)-(n
Actividad 8.1:
De una población normal N(30;2,5) se extrae una muestra de tamaño 5, ¿Cuál es la
probabilidad que la desviación típica muestral sea mayor de 3,5?
8. Distribuciones en el muestreo
-203-
8.3. DISTRIBUCIÓN DE LA MEDIA MUESTRAL
La media muestral de un conjunto de valores muestrales )x,...,x,x( n21 ,
viene dada por
n
x
x i
i
La media y la varianza de x son :
n=)x(D ; =)xE(
22
Como xn
1...++x
n
1+x
n
1=x n21 es una combinación de variables normales, x
será a su vez una normal,
)n
;N())xD();xN(E(X
o bien tipificando,
N(0;1)=
n
-x
Si es desconocida y empleamos los datos de la muestra para estimarla, y
la sustituimos por s, la desviación típica muestral, se obtiene que en lugar de una
N(0;1) sigue una distribución t de Student de n-1 grados de libertad.
Una distribución t de Student se define como un cociente de
n
N(0,1) = t
2
n
n
El valor medio y la varianza son:
8. Distribuciones en el muestreo
-204-
2-n = )t(D
0 = )tE(
n2
n
Cuando n>30 se distribuye según una N(0;1).
Así:
t=
n
s
-x1-n
Actividad 8.2:
De una población normal de media 15 y desviación típica 3 se extrae una muestra de
tamaño 7. ¿Cuál será la probabilidad que la media muestral sea mayor de 16?
De una población normal hemos obtenido la estimación de la media con un valor de
15,3 y una estimación de la desviación típica con una estimación de 2,3. Si de esta
población obtengamos una muestra de tamaño 9, ¿Cuál es la probabilidad que la
media muestral sea mayor de 17,2?
___________________________________________________________________
8.4. DISTRIBUCIÓN DEL COCIENTE DE VARIANZAS
Una distribución F n,n 21se define como un cociente de dos
2 independientes dividida
cada una por sus grados de libertad
n
n = F
2
2
n
1
2
n
n,n
2
1
21
Sea );N(X 11 y otra población );N(Y 22 , e independientes. Si de la
primera población extraemos una m.a.s )x,...,x,x( n21 y de la segunda otra m.a.s.
)y,...,y,y(n21
, el cociente de sus varianzas muestrales, dividida cada una de ellas
por su varianza poblacional, se distribuye según una F de n,n 21 grados de libertad.
8. Distribuciones en el muestreo
-205-
Esto es:
F=s
s
1-n1,-n
22
’22
21
’21
21
Para cada muestra
2
-1n21
’21
11
=s
1)-n(
2
1-n22
’22
22
=s
1)-n(
dividiendo cada 2 por sus grados de libertad y efectuando su cociente, resulta la
definición de una distribución F de 1-n1,-n 21 grados de libertad.
Si las varianzas poblacionales son iguales == 22
21 , el cociente de
varianzas muestrales es una F,
F=s
s1-n1,-n’2
2
’21
21
Por lo general, se suele colocar la varianza muestral mayor en el numerador,
y la menor en el denominador.
Actividad 8.3:
De dos poblaciones normales con la misma variancia sacamos una muestra de cada
una de ellas. La primera de tamaño 7, y la segunda de tamaño 9. Cuál es la
probabilidad que la variancia de la primera muestra sea mayor que el doble que la
variancia de la segunda muestra.
8. Distribuciones en el muestreo
-206-
8.5. DISTRIBUCIÓN DE LA PROPORCIÓN
Proporción de defectuosas
El número X de unidades defectuosas de una muestra aleatoria simple de n unidades
sigue una distribución Binomial B(n;p). Como X es una suma de dicotómicas, cuando
np>5, el número de defectuosas en la muestra sigue una distribución normal,
)(; p1npnpNX
La proporción de unidades defectuosas en la muestra es
n
Xf
Y f sigue una distribución normal
n
pppNf
)1(;
Proporción de defectos (defectos por unidad)
En caso de que X cuenta el número de defectos que hay entre todas las piezas de
una muestra de tamaño n, esta variable aleatoria sigue una distribución de Poisson
PS(c), donde c es el número medio de defectos por muestra. Si c>5 el número de
defectos sigue una distribución normal,
);( ccNX
La proporción de defectos b(defectos por unidad) es
n
Xf
En la que f sigue una distribución normal,
n
u;uNf
Donde u es el número medio de defectos por unidad.
8. Distribuciones en el muestreo
-207-
Actividad 8.4:
Una máquina produce piezas con una proporción de defectuosas del 2%. Si de esta
máquina extraemos una muestra de 60 piezas, ¿cuál será la probabilidad que la
proporción de piezas defectuosas en la muestra sea mayor del 3%?
8.6. DISTRIBUCIÓN DE LA DIFERENCIA DE MEDIAS MUESTRALES
Si de una población que sigue una N(μ1 , 1) extraemos una muestra aleatoria simple
de tamaño n1 , y de otra población con distribución N(μ2 , 2) se extrae otra muestra
aleatoria simple de tamaño n2, y para cada una de dichas muestras calculamos las
medias muestrales, cada una de ellas sigue una distribución,
),(1
111
nNx
),(
2
222
nNx
La diferencia de medias muestrales, como es una combinación lineal de
variables normales, sigue una distribución,
2
2
2
1
2
12121 ;
nnNxx
Si 1 y 2 son desconocidas, las estimamos a partir de sus desviaciones
típicas muestrales, y suponiendo que n1 y n2 son suficientemente grandes, la
diferencia de medias muestrales sigue una distribución,
2
2
2
1
2
12121 ;
n
s
n
sNxx
Si 1 y 2 son desconocidas, pero iguales, la mejor estimación de la común
es,
2
)1()1(ˆ
21
2
2
21
2
122
nn
nsnss
Y la diferencia de medias muestrales seguirá una distribución t de Student con
n1+n2-2 grados de libertad. Esto es,
8. Distribuciones en el muestreo
-208-
2
21
2121
2111
)()(
nnt
nns
xx
Actividad 8.5:
De una población normal N(40;3) sacamos una muestra de tamaño 10, y de otra
población normal N(45; 3,5) sacamos una muestra de tamaño 13. Cuál es la
probabilidad que la media muestral de la segunda muestra sea mayor que la media
de la primera muestra.
Si en el ejemplo anterior las desviaciones típicas realmente son estimaciones de las
desviaciones típicas poblacionales, cuál sería ahora la probabilidad que la media
muestral de la segunda muestra fuera mayor que la media muestral de la primera
muestra.
8.7. DISTRIBUCIÓN DE LA DIFERENCIA DE PROPORCIONES
Proporción de defectuosas
Si de un lote de gran tamaño en el cual conocemos la proporción de defectuosas p1,
tomamos una muestra de tamaño n1, la fracción de defectuosas es,
1
11
n
xf
Y sigue una distribución normal
))1(
,(1
1111
n
pppNf
Si efectuamos el mismo procedimiento, pero para otra población con
proporción p2, la fracción de unidades defectuosas sigue una distribución normal
))1(
,(2
2222
n
pppNf
La diferencia de fracciones, como es una combinación lineal de variables
8. Distribuciones en el muestreo
-209-
normales, sigue otra distribución normal,
2
22
1
112121
)1()1(,
n
pp
n
ppppNff
Si p1 y p2 son desconocidas pero iguales, la mejor estimación de la p común
es,
11
21
nn
xxp
ˆ
Y en tal caso la diferencia de proporciones sigue una distribución,
11
21
11)ˆ1(ˆ;0
nnppNff
Proporción de defectos (defectos por unidad)
Para la diferencia de proporción de defectos, la frecuencia observada es,
1
11
n
xf
Como 1x sigue una distribución de Poisson de parámetro 1p , la aproximación a la
normal es,
1
111 ,
n
ppNf
Y para una diferencia de proporciones de defectos, la distribución normal que sigue
es,
2
2
1
12121 ,
n
p
n
pppNff
Si 1p y 2p son iguales pero desconocidas, la mejor estimación de la proporción de
defectos es,
11
21ˆnn
xxp
Donde:
1x = total de defectos de la muestra de tamaño 1n
2x = total de defectos de la muestra de tamaño 2n .
Y la diferencia de proporciones sigue una distribución normal
8. Distribuciones en el muestreo
-210-
11
21
11ˆ;0
nnpNff
Observar que estar fórmulas son las mismas que para la diferencia de proporciones
de defectuosas sin mas que cambiar la pq por p, y donde p es la proporción (número)
de defectos por unidad.
Actividad 8.6:
Una maquina hace piezas con una proporción de defectos del 5%, y otra máquina
hace las mismas piezas con una proporción de defectos del 3%. ¿Si cogen una
muestra de 50 unidades de la primera máquina y 70 piezas de la segunda máquina,
¿cuál será la probabilidad que la proporción de defectos observada en la primera
muestra sea mayor que la proporción de defectos de la segunda muestra?
8.8. VARIANZA EN POBLACIONES FINITAS
Cuando el tamaño de la población no es muy grande en relación al tamaño de la
muestra, las varianzas de los estadísticos muestrales difieren un poco de las
varianzas en caso de poblaciones infinitas. Concretamente para la media muestral,
proporción muestral, y para el total de la muestra, las varianzas quedan multiplicadas
por un factor de corrección 1
N
nN. Así, las expresiones de dichas varianzas son:
Para la media muestral x es,
1)(
22
N
nN
nxD
Para la proporción muestral f es,
1)(2
N
nN
n
pqfD
Para el total
n
i
ixT1
de la muestra es,
8. Distribuciones en el muestreo
-211-
1)( 22
N
nNnTD
8.9. PROBLEMAS PROPUESTOS
8.9.1.- Dada una población NORMAL N(5,2), ¿cuál es la probabilidad de que la media
muestral para una muestra de tamaño 4 sea superior a 6? ¿Y si el tamaño es 25?
Solución: 0.1587 0.0062
8.9.2.- Se extraen dos muestras aleatorias simples de tamaños n1=22 y n2=30 de
una población NORMAL de varianza 9. Calcular la probabilidad de que la diferencia
de medias de ambas muestras sea superior a 1.
Solución: 0.235
8.9.3.- Determinar el tamaño de muestra a tomar en el estudio de la fabricación de
ciertas piezas para que la media muestral de una cierta dimensión difiera de la media
poblacional en menos de 1 cm con una probabilidad del 95% si σ=3.
Solución: 36
8.9.4.- En la inspección de recepción por lotes se mide la longitud de una
determinada pieza, su distribución poblacional es N(10,0'15). Se toma una muestra
de tamaño 25, si x <10 no se compra el lote x >10 se compra pagando sobre el
precio una cantidad adicional y=1000( x -10)2 (en euros). Determinar :
a) La distribución de la cantidad adicional.
b) La probabilidad de que dicha cantidad sea inferior a 2 euros.
c) Valor de k / P( y>k )= 0'001
Solución: b) 0.9319 c) 8.64
8. Distribuciones en el muestreo
-212-
8.9.5.- Un fabricante produce lámparas eléctricas con una vida media de 2.000 horas
y una desviación típica de 200 horas. Mediante la modificación del proceso de
fabricación se piensa elevar la media a 2.200 horas conservando la dispersión. Si se
tenía una muestra de 10 lámparas producidas antes del cambio, se toma una
muestra de 30 después del mismo y se halla la diferencia entre las medias
muestrales, ¿cuál es la probabilidad de que esta diferencia esté entre 195 y 205?
Se admite una distribución NORMAL para la vida de las lámparas.
Solución: 0.056
8.9.6.- Determinar a y b para que P(as'2b)=0'8 si s'2 procede de una muestra
aleatoria simple de tamaño 16 de una población NORMAL N(8,2).
Solución: a = 2.28, b = 5.95
8.10. PROBLEMAS Y CUESTIONES DE EXÁMENES
8.10.1.- El espesor de unas planchas de acero sigue una distribución normal con
varianza 5,4. Se pide:
a) Si tomamos una muestra de tamaño n=20, cuál es la probabilidad de que la
desviación típica sea superior a 3. (1 punto)
b) ¿Cuál debe ser el número de planchas a medir para que la probabilidad de
que la media muestral de estas planchas difiera de la media poblacional en
más de 2 unidades sea inferior al 10%? (1punto)
Solución :
a) 034,066,314,5
19·9)·1()3( 2
192
2
P
snPsP
b) La condición que se debe cumplir es,
10,0)2( xP
8. Distribuciones en el muestreo
-213-
El suceso contrario es,
90,0)2( xP
90,022
nn
x
n
P
Buscamos el valor de 645,105,0 z , y de la expresión anterior el valor de n se
obtiene de,
645,12
n
Despejando n se tiene,
2
4,5·645,1n
n=3,65 de donde el valor de n tiene que ser como mínimo de n=4.
8.10.2.- La longitud de una pieza utilizada en un proceso de montaje sigue una
distribución normal de media 50 mm y desviación típica 12 mm. Si extraemos una
muestra aleatoria simple de 16 piezas. Determinar:
a. ¿Cuál es la probabilidad de que su media sea menor de 58? (0,5 puntos)
La media muestral seguirá una distribución del tipo ~N(50, 12/√16), por lo que la
probabilidad pedida es:
b. ¿Entre qué valores se encontrará el 38% de las medias muestrales obtenidas
al tomar reiteradamente muestras de 16 piezas de ese lote? (1,5 puntos)
La probabilidad pedida es:
8. Distribuciones en el muestreo
-214-
Asumiendo simetría para simplificar
c. ¿Qué tamaño tendría que tener la muestra para que la probabilidad de
encontrar medias superiores a 52 fuese 0,2578? (1,5 puntos)
El tamaño de muestra n debe cumplir que:
d. ¿Calcular la probabilidad de que la varianza muestral sea mayor de 12,5? (1
punto)
La varianza muestral sigue una distribución del tipo por lo que la
probabilidad pedida será:
8.10.3.- En un proceso de fabricación se dispone de dos máquinas. El peso de las
piezas fabricadas por la máquina A sigue una distribución N (100; 2). El peso de las
piezas fabricadas por la máquina B sigue una distribución N (102; 2). Se toma una
muestra aleatoria de 5 piezas fabricadas por la máquina A y se calcula la media
muestral. A continuación se toma otra muestra de 5 piezas de B y se calcula la media
muestral. ¿Cuál es la probabilidad de que la media muestral de A sea mayor que la
8. Distribuciones en el muestreo
-215-
de B? (2 puntos)
Solución:
)52;100(NxA )52;102(NxB
2102100 BABA xExExxE
6,1)5/4()5/4(222 BABA xxxx
)58,1(6,1/20)6,1;2(0 NPxxPxxP BABA 0,057
8. Distribuciones en el muestreo
-216-
9. Inferencia en poblaciones normales
-217-
9. INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA
Contenido 9.1 ESTIMACIÓN PUNTUAL ......................................................................... 217
9.2. ESTIMACIÓN POR INTERVALOS DE CONFIANZA ............................... 220
9.2.1. Intervalo de confianza para la media poblacional .................................. 221
9.2.2. Intervalo de confianza para la varianza poblacional ............................... 223
9.2.3. Intervalo de confianza para el cociente de varianzas poblacionales ..... 224
9.2.4. Intervalo de confianza para la proporción .............................................. 225
9.2.5. Intervalo de confianza para la diferencia de proporciones ..................... 227
9.2.6. Intervalo de confianza para la diferencia de medias poblacionales ........ 228
9.3. TEST DE HIPÓTESIS ............................................................................. 230
Conceptos ....................................................................................................... 230
Obtención de los tests .................................................................................... 234
9.4. TEST DE HIPÓTESIS PARÁMETRICOS ..................................................... 235
9.4.1. Contrastes de la media de una poblacional normal .......................... 235
9.4.2. Test de hipótesis para la varianza poblacional ................................. 240
9.4.3. Test de hipótesis para el cociente de varianzas poblacionales ........ 241
9.4.4. Contrastes de proporciones ............................................................. 242
9.4.5. Test de hipótesis para la diferencia de medias poblacionales con
muestras independientes ................................................................................ 246
9.4.6. Test para la diferencia de medias poblacionales con datos
apareados ....................................................................................................... 247
9.4.7. Test para la diferencia de proporciones ........................................... 248
9.4.8. Test de ajuste a una distribución ...................................................... 250
9.4.9. Test de independencia ..................................................................... 252
9.5. PROBLEMAS PROPUESTOS ..................................................................... 255
Test de hipótesis ................................................................................................. 256
Tabla de contingencia ......................................................................................... 260
Test de ajuste a una distribución ......................................................................... 261
9.6. PROBLEMAS Y CUESTIONES DE EXÁMENES ......................................... 262
9.1 ESTIMACIÓN PUNTUAL
Sea X una v.a. cuya función de distribución F(x;) depende del parámetro poblacional
, y una muestra aleatoria simple (x1, x2, ···, xn) extraída de la misma población. El
proceso de estimación consiste en elegir una función de dichos datos muestrales,
de manera que sus valores se aproximen lo mejor posible al valor
verdadero y desconocido del parámetro .
9. Inferencia en poblaciones normales
-218-
¿Cuál es el criterio para saber que nos aproximamos lo mejor posible al valor
verdadero del parámetro?
Llamando a
se sigue el criterio de elegir de forma que minimice la cantidad )-(2
, o lo que
es equivalente, que minimice por término medio esa cantidad. Esto se puede
expresar como:
Imaginemos que tenemos dos posibles funciones de la muestra (estimadores)
y para estimar el mismo parámetro poblacional (la media de una distribución
N(0;1)), con las distribuciones que aparecen en la Figura 9. 1.
Figura 9. 1. Dispersión de los estimadores
Observamos que será preferible al , ya que está centrado en el valor verdadero,
y tiene una dispersión menor que la del estimador .
Si el valor medio del estimador coincide con el parámetro a estimar, se dice
que el estimador es centrado o insesgado,
=)E( ˆ
Caso contrario existe un sesgo )b( que se define como,
N(0,1)
N(0,2)
x
fx(x)
-10 -6 -2 2 6 10 0
0,1
0,2
0,3
0,4
9. Inferencia en poblaciones normales
-219-
)ˆE()b(
Figura 9. 2. Comparación de estimadores
Supongamos ahora que las distribuciones de los estadísticos fueran las que
aparecen en la Figura 9. 2. Aquí no tendríamos un criterio claro para elegir, ya que si
uno es preciso, el otro es más exacto.
La exactitud del estimador es la propiedad de proporcionar valores cerca del
valor verdadero, y la precisión se refiere a la dispersión de dichos valores.
Figura 9. 3. Exactitud y precisión de un estimador
Para comparar estos estadísticos debemos elegir otros criterios, por ejemplo,
el que sea Uniformemente de Mínima Varianza (UMV), es decir, entre todos los
posibles estimadores será mejor el que tenga una varianza más pequeña.
Luego en primer lugar, nos interesa estudiar aquellos estimadores que sean
insesgados y de mínima varianza.
Preciso pero no exacto Exacto pero no preciso Exacto y preciso
x x x
x
x
x
x
x x x
x x x x x
N(0,2) N(2,1)
x
fx(x)
-10 -6 -2 2 6 10 0
0,1
0,2
0,3
0,4
9. Inferencia en poblaciones normales
-220-
El error cuadrático medio se descompone en sesgo al cuadrado y varianza del
estimador, según la siguiente expresión:
)ˆ()ˆ(ˆ 22 Db)-E( 2
Para cada estimador nos interesa conocer su función de distribución, su
media y su varianza o desviación típica. La varianza del estimador viene dada por
la expresión , cuya expresión depende, por lo general, de un parámetro
poblacional. Por ejemplo, la varianza de la media muestral es,
nxD
22 )(
En caso de no conocer la varianza poblacional, la estimamos por la varianza
muestral, con lo cual la varianza del estimador es realmente una estimación de la
varianza poblacional del estimador. Esto se expresa mediante . La desviación
típica de esta varianza estimada se denomina error estándar del estimador , y se
expresa mediante )ˆ(EE , lo cual viene a ser equivalente a la notación )ˆ(ˆ D . El error
estándar de la media muestral es,
n
sxEE )(
9.2. ESTIMACIÓN POR INTERVALOS DE CONFIANZA
No solamente interesa obtener un valor concreto del parámetro desconocido, sino
también una idea de la precisión de la estimación. Con este objeto proporcionamos
un intervalo de valores, cuyos límites son función de los valores muestrales, de forma
que tendrá una gran probabilidad, -1 , de contener al valor verdadero del parámetro
estimado. Es decir, se debe cumplir la condición de que
-1=))x(L)x(LP( 21
Cuanto menor sea el intervalo, mayor es la precisión del estimador.
Si cambia la muestra, también cambia los valores Ly L 21 , de manera que
tenemos unos intervalos aleatorios.
A la cantidad -1 se denomina "coeficiente o nivel de confianza" y es el
coeficiente o nivel de significación. Por lo general, es el 5% ó el 1%. Si tomamos
5%= significa que de cada 100 intervalos que obtengamos para estimar , 95
contendrán al valor verdadero y desconocido del parámetro y 5 no lo contendrán.
9. Inferencia en poblaciones normales
-221-
Esta idea se expone en la Figura 9. 4.
Figura 9. 4. Concepto de intervalos de confianza
Para obtener intervalos de confianza elegimos una función );xg(
cuya
distribución, es conocida, y no depende del parámetro a estimar y que permite
despejar en función de todo lo demás. Vamos a verlo con casos sencillos que
estudiamos a continuación.
9.2.1. Intervalo de confianza para la media poblacional
Si x
procede de una población normal );N( de media y desviación típica
conocidas, entonces:
N(0;1)=
n
-x
y podemos obtener dos valores de la N(0;1) tales que
-1=z+
n
-xz- P /2/2
despejando queda:
9. Inferencia en poblaciones normales
-222-
-1=n
z+ -x n
z- P /2/2
de donde:
-1=n
z+x n
z-xP /2/2
Si la poblacional es desconocida, se tiene que
t=
n
s
-x1-n
y obtenemos unos valores de la t 1-n tales que:
-1=t+
n
s
-xt-P /2
1-n/21-n
despejando queda:
-1=n
st+x
n
st-xP /2
1-n/21-n
Y los límites del intervalo son:
n
st-x)x(L /2
1-n1
n
stx)x(L /2
1-n2
Error de estimación de la media poblacional
Si empleamos el estadístico x para estimar la media poblacional, el error de
estimación es justamente la semiamplitud del intervalo de confianza, esto es,
nz
2/
Si no conocemos la el error de estimación es,
n
st
/21-n
9. Inferencia en poblaciones normales
-223-
Si el tamaño N de la población no es muy grande en relación al tamaño de la
muestra, a la varianza hay que aplicar el factor de corrección 1
N
nN por población
finita, y los errores de estimación son,
12/
N
nN
nz
1
N
nN
n
st
/21-n
Cálculo del tamaño muestral para un error determinado
Si deseamos saber cuántas unidades debemos evaluar para que nuestra
estimación de la media poblacional no sea superior a un error determinado con un
nivel de confianza de 1 , despejando el tamaño muestral n de las fórmulas
anteriores del error, tenemos la expresión,
2
2
zn
Si no conocemos la el valor de la n es, 2
2
22/
1nzsts
n
Se aproxima a la normal para no tener que recurrir a tanteos al estar la
incógnita n en la fórmula del cálculo inicial.
Si la población es finita, el valor de la n se despeja de sus expresiones
respectivas, donde aparece el factor de corrección por población finita.
9.2.2. Intervalo de confianza para la varianza poblacional
Para una m.a.s. )x,...,x,x( n21 extraída de una población normal );N( , tenemos
que
2
1-n2=
sn
2
)1(
y podemos calcular unos valores de la chi-cuadrado tales que
-1=s
n P2
21,-n2
2
2-1,1-n
2
)1(
9. Inferencia en poblaciones normales
-224-
despejando 2
-1=1
sn
1 P
2
21,-n
2
2
2-1,1-n
2)1(
-1=snsn
P2
2-1,1-n
2
2
21,-n
22 )1()1(
9.2.3. Intervalo de confianza para el cociente de varianzas poblacionales
Sea X 1
una m.a.s. extraída de una población );N( 11 , y X 2
otra m.a.s. extraída de
una población );N( 22 , se tiene que:
F=s
s
1-n1,-n
22
21
21
2
2
2
1
y podemos obtener unos valores de la F tal que:
-1=Fs
s
F P /21-n1,-n
22
21/2-1
1-n1,-n 2121
2
2
2
1
-1=
F
1
s
sF
1 P
/21-n1,-n
22
21
/2-11-n1,-n 2121
2
2
2
1
-1=F
s
s
F
s
s
P/2-1
1-n1,-n22
21
/21-n1,-n 2121
2
2
2
1
2
2
2
1
9. Inferencia en poblaciones normales
-225-
Actividad 9.1:
En una planta de envasado de agua se toman al azar de la cadena de producción 15
botellas, y se analiza para cada una de ellas el contenido de calcio en mg/l.,
resultando los siguientes valores:
25 29,4 28,1 27,5 31 27,7 24,7 33,1 32,2 29,4 33,3 28,4 31 26,8 33,3
Se pide:
a) Estimar la media poblacional y su error de estimación con un nivel de
significación del 5%.
b) Calcular un intervalo de confianza para la media poblacional, con un
coeficiente de confianza del 95%.
c) De antemano se sabe que la varianza es 9, ¿cuánto vale el intervalo de
confianza al 95% para la media poblacional?
d) ¿Cuántas botellas se deben examinar para estimar la media poblacional con
un error menor del 1 mg/l y un nivel de confianza del 95%?
9.2.4. Intervalo de confianza para la proporción
Si de una población con proporción poblacional de defectuosas 0p tomamos una
muestra aleatoria de tamaño n y observamos el número X de piezas defectuosas,
como el valor de X sigue una distribución binomial, y ésta se puede aproximar a una
distribución normal, un intervalo de confianza para la proporción 0p , viene dado por,
n
qpzpp
n
qpzp /2/2
ˆˆˆ
ˆˆˆ
0
Siendo p la proporción muestral, esto es,
n
xfp ˆ
Si p fuera la proporción de defectos entre las n piezas, entonces X sigue una
distribución de Poisson, y como se puede aproximar a una distribución normal, el
intervalo de confianza para la proporción de defectos es,
n
pzpp
n
pzp /2/2
ˆˆ
ˆˆ
0
9. Inferencia en poblaciones normales
-226-
Error de estimación de la proporción
El error de estimación de la proporción de unidades defectuosas viene dado
por la expresión que hay a la derecha del del intervalo de confianza para la
proporción, esto es,
n
qpz /2
Para el caso de población finita, hemos de adjuntar a la varianza el factor de
corrección 1N
nN
, y el error es,
1
N
nN
n
qpz /2
Si no conocemos la p poblacional, hay que obtener una estimación previa p ,
o bien ponernos en el caso más desfavorable, y es considerar que el producto
p·q=0,25, que es lo máximo que puede ser dicho producto.
El tamaño muestral para un error determinado se obtiene despejando n de las
expresiones anteriores.
Si estamos estimando la proporción de defectos, el intervalo de confianza se
basa en la distribución de Poisson, y resultan las mismas expresiones pero quitando
la q, es decir, cambiando p·q por p. Las expresiones de los errores son,
n
pz /2
1
N
nN
n
pz /2
Actividad 9.2:
De una producción de componentes electrónicos se examinaron 75, y resultaron 5
defectuosos.
a) Calcular un intervalo de confianza para la proporción de componentes
defectuosos.
b) ¿Cuántas piezas se deben examinar para estimar el valor verdadero de la
proporción de piezas defectuosas con un error menor de 0,01 y una confianza
de 95%?
c) Calcular el tamaño muestral si no conocemos un valor previo de p.
d) Calcular el tamaño muestral si tenemos una estimación previa de p=0,04.
9. Inferencia en poblaciones normales
-227-
e) Caso de suponer una población finita de N=1000 bujías.
f) Mismo enunciado que el anterior, pero suponiendo que deseamos estimar la
proporción de defectos por unidad de bujía.
9.2.5. Intervalo de confianza para la diferencia de proporciones
Si de una población de proporción de defectuosas p1 tomamos una muestra aleatoria
de tamaño n1 y observamos que hay X1 defectuosas; y de otra población de
proporción de defectuosas p2 tomamos una muestra aleatoria de tamaño n2 y
observamos el número de defectuosas X2, como tanto X1 como X2 siguen
distribuciones normales, si los tamaños de muestra son suficientemente grandes, la
diferencia
2
2
1
1
n
X
n
X
también sigue una distribución normal, y un intervalo de confianza para la diferencia
de proporciones viene dado por,
n
qp+
n
qpzp-pp-p
n
qp+
n
qpzp-p
2
22
1
11
2121
2
22
1
11
21
ˆˆˆˆˆˆ
ˆˆˆˆˆˆ
2/2/
Donde,
2
111
ˆn
xfp y
2
222
ˆn
xfp
Si las proporciones se refieren a defectos por unidad, el intervalo de confianza
es el mismo, pero cambiando el producto de p·q por p, esto es,
n
p+
n
pzp-pp-p
n
p+
n
pzp-p
2
2
1
1
2121
2
2
1
1
21
ˆˆˆˆ
ˆˆˆˆ
2/2/
Actividad 9.3:
De una muestra de 400 alumnos de la ETSII, 27 de ellos dijeron que fumaban
habitualmente, en cambio de una muestra de 500 alumnos de la Bellas Artes dijeron
que fumaban 35. ¿Se pueden considerar que el porcentaje de fumadores en BBAA
es bastante superior al de la ETSII?
9. Inferencia en poblaciones normales
-228-
9.2.6. Intervalo de confianza para la diferencia de medias poblacionales
Si de una población normal );(N 11 , extraemos una muestra de tamaño n1 y
calculamos la 1x ; y de otra población normal );(N 22 extraemos otra muestra
aleatoria de tamaño n2, y observamos 2x , como la diferencia 21 xx sigue una
distribución normal,
2
2
2
1
2
12121 ;
nnNxx
Un intervalo de confianza para la diferencia de medias poblacionales, siempre
y cuando los tamaños muestrales sean bastante elevados, es,
n+
nzx-x
n+
nzx-x
2
22
1
21
/221
2
22
1
21
/221
21
En el caso de no conocer las varianzas poblacionales 2 las estimamos a
partir de las varianzas muestrales 2s y el intervalo de confianza es,
n
s+
n
stx-x
n
s+
n
stx-x
21
/22n+n21
21
/22n+n21 2121
2
2
2
121
2
2
2
1
Si admitimos que las varianzas poblacionales son iguales pero desconocidas,
la varianza común la estimamos a partir de una ponderación de las varianzas
muestrales, esto es,
2-n+n
s1)-n(+s1)-n(=s
21
222
2112
Y el intervalo de confianza es,
n
1+
n
1stx-x
n
1+
n
1stx-x
21
/22-n+n21
21
/22-n+n21 2121
21
Actividad 9.4:
1. Un almacenista de pilas alcalinas desea conocer la duración media de las pilas que
ofrece un nuevo proveedor. Para ello ha tomado 12 pilas al azar y ha medido el
tiempo de duración en horas. Los resultados han sido:
9. Inferencia en poblaciones normales
-229-
Duración(hrs.)
27.5
31.2
33.4
29.8
25.4
30.5
31.7
26.3
29.2
32.1
30.8
28.6
a) ¿Cuál es la estimación de la duración media.
b) ¿Cuál es la estimación de su dispersión?
c) ¿Qué error se comete en la estimación de la duración media?
d) Calcular los intervalos de confianza para la duración media y la dispersión de
la duración de la pilas.
2. El almacenista anterior tiene la oportunidad de comprar pilas alcalinas de otro
nuevo proveedor que afirma que las que él fabrica tiene una mayor duración. Para
ello el almacenista extra 10 pilas de este nuevo proveedor y mide la duración de las
mismas. Los resultados han sido:
Duración(hrs.)
31.3
33.5
34.2
29.4
28.5
30.7
32.9
31.7
30.3
32.1
a) Estimar la media y la varianza de la duración de las pilas.
b) Calcular los errores de estimación.
c) Calcular el intervalo de confianza para diferencia de medias.
d) Estimar el intervalo de confianza para la desviación típica.
e) Contrastar la hipótesis de que el segundo proveedor es mejor que el
9. Inferencia en poblaciones normales
-230-
primero.
f) Contrastar la hipótesis de igualdad de varianzas.
3. En la tabla siguiente se recogen medidas de desgaste de las suelas de zapatos de
10 chicos. Las suelas se fabricaron de dos materiales sintéticos A y B. La pregunta a
contestar es, ¿hay diferencias entre el material A y el B en cuanto a desgaste de la
suela de zapato.
Chico Material A Material B Diferencia(B-A)
1 13,2 14,0 0,8
2 8,2 8,8 0,6
3 10,9 11,2 0,3
4 14,3 14,2 -0,1
5 10,7 11,8 1,1
6 6,6 6,4 -0,2
7 9,5 9,8 0,3
8 10,8 11,3 0,5
9 8,8 9,3 0,5
10 13,3 13,6 0,3
El material se asignó de forma aleatoria a cada zapato.
a) Obtener un intervalo de confianza para la diferencia de la media del desgaste
entre los dos tipos de materiales.
9.3. TEST DE HIPÓTESIS
Conceptos
Una hipótesis es una afirmación acerca de algo. Por ejemplo, el parámetro es igual
a cero. Bajo esta suposición estudiamos los datos y su comportamiento, y si no hay
mucha discrepancia entre lo observado y lo esperado, aceptamos tal afirmación,
cuanto menos decimos que no hay suficiente evidencia como para rechazar la
hipótesis establecida.
En consecuencia, se plantea el problema como una toma de una de las dos
decisiones siguientes:
9. Inferencia en poblaciones normales
-231-
d 0 = acepto la afirmación planteada.
d 1 = rechazo la afirmación planteada.
La afirmación que realizamos se llama "hipótesis nula" y casi siempre va
ligada a lo que es habitual indicando que hay “nulo” cambio; y la contraria se llama
"hipótesis alternativa".
Si la hipótesis respecto del valor de un parámetro se reduce a un punto,
decimos que la hipótesis es "simple", y si se trata de un conjunto de puntos, decimos
que la hipótesis es "compuesta".
Hipótesis simples son H0(=0) frente a la alternativa H1(=1). Hipótesis
compuestas son H0( 0) frente a la alternativa H1( 1). Así pues, podemos tener
H0(=0) vs H1(0)
que es un test bilateral cuando los valores alternativos están a ambos lados del valor
supuesto, y
H0(0) vs H1(>0) o bien H0(=0) vs H1(>0)
H0(0) vs H1(<0) o bien H0(=0) vs H1(<0)
que son test unilaterales, porque los valores alternativos están a un lado del valor
supuesto.
La hipótesis alternativa es la más fuerte, y se suele colocar como hipótesis
nula aquella cuyas consecuencias económicas sean más graves. Es decir, la
hipótesis nula tiende a ser más conservadora, de modo que no cambia su
formulación a menos de que no haya evidencias objetivas muy fuertes en su contra.
Región de aceptación y de rechazo
Una vez planteadas la hipótesis nula y la alternativa, el problema consiste en
tomar una muestra de la población, y a partir de ella decidir si aceptar o rechazar la
hipótesis nula, en función de la coherencia de los valores muestrales con la hipótesis
nula establecida.
Esto equivale a dividir el espacio muestral en dos zonas. Si el punto muestral
cae en la zona de aceptación, que llamamos X0(s), aceptamos H0, y si cae en la zona
de rechazo X1(s) aceptamos H1, lo cual implica rechazar H0. La letra "s" indica la
partición efectuada. Esquemáticamente es como aparece en la Figura 9. 5.
9. Inferencia en poblaciones normales
-232-
Figura 9. 5. Test de hipotesis
Encontrar el test significa encontrar la subdivisión del espacio muestral que
minimiza las pérdidas de las decisiones erróneas, según la matriz de pérdidas
Decisión\Espacio paramétrico 00 11
0, decisión correcta Error 2 () W(d0,1)
Error 1 () W(d1,0) 0, decisión correcta
Suponemos que cuando la decisión es la correcta, la pérdida es cero.
Errores de primera y segunda especie
En el contraste de hipótesis se pueden cometer dos errores:
1) Rechazar H 0 , cuando realmente es verdadera.
2) Aceptar H 0 , cuando realmente es falsa.
El primero de ellos se llama error de primera especie o tipo I cuya probabilidad
es , y viene dado por,
)(s)/XP(x= 01
y el segundo es el error de segunda especie o tipo II cuya probabilidad es , y es
)(s)/XP(x= 10
d 0
d 1
9. Inferencia en poblaciones normales
-233-
Figura 9.6. Valor de la β
Para un contraste de hipótesis nos interesaría que tanto como sean cero,
o ambos lo más pequeño posible. Lo primero no se puede conseguir salvo que
analicemos toda la población. Para conseguir lo segundo bastaría con aumentar
suficientemente el tamaño de la muestra con lo que aumentamos nuestra información
y reducimos la probabilidad de equivocarnos. De tal forma que si hacemos =0, se
cumple, para una misma n, que =1; y al contrario, si hacemos que =0, para una
misma n, se cumple que =1.
La Potencia del test se define como:
)(s)/XP(x=)(Pot 1s
es decir, la probabilidad de rechazar la hipótesis nula en función del valor del
parámetro. El mejor test es aquel que para =0 la potencia es mínima y para otro
valor sea máxima.
La curva característica es la complementaria de la curva de potencia, es decir,
)/()( 0HaceptarPCC
x/n
x LI LS
x/n
9. Inferencia en poblaciones normales
-234-
Figura 9. 7. Potencia del test
Obtención de los tests
La forma práctica de obtención del test de hipótesis es la siguiente: bajo el supuesto
de que se cumple la hipótesis nula H0, observamos un estadístico "T", función de la
muestra, que seguirá un determinado tipo de distribución, y por lo tanto será muy
probable que el valor observado esté dentro del campo de existencia de la
distribución T. Esta idea aparece representada en la Figura 9. 8.
Figura 9. 8. Distribución del estadístico T
Pero si el valor observado cae fuera del intervalo esperado, esto está en
contradicción con la hipótesis nula, lo cual nos lleva a rechazarla. Por lo general, el
intervalo esperado corresponde al -1 de los datos, siendo 5%= .
También se puede decir que si la probabilidad de obtener un valor mayor que
LI LS
Intervalo Esperado
1-
1
1-
0 1
Pa
1-
1
1-
0 1
Pr
0 0
Curva Característica Curva de Potencia
9. Inferencia en poblaciones normales
-235-
el observado, el cual viene dado por:
value-p=)T>P(T observ
es muy pequeño, <value-p , entonces es algo raro, bajo el supuesto de que se
cumpla la hipótesis nula, lo cual nos lleva a rechazarla.
Es decir, que admitimos un cierto nivel de discrepancia entre lo esperado y lo
observado, pero si la discrepancia es muy grande, esto lleva a rechazar la hipótesis
nula.
Con este razonamiento encontramos los principales test, que vemos a
continuación.
9.4. TEST DE HIPÓTESIS PARÁMETRICOS
9.4.1. Contrastes de la media de una poblacional normal
Las hipótesis que planteamos son )(H a frente )=(H 0100 , supuesto que
la varianza poblacional sea conocida. El estadístico a emplear es:
ZN(0;1)=
n
-x=T 0
y bajo el supuesto de la hipótesis nula, se cumple que:
-1=)z+<T<zP(- /2/2
y si la T observada resulta
z|>T| /20
entonces se rechaza la hipótesis nula.
Si la varianza poblacional es desconocida, empleamos el estadístico t:
9. Inferencia en poblaciones normales
-236-
t=
n
s
-x=T 1-n
0
y bajo el supuesto de la hipótesis nula, se cumple que:
-1=)t+ T tP(- /21-n
/21-n
luego, si
t|>T| /21-n
0
rechazamos la hipótesis nula.
Gráficamente es según la Figura 9. 9.
Figura 9. 9. Zonas de aceptación y de rechazo
El test "s" es mejor que el "t" para contrastar )0=(H o .
s
t
0
Pr
0
1
LI LS
Zona de aceptación
Zona de rechazo
9. Inferencia en poblaciones normales
-237-
Figura 9. 10. Comparación de test 0=15
Con este planteamiento también se puede resolver un test a un sólo lado, por
ejemplo
conocido con )(H a frente )>(H 0100
El estadístico a observar es el mismo
n
-x=T 0
las zonas de aceptación y de rechazo son según la Figura 9. 11.
Figura 9. 11. Test unilateral
Esto significa que el área en lugar de repartirse a ambos lados, sólo está
en el lado de H 1 , ya que bajo )>(H 00 , lo normal es que la tobserv. se vaya hacia la
izquierda de la figura.
De esta forma, si:
z->T observ.
aceptamos la H0.
De forma análoga, si el test de hipótesis es,
conocido con )(H a frente )(H 0100
Las zonas de aceptación y de rechazo se muestran en la figura siguiente,
LI
Zona de aceptación
Zona de rechazo
9. Inferencia en poblaciones normales
-238-
Actividad 9.5
Un proveedor de pilas alcalinas del tamaño de R6 asegura que pueden funcionar por
término medio hasta 40 horas. El comprador de las pilas, para contrastar tal
afirmación, prueba 9 de ellas y observa el tiempo de duración de cada uno de ellas.
El resultado ha sido:
40,5 39,5 41 42 37 35 43 41,5 42,5
a) ¿Se puede aceptar la afirmación del proveedor?
b) ¿Cuánto vale el p-valor del test?
c) Si realmente la duración de las pilas fuera de 35 horas, ¿cuál serà la
probabilidad de aceptar que funcionan por término medio 40 horas?
d) ¿Cuál será el tamaño muestral a tomar por que la probabilidad de aceptar la
hipótesis nula sea del 60%
Aplicación del test de hipótesis para la media poblacional
En función de la escala de la x , la zona de aceptación del test H0(=0) frente
a H1(0) es,
n
zxn
zxsX
2/02/00 /)(
Que gráficamente es colocar dos líneas, la LCS y la LCI, siendo,
LCS=n
z 0
2/0
LCI=
nz 0
2/0
LI LS
Zona de aceptación
Zona de rechazo
9. Inferencia en poblaciones normales
-239-
Tomamos una muestra de tamaño, calculamos su media muestral, y si este
valor está entre el LCI y el LCS, aceptamos que la media poblacional no se ha
modificado.
Figura 9. 12. Gráfico de control para la media poblacional
Cálculo de la
Para el test H0(=0) frente a H1(0), si la media en lugar de 0 cambia a
1 , la probabilidad de que un punto muestral esté dentro de los límites de aceptación
es,
12020)(
nzx
nzPLCSxLCIP
Suponiendo que la no haya cambiado, para obtener la probabilidad
tipificamos, pero ahora la distribución de x es )n
;(Nx 1
y el valor de la
n
nz
n
nz
12/012/0 ··
Sustituyendo valores calcularíamos el valor de .
Tamaño muestral
Si nos dan dos puntos de la curva característica )1,( 0 y );( 1 , el tamaño
de muestra para realizar el contraste de hipótesis, se obtiene imponiendo que la
LCS
LCI
Muestra 1 Muestra 2
t
Aceptamos H0
Rechazamos H0
9. Inferencia en poblaciones normales
-240-
curva característica pase por esos dos puntos y despejando el valor de n se tiene,
2
2
2
2/
2
2/
zz
d
zzn
Donde
01d es el descentrado relativo, y 01 .
9.4.2. Test de hipótesis para la varianza poblacional
El mismo razonamiento se aplica para la varianza poblacional. Así para el contraste
)(H a frente )=(H20
21
20
20
empleamos el estadístico
2
1-n20
22
.observ
s)1n(=
y por lo tanto se pueden calcular unos valores de la chi-cuadrado tales que:
-1=)P(
2
/2-1,1-n
2
1n
2
/2-1,1-n
y en consecuencia, si la 2
.observ está fuera de ese intervalo, rechazamos la hipótesis
nula )=(H20
20 .
Para el contraste de
)>(H a frente )=(H2
120
20
2
0
si el valor de la 2
.observ se va hacia la derecha, da más peso a H 1 que a H 0 , luego el
área se va hacia la derecha. Gráficamente es según la Figura 9. 13.
9. Inferencia en poblaciones normales
-241-
2n-1
()
1-
2n-1
Figura 9. 13. Zona de rechazo.
Si
2
1,-n
2
.observ > , rechazamos la H 0
Actividad 9.6.
La duración de las pilas alcalinas se sabe que tiene una desviación típica de 3
minutos. Para comprobar que una nueva remesa de pilas tienen la misma dispersión,
se prueba 11 de ellas y la desviación típica muestral ha sido s=3,7. ¿Se puede decir
que la dispersión es mucho mayor en esta segunda remesa?
9.4.3. Test de hipótesis para el cociente de varianzas poblacionales
Análogamente, para contrastar
)(H a frente )=(H22
211
22
210
el estadístico a observar es:
F=s
s
=F 1-n1,-n
22
21
observ. 21
2
2
2
1
que bajo el supuesto de que 22
21 = , el estadístico se reduce a:
9. Inferencia en poblaciones normales
-242-
F=s
s=F 1-n1,-nobserv. 212
2
2
1
Tomando como 2
1s la mayor de las cuasivarianzas muestrales, el cociente
deberá ser la unidad, pero si es un poco mayor que la unidad, todavía no hay
evidencia de que 22
21 , pero si el cociente es bastante mayor que la unidad,
entonces si hay razón para pensar que 22
21 .
)(
1,1 21
nnF
1,1 21 nnF
Figura 9. 14. Zona de rechazo
Ese bastante nos lo indica el cociente de varianzas muestrales, de forma que
si F>F/2
1-n1,-nobserv. 21
, rechazamos la H 0 , y podemos decir que 22
21 > .
Actividad 9.7.
De una remesa de 11 pilas alcalinas la desviación típica ha sido de 3,7 y de una
segunda remesa de 13 pilas alcalinas la desviación típica ha sido de 4,6. ¿Se puede
decir que la dispersión de la segunda remesa es mucho mayor que la dispersión de la
primera?
9.4.4. Contrastes de proporciones
Para contrastar si el porcentaje de defectos de un lote de piezas es p0, muestreamos
n piezas al azar del lote, y observamos el número X de piezas defectuosas. En
principio, si el tamaño del lote es grande en comparación con la muestra, X sigue una
9. Inferencia en poblaciones normales
-243-
distribución Binomial B(n,p), pero si np>5, se puede aproximar a una distribución
normal )p)-np(1N(np;X . Con ello bajo el supuesto de que p=p0 la cantidad X
se distribuye según una ))p-(1np;npN(000
y tipificando se tiene:
)p-(1np
pn-X =z
00
0
Esta cantidad Z sigue una distribución N(0;1), de forma que el valor observado
cabe esperar que esté dentro del campo de existencia de la normal tipificada, con
una probabilidad del 95% (tomando 0,05= ). En caso de que ocurra lo esperado,
no hay razón para rechazar la hipótesis nula de que p=p0. Es decir, la región de
aceptación del test es,
z+ <z < z- /2/2
y la región de rechazo es la contraria,
z > |z| /2
Actividad 9.8
De un contenedor con 10000 piezas se afirma que el porcentaje de defectuosas es
del 2%. Para contrastarlo se toma una muestra de 50 unidades y se observa que hay
2 defectuosas.
a) ¿Es eso coherente con la hipótesis nula de que el porcentaje es del 2%?
b) ¿Cuánto vale el p-valor del test?
c) Si viniera un contenedor con un porcentaje del 5%, ¿cuál será la probabilidad
de aceptar la hipótesis nula?
d) ¿Si queremos que la probabilidad anterior fuera de 0,40 ¿qué tamaño de
muestra debemos tomar?
Cálculo de la para un proporción
Para el test )pp(H 00 frente a )pp(H 01 los límites de la zona de
aceptación son,
9. Inferencia en poblaciones normales
-244-
n
qpzpLCS 00
2/0 n
qpzpLCI 00
2/0
Si la proporción fuera p1, el valor de es,
)/ˆ()/( 100
2/000
2/01 pn
qpzpp
n
qpzpPpLCSfLCIP
Cuando p0 cambia a p1, la f sigue una distribución normal )n
q·p;p(N 11
1 ,
pero los límites de la zona de aceptación no cambian, y el valor de es,
n
qp
pn
qpzp
n
qp
pn
qpzp
11
1
00
2/0
11
1
00
2/0
·
··
·
··
Sustituyendo valores, calcularíamos el valor de .
Para la proporción de defectos(defectos por unidad), es todo igual pero
cambiando p·q por sólo p.
Gráficos de control para la proporción de piezas defectuosas
Para controlar que la proporción de piezas defectuosas de un proceso
industrial se mantiene en un nivel de 0p , tomamos una muestra al azar de tamaño n
y observamos la proporción muestral,
n
xfp ˆ
Siendo x el número de piezas defectuosas que aparecen en la muestra.
Las sucesivas muestras de tamaño n, vamos graficando en ordenadas el valor
de dicha proporción muestral, y siempre que la misma esté dentro de unos límites de
aceptación para el test )pp(H 00 frente a )pp(H 01 diremos que el proceso está
bajo control, tal y como se refleja en la figura de abajo.
9. Inferencia en poblaciones normales
-245-
TiempoMuestra 1 Muestra 2
Aceptamos la H0
Rechazamos la H0f=x/n
n
qpzpLCS /
0020
n
qpzpLCI /
0020
Figura 9. 15. Gráfico de control para la proporción de defectuosas
Siempre que la proporción observada de la muestra esté dentro de dichos
límites, asumiremos que el proceso se encuentra dentro de lo que cabe esperar, pero
cuando un punto salga de dichos límites, habrá que buscar la causa del cambio del
proceso.
Tamaño muestral
Si nos dan dos puntos de la curva característica )1,( 0 y );( 1 , el tamaño
de muestra para realizar el contraste de hipótesis, se obtiene imponiendo que la
curva característica pase por esos dos puntos y despejando el valor de n se tiene,
2
0
002/
pp
pqzqpzn
Para la proporción de defectos (defectos por unidad), el tamaño de muestra a
tomar para que el test pase por los dos puntos de la curva característica es,
2
0
02/
pp
pzpzn
9. Inferencia en poblaciones normales
-246-
9.4.5. Test de hipótesis para la diferencia de medias poblacionales con
muestras independientes
Si partimos de dos poblaciones de dos poblaciones que siguen distribuciones
N(μ1,1) y N(μ2 , 2) respectivamente, para realizar el contraste de,
)()( 2121 HafrenteH
Tomamos una muestra de tamaño n1 de la primera población y otra muestra
de tamaño n2 de la segunda población, calculamos las medias muestrales de cada
muestra, y observamos el estadístico,
2
22
1
21
2121
nn
xxT
)()(
El cual sigue una normal tipificada. Si el valor de T cae dentro de la zona de
aceptación (1-) no hay razón para rechazar la hipótesis nula. El área de aceptación
es,
22 zTz //
En el caso de que 1 y 2 sean desconocidas pero iguales, la común la
estimamos mediante,
2
)1()1(
21
2
2
21
2
1
nn
nsnss
Y el estadístico
21
2121
11
)()(
nns
xxT
Sigue una t de Student con n1+n2-2 grados de libertad.
Si
2/
2
2/
2 2121
nnnn tTt
Aceptamos la hipótesis nula de igualdad de medias.
Para el contraste unilateral
)()( 2121 HafrenteH
Aceptamos la H0 cuando
9. Inferencia en poblaciones normales
-247-
221 nntT
9.4.6. Test para la diferencia de medias poblacionales con datos
apareados
Se trata de un contraste para la diferencia de medias de dos poblaciones, pero en
que las muestras obtenidas no son independientes, sino que están de alguna forma
relacionadas una a una, de manera que el tamaño de las muestras es el mismo. Es
típico el caso de que de un elemento de la población realizamos mediciones antes y
después de un tratamiento y queremos contrastar si hay diferencias debido al
tratamiento.
El tamaño de la muestra es n, y para cada elemento tenemos las
observaciones x1i y x2i, la primera y segunda medición, y deseamos contrastar si las
iii xxd 21
son por término medio cero. Es decir, el test de diferencias de medias,
)()( 2121 HafrenteH
Se reduce al test
)0()0( dd HafrenteH
Para ello aplicamos este test a la variable di y observamos el estadístico,
ns
dT
d
0
Donde n
d
d
n
i
i 1
y 1
)(1
2
n
dd
s
n
i
i
d .
Si 2/
1
2/
1
nn tTt aceptamos la hipótesis nula de igualdad de medias y en
caso contrario la rechazamos.
9. Inferencia en poblaciones normales
-248-
Actividad 9.9.
En la tabla siguiente se recogen medidas de desgaste de las suelas de zapatos de 10
chicos. Las suelas se fabricaron de dos materiales sintéticos A y B. La pregunta a
contestar es, ¿hay diferencias entre el material A y el B en cuanto a desgaste de la
suela de zapato.
Chico Material A Material B Diferencia(B-A)
1 13,2 14,0 0,8
2 8,2 8,8 0,6
3 10,9 11,2 0,3
4 14,3 14,2 -0,1
5 10,7 11,8 1,1
6 6,6 6,4 -0,2
7 9,5 9,8 0,3
8 10,8 11,3 0,5
9 8,8 9,3 0,5
10 13,3 13,6 0,3
Las mediciones son las alturas que restan en las suelas de los zapatos.
El material se asignó de forma aleatoria a cada zapato.
a) Suponiendo que los datos fueran independientes, ¿hay diferencias entre el
material A y B?
b) Como los datos se han obtenido a pares (son dependientes), ¿qué material es
el mejor?
9.4.7. Test para la diferencia de proporciones
Se trata de un contraste para comprobar si las proporciones de dos poblaciones son
iguales o distintas. Suponemos que la primera población tiene una proporción p1 de
una determinada característica, y de ésta tomamos una muestra al azar de n
elementos, y la segunda población tiene una proporción p2 de la misma característica,
y tomamos una muestra al azar de n2 elementos.
El test que plantamos es
9. Inferencia en poblaciones normales
-249-
)()( 2121 ppHafrenteppH
El cual equivale a,
)0()0( 2121 ppHafrenteppH
Para su contraste empleamos el estadístico,
21
21
11)ˆ1(ˆ
)0()(
nnpp
ffT
donde
21
21ˆnn
xxp
1
11
n
xf
2
22
n
xf
Siendo x1 y x2 el número de elementos de la muestra que poseen la
característica que estamos estudiando.
Bajo el supuesto de que se cumpla la H0 , y n1 y n2 lo suficientemente grandes,
el estadístico T se distribuye según una normal tipificada.
Si 2/2/ zTz aceptamos la hipótesis nula con un nivel de significación
de , y en caso contrario rechazamos la hipótesis nula.
Actividad 9.10
Se quiere comprobar si dos lotes con un determinado tipo de componente presenta el
mismo porcentaje de unidades defectuosas. Para comprobarlo se sacan 40 piezas
del primer lote y resulta que hay 2 defectuosas; y después se sacan 50 piezas del
segundo lote y resulta que hay 4 piezas defectuosas.
a) ¿Podemos afirmar que el porcentaje es el mismo?
b) ¿Cuánto vale el p-valor del test?
9. Inferencia en poblaciones normales
-250-
9.4.8. Test de ajuste a una distribución
Cuando observamos unos datos extraídos al azar de una población se plantea la
hipótesis de si dicha población sigue una determinada distribución o por el contrario
los datos no se puede decir que proceden de dicha población supuesta.
Vamos a plantear el test de ajuste a una distribución mediante un ejemplo
sencillo, como es la distribución aleatoria del los puntos extraídos al lanzar un dado.
La función de probabilidad es,
6,5,4,3,2,16
1)( ii xparaxXP
El objetivo de la prueba es comprobar si un dado está trucado o no. Para ello
lanzamos el dado 60 veces y anotamos la frecuencia de cada cara. Imaginemos que
el resultado haya sido.
OBSERVADO ESPERADO
9 10
13 10
7 10
14 10
12 10
5 10
A la vista de los resultados, ¿podemos decir que el dado está bien?
Bajo el supuesto de que el dado está bien la frecuencia esperada de cada xi
es
106
1·60)(· ixPn
Si observamos que las frecuencias fluctúan alrededor del valor de 10, diremos
que no hay motivo para pensar que el dado está trucado. Pero si las frecuencias que
observamos se separan mucho de 10, habrá motivo para pensar que el dado
realmente está trucado, ya que existen valores que se escapan de lo que cabe
esperar.
¿Cómo decimos que hay mucha diferencia respecto de lo que esperamos?
Para medir está diferencia empleamos el estadístico Chi-cuadrado, cuya
expresión es,
k
i
k
i
ii
cE
EO
1
2
1
2)(
donde:
io = frecuencia observada del valor xi .
9. Inferencia en poblaciones normales
-251-
ie = frecuencia esperada del valor de xi .
Las hipótesis que se plantean son:
H0(los datos siguen la distribución del dado) frente a H1(los datos no siguen la
distribución del dado)
Bajo el supuesto de la H0 se demuestra que el estadístico 2c sigue una
distribución 2 de k-1 grados de libertad, donde k es el número de intervalos o
número de sumas de la chi-cuadrado.
La aplicación del test consistir-a en calcular la cantidad 2c y si
Si 2
,1k2c
aceptamos la H0
Si 2,1k
2c rechazamos la H0.
O bien calculamos el p-valor del estadístico 2c , esto es,
22
1 ckPvalorp
Y si,
El p-valor > aceptamos la H0
El p-valor < rechazamos la H0 .
En la siguiente hoja de cálculo EXCEL hemos realizado la aplicación de este
test.
OBSERVADO ESPERADO CONTRIBUCION
9 10 0,1
13 10 0,9
7 10 0,9
14 10 1,6
12 10 0,4
5 10 2,5
Suma…… 6,4
p-valor…, 0,269218814
Por lo tanto no podemos rechazar que el dado sea correcto con α=0,05.
9. Inferencia en poblaciones normales
-252-
En resumen, para comprobar si unos datos )x,....,x,x( n21 se ajustan a una
determinada distribución aleatoria con función de distribución F(x), el procedimiento a
seguir es:
1) Dividir el campo de existencia de la v.a. X en k intervalos disjuntos, a ser
posible equiprobables (con igual probabilidad de pertenecer a uno de los
intervalos).
2) Contar el número de datos que caen en cada intervalo. Esto es las oi .
3) Calcular la frecuencia esperada en cada intervalo, mediante ii p·ne .
4) Calcular la cantidad
k
i
sk
i
ii
cE
EO
1
2
1
2)(
donde s es el número de parámetros que definen la F(x) estimados a partir de los
propios datos.
Si para calcular la ip debemos conocer los parámetros de la distribución,
entonces los grados de libertad k-1 se reducen con el número s de parámetros que
estimamos a partir de los propios datos.
Por ejemplo, si X es una normal debemos conocer la media y la sigma. Pero
si son desconocidos, hay que estimarlos a partir de los propios datos. De este modo,
para este caso el valor de la s=2.
Comprobamos si la 2c cae dentro de la zona de aceptación, con lo cual
decimos que los datos siguen esa función de distribución F(x), o si caen el la zona de
rechazo, y decimos que no se admite que los datos siguen esa F(x).
Para que el test funcione bien, un requisito es que la frecuencia esperada sea
al menos de 5, esto es, que 5p·n i . En caso de que algún intervalo no cumpla esta
condición, se combina con los anteriores o posteriores para cumplir que la frecuencia
esperada al menos sea de 5.
9.4.9. Test de independencia
En muchas ocasiones clasificamos a los elementos de una población en función de
dos características, la A y la B, donde la característica A tiene r posibles valores, y la
B tiene c posibles valores. La clasificación de cada elemento según el valor de A y el
valor de B da lugar a una tabla de doble entrada, filas y columnas, que recibe el
nombre de “tabla de contingencia”. Por ejemplo, la tabla de turno de fabricación en
filas y número de defectos de calidad en cada coche en columnas.
9. Inferencia en poblaciones normales
-253-
La pregunta que se formula es ¿tiene algo que ver el turno de trabajo con el
que aparezcan más o menos defectos de calidad? En definitiva, se trata de
comprobar si la característica A es independiente de la característica B, es decir,
plantemos un test de independencia entre las dos características.
Recordamos la notación expuesta en el tema de estadística descriptiva
bidimensional.
1 2 j J total
1
2
i nij ni
I
total n j n
Y llamando a:
ip = probabilidad de pertenecer a la clase i de la característica A.
jp = probabilidad de pertenecer a la clase j de la característica B.
La probabilidad de pertenecer a la clase Ai y a la clase Bj es,
)( ji BAP
Y bajo el supuesto de independencia, se cumple que,
jijijiij ppBPAPBAPp ·)()·()(
Y las hipótesis son,
),·(0 jipppH jiij frente a ),·(1 jiparunmenosapppH jiij
Para comprobar esta hipótesis aplicamos el estadístico chi-cuadrado como,
r
i
c
j ij
ijij
ce
eo
1 1
2
2)(
Donde:
i jo = frecuencia observada en la casilla i,j.
i je = frecuencia esperada en la casilla i,j.
9. Inferencia en poblaciones normales
-254-
Bajo el supuesto de independencia, i je se calcula como
n·p·pn·pe jiijij
Siendo
n
np i
i
n
np
j
j
Que sustituyendo queda,
n
nnn
n
n
n
ne
jiji
ij
·
··
Y bajo la H0 la cantidad 2c se distribuye según una Chi-cuadrado de (r-1)·(c-
1) grados de libertad. La regla de decisión es,
Si 2
),1)(1(
2
crc aceptamos la H0.
Si 2
),1)(1(
2
crc rechazamos la H0.
O bien calculando el 2
c
2
)1c)(1r(Pvalorp ,
Si p-valor > aceptamos la H0.
Si p-valor < rechazamos la H0.
Para que funcione bien el test la frecuencia esperada en cada casilla debe ser
superior a 5.
Para el contraste de igualdad de proporciones de varias poblaciones o para la
igualdad de varias poblaciones (contraste de homogeneidad), los datos se clasifican
como una tabla de contingencia y se aplica el mismo procedimiento que el visto en el
test de independencia.
Actividad 9.11:
Se toma una muestra de estudiantes de diferentes grupos de clase de aula y se les
pide su opinión en cuanto a una propuesta de cambio del plan de estudios. Los
resultados son los siguientes:
9. Inferencia en poblaciones normales
-255-
Clase A favor En contra
1 120 80
2 70 130
3 60 70
4 40 60
¿Podemos decir que algunos grupos de clase están más a favor de la propuesta que
otros?
Se ha preguntado a un grupo de hombres y mujeres si fuman cigarrillos de forma
habitual. Los resultados han sido:
Fuma No fuma
Mujer 9 11
Hombre 20 40
¿Hay diferencias entre los hombres y las mujeres en cuanto al hábito de fumar
cigarrillos?
9.5. PROBLEMAS PROPUESTOS
9.5.1. Calcular el tamaño de la muestra para que el error relativo de s'2 respecto de σ2 sea inferior al 25% con una probabilidad mayor del 80%.
Solución: 52
9.5.2. Para estudiar el espesor de la capa de imprimación de la carrocería de un determinado modelo de automóvil se examinaron 10 vehículos obteniéndose los siguientes valores
{ 45, 40, 44, 43, 45, 43, 46, 45, 44, 45 }
medidos en micras. En el supuesto de que sigan una distribución NORMAL :
a) Calcular un intervalo de confianza al nivel α=0'05 para el promedio del
espesor.
b) Lo mismo para la varianza del espesor.
Solución: a) [42.78; 45.21] b) [1.37; 9.63]
9. Inferencia en poblaciones normales
-256-
9.5.3. Una resistencia eléctrica ha sido medida 6 veces, resultando los valores en ohmios :
{ 1'5, 1'6, 1'4, 1'5, 1'3, 1'1 }
Calcular el intervalo de confianza para la media con α=0'05.
Solución:[1.21,1.59]
9.5.4. Para un intervalo de confianza de un determinado parámetro con un nivel de confianza del 90%; indicar cuál de las siguientes afirmaciones es correcta:
a) contiene con una probabilidad del 90% el valor real y desconocido del parámetro poblacional a estimar.
b) es la región de aceptación de un test de hipótesis al 10%. c) estima puntualmente con una probabilidad del 90% el parámetro muestral. d) ninguna de las anteriores.
Test de hipótesis
9.5.5. Una muestra de 16 transistores de cierto tipo ha presentado una vida media de 734 horas. ¿Puede aceptarse que la media poblacional es de 740 horas con un nivel de significación α=0'05?
a) Supuesta normalidad y conocido σ=12 horas.
b) Supuesta normalidad y conocido s'=12 horas.
Solución: a) no [728.12,739.88] b) si [727.61,740.39]
9.5.6. Sea X una variable aleatoria de distribución NORMAL N(m,1). Con el fin de contrastar la hipótesis de que la media poblacional es m=2 frente a m≠2 se toma una muestra, siendo esta:
{ 2'1, 2'2, 2'5, 1'9, 1'2 }
¿Puede aceptarse la hipótesis nula con α=0'05?
Solución: si 1.98 [1.1235,2.8765]
9.5.7. Tras numerosas comprobaciones, el número de pulsaciones por minuto de varones de 20 a 25 años se distribuye según una NORMAL N(72,9). Si una muestra de 100 jugadores de fútbol da como media 64 pulsaciones por minuto, ¿debemos considerar esta diferencia como significativa con α=0'05?
Solución: no 64 70.5195
9. Inferencia en poblaciones normales
-257-
9.5.8. El contenido de un determinado elemento en un acero es una variable aleatoria NORMAL N(35,1). Se sospecha que una modificación del proceso da lugar a un aumento del contenido medio del elemento en cuestión, y se sabe que es imposible que lo disminuya.
a) Plantear el Test de hipótesis que confirme el aumento de dicho elemento.
Tomar α=0'05.
b) Calcular la probabilidad de aceptar la hipótesis nula para diferentes valores
de la media.
La modificación no altera las dispersiones.
Muestra {35'5, 34'0, 36'8, 37'0, 35'8, 37'5, 34'5, 38'0, 37'5, 36'0}
Solución: a) x 35.62 b) {35,0.975} {35.62,0.5} {36.0,0.115} {36.2,0.033}
9.5.9. Se tiene el Test de hipótesis Ho : σ
2=4
H1 : σ2=9
a partir de una muestra aleatoria simple de tamaño n=21 procedente de una
población NORMAL. La región de aceptación es Xo(s)={ x / s'26} y la de rechazo
X1(s)={ x / s'27}. Si s'2 esta entre ambos se decide aceptar con probabilidad 0'6 y
rechazar con probabilidad 0'4. Hallar las probabilidades de los riesgos de I y II
especie.
Solución:α = 0.04 β = 0.2
9.5.10. Una empresa anuncia que el 10% de las unidades de un artículo en venta procede de sus fábricas, frente a un competidor que asegura que dicho porcentaje es menor. Se toma una muestra de 100 artículos, de los cuales sólo 3 son de la primera empresa. ¿Puede aceptarse que ésta tiene razón? Tomar α=0'05.
Solución: no 0.03 0.05065
9.5.11. En el proceso de fabricación de tornillos se desea que la proporción máxima de tornillos defectuosos producidos debe ser de un 5o/o. En un control de fabricación tomamos una muestra de 100 tornillos y encontramos uno defectuoso.
a) ¿Se puede afirmar que el proceso esta fuera de control? Tomar α=0'05.
b) ¿Qué ocurre si la dirección quiere mas precisión en el test?
9. Inferencia en poblaciones normales
-258-
Solución: a) no 0.01 [0.0073, 0.0927]
9.5.12. Un partido afirma que el 55% de los electores están de acuerdo con sus ideas frente a un problema. Se toma una muestra de 1.000 electores y se obtiene una proporción del 51%. ¿Puede sostener el partido político dicha afirmación? Tomar α=0'05.
Solución: no 0.51 [0.5192, 0.5808]
9.5.13. La proporción de unidades defectuosas en un lote de 100 unidades del proveedor A es del 4%, mientras que un lote de 150 unidades del proveedor B es del 7%. ¿Hay evidencias para decir que el proveedor A produce menos unidades defectuosas que el proveedor B? Tomar α=0'05.
Solución: no 0.9941 < 1.96
9.5.14. La variabilidad de un proceso en condiciones de producción correctas es de 3 unidades. Se dispone de una muestra de tamaño n=15, con los siguientes valores:
{ 27, 17, 18, 30, 17, 22, 16, 23, 26, 20, 22, 16, 23, 21, 17 }
¿Funciona correctamente el proceso? Tomar α=0'05.
Solución: no [3.6185, 16.7907]
9.5.15. Para contrastar
Ho : λ=1
H1 : λ=2
se dispone de una única observación x que proviene de una distribución de
Poisson Ps(λ). Si se toma como región de rechazo 4, calcular las
probabilidades de los errores de tipo I y tipo II.
Solución: α = 0.0189 β = 0.85712
9.5.16. Una partida de gran tamaño de piezas se considera válida si tiene menos
de un 2% de piezas defectuosas (H0 :p0’02). Para su control se toman 9 piezas y se acepta la partida si todas las piezas son correctas. ¿Cuál es la probabilidad
9. Inferencia en poblaciones normales
-259-
de cometer un error de 2ª especie si en realidad el lote inspeccionado tiene un 10% de piezas defectuosas?
a) 0’3874
b) 0’6126
c) 0’2252
d) 0’7748
9.5.17. HIJOS DE ILUMINADA S.A. es una empresa que se dedica a producir bombillas. En una de sus lineas se fabrican bombillas de 40 Watios. El filamento de las mismas tiene una resistencia con distribución NORMAL N(605,1.18) ohmios, y una bombilla se considera correcta cuando su resistencia esta situada entre los valores 607.86Ω y 600.96Ω. Para comprobar que el proceso de fabricación esta bajo control, es decir, que la media vale 605, los operarios de la linea realizan un test consistente en tomar muestras de tamaño 7 de forma periódica, y si la resistencia media esta situada entre los valores 606.338Ω y 603.662Ω se acepta que el proceso esta bajo control. Determinar la probabilidad de cometer el error de primera especie, y el de segunda especie cuando el valor de la media poblacional es de 606.5Ω.
a) α=0.00270, β=0.44540
b) α=0.02571, β=0.35942
c) α=0.02571, β=0.44540
d) α=0.00270, β=0.35942
9.5.18. Para contrastar la hipótesis de igualdad de precisión de dos métodos de análisis, utilizamos la distribución:
a) N(m1+m2,2
2
2
1 )
b) 2
21 nn
c) 21 ,nnF
d) 21 nnt
9.5.19. Se quiere contrastar la hipótesis nula de que la proporción de piezas defectuosas en una partida es menor o igual al 1%, contra la alternativa de que es mayor. Para ello se realiza el siguiente plan: se van tomando piezas de la partida hasta que aparezca una defectuosa. Si el número de piezas tomadas hasta ese momento es menor o igual que 2 se acepta la partida y en caso contrario se rechaza. Calcular el error de segunda especie para una proporción de piezas defectuosas del 10%.
a) 0.1900
b) 0.1000
9. Inferencia en poblaciones normales
-260-
c) 0.0975
d) 0.0950
9.5.20. Una determinada máquina fabrica láminas de acero cuyo espesor sigue una distribución normal N(0.1, 0.005) cm. La máquina se considera que funciona mal, y por tanto se debe revisar, si al tomar una muestra, el espesor promedio de las láminas es superior a 0.1041cm. Si al tomar una muestra el promedio de longitud es inferior a 0.1041cm y por tanto no revisamos la máquina, ¿cuál de estas afirmaciones es cierta?
a) Podemos estar cometiendo un error de primera especie
b) Podemos estar cometiendo un error de segunda especie
c) Seguro que cometeremos un error de primera especie
d) Seguro que cometeremos un error de segunda especie
Tabla de contingencia
9.5.21. La siguiente tabla muestra la frecuencia con la que se dan las distintas calidades de piezas en dos máquinas de una determinada empresa. Se pretende comprobar mediante un test χ2 si existen diferencias significativas entre las dos máquinas en cuanto a número de piezas fabricadas de cada calidad. Calcular el nivel de significación de dicho test.
Piezas
inútiles
Piezas
reciclables
Piezas
correctas
Máquina A 15 33 60
Máquina B 42 61 82
a) 0’05
b) 0’10
c) 0’25
d) 0’50
9.5.22. Un estudio realizado sobre el número de accidentes mortales de automóvil durante el último puente festivo, muestra los siguientes resultados, en función del tamaño del coche y el estado del conductor y los pasajeros:
MUERTOS \ TAMAÑO DEL COCHE PEQUEÑO MEDIANO GRANDE
al menos uno 49 35 18
ninguno 71 65 62
9. Inferencia en poblaciones normales
-261-
En un periódico (A) se afirma que el tamaño del coche (y su equipamiento de
seguridad) no influye en el número de accidentes mortales, mientras que otro (B)
dice que sí, y que la distribución es:
MUERTOS \ TAMAÑO DEL COCHE PEQUEÑO MEDIANO GRANDE
al menos uno 46 34 20
Ninguno 74 66 60
Con los datos expuestos:
a. Sólo el periódico A tiene razón, el tamaño del coche no influye en la siniestrabilidad del accidente.
b. Sólo el periódico B tiene razón, y el tamaño del coche si que influye en el número de muertos, y la distribución que aporta es aceptable.
c. Ninguno de los dos periódicos tiene razón, ya que el tamaño del coche si que influye, pero la distribución no es la dada por el periódico
d. No se puede afirmar nada, ya que la muestra es demasiado pequeña y los grados de libertad no son suficientes.
Test de ajuste a una distribución
9.5.23. Se han sacado 200 muestras de 3 piezas en una línea de montaje, encontrándose fuera de tolerancia las siguientes:
Nº. de piezas
defectuosas
Nº. de muestras
0 100
1 80
2 15
3 5
¿Cuál de las siguientes afirmaciones es cierta?
a) Con una confianza del 95% rechazamos que sigan una distribución binomial de parámetro B(3,0.2).
b) Con una confianza del 99% rechazamos que sigan una distribución binomial de parámetro B(3,0.2).
c) Con una confianza del 90% no podemos rechazar que sigan una distribución binomial de parámetro B(3,0.2).
d) Con una confianza del 85% no podemos rechazar que sigan una distribución binomial de parámetro B(3,0.2)
9. Inferencia en poblaciones normales
-262-
9.5.24. El nº de llamadas vía modem que recibe un ordenador por unidad de tiempo se ha muestreado dando los siguientes resultados:
Nº llamadas Frecuencia
-----------------------------------------------
0 144
1 136
2 74
3 32
4 11
5 2
6 1
Pudiendo aceptarse que la variable tiene una distribución de Poisson, calcular el valor
de λ.
Solución: 1`1
9.6. PROBLEMAS Y CUESTIONES DE EXÁMENES
9.6.1. Una fábrica trabaja con dos máquinas A y B. El coste semanal, XA, de reparación para la máquina A se aproxima a una distribución Normal con parámetros μA=350 y σA
2=500. El coste semanal, XB, de reparación de la máquina B se apro ima a una distribución normal con parámetros μB=200 y σB
2=400. Queremos estudiar el coste de las reparaciones de cada máquina y, para ello, tomamos una muestra aleatoria de nA=5 facturas de reparaciones de la máquina A y otra de nB=4 de la máquina B y calculamos las medias muestrales de los costes de reparación. Si queremos comparar los costes de las dos máquinas:
a) Determinar la distribución de la diferencia de los costes medios muestrales. (1 punto)
b) Hallar la probabilidad de que la diferencia entre el coste medio muestral de A y el coste medio muestral de B sea superior a 180 euros. (0.5 puntos)
c) Hallar la probabilidad de que al tomar las dos muestras de facturas, como se indica en el enunciado, la cuasivarianza del coste de la máquina A sea superior a 11’4 veces la cuasivarianza del coste de B? (1.5 puntos)
SOLUCIÓN:
a)
,
b)
9. Inferencia en poblaciones normales
-263-
c)
05,0)12,9()500
4004,11(
)4,11/
/()4,11/()4,11(
3,4)1(),1(
2
2
22
222222
FPFP
S
SPSSPSSP
BA nn
A
B
BB
AABABA
9.6.2. El tiempo que tarda en realizar la entrega de los paquetes a los clientes de la ciudad de Valencia una empresa de mensajería ubicada en el polígono de la Fuente del Jarro es, de forma habitual, una variable con distribución N(m=35min, σ=10min). La semana pasada se incorporaron al trabajo tres repartidores nuevos con poca experiencia, hecho que podría afectar a los tiempos de entrega empeorándolos. Para hacer un control verificamos el tiempo de entrega de 4 paquetes seleccionados aleatoriamente y obtenemos los siguientes valores expresados en minutos (40; 15; 42; 70).
a. Con un nivel de significación del 5% ¿Hay evidencias significativas de un empeoramiento del tiempo medio de entrega? (1 punto)
b. ¿Cuál sería el valor de β del test anterior si el tiempo medio de entrega hubiese aumentado a 45 minutos? (1 punto)
c. Calcular un intervalo de confianza al 99% para la media del tiempo de entrega y otro al 95% para la varianza de dicho tiempo de entrega (0,75 puntos)
d. ¿Cuántos envíos deberíamos controlar para estimar la media real del nuevo tiempo de espera con error absoluto menor de 2 minutos y un nivel de confianza del 80%? (0,75 puntos)
SOLUCIÓN:
a) Se trata de un test sobre la media m de una población normal Es un test unilateral porque el cambio solo es previsible que se dé en un
sentido (aumentar) por lo tanto tenemos
H0: m=m0=35 minutos
H1: m>35
Dado que conocemos la desviación típica σ=10, la regla de decisión es
)14,14,150()200,150(
)4
400
5
500,200350(,
22
NN
NNxxB
B
A
A
nnBABA
9. Inferencia en poblaciones normales
-264-
Aceptar H0 si
Calculamos y
Como podemos aceptar la hipótesis nula y admitir
que no ha habido un aumento significativo del tiempo medio de reparto.
b) Β=P( ceptar H0/ H1 cierta)=P( )=P(N(45, σ/√n)≤43,25)= P(N(45, 10/√4)≤43,25)= P(N(45, 5)≤43,25)=φ(43,25-45/5)=φ(-0,35)=0,3632
c) El intervalo de confianza para la media con varianza conocida es
y con nuestros datos
El intervalo de confianza para la varianza poblacional es
2
/2-1;1-n
22
2
/21;-n
2 s)1n(s)1n(
2
2
2
975´03025´03
583´505.3583´505.3
2160
583´505.3
3849
583´505.3
2
(161´63; 7021´944)
d)
9.6.3. Queremos estudiar si se mantiene la proporción de circuitos integrados defectuosos que se producen en un proceso de producción. Lo habitual es que
nzmx
0
75,41x 225,434
10645,135
225,4375,41 x
45/25,43 mx
entregase
zn 4228,41
2
10.285,122
2/
nzx
2/
4
1057,275,41
)60,5490,28()85,1275,41(
9. Inferencia en poblaciones normales
-265-
haya alrededor de un 0,5%. Para comprobarlo, tomamos una muestra de 300 circuitos y si encontramos un circuito defectuoso o más decimos que la proporción es superior a 0,5%.
a) Determinar, para este contraste de hipótesis, cuánto vale la probabilidad de error de 1ª especie (1,25 puntos).
b) Si la proporción de circuitos defectuosos del proceso fuera del 1% ¿cuánto valdría la probabilidad de error de 2ª especie? ¿Qué significado tiene? (1,50 puntos)
c) Si al tomar la muestra de 300 circuitos nos sale uno defectuoso ¿qué decisión tomamos? ¿Qué tipo de error podríamos estar cometiendo? (0,75 puntos)
SOLUCIÓN:
H0(p=0’005) vs H1(p>0’005)
a)
b)
El 4’9% de las veces que apliquemos este test, aceptaremos que la proporción
de piezas defectuosas es p=0’005 cuando en realidad es 0’01 (por lo tanto nos
estaremos equivocando)
c) Tal y como dice el enunciado, si nos sale X1, rechazamos la H0.
El único tipo de error que podemos cometer es el de primera especie ya que
hemos RECHAZADO.
9.6.4. De forma habitual, el 10% de los envíos de una empresa de distribución presentan alguna incidencia como retrasos, errores, etc. Después de la incorporación de varios conductores inexpertos y a lo largo de una semana se controlan 50 envíos registrándose incidencias en 6 de ellos.
a) Con un nivel de significación del 5% ¿hay evidencias significativas de un empeoramiento en la proporción de envíos con incidencias? (1,5 puntos)
b) ¿Cuál sería el valor de β del test anterior si la proporción de envíos con incidencias hubiese aumentado a un 15%? (1,5 puntos)
c) ¿Cuántos envíos deberíamos controlar para estimar la proporción real de envíos con incidencias con un error absoluto menor del 4% y un nivel de confianza del 80%? (0,5 puntos).
9. Inferencia en poblaciones normales
-266-
d) Calcular un intervalo de confianza al 99% para la proporción poblacional P de envíos con incidencias después de la incorporación de los nuevos conductores.(0,50 puntos)
Solución:
a) Las hipótesis a contrastar son: H0:P=P0= 0,10 H1:P>0,10 ya que de acuerdo con el enunciado el cambio podría suponer un empeoramiento respecto al funcionamiento habitual, es decir, una proporción mayor que la habitual
La región de aceptación para este test es
Aceptar si
Como p=6/50=0,12 <
Podemos aceptar H0 y concluir que no ha habido un incremento significativo
de la proporción de envíos con incidencias
b) β=P( ceptar H0/ H1)=P(p<0,169/P=0,15)=P(N(0,15 √0,15 . 0,85/50)<0,169)=
P(N(0,15 0,05)<0,169)=
c) El número de envíos a controlar, considerando como proporción habitual 0,10 es
Si tomamos como estimación previa de P el valor muestral 0,12 sale 108,98
109
Envíos.
d) El intervalo de confianza es
)23810;00190(50
880.12057,2120
)ˆ1(ˆˆ
2/
n
ppzp
9.6.5. El número de llamadas diarias realizadas con el móvil por las alumnas de 1º de GITI podemos admitir que es una variable de Poisson de media 2,5 llamadas/día y el de las llamadas realizadas por los chicos tiene una distribución de Poisson de promedio 1,5 llamadas/día.
Al entrar al examen todos dejan su móvil en la mesa del profesor. Elegido uno
de los móviles al azar, queremos verificar la hipótesis nula de que pertenece a una
chica frente a la alternativa de que es de un chico.
169,050
90,0.10,0645,110,0
n
PPzPp
)1(ˆ 00
0
6480,0)38,0()05,0
15,0169,0(
2
2
2/0
)ˆ1(ˆ
e
ppzn
envios9377,92
04,0
90,0.10,0.285,12
2
9. Inferencia en poblaciones normales
-267-
Como regla de decisión adoptamos la siguiente: Si el teléfono tiene
registradas tres llamadas o más a lo largo del día anterior, lo asignamos a una chica y
si tiene registradas dos o menos llamadas decimos que es de un chico.
a) Plantear estadísticamente las hipótesis a contrastar y las regiones de
aceptación y rechazo propuestas en el enunciado. (1 punto)
b) Calcular el riesgo de primera especie de la prueba. Interpretar la respuesta.
(1,5 puntos).
c) Calcular el riesgo de segunda especie de la prueba. Interpretar la respuesta.
(1,5 puntos).
Solución
a) Las hipótesis a contrastar son:
H0: λ=2,5 (pertenece a una chica)
H1: λ=1,5 (pertenece a un chico)
Las regiones de aceptación y rechazo son:
Aceptar H0 si X ≥3
Rechazar H0 si X ≤ 2 Siendo X=Ps(λ)
b) α=P(Rechazar H0/ H0)= P(X≤ 2/λ=2,5)=P( Ps (2,5)≤2)=0,5438 (El 54,38% de los teléfonos de las chicas serían asignados a los chicos con el test propuesto)
c) β=P( ceptar H0/ H1)=P(X≥3/λ=1,5)=P(Ps(1,5)≥3)=1-P(Ps(1,5)≤2)= 1-0,8088=0,1912 (El 19,12 % de los teléfonos de los chicos serían asignados
a las chicas con el test propuesto)
9.6.6. El espesor de unas planchas de acero sigue una distribución normal con varianza 5,4. Se pide:
a) Si tomamos una muestra de tamaño n=20, cuál es la probabilidad de que la desviación típica sea superior a 3. (1 punto)
b) ¿Cuál debe ser el número de planchas a medir para que la probabilidad de que la media muestral de estas planchas difiera de la media poblacional en más de 2 unidades sea inferior al 10%? (1punto)
Solución 3:
a) 034,066,31P4,5
19·9s)·1n(P)3s(P 2
192
2
9. Inferencia en poblaciones normales
-268-
b) La condición que se debe cumplir es,
10,0)2x(P
El suceso contrario es,
90,0)2x(P
90,0
n
2
n
x
n
2P
Buscamos el valor de 645,1z 05,0 , y de la expresión anterior el valor de n se
obtiene de,
645,1
n
2
Despejando n se tiene,
2
4,5·645,1n
n=3,65 de donde el valor de n tiene que ser como mínimo de n=4.
9.6.7. Un auditor de calidad está comprobando si los productos de un almacén logístico de la empresa Mercadona cumplen los requisitos establecidos. Para ello ha inspeccionado 30 de ellos y ha observado que 5 no cumplen los requisitos. Se pide:
a) Calcular el intervalo de confianza para la proporción de productos que no cumplen los requisitos, con un nivel de significación del 8%. (0,5 puntos)
b) ¿Cuál es el error máximo que cometemos en la estimación de dicha proporción con un nivel de significación del 8%. (0,5 puntos)
c) ¿Qué tamaño de muestra habría que tomar si conocemos que el total de productos almacenados es de 5000 y el error máximo que deseamos cometer es de un 3% con un nivel de significación del 5%? (1punto)
Solución 4:
a) La proporción estimada es 167,030
5p . Con un 08,0 el valor de la z es
75,1z 04,0 . Y el intervalo de confianza es,
048,0
286,0119,0167,0
30
)167,01·(167,0·75,1167,0
n
q·p·zp 2/
b) El error máximo cometido es 119,0 .
c) El tamaño de muestra viene dado por
9. Inferencia en poblaciones normales
-269-
1N
nN·
n
qpz 2/
Sustituyendo valores,
4999
n5000·
n
)167,01·(167,0·96,103,0 22
simplificando
n
n500042,8
5000n·42,9 , y despejando n queda,
79,53942,9
5000n . Esto , tomaremos n=540 elementos.
9.6.8. En un proceso de soldadura manual por puntos de planchas de acero, la distancia entre puntos resultante viene siendo una variable con distribución N(2 cm, 0,5 cm).
a) Ante las quejas del área de montaje, el jefe de la línea decide comprobar si se ha modificado sensiblemente la media de las distancias entre puntos. Para ello, mide las distancias entre 10 parejas de puntos de soldadura elegidas al azar obteniendo los siguientes valores expresados en cm
( 2,3 2,5 1,9 2,6 3,0 2,1 2,7 2,5 3,1 2,2 )
Con un nivel de significación α=0,10 ¿Qué podemos concluir? (Plantear las
hipótesis apropiadas y justificar la respuesta) (1 punto)
b) Si la media de las distancias hubiese pasado a ser realmente 2,5 cm ¿Cuál sería el riesgo β de la prueba anteriormente propuesta? (1 punto)
c) Olvidando los dos apartados anteriores de este ejercicio, supongamos que el jefe decide aceptar que la media de las distancias es 2 cm si el promedio de 9 distancias entre puntos de soldadura está entre 1,5 y 2,25 cm ¿Cuál sería el riesgo α de esta prueba? (1 punto)
Solución 5:
a) Se trata de un test bilateral sobre la media de una población Normal con σ
conocida, dado que no hay indicios de que el cambio haya sido en un determinado
sentido
H0: m=2 H1: m≠2
Y la regala de decisión
)26,274,110
5,0645,122/00
nzmxsiHAceptar
9. Inferencia en poblaciones normales
-270-
Como )26,274,1(49,2 x debemos rechazar la hipótesis nula y aceptar que ha
habido un cambio en la media.
b) Recordemos que
0643,000643,0)81,4()52,1()158,0
5,274,1()
158,0
5,226,2(
)26,274,1()10
5,0,5,2(()5,2/)26,274,1(()/( 10
NPmxPciertaHHAceptarP
c) Dada la expresión de la región de aceptación, las hipótesis establecidas son
H0: m=2 H1: m≠2
Recordemos que
0686,00014,09328,01
)99,2()497,1(1)167,0
25,1()
167,0
225,2(1)25,25,1()167,0,2(N(P1
)25,25,1()9
5,0,2(N(P)2m/)25,25,1(x(P)ciertaH/Hchazar(ReP 00
10. Análisis de la varianza
-271-
10. ANÁLISIS DE LA VARIANZA
Contenido 10.1. ANÁLISIS DE LA VARIANZA (I). UN FACTOR CONTROLADO. ................... 271
10.1.1. Generalidades ................................................................................ 271
10.1.2. Modelo teórico. Hipótesis del modelo.............................................. 273
10.1.3. Hipótesis nula ................................................................................. 276
10.1.4. Ecuación fundamental .................................................................... 277
10.1.5. Test F ............................................................................................. 277
10.1.6. Comparación de medias. Test L.S.D. (diferencia mínima significativa)
.................................................................................................................... 278
10.2. ANÁLISIS DE LA VARIANZA (II). DOS FACTORES CONTROLADOS .......... 280
10.2.1. Introducción. Planes factoriales ...................................................... 280
10.2.2. Anova para dos factores con repeticiones ...................................... 281
10.2.3. Concepto de Interacción ................................................................. 281
10.2.4. Modelo y supuestos teóricos ........................................................... 283
10.2.5. Hipótesis Nulas ............................................................................... 284
10.2.6. Descomposición de las Sumas de Cuadrados. Test F .................... 284
10.2.7. Comparación de Medias. Test L.S.D. .............................................. 284
10.2.8. Validación del modelo ...................................................................... 287
10.2.9. Igualdad de las varianzas ................................................................ 287
10.2.10. Estimación de los efectos .............................................................. 288
10.2.11. Predicciones .................................................................................. 289
10.3. PROBLEMAS Y CUESTIONES DE EXAMEN ................................................ 290
10.1. ANÁLISIS DE LA VARIANZA (I). UN FACTOR CONTROLADO
10.1.1. Generalidades
Bajo el nombre de Análisis de la Varianza se conocen un conjunto de métodos
estadísticos aplicables en general al análisis de observaciones que dependen
simultáneamente de varios factores. Fue desarrollado por Fisher en el 1er tercio del
siglo pasado.
Los factores a considerar, y que se presume pueden influir sobre la respuesta,
son aquéllos que podemos realmente controlar fijando a voluntad sus niveles
(factores controlados).
10. Análisis de la varianza
-272-
Los factores pueden ser cuantitativos, cuando sus niveles corresponden a
valores medibles (temperatura, pH, etc.) o cualitativos en otro caso (tipo de hojalata,
variedad, método de fabricación etc.).
Un ejemplo servirá para ilustrar un problema típico de aplicación de estos
métodos.
En un estudio sobre corrosión (X) en botes de conservas se desea investigar
la influencia al respecto del tipo de hojalata, pH del líquido de gobierno y temperatura
de almacenamiento del bote. En la terminología clásica del Análisis de la Varianza
existen en este caso tres factores:
Tipo de hojalata
pH
Temperatura de conservación
cuyos efectos se desean estudiar.
Para cada factor, se considerarán en el estudio diferentes niveles (si el factor
es cuantitativo) o variantes (si el factor es cualitativo). Así por ejemplo:
Factor tipo de hojalata (cualitativo): Se desean estudiar tres tipos distintos A, B
y C (3 variantes).
Factor pH (cuantitativo): Se estudiarán conservas a pH 4'5 y pH 5'5 (2
niveles).
Factor temperatura de almacenamiento (factor cuantitativo): Se almacenarán
los botes a 0º C, 15º C y 30º C (3 niveles).
A cada combinación de variantes de los diferentes factores se le denomina
tratamiento, por ejemplo un tratamiento será: bote hojalata tipo B con pH del líquido
de gobierno 4'5 almacenado a 15º C. En total existirán en este caso 3x2x3=18
tratamientos diferentes.
Una experiencia podría consistir en preparar 5 botes (repeticiones) con cada
uno de los 18 tratamientos posibles, con lo que constaría en total de 18x5 = 90 botes
o unidades experimentales.
10. Análisis de la varianza
-273-
El objetivo en una experiencia de este tipo sería el analizar cuáles de los tres
factores tienen una influencia significativa sobre el grado de corrosión del bote al
cabo de, por ejemplo, un mes de almacenamiento.
En aquellos factores cuyo efecto sea significativo, se deseará además, precisar la
naturaleza del mismo, determinando, qué variantes difieren significativamente entre sí
* Resumen:
- X : variable a estudiar o respuesta (grado de corrosión en el ejemplo).
- Factores: posibles causas controlables que pueden ser fuente de variabilidad
en la respuesta (tipo de hojalata, pH, temperatura, etc.).
- Variantes o niveles: valores que pueden tomar los factores.
- Tratamiento: combinación de niveles
- Unidad experimental: Unidad física sobre la que se aplica un tratamiento
(bote, parcela, animal de ensayo etc.)
- Repeticiones: número de veces que se aplica un mismo tratamiento (sobre
diferentes unidades experimentales) en una misma experiencia, o número de
veces que se repite la experiencia bajo las mismas condiciones.
Los métodos del Análisis de la Varianza, asumen la existencia de un modelo
probabilístico que explica los resultados observados en función de un conjunto de
parámetros desconocidos relativos a los efectos de los diferentes factores en estudio
y de una perturbación aleatoria.
La técnica de análisis consiste, en general, en descomponer la variabilidad total
del conjunto de las observaciones expresada por la suma de cuadrados global (Xijk -
X)2 con N -1 grados de libertad, en un conjunto de términos independientes, con sus
correspondientes grados de libertad, relativos a los diferentes factores en estudio y al
error experimental. La comparación de cada uno de estos términos con el
correspondiente a la perturbación aleatoria residual (ó error), permite contrastar la
significación de los factores estudiados.
Inicialmente desarrollaremos la teoría básica del Análisis de la Varianza en el
caso más sencillo de un solo factor controlado, dejando para más adelante la
generalización al caso de varios factores.
10.1.2. Modelo teórico. Hipótesis del modelo
Consideremos, por ejemplo, que se desean comparar I variantes distintas de un
determinado proceso industrial. De cada variante se hacen J pruebas cuyos
resultados podemos considerar como una muestra aleatoria simple extraída de la
población de posibles resultados que podrían obtenerse con dicha variante.
10. Análisis de la varianza
-274-
Variante 1 i I
Población N(1,) N(i,) N(I,)
Muestra (X11……X1J) (X21……X2J) (XI1……XIJ)
Como veremos a continuación, nuestras hipótesis sobre el modelo implican que
cada una de estas poblaciones tiene una distribución N(i,), y la hipótesis nula a
contrastar es H0: 1 = 2 …= I.
1
2
4
5
3
x
1x
2x
3x
4x
5x
Figura 10. 1. Distribución de las poblaciones
Vemos por tanto que el problema que tenemos no es más que la generalización a
I medias del problema de comparación de dos medias visto en un tema anterior.
Sea I el número de niveles del factor y J el número de observaciones para cada
una de las variantes (supondremos que dicho número es el mismo para todas las
variantes, en cuyo caso el modelo se denomina EQUILIBRADO).
Sea Xij la j-ava observación (j = 1...J) correspondiente a la i-ava variante del factor
(i = 1...I). Siendo i = (Xij) el valor medio poblacional correspondiente a dicha
variante, se tendrá:
Xij = i + ij (1)
10. Análisis de la varianza
-275-
i ijx
i
x
Figura 10. 2. Error experimental
donde jj es una perturbación aleatoria que origina las diferencias existentes entre las
observaciones de una misma variante o tratamiento; además (ij) =0
Con respecto a los residuos ij se harán, además, las siguientes hipótesis:
a) Homocedasticidad: 2ij = 2 (ij) = 2 i, j no dependiendo por tanto de la
variante i considerada.
Esta hipótesis hace necesaria la comprobación previa, mediante el test de
Bartlett u otros similares, de la homogeneidad de las varianzas en los diferentes
grupos o variantes.
b) Incorrelación: Cov (ij,i’j’) = 0 si ii' y/o jj'; es decir, todos los residuos están
mutuamente incorrelacionados.
c) Normalidad: los IxJ residuos ij tienen una distribución conjunta normal
multivariante
N(0,2 I)
Las hipótesis b) y c) implican la independencia de los residuos.
El modelo teórico anterior puede formularse de una forma alternativa que resulta
aconsejable por su más fácil generalización al caso de varios factores.
Sea = i /I el promedio de los valores medios de las diferentes variantes i=i -
es la diferencia entre la media de la variante i y el promedio general; i mide por lo
tanto el efecto específico (positivo, negativo o nulo) de la variante i del factor.
Evidentemente, se verifica i = (i - ) = i - I = 0
Como i = + i, el modelo teórico puede formularse como sigue
Xij = + i + I
Con i = 0
10. Análisis de la varianza
-276-
i
i
Xij X
ij
Figura 10. 3. Descomposición de un valor observado
Donde:
Xij = j-ava observación de la variante i del factor
= promedio general
i = efecto específico de la variante i del factor
ij = residuos N (0,) e independientes entre sí.
10.1.3. Hipótesis nula
La hipótesis nula a contrastar es que el factor no influye sobre la respuesta, es decir,
que todos los niveles tienen la misma media
Ho : 1 = 2 = 3 … = I =
H1 : i j
Estas hipótesis son equivalentes a contrastar
H0 : i = 0
H1 : i 0 ya que sustituyendo i por + i
Ho : + 1 = + 2 = + 3 = … = + I =
1 = 2 = 3 = …. = I = 0
i = 0 Se debe cumplir que 0i
i
10. Análisis de la varianza
-277-
10.1.4. Ecuación fundamental
Llamando
IJ
X..X
ijij media general de todas las observaciones
J
X.X
ijj
i
media de la variante i
La ECUACIÓN FUNDAMENTAL del Análisis de la varianza muestra la
descomposición de la variabilidad total de la variable respuesta estudiada.
SCT SCF SCR
(Xij – X..)2 se le denomina Suma de Cuadrados Total (SCT) pues mide la
variabilidad total del conjunto de las I x J observaciones.
J (Xi·-X..)2 se denomina Suma de Cuadrados debida al factor(SCF) pues
mide la magnitud de las desviaciones de la media de cada variante a la media
general. Mide la parte de la variabilidad total debida o explicada por el factor.
(Xij-Xi.)2 se denomina Suma de Cuadrados Residual pues se basa en las
desviaciones de cada observación respecto a la media de la variante
respectiva. Mide la parte de variabilidad total existente en las observaciones
no explicadas por el factor, es decir, la debida a causas aleatorias (error
experimental, otros factores no estudiados, etc.).
10.1.5. Test F
Si a las sumas de cuadrados anteriores (SCF y SCR) las dividimos por sus grados de
libertad correspondientes (I-1) e I(J-1) respectivamente) obtenemos los cuadrados
medios CMF y CMR.
Se demuestra que si la hipótesis nula es cierta 0i
2
iijij
2
ii
2
ijij .)XX(..)X.X(J..)XX(
10. Análisis de la varianza
-278-
)1J(I),1I(FCMR
CMF
La hipótesis nula 0i se contrastará, por tanto, calculando a partir de las
observaciones el estadístico CMF/CMR = Fc y rechazándola si este es mayor que el
valor en tablas de
)1J(I),1I(F para la probabilidad de error de 1ª especie
considerado. Esta regla es equivalente a rechazar H0 si el p-valor correspondiente al
Fc calculado es menor que .
Rechazar H0 equivale a aceptar con un nivel de significación α, que el factor
influye en la respuesta estudiada.
10.1.6. Comparación de medias. Test L.S.D. (diferencia mínima
significativa)
Si el test F pone de manifiesto la existencia de un efecto significativo del factor, y éste
es cualitativo, resulta procedente estudiar entre qué variantes del factor son
significativas las diferencias i - i’. La forma de operar consiste en general, en
calcular una "diferencia mínima significativa" (DMS) tal que dos variantes i, j difieren
significativamente si |Xi.-Xj.| > DMS.
En el test de Tuckey se propone como L.S.D. ó DMS
J
CMRQDMS )1J(I,I
I = nº de niveles del factor (en general nº de medias a comparar).
J = nº de observaciones en cada variante (en general, nº de datos con que se
ha calculado cada una de las medias a comparar).
Nota: En la determinación de la significación del efecto de un factor (o su
equivalente, en la determinación de la significación de la diferencia entre dos
medias), debemos hacer notar:
a) Que el hecho de que las diferencias sean significativas no implica que las
diferencias sean necesariamente importantes. El análisis de la varianza, si la
variabilidad residual es pequeña, puede dar como significativas diferencias
que en la práctica carezcan de importancia.
10. Análisis de la varianza
-279-
b) Si el análisis no da como significativas determinadas diferencias no quiere
decir que éstas no existan sino que, simplemente, el test no tiene suficiente
potencia para detectarlas. Este hecho tiene especial importancia cuando
intentamos interpretar el por qué algunas veces, a pesar de obtener en la
práctica diferencias importantes entre las medias, éstas no llegan a ser
significativas. Lo que habría que hacer en este caso es aumentar el tamaño
de la experiencia o reducir el error experimental (disminuir el CMR),
aumentando la homogeneidad del material experimental o utilizando un
diseño más adecuado.
Los resultados obtenidos se reflejan en el siguiente
CUADRO RESUMEN DEL ANÁLISIS DE LA VARIANZA
Origen de
la varianza
Suma de
cuadrados
Grados
de
libertad
Cuadrado
medio F calculada F tablas
FACTOR SCF I-1 1I
SCFCMF
CMR
CMF
)1J(I),1I(F
ERROR SCR I(J-1) )1J(I
SCRCMR
TOTAL SCT IJ-1
EJEMPLO:
Se desea estudiar la influencia de la materia prima sobre la resistencia de unas
piezas de plástico. Para ello se realizaron experiencias utilizando cuatro materias
primas diferentes. Con cada materia prima se fabricaron cinco piezas midiéndose
finalmente la resistencia en cada una de las veinte piezas fabricadas. Los resultados
fueron:
MAT PRIMA 1 MAT PRIMA 2 MAT PRIMA 3 MAT PRIMA 4
6,0 6,2 5,9 5,0
6,2 6,1 6,0 5,1
6,5 5,9 6,0 4,2
6,8 6,0 6,2 4,6
6,0 6,0 5,8 4,5
10. Análisis de la varianza
-280-
Cuadro resumen del Análisis de la Varianza
-----------------------------------------------------------------------------
Fuente SC gl CM F calc p-Valor
-----------------------------------------------------------------------------
Factor 7,922 3 2,64067 36,17 0,0000
Residual 1,168 16 0,073
-----------------------------------------------------------------------------
Total 9,09 19
Dado que el p-Valor es menor que 0,01, existen diferencias estadísticamente
significativas al nivel del 99% de confianza entre las medias de las cuatro materias
primas. Esta afirmación es equivalente a decir que la “materia prima” utilizada influye
sobre la resistencia de las piezas de plástico con un nivel de significación del 99%.
En el apartado siguiente analizaremos cuál o cuáles de las variantes de la materia
prima son diferentes en cuanto a su resistencia promedio.
Tests de rangos
Repeticiones Media Grupos diferentes
--------------------------------------------------------------------------------
M.P. 4 5 4,68 X
M.P. 3 5 5,98 X
M.P. 2 5 6,04 X
M.P. 1 5 6,30 X
Observamos que solo la cuarta materia prima da lugar a una resistencia media
estadísticamente diferente a las demás siendo menor en valor que el resto
10.2. ANÁLISIS DE LA VARIANZA (II). DOS FACTORES CONTROLADOS
10.2.1. Introducción. Planes factoriales
Apoyándonos en los conceptos y terminología expuestos en el apartado anterior,
vamos a desarrollar este apartado de forma esquemática. Solamente desarrollaremos
en profundidad aquellos conceptos que sean nuevos y propios del presente capitulo.
PLANES FACTORIALES. Constituyen un diseño especial para el estudio
simultáneo de dos o más factores en el que todos los niveles de todos los factores se
combinan entre sí. Los utilizaremos en este tema como diseño base para desarrollar
las técnicas del Análisis de la Varianza para dos factores.
10. Análisis de la varianza
-281-
10.2.2. Anova para dos factores con repeticiones
Utilizaremos como diseño base para el estudio de este apartado, el siguiente diseño
factorial
FACTOR B
FACTOR
A B1 B2 Bj BJ
A1 = n = n = =
A2 = = = =
A3 = = = =
Ai = = = n
Xijk. =
AI = = = =
10.2.3. Concepto de Interacción
Se dice que hay interacción entre dos factores si el efecto conjunto de la variante i de
uno de ellos con la j del otro, no es igual a la suma de los efectos simples
respectivos. (Efectos no aditivos).
También se dice que existe interacción entre dos factores cuando el efecto de uno
de ellos depende del nivel que consideremos en el otro.
De manera similar a la anterior, se dice que no existe interacción entre dos
factores cuando el incremento en la respuesta (+ ó -) al pasar de un nivel a otro de
uno de los factores, es el mismo en cualquiera de los niveles que podamos
considerar del otro factor.
Vamos a considerar algunos ejemplos representativos.
a) Consideremos el ejemplo de la corrosión de los botes de hojalata en el que
contemplamos dos factores: Factor tipo de hojalata (hojalata A y hojalata B) y
Factor pH (pH1, PH2 y pH3)
10. Análisis de la varianza
-282-
Figura 10. 4. Gráfico de interacciones
En este primer caso, cualquiera que sea el pH, la hojalata A presenta mayor
corrosión que la hojalata B y, además, LA DIFERENCIA ENTRE UNA Y OTRA
HOJALATA ES LA MISMA PARA CUALQUIER pH.
En el caso de la Figura 10.4, influyen los dos factores (hojalata A mayor corrosión
que la B, y a mayor pH menor corrosión) pero no hay interacción entre ellos.
Figura 10. 5. Hay interacción
En el caso de la Figura 10.5, el efecto del factor hojalata depende del valor del pH
que consideremos. Así, a pH bajo presenta menor corrosión la hojalata B, a pH
intermedio el grado de corrosión es el mismo y a pH alto presenta menor corrosión la
hojalata B. Obsérvese que en este caso no tiene sentido preguntarse qué hojalata es
más resistente si no se especifica cuál va a ser el pH a emplear en la conserva.
10. Análisis de la varianza
-283-
b) Consideremos ahora la calidad organoléptica de tres zumos de naranja
(natural, pasteurizado, esterilizado) a través del tiempo (recién preparado, a
los 5 días, a los 15 días) conservados a temperatura constante.
Figura 10. 6. Gráfico de interacciones
Obtenga el lector sus propias conclusiones
¿Hay interacción?
¿Por qué?
¿Qué zumo es mejor?
¿Se comportan igual los tres zumos?
¿Influye el tiempo de conservación en la calidad? ¿Cómo?
10.2.4. Modelo y supuestos teóricos
El modelo teórico completo es
ijkijjiijk )(X donde
Xijk = valor de la K.ésima observación en el tratamiento formado por la variante
i del primer factor con la variante j del segundo.
= promedio general
i = efecto específico de la variante i del 1er factor
j = efecto específico de la variante j del 2º factor
()ij = efecto de la interacción entre los factores en sus niveles i, j,
respectivos.
ijk = residuo aleatorio
10. Análisis de la varianza
-284-
0i
i 0j
j 0)(i
ij 0)(j
ij
Supuestos:
),0(N
0)(
ijk
ijk
independientes e incorrelacionados
10.2.5. Hipótesis Nulas
Las hipótesis nulas a contrastar son la ausencia de efecto sobre la respuesta de cada
uno de los factores así como la ausencia de interacción entre ellos
H0:
0)(
0
0
ij
j
i
H1:
0)(
0
0
ij
j
i
10.2.6. Descomposición de las Sumas de Cuadrados. Test F
La variabilidad total de las observaciones se descompone de la siguiente forma
similar al ANOVA de un factor
gl 1)-IJ(N 1)-1)(J-(I 1)-(J 1)-(I 1)-(IJN
SCR SCint 2 SCF 1 SCF SCT
ijk
2).ij
Xijk
X(
ij
...)X.j.
X..X.ij
X(N
j
2...)X.j.
X(IN
i
2...)X..i
X(JN
ijk
2...)Xijk
X(
La significación de cada factor se obtiene calculando el cociente
CMR
CMF
GLRSCR
GLFSCFFc
tivo significaNo GLR,GLFF
nivel al ivosignificat GLR,GLFF
10.2.7. Comparación de Medias. Test L.S.D.
Si algún factor resulta significativo podrá determinarse entre que variantes hay
diferencias significativas comparando la diferencia de medias con la L.S.D. ó DMS
10. Análisis de la varianza
-285-
bCMRQDMS glr,a
a = nº de medias a comparar entre si (nº de variantes del factor).
b = nº de datos con que se calculó cada una de las medias anteriores.
EJEMPLO:
En una experiencia para analizar la influencia de un nuevo catalizador en dos
métodos A y B de síntesis de un producto orgánico, se ensayaron 4 dosis de
catalizador. Con cada una de las 8 combinaciones - tratamientos - dosis x método se
realizaron tres experiencias.
Los resultados, expresados en gr. de producto obtenido con la misma cantidad de
materia prima en 1 hora, se recogen en la tabla siguiente:
Dosis de catalizador (mg.)
Método/Do
sis 0’75 1 1’25 1’50
A
68 91 90 105
60 75 98 95
62 86 94 99
B
60 72 64 48
45 71 75 55
66 60 70 50
Solución
El modelo es:
ijkijjiijk )(X
0)(
0)(
0
0
j
ij
i
ij
j
i
),0(Nijk independientes.
10. Análisis de la varianza
-286-
Cuadro resumen del análisis de la varianza
O.V. SC GL CM Fc Ft
Total 7096’96 23
Catalizado
r 1535’13 3 511’71 12’39 **29'5F 01'0
16'3
Método 3432’04 1 3432’04 83’12 **53'8F 01'016'1
Interacción
CxM 1469’13 3 489’71 11’86 **29'5F 01'016'3
Error 660’66 16 41’29
Son significativos todos los efectos al 99 % (p < 0'01)
Interpretación de Resultados
a) La interacción es significativa, luego no existe una concentración de catalizador
óptima. La concentración de 1'50, que con el método A da el rendimiento promedio
máximo (99'67 gr), con el método B da el mínimo rendimiento promedio (51 gr).
Luego habrá que estudiar el efecto del catalizador en cada uno de los métodos.
Interaction Plot
dosis
rendim
iento
me todo
A
B
51
61
71
81
91
101
0,75 1 1,25 1,50
10. Análisis de la varianza
-287-
b) No obstante, el método A presenta para cada concentración del catalizador, un
rendimiento mayor que el método B. Por ello sería conveniente la utilización del
catalizador sólo en el método A, y preferiblemente, a la dosis máxima.
10.2.8. Validación del modelo
Para validar el modelo del análisis de la varianza, debemos comprobar que se
cumplen la hipótesis que se hacen de los residuos. Es decir, que son normales, con
media cero, varianza igual para todas las poblaciones, y que los residuos son
independientes.
Por tal motivo debemos examinar los distintos gráficos de los residuos y, si no
observamos ningún comportamiento sistemático, quiere decir que podemos aceptar
la hipótesis del residuo y por lo tanto aceptar el modelo del análisis de la varianza.
10.2.9. Igualdad de las varianzas
Una forma sencilla para contrastar la igualdad de varianzas de las distintas
poblaciones es hacer el mismo análisis de la varianza pero dando como variable
dependiente el cuadrado del residuo del ANOVA con los datos originales.
Si con este ANOVA los factores no tienen significación, quiere decir que se
cumple la hipótesis nula de igualdad de las varianzas de todas las poblaciones.
Aplicando esta técnica al ejemplo anterior con dos factores, los resultados son:
Análisis de la Varianza paraRESIDUALS^2 - Sumas de Cuadrados de Tipo III
--------------------------------------------------------------------------------
Fuente Suma de cuadrados GL Cuadrado Medio Cociente-F P-Valor
--------------------------------------------------------------------------------
EFECTOS PRINCIPALES
A:Dosis 4517,83 3 1505,94 1,61 0,2261
B:Método 1040,17 1 1040,17 1,11 0,3071
INTERACCIONES
AB 6163,02 3 2054,34 2,20 0,1280
RESIDUOS 14953,9 16 934,616
--------------------------------------------------------------------------------
TOTAL (CORREGIDO) 26674,9 23
--------------------------------------------------------------------------------
Los cocientes F están basados en el error cuadrático medio residual.
10. Análisis de la varianza
-288-
Como todos los p-values son superiores a 0,05, no hay ningún efecto
significativo y eso quiere decir que las varianzas de todas las poblaciones son
iguales.
10.2.10. Estimación de los efectos
El efecto i viene dado por
-ii
Su estimación es:
xxˆii -
El efecto de la interacción entre dos factores es:
)()( jiijij -
Y su estimación es,
)ˆˆx(x)( jiijij
^
-
Para el ejemplo anterior, la tabla de las medias es,
Tabla de Medias por mínimos cuadrados para Rendimiento
con 95,0 Intervalos de confianza
--------------------------------------------------------------------------------
Error Límite Límite
Nivel Frecuencia Media Estándar Inferior Superior
--------------------------------------------------------------------------------
Media Total 24 73,2917
Dosis
0,75 6 60,1667 2,62335 54,6054 65,7279
1 6 75,8333 2,62335 70,2721 81,3946
1,25 6 81,8333 2,62335 76,2721 87,3946
1,5 6 75,3333 2,62335 69,7721 80,8946
Método
A 12 85,25 1,85499 81,3176 89,1824
B 12 61,3333 1,85499 57,4009 65,2657
Dosis según Método
0,75 A 3 63,3333 3,70997 55,4685 71,1981
0,75 B 3 57,0 3,70997 49,1352 64,8648
1 A 3 84,0 3,70997 76,1352 91,8648
1 B 3 67,6667 3,70997 59,8019 75,5315
1,25 A 3 94,0 3,70997 86,1352 101,865
1,25 B 3 69,6667 3,70997 61,8019 77,5315
1,5 A 3 99,6667 3,70997 91,8019 107,531
1,5 B 3 51,0 3,70997 43,1352 58,8648
--------------------------------------------------------------------------------
Por ejemplo, la estimación del efecto A , es,
10. Análisis de la varianza
-289-
96,1129,7325,85xxˆAA --
Esto significa que cuando tomamos el método A, por término medio, con
respecto a la media general, la variable observada aumenta con 11,96.
El efecto de 25,1
54,829,7383,81xxˆ25,125,1 --
El efecto de la interacción es,
21,0)54,896,1129,73(0,94)ˆˆx(x)( 25,1A25,1;A25,1;A
^
--
10.2.11. Predicciones
Si por ejemplo hemos comprobado que la mejor combinación de los factores es el
nivel i para el factor A y el nivel j para el factor B, la predicción de la media de los
resultados con esa combinación de los factores,
ij
^
jiij )(ˆˆˆˆ
El error de predicción viene dado por el CMresidual , es decir, la varianza del
residuo.
En el ejemplo anterior, cuando el método sea el A y la dosis sea 1,25, la
predicción del valor medio es,
21,054,896,1129,73)(ˆˆˆˆ25,1;A
^
25,1A25,1;A =94
Como la varianza residual es de CMresidual =41,29, un intervalo de
confianza para el valor medio con esas condiciones es,
]27,101;73,86[27,7943
29,41·96,194
Con un nivel de confianza del 95%, y donde 3 es el número de datos con los
que se ha calculado la media de 94.
10. Análisis de la varianza
-290-
10.3. PROBLEMAS Y CUESTIONES DE EXAMEN
10.3.1. Para evaluar la actuación que el gobierno está teniendo en el caso Bankia, se
ha realizado una encuesta a un total de 261 ciudadanos de ambos sexos en cinco
ciudades diferentes, donde cada ciudadano ha puntuado de 1 a 10 la actuación del
Gobierno. A los datos obtenidos se les ha aplicado un ANOVA de dos factores con
interacciones cuyos resultados más relevantes se muestran a continuación:
Analysis of Variance for PUNTUACION/100 - Type III Sums of Squares
--------------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-value(APROXIMADO)
--------------------------------------------------------------------------------
MAIN EFFECTS
A:CIUDAD 124,595 4 ---- ---- ----
B:SEXO 6,23191 1 ---- ---- ----
INTERACTIONS
AB 4,73289 4 ---- ---- ----
RESIDUAL 833,325 ---- 3,32002
--------------------------------------------------------------------------------
TOTAL 1061,3 260
Intervalos al 95% para las medias
CIUDAD
PU
NT
UA
CIÓ
N
1 2 3 4 5
1,8
2,8
3,8
4,8
5,8
10. Análisis de la varianza
-291-
1) Completar la tabla ANOVA
Analysis of Variance for PUNTUACION/100 - Type III Sums of Squares
--------------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
--------------------------------------------------------------------------------
MAIN EFFECTS
A:CIUDAD 124,595 4 31,1488 9,38 0,0000
B:SEXO 6,23191 1 6,23191 1,88 0,1719
INTERACTIONS
AB 4,73289 4 1,18322 0,36 0,8395
RESIDUAL 833,325 251 3,32002
--------------------------------------------------------------------------------
TOTAL 1061,3 260
--------------------------------------------------------------------------------
2) ¿Qué efectos son significativos con α=0,05
a) Sexo, ciudad e interacción
b) Sexo y ciudad
c) Solo sexo
d) Solo ciudad (p-valor <0,05)
3) ¿Qué ciudad o ciudades presentan diferencias significativas con α=0,05
a) 2, 3 y 4
b) 1 respecto de las demás
Gráfico de interacciones
CIUDAD
PUNTUACIÓN SEXO
H M
2,2
3,2
4,2
5,2
6,2
1 2 3 4 5
10. Análisis de la varianza
-292-
c) 5 respecto de las demás (único intervalo que no se solapa con el
resto)
d) 1 y 2
4) En qué ciudad o ciudades presentan diferencias significativas las
puntuaciones de ambos sexos
a) En la 5
b) En la 2,3 y 4
c) En la 1
d) En ninguna (ya que la interacción no es significativa por lo que las
medias son iguales en todas las ciudades. No son significativamente
diferentes)
10.3.2. Se ha recogido la valoración de un líder político en dos ciudades distintas 1 y
2 (Factor A), dividida cada una en tres barrios según su nivel adquisitivo (Alto,
Medio y Bajo) (Factor B). Parece que el método más indicado para ver si existe
influencia de estos dos factores sobre dicha valoración es un Análisis de la
Varianza:
a) Los resultados obtenidos con el Statgraphics han sido estos ¿qué conclusiones
obtenemos?
--------------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
--------------------------------------------------------------------------------
MAIN EFFECTS
A:Ciudad 60,8444 1 60,8444 21,37 0,0000
B:Nivel 84,6889 2 42,3444 14,87 0,0000
INTERACTIONS
AB 29,4889 2 14,7444 5,18 0,0076
RESIDUAL 239,2 84 2,84762
--------------------------------------------------------------------------------
TOTAL (CORRECTED) 414,222 89
--------------------------------------------------------------------------------
b) A la vista de las gráficas siguientes y, teniendo en cuenta las conclusiones
obtenidas en el apartado anterior, determinar cuál es la ciudad en la que se tiene una
10. Análisis de la varianza
-293-
valoración más alta del líder político y qué nivel adquisitivo tienen, justificando en qué
gráficas has obtenido dichas conclusiones y porqué.
Means and 95,0 Percent LSD Intervals
Nivel
Va
lora
ció
n
A B M
2,8
3,8
4,8
5,8
6,8
Means and 95,0 Percent LSD Intervals
Ciudad
Va
lora
ció
n
1 2
3,3
3,8
4,3
4,8
5,3
5,8
10. Análisis de la varianza
-294-
10.3.3. En una fábrica de botellas de plástico se quiere decidir qué producto resulta
más resistente. Para ello se supone que tanto el tipo de plástico utilizado como
materia prima, como el volumen de las botellas, pueden afectar a dicha
resistencia. Se estudiaron tres tipos de plástico, (A;B;C) y 4 volúmenes diferentes
(0,75; 1; 1,25 y 1,5), midiendo la resistencia de 3 botellas elegidas al azar para
cada posible combinación de tipo de plástico y volumen (se analizaron 36 botellas
en total).
a) Completar la tabla del ANOVA de dos factores que resultó de dicho
experimento (1 puntos):
Fuente SC Gl CM Fc
Plástico 2287,17 2 1143,585 42´929
Volúmen 1613,64 3 537,88 20´191
Plástico x Volúmen 2284,61 6 380,7683 14´294
Residual 639,33 24 26´639
Total 6824,75 35
b) En vista de la tabla anterior, ¿qué se puede decir de la significación de los
efectos de los factores estudiados? ¿Qué significado tiene en este caso
concreto de estudio la interacción? Tomar α = 0.05 (0,5 puntos)
Para el plástico: Tc=42´929 > F tablas
ivosignificatEfectovalorPF 05,040305,0
24,2
Para el volumen: Tc=20´191 > F tablas
ivosignificatEfectovalorPF 05,001305,0
24,3
Interaction Plot
Ciudad
Va
lora
ció
nNivel
A
BM
3,1
4,1
5,1
6,1
7,1
1 2
10. Análisis de la varianza
-295-
Para la interacción:Tc=14´294 > F tablas
ivosignificatEfectovalorPF 05,051,201,0
24,6
El efecto significativo de la interacción puede interpretarse como que el efecto del
volumen no es el mismo en los tres tipos de plastic
A partir del gráfico de interacción, ¿qué combinación de tipo de plástico y volumen da
una botella más resistente? Si por motivos económicos el único tipo de plástico que
se puede utilizar es el C, ¿qué volumen de botella da una mayor resistencia?
Mejor combinación (mayor resistencia) : Plástico A y Volumen 1,5 litros
Para el plástico C el volumen que ofrece mayor resistencia es de 1 litro
10.3.4. Una cooperativa agrícola vende tres tipos de fitoreguladores (A, B y C) para
regular el crecimiento de trigo. Para determinar cuál es el más efectivo, se
seleccionan al azar 12 parcelas de trigo con características similares. En tres de
ellas se aplica el fitoregulador A, en otras tres parcelas el fitoregulador B y en otras
seis, el C. En todos los casos, la aplicación se realiza por medio de un atomizador
a una dosis de 10 mg/ha. Los resultados obtenidos, medidos como longitud media
(mm) de 10 plantas seleccionadas al azar al cabo de 3 semanas de aplicación
(variable “longitud”) son los indicados en la tabla. Los datos se analizan con
ANOVA utilizando Statgraphics, obteniéndose el gráfico que se muestra a
continuación.
Gráfico de interacción
Volúmen
Re
sis
ten
cia
PlásticoABC
56
66
76
86
96
106
0,75 1 1,25 1,5
A
B
C
10. Análisis de la varianza
-296-
Means and 95,0 Percent LSD Intervals
fitoregulador
longitud
A B C280
380
480
580
680
780
880
fitoregulador A fitoregulador B fitoregulador C
373 365 312 739 711 695 615 844 711
648 809 663
Práctica 2:
- ¿Cuál de las siguientes afirmaciones es correcta? (2,5
puntos)
a) A la vista de la gráfica se deduce que el p-valor del test del ANOVA es superior
a 0,05.
b) A la vista de la gráfica se deduce que el p-valor del test del ANOVA es inferior a
0,05.
c) A partir de la gráfica no es posible deducir ninguna de las dos respuestas
anteriores.
d) Depende del nivel de significación del test, el cual no se puede deducir del
gráfico.
Solución: los intervalos LSD se han construido con un nivel de confianza 1- =95%,
de modo que =0,05. Dado que los intervalos LSD no se solapan significa que
alguna de las medias es significativamente distinta de las demás considerando
=0,05, por lo que se rechaza la hipótesis nula H0: mA=mB=mC. Consecuentemente,
p-valor< , de modo que la respuesta correcta es la b).
- Teniendo en cuenta que Ax =350, CB xx =750, ¿qué tipo de fitoregulador se
recomendaría para maximizar la longitud?
(2,5 puntos)
a) El de tipo B, ya que la longitud de su intervalo LSD es mayor que la de C lo cual
sugiere que tiene una mayor probabilidad de que se alcancen valores mayores de
longitud.
b) El de tipo C, ya que la longitud de su intervalo LSD es menor que el de B lo cual
sugiere que su desviación típica es menor.
10. Análisis de la varianza
-297-
c) El de tipo B ó C.
d) Cualquiera de los tres, ya que se acepta la hipótesis nula H0: mA=mB=mC.
Solución: la c) ya que se solapan sus intervalos LSD, por lo que debe aceptarse la
hipótesis de que mB=mC.
- Una de las hipótesis del ANOVA es que la población de datos de la variable longitud
se ajusta a un modelo Normal en cada uno de los tres fitoreguladores ensayados.
¿Cómo se podría verificar si esta hipótesis es admisible?
(2,5 puntos)
a) La hipótesis de normalidad es admisible dado que los intervalos LSD son
simétricos.
b) Habría que estudiar si los 12 datos de la tabla se ajustan bien a un modelo
Normal.
c) Habría que calcular los residuos del ANOVA y estudiar si éstos se ajustan bien a
un modelo Normal.
d) No hay suficientes datos para estudiar si el modelo Normal es admisible.
Solución: los intervalos LSD son siempre simétricos, por lo que la respuesta a) es
falsa. Dado que la media de A es significativamente menor que las otras dos,
tampoco es correcto utilizar directamente los 12 datos de la tabla, pues tenemos una
mezcla de dos poblaciones con distinta media. La respuesta correcta es la c), pues
hay técnicas que permiten estudiar si el modelo Normal es admisible aunque sólo
tengamos 12 datos.
10.3.5. Una industria química desea estudiar el efecto del tipo de catalizador y de la
concentración de un cierto aditivo denominado NCV en la calidad final del producto
elaborado. Para ello se ha diseñado un experimento ensayando tres catalizadores
diferentes: A, B y C (factor CAT) combinados con tres concentraciones de aditivo:
4, 5 y 6 (factor NCV). Cada uno de los nueve tratamientos se ensayó dos veces,
midiéndose en cada prueba un parámetro de calidad final (variable LAT). Tras la
realización del experimento y la recogida de datos se llevó a cabo un Análisis de la
Varianza cuya tabla resumen se muestra a continuación:
Analysis of Variance for LAT - Type III Sums of Squares
------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio
------------------------------------------------------------------
MAIN EFFECTS
A:CAT 77,7733 ___ ________ _____
B:NCV _______ ___ 41,4867 _____
10. Análisis de la varianza
-298-
INTERACTIONS
AB _______ ___ ________ _____
RESIDUAL 16,56 ___ ________
------------------------------------------------------------------
TOTAL (CORRECTED) 250,52 ___
------------------------------------------------------------------
a) Completa la tabla resumen del ANOVA, indicando qué efectos son
estadísticamente significativos (α=0,05). Justificando la respuesta, así como los
cálculos realizados. (3,5 puntos)
Analysis of Variance for LAT - Type III Sums of Squares
------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio
------------------------------------------------------------------
MAIN EFFECTS
A:CAT 77,7733 2 38,8866 21,13
B:NCV 82,9734 2 41,4867 22,55
INTERACTIONS
AB 73,2133 4 18,303 9,95
RESIDUAL 16,56 9 1,84
------------------------------------------------------------------
TOTAL (CORRECTED) 250,52 17
------------------------------------------------------------------
Respuesta: Dado que se han realizado 18 pruebas experimentales, el número de
grados de libertad totales será 18 – 1 = 17. Como en los dos factores hay dos niveles,
los grados de libertad de cada factor serán 3 – 1 = 2. La interacción doble tendrá 2 · 2
= 4 grados de libertad, y los residuales se obtienen por diferencia: Dfres = 17 – 2 – 2 –
4 = 9
Cuadrado medioNCV = suma de cuadrados / gr. Lib
41,4867 = SC / 2 SC = 82,9734
SCAB = SCtotal – SCCAT – SCNCV = 73,2133
Dividiendo las sumas de cuadrados por los grados de libertad se obtiene el cuadrado
medio. Dividiendo el cuadrado medio de un factor entre el cuadrado medio residual
se obtiene la F-ratio.
El F-ratio de CAT (21,13) y el F-ratio de NCV (22,5) superan el valor crítico (α=0,05)
de una F2;9 que vale 4,26. El F-ratio de la interacción (9,95) supera el valor crítico
(α=0,05) de una F4;9 que vale 3,63. Por tanto, el efecto simple de los dos factores y de
la interacción son estadísticamente significativos.
b) ¿Qué información aporta el siguiente gráfico? ¿Dicha información es coherente
con las conclusiones del apartado anterior? ¿Por qué? (2,5 puntos)
10. Análisis de la varianza
-299-
Respuesta: Este gráfico muestra los intervalos LSD (Least Significant Differences)
para el factor CAT, obtenidos con un nivel de confianza del 95%. A la vista del gráfico
se deduce que el valor medio de la variable LAT es significativamente distinto entre
los catalizadores A y el B, así como también entre B y C ya que sus intervalos LSD
no se solapan. Sin embargo, no hay diferencias significativas entre A y C porque sus
respectivos intervalos se solapan. Por tanto, se deduce que:
mB < (mA = mC)
La información deducida del gráfico es coherente con el hecho de que el factor CAT resulta estadísticamente significativo, pues ello indica que al menos uno de los catalizadores tendrá un valor medio significativamente distinto de los demás.
Soluciones
a) Los dos factores y la interacción son significativas (p-valor<0’05), lo que implica
que las ciudades y los distintos niveles adquisitivos valoran al político de diferente
manera.
La interacción significaría que los distintos niveles no valoran igual en las dos
ciudades.
b) Dado que la interacción es significativa no podemos mirar en los intervalos LSD ya
que nos dan los valores del factor sin tener en cuenta la relación con la otra variable.
Si miramos en la gráfica “Interaction Plot” vemos que la valoración más alta es en la
ciudad 1 con nivel adquisitivo Alto y Medio, que tienen idéntica valoración.
Si hubiéramos mirado en los LSD (que no es lo correcto aunque en este caso difieren
poco) sólo es la ciudad 1 con nivel alto.
Means and 95,0 Percent LSD Intervals
ALG
LA
T
A B C
5,3
7,3
9,3
11,3
13,3
CAT
10. Análisis de la varianza
-300-
11. Regresión lineal
-301-
11. REGRESIÓN LINEAL
Contenido 11.1. HIPÓTESIS DEL MODELO ..................................................................... 301
11.2. ESTIMACIÓN DE LOS COEFICIENTES DE REGRESIÓN ..................... 303
11.3. CONTRASTES DE SIGNIFICACIÓN DE LOS COEFICIENTES .............. 305
11.4. VALIDACIÓN DEL MODELO ................................................................... 310
11.5. INTERVALOS DE PREDICCIÓN ............................................................. 313
11.6. BONDAD DE AJUSTE ............................................................................. 315
11.7. PROBLEMAS Y CUESTIONES DE EXÁMENES .................................... 317
11.1. HIPÓTESIS DEL MODELO
Supongamos que tenemos la variable aleatoria bidimensional (X,Y) donde X es la
altura de una persona, Y es su peso, y a partir de una muestra de n personas,
quisiéramos predecir el peso de una de ellas conociendo su altura. Para ello
aplicamos un modelo de la forma Y=g(X), siendo la más sencilla la recta, de manera
que a la nube de puntos (X,Y) queremos ajustar la mejor recta que pase por todos
ellos.
El modelo teórico a aplicar es:
+X+=Y
donde es una variable normal de media 0 y de varianza . X es un valor fijo, y
, son los parámetros que definen la recta, que se llama recta de regresión.
Como es aleatorio, también Y será aleatorio con una distribución normal de
media:
+=)E(+X+=E(Y)
y varianza
222 =)(D=(Y)D
Téngase en cuenta que X+ representan aquí una constante.
Si para una altura determinada el valor medio del peso fuera siempre el
mismo, no habría interés en ajustar una recta a los puntos, puesto que el conocer X
no aporta nada para predecir el valor de Y. Esto significaría que el coeficiente de
correlación es cero y la recta de regresión es paralela al eje de las X.
11. Regresión lineal
-302-
En caso contrario, el coeficiente de correlación es distinto de cero, y puede
ser interesante ajustar una recta a la nube de puntos (X,Y). Gráficamente es:
Figura 11. 1. Distribuciones condicionales.
Para una X fijada, el conjunto de puntos de Y forman una campana de Gauss.
Los valores medios de dichas campanas se encuentran sobre la recta X+ y la
dispersión de cada campana es siempre la misma. A esta última propiedad se le
llama homocedásticidad.
La ecuación +X+=Y significa que, conocido X, podemos predecir un
valor de Y, excepto una cantidad residual , que llamamos error, la cual engloba la
influencia de todos los demás factores sobre la variable Y.
Los errores tienen que cumplir la condición de ser independientes. Esta
propiedad se expresa diciendo que los errores o residuos deben estar
incorrelacionados entre si.
Con todo ello las hipótesis del modelo
+X+=Y
son:
1) Para cada X, Y sigue una distribución normal de media X+ y de
varianza 2 .
2) sigue una distribución normal de media 0 y varianza 2 .
11. Regresión lineal
-303-
3) Los residuos están incorrelacionados.
4) Los residuos no siguen un comportamiento sistemático.
5) Los residuos no tienen valores anómalos.
Si queremos reducir el error de predicción, podemos introducir otra variable X2
de forma que haya una mejor explicación de la variable Y. En otros casos,
directamente queremos conocer la relación entre una variable dependiente Y, y dos o
más variables independientes X1 y X2. El modelo a aplicar es:
+X+X+=Y 2211
entonces se dice que el modelo es de regresión lineal múltiple.
Las hipótesis a añadir son:
6) Las variables X's son independientes entre si.
7) El número de datos es mayor que el número de variables X's.
11.2. ESTIMACIÓN DE LOS COEFICIENTES DE REGRESIÓN
Para una nube de puntos (X,Y) como el de la figura siguiente
X
Y
y
y
ie
Figura 11. 2. Recta de ajuste
la mejor recta de regresión es aquella que la suma de los cuadrados de los
segmentos verticales dibujados sea mínima. Dichos segmentos representan el error
11. Regresión lineal
-304-
entre el valor observado y un valor predicho. Esto es, conociendo un valor de X, el
valor predicho es:
X+=Y ˆ
y el error es
X--y=Y-Y= ˆ
que por término medio tendrá un valor al cuadrado de:
)X--E(y2
y debemos elegir los parámetros α y β de forma que
)X--E(Y mínimo2
Para ello hacemos
0=E
0;=E
y obtenemos los valores de y , a los cuales llamamos a y b, respectivamente.
Los valores que se obtienen son:
S
S=b
2xx
2xy
xb+a=y
Donde,
n
i
iixy yyxxS1
2 ))((
n
i
ixx xxS1
22 )(
En regresión lineal múltiple, por ejemplo, para dos variables, el modelo es
+X+X+=Y 22110
y la condición a cumplir es )X-X--E(Y mÍn2
22110 , y obtenemos unos valores
de b,b,b 210 , en función de los datos muestrales.
11. Regresión lineal
-305-
11.3. CONTRASTES DE SIGNIFICACIÓN DE LOS COEFICIENTES
Se observa que a y b, las estimaciones de y , son funciones de los datos
muestrales )y,x),...(y,x(),y,x(nn2211 , de manera que, para cada muestra de n
puntos extraída al azar, cambian los valores de a y b. En consecuencia, a y b son dos
variables aleatorias con sus medias y sus varianzas. Se demuestra que para el
estadístico a son:
=E(a)
)n-n( xx
x
=(a)D22
i
n
1=i
2i
n
1=i
2
2
y para el estadístico b son:
=E(b)
xx
=(b)D22
i
n
1=i
22
n-
siendo 2 la varianza residual, cuya estimación viene dada por:
2ˆ
n
e
=
2i
n
1=i2
Como 2 es desconocida, la sustituimos por
2 , a y b siguen distribuciones t
de Student de n-2 grados de libertad. Es decir:
t=D(a)
E(a)-a2-n
11. Regresión lineal
-306-
t=D(b)
E(b)-b2-n
o bien:
t=D(b)
-b ;t=
D(a)
-a2-n2-n
las primeras hipótesis que se plantean es si y son nulas o por el contrario
tienen un valor significativamente distinto de cero.
Para contrastar 0)=(H0 observamos la cantidad
D(a)
0-a
lo cual da un número. Si éste está dentro del campo de existencia de la t, al 95%,
decimos que no hay razón para rechazar que 0= .
Para contrastar 0)=(H o observamos la cantidad
D(b)
0-b
lo cual da otro número. Si éste se encuentra dentro del campo de existencia al 95%
de una t 2-n , decimos que no hay razón para rechazar que 0= .
En la práctica, el valor de D(b)
b se le llama t-value, y se calcula la probabilidad
de que una t 2-n sea, en módulo, mayor que la t-value. Si dicha probabilidad es menor
que 0,05, rechazamos la hipótesis nula de que el coeficiente es cero.
Simple Regression - Peso vs. Altura
Dependent variable: Peso
Independent variable: Altura
Linear model: Y = a + b*X
11. Regresión lineal
-307-
Coefficients
Least Squares Standard T
Parameter Estimate Error Statistic P-Value
Intercept -78,486 19,6355 -3,99714 0,0002
Slope 0,833335 0,110693 7,52833 0,0000
Analysis of Variance
Source Sum of Squares Df Mean Square F-Ratio P-Value
Model 2815,93 1 2815,93 56,68 0,0000
Residual 2782,35 56 49,6848
Total (Corr.) 5598,28 57
Correlation Coefficient = 0,709224
R-squared = 50,2999 percent
R-squared (adjusted for d.f.) = 49,4124 percent
Standard Error of Est. = 7,04874
Mean absolute error = 5,20749
Durbin-Watson statistic = 2,12033 (P=0,6706)
Lag 1 residual autocorrelation = -0,0660485
The StatAdvisor
The output shows the results of fitting a linear model to describe the relationship between Peso and
Altura. The equation of the fitted model is
Peso = -78,486 + 0,833335*Altura
Since the P-value in the ANOVA table is less than 0,05, there is a statistically significant relationship
between Peso and Altura at the 95,0% confidence level.
The R-Squared statistic indicates that the model as fitted explains 50,2999% of the variability in Peso.
The correlation coefficient equals 0,709224, indicating a moderately strong relationship between the
variables. The standard error of the estimate shows the standard deviation of the residuals to be
7,04874. This value can be used to construct prediction limits for new observations by selecting the
Forecasts option from the text menu.
11. Regresión lineal
-308-
The mean absolute error (MAE) of 5,20749 is the average value of the residuals. The Durbin-Watson
(DW) statistic tests the residuals to determine if there is any significant correlation based on the order in
which they occur in your data file. Since the P-value is greater than 0,05, there is no indication of serial
autocorrelation in the residuals at the 95,0% confidence level.
En regresión lineal múltiple se actúa con el mismo criterio, pero además se
suele hacer un contraste de hipótesis de que todos los coeficientes de regresión son
nulos, esto es:
0)==(H 210
frente que al menos uno de ellos es distinto de cero. Para esto aplicamos un
procedimiento semejante al análisis de la varianza. Se calcula el valor de 2 por dos
procedimientos que veremos a continuación, y que bajo el supuesto de la hipótesis
0)==(H 210 , deben dar lo mismo, esto es, que el cociente:
1ˆ
ˆ22
21
Siempre el numerador va a ser mayor que el denominador, y en caso de que
ese cociente sea muy elevado, eso es indicio de que al menos un coeficiente de
regresión es distinto de cero.
Figura 11. 3. Valores predichos
1
)y-y(
=
2
i
n
1=i21
ˆ
ˆ
11. Regresión lineal
-309-
2-n
)y-y(
=
2
ii
n
1=i22
ˆ
ˆ
y el cociente de varianzas sigue una F de 1 y n-2 grados de libertad.
Multiple Regression - Peso
Dependent variable: Peso
Independent variables:
Altura
Edad
Sexo=2
Standard T
Parameter Estimate Error Statistic P-Value
CONSTANT -101,667 36,5018 -2,78526 0,0074
Altura 0,621629 0,144015 4,31641 0,0001
Edad 3,3533 1,18711 2,82477 0,0066
Sexo=2 -7,22088 3,53274 -2,04399 0,0458
Analysis of Variance
Source Sum of Squares Df Mean Square F-Ratio P-Value
Model 3434,97 3 1144,99 28,58 0,0000
Residual 2163,31 54 40,0613
Total (Corr.) 5598,28 57
R-squared = 61,3576 percent
R-squared (adjusted for d.f.) = 59,2108 percent
Standard Error of Est. = 6,3294
Mean absolute error = 4,85517
11. Regresión lineal
-310-
Durbin-Watson statistic = 2,1583 (P=0,7124)
Lag 1 residual autocorrelation = -0,081475
The StatAdvisor
The output shows the results of fitting a multiple linear regression model to describe the relationship
between Peso and 3 independent variables. The equation of the fitted model is
Peso = -101,667 + 0,621629*Altura + 3,3533*Edad - 7,22088*Sexo=2
Since the P-value in the ANOVA table is less than 0,05, there is a statistically significant relationship
between the variables at the 95,0% confidence level.
The R-Squared statistic indicates that the model as fitted explains 61,3576% of the variability in Peso.
The adjusted R-squared statistic, which is more suitable for comparing models with different numbers of
independent variables, is 59,2108%. The standard error of the estimate shows the standard deviation of
the residuals to be 6,3294. This value can be used to construct prediction limits for new observations by
selecting the Reports option from the text menu. The mean absolute error (MAE) of 4,85517 is the
average value of the residuals. The Durbin-Watson (DW) statistic tests the residuals to determine if there
is any significant correlation based on the order in which they occur in your data file. Since the P-value is
greater than 0,05, there is no indication of serial autocorrelation in the residuals at the 95,0% confidence
level.
In determining whether the model can be simplified, notice that the highest P-value on the independent
variables is 0,0458, belonging to Sexo=2. Since the P-value is less than 0,05, that term is statistically
significant at the 95,0% confidence level. Consequently, you probably don't want to remove any
variables from the model.
11.4. VALIDACIÓN DEL MODELO
Aparte de contrastar las hipótesis nulas de que los coeficientes de regresión son cero
o no, hay que comprobar las hipótesis del modelo acerca de los residuos. Esto es:
1) Son normales
2) Media cero.
3) Varianza constante.
4) Incorrelacionados.
5) No hay valores anómalos.
1) Normalidad
Para comprobar la normalidad de los residuos se realiza un gráfico probabilístico
normal, como el de la figura siguiente:
11. Regresión lineal
-311-
Normal Probability Plot
-13 -8 -3 2 7 12 17
RESIDUALS
0,1
1
5
20
50
80
95
99
99,9
perc
en
tag
e
Figura 11. 4. Test de ajuste a una normal.
Si los puntos están situados sobre una recta, decimos que los datos se
ajustan a una distribución normal.
2) Media cero
Se puede calcular el intervalo de confianza del residuo. Si el intervalo de confianza al
95% incluye al 0, decimos que la media es 0 con un nivel de significación del 5%.
3) Varianza constante
Para ello realizamos un gráfico de dispersión de ei frente a x. Por ejemplo, si el
gráfico fuera como el de la figura siguiente:
Figura 11. 5.Varianza no constante
11. Regresión lineal
-312-
se observa que a medida que aumenta X, aumenta la dispersión, lo que contradice la
hipótesis de homocedásticidad del modelo.
4) Autocorrelación
Por ejemplo, si el gráfico de ei frente a x es como el de la figura siguiente:
Figura 11. 6. Residuos en función de x
significa que los residuos están correlacionados, ya que primero son negativos, luego
positivos, negativos, etc.. Es decir, no hay independencia de los residuos.
Este caso particular corresponde a una situación en que la nube de puntos
(X,Y) tiene la forma de una parábola, pero se ha ajustado una recta, tal como en la
figura de abajo:
Figura 11. 7. Falta de ajuste
En general, las gráficas de residuos no tienen que mostrar ningún
11. Regresión lineal
-313-
comportamiento sistemático.
5) Valores anómalos
Se pueden determinar dibujando los residuos en función de x, y observando aquellos
puntos que sean muy extremos, tanto por arriba, como por abajo de la media.
También se pueden estandarizar los residuos, y observar aquellos cuyos valores
sean más de 3 en módulo.
11.5. INTERVALOS DE PREDICCIÓN
Una vez que el modelo ha pasado la etapa de validación, se puede emplear para
realizar predicciones de y0, conociendo un valor de x0 . Se pueden efectuar dos tipos
de predicciones:
a) Dado un valor de x0 , ¿cuánto vale por término medio el valor de y0? Es
una predicción para la media de y0.
b) Dado un valor de x0 , ¿cuánto vale el valor de y0? Es una predicción
para un valor puntual de y0.
Para el segundo caso habrá una mayor imprecisión que para el primero,
puesto que resulta más difícil predecir un valor puntual, que una media, en donde los
valores altos y bajos se pueden compensar.
El intervalo de predicción para la media de y0 es:
s
)xx(+
n
1t + x b+a
xx
2
02/2n20
ˆ
y para un valor puntual es:
s
)xx(+
n
1+1t + bx+a
xx
2
02/2n20
ˆ
donde
)xx(=S2
i
n
1=i
xx
11. Regresión lineal
-314-
Gráficamente, los límites superior e inferior de dichos intervalos forman unas
curvas alrededor de la recta de regresión, tal como se presenta en la figura siguiente:
Plot of Fitted Model
Peso = -78,486 + 0,833335*Altura
150 160 170 180 190 200
Altura
45
55
65
75
85
Peso
Fi
gura 11. 8. Intervalos de predicción.
Las curvas mas interiores corresponden a la predicción de un valor medio de
Y, y las mas exteriores, a un valor puntual de Y.
Cuando X coincide con x , la amplitud de los intervalos es mínima, tal y como
se observa en la figura 11.8, y se corresponde con las fórmulas.
11. Regresión lineal
-315-
Plantear el
problema
Formular el
modelo
y=a+bx+e
Calcular
coeficientes
Validación del
modelo
Ok?
Previsión y control
NO
SI
Figura 11. 9. Formulación de modelos de regresión
11.6. BONDAD DE AJUSTE
Para dos modelos de regresión que cumplan las hipótesis, )cuál de los dos es el
mejor? o bien para uno de ellos, )cuánto de bien se ajustan los datos al modelo?
Para determinar el grado de ajuste de los puntos se calcula el coeficiente de
determinación R2 , el cual viene dado por:
total cuadrados de suma
residual cuadrados de suma1=R
2
Cuánto más se ajuste a 100% el R2 , mejor será el ajuste de los datos al
modelo.
11. Regresión lineal
-316-
Si introducimos otra variable al modelo, el valor de R2 siempre aumenta, pero
puede ser que la aportación de la nueva variable no sea significativa. Por ello se
calcula el R2 ajustado, el cual es:
2Y
22adjus. 1=
var.total
alvar.residu1=R
el cual penaliza la introducción de nuevas variables, y en caso de no ser
significativas, disminuye el valor de R2adju.
# Método del incremento de la suma de cuadrados
Modelo 1 (más sencillo)
+x+=y 110
Suma de cuadrados:
SCR+SCE=SCT 111
Modelo 2 (más completo)
+x+x+=y 22110
Suma de cuadrados
SCR+SCE=SCT 222
Incremento de la suma de cuadrados SCR-SCR=SCR 21
El modelo 2 es mejor que el 1 si:
F >
2g.l.modelo
SCR
1
SCR
2elomodg.l.1,2
11. Regresión lineal
-317-
11.7. PROBLEMAS Y CUESTIONES DE EXÁMENES
11.7.1.- Se quiere estudiar la relación existente entre la renta, en millones de euros,
para diferentes provincias españolas y el número de automóviles y motocicletas (en
miles de unidades) en las mismas. Para ello se tienen para cada provincia la
relación de automóviles y motocicletas así como su renta media.
Los resultados obtenidos mediante regresión se muestran a continuación.
Análisis de Regresión Múltiple
-----------------------------------------------------------------------------
Variable dependiente: RENTA_PROV
-----------------------------------------------------------------------------
Error Estadístico
Parámetro Estimación estándar T P-Valor
-----------------------------------------------------------------------------
CONSTANTE 6343.96 1127.17 5.62823 0.0000
AUTOMOVIL 0.610523 0.024924 24.4954 0.0000
MOTOS 0.110201 0.0565941 1.94722 0.0575
-----------------------------------------------------------------------------
Análisis de Varianza
-----------------------------------------------------------------------------
Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor
-----------------------------------------------------------------------------
Modelo 9.02343E10 2 4.51172E10 1537.11 0.0000
Residuo 1.37954E9 47 2.9352E7
-----------------------------------------------------------------------------
Total (Corr.) 9.16139E10 49
R-cuadrado = 98.4942 porcentaje
R-cuadrado (ajustado para g.l.) = 98.4301 porcentaje
Error estándar de est. = 5417.75
Error absoluto medio = 3469.87
Estadístico de Durbin-Watson = 2.29066 (P=0.1528)
Autocorrelación residual en Lag 1 = -0.153461
11. Regresión lineal
-318-
Con los resultados anteriores y un nivel de significación de un 5%
1. ¿Cuáles son las variables que presentan una influencia significativa sobre el nivel
de renta provincial? (2,5 puntos)
a) AUTOMOVIL y MOTOS
b) AUTOMOVIL
c) MOTOS
d) El modelo no es significativo
2. El coeficiente de determinación del modelo representado tiene un valor de: (2,5
puntos)
a) -0.153461
b) 98.4942
c) 6343.96
d) 1537.11
3. Empleando el modelo completo ¿ cuál es el valor esperado de la renta provincial
si AUTOMOVIL=1000 y MOTOS= B=500? (2,5 puntos)
a) 6343.96
b) 7505.533
c) 7009.5835
d) 55.1005
4. La estimación del parámetro AUTOMOVIL representa: (2,5 puntos)
a) Incremento medio en el valor esperado de la renta provincial por cada coche
que se matricula manteniendo constante el resto de variables independientes.
b) Incremento medio en el valor esperado de la renta provincial por cada mil
coches que se matriculan manteniendo constante el resto de variables
independientes.
c) Incremento en el valor esperado de la renta provincial por cada mil coches
que se matriculan manteniendo constante el resto de variables independientes
11. Regresión lineal
-319-
d) Incremento en el valor esperado de la renta provincial por cada coche que se
matricula sin matricularse ninguna moto.
11.7.2.- La relación que existe entre la potencia de un coche (horsepower) y su
consumo (mpg) y su país de procedencia se ha estudiado a través de un modelo de
regresión como el que se ve en la siguiente salida del statgraphics:
-----------------------------------------------------------------------------
Dependent variable: horsepower
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT 161,85 6,75849 23,9477 0,0000
mpg -2,56657 0,196964 -13,0306 0,0000
Pais 1,43398 2,909 0,492947 0,6228
-----------------------------------------------------------------------------
Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 55446,7 2 27723,3 121,33 0,0000
Residual 33589,4 147 228,499
-----------------------------------------------------------------------------
Total (Corr.) 89036,1 149
R-squared = 62,2744 percent
R-squared (adjusted for d.f.) = 61,7611 percent
Standard Error of Est. = 15,1162
Mean absolute error = 11,615
Durbin-Watson statistic = 1,46866 (P=0,0005)
Lag 1 residual autocorrelation = 0,26547
11. Regresión lineal
-320-
1) ¿De qué términos depende de forma significativa para un valor de α=0,05 la
variable dependiente? Justifica la respuesta (0,50 puntos)
a) Contante, mpg, país
x b) Constante, mpg porque sus P-valores son menores q ue 0,05
c) País
d) La dependencia nos la da la R-squared.
2) ¿Cuánto vale el coeficiente de determinación? (0,50 puntos)
a) Lo obtenemos de la tabla del análisis de la varianza y nos lo da el p-value
indicándonos que como es menos que 0’05 el modelo es válido.
b) Lo obtenemos de la tabla del análisis de la varianza y se calcula como la raíz
cuadrada de la SCE/SCT y vale 15,1162
x c) Lo obtenemos de la tabla del análisis de la varianza y se calcula como la
SCE/SCT por 100 y vale 62,2744%
d) Nos lo da la tabla del análisis de la varianza y es el valor F-Ratio 121,33 que al ser
tan grande significa que el modelo es válido.
11.7.3.- Se estudia la relación entre la composición de un cemento tipo Portland y el
calor desprendido durante la fase de fraguado. Para ello se midió la cantidad de calor
desprendido en calorías por gramos de cemento junto con las variables que se
pensaba podían tener influencia sobre el calor desprendido A, B y C que representan
el contenido en porcentaje de tres productos.
Los resultados se obtenidos se muestran a continuación.
11. Regresión lineal
-321-
Análisis de Regresión Múltiple
-----------------------------------------------------------------------------
Variable dependiente: Calor
-----------------------------------------------------------------------------
Error Estadístico
Parámetro Estimación estándar T P-Valor
-----------------------------------------------------------------------------
CONSTANTE 48,1936 3,9133 12,3153 0,0000
A 1,69589 0,204582 8,28954 0,0000
B 0,656915 0,0442342 14,8508 0,0000
C 0,250018 0,184711 1,35356 0,2089
-----------------------------------------------------------------------------
Análisis de Varianza
-----------------------------------------------------------------------------
Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor
-----------------------------------------------------------------------------
Modelo 2667,65 3 889,217 166,34 0,0000
Residuo 48,1106 9 5,34562
-----------------------------------------------------------------------------
Total (Corr.) 2715,76 12
R-cuadrado = 98,2285 porcentaje
R-cuadrado (ajustado para g.l.) = 97,638 porcentaje
Error estándar de est. = 2,31206
Error absoluto medio = 1,57588
Estadístico de Durbin-Watson = 2,11016 (P=0,3638)
Autocorrelación residual en Lag 1 = -0,116306
11. Regresión lineal
-322-
Análisis de Regresión Múltiple
-----------------------------------------------------------------------------
Variable dependiente: Calor
-----------------------------------------------------------------------------
Error Estadístico
Parámetro Estimación estándar T P-Valor
-----------------------------------------------------------------------------
CONSTANTE 52,5773 2,28617 22,998 0,0000
A 1,46831 0,121301 12,1047 0,0000
B 0,66225 0,0458547 14,4424 0,0000
-----------------------------------------------------------------------------
Análisis de Varianza
-----------------------------------------------------------------------------
Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor
-----------------------------------------------------------------------------
Modelo 2657,86 2 1328,93 229,50 0,0000
Residuo 57,9045 10 5,79045
-----------------------------------------------------------------------------
Total (Corr.) 2715,76 12
R-cuadrado = 97,8678 porcentaje
R-cuadrado (ajustado para g.l.) = 97,4414 porcentaje
Error estándar de est. = 2,40634
Error absoluto medio = 1,90933
Estadístico de Durbin-Watson = 1,92164 (P=0,4717)
Autocorrelación residual en Lag 1 = -0,054504
11. Regresión lineal
-323-
A. El coeficiente de determinación del modelo matemático más adecuado tiene un
valor de: (0,25 puntos)
a. 2,40634
b. 97,638
c. 2,31206
d. 97,4414 Cuando se comparan modelos se usa el R-cuadrado
(ajustado para gl)
B. La ecuación matemática que se debería utilizar para predecir el valor del calor
desprendido en la fase de fraguado es: (0,25 puntos)
a. Calor=48,1936+0,656915B+1,69589A
b. Calor=52,5773+0,66225B+1,46831A (el coeficiente de C no es
significativo)
c. Calor=48,1936+0,250018C+0,656915B+1,69589A
d. Ninguno de los anteriores
C. La estimación del parámetro A representa: (0,25 puntos)
a. Decremento medio en el valor del calor por cada unidad que aumenta
el parámetro A
b. Incremento medio en el valor del calor por cada unidad que
aumenta el parámetro A manteniendo constante el resto de
variables independientes.
c. Incremento medio en el valor del calor por cada unidad que aumenta el
parámetro A
d. Ninguna de los anteriores
D. Qué valor obtendríamos del calor desprendido si A=11, B=56 y C=8 (0,25
puntos)
103,63563
a. 105,81471 (sustituyéndolas variables significativas en el modelo
segundo que es el apropiado)
11. Regresión lineal
-324-
b. 106,45871
c. 105,635774
11.7.4.- Para estudiar a qué se debe la variabilidad obtenida en función del tipo de
fitoregulador, se analiza en laboratorio la composición de cada un de ellos y se
encuentra que su composición es muy similar, pero difieren en la concentración de
una hormona de crecimiento vegetal denominada auxina (variable “conc”). El
fitoregulador A contiene 10 g/l de auxina, el de tipo B contiene 40 g/l y el de tipo C, 20
g/l. El efecto de la concentración sobre la longitud obtenida (datos de la tabla anterior)
se analiza con regresión lineal múltiple, obteniéndose los siguientes resultados:
Multiple Regression Analysis
-----------------------------------------------------------------------------
Dependent variable: longitud
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT -258,333 125,178 -2,06372 0,0691
conc 73,0 11,1942 6,52125 0,0001
conc^2 -1,21667 0,211749 -5,7458 0,0003
-----------------------------------------------------------------------------
Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 299756,0 2 149878,0 29,40 0,0001
Residual 45876,0 9 5097,33
-----------------------------------------------------------------------------
Total (Corr.) 345632,0 11
R-squared = 86,7269 percent
11. Regresión lineal
-325-
R-squared (adjusted for d.f.) = 83,7774 percent
Standard Error of Est. = 71,3956
Mean absolute error = 47,5
Teniendo en cuenta los resultados del modelo de regresión, ¿qué concentración de
auxina deberá tener el fitoregulador para maximizar la longitud, bajo las condiciones
del experimento? Considerar =0,05. (2,5 puntos)
a) conc = 20
b) conc = 30
c) conc = 40
d) conc = 20 o bien conc = 40
e) ninguna de las anteriores
Solución: las dos variables del modelo son estadísticamente significativas ya que su p-
valor es menor a 0,05. La ecuación resultante será: Longitud = –258,333 + 73 conc –
1,217 conc2
Para determinar el máximo relativo de esta ecuación, hay que derivar e igualar a
cero:
d(long)/dc = 73 –2 · 1,217 conc = 0 conc = 73/(2·1,217) = 30 g/l.
11. Regresión lineal
-326-
Anexo A
-327-
ANEXO A. Tablas de las principales distribuciones de probabilidad
DISTRIBUCIÓN DE POISSON .......................................................................................... 328
DISTRIBUCIÓN NORMAL TIPIFICADA ............................................................................ 331
DISTRIBUCIÓN 2
n DE PEARSON .................................................................................. 332
DISTRIBUCIÓN t de Student ............................................................................................ 335
DISTRIBUCIÓN F de snedecor ......................................................................................... 338
Anexo A
-328-
DISTRIBUCIÓN DE POISSON
c
i
i
!i
e)cX(P
0
0 1 2 3 4 5 6 7 8 9 10
c=0 c=1 c=2 c=3 c=4 c=5 c=6 c=7 c=8
0,02 0,9802 0,9998 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,04 0,9608 0,9992 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,06 0,9418 0,9983 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,08 0,9231 0,9970 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,10 0,9048 0,9953 0,9998 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,15 0,8607 0,9898 0,9995 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,20 0,8187 0,9825 0,9989 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000
0,25 0,7788 0,9735 0,9978 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000
0,30 0,7408 0,9631 0,9964 0,9997 1,0000 1,0000 1,0000 1,0000 1,0000
0,35 0,7047 0,9513 0,9945 0,9995 1,0000 1,0000 1,0000 1,0000 1,0000
0,40 0,6703 0,9384 0,9921 0,9992 0,9999 1,0000 1,0000 1,0000 1,0000
0,45 0,6376 0,9246 0,9891 0,9988 0,9999 1,0000 1,0000 1,0000 1,0000
0,50 0,6065 0,9098 0,9856 0,9982 0,9998 1,0000 1,0000 1,0000 1,0000
0,55 0,5769 0,8943 0,9815 0,9975 0,9997 1,0000 1,0000 1,0000 1,0000
0,60 0,5488 0,8781 0,9769 0,9966 0,9996 1,0000 1,0000 1,0000 1,0000
0,65 0,5220 0,8614 0,9717 0,9956 0,9994 0,9999 1,0000 1,0000 1,0000
0,70 0,4966 0,8442 0,9659 0,9942 0,9992 0,9999 1,0000 1,0000 1,0000
0,75 0,4724 0,8266 0,9595 0,9927 0,9989 0,9999 1,0000 1,0000 1,0000
0,80 0,4493 0,8088 0,9526 0,9909 0,9986 0,9998 1,0000 1,0000 1,0000
0,85 0,4274 0,7907 0,9451 0,9889 0,9982 0,9997 1,0000 1,0000 1,0000
0,90 0,4066 0,7725 0,9371 0,9865 0,9977 0,9997 1,0000 1,0000 1,0000
1,00 0,3679 0,7358 0,9197 0,9810 0,9963 0,9994 0,9999 1,0000 1,0000
1,10 0,3329 0,6990 0,9004 0,9743 0,9946 0,9990 0,9999 1,0000 1,0000
1,20 0,3012 0,6626 0,8795 0,9662 0,9923 0,9985 0,9997 1,0000 1,0000
1,30 0,2725 0,6268 0,8571 0,9569 0,9893 0,9978 0,9996 0,9999 1,0000
1,40 0,2466 0,5918 0,8335 0,9463 0,9857 0,9968 0,9994 0,9999 1,0000
1,50 0,2231 0,5578 0,8088 0,9344 0,9814 0,9955 0,9991 0,9998 1,0000
1,60 0,2019 0,5249 0,7834 0,9212 0,9763 0,9940 0,9987 0,9997 1,0000
1,70 0,1827 0,4932 0,7572 0,9068 0,9704 0,9920 0,9981 0,9996 0,9999
1,80 0,1653 0,4628 0,7306 0,8913 0,9636 0,9896 0,9974 0,9994 0,9999
1,90 0,1496 0,4337 0,7037 0,8747 0,9559 0,9868 0,9966 0,9992 0,9998
2,00 0,1353 0,4060 0,6767 0,8571 0,9473 0,9834 0,9955 0,9989 0,9998
2,10 0,1225 0,3796 0,6496 0,8386 0,9379 0,9796 0,9941 0,9985 0,9997
2,20 0,1108 0,3546 0,6227 0,8194 0,9275 0,9751 0,9925 0,9980 0,9995
2,30 0,1003 0,3309 0,5960 0,7993 0,9162 0,9700 0,9906 0,9974 0,9994
2,40 0,0907 0,3084 0,5697 0,7787 0,9041 0,9643 0,9884 0,9967 0,9991
2,50 0,0821 0,2873 0,5438 0,7576 0,8912 0,9580 0,9858 0,9958 0,9989
2,60 0,0743 0,2674 0,5184 0,7360 0,8774 0,9510 0,9828 0,9947 0,9985
2,70 0,0672 0,2487 0,4936 0,7141 0,8629 0,9433 0,9794 0,9934 0,9981
2,80 0,0608 0,2311 0,4695 0,6919 0,8477 0,9349 0,9756 0,9919 0,9976
2,90 0,0550 0,2146 0,4460 0,6696 0,8318 0,9258 0,9713 0,9901 0,9969
3,00 0,0498 0,1991 0,4232 0,6472 0,8153 0,9161 0,9665 0,9881 0,9962
3,10 0,0450 0,1847 0,4012 0,6248 0,7982 0,9057 0,9612 0,9858 0,9953
3,20 0,0408 0,1712 0,3799 0,6025 0,7806 0,8946 0,9554 0,9832 0,9943
3,30 0,0369 0,1586 0,3594 0,5803 0,7626 0,8829 0,9490 0,9802 0,9931
3,40 0,0334 0,1468 0,3397 0,5584 0,7442 0,8705 0,9421 0,9769 0,9917
3,50 0,0302 0,1359 0,3208 0,5366 0,7254 0,8576 0,9347 0,9733 0,9901
3,60 0,0273 0,1257 0,3027 0,5152 0,7064 0,8441 0,9267 0,9692 0,9883
3,70 0,0247 0,1162 0,2854 0,4942 0,6872 0,8301 0,9182 0,9648 0,9863
3,80 0,0224 0,1074 0,2689 0,4735 0,6678 0,8156 0,9091 0,9599 0,9840
3,90 0,0202 0,0992 0,2531 0,4532 0,6484 0,8006 0,8995 0,9546 0,9815
4,00 0,0183 0,0916 0,2381 0,4335 0,6288 0,7851 0,8893 0,9489 0,9786
4,10 0,0166 0,0845 0,2238 0,4142 0,6093 0,7693 0,8786 0,9427 0,9755
4,20 0,0150 0,0780 0,2102 0,3954 0,5898 0,7531 0,8675 0,9361 0,9721
4,30 0,0136 0,0719 0,1974 0,3772 0,5704 0,7367 0,8558 0,9290 0,9683
4,40 0,0123 0,0663 0,1851 0,3594 0,5512 0,7199 0,8436 0,9214 0,9642
4,50 0,0111 0,0611 0,1736 0,3423 0,5321 0,7029 0,8311 0,9134 0,9597
4,60 0,0101 0,0563 0,1626 0,3257 0,5132 0,6858 0,8180 0,9049 0,9549
4,70 0,0091 0,0518 0,1523 0,3097 0,4946 0,6684 0,8046 0,8960 0,9497
4,80 0,0082 0,0477 0,1425 0,2942 0,4763 0,6510 0,7908 0,8867 0,9442
4,90 0,0074 0,0439 0,1333 0,2793 0,4582 0,6335 0,7767 0,8769 0,9382
Anexo A
-329-
DISTRIBUCIÓN DE POISSON
c
i
i
!i
e)cX(P
0
0 1 2 3 4 5 6 7 8 9 10
c=0 c=1 c=2 c=3 c=4 c=5 c=6 c=7 c=8
5,00 0,0067 0,0404 0,1247 0,2650 0,4405 0,6160 0,7622 0,8666 0,9319
5,10 0,0061 0,0372 0,1165 0,2513 0,4231 0,5984 0,7474 0,8560 0,9252
5,20 0,0055 0,0342 0,1088 0,2381 0,4061 0,5809 0,7324 0,8449 0,9181
5,30 0,0050 0,0314 0,1016 0,2254 0,3895 0,5635 0,7171 0,8335 0,9106
5,40 0,0045 0,0289 0,0948 0,2133 0,3733 0,5461 0,7017 0,8217 0,9027
5,50 0,0041 0,0266 0,0884 0,2017 0,3575 0,5289 0,6860 0,8095 0,8944
5,60 0,0037 0,0244 0,0824 0,1906 0,3422 0,5119 0,6703 0,7970 0,8857
5,70 0,0033 0,0224 0,0768 0,1800 0,3272 0,4950 0,6544 0,7841 0,8766
5,80 0,0030 0,0206 0,0715 0,1700 0,3127 0,4783 0,6384 0,7710 0,8672
5,90 0,0027 0,0189 0,0666 0,1604 0,2987 0,4619 0,6224 0,7576 0,8574
6,00 0,0025 0,0174 0,0620 0,1512 0,2851 0,4457 0,6063 0,7440 0,8472
6,10 0,0022 0,0159 0,0577 0,1425 0,2719 0,4298 0,5902 0,7301 0,8367
6,20 0,0020 0,0146 0,0536 0,1342 0,2592 0,4141 0,5742 0,7160 0,8259
6,30 0,0018 0,0134 0,0498 0,1264 0,2469 0,3988 0,5582 0,7017 0,8148
6,40 0,0017 0,0123 0,0463 0,1189 0,2351 0,3837 0,5423 0,6873 0,8033
6,50 0,0015 0,0113 0,0430 0,1118 0,2237 0,3690 0,5265 0,6728 0,7916
6,60 0,0014 0,0103 0,0400 0,1052 0,2127 0,3547 0,5108 0,6581 0,7796
6,70 0,0012 0,0095 0,0371 0,0988 0,2022 0,3406 0,4953 0,6433 0,7673
6,80 0,0011 0,0087 0,0344 0,0928 0,1920 0,3270 0,4799 0,6285 0,7548
6,90 0,0010 0,0080 0,0320 0,0871 0,1823 0,3137 0,4647 0,6136 0,7420
7,00 0,0009 0,0073 0,0296 0,0818 0,1730 0,3007 0,4497 0,5987 0,7291
7,20 0,0007 0,0061 0,0255 0,0719 0,1555 0,2759 0,4204 0,5689 0,7027
7,40 0,0006 0,0051 0,0219 0,0632 0,1395 0,2526 0,3920 0,5393 0,6757
7,60 0,0005 0,0043 0,0188 0,0554 0,1249 0,2307 0,3646 0,5100 0,6482
7,80 0,0004 0,0036 0,0161 0,0485 0,1117 0,2103 0,3384 0,4812 0,6204
8,00 0,0003 0,0030 0,0138 0,0424 0,0996 0,1912 0,3134 0,4530 0,5925
8,20 0,0003 0,0025 0,0118 0,0370 0,0887 0,1736 0,2896 0,4254 0,5647
8,40 0,0002 0,0021 0,0100 0,0323 0,0789 0,1573 0,2670 0,3987 0,5369
8,60 0,0002 0,0018 0,0086 0,0281 0,0701 0,1422 0,2457 0,3728 0,5094
8,80 0,0002 0,0015 0,0073 0,0244 0,0621 0,1284 0,2256 0,3478 0,4823
9,00 0,0001 0,0012 0,0062 0,0212 0,0550 0,1157 0,2068 0,3239 0,4557
9,20 0,0001 0,0010 0,0053 0,0184 0,0486 0,1041 0,1892 0,3010 0,4296
9,40 0,0001 0,0009 0,0045 0,0160 0,0429 0,0935 0,1727 0,2792 0,4042
9,60 0,0001 0,0007 0,0038 0,0138 0,0378 0,0838 0,1574 0,2584 0,3796
9,80 0,0001 0,0006 0,0033 0,0120 0,0333 0,0750 0,1433 0,2388 0,3558
10,0 0,0000 0,0005 0,0028 0,0103 0,0293 0,0671 0,1301 0,2202 0,3328
10,2 0,0000 0,0004 0,0023 0,0089 0,0257 0,0599 0,1180 0,2027 0,3108
10,4 0,0000 0,0003 0,0020 0,0077 0,0225 0,0534 0,1069 0,1863 0,2896
10,6 0,0000 0,0003 0,0017 0,0066 0,0197 0,0475 0,0966 0,1710 0,2694
10,8 0,0000 0,0002 0,0014 0,0057 0,0173 0,0423 0,0872 0,1566 0,2502
11,00 0,0000 0,0002 0,0012 0,0049 0,0151 0,0375 0,0786 0,1432 0,2320
11,20 0,0000 0,0002 0,0010 0,0042 0,0132 0,0333 0,0708 0,1307 0,2147
11,40 0,0000 0,0001 0,0009 0,0036 0,0115 0,0295 0,0636 0,1192 0,1984
11,60 0,0000 0,0001 0,0007 0,0031 0,0100 0,0261 0,0571 0,1085 0,1830
11,80 0,0000 0,0001 0,0006 0,0027 0,0087 0,0230 0,0512 0,0986 0,1686
12,00 0,0000 0,0001 0,0005 0,0023 0,0076 0,0203 0,0458 0,0895 0,1550
12,20 0,0000 0,0001 0,0004 0,0020 0,0066 0,0179 0,0410 0,0811 0,1424
12,40 0,0000 0,0001 0,0004 0,0017 0,0057 0,0158 0,0366 0,0734 0,1305
12,60 0,0000 0,0000 0,0003 0,0014 0,0050 0,0139 0,0326 0,0664 0,1195
12,80 0,0000 0,0000 0,0003 0,0012 0,0043 0,0122 0,0291 0,0599 0,1093
13,00 0,0000 0,0000 0,0002 0,0011 0,0037 0,0107 0,0259 0,0540 0,0998
13,20 0,0000 0,0000 0,0002 0,0009 0,0032 0,0094 0,0230 0,0487 0,0910
13,40 0,0000 0,0000 0,0002 0,0008 0,0028 0,0083 0,0204 0,0438 0,0828
13,60 0,0000 0,0000 0,0001 0,0007 0,0024 0,0072 0,0181 0,0393 0,0753
13,80 0,0000 0,0000 0,0001 0,0006 0,0021 0,0063 0,0161 0,0353 0,0684
14,00 0,0000 0,0000 0,0001 0,0005 0,0018 0,0055 0,0142 0,0316 0,0621
14,20 0,0000 0,0000 0,0001 0,0004 0,0016 0,0048 0,0126 0,0283 0,0562
14,40 0,0000 0,0000 0,0001 0,0003 0,0013 0,0042 0,0111 0,0253 0,0509
14,60 0,0000 0,0000 0,0001 0,0003 0,0012 0,0037 0,0098 0,0226 0,0460
14,80 0,0000 0,0000 0,0000 0,0002 0,0010 0,0032 0,0087 0,0202 0,0415
15,00 0,0000 0,0000 0,0000 0,0002 0,0009 0,0028 0,0076 0,0180 0,0374
Anexo A
-330-
DISTRIBUCIÓN DE POISSON
c
i
i
!i
e)cX(P
1
Mª z
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
0,50
0,55
0,60
0,65
0,70
0,75
0,80
0,85
0,90
0,95
1,00
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Fu
nció
n d
e d
istr
ibu
ció
n P
(X≤x)
c=
0
1 2
3
3 4
5 6 7 8
9 10
11 12
13 14
15 16
17
18 19
20
22
24
26
28
Anexo A
-331-
DISTRIBUCIÓN NORMAL TIPIFICADA
dt e2
1 )zZ(P)z(
z
2
t-
2
z 0 1 2 3 4 5 6 7 8 9 z 0 1 2 3 4 5 6 7 8 9
-3 0,0013 0,0010 0,0007 0,0005 0,0003 0,0002 0,0002 0,0001 0,0001 0,0000 0.0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
-2,9 0,0019 0,0018 0,0018 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014 0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753 -2,8 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0021 0,0020 0,0019 0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141 -2,7 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026 0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517 -2,6 0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036 0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
-2,5 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 0,0049 0,0048 0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224 -2,4 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064 0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549 -2,3 0,0107 0,0104 0,0102 0,0099 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084 0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852 -2,2 0,0139 0,0136 0,0132 0,0129 0,0125 0,0122 0,0119 0,0116 0,0113 0,0110 0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133 -2,1 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143 0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
-2,0 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183 1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621 -1,9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233 1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830 -1,8 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294 1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015 -1,7 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367 1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177 -1,6 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455 1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
-1,5 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559 1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441 -1,4 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681 1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545 -1,3 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823 1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633 -1,2 0,1151 0,1131 0,1112 0,1093 0,1075 0,1057 0,1038 0,1020 0,1003 0,0985 1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706 -1,1 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170 1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
-1,0 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379 2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817 -0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611 2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857 -0,8 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867 2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890 -0,7 0,2420 0,2389 0,2358 0,2327 0,2297 0,2266 0,2236 0,2207 0,2177 0,2148 2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916 -0,6 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451 2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
-0,5 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776 2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952 -0,4 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121 2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964 -0,3 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483 2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974 -0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859 2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981 -0,1 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247 2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986 -0.0 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641 3 0,9987 0,9990 0,9993 0,9995 0,9997 0,9998 0,9998 0,9999 0,9999 1,0000
José Jabaloyes Vivas Vicente Chirivella González
Anexo A
-332-
DISTRIBUCIÓN 2
n DE PEARSON dt
/n
te )x(P
x
/n
/n/t
n
0
2
1222
22
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
0,50
0,55
0,60
0,65
0,70
0,75
0,80
0,85
0,90
0,95
1,00
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51
x
Fu
nció
n d
e d
istr
ibu
ció
n P
(
n2≤x)
n=1
n=2
n=3 n=4
n=5 n=6
n=7 n=8
n=9
n=10
n=12
n=14
n=16
n=18
n=20
n=22 n=24
n=26
n=28
n=30
Anexo A
-333-
DISTRIBUCIÓN
DE PEARSON (Cont.) dt
2/n 2
te )x(P
x
0
2/n
12/n2/t2
n
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
0,50
0,55
0,60
0,65
0,70
0,75
0,80
0,85
0,90
0,95
1,00
10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 105 110 115 120 125 130 135 140
Fu
nció
n d
e d
istr
ibu
ció
n P
(
n2≤x)
x
n=30 n=35
n=40
n=45
n=50
n=55
n=60
n=65
n=70
n=75
n=80 n=85
n=90
n=95
n=100
Anexo A
-334-
DISTRIBUCIÓN CHI-CUADRADO DE PEARSON
dt
2
te )xX(P
x 2
n2
n
12
n
2
t
2n ()
n 0.9995 0.999 0.995 0.99 0.975 0.95 0.90 0.50 0.10 0.050 0.025 0.01 0.005 0.001 0.0005
1 0.000 0.000 0.000 0.000 0.001 0.004 0.016 0.455 2.706 3.842 5.024 6.635 7.879 10.827 12.115 2 0.001 0.002 0.010 0.020 0.051 0.103 0.211 1.386 4.605 5.992 7.378 9.210 10.597 13.815 15.201 3 0.015 0.024 0.072 0.115 0.216 0.352 0.584 2.366 6.251 7.815 9.348 11.345 12.838 16.266 17.731 4 0.064 0.091 0.207 0.297 0.484 0.711 1.064 3.357 7.779 9.488 11.143 13.277 14.860 18.466 19.998 5 0.158 0.210 0.412 0.554 0.831 1.146 1.610 4.352 9.236 11.071 12.833 15.086 16.750 20.515 22.106
6 0.299 0.381 0.676 0.872 1.237 1.635 2.204 5.348 10.645 12.592 14.449 16.812 18.548 22.457 24.102 7 0.485 0.599 0.989 1.239 1.690 2.167 2.833 6.346 12.017 14.067 16.013 18.475 20.278 24.321 26.018 8 0.710 0.857 1.344 1.647 2.180 2.733 3.490 7.344 13.362 15.507 17.535 20.090 21.955 26.124 27.867 9 0.972 1.152 1.735 2.088 2.700 3.325 4.168 8.343 14.684 16.919 19.023 21.666 23.589 27.877 29.667 10 1.265 1.479 2.156 2.558 3.247 3.940 4.865 9.342 15.987 18.307 20.483 23.209 25.188 29.588 31.419
11 1.587 1.834 2.603 3.054 3.816 4.575 5.578 10.341 17.275 19.675 21.920 24.725 26.757 31.264 33.138 12 1.935 2.214 3.074 3.571 4.404 5.226 6.304 11.340 18.549 21.026 23.337 26.217 28.300 32.909 34.821 13 2.305 2.617 3.565 4.107 5.009 5.892 7.042 12.340 19.812 22.362 24.736 27.688 29.819 34.527 36.477 14 2.697 3.041 4.075 4.660 5.629 6.571 7.790 13.339 21.064 23.685 26.119 29.141 31.319 36.124 38.109 15 3.107 3.483 4.601 5.229 6.262 7.261 8.547 14.339 22.307 24.996 27.488 30.578 32.802 37.698 39.717
16 3.536 3.942 5.142 5.812 6.908 7.962 9.312 15.339 23.542 26.296 28.845 32.000 34.267 39.252 41.308 17 3.980 4.416 5.697 6.408 7.564 8.672 10.085 16.338 24.769 27.587 30.191 33.409 35.718 40.791 42.881 18 4.439 4.905 6.265 7.015 8.231 9.390 10.865 17.338 25.989 28.869 31.526 34.805 37.156 42.312 44.434 19 4.913 5.407 6.844 7.633 8.907 10.117 11.651 18.338 27.204 30.144 32.852 36.191 38.582 43.819 45.974 20 5.398 5.921 7.434 8.260 9.591 10.851 12.443 19.337 28.412 31.410 34.170 37.566 39.997 45.314 47.498
21 5.895 6.447 8.034 8.897 10.283 11.591 13.240 20.337 29.615 32.671 35.479 38.932 41.401 46.796 49.010 22 6.404 6.983 8.643 9.543 10.982 12.338 14.042 21.337 30.813 33.925 36.781 40.289 42.796 48.268 50.510 23 6.924 7.529 9.260 10.196 11.689 13.091 14.848 22.337 32.007 35.173 38.076 41.638 44.181 49.728 51.999 24 7.453 8.085 9.886 10.856 12.401 13.848 15.659 23.337 33.196 36.415 39.364 42.980 45.558 51.179 53.478 25 7.991 8.649 10.520 11.524 13.120 14.611 16.473 24.337 34.382 37.653 40.647 44.314 46.928 52.619 54.948
26 8.537 9.222 11.160 12.198 13.844 15.379 17.292 25.337 35.563 38.885 41.923 45.642 48.290 54.051 56.407 27 9.093 9.803 11.808 12.879 14.573 16.151 18.114 26.336 36.741 40.113 43.195 46.963 49.645 55.475 57.856 28 9.656 10.391 12.461 13.565 15.308 16.928 18.939 27.336 37.916 41.337 44.461 48.278 50.994 56.892 59.299 29 10.227 10.986 13.121 14.256 16.047 17.708 19.768 28.336 39.088 42.557 45.722 49.588 52.336 58.301 60.734 30 10.804 11.588 13.787 14.954 16.791 18.493 20.599 29.336 40.256 43.773 46.979 50.892 53.672 59.702 62.160
40 16.906 17.917 20.707 22.164 24.433 26.509 29.051 39.335 51.805 55.759 59.342 63.691 66.766 73.403 76.096 50 23.461 24.674 27.991 29.707 32.357 34.764 37.689 49.335 63.167 67.505 71.420 76.154 79.490 86.660 89.560 60 30.339 31.738 35.534 37.485 40.482 43.188 46.459 59.335 74.397 79.082 83.298 88.379 91.952 99.608 102.69
7 70 37.467 39.036 43.275 45.442 48.758 51.739 55.329 69.335 85.527 90.531 95.023 100.43 104.22 112.32 115.58 80 44.792 46.520 51.172 53.540 57.153 60.392 64.278 79.334 96.578 101.88 106.62 112.32 116.32 124.84 128.26 90 52.277 54.156 59.196 61.754 65.647 69.126 73.291 89.334 107.56 113.15 118.14 124.11 128.29 137.20 140.78
100 59.895 61.918 67.328 70.065 74.222 77.929 82.358 99.334 118.49 124.34 129.56 135.81 140.17 149.45 153.16
José Jabaloyes Vivas
Vicente Chirivella González
Anexo A
-335-
DISTRIBUCIÓN t de Student dt
n )2/n(
)()n/t1()xX(P
x
2
1n
2
1n
2
n x 1 2 3 4 5 6 7 8 9 10 11 12 13 14 16 18 20 22 24 26 28 30
0 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000
0,1 0,5317 0,5353 0,5367 0,5374 0,5379 0,5382 0,5384 0,5386 0,5387 0,5388 0,5389 0,5390 0,5391 0,5391 0,5392 0,5393 0,5393 0,5394 0,5394 0,5394 0,5395 0,5395
0,2 0,5628 0,5700 0,5729 0,5744 0,5753 0,5760 0,5764 0,5768 0,5770 0,5773 0,5774 0,5776 0,5777 0,5778 0,5780 0,5781 0,5782 0,5783 0,5784 0,5785 0,5785 0,5786
0,3 0,5928 0,6038 0,6081 0,6104 0,6119 0,6129 0,6136 0,6141 0,6145 0,6148 0,6151 0,6153 0,6155 0,6157 0,6160 0,6162 0,6164 0,6165 0,6166 0,6167 0,6168 0,6169
0,4 0,6211 0,6361 0,6420 0,6452 0,6472 0,6485 0,6495 0,6502 0,6508 0,6512 0,6516 0,6519 0,6522 0,6524 0,6528 0,6531 0,6533 0,6535 0,6537 0,6538 0,6539 0,6540
0,5 0,6476 0,6667 0,6743 0,6783 0,6809 0,6826 0,6838 0,6847 0,6855 0,6861 0,6865 0,6869 0,6873 0,6876 0,6881 0,6884 0,6887 0,6890 0,6892 0,6894 0,6895 0,6896
0,6 0,6720 0,6953 0,7046 0,7096 0,7127 0,7148 0,7163 0,7174 0,7183 0,7191 0,7197 0,7202 0,7206 0,7210 0,7215 0,7220 0,7224 0,7227 0,7229 0,7231 0,7233 0,7235
0,7 0,6944 0,7218 0,7328 0,7387 0,7424 0,7449 0,7467 0,7481 0,7492 0,7501 0,7508 0,7514 0,7519 0,7523 0,7530 0,7536 0,7540 0,7544 0,7547 0,7549 0,7551 0,7553
0,8 0,7148 0,7462 0,7589 0,7657 0,7700 0,7729 0,7750 0,7766 0,7778 0,7788 0,7797 0,7804 0,7810 0,7815 0,7823 0,7829 0,7834 0,7839 0,7842 0,7845 0,7848 0,7850
0,9 0,7333 0,7684 0,7828 0,7905 0,7953 0,7986 0,8010 0,8028 0,8042 0,8054 0,8063 0,8071 0,8078 0,8083 0,8093 0,8100 0,8106 0,8111 0,8115 0,8118 0,8121 0,8124
1 0,7500 0,7887 0,8045 0,8130 0,8184 0,8220 0,8247 0,8267 0,8283 0,8296 0,8306 0,8315 0,8322 0,8329 0,8339 0,8347 0,8354 0,8359 0,8364 0,8367 0,8371 0,8373
1,1 0,7651 0,8070 0,8242 0,8335 0,8393 0,8433 0,8461 0,8483 0,8501 0,8514 0,8526 0,8535 0,8544 0,8551 0,8562 0,8571 0,8578 0,8584 0,8589 0,8593 0,8597 0,8600
1,2 0,7789 0,8235 0,8419 0,8518 0,8581 0,8623 0,8654 0,8678 0,8696 0,8711 0,8723 0,8734 0,8742 0,8750 0,8762 0,8772 0,8779 0,8785 0,8791 0,8795 0,8799 0,8802
1,3 0,7913 0,8384 0,8578 0,8683 0,8748 0,8793 0,8826 0,8851 0,8870 0,8886 0,8899 0,8910 0,8919 0,8927 0,8940 0,8950 0,8958 0,8965 0,8970 0,8975 0,8979 0,8982
1,4 0,8026 0,8518 0,8720 0,8829 0,8898 0,8945 0,8979 0,9005 0,9025 0,9041 0,9055 0,9066 0,9075 0,9084 0,9097 0,9107 0,9116 0,9123 0,9128 0,9133 0,9138 0,9141
1,5 0,8128 0,8638 0,8847 0,8960 0,9030 0,9079 0,9114 0,9140 0,9161 0,9177 0,9191 0,9203 0,9212 0,9221 0,9235 0,9245 0,9254 0,9261 0,9267 0,9272 0,9276 0,9280
1,6 0,8222 0,8746 0,8960 0,9076 0,9148 0,9196 0,9232 0,9259 0,9280 0,9297 0,9310 0,9322 0,9332 0,9340 0,9354 0,9365 0,9374 0,9381 0,9387 0,9392 0,9396 0,9400
1,7 0,8307 0,8844 0,9062 0,9178 0,9251 0,9300 0,9335 0,9362 0,9383 0,9400 0,9414 0,9426 0,9435 0,9444 0,9458 0,9468 0,9477 0,9484 0,9490 0,9495 0,9499 0,9503
1,8 0,8386 0,8932 0,9152 0,9269 0,9341 0,9390 0,9426 0,9452 0,9473 0,9490 0,9503 0,9515 0,9525 0,9533 0,9546 0,9557 0,9565 0,9572 0,9578 0,9583 0,9587 0,9590
1,9 0,8458 0,9011 0,9232 0,9349 0,9421 0,9469 0,9504 0,9530 0,9551 0,9567 0,9580 0,9591 0,9601 0,9609 0,9622 0,9632 0,9640 0,9647 0,9652 0,9657 0,9661 0,9665
2 0,8524 0,9082 0,9303 0,9419 0,9490 0,9538 0,9572 0,9597 0,9617 0,9633 0,9646 0,9657 0,9666 0,9674 0,9686 0,9696 0,9704 0,9710 0,9715 0,9720 0,9724 0,9727
2,1 0,8585 0,9147 0,9367 0,9482 0,9551 0,9598 0,9631 0,9655 0,9674 0,9690 0,9702 0,9712 0,9721 0,9728 0,9740 0,9750 0,9757 0,9763 0,9768 0,9772 0,9776 0,9779
2,2 0,8642 0,9206 0,9424 0,9537 0,9605 0,9649 0,9681 0,9705 0,9723 0,9738 0,9750 0,9759 0,9768 0,9774 0,9786 0,9794 0,9801 0,9807 0,9812 0,9816 0,9819 0,9822
2,3 0,8695 0,9259 0,9475 0,9585 0,9651 0,9694 0,9725 0,9748 0,9765 0,9779 0,9790 0,9799 0,9807 0,9813 0,9824 0,9832 0,9838 0,9843 0,9848 0,9851 0,9854 0,9857
2,4 0,8743 0,9308 0,9521 0,9628 0,9692 0,9734 0,9763 0,9784 0,9801 0,9813 0,9824 0,9832 0,9840 0,9846 0,9855 0,9863 0,9869 0,9874 0,9877 0,9881 0,9884 0,9886
2,5 0,8789 0,9352 0,9561 0,9666 0,9728 0,9767 0,9795 0,9815 0,9831 0,9843 0,9852 0,9860 0,9867 0,9873 0,9882 0,9888 0,9894 0,9898 0,9902 0,9905 0,9907 0,9909
2,6 0,8831 0,9392 0,9598 0,9700 0,9759 0,9797 0,9823 0,9842 0,9856 0,9868 0,9877 0,9884 0,9890 0,9895 0,9903 0,9910 0,9914 0,9918 0,9921 0,9924 0,9926 0,9928
2,7 0,8871 0,9429 0,9631 0,9730 0,9786 0,9822 0,9847 0,9865 0,9878 0,9888 0,9897 0,9903 0,9909 0,9914 0,9921 0,9927 0,9931 0,9935 0,9937 0,9940 0,9942 0,9944
2,8 0,8908 0,9463 0,9661 0,9756 0,9810 0,9844 0,9867 0,9884 0,9896 0,9906 0,9914 0,9920 0,9925 0,9929 0,9936 0,9941 0,9945 0,9948 0,9950 0,9952 0,9954 0,9956
2,9 0,8943 0,9494 0,9687 0,9779 0,9831 0,9863 0,9885 0,9901 0,9912 0,9921 0,9928 0,9933 0,9938 0,9942 0,9948 0,9952 0,9956 0,9958 0,9961 0,9963 0,9964 0,9965
3 0,8976 0,9523 0,9712 0,9800 0,9850 0,9880 0,9900 0,9915 0,9925 0,9933 0,9940 0,9945 0,9949 0,9952 0,9958 0,9962 0,9965 0,9967 0,9969 0,9971 0,9972 0,9973
3,1 0,9007 0,9549 0,9734 0,9819 0,9866 0,9894 0,9913 0,9927 0,9936 0,9944 0,9949 0,9954 0,9958 0,9961 0,9966 0,9969 0,9972 0,9974 0,9976 0,9977 0,9978 0,9979
3,2 0,9036 0,9573 0,9753 0,9835 0,9880 0,9907 0,9925 0,9937 0,9946 0,9953 0,9958 0,9962 0,9965 0,9968 0,9972 0,9975 0,9978 0,9979 0,9981 0,9982 0,9983 0,9984
3,3 0,9063 0,9596 0,9771 0,9850 0,9893 0,9918 0,9934 0,9946 0,9954 0,9960 0,9965 0,9968 0,9971 0,9974 0,9977 0,9980 0,9982 0,9984 0,9985 0,9986 0,9987 0,9988
3,4 0,9089 0,9617 0,9788 0,9864 0,9904 0,9928 0,9943 0,9953 0,9961 0,9966 0,9970 0,9974 0,9976 0,9978 0,9982 0,9984 0,9986 0,9987 0,9988 0,9989 0,9990 0,9990
3,5 0,9114 0,9636 0,9803 0,9876 0,9914 0,9936 0,9950 0,9960 0,9966 0,9971 0,9975 0,9978 0,9980 0,9982 0,9985 0,9987 0,9989 0,9990 0,9991 0,9992 0,9992 0,9993
3,6 0,9138 0,9654 0,9816 0,9886 0,9922 0,9943 0,9956 0,9965 0,9971 0,9976 0,9979 0,9982 0,9984 0,9986 0,9988 0,9990 0,9991 0,9992 0,9993 0,9993 0,9994 0,9994
3,7 0,9160 0,9670 0,9829 0,9896 0,9930 0,9950 0,9962 0,9970 0,9975 0,9979 0,9982 0,9985 0,9987 0,9988 0,9990 0,9992 0,9993 0,9994 0,9994 0,9995 0,9995 0,9996
3,8 0,9181 0,9686 0,9840 0,9904 0,9937 0,9955 0,9966 0,9974 0,9979 0,9983 0,9985 0,9987 0,9989 0,9990 0,9992 0,9993 0,9994 0,9995 0,9996 0,9996 0,9996 0,9997
3,9 0,9201 0,9701 0,9850 0,9912 0,9943 0,9960 0,9971 0,9977 0,9982 0,9985 0,9988 0,9989 0,9991 0,9992 0,9994 0,9995 0,9996 0,9996 0,9997 0,9997 0,9997 0,9997
4 0,9220 0,9714 0,9860 0,9919 0,9948 0,9964 0,9974 0,9980 0,9984 0,9987 0,9990 0,9991 0,9992 0,9993 0,9995 0,9996 0,9996 0,9997 0,9997 0,9998 0,9998 0,9998
4,1 0,9239 0,9727 0,9869 0,9926 0,9953 0,9968 0,9977 0,9983 0,9987 0,9989 0,9991 0,9993 0,9994 0,9995 0,9996 0,9997 0,9997 0,9998 0,9998 0,9998 0,9998 0,9999
4,2 0,9256 0,9739 0,9877 0,9932 0,9958 0,9972 0,9980 0,9985 0,9988 0,9991 0,9993 0,9994 0,9995 0,9996 0,9997 0,9997 0,9998 0,9998 0,9998 0,9999 0,9999 0,9999
4,3 0,9273 0,9750 0,9884 0,9937 0,9961 0,9975 0,9982 0,9987 0,9990 0,9992 0,9994 0,9995 0,9996 0,9996 0,9997 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999
4,4 0,9289 0,9760 0,9891 0,9942 0,9965 0,9977 0,9984 0,9989 0,9991 0,9993 0,9995 0,9996 0,9996 0,9997 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
4,5 0,9304 0,9770 0,9898 0,9946 0,9968 0,9979 0,9986 0,9990 0,9993 0,9994 0,9995 0,9996 0,9997 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 1,0000
4,6 0,9319 0,9779 0,9903 0,9950 0,9971 0,9982 0,9988 0,9991 0,9994 0,9995 0,9996 0,9997 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 1,0000 1,0000
4,7 0,9333 0,9788 0,9909 0,9953 0,9973 0,9983 0,9989 0,9992 0,9994 0,9996 0,9997 0,9997 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 1,0000
4,8 0,9346 0,9796 0,9914 0,9957 0,9976 0,9985 0,9990 0,9993 0,9995 0,9996 0,9997 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 1,0000
4,9 0,9359 0,9804 0,9919 0,9960 0,9978 0,9986 0,9991 0,9994 0,9996 0,9997 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 1,0000
5 0,9372 0,9811 0,9923 0,9963 0,9979 0,9988 0,9992 0,9995 0,9996 0,9997 0,9998 0,9998 0,9999 0,9999 0,9999 1,0000
5,1 0,9384 0,9818 0,9927 0,9965 0,9981 0,9989 0,9993 0,9995 0,9997 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999
5,2 0,9395 0,9825 0,9931 0,9967 0,9983 0,9990 0,9994 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 0,9999 1,0000
5,3 0,9406 0,9831 0,9934 0,9970 0,9984 0,9991 0,9994 0,9996 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999
5,4 0,9417 0,9837 0,9938 0,9972 0,9985 0,9992 0,9995 0,9997 0,9998 0,9998 0,9999 0,9999 0,9999 1,0000
5,5 0,9428 0,9842 0,9941 0,9973 0,9986 0,9992 0,9995 0,9997 0,9998 0,9999 0,9999 0,9999 0,9999
5,6 0,9438 0,9848 0,9944 0,9975 0,9987 0,9993 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000
5,7 0,9447 0,9853 0,9946 0,9977 0,9988 0,9994 0,9996 0,9998 0,9999 0,9999 0,9999 1,0000
5,8 0,9457 0,9858 0,9949 0,9978 0,9989 0,9994 0,9997 0,9998 0,9999 0,9999 0,9999
5,9 0,9466 0,9862 0,9951 0,9979 0,9990 0,9995 0,9997 0,9998 0,9999 0,9999 0,9999
6 0,9474 0,9867 0,9954 0,9981 0,9991 0,9995 0,9997 0,9998 0,9999 0,9999 1,0000
6,1 0,9483 0,9871 0,9956 0,9982 0,9991 0,9996 0,9998 0,9999 0,9999 0,9999
6,2 0,9491 0,9875 0,9958 0,9983 0,9992 0,9996 0,9998 0,9999 0,9999 0,9999
6,3 0,9499 0,9879 0,9960 0,9984 0,9993 0,9996 0,9998 0,9999 0,9999 1,0000
6,4 0,9507 0,9882 0,9961 0,9985 0,9993 0,9997 0,9998 0,9999 0,9999
6,5 0,9514 0,9886 0,9963 0,9986 0,9994 0,9997 0,9998 0,9999 0,9999
6,6 0,9521 0,9889 0,9965 0,9986 0,9994 0,9997 0,9998 0,9999 1,0000
6,7 0,9528 0,9892 0,9966 0,9987 0,9994 0,9997 0,9999 0,9999
6,8 0,9535 0,9895 0,9967 0,9988 0,9995 0,9998 0,9999 0,9999
6,9 0,9542 0,9898 0,9969 0,9988 0,9995 0,9998 0,9999 0,9999
7 0,9548 0,9901 0,9970 0,9989 0,9995 0,9998 0,9999 0,9999
7,2 0,9561 0,9906 0,9972 0,9990 0,9996 0,9998 0,9999 1,0000
7,4 0,9572 0,9911 0,9974 0,9991 0,9996 0,9998 0,9999
7,6 0,9584 0,9916 0,9976 0,9992 0,9997 0,9999 0,9999
7,8 0,9594 0,9920 0,9978 0,9993 0,9997 0,9999 0,9999
8 0,9604 0,9924 0,9980 0,9993 0,9998 0,9999
Anexo A
-336-
Mª Teresa Carot Sánchez
DISTRIBUCIÓN t de Student dt
n )2/n(
)()n/t1()xX(P
x
2
1n
2
1n
2
n x 35 40 45 50 55 60 65 70 75 80 85 90 95 100 110 120
0 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000
0,05 0,5198 0,5198 0,5198 0,5198 0,5198 0,5199 0,5199 0,5199 0,5199 0,5199 0,5199 0,5199 0,5199 0,5199 0,5199 0,5199 0,5199
0,1 0,5395 0,5396 0,5396 0,5396 0,5396 0,5397 0,5397 0,5397 0,5397 0,5397 0,5397 0,5397 0,5397 0,5397 0,5397 0,5397 0,5398
0,15 0,5592 0,5592 0,5593 0,5593 0,5593 0,5594 0,5594 0,5594 0,5594 0,5594 0,5594 0,5594 0,5595 0,5595 0,5595 0,5595 0,5596
0,2 0,5787 0,5788 0,5788 0,5789 0,5789 0,5789 0,5789 0,5790 0,5790 0,5790 0,5790 0,5790 0,5790 0,5791 0,5791 0,5791 0,5793
0,25 0,5980 0,5981 0,5981 0,5982 0,5982 0,5983 0,5983 0,5983 0,5984 0,5984 0,5984 0,5984 0,5984 0,5984 0,5985 0,5985 0,5987
0,3 0,6170 0,6171 0,6172 0,6173 0,6173 0,6174 0,6174 0,6175 0,6175 0,6175 0,6175 0,6176 0,6176 0,6176 0,6176 0,6177 0,6179
0,35 0,6358 0,6359 0,6360 0,6361 0,6362 0,6362 0,6363 0,6363 0,6363 0,6364 0,6364 0,6364 0,6364 0,6365 0,6365 0,6365 0,6368
0,4 0,6542 0,6544 0,6545 0,6546 0,6546 0,6547 0,6548 0,6548 0,6549 0,6549 0,6549 0,6549 0,6550 0,6550 0,6550 0,6551 0,6554
0,45 0,6723 0,6724 0,6726 0,6727 0,6728 0,6728 0,6729 0,6729 0,6730 0,6730 0,6731 0,6731 0,6731 0,6732 0,6732 0,6732 0,6736
0,5 0,6899 0,6901 0,6902 0,6904 0,6905 0,6905 0,6906 0,6907 0,6907 0,6908 0,6908 0,6909 0,6909 0,6909 0,6910 0,6910 0,6915
0,55 0,7071 0,7073 0,7075 0,7076 0,7077 0,7078 0,7079 0,7080 0,7080 0,7081 0,7081 0,7082 0,7082 0,7082 0,7083 0,7083 0,7088
0,6 0,7238 0,7241 0,7242 0,7244 0,7245 0,7246 0,7247 0,7248 0,7248 0,7249 0,7249 0,7250 0,7250 0,7251 0,7251 0,7252 0,7258
0,65 0,7400 0,7403 0,7405 0,7407 0,7408 0,7409 0,7410 0,7411 0,7412 0,7412 0,7413 0,7413 0,7414 0,7414 0,7415 0,7415 0,7422
0,7 0,7557 0,7560 0,7562 0,7564 0,7566 0,7567 0,7568 0,7569 0,7570 0,7570 0,7571 0,7571 0,7572 0,7572 0,7573 0,7574 0,7580
0,75 0,7709 0,7712 0,7714 0,7716 0,7718 0,7719 0,7720 0,7721 0,7722 0,7723 0,7723 0,7724 0,7724 0,7725 0,7726 0,7726 0,7734
0,8 0,7854 0,7858 0,7860 0,7863 0,7864 0,7866 0,7867 0,7868 0,7869 0,7870 0,7870 0,7871 0,7871 0,7872 0,7873 0,7874 0,7881
0,85 0,7994 0,7998 0,8001 0,8003 0,8005 0,8006 0,8008 0,8009 0,8010 0,8011 0,8011 0,8012 0,8013 0,8013 0,8014 0,8015 0,8023
0,9 0,8129 0,8132 0,8135 0,8138 0,8140 0,8141 0,8143 0,8144 0,8145 0,8146 0,8147 0,8147 0,8148 0,8149 0,8150 0,8150 0,8159
0,95 0,8257 0,8261 0,8264 0,8267 0,8269 0,8270 0,8272 0,8273 0,8274 0,8275 0,8276 0,8277 0,8277 0,8278 0,8279 0,8280 0,8289
1 0,8379 0,8383 0,8387 0,8389 0,8392 0,8393 0,8395 0,8396 0,8397 0,8398 0,8399 0,8400 0,8401 0,8401 0,8402 0,8403 0,8414
1,05 0,8495 0,8500 0,8503 0,8506 0,8508 0,8510 0,8512 0,8513 0,8515 0,8516 0,8517 0,8517 0,8518 0,8519 0,8520 0,8521 0,8531
1,1 0,8606 0,8610 0,8614 0,8617 0,8619 0,8621 0,8623 0,8624 0,8626 0,8627 0,8628 0,8629 0,8629 0,8630 0,8631 0,8632 0,8643
1,15 0,8710 0,8715 0,8719 0,8722 0,8724 0,8726 0,8728 0,8730 0,8731 0,8732 0,8733 0,8734 0,8735 0,8736 0,8737 0,8738 0,8749
1,2 0,8809 0,8814 0,8818 0,8821 0,8824 0,8826 0,8828 0,8829 0,8830 0,8832 0,8833 0,8834 0,8834 0,8835 0,8836 0,8837 0,8849
1,25 0,8902 0,8907 0,8911 0,8914 0,8917 0,8919 0,8921 0,8923 0,8924 0,8925 0,8926 0,8927 0,8928 0,8929 0,8930 0,8931 0,8944
1,3 0,8990 0,8995 0,8999 0,9002 0,9005 0,9007 0,9009 0,9011 0,9012 0,9013 0,9014 0,9015 0,9016 0,9017 0,9018 0,9020 0,9032
1,35 0,9072 0,9077 0,9081 0,9085 0,9087 0,9090 0,9092 0,9093 0,9095 0,9096 0,9097 0,9098 0,9099 0,9100 0,9101 0,9102 0,9115
1,4 0,9148 0,9154 0,9158 0,9162 0,9164 0,9167 0,9169 0,9170 0,9172 0,9173 0,9174 0,9175 0,9176 0,9177 0,9178 0,9180 0,9193
1,45 0,9220 0,9226 0,9230 0,9233 0,9236 0,9239 0,9241 0,9242 0,9244 0,9245 0,9246 0,9247 0,9248 0,9249 0,9250 0,9252 0,9265
1,5 0,9287 0,9293 0,9297 0,9300 0,9303 0,9306 0,9308 0,9309 0,9311 0,9312 0,9313 0,9314 0,9315 0,9316 0,9318 0,9319 0,9332
1,55 0,9349 0,9355 0,9359 0,9363 0,9366 0,9368 0,9370 0,9372 0,9373 0,9375 0,9376 0,9377 0,9378 0,9378 0,9380 0,9381 0,9394
1,6 0,9407 0,9413 0,9417 0,9421 0,9423 0,9426 0,9428 0,9429 0,9431 0,9432 0,9433 0,9434 0,9435 0,9436 0,9438 0,9439 0,9452
1,65 0,9461 0,9466 0,9470 0,9474 0,9477 0,9479 0,9481 0,9483 0,9484 0,9486 0,9487 0,9488 0,9489 0,9490 0,9491 0,9492 0,9505
1,7 0,9510 0,9516 0,9520 0,9523 0,9526 0,9528 0,9530 0,9532 0,9534 0,9535 0,9536 0,9537 0,9538 0,9539 0,9540 0,9541 0,9554
1,75 0,9556 0,9561 0,9565 0,9569 0,9572 0,9574 0,9576 0,9577 0,9579 0,9580 0,9581 0,9582 0,9583 0,9584 0,9585 0,9587 0,9599
1,8 0,9598 0,9603 0,9607 0,9611 0,9613 0,9616 0,9617 0,9619 0,9621 0,9622 0,9623 0,9624 0,9625 0,9626 0,9627 0,9628 0,9641
1,85 0,9636 0,9641 0,9646 0,9649 0,9652 0,9654 0,9656 0,9657 0,9659 0,9660 0,9661 0,9662 0,9663 0,9664 0,9665 0,9666 0,9678
1,9 0,9672 0,9677 0,9681 0,9684 0,9687 0,9689 0,9691 0,9692 0,9694 0,9695 0,9696 0,9697 0,9698 0,9698 0,9700 0,9701 0,9713
1,95 0,9704 0,9709 0,9713 0,9716 0,9719 0,9721 0,9723 0,9724 0,9725 0,9727 0,9728 0,9729 0,9729 0,9730 0,9731 0,9732 0,9744
2 0,9733 0,9738 0,9742 0,9745 0,9748 0,9750 0,9752 0,9753 0,9754 0,9756 0,9757 0,9757 0,9758 0,9759 0,9760 0,9761 0,9772
2,05 0,9760 0,9765 0,9769 0,9772 0,9774 0,9776 0,9778 0,9779 0,9781 0,9782 0,9783 0,9784 0,9784 0,9785 0,9786 0,9787 0,9798
2,1 0,9785 0,9790 0,9793 0,9796 0,9798 0,9800 0,9802 0,9803 0,9805 0,9806 0,9807 0,9807 0,9808 0,9809 0,9810 0,9811 0,9821
2,15 0,9807 0,9812 0,9815 0,9818 0,9820 0,9822 0,9824 0,9825 0,9826 0,9827 0,9828 0,9829 0,9830 0,9830 0,9831 0,9832 0,9842
2,2 0,9827 0,9832 0,9835 0,9838 0,9840 0,9842 0,9843 0,9844 0,9846 0,9847 0,9847 0,9848 0,9849 0,9849 0,9851 0,9851 0,9861
2,25 0,9846 0,9850 0,9853 0,9856 0,9858 0,9859 0,9861 0,9862 0,9863 0,9864 0,9865 0,9866 0,9866 0,9867 0,9868 0,9869 0,9878
2,3 0,9862 0,9866 0,9869 0,9872 0,9874 0,9875 0,9877 0,9878 0,9879 0,9880 0,9881 0,9881 0,9882 0,9882 0,9883 0,9884 0,9893
2,35 0,9877 0,9881 0,9884 0,9886 0,9888 0,9890 0,9891 0,9892 0,9893 0,9894 0,9895 0,9895 0,9896 0,9896 0,9897 0,9898 0,9906
2,4 0,9891 0,9894 0,9897 0,9899 0,9901 0,9902 0,9904 0,9905 0,9906 0,9906 0,9907 0,9908 0,9908 0,9909 0,9910 0,9910 0,9918
2,45 0,9903 0,9906 0,9909 0,9911 0,9913 0,9914 0,9915 0,9916 0,9917 0,9918 0,9918 0,9919 0,9919 0,9920 0,9921 0,9921 0,9929
2,5 0,9914 0,9917 0,9919 0,9921 0,9923 0,9924 0,9925 0,9926 0,9927 0,9928 0,9928 0,9929 0,9929 0,9930 0,9931 0,9931 0,9938
2,55 0,9923 0,9926 0,9929 0,9931 0,9932 0,9933 0,9934 0,9935 0,9936 0,9937 0,9937 0,9938 0,9938 0,9939 0,9939 0,9940 0,9946
2,6 0,9932 0,9935 0,9937 0,9939 0,9940 0,9941 0,9942 0,9943 0,9944 0,9945 0,9945 0,9946 0,9946 0,9946 0,9947 0,9948 0,9953
2,65 0,9940 0,9943 0,9945 0,9946 0,9948 0,9949 0,9950 0,9950 0,9951 0,9952 0,9952 0,9952 0,9953 0,9953 0,9954 0,9954 0,9960
2,7 0,9947 0,9949 0,9951 0,9953 0,9954 0,9955 0,9956 0,9957 0,9957 0,9958 0,9958 0,9959 0,9959 0,9959 0,9960 0,9960 0,9965
2,75 0,9953 0,9955 0,9957 0,9959 0,9960 0,9961 0,9961 0,9962 0,9963 0,9963 0,9964 0,9964 0,9964 0,9965 0,9965 0,9966 0,9970
2,8 0,9959 0,9961 0,9962 0,9964 0,9965 0,9966 0,9966 0,9967 0,9968 0,9968 0,9968 0,9969 0,9969 0,9969 0,9970 0,9970 0,9974
2,85 0,9964 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9971 0,9972 0,9972 0,9973 0,9973 0,9973 0,9973 0,9974 0,9974 0,9978
2,9 0,9968 0,9970 0,9971 0,9972 0,9973 0,9974 0,9975 0,9975 0,9976 0,9976 0,9976 0,9977 0,9977 0,9977 0,9977 0,9978 0,9981
2,95 0,9972 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9978 0,9979 0,9979 0,9979 0,9980 0,9980 0,9980 0,9981 0,9981 0,9984
3 0,9975 0,9977 0,9978 0,9979 0,9980 0,9980 0,9981 0,9981 0,9982 0,9982 0,9982 0,9983 0,9983 0,9983 0,9983 0,9984 0,9987
3,05 0,9978 0,9980 0,9981 0,9982 0,9982 0,9983 0,9983 0,9984 0,9984 0,9984 0,9985 0,9985 0,9985 0,9985 0,9986 0,9986 0,9989
3,1 0,9981 0,9982 0,9983 0,9984 0,9985 0,9985 0,9986 0,9986 0,9986 0,9987 0,9987 0,9987 0,9987 0,9987 0,9988 0,9988 0,9990
3,15 0,9983 0,9985 0,9985 0,9986 0,9987 0,9987 0,9988 0,9988 0,9988 0,9989 0,9989 0,9989 0,9989 0,9989 0,9989 0,9990 0,9992
3,2 0,9985 0,9987 0,9987 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990 0,9990 0,9990 0,9991 0,9991 0,9991 0,9991 0,9991 0,9993
3,25 0,9987 0,9988 0,9989 0,9990 0,9990 0,9991 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9992 0,9992 0,9993 0,9994
3,3 0,9989 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9993 0,9993 0,9993 0,9993 0,9993 0,9993 0,9993 0,9994 0,9995
3,35 0,9990 0,9991 0,9992 0,9992 0,9993 0,9993 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9996
3,4 0,9992 0,9992 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995 0,9995 0,9995 0,9995 0,9995 0,9995 0,9997
3,45 0,9993 0,9993 0,9994 0,9994 0,9995 0,9995 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,5 0,9994 0,9994 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997 0,9997 0,9997 0,9998
3,55 0,9994 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998
3,6 0,9995 0,9996 0,9996 0,9996 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998 0,9998 0,9998 0,9998
3,65 0,9996 0,9996 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9999
3,7 0,9996 0,9997 0,9997 0,9997 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9999
3,75 0,9997 0,9997 0,9997 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999
3,8 0,9997 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,9 0,9998 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 1,0000
4 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
Anexo A
-337-
Mª Teresa Carot Sánchez
DISTRIBUCIÓN t de Student
dt n )(
)()
n
t1()xX(P
x2
n
2
1n
2
1n2
tn()
Probabilidad de una cola
n 0.0005 0.001 0.005 0.01 0.025 0.05 0.1 0.2 0.25 0.3 0.4 0.45 0.475
1 636.578 318.289 63.656 31.821 12.706 6.314 3.078 1.376 1.000 0.727 0.325 0.158 0.079 2 31.600 22.328 9.925 6.965 4.303 2.920 1.886 1.061 0.816 0.617 0.289 0.142 0.071 3 12.924 10.214 5.841 4.541 3.182 2.353 1.638 0.978 0.765 0.584 0.277 0.137 0.068 4 8.610 7.173 4.604 3.747 2.776 2.132 1.533 0.941 0.741 0.569 0.271 0.134 0.067 5 6.869 5.894 4.032 3.365 2.571 2.015 1.476 0.920 0.727 0.559 0.267 0.132 0.066
6 5.959 5.208 3.707 3.143 2.447 1.943 1.440 0.906 0.718 0.553 0.265 0.131 0.065 7 5.408 4.785 3.499 2.998 2.365 1.895 1.415 0.896 0.711 0.549 0.263 0.130 0.065 8 5.041 4.501 3.355 2.896 2.306 1.860 1.397 0.889 0.706 0.546 0.262 0.130 0.065 9 4.781 4.297 3.250 2.821 2.262 1.833 1.383 0.883 0.703 0.543 0.261 0.129 0.064
10 4.587 4.144 3.169 2.764 2.228 1.812 1.372 0.879 0.700 0.542 0.260 0.129 0.064
11 4.437 4.025 3.106 2.718 2.201 1.796 1.363 0.876 0.697 0.540 0.260 0.129 0.064 12 4.318 3.930 3.055 2.681 2.179 1.782 1.356 0.873 0.695 0.539 0.259 0.128 0.064 13 4.221 3.852 3.012 2.650 2.160 1.771 1.350 0.870 0.694 0.538 0.259 0.128 0.064 14 4.140 3.787 2.977 2.624 2.145 1.761 1.345 0.868 0.692 0.537 0.258 0.128 0.064 15 4.073 3.733 2.947 2.602 2.131 1.753 1.341 0.866 0.691 0.536 0.258 0.128 0.064
16 4.015 3.686 2.921 2.583 2.120 1.746 1.337 0.865 0.690 0.535 0.258 0.128 0.064 17 3.965 3.646 2.898 2.567 2.110 1.740 1.333 0.863 0.689 0.534 0.257 0.128 0.064 18 3.922 3.610 2.878 2.552 2.101 1.734 1.330 0.862 0.688 0.534 0.257 0.127 0.064 19 3.883 3.579 2.861 2.539 2.093 1.729 1.328 0.861 0.688 0.533 0.257 0.127 0.064 20 3.850 3.552 2.845 2.528 2.086 1.725 1.325 0.860 0.687 0.533 0.257 0.127 0.063
21 3.819 3.527 2.831 2.518 2.080 1.721 1.323 0.859 0.686 0.532 0.257 0.127 0.063 22 3.792 3.505 2.819 2.508 2.074 1.717 1.321 0.858 0.686 0.532 0.256 0.127 0.063 23 3.768 3.485 2.807 2.500 2.069 1.714 1.319 0.858 0.685 0.532 0.256 0.127 0.063 24 3.745 3.467 2.797 2.492 2.064 1.711 1.318 0.857 0.685 0.531 0.256 0.127 0.063 25 3.725 3.450 2.787 2.485 2.060 1.708 1.316 0.856 0.684 0.531 0.256 0.127 0.063
26 3.707 3.435 2.779 2.479 2.056 1.706 1.315 0.856 0.684 0.531 0.256 0.127 0.063 27 3.689 3.421 2.771 2.473 2.052 1.703 1.314 0.855 0.684 0.531 0.256 0.127 0.063 28 3.674 3.408 2.763 2.467 2.048 1.701 1.313 0.855 0.683 0.530 0.256 0.127 0.063 29 3.660 3.396 2.756 2.462 2.045 1.699 1.311 0.854 0.683 0.530 0.256 0.127 0.063 30 3.646 3.385 2.750 2.457 2.042 1.697 1.310 0.854 0.683 0.530 0.256 0.127 0.063
40 3.551 3.307 2.704 2.423 2.021 1.684 1.303 0.851 0.681 0.529 0.255 0.126 0.063 60 3.460 3.232 2.660 2.390 2.000 1.671 1.296 0.848 0.679 0.527 0.254 0.126 0.063
120 3.373 3.160 2.617 2.358 1.980 1.658 1.289 0.845 0.677 0.526 0.254 0.126 0.063
3.290 3.090 2.576 2.326 1.960 1.645 1.282 0.842 0.674 0.524 0.253 0.126 0.063
n 0.001 0.002 0.01 0.02 0.05 0.1 0.2 0.4 0.5 0.6 0.8 0.9 0.95
Probabilidad de dos colas
José Jabaloyes Vivas
Vicente Chirivella González
Anexo A
-338-
DISTRIBUCIÓN F de snedecor
dt
)tnn( )(
t n n)xX(P
x2
nn
122
2n,
2
1n
12
n
2
n
2
2
n
1
21
121
Fn n1 2,( )
Grados de libertad de la varianza mayor (n1)
1 2 3 4 5 6 7 8
p 0.05 0.01 0.05 0.01 0.05 0.01 0.05 0.01 0.05 0.01 0.05 0.01 0.05 0.01 0.05 0.01
1 161.45 4052.2 199.50 4999.3 215.71 5403.5 224.58 5624.3 230.16 5763.9 233.99 5858.9 236.77 5928.3 238.88 5980.9 2 18.51 98.50 19.00 99.00 19.16 99.16 19.25 99.25 19.30 99.30 19.33 99.33 19.35 99.36 19.37 99.38 3 10.13 34.12 9.55 30.82 9.28 29.46 9.12 28.71 9.01 28.24 8.94 27.91 8.89 27.67 8.85 27.49 4 7.71 21.20 6.94 18.00 6.59 16.69 6.39 15.98 6.26 15.52 6.16 15.21 6.09 14.98 6.04 14.80 5 6.61 16.26 5.79 13.27 5.41 12.06 5.19 11.39 5.05 10.97 4.95 10.67 4.88 10.46 4.82 10.29 6 5.99 13.75 5.14 10.92 4.76 9.78 4.53 9.15 4.39 8.75 4.28 8.47 4.21 8.26 4.15 8.10 7 5.59 12.25 4.74 9.55 4.35 8.45 4.12 7.85 3.97 7.46 3.87 7.19 3.79 6.99 3.73 6.84 8 5.32 11.26 4.46 8.65 4.07 7.59 3.84 7.01 3.69 6.63 3.58 6.37 3.50 6.18 3.44 6.03 9 5.12 10.56 4.26 8.02 3.86 6.99 3.63 6.42 3.48 6.06 3.37 5.80 3.29 5.61 3.23 5.47
10 4.96 10.04 4.10 7.56 3.71 6.55 3.48 5.99 3.33 5.64 3.22 5.39 3.14 5.20 3.07 5.06 11 4.84 9.65 3.98 7.21 3.59 6.22 3.36 5.67 3.20 5.32 3.09 5.07 3.01 4.89 2.95 4.74 12 4.75 9.33 3.89 6.93 3.49 5.95 3.26 5.41 3.11 5.06 3.00 4.82 2.91 4.64 2.85 4.50 13 4.67 9.07 3.81 6.70 3.41 5.74 3.18 5.21 3.03 4.86 2.92 4.62 2.83 4.44 2.77 4.30 14 4.60 8.86 3.74 6.51 3.34 5.56 3.11 5.04 2.96 4.69 2.85 4.46 2.76 4.28 2.70 4.14 15 4.54 8.68 3.68 6.36 3.29 5.42 3.06 4.89 2.90 4.56 2.79 4.32 2.71 4.14 2.64 4.00 16 4.49 8.53 3.63 6.23 3.24 5.29 3.01 4.77 2.85 4.44 2.74 4.20 2.66 4.03 2.59 3.89 17 4.45 8.40 3.59 6.11 3.20 5.19 2.96 4.67 2.81 4.34 2.70 4.10 2.61 3.93 2.55 3.79 18 4.41 8.29 3.55 6.01 3.16 5.09 2.93 4.58 2.77 4.25 2.66 4.01 2.58 3.84 2.51 3.71 19 4.38 8.18 3.52 5.93 3.13 5.01 2.90 4.50 2.74 4.17 2.63 3.94 2.54 3.77 2.48 3.63
20 4.35 8.10 3.49 5.85 3.10 4.94 2.87 4.43 2.71 4.10 2.60 3.87 2.51 3.70 2.45 3.56 21 4.32 8.02 3.47 5.78 3.07 4.87 2.84 4.37 2.68 4.04 2.57 3.81 2.49 3.64 2.42 3.51 22 4.30 7.95 3.44 5.72 3.05 4.82 2.82 4.31 2.66 3.99 2.55 3.76 2.46 3.59 2.40 3.45 23 4.28 7.88 3.42 5.66 3.03 4.76 2.80 4.26 2.64 3.94 2.53 3.71 2.44 3.54 2.37 3.41 24 4.26 7.82 3.40 5.61 3.01 4.72 2.78 4.22 2.62 3.90 2.51 3.67 2.42 3.50 2.36 3.36 25 4.24 7.77 3.39 5.57 2.99 4.68 2.76 4.18 2.60 3.85 2.49 3.63 2.40 3.46 2.34 3.32 26 4.23 7.72 3.37 5.53 2.98 4.64 2.74 4.14 2.59 3.82 2.47 3.59 2.39 3.42 2.32 3.29 27 4.21 7.68 3.35 5.49 2.96 4.60 2.73 4.11 2.57 3.78 2.46 3.56 2.37 3.39 2.31 3.26 28 4.20 7.64 3.34 5.45 2.95 4.57 2.71 4.07 2.56 3.75 2.45 3.53 2.36 3.36 2.29 3.23 29 4.18 7.60 3.33 5.42 2.93 4.54 2.70 4.04 2.55 3.73 2.43 3.50 2.35 3.33 2.28 3.20
30 4.17 7.56 3.32 5.39 2.92 4.51 2.69 4.02 2.53 3.70 2.42 3.47 2.33 3.30 2.27 3.17 31 4.16 7.53 3.30 5.36 2.91 4.48 2.68 3.99 2.52 3.67 2.41 3.45 2.32 3.28 2.25 3.15 32 4.15 7.50 3.29 5.34 2.90 4.46 2.67 3.97 2.51 3.65 2.40 3.43 2.31 3.26 2.24 3.13 33 4.14 7.47 3.28 5.31 2.89 4.44 2.66 3.95 2.50 3.63 2.39 3.41 2.30 3.24 2.23 3.11 34 4.13 7.44 3.28 5.29 2.88 4.42 2.65 3.93 2.49 3.61 2.38 3.39 2.29 3.22 2.23 3.09 38 4.10 7.35 3.24 5.21 2.85 4.34 2.62 3.86 2.46 3.54 2.35 3.32 2.26 3.15 2.19 3.02 42 4.07 7.28 3.22 5.15 2.83 4.29 2.59 3.80 2.44 3.49 2.32 3.27 2.24 3.10 2.17 2.97 46 4.05 7.22 3.20 5.10 2.81 4.24 2.57 3.76 2.42 3.44 2.30 3.22 2.22 3.06 2.15 2.93 50 4.03 7.17 3.18 5.06 2.79 4.20 2.56 3.72 2.40 3.41 2.29 3.19 2.20 3.02 2.13 2.89 60 4.00 7.08 3.15 4.98 2.76 4.13 2.53 3.65 2.37 3.34 2.25 3.12 2.17 2.95 2.10 2.82
80 3.96 6.96 3.11 4.88 2.72 4.04 2.49 3.56 2.33 3.26 2.21 3.04 2.13 2.87 2.06 2.74 100 3.94 6.90 3.09 4.82 2.70 3.98 2.46 3.51 2.31 3.21 2.19 2.99 2.10 2.82 2.03 2.69 200 3.89 6.76 3.04 4.71 2.65 3.88 2.42 3.41 2.26 3.11 2.14 2.89 2.06 2.73 1.98 2.60 1000 3.85 6.66 3.00 4.63 2.61 3.80 2.38 3.34 2.22 3.04 2.11 2.82 2.02 2.66 1.95 2.53
3.84 6.63 3.00 4.61 2.60 3.78 2.37 3.32 2.21 3.02 2.10 2.80 2.01 2.64 1.94 2.51
NOTA: Los valores de la para 1-α son los mismos que los de para α.
Anexo A
-339-
DISTRIBUCIÓN F de Snedecor (Continuación)
dt
)tnn( )(
t n n)xX(P
x2
nn
122
2n,
2
1n
12
n
2
n
2
2
n
1
21
121
Fn n1 2,( )
Grados de libertad de la varianza mayor (n1)
10 12 16 20 30 50 100
p 0.05 0.01 0.05 0.01 0.05 0.01 0.05 0.01 0.05 0.01 0.05 0.01 0.05 0.01 0.05 0.01
1 241.88 6055.9 243.90 6106.7 246.47 6170.0 248.02 6208.7 250.10 6260.4 251.77 6302.3 253.04 6333.9 254.31 6365.6 2 19.40 99.40 19.41 99.42 19.43 99.44 19.45 99.45 19.46 99.47 19.48 99.48 19.49 99.49 19.50 99.50 3 8.79 27.23 8.74 27.05 8.69 26.83 8.66 26.69 8.62 26.50 8.58 26.35 8.55 26.24 8.53 26.13 4 5.96 14.55 5.91 14.37 5.84 14.15 5.80 14.02 5.75 13.84 5.70 13.69 5.66 13.58 5.63 13.46 5 4.74 10.05 4.68 9.89 4.60 9.68 4.56 9.55 4.50 9.38 4.44 9.24 4.41 9.13 4.37 9.02 6 4.06 7.87 4.00 7.72 3.92 7.52 3.87 7.40 3.81 7.23 3.75 7.09 3.71 6.99 3.67 6.88 7 3.64 6.62 3.57 6.47 3.49 6.28 3.44 6.16 3.38 5.99 3.32 5.86 3.27 5.75 3.23 5.65 8 3.35 5.81 3.28 5.67 3.20 5.48 3.15 5.36 3.08 5.20 3.02 5.07 2.97 4.96 2.93 4.86 9 3.14 5.26 3.07 5.11 2.99 4.92 2.94 4.81 2.86 4.65 2.80 4.52 2.76 4.41 2.71 4.31
10 2.98 4.85 2.91 4.71 2.83 4.52 2.77 4.41 2.70 4.25 2.64 4.12 2.59 4.01 2.54 3.91 11 2.85 4.54 2.79 4.40 2.70 4.21 2.65 4.10 2.57 3.94 2.51 3.81 2.46 3.71 2.40 3.60 12 2.75 4.30 2.69 4.16 2.60 3.97 2.54 3.86 2.47 3.70 2.40 3.57 2.35 3.47 2.30 3.36 13 2.67 4.10 2.60 3.96 2.51 3.78 2.46 3.66 2.38 3.51 2.31 3.38 2.26 3.27 2.21 3.17 14 2.60 3.94 2.53 3.80 2.44 3.62 2.39 3.51 2.31 3.35 2.24 3.22 2.19 3.11 2.13 3.00 15 2.54 3.80 2.48 3.67 2.38 3.49 2.33 3.37 2.25 3.21 2.18 3.08 2.12 2.98 2.07 2.87 16 2.49 3.69 2.42 3.55 2.33 3.37 2.28 3.26 2.19 3.10 2.12 2.97 2.07 2.86 2.01 2.75 17 2.45 3.59 2.38 3.46 2.29 3.27 2.23 3.16 2.15 3.00 2.08 2.87 2.02 2.76 1.96 2.65 18 2.41 3.51 2.34 3.37 2.25 3.19 2.19 3.08 2.11 2.92 2.04 2.78 1.98 2.68 1.92 2.57 19 2.38 3.43 2.31 3.30 2.21 3.12 2.16 3.00 2.07 2.84 2.00 2.71 1.94 2.60 1.88 2.49
20 2.35 3.37 2.28 3.23 2.18 3.05 2.12 2.94 2.04 2.78 1.97 2.64 1.91 2.54 1.84 2.42 21 2.32 3.31 2.25 3.17 2.16 2.99 2.10 2.88 2.01 2.72 1.94 2.58 1.88 2.48 1.81 2.36 22 2.30 3.26 2.23 3.12 2.13 2.94 2.07 2.83 1.98 2.67 1.91 2.53 1.85 2.42 1.78 2.31 23 2.27 3.21 2.20 3.07 2.11 2.89 2.05 2.78 1.96 2.62 1.88 2.48 1.82 2.37 1.76 2.26 24 2.25 3.17 2.18 3.03 2.09 2.85 2.03 2.74 1.94 2.58 1.86 2.44 1.80 2.33 1.73 2.21 25 2.24 3.13 2.16 2.99 2.07 2.81 2.01 2.70 1.92 2.54 1.84 2.40 1.78 2.29 1.71 2.17 26 2.22 3.09 2.15 2.96 2.05 2.78 1.99 2.66 1.90 2.50 1.82 2.36 1.76 2.25 1.69 2.13 27 2.20 3.06 2.13 2.93 2.04 2.75 1.97 2.63 1.88 2.47 1.81 2.33 1.74 2.22 1.67 2.10 28 2.19 3.03 2.12 2.90 2.02 2.72 1.96 2.60 1.87 2.44 1.79 2.30 1.73 2.19 1.65 2.06 29 2.18 3.00 2.10 2.87 2.01 2.69 1.94 2.57 1.85 2.41 1.77 2.27 1.71 2.16 1.64 2.03
30 2.16 2.98 2.09 2.84 1.99 2.66 1.93 2.55 1.84 2.39 1.76 2.25 1.70 2.13 1.62 2.01 31 2.15 2.96 2.08 2.82 1.98 2.64 1.92 2.52 1.83 2.36 1.75 2.22 1.68 2.11 1.61 1.98 32 2.14 2.93 2.07 2.80 1.97 2.62 1.91 2.50 1.82 2.34 1.74 2.20 1.67 2.08 1.59 1.96 33 2.13 2.91 2.06 2.78 1.96 2.60 1.90 2.48 1.81 2.32 1.72 2.18 1.66 2.06 1.58 1.93 34 2.12 2.89 2.05 2.76 1.95 2.58 1.89 2.46 1.80 2.30 1.71 2.16 1.65 2.04 1.57 1.91 38 2.09 2.83 2.02 2.69 1.92 2.51 1.85 2.40 1.76 2.23 1.68 2.09 1.61 1.97 1.53 1.84 42 2.06 2.78 1.99 2.64 1.89 2.46 1.83 2.34 1.73 2.18 1.65 2.03 1.57 1.91 1.49 1.78 46 2.04 2.73 1.97 2.60 1.87 2.42 1.80 2.30 1.71 2.13 1.62 1.99 1.55 1.86 1.46 1.73 50 2.03 2.70 1.95 2.56 1.85 2.38 1.78 2.27 1.69 2.10 1.60 1.95 1.52 1.82 1.44 1.68
60 1.99 2.63 1.92 2.50 1.82 2.31 1.75 2.20 1.65 2.03 1.56 1.88 1.48 1.75 1.39 1.60 80 1.95 2.55 1.88 2.42 1.77 2.23 1.70 2.12 1.60 1.94 1.51 1.79 1.43 1.65 1.32 1.49
100 1.93 2.50 1.85 2.37 1.75 2.19 1.68 2.07 1.57 1.89 1.48 1.74 1.39 1.60 1.28 1.43 200 1.88 2.41 1.80 2.27 1.69 2.09 1.62 1.97 1.52 1.79 1.41 1.63 1.32 1.48 1.19 1.28 1000 1.84 2.34 1.76 2.20 1.65 2.02 1.58 1.90 1.47 1.72 1.36 1.54 1.26 1.38 1.08 1.11
1.83 2.32 1.75 2.18 1.64 2.00 1.57 1.88 1.46 1.70 1.35 1.52 1.24 1.36 1.01 1.01
NOTA: Los valores de la para 1-α son los mismos que los de para α.
José Jabaloyes Vivas y Vicente Chirivella González
Anexo A
-340-
Bibliografía
-341-
BIBLIOGRAFÍA PEÑA, DANIEL (1986), Estadística, modelos y métodos. Vol. 1 Fundamentos, Alianza Universidad Textos, Madrid. MONTGOMERY, DOUGLAS C. Y RUNGER, GEORGE C, (2003), Probabilidad y estadística aplicadas a la ingeniería, Limusa-Wiley, México. ROMERO, RAFAEL Y ZÚNICA, LUISA ROSA (2008), Métodos estadísticos e ingeniería, Editorial UPV- 637, Valencia. “Formulario y tablas de estadística”, Editorial UPV nº 104, Valencia.