estadística básica para la ingeniería.pdf

UNIVERSIDAD POLITÉCNICA DE VALENCIA

ESTADÍSTICA BÁSICA

PARA

INGENIERÍA

María Teresa Carot Sánchez

Gonzalo Clemente Marín

José María Sanz Juan

DEPARTAMENTO DE ESTADÍSTICA E INVESTIGACIÓN OPERATIVA APLICADAS Y CALIDAD

Enero 2013

Contenido

-2-

Contenido

-3-

CONTENIDO

1. INTRODUCCIÓN

1.1. LA METODOLOGÍA ESTADÍSTICA ............................................................ 9

1.2. EL MÉTODO CIENTÍFICO ........................................................................ 12

1.3. SOFTWARE ESTADÍSTICO ...................................................................... 14

1.4. REDONDEO DE LOS DATOS ................................................................... 15

1.5. ALFABETO GRIEGO ................................................................................. 17

2. ESTADÍSTICA DESCRIPTIVA

2.1. INTRODUCCIÓN ........................................................................................... 19

2.2 ESTADÍSTICA DESCRIPTIVA UNIDIMENSIONAL ......................................... 22

2.2.1. Tablas de frecuencias ............................................................................ 23

2.2.2. Histogramas ........................................................................................... 23

2.2.3. Polígono de frecuencias ......................................................................... 25

2.2.4. Diagrama de puntos ............................................................................... 25

2.2.5. Gráfico de tartas..................................................................................... 26

2.2.6. Gráfico de Pareto ................................................................................... 26

2.2.7. Medidas de posición .............................................................................. 27

2.2.8. Medidas de dispersión ........................................................................... 29

2.2.9. Diagrama e tallos y hojas ....................................................................... 31

2.2.10. Diagrama de caja-y-bigotes.................................................................. 32

2.3. ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL ........................................... 33

2.3.1. Tablas de frecuencia de doble entrada .................................................. 33

2.3.2. Frecuencias marginales ......................................................................... 36

2.3.3. Frecuencias condicionales ..................................................................... 37

2.3.4. Representaciones gráficas de las distribuciones bidimensionales .......... 38

2.3.5. Covarianza muestral .............................................................................. 40

2.3.6. Regresión lineal ..................................................................................... 40

2.4. PROBLEMAS Y CUESTIONES DE EXÁMENES ........................................... 41

3. PROBABILIDADES

3.1. INTRODUCCIÓN ........................................................................................... 47

3.2. PROBABILIDAD ............................................................................................. 48

3.2. ESPACIOS DE PROBABILIDADES ............................................................... 48

3.4. PROBABILIZACIÓN DE ESPACIOS MUESTRALES ..................................... 52

Probabilización de Espacios Muestrales Discretos .......................................... 52

Probabilización de Espacios Muestrales Finitos Simétricos. Combinatoria ...... 53

Combinatoria ................................................................................................... 53

Contenido

-4-

3.5. PROBABILIDAD CONDICIONADA ................................................................ 54

3.6. TEOREMA DE LA INTERSECCIÓN .............................................................. 56

3.7. TEOREMA DE LA PARTICIÓN TOTAL ......................................................... 56

3.8. SUCESOS INDEPENDIENTES ..................................................................... 57

3.9. TEOREMA DE BAYES ................................................................................... 58

3.10. PROBLEMAS PROPUESTOS ..................................................................... 59

Probabilidad condicional .................................................................................. 61

3.11. PROBLEMAS Y CUESTIONES DE EXÁMENES ........................................ 66

4. CONCEPTO DE VARIABLE ALEATORIA

4.1. DEFINICIÓN DE VARIABLE ALEATORIA UNIDIMENSIONAL ...................... 77

4.2. FUNCIÓN DE DISTRIBUCIÓN ...................................................................... 78

4.3. VARIABLES DISCRETAS .............................................................................. 79

4.4. VARIABLES CONTINUAS ............................................................................. 81

Función de densidad ....................................................................................... 81

Transformación de variables aleatorias ........................................................... 84

4.5. ESPERANZA MATEMÁTICA ......................................................................... 85

Esperanza matemática .................................................................................... 85

Momentos ........................................................................................................ 86

4.6 PARÁMETROS DE TENDENCIA .................................................................... 88

Valor medio ..................................................................................................... 88

Mediana ........................................................................................................... 89

Cuartiles .......................................................................................................... 89

Moda ............................................................................................................... 90

4.7. VARIANZA. CONCEPTO Y PROPIEDADES ................................................. 90

Desviación típica.............................................................................................. 91

4.8. OTROS PARÁMETROS DE UNA DISTRIBUCIÓN ........................................ 91

Rango o Recorrido ........................................................................................... 91

Coeficiente de variación ................................................................................... 92

Coeficiente de asimetría ................................................................................. 92

Coeficiente de apuntamiento o de curtosis ...................................................... 92

4.9. DISTRIBUCIONES BIDIMENSIONALES ....................................................... 93

Concepto ......................................................................................................... 93

Función de distribución .................................................................................... 94

Función de densidad ....................................................................................... 95

Función de densidad marginal ......................................................................... 96

Función de densidad condicional ..................................................................... 98

Independencia de variables aleatorias ............................................................. 99

Esperanza de vectores aleatorios .................................................................. 100

Momentos ...................................................................................................... 101

Matriz de varianzas-covarianzas .................................................................... 102

Contenido

-5-

Combinación lineal de variables aleatorias .................................................... 106

Curva de regresión condicional ...................................................................... 106

Recta de regresión mínimo cuadrática ........................................................... 107

4.10. PROBLEMAS PROPUESTOS ................................................................... 109

4.11. PROBLEMAS Y CUESTIONES DE EXÁMENES ....................................... 113

5. PRINCIPALES DISTRIBUCIONES DISCRETAS

5.1. DISTRIBUCIÓN DICOTÓMICA ............................................................... 121

5.2. DISTRIBUCIÓN BINOMIAL ..................................................................... 122

5.3. DISTRIBUCIÓN HIPERGEOMÉTRICA ................................................... 123

5.4. DISTRIBUCIÓN DE POISSON ................................................................ 125

5.5. DISTRIBUCIÓN BINOMIAL-NEGATIVA .................................................. 126

5.6. DISTRIBUCIÓN MULTINOMIAL .............................................................. 127

5.7. PROBLEMAS PROPUESTOS ................................................................. 129

5.8. PROBLEMAS Y CUESTIONES DE EXÁMENES .................................... 143

6. PRINCIPALES DISTRIBUCIONES CONTINUAS

6.1. DISTRIBUCIÓN UNIFORME ................................................................... 149

6.2. DISTRIBUCIÓN EXPONENCIAL ............................................................. 150

Tasa de fallos ................................................................................................ 152

6.3. DISTRIBUCIÓN NORMAL UNIDIMENSIONAL ....................................... 154

6.3.1. Variable normal tipificada ..................................................................... 155

6.3.2. Variable normal general ....................................................................... 158

6.3.3. Teorema central del límite .................................................................... 160

Aproximación de la binomial a la normal ....................................................... 161

Aproximación de la Poisson a la normal ........................................................ 162

Corrección por continuidad ............................................................................ 163

6.4. LA DISTRIBUCIÓN NORMAL BIDIMENSIONAL ..................................... 165

Distribuciones marginales .............................................................................. 166

Distribuciones condicionales .......................................................................... 166

6.5. PROBLEMAS PROPUESTOS .................................................................... 169

Distribución uniforme ..................................................................................... 169

Distribución exponencial ................................................................................ 170

Distribución Normal ........................................................................................ 172

Distribuciones bidimensionales ...................................................................... 182


Contenido

-6-

7. DISTRIBUCIONES DERIVADAS DE LA NORMAL

7.1. DISTRIBUCIÓN CHI-CUADRADO .......................................................... 191

7.2. DISTRIBUCIÓN t ................................................................................... 192

7.3. DISTRIBUCIÓN F.................................................................................... 194

7.4. PROBLEMAS PROPUESTOS ................................................................ 195

8. DISTRIBUCIONES EN EL MUESTRO

8.1. POBLACIÓN, MUESTREO Y MUESTRA ................................................ 197

8.2. DISTRIBUCIÓN DE LA VARIANZA MUESTRAL ..................................... 201

8.3. DISTRIBUCIÓN DE LA MEDIA MUESTRAL ........................................... 203

8.4. DISTRIBUCIÓN DEL COCIENTE DE VARIANZAS ................................. 204

8.5. DISTRIBUCIÓN DE LA PROPORCIÓN .................................................. 206

8.6. DISTRIBUCIÓN DE LA DIFERENCIA DE MEDIAS MUESTRALES ........ 207

8.7. DISTRIBUCIÓN DE LA DIFERENCIA DE PROPORCIONES ................. 208

8.8. VARIANZA EN POBLACIONES FINITAS ................................................ 210

8.9. PROBLEMAS PROPUESTOS ................................................................ 211


9. INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA

9.1 ESTIMACIÓN PUNTUAL......................................................................... 217

9.2. ESTIMACIÓN POR INTERVALOS DE CONFIANZA ............................... 220

9.2.1. Intervalo de confianza para la media poblacional ................................. 221

9.2.2. Intervalo de confianza para la varianza poblacional ............................. 223

9.2.3. Intervalo de confianza para el cociente de varianzas poblacionales.... 224

9.2.4. Intervalo de confianza para la proporción ............................................ 225

9.2.5. Intervalo de confianza para la diferencia de proporciones .................... 227

9.2.6. Intervalo de confianza para la diferencia de medias poblacionales ...... 228

9.3. TEST DE HIPÓTESIS ............................................................................. 230

Conceptos ..................................................................................................... 230

Obtención de los tests .................................................................................. 234

9.4. TEST DE HIPÓTESIS PARÁMETRICOS ..................................................... 235

9.4.1. Contrastes de la media de una poblacional normal ............................. 235

9.4.2. Test de hipótesis para la varianza poblacional ..................................... 240

9.4.3. Test de hipótesis para el cociente de varianzas poblacionales ............ 241

9.4.4. Contrastes de proporciones ................................................................. 242

9.4.5. Test de hipótesis para la diferencia de medias poblacionales con

Contenido

-7-

muestras independientes ............................................................................... 246

9.4.6. Test para la diferencia de medias poblacionales con datos apareados ...................................................................................................................... 247

9.4.7.Test para la diferencia de proporciones ................................................ 248

9.4.8. Test de ajuste a una distribución .......................................................... 250

9.4.9. Test de independencia ......................................................................... 252


Test de hipótesis ............................................................................................ 256

Tabla de contingencia .................................................................................... 260

Test de ajuste a una distribución .................................................................... 261

9.6. PROBLEMAS Y CUESTIONES DE EXÁMENES ......................................... 262

10. ANÁLISIS DE LA VARIANZA

10.1. ANÁLISIS DE LA VARIANZA (I). UN FACTOR CONTROLADO................. 271

10.1.1. Generalidades ................................................................................... 271

10.1.2. Modelo teórico. Hipótesis del modelo ................................................ 273

10.1.3. Hipótesis nula ................................................................................... 276

10.1.4. Ecuación fundamental ....................................................................... 277

10.1.5. Test F ................................................................................................ 277

10.1.6. Comparación de medias. Test L.S.D. (diferencia mínima significativa) ...................................................................................................................... 278

10.2. ANÁLISIS DE LA VARIANZA (II). DOS FACTORES CONTROLADOS ...... 280

10.2.1. Introducción. Planes factoriales ......................................................... 280

10.2.2. Anova para dos factores con repeticiones ......................................... 281

10.2.3. Concepto de Interacción ................................................................... 281

10.2.4. Modelo y supuestos teóricos ............................................................. 283

10.2.5. Hipótesis Nulas ................................................................................. 284

10.2.6. Descomposición de las Sumas de Cuadrados. Test F ...................... 284

10.2.7. Comparación de Medias. Test L.S.D. ................................................ 284

10.2.8. Validación del modelo ........................................................................ 287

10.2.9. Igualdad de las varianzas ................................................................... 287

10.2.10. Estimación de los efectos ................................................................. 288

10.2.11. Predicciones .................................................................................... 289

10.3. PROBLEMAS Y CUESTIONES DE EXAMEN ............................................ 290

11. REGRESIÓN LINEAL

11.1. HIPÓTESIS DEL MODELO ..................................................................... 301

11.2. ESTIMACIÓN DE LOS COEFICIENTES DE REGRESIÓN ..................... 303

11.3. CONTRASTES DE SIGNIFICACIÓN DE LOS COEFICIENTES .............. 305

Contenido

-8-

11.4. VALIDACIÓN DEL MODELO .................................................................. 310

11.5. INTERVALOS DE PREDICCIÓN ............................................................. 313

11.6. BONDAD DE AJUSTE ............................................................................ 315


ANEXO A. Tablas de las principales distribuciones de probabilidad

DISTRIBUCIÓN DE POISSON ........................................................................... 328

DISTRIBUCIÓN NORMAL TIPIFICADA .............................................................. 331

DISTRIBUCIÓN DE PEARSON ........................................................................ 332

DISTRIBUCIÓN t de Student ............................................................................. 335

DISTRIBUCIÓN F de snedecor ........................................................................... 338

BIBLIOGRAFÍA ......................................................................... 341

1. Introducción

-9-

1. INTRODUCCIÓN

Contenido 1.1. LA METODOLOGÍA ESTADÍSTICA ............................................................ 9 1.2. EL MÉTODO CIENTÍFICO ........................................................................ 12 1.3. SOFTWARE ESTADÍSTICO ...................................................................... 14 1.4. REDONDEO DE LOS DATOS ................................................................... 15 1.5. ALFABETO GRIEGO ................................................................................. 17

1.1. LA METODOLOGÍA ESTADÍSTICA

La estadística es la ciencia que se ocupa de recoger los datos, analizarlos, resumirlos

e interpretarlos, y todo eso para convertir los datos en información, de manera que

nos sirva para tomar buenas decisiones o bien para resolver problemas.

Cuando alguien habla de hacer una estadística quiere decir que le gustaría

saber aspectos como cuáles son los valores más frecuentes, cuáles son el máximo y

el mínimo, cuál es la distribución de sus frecuencias, porcentajes de algunos valores,

la tendencia a lo largo del tiempo o bien hacer predicciones de valores futuros.

La materia prima de la estadística son los datos, y estos se pueden obtener de

tres maneras:

1) De datos históricos: a partir de los registros, formularios, facturas, etc. Por

ejemplo, ventas de un determinado producto.

2) Datos experimentales: se hacen pruebas para ver cómo funciona un

proceso. Por ejemplo, qué relación hay entre el rendimiento y la temperatura

de un proceso.

3) A partir de encuestas: es muy común intentar conocer a una población a

partir de una pequeña parte de la misma elegida al azar. Por ejemplo, para

conocer las opiniones de los alumnos de la UPV, en lugar de preguntar a los

37000 ó más de alumnos, es más económico preguntar a una parte

representativa de la población a estudiar.

Esta tercera forma se la que vamos a seguir en primer lugar en el inicio de

esta materia en la ETSII.

Un ejemplo de encuesta es la que se muestra a continuación:

1. Introducción

-10-

Los pasos que seguimos son:

EL OBJETO DE ESTA ENCUESTA ES OBTENER DATOS PARA LA REALIZACIÓN DE EJERCICIOS EN LAS CLASE DE ESTADÍSTICA. Pregunta 1. Indique su peso en kgs.

[________] Pregunta 2. Indique su altura en cms. [________] Pregunta 3. ¿Qué medios de transporte emplea para venir a la UPV?

• 1. Coche propio • 2. Coche compartido • 3. Bus • 4. Metro o tranvía • 5. Bicicleta • 6. Andando • 7. Tren

• 8. Moto • 9. Otro Pregunta 4. Tiempo diario dedicado al estudio, en horas, de lunes a viernes [________] Pregunta 5. Tiempo dedicado al estudio durante el fin de semana (sábado y domingo), en horas.

[________] Pregunta 6. Tiempo que tarda en llegar al Politécnico por las mañanas, en minutos. [________] Pregunta 7. ¿Qué deportes practica en la UPV?

• 1. Fútbol • 2. Fútbol sala • 3. Baloncesto • 4. Tenis • 5. Natación • 6. Bici • 7. Gimnasia • 8. Artes marciales

• 9. Vela • 10. Marcha • 11. Montañismo • 12. Otros Pregunta 8. Nota de entrada en la Universidad [________]

Pregunta 9. ¿Dispone de conexión a internet desde casa? • 1. Si • 2. No Pregunta 10. En general, las instalaciones y servicios ofertados por la UPV son,

• 1. Muy malos • 2. Malos • 3. Regular • 4. Buenos • 5. Muy buenos Pregunta 11. Edad. [________]

Pregunta 12. Sexo. • 1. Hombre • 2. Mujer MUCHAS GRACIAS POR SU COLABORACIÓN

1. Introducción

-11-

1) Repartir el cuestionario a los alumnos y cumplimentarlo.

2) Introducir los datos al ordenador. Para esto podemos desarrollar un programa

de captura de los datos aprovechando el Access de Microsoft, o mejor un

programa que está preparado por la captura de los datos de los encuestas,

como puede ser el DYANE 4.

3) Una vez introducido los datos, hay que revisarlos por si hay alguien error o

valor raro que no fuera correcto.

4) Hacer análisis descriptivos de los datos:

a) Resumen de todos los valores,

b) Resumen en forma gráfica.

5) Contestar a varias preguntas, aplicando la metodología estadística pertinente.

Ejemplos de preguntas puede ser:

a) ¿Cuál es la nota media de acceso a la Universidad?

b) ¿Cuál es la proporción de alumnos que cogen la bici para venir al Poli?

c) ¿Cuál distribución de edades que hay en la clase?

d) ¿Cuál es la relación que hay entre el peso y la altura de los alumnos?

e) ¿La altura de los alumnos es diferente si es chico o chica?

f) etc.

La metodología estadística que aplican se resume en la figura siguiente

1. Introducción

-12-

Metodología

estadística

Recogida

de los datos

Organización y

representación

Estadística

predictiva

Descriptiva

Inferencia

estadística

Distribución de

frecuencias

Histogramas

Tendencia central

Dispersión

Pruebas de hipótesis

Analisis de la

variancia

Diseño de

Experimentos

Análisis de

correlación

Analisis de

regressión

Estimación

Modelos

Cálculo de

probabilidades

Variable

aleatoriaDistribuciones

Figura 1. 1. La metodología estadística

La inferencia estadística se el proceso de conocer las propiedades de una población

a partir de una muestra representativa de la misma.

La Estadística tiene su fundamento en el cálculo de probabilidades.

1.2. EL MÉTODO CIENTÍFICO

La Estadística utiliza el método científico para desarrollar sus teorías. El método

científico se basa en observar la naturaleza y formular una hipótesis de su

funcionamiento, y según esta teoría se producirán una serie de consecuencias. Si lo

que observamos no está en contradicción con estas consecuencias, aceptamos la

hipótesis inicial. Ésta es aceptada hasta que encontramos una prueba que lo

invalida, y entonces debemos formular otra hipótesis y empezar de nuevo el proceso.

En la estadística las etapas que seguimos se muestran en la Figura 1.2.:

1. Introducción

-13-

Planteamiento del

problema

Formulación del

modelo

Recogida de los

datos

Estimación de los

parámetros

Hipótesis del

modelo

Es válido?

Predicción y

control

SI

NO

Figura 1. 2. El método científico

Por ejemplo, queremos ver la predicción del peso de una persona sabiendo su

altura. Se trata de un problema de regresión y el proceso que seguimos es parecido

al de la figura anterior.

1. Introducción

-14-

1.3. SOFTWARE ESTADÍSTICO

Para el tratamiento de los datos es muy interesante disponer de unos programas en

ordenador que nos facilita todo el desarrollo.

Es muy frecuente almacenar los datos con una hoja de EXCEL y a partir de

ésta, cualquier software estadístico es capaz de leer la hoja de EXCEL y disponer los

datos para su tratamiento y análisis.

La misma hoja de EXCEL tiene un complemento de análisis de los datos. La

ventaja es que en cualquier empresa podemos disponer de la EXCEL y hacer un

análisis básico de los datos. Además, uno mismo puede desarrollar programas

específicos por el tratamiento de los datos haciendo uso de los macros y del

VisualBasic que lleva incorporado el EXCEL.

El software que vamos a utilizar en esta materia es:

1. Statgraphics para Windows. El que damos en las prácticas de estadística es la

versión 5.1 en inglés. En la UPVNET, dentro de los programas científicos,

hay disponible la última versión del Statgraphics que se denomina Centurion,

y ésta la podemos poner en inglés o en castellano.

2. EXCEL. Empleamos las funciones estadísticas o bien los complementos que

lleva la propia EXCEL. Es interesante cargar el complemento de “Análisis de

Datos”, y también se pueden emplear las tablas dinámicas para extraer

información de un conjunto de datos.

3. DYANE 4. Es un programa muy útil para el análisis de las encuestas. Se

puede utilizar por la grabación de los datos y después hacer la exportación a

un fichero en formato txt y pasarlo a formato de EXCEL.

4. MATHCAD 2000. Este software utilizamos para hacer los cálculos

matemáticos, pero también lleva todas las funciones estadísticas.

5. Lenguaje R. Es un programa de libre distribución que se puede descargar de

http://cran.r-project.org. Es muy interesante, sobre todo para principiantes, el

cargar la librería “Rcmdr”. De esta forma no hace falta saberse los comandos

del R, ya que se presenta con menús como si fuera el Statgraphics.

Otro software estadístico muy bueno y que está disponible para toda la

comunidad de la UPV es el SPSS. Se lanza accediendo a UPVNET y a la carpeta de

programas científicos. La única limitación es el número de usuarios que están

utilizándolo al mismo tiempo. Eso depende de las licencias que haya contratado la

UPV.

Programas estadísticos adicionales son:

1. SAS. Dicen que es el mejor, pero también el más caro.

http://cran.r-project.org/

1. Introducción

-15-

2. BMDP. Fue el primero que había y estaba programado en Fortran.

Actualmente hay una versión por Windows y aún hay gente que le utiliza.

3. MINITAB. Este programa lo utilizan muchas empresas para sus cálculos

estadísticos.

Actualmente todas las calculadoras científicas disponen de las funciones

estadísticas más básicas. Es importante leer las instrucciones de las calculadoras

para utilizar esas funciones. Muchas veces hemos perdido el manual de la

calculadora, pero se puede obtener una copia accediendo a la WEB.

1.4. REDONDEO DE LOS DATOS

La estadística hace mucho uso de cálculos a partir de los datos. Por eso es

importante tener en cuenta las siguientes reglas por el redondeo de los datos:

Cifras significativas:

1. La primera cifra significativa es el 1er dígito a partir de la izquierda que

es diferente de 0.

2. Cifras significativas es el número de dígitos contados a partir de la

primera incluida.

Ejemplos: 34,5 tiene 3 cifras significativas; 3,450 tiene 4 cifras

significativas; 0,0023 tiene 2 cifras significativas; 0,00230 tiene 3

cifras significativas.

Redondeo de un número que está justo a la mitad del intervalo: la regla que

se solo seguir es redondear el número par más próximo que antecede al 5.

Las máquinas redondean hacia arriba a partir del 5. Ejemplos: 33,45 se

redondea a 33,4; 33,35 podría redondearse a 33,4 ó 33,3; pero está más

próximo el valor de 33,4. Si fuera 33,445 se redondea a 33,4, ya que tiene

menos distancia al valor de 33,4.

Cifras significativas en la presentación de datos: se sigue la regla de los 2

dígitos de variación. Ejemplo, si los datos son: 4,562 ; 4,673 ; 4,726; 4,364 ;

4,891; se pueden representar como: 4,56; 4,67; 4,73; 4,36; 4,89

Cifras significativas de una probabilidad: 3 cifras (o bien 4). Ejemplo:

Probabilidad de que llueva el fin de semana se del 10,5% ó 0,105; o bien

10,54 ó 0,1054.

Decimales para el cálculo de parámetros: Ejemplo de datos originales 3,4; 3,5;

3,1; 3,3; 3,9; 3,5; 3,5

1. Introducción

-16-

3. Media aritmética: 1 cifra más. Ejemplo: 3,46

4. Desviación típica: 1 cifra más. Ejemplo: 0,24

5. Variancia: 2 cifras más. Ejemplo: 0,0595 ó bien 0,060

6. Recorrido: mismas cifras. Ejemplo: 0,8

7. Modo: mismas cifras. Ejemplo 3,5

8. Coeficiente de variación: 3 cifras. Ejemplo: 7,06% ó bien 0,0706

9. Coeficiente de correlación: 2 cifras. Ejemplo: r=0,23 y la R cuadrado

es 0,23^2=5,29%

10. Coeficientes de regresión: y=a+bx. Por ejemplo, si y tiene dos

decimales, cada uno de los sumandos debe tener como mínimo 3

decimales. Así a se expresará con 3 decimales, y b, en caso de

que x tenga valores hasta 100, debe estar expresado en 5 cifras

decimales porque al multiplicar por la cantidad x nos da un número

con 3 cifras decimales. Ejemplo: a=1,246; b=0,37152; x=75;

Y=1,246+0,37152*75=1,246+27,864=29,11

Cifras a guardar en los cálculos:

1. En los cálculos de sumas y restas de números, el resultado final no

tiene más cifras significativas después del lugar decimal que el de

con menor número de ellas después de la coma decimal. Ejemplo:

3,32+1,7= 5,0 ; 73,52-63=11,63 si no es exacto; 37,512-24 =

37,512 si 24 es exacto.

2. En los cálculos con multiplicación, división y extracción de raíces de

números, el resultado final no puede tener más cifras significativas

que los datos con menor número de ellas. Ejemplo 72,34x 5,45 =

394; 1,547/0,032 = 46; (4,89)^0,5 = 2,21; 7,381x40= 295,2 si 40 es

exacto.

1. Introducción

-17-

1.5. ALFABETO GRIEGO

Debido a la notación que se emplea en estadística, es útil conocer el alfabeto griego

que exponemos en la siguiente tabla.

Mayús. Minús. Nombre Equivalente latino Comentario

A α Alfa a Probabilidad

B β Beta b Probabilidad

Γ γ Gamma c

Δ δ Delta d

Ε ε Épsilon e error

Ζ ζ Zeta f

Η η Eta

Θ θ Theta Parámetro poblacional en general

Ι ι Iota i

Κ κ Kappa k

Λ λ Lambda l Parámetro de una exponencial o de

Poisson

Μ μ Mu m media

Ν ν Nu n

Ξ ξ Xi

Ο ο Omicron o

Π π Pi p

Ρ ρ Rho r

Σ σ Sigma s Desviación típica

Τ τ Tau t

Υ υ Upsilon u

Φ Fi v

Χ χ Chi x

Ψ ψ Psi y

Ω ω Omega z

1. Introducción

-18-

2. Estadística Descriptiva

-19-

2. ESTADÍSTICA DESCRIPTIVA

Contenido 2.1. INTRODUCCIÓN ........................................................................................... 19 2.2 ESTADÍSTICA DESCRIPTIVA UNIDIMENSIONAL ......................................... 22

2.2.1. Tablas de frecuencias ............................................................................. 23 2.2.2. Histogramas ............................................................................................ 23 2.2.3. Polígono de frecuencias .......................................................................... 25 2.2.4. Diagrama de puntos ................................................................................ 25 2.2.5. Gráfico de tartas ...................................................................................... 26 2.2.6. Gráfico de Pareto .................................................................................... 26 2.2.7. Medidas de posición ................................................................................ 27 2.2.8. Medidas de dispersión ............................................................................. 29 2.2.9. Diagrama e tallos y hojas ........................................................................ 31 2.2.10. Diagrama de caja-y-bigotes ................................................................... 32

2.3. ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL ........................................... 33 2.3.1. Tablas de frecuencia de doble entrada .................................................... 33 2.3.2. Frecuencias marginales........................................................................... 36 2.3.3. Frecuencias condicionales ...................................................................... 37 2.3.4. Representaciones gráficas de las distribuciones bidimensionales ........... 38 2.3.5. Covarianza muestral ................................................................................ 40 2.3.6. Regresión lineal ....................................................................................... 40

2.4. PROBLEMAS Y CUESTIONES DE EXÁMENES ........................................... 41

2.1. INTRODUCCIÓN

Gran parte de la Estadística trata sobre la recopilación de datos, análisis de los

mismos, y la extracción de conclusiones con objeto de resolver problemas.

Los datos que se presentan en la práctica pueden ser de tres tipos básicos:

1) Datos cualitativos, que expresan una cualidad del objeto, como puede ser

bueno, malo, o también un color, blanco, negro, azul, etc..

2) Datos cuantitativos discretos, que expresan algo que podemos contar,

por ejemplo, número de defectos que tiene una pieza mecánica, número de

terminales en funcionamiento, número de accidentes de coche en una semana, etc..

3) Datos cuantitativos continuos, es decir, pueden medirse sobre una

escala continua y llevan comas decimales, por ejemplo, el diámetro de un eje, tiempo

que tarda una transacción en ejecutarse, etc...

Decimos que los datos observados corresponden a valores de una variable

que representamos por X. Si disponemos de n datos, se representan por

x,...,x,x,x n321


-20-

y si son todos los datos de la variable X, se denomina población y se representan por

x,...,x,x,x N321

La simple enumeración de estos datos no nos da mucha información acerca

del fenómeno que estamos observando, por lo cual siempre se prefiere condensar la

información de modo que su interpretación sea más sencilla.

La forma de condensación puede ser gráfica o numérica. Para una sola

variable vamos a estudiar los procedimientos más usuales.

Escala de los datos

Otra clasificación de los datos se refiere a la escala con que están medidos. Ésta

puede ser de cuatro tipos:

a) Escalas No Métricas (cualitativas) i. Escala nominal. Cuando la asignación de los valores es totalmente

arbitraria. Por ejemplo, el código de sexo, 1=hombre; 2=mujer.

ii. Escala ordinal. Cuando la asignación de los valores guarda una cierta relación de importancia, pero las diferencias no tienen sentido. Por ejemplo, nivel de estudios: 1=Primaria, 2=Secundaria, 3=Bachiller, 4=Graduado.

b) Escalas Métricas (cuantitativas) i. Escala de intervalo. Cuando la asignación guarda un orden de

importancia y la diferencia entre intervalos tiene sentido. Se caracteriza porque el origen de los datos es arbitrario. Por ejemplo, grado de acuerdo con una afirmación, la codificación puede ser:

1. Totalmente en desacuerdo 2. Más bien en desacuerdo. 3. Indiferente. 4. Más bien de acuerdo. 5. Totalmente de acuerdo

Pero la codificación también podría haber sido con los códigos -2, -1,

0, 1, 2.

ii. Escala de ratio o de razón. Cuando el origen de los datos no es arbitrario y tiene sentido las operaciones de multiplicación y de división. Por ejemplo, el peso, la altura, la longitud, etc.

Actividad 2.1.

En la encuesta que hay en el tema 1, para cada pregunta decir qué tipo de escala utiliza la codificación de los datos.


-21-

Métodos estadísticos empleados para analizar la dependencia o la interdependencia

entre los datos observados

TÉCNICA DE ANÁLISIS MULTIVARIANTE

A) Relaciones de dependencia

Una variable dependiente/Múltiples

variables dependiente

Múltiples dependientes/múltiples

independientes

1. Análisis de regresión múltiple 2. Análisis de regresión logística

binaria 3. Análisis de clasificación múltiple 4. AID (Automatic interaction

detection) 5. CHAID (Chi Square Automatic

Interaction Detection) 6. Análisis conjunto categórico 7. Análisis conjunto ordinal

1. Análisis discriminante multiple 2. Análisis de correlaciones

canónicas 3. Redes neuronales artificiales

B) Relaciones de interdependencias

Entre variables Entre casos ú objetos

1. Análisis de componentes principales

2. Análisis factorial de correspondencias

3. Análisis multidimensional

1. Análisis de grupos (análisis cluster)

MÉTODOS DE DEPENDENCIA ENTRE VARIABLES

Método Relación funcional

Análisis de

regresión

simple

11 XY

(métrica) (métrica, no métrica)

Análisis de

regresión

múltiple

n211 X···XXY

(métrica) (métrica, no métrica)

Análisis de la

varianza n211 X···XXY

(métrica) (no métrica)

Análisis

multivariante de

la varianza

n21m21 X···XXY···YY

(métrica) (no métrica)


-22-

MÉTODOS DE DEPENDENCIA ENTRE VARIABLES

Método Relación funcional

Análisis

discriminante

múltiple

n211 X···XXY

(no métrica) (métrica)

Análisis conjunto n211 X···XXY

(no métrica, métrica) (métrica)

Correlación

canónica n21m21 X···XXY···YY

(métrica, no métrica) (métrica, no métrica)

Modelo de

ecuaciones

estructurales

n112111 X···XXY

n222212 X···XXY

n332313 X···XXY

(métrica, no métrica) (métrica, no métrica)

2.2 ESTADÍSTICA DESCRIPTIVA UNIDIMENSIONAL

Si observamos una variable X y disponemos de n datos, en la forma x,...,x,x n21 , una

manera sencilla de representarlos es mediante una tabla o un histograma de

frecuencias.

Llamamos "frecuencia absoluta" de un valor, al número de veces que aparece

dicho valor. La "frecuencia relativa" es el número de veces que aparece el valor

dividido por el número total de datos observados. Esto es:

nesobservacio de total número

aparece que veces de número=relativa Frecuencia

El campo de existencia de una variable es el conjunto de posibles valores que

pueden tomar los datos.


-23-

2.2.1. Tablas de frecuencias

Una vez ordenados los datos de menor a mayor y agrupados en intervalos, se puede

formar la siguiente tabla de frecuencias,

Nº

Límites

del

intervalo

Valor

de

clase

Frecuencia Frecuencia

relativa

Frecuencia

acumulada

Frecuencia

acumulada

relativa

1 · 1n n

n1 1n

n

n1

· · · · · 21 nn n

nn 21

· · · · · · ·

i ii bxa ix in i

i fn

n i21 n···nn

n

n···nn i21

· · · · · · ·

· · · · · · ·

k kn n

nk n 1

Sumas…………… n 1

2.2.2. Histogramas

El histograma de frecuencias divide el campo de existencia de la variable en una

serie de intervalos, que por lo general, son de igual longitud, determinando

exactamente los límites de cada intervalo.

Para cada intervalo contamos el número de datos que pertenecen al mismo, y

en un diagrama X-Y, tomando como eje X la variable, y como ordenadas el número

de datos que hay en cada intervalo, representamos unos rectángulos con base igual


-24-

a la longitud del intervalo de clase y con altura igual al número de datos de dicha

clase.

Con el histograma podemos ver qué intervalos son más frecuentes que otros.

Para ello es importante el número de subdivisiones que hagamos, ya que si son

pocas, no veremos nada, y si son muchas, tampoco. Por lo general, el número de

intervalos se sitúa entre 5 y 20. También está la opción de tomar como número de

intervalos la raíz cuadrada del número de datos.

Si en lugar de poner como altura de los rectángulos la frecuencia absoluta,

ponemos la frecuencia relativa, se tiene el "histograma de frecuencias relativas", cuya

forma es exactamente la misma que el histograma de frecuencias absolutas, sólo que

hay un cambio de escalas en la ordenada.

Al punto medio de cada intervalo se le llama “valor de clase” y representa a

dicho intervalo.

Si empezando por la izquierda del histograma, vamos acumulando las

frecuencias de los siguientes rectángulos, y los representamos, tendremos una figura

con una serie de rectángulos escalonados. Esta figura recibe el nombre de

"histograma de frecuencias acumuladas", el cual puede ser de frecuencias absolutas

o relativas, según lo que vayamos acumulando.

Si la variable es discreta, el valor de la clase coincide con el valor discreto,

entonces recurrimos a un "diagrama de barras", colocando encima de cada valor una

barra de longitud igual a la frecuencia del valor. Lo mismo hacemos si las clases

corresponden a valores de una variable cualitativa (tipo de defecto,…)

Figura 2. 1 Ejemplo de histograma.


-25-

2.2.3. Polígono de frecuencias

Un polígono de frecuencias se obtiene uniendo los puntos medios de la base superior

de cada rectángulo. Al igual que con los histogramas, tendremos cuatro tipos de

polígonos de frecuencias.

Histogram

43 53 63 73 83 93 103

Peso

0

3

6

9

12

15

18

freq

uen

cy

Figura 2. 2 Polígono de frecuencias

2.2.4. Diagrama de puntos

Cuando hay pocos datos se pueden representar con un diagrama de puntos, el cual

se forma haciendo coincidir un punto grueso con cada valor de X que aparece. En

caso de que haya dos iguales, se coloca un punto encima de otro.

Figura 2. 3 Diagrama de puntos


-26-

2.2.5. Gráfico de tartas

Otra representación típica para variables cualitativas es el gráfico de tartas o en

círculo, en el cual cada clase se representa por un sector de área proporcional a su

frecuencia. La frecuencia puede ser absoluta o relativa. En este último caso se

interpreta que el 100% de la tarta se reparte entre las clases existentes.

Figura 2. 4 Gráfico de tartas

2.2.6. Gráfico de Pareto

El gráfico de Pareto es un histograma de frecuencias pero ordenado de mayor

frecuencia a menor frecuencia. De esta forma se intenta destacar el hecho de que

unas pocas clases representan casi el total de los datos aparecidos. Esto recibe el

nombre de la ley del 20-80%, que se aplican en distintos aspectos de la economía.

Figura 2. 5 Gráfico de Pareto


-27-

Además de dar gráficamente la situación de los valores de una variable X, nos

interesa básicamente contestar a dos preguntas:

1) ¿Dónde está situada la variable?

2) ¿Cuál es su campo de variabilidad?

Para poder realizar comparaciones necesitamos unos valores numéricos.

Aquellos que contestan a la primera pregunta se llaman "parámetros de posición", y

los de la segunda pregunta, "parámetros de dispersión".

2.2.7. Medidas de posición

Los parámetros de posición que vamos a ver son: la media, la mediana, y la moda.

Si de una variable X, tenemos un conjunto de valores x,...,x,x n21 , se define la

media como:

n

x

=x

i

n

=1i

Este valor coincide con la media aritmética, pero como aquí sólo son un parte

de los posibles valores de X, se denomina "media muestral".

Cuando el conjunto de valores de que disponemos son todos los de la

variable X, al conjunto de ellos se denomina "Población", y su media recibe el nombre

de "media poblacional", representándola con el símbolo :

N

x

=m=

i

N

=1i

La media muestral representa el centro de masas de un histograma, y

corresponde al valor medio que toman los datos.

Es una medida poco robusta, ya que ante la aparición de un valor anómalo, la

media se ve bastante modificada.

La "mediana" expresa aquel valor que por debajo de él hay 50% de los datos,

y por encima el 50% de los datos. Se representa por X~

, para una muestra, y el valor

depende de si el número de datos es impar o par. Si es impar la mediana coincide

con el valor central, previamente ordenados los valores de menor a mayor, y si es


-28-

par, se toma el punto medio de los valores centrales. De aquí que empleemos la

expresión:

impar es n si2

x+x

impar es n siX

=X~

1)+([n/2](n/2)

)2

1+n(

La "mediana poblacional" se representa por ~ .

La mediana es una medida robusta, esto es, se modifica poco ante la

aparición de un dato anómalo.

La "moda" es aquel valor de X que se repite más, es decir, el de más

frecuencia. Si solamente hay una moda, se denomina "unimodal"; si hay varias, se

llama "multimodal". Vienen a ser los picos que forman un histograma de frecuencias

no acumulado.

En una distribución simétrica, coinciden los tres parámetros, pero si hay una

cola hacia la derecha, lo que se llama "asimetría positiva", ocurre que:

moda < mediana < media

f(x)

moda

mediana

media

Asimétrica positiva

s

x~xPearson.Asim.Coef

y si la cola es hacia la izquierda, es "asimetría negativa", y ocurre que

moda > mediana > media


-29-

f(x)

x

moda

mediana

media

Asimétrica negativa

s

x~xPearson.Asim.Coef

Se define el "percentil p%" como aquél valor de X que deja a su izquierda un

p% de los datos. Si p = 25%, se le llama "primer cuartil" Q1, si p= 50%, es el

"segundo cuartil " Q2, que coincide con la mediana, y para p=75% es el "tercer

cuartil" Q3. Los cuartiles dividen a los datos en 4 partes con igual número de ellos.

f(x)

x

25% 25%

25%25%

Q1 Q2 Q3

CUARTILES

2.2.8. Medidas de dispersión

Las principales medidas que empleamos son: la varianza, la desviación típica, el

rango, y el coeficiente de variación.

La varianza poblacional se representa por 2 , y se define con todos los datos

de la población:


-30-

N

)-x(

=

2

i

N

=1i2

Para el conjunto de valores x,...,x,x,x n321 de la variable X, la "varianza" es:

1-n

)x-x(

=s

2

i

n

1=i’2

Dicho valor nos sirve para hacer estimaciones de la varianza poblacional y recibe el

nombre de "cuasivarianza” o varianza muestral corregida:

La varianza es una medida cuyas unidades están al cuadrado. Para hacerlas

homogéneas con las unidades de los datos y de la media se define la "desviación

típica muestral" como la raíz cuadrada con signo positivo de la varianza muestral.

Así:

s+=s 2

Cuanto mayor es la varianza, mayor es la dispersión de los datos.

Otra idea de la variabilidad de los datos la proporciona el "recorrido", que se

define como la diferencia entre el máximo y el mínimo de los valores observados. Se

expresa como:

x-x=R minax m

Si n=2 la información que dan R y s2 acerca de la dispersión de los datos es

la misma, ya que utilizan los mismos datos, pero para n=3, R ya no emplea uno de

ellos, pero aún es una buena aproximación. Para n>10, el rango ya no es útil para ver

la dispersión de los datos, y entonces se preferirá el empleo de s2 .

El "coeficiente de variación" es una medida adimensional de la dispersión, se

define como el cociente entre la desviación típica y la media, esto es:

100x

s=C.V. o bien 100CV

y permite comparar la dispersión de dos conjuntos de datos.

Así, por ejemplo, dos grupos de datos pueden tener la misma dispersión, sea

s=1, pero si la media de uno es de 10, y la del otro de 1000, lógicamente hay mayor

variación relativa en el primero que en el segundo. Este coeficiente de variación nos

da una idea de la "precisión" de los datos.


-31-

Otras medidas de dispersión son.

El recorrido intercuartílico: Q3-Q1

Desviaciones:

i. Media de las desviaciones absolutas respecto a la media:

Dm=n

xxn

1i

i

ii. Mediana de las desviaciones absolutas respecto de la

mediana: MEDA= x~xmediana i

MEDIDA DE ASIMETRÍA

El coeficiente de asimetría es,

s

/n)x-x(

=g3

3

1

n

1=i

1

Si CA = 0 se trata de una distribución simétrica; si CA<= la distribución es

asimétrica hacia la izquierda; y si CA>0 la distribución es asimétrica hacia la derecha.

MEDIDA DEL APLANAMIENTO

El coeficiente de aplanamiento es,

s

/n)x-x(

=g4

4

i

n

1=i2

Si CC=3 tiene el mismo aplanamiento (curtosis) que una campana de Gauss;

si CC>3 la distribución es más puntiaguda que la campana de Gauss; y si CC<3, la

distribución es más plana que la campana de Gauss.

2.2.9. Diagrama e tallos y hojas

El histograma de frecuencias es una buena herramienta para identificar la forma,

posición y dispersión de los datos, pero hay una pérdida de información, ya que los

datos individuales se pierden al representarlos en un gráfico de rectángulos. Para ello

se emplean otros métodos que dan la misma idea que el histograma, sin perder la

información individual de cada dato.


-32-

Se trata de dividir los números en dos partes. La parte de la izquierda, que

llamamos "tallo", y la parte de la derecha, que llamamos "hojas". Así el número 123,

tenemos el 12, que constituye el tallo, y el 3, que es la hoja. De esta forma para una

misma línea agrupamos todos los números que tienen el mismo tallo, así, por

ejemplo, para el 128, se agrupa junto al anterior como:

38|12

separando el tallo de las hojas mediante una barra vertical. Si tenemos el 115,

aparece otro tallo, y ahora la figura es:

38|12

5|11

De esta manera no perdemos los datos individuales, a la vez que se va

formando algo parecido a un histograma de frecuencias.

Cuando se quiere subdividir más las clases, los diez dígitos de la derecha se

van agrupando de dos en dos, formando 5 nuevas clases. Así:

Clase * = el 0 y el 1.

Clase T = el 2 y el 3.

Clase F = el 4 y el 5.

Clase S = el 6 y el 7.

Clase . = el 8 y el 9.

También se puede hacer una agrupación en dos: una del 0 al 4, y otra del 5 al

9.

2.2.10. Diagrama de caja-y-bigotes

Otra forma de representar los datos es mediante un diagrama de una Caja, cuyos

lados vienen dados por el primer cuartil y el tercer cuartil, y en su interior se dibuja el

segundo cuartil, esto es, la mediana. Partiendo de cada lado se dibujan unas líneas

que llegan hasta el 10 percentil, por un lado, y el 90 percentil por el otro. Para datos

extensos, se dibuja el 5 y el 95 percentiles. Concretamente, en el STATGRAPHICS

los bigotes se calculan con una longitud de 1,5 veces la anchura del rectángulo, y los

extiende hasta el último punto que está dentro del bigote. De esta forma aquellos

puntos que quedan fuera de los bigotes, se consideran puntos anómalos, esto es,

puntos que posiblemente no pertenecen a la distribución considerada.


-33-

La anchura de la Caja contiene el 50% de los datos, lo cual da una idea de la

dispersión, y la posición de la mediana, junto con la longitud de los bigotes nos da

una idea de la simetría o no de los datos.

Este diagrama es muy útil para comparar dos grupos de datos y observar de

forma gráfica si hay diferencia o no entre ellos.

Box-and-Whisker Plot

45 55 65 75 85

Peso

Figura 2. 6 Diagrama de Caja y bigotes

2.3. ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL

2.3.1. Tablas de frecuencia de doble entrada

Cuando para cada elemento de la población, o bien para cada unidad de estudio, se

observan dos características, y clasificamos cada unidad según las dos

características, asignándola a una de las celdillas que resultan de dividir cada

característica en un conjunto de intervalos, y contamos el número de unidades que

resultan en cada celdilla, se tiene una tabla de doble entrada o también se llama una

tabla de contingencia.

Como ejemplos tenemos:

- De cada alumno de una clase tomamos nota de su peso y su altura y lo

clasificamos en su celdilla correspondiente.

- Cada persona se puede clasificar según que haya tomado o no la vacuna

contra la gripe y según que haya o no contraído la enfermedad.


-34-

- En una fábrica donde hay tres turnos de producción se cuenta el número de

defectos de calidad que hay en los coches producidos y se clasifican éstos

en función del turno en que han sido producidos(1º, 2º ó 3º) y del número de

defectos que contienen (0, 1, 2, 3 >=4)

Las características observadas se representan por (X,Y) siendo X la primera

de ellas, por ejemplo el peso, e Y la segunda, por ejemplo la altura. Para las

unidades observadas 1, 2,..., n tenemos los valores

)y,x(),...,y,x(),y,x(nn2211 . Estas características, que también llamamos

variables muestrales, pueden ser ambas cualitativas, por ejemplo,

defectuoso- correcto, o tipo de defecto; o ser ambas cuantitativas, caso del

peso-altura, o bien una de ellas cualitativa y la otra cuantitativa, en cuyo

caso se dice que es una variable bidimensional mixta.

Si la primera característica podemos tener I intervalos, los cuales representan

I filas de una matriz, y para la segunda característica tenemos J columnas de una

matriz, entonces se tiene una tabla de doble entrada de la siguiente forma:

Tabla 2.1. Tabla de frecuencias

1

2

j

J

total

1

2

i nij ni

I

total n j n

Donde se tiene la siguiente notación:

nij = número de elemento en la celdilla ij.

ni = número de elementos de la fila i.

n j = número de elementos de la columna j.

n = número total de elemento observados.


-35-

La frecuencia absoluta de cada celdilla es nij y la frecuencia relativa es:

n

n=

n

n=)y,x(f

ijij

jir

La suma de las frecuencias relativas de todas las casillas es igual a la unidad,

esto es:

1=n

n=

n

nyxf

ij

ji

jir

ji

)=,(

Como ejemplo de una tabla de doble entrada, supongamos que un fabricante

de automóviles dispone de tres turnos de fabricación de coches, y para cada turno

cuenta aquellos coches que han tenido 0 defectos de calidad, ó 1, 2,3, ó más de 4

defectos de calidad. Para un día de producción ha obtenido la siguiente tabla de

doble entrada

Tabla 2.2. Ejemplo de tabla de frecuencias

número de defectos de calidad

0 1 2 3 >=4 Total

turno

A 310 50 30 40 20 450

B 390 40 60 50 10 550

C 220 60 90 10 20 400

Total 920 150 180 100 50 1400

La tabla de frecuencias relativas es:

Tabla 2.3. Tabla de frecuencias relativas


0 1 2 3 >=4 Total

turno

A .221 .036 .021 .029 .014

B .279 .029 .043 .036 .007

C .157 .043 .064 .007 .014

Total


-36-

2.3.2. Frecuencias marginales

Si a partir de una tabla de doble entrada solamente queremos estudiar una de las

características, tomaremos las frecuencias que aparecen en el lado derecho de la

tabla, si deseamos estudiar la primera característica, o bien la fila que el margen de

abajo, si deseamos estudiar las segunda característica. Cada una de esas

frecuencias son las llamadas frecuencias marginales, ya que aparecen justamente

en los márgenes de las tablas de doble entrada.

Así la frecuencia relativa de la clase xi es:

n

n=)x(f

iir

y la frecuencia relativa de la clase y j es:

n

n=)y(f

j

jr

Lógicamente se cumple que:

1=n

n=

n

nxf i

i

ir

i

)=(

y

1=n

n=

n

nyf

.j

j

jr

j

)=(

Por ejemplo la distribución de frecuencias marginales del número de defectos

de calidad es:


-37-

Tabla 2.4. Tabla de frecuencias marginales


0 1 2 3 >=4 Total

turno

A .321

B .393

C .286

Total .657 .107 .129 .071 .036

2.3.3. Frecuencias condicionales

En otras situaciones se quiere conocer la distribución de una variable para un valor

dado de la otra. Por ejemplo, en la tabla de doble entrada para una valor de y j se

desea conocer la distribución de las casillas que aparecen en esa columna. Dicha

distribución recibe el nombre de distribución de frecuencias condicionales, y su valor

para cada casilla es:

n

n=)y/ x(f

j

ij

jir

Como es lógico, la suma de todas las frecuencias condicionales para ese

valor de y j es igual a la unidad.

1=n

n=

n

nyxf

j

j

j

ij

i

jir

i

)=/ (

Por ejemplo para el turno B la distribución de frecuencias condicionales es:


-38-

Tabla 2.5. Tabla de frecuencias condicionales


0 1 2 3 >=4 Total

turno

A

B .709 .073 .109 .091 .018 1.000

C

Total

2.3.4. Representaciones gráficas de las distribuciones bidimensionales

Cuando se tienen los datos como )y,x(),...,y,x(),y,x(nn2211 una forma inmediata de

representación son unos ejes coordenados en los que cada punto representado

corresponde a un elemento observado con la primera coordenada igual al valor de X

y la segunda coordenada igual al valor de Y. Por ejemplo, si de cada alumno de la

clase se ha observado el peso y la altura, cada punto representa a un alumno.

El interés de estas representaciones se basa en la necesidad de contestar a

las preguntas de:

- ¿Existe una relación lineal entre las dos características?

- ¿Cuál es el grado de relación lineal que hay?

- ¿Se puede predecir un valor a partir del otro?

El diagrama que resulta recibe el nombre de diagrama de dispersión. Un

ejemplo de diagrama de dispersión aparece en la Figura 2.7.


-39-

Plot of Peso vs Altura

150 160 170 180 190 200

Altura

45

55

65

75

85

Peso

Figura 2. 7 Gráfico de Dispersión

Otra forma de representación es el histograma en tres dimensiones. Este

consiste en representar en un sistema de ejes X-Y-Z, las celdillas de la tabla de doble

entrada como formando un suelo de baldosas en el plano X-Y, y encima de cada

baldosa, que corresponde con cada casilla, una columna de altura proporcional a la

frecuencia relativa de cada una de ellas. Un ejemplo de histograma en tres

dimensiones es el que aparece en la Figura 2.8.

Figura 2. 8 Histograma en 3 dimensiones


-40-

El volumen del edificio que resulta se dice que es igual a la unidad. La

proyección de ese edificio sobre el plano X-Z resulta el histograma de frecuencias

relativas de X, y la proyección del edificio sobre el plano Y-Z resulta el histograma de

frecuencias relativas de la característica Y.

2.3.5. Covarianza muestral

Mediante el gráfico de dispersión o el histograma tridimensional, se puede observar si

hay una relación lineal entre las variables, es decir, si para valores altos de una de

ellas, la otra también toma valores elevados. En este caso la relación lineal es en

sentido positivo, y gráficamente los puntos tienden a situarse alrededor de una recta

de pendiente positiva.

Cuando para valores altos de X se observan valores bajos de Y se dicen que

la relación lineal es negativa.

Para dar una idea numérica de la relación lineal entre las dos variables, se

define la covarianza muestral sxy como:

)y-y)(x-x(1n

1=s ii

i

2xy

Como sxy tiene dimensiones, por ejemplo para (peso, altura) puede ser

kgs.cms, con objeto de tener una medida adimensional, se emplea el coeficiente de

correlación muestral r xy que se define por:

ss

s=r

yx

2xy

xy

r xy es un valor que siempre está entre -1 y +1. Cuánto más se acerca a la

unidad en valor absoluto, mayor es la relación lineal que hay entre las dos variables.

Si vale cero, no hay ninguna relación lineal entre las dos variables

2.3.6. Regresión lineal

Si observamos una relación lineal entre los valores de X e Y, podemos ajustar un

recta que sea la que minimice, para el conjunto de todos los casos, la suma de

cuadrados entre el valor observado y el predicho por dicha recta.


-41-

La ecuación de la recta de regresión de ajuste por mínimos cuadrados del

valor de Y conocido un valor de x, viene dada por,

)xx(s

s·ryy

x

y

xy

O bien,

)xx(s

syy

2

x

xy

2.4. PROBLEMAS Y CUESTIONES DE EXÁMENES

2.4.1.- En las pruebas de acceso del último año se seleccionaron al azar 120

alumnos de tres tipos de colegio y se tomaron en cuenta las notas obtenidas por cada

uno de ellos. Con estos datos se definió la variable aleatoria bidimensional (Tipo de

colegio, Calificaciones obtenidas) como muestra la tabla siguiente:

SUSPENSOS APROBADOS NOTABLES SOBRESALIENTES Total

fila

-----------------------------------------------------

PUBLICO | 3 | 15 | 22 | 6 | 46

-----------------------------------------------------

PRIVADO | 3 | 24 | 8 | 5 | 40

-----------------------------------------------------

CONCERTADO | 4 | 8 | 17 | 5 | 34

-----------------------------------------------------

Total columna 10 47 47 16 120

a) Completar la tabla anterior calculando las probabilidades de la distribución

bidimensional conjunta de la variable (Tipo de colegio, Calificaciones) (0,5

puntos)

b) Completar la tabla siguiente con las distribuciones unidimensionales

marginales de las variables Tipo de colegio y Calificaciones (1 punto)


-42-

SUSPENSOS APROBADOS NOTABLES SOBRESALIENTES Total

fila

-----------------------------------------------------

PUBLICO | 3 | 15 | 22 | 6 | 46

-----------------------------------------------------

PRIVADO | 3 | 24 | 8 | 5 | 40

-----------------------------------------------------

CONCERTADO | 4 | 8 | 17 | 5 | 34

-----------------------------------------------------


c) Completar la tabla siguiente con la distribución condicional de las calificaciones en los colegios privados (0,5 puntos)

SUSPENSOS APROBADOS NOTABLES SOBRESALIENTES Tot fila

-----------------------------------------------------

PUBLICO | 3 | 15 | 22 | 6 | 46

-----------------------------------------------------

PRIVADO | 3 | 24 | 8 | 5 | 40

-----------------------------------------------------

CONCERTADO | 4 | 8 | 17 | 5 | 34

-----------------------------------------------------



-43-

SOLUCIÓN

Las frecuencias de cada casilla (en porcentaje) son:

SUSPENSOS APROBADOS NOTABLES SOBRESAL. Total

fila

PÚBLICO 3/120 15/120 22/120 6/120

PRIVADO 3/120 24/120 8/120 5/120

CONCERTADO 4/120 8/120 17/120 5/120

Total columna 120

Las distribuciones marginales (en porcentaje) son:

SUSPENSOS APROBADOS NOTABLES SOBRESAL. Total fila

PÚBLICO 46/120

PRIVADO 40/120

CONCERTADO 34/120

Total columna 10/120 47/120 47/120 5/120 120

La distribución condicional de las notas para los colegios privados (en porcentaje) es:

SUSPENSOS APROBADOS NOTABLES SOBRESAL. Total

fila

PÚBLICO

PRIVADO 3/40 24/40 8/40 5/40 40

CONCERTADO

Total columna

2.4.2.- A partir del diagrama siguiente, que representa los datos de consumo

eléctrico mensual entre enero 2010 y junio 2011, elija la respuesta correcta a las


-44-

siguientes preguntas:

Box-and-Whisker Plot

Consumo

20 30 40 50 60 70

1. El consumo medio ha sido: (0,25 puntos)

a. 49.4

b. 56.5

c. 43.5

2. El 75% de los meses se consumió: (0,25 puntos)

a. Menos de 56.5 €.

b. Más de 56.5 €.

c. Entre 43.5 y 56.5 €.

3. El consumo mínimo observado en estos 20 meses fue de: (0,25 puntos)

a. 20 €.

b. 39 €.

c. 42.5 €.

4. La distribución tiene una asimetría… (0,25 puntos)

a. Positiva, porque el tercer cuartil es mayor que el primer cuartil.

b. Negativa, porque el tercer cuartil es mayor que el primer cuartil.

c. Se puede decir que la distribución es simétrica.

5. El 50% de los meses se consumió: (0,25 puntos)

a. Más de 56.5 €.

b. Menos de 43.5 €.


-45-

c. Entre 43.5 y 56.5 €.

2.4.3.- Una empresa decide realizar un estudio sobre el consumo de un determinado

material, necesario para el proceso de fabricación que lleva a cabo, en función del día

de la semana, en vistas a optimizar su stock semanal del producto y la detección de

posibles anomalías. Se han analizado un total de 57 días, de lunes a viernes. Con

estos datos de consumo se realiza el diagrama Box-Whisker múltiple que se muestra

a continuación:

Lunes

Martes

Miércoles

Jueves

Viernes

Gráf ico de Cajas y Bigotes

0 100 200 300 400 500

CONSUMO

DIA


-46-

A la vista de los diagramas, responder a las siguientes preguntas justificando

convenientemente las respuestas.

1. La mayor dispersión de consumo se produce: (0.25 puntos)

a. Los lunes b. Los martes c. Los miércoles d. Todos tiene la misma dispersión ya que el consumo es independiente

del día Pues el rango intercuartílico es mayor.

2. La mayor asimetría se presenta: (0.25 puntos) a. Los jueves y es positiva b. Los martes y es negativa c. Los martes y es positiva d. Los jueves y es negativa

Pues ese día se da la mayor distancia entre la mediana y la media, y media > mediana.

3. En términos medios, los días de menor consumo son: (0.25 puntos)

a. Los miércoles b. Los viernes c. Los martes d. No se dispone de datos suficientes

Pues la media es la que está más a la izquierda de todos los días.

4. ¿Cuál de las siguientes afirmaciones es cierta? (0.25 puntos)

a. El 75% de los lunes se consume por encima de 300 b. El 75% de los lunes se consume por debajo de 300 c. El 25% de los miércoles se consume por debajo de 260 d. El 25% de los miércoles se consume por encima de 180

El límite derecho de la caja de los lunes, que corresponde al tercer cuartil, está en 300.

3. Probabilidades

-47-

TEMA 3. PROBABILIDADES

Contenido 3.1. INTRODUCCIÓN ........................................................................................... 47

3.2. PROBABILIDAD ............................................................................................. 48

3.2. ESPACIOS DE PROBABILIDADES ............................................................... 48

3.4. PROBABILIZACIÓN DE ESPACIOS MUESTRALES ..................................... 52

Probabilización de Espacios Muestrales Discretos ............................................ 52

Probabilización de Espacios Muestrales Finitos Simétricos. Combinatoria ........ 53

Combinatoria ..................................................................................................... 53

3.5. PROBABILIDAD CONDICIONADA ................................................................ 54

3.6. TEOREMA DE LA INTERSECCIÓN............................................................... 56

3.7. TEOREMA DE LA PARTICIÓN TOTAL .......................................................... 56

3.8. SUCESOS INDEPENDIENTES ...................................................................... 57

3.9. TEOREMA DE BAYES ................................................................................... 58


Probabilidad condicional.................................................................................... 61


3.1. INTRODUCCIÓN

El objeto central del Cálculo de probabilidades y de la estadística, lo constituyen los

llamados fenómenos aleatorios. Los fenómenos aleatorios son aquellos fenómenos

reales que se caracterizan por la impredecibilidad de sus resultados y por la llamada

regularidad estadística.

El cálculo de probabilidades se ha desarrollado en situaciones en las cuales

se realiza un experimento y se observa un resultado. Pero dicho resultado no se

puede predecir de antemano con exactitud. A estos experimentos los llamamos

Experimentos Aleatorios. Este concepto tiene otras características comunes. La

primera de ellas es que no podemos saber de antemano su resultado, a lo sumo

podemos describir un conjunto de posibles resultados. Segundo es que dicho

experimento lo podemos repetir exactamente en las mismas condiciones y el

resultado ser totalmente distinto. No obstante, a medida que el número de

repeticiones del experimento va aumentando se presenta un comportamiento

característico de la frecuencia con que aparece cada resultado, que llamamos

"regularidad estadística"

3. Probabilidades

-48-

Si llamamos n al número de repeticiones del experimento aleatorio, a la

frecuencia absoluta, es decir, al número de veces que ocurre un determinado

resultado y a f r su frecuencia relativa, tendremos que:

n=f r

Por definición de fenómeno aleatorio, cuando n crece fr tiende a estabilizarse

alrededor de un cierto valor. Cuando el fenómeno aleatorio tiene esta propiedad,

diremos que posee la característica de la Regularidad Estadística.

3.2. PROBABILIDAD

Al repetir el experimento aleatorio, se observa que unos resultados aparecen más

que otros, por lo cual cabe hablar de la posibilidad de que un suceso aparezca más

veces que otro. Esto es, a cada suceso asociamos una medida de la posibilidad de

que tenga lugar. A esta medida se llama probabilidad de ocurrencia del suceso.

Tres puntos de vista o enfoques de la probabilidad:

Frecuencialista: la probabilidad de un suceso es el límite al que tiende la

frecuencia relativa con que se presenta dicho suceso.

Objetivas: es el grado de evidencia de una proposición cualquiera.

Subjetiva: es el grado de creencia personal en la veracidad de una

proposición.

3.2. ESPACIOS DE PROBABILIDADES

Figura 3. 1 Espacio muestral

E= Espacio muestral

x

x

x

x

x

A

A=suceso compuesto

x=suceso elemental

3. Probabilidades

-49-

Al conjunto de los posibles resultados del experimento aleatorio se denomina

"Espacio muestral". Gráficamente lo solemos representar por un círculo, tal como

aparece en la Figura 3. 1.

Si los resultados se pueden contar, o se pueden contabilizar, aunque sea para

un número infinito, el espacio muestral es discreto.

Si el espacio muestral es incontable, caso de un número real en el intervalo

de la recta real, se dice que el espacio muestral es "continuo".

Ejemplos de espacio muestrales son:

- Número de puntos al lanzar un dado (discreto y finito),

- Número de accionamiento de un interruptor hasta su fallo (discreto e infinito

numerable),

- Medida del peso de un paquete de arroz (contínuo).

Al espacio muestral lo representamos por la letra E.

Actividad 3.1:

¿Cuál es el espacio muestral al lanzar un dado?

¿Cuál es el espacio muestral al lanzar una moneda?

¿Cuál es el espacio muestral al medir el peso de un paquete de arroz?.

Un suceso A, es cualquier subconjunto contenido en el espacio muestral. Si el

suceso es un posible resultado del experimento aleatorio, lo llamamos "suceso

elemental". Cualquier otro subconjunto se denomina "suceso compuesto".

Otros sucesos que se definen a partir del espacio muestral son:

1) Suceso vacío. El que teóricamente nunca va a aparecer. Lo representamos por

. (ej. Obtener 7 puntos al lanzar un dado normal)

2) Suceso cierto. El que siempre aparece. El suceso E siempre aparece, ya que al

realizar el experimento aleatorio siempre tendrá lugar algún resultado del espacio

muestral.

3) Suceso complementario. Dado el suceso EA , el complementario A ocurre

cuando no aparece el A.

3. Probabilidades

-50-

4) Sucesos mutuamente excluyentes. Cuando dados dos sucesos A,A 21 , si

ocurre uno de ellos no ocurre el otro, es decir, no se pueden dar al mismo

tiempo.

5) Suceso unión. Dados dos sucesos A,A 21 , se llama suceso unión AA 21

cuando aparece el A1 o el A2 ó ambos a la vez. También recibe el nombre de

adición.

6) Suceso intersección. Dados los sucesos EA,A 21 se llama intersección

AA 21 , cuando sucede A1 y A2 a la vez.

Al igual que con el conjunto de números se establecen unas operaciones que

dan lugar a otros números, con los sucesos pertenecientes al espacio muestral, y

mediante operaciones de complementación, unión e intersección, dan lugar a otros

sucesos. El conjunto de dichos sucesos se dice que forman una -álgebra si se

cumplen las dos condiciones siguientes:

1) Si FA el suceso A también pertenece a F.

2) Si F,....A,A 21 , el suceso unión infinita también pertenece a F.

Recordar las propiedades conmutativas y asociativas de la unión y de la

intersección, y la propiedad distributiva de cada una de estas operaciones respecto

de la otra.

Realmente la probabilidad es una aplicación del espacio muestral en la recta

real. Dado un espacio muestral E, y una -algebra F, decimos que la aplicación

F:P es una probabilidad, si y solo si se cumplen los siguientes axiomas:

1) 0P(A) FA

2) 1=P(E)

3) )AP(AAA F;,....A,A i

i

ij

ji

i21 =)P( es =

A partir de estos axiomas se demuestran las siguientes propiedades:

1) Probabilidad del suceso contrario: P(A)-1=)AP(

2) Probabilidad del suceso vacío: 0=1-1=P(E)-1=)P(

3. Probabilidades

-51-

3) Inclusión. Si P(B)P(A) B,A

4) 1P(A)0 F,A , ya que cualquier EA .

5) Probabilidad de la unión: B)P(A-P(B)+P(A)=B)P(A

Gráficamente se observa en la Figura 3. 2.

Figura 3. 2 Unión de sucesos

La demostración es:

=B)A(Ay B),A(A=BA

la probabilidad será la suma de probabilidades,

B)AP(+P(A)=B)P(A

pero también el suceso B se puede poner como

B)A(B)(A=B

como son conjuntos disjuntos

B)AP(+B)P(A=P(B)

de donde despejando B)AP( queda:

B)P(A-P(B)+P(A)=B)P(A

E= Espacio muestral

B A

AB

3. Probabilidades

-52-

Como generalización de la unión de tres o más sucesos, tenemos la

expresión general de la unión de sucesos:

C)BP(A+C)P(B-C)P(A-B)P(A-P(C)+P(B)+P(A)=C)BP(A

Observar la correspondencia que hay entre probabilidades y la frecuencia

relativa de un suceso A.

A la tripleta (E,F,P) se denomina espacio probabilístico.

Actividad 3.2:

Un submarino lanza tres torpedos contra un barco. Cada uno de los torpedos

tiene una probabilidad de 0,7 de alcanzar el barco. ¿Cuál es la probabilidad

de hundir el barco?

Si de una baraja de 40 cartas extraemos 3 al azar, ¿cuál es la probabilidad

de que salgan 2 oros?

o Con reposición,

o Sin reposición.

3.4. PROBABILIZACIÓN DE ESPACIOS MUESTRALES

Podemos asimilar, desde un punto de vista mecánico, la probabilidad como la

cantidad de masa de 1 gramo que se reparte en el espacio muestral. De forma que la

probabilidad de un suceso corresponde con la cantidad de masa que incluye dicho

suceso dentro del espacio muestral. Si el espacio muestral es discreto, la cantidad de

masa de un gramo se encuentra repartida en un serie de puntos discretos. Si el

espacio muestral es continuo, la masa se reparte de forma continua en el espacio

muestral, aunque puede haber zonas donde haya más cantidad de masa que en

otras.

Probabilización de Espacios Muestrales Discretos

Cuando el espacio muestral es discreto, cada resultado elemental tiene asignado un

peso, probabilidad, de manera que la suma de pesos elementales debe dar la unidad,

ya que la unión de todos ellos forma el espacio muestral E, y cada suceso elemental

es excluyente respecto a cualquier otro suceso elemental.

Si el espacio muestral discreto es finito y, además cada uno de los resultados

es igualmente probable, entonces el peso, o probabilidad, que asignamos a cada

3. Probabilidades

-53-

suceso elemental es 1/n de resultados que hay. Pero si es un espacio muestral

discreto infinito pero numerable, como la suma debe dar 1, no puede pesar igual un

resultado que otro, no obstante se debe cumplir que la suma infinita de los pesos

converja a la unidad.

En cualquiera de los casos anteriores, la probabilidad de un suceso

compuesto es la suma de las probabilidades de los resultados individuales que lo

integran.

Probabilización de Espacios Muestrales Finitos Simétricos. Combinatoria

Para el caso de un espacio muestral discreto finito y simétrico, esto es, que cada

posible resultado tiene el mismo peso, la probabilidad de un suceso se puede calcular

sumando las probabilidades de los sucesos elementales que incluye, lo cual equivale

a aplicar la regla de:

posibles casos

favorables casos=A) P(suceso

y para hacer un recuento de casos favorables y casos posibles debemos acudir a la

combinatoria, donde habrá que distinguir si influye el orden, variaciones, o no influye

el orden, combinaciones, y dentro de cada uno de ellos, si los elementos se pueden

repetir ó no. Así tenemos el siguiente esquema:

Combinatoria

Variaciones sin repetición de m elementos tomados de n en n.:

- 1)+n-2)...(m-1)(m-m(m=V nm,

- n!=Pn

Variaciones con repetición de m elementos tomados de n en n:

- m=Vn’

nm,

- n=...++ donde !...!

n!=P

’,...,n,

Combinaciones sin repetición de m elementos tomados de n en n:

- n)!-(mn!

m!=

n

m=C nm,

Combinaciones con repetición de m elementos tomados de n en n.:

3. Probabilidades

-54-

-

n

1-n+m=C

’nm,

La probabilización de espacios muestrales contínuos se lleva a cabo mediante

una función llamada función de densidad.

Actividad 3.3:

Con las letras a, b, c, d

o ¿Cuántas palabras de 2 letras se pueden formar?



o Si podemos repetir las letras, ¿cuántas palabras de 2 letras se pueden

tener?

o Si no podemos repetir las letras, ¿cuántas combinaciones de 2 letras

podría obtener?

o Si ahora podemos repetir las letras, ¿Cuántas palabras podemos

obtener?

3.5. PROBABILIDAD CONDICIONADA

Dado un espacio muestral E, si conocemos que ha ocurrido un suceso EA , el

espacio muestral realmente se ha reducido ahora a dicho suceso A conocido, con lo

cual las probabilidades de los sucesos pertenecientes a E se modifican de acuerdo

con el conocimiento de A, y entonces el peso de cualquier EB viene dado por la

parte común de B con A en relación al total de A, que en el nuevo espacio muestral

es el suceso cierto.

Si partimos del espacio de probabilidades (E,F,P) y conocemos el suceso

0P(A) con F,A , definimos la probabilidad de suceso C condicionado a que ha

ocurrido el suceso A, como:

P(A)

A)P(B=P(B/A)=(B)PA

3. Probabilidades

-55-

Actividad 3.4:

Al lanzar un dado, ¿cuál es la probabilidad de sacar un 2?

Si antes de mostrar el dado, yo lo veo y digo que es un número par, ¿cuál es

la probabilidad de que ahora sea el 2?

Esta medida así definida cumple los axiomas de probabilidad, esto es:

1) 0P(B/A)

2) 1=P(A/A)

3) Si /A)BP(+/A)BP(=/A)BBP(;=BB 212121 .

Como es una probabilidad, reúne todas las propiedades de la misma, es decir:

1) P(B/A)-1=/A)BP( .

2) 0=/A)P( .

3) /A)BP(/A)BP( ,BB Si 2121 .

4) 1P(B/A)0 F,B .

5) /A)BBP(-/A)BP(+/A)BP(=/A)BBP( 21121 1

6) La definición de probabilidad condicional se puede aplicar a la propia probabilidad

condicional:

(B)P

B)(CP=(C/B)P

A

AA

B)P(A

C)BP(A=

P(A)

B)P(A

P(A)

A)BP(C

=

A)P(C/B=P(C/B/A)

3. Probabilidades

-56-

3.6. TEOREMA DE LA INTERSECCIÓN

La probabilidad de la intersección de dos sucesos se puede obtener de la propia

definición de probabilidad condicionada como:

)P(B).P(B/A=)P(A).P(B/A=B)P(A

Para el caso de ser tres sucesos, la probabilidad de la intersección es:

B)).P(C/AP(A).P(B/A=C)BP(A

Lo anterior también se aplica a probabilidades condicionales, así:

C)/AP(A/C).P(B=B/C)P(A

Si A y B son independientes también lo son los sucesos complementarios, así

como entre todos ellos.

3.7. TEOREMA DE LA PARTICIÓN TOTAL

Dado un espacio muestral E, recibe el nombre de partición al conjunto de sucesos

A,....,A,A,A n321 tales que:

1) =A.....AAA n321 siendo ji =AA ji , es decir son mutuamente

excluyentes.

2) La unión de dichos sucesos forman el espacio muestral, esto es:

E=A,.....,AA n21

Gráficamente se representa en la Figura 3. 3.

Figura 3. 3 Teorema de la partición

E= Espacio muestral

B

AiB

A1

A2

⁞

An

Ai

⁞

3. Probabilidades

-57-

Si definimos otro suceso B incluido en E, a su vez queda dividido por la

partición efectuada sobre E, de modo que se puede reconstruir B mediante

B)A(....B)A(B)A(=B n21

Los conjuntos BAi son mutuamente excluyentes, luego la probabilidad del

suceso B también es:

)A)P(B/AP(=B)AP(=P(B) ii

i

i

i

3.8. SUCESOS INDEPENDIENTES

Dados dos sucesos A y B, se dicen que son independientes, si el que aparezca uno

de ellos no tiene nada que ver ni influye para nada en la aparición del otro. Es decir,

que la probabilidad de uno de ellos condicionada al la presencia del otro no se ve

modificada. Matemáticamente, dos sucesos A y B son independientes si y solo si se

cumple que:

P(A)=P(A/B) ó P(B)=P(B/A)

Por la definición de probabilidad condicional, si A y B son independientes:

P(A)=P(B)

B)P(A=P(A/B)

de donde

P(A).P(B)=B)P(A

Todo ello se puede generalizar a más sucesos, de esta forma si A,....A,A n21

son independientes, la probabilidad de la intersección es el producto de

probabilidades:

)A)....P(A).P(A).P(AP(=)A.....AAAP( n321n321

Actividad 3.5:

¿Cuál es la probabilidad de que al lanzar dos monedas una sea cara y la otra

cruz?

3. Probabilidades

-58-

¿Cuál es la probabilidad de que al sacar sin reemplazamiento dos cartas de

una baraja de 40, una de ellas sea oros?

¿Cuál es la probabilidad de que al sacar 4 cartas haya 2 oros y 1 espada?

Un temario de oposición tiene 50 temas. El tribunal elige 3 al azar y tenemos

que elegir uno de ellos. Si nos estudiamos 10 de los 50 temas, ¿cuál es la

probabilidad de aprobar?

3.9. TEOREMA DE BAYES

Efectuada una partición sobre el espacio muestral E, y dado el suceso B que está

incluido en E, deseamos calcular la probabilidad condicional de un suceso Ai ,

sabiendo que ha ocurrido el suceso B. Al suceso B también se le llama el efecto, y los

sucesos 1..n)=(i Ai expresan las distintas causas que pueden producir el efecto B.

El teorema de Bayes permite calcular la probabilidad de que habiéndose presentado

el efecto B, sea debido a una de las causas Ai .

Para su cálculo aplicamos la definición de probabilidad condicional:

P(B)

B)AP(=/B)AP( i

i

Para el denominador aplicamos la fórmula de la probabilidad total, y el

numerador, como By Ai no son independientes, lo podemos expresar como

producto de probabilidades, una de ellas condicional. Así se tiene:

)A)P(B/AP(

)A).P(B/AP(=

B)AP(

B)AP(=/B)AP(

ii

i

ii

i

i

ii

Árbol de Bayes

Este tipo de problemas es muy interesante resolverlos mediante el árbol de

Bayes que se muestra a continuación,

3. Probabilidades

-59-

B

B

)A(P 1

)A(P 2

1A

2A

)A/B(P 1

)A/B(P 2

)A/B(P)·A(P)BA(P 111

)A/B(P)·A(P)BA(P 222

Actividad 3.6:

En la urna U1 hay 2 bolas blancas y 2 negras, y en la urna U2 hay 3

blancas y 1 negra. Tomamos una bola de la urna U1 y la pasamos a la

urna U2. Después sacamos una bola al azar de la urna 2 que resulta

ser blanca. ¿Cuál es la probabilidad de que la bola que haya pasado

de la urna U1 a la urna U2 sea negra?

Actividad 3.7:

Tres componentes de un sistema están situados en serie. Si cada uno

de ellos tiene una probabilidad de funcionar del 90%, ¿Cuál es la

probabilidad de que funcione todo el sistema?

¿Y si los componentes están situados en paralelo?

¿Y si los dos primeros están en paralelo y la tercero esta en serie?

3.10. PROBLEMAS PROPUESTOS

3.10.1. Se inspeccionan 4 componentes y se definen los siguientes sucesos:

A =" las cuatro componentes son defectuosas"

3. Probabilidades

-60-

B =" exactamente dos componentes funcionan correctamente"

C =" A lo sumo tres componentes son defectuosas"

¿A qué son equivalentes los siguientes sucesos?

a) BC b) BC c) ACd) AC.

Solución: a) C b) B c) E d)

3.10.2. En una ciudad se publican tres periódicos A, B y C. Supongamos que el

60% de las familias de la ciudad están suscritas al periódico A, el 40% están

suscritas al periódico B y el 30% al periódico C. Supongamos también que el

20% de las familias están suscritas a los periódicos A y B, el 10% a A y C, el

20% a B y C y el 5% a los tres periódicos A, B y C.

a. ¿Qué porcentaje de familias de la ciudad están suscritas al menos a

uno de estos tres periódicos?

b. ¿Qué porcentaje de familias de la ciudad están suscritas únicamente a

uno de los tres periódicos?

Solución: a) 0.85 b) 0.45.

3.10.3. ¿Cuál es la probabilidad de obtener en la lotería primitiva?

a) un pleno,

b) cinco y el complementario,

c) cinco aciertos,

d) cuatro aciertos,

e) tres aciertos.

Solución: a) 7.15E-8 b) 4.29E-7 c) 1.80E-5 d) 9.68E-4 e) 0.017

3.10.4. Una caja contiene 100 chips, de los cuales 75 funcionan correctamente y

25 son defectuosos. Se seleccionan aleatoriamente 12 chips. Calcular la

probabilidad de que al menos un chip seleccionado sea defectuoso.

Solución: 0.9751.

3.10.5. Si las letras a,a,e,i,i,c,d,t,t,s,s se ordenan aleatoriamente, ¿cuál es la

probabilidad de que formen la palabra "estadistica"?.

3. Probabilidades

-61-

Solución: 4.008E-7.

3.10.6. Los alumnos que se presentan a este examen realizan 3 actividades

culturales. El 60% de ellos va al cine, el 40% al teatro y el 30% a museos.

Además el 25% van al cine y al teatro, el 20% al cine y a museos, el 10% a

museos y teatros y el 2% realiza las tres actividades. ¿Qué porcentaje de

alumnos realizan al menos una de las tres actividades?

a) 0’6700

b) 0’7900

c) 0’7500

d) 0’7700

Probabilidad condicional

3.10.7. Cuatro marcas de ordenadores A, B, C y D presentan una oferta para un

cierto contrato. Un análisis de los éxitos obtenidos anteriormente por estas firmas

en contratos similares nos permite establecer que las probabilidades de llevarse

este contrato para cada una de las marcas son:

P(A) = 0.35 P(B) = 0.15 P(C) = 0.3 P(D) = 0.2

Antes de resolverse el contrato, la firma B retira su oferta. Hallar las nuevas

probabilidades de llevarse el contrato para A, C y D.

Solución: P(A) = 0.411, P(C) = 0.352, P(D) = 0.235.

3.10.8. Se hizo una encuesta a cien clientes de un almacén, de los cuales

sesenta dijeron que visitaban el almacén por un anuncio del periódico y el resto

no habían visto el anuncio. Así mismo, cuarenta clientes hicieron compra, y de

ellos treinta habían visto el anuncio.

a) ¿Cuál es la probabilidad de que una persona que no vio el anuncio, hiciera

compra?

b) ¿Cuál es la probabilidad de que una persona que vio el anuncio, comprase?

Solución: a) 1/4 b) 1/2.

3. Probabilidades

-62-

3.10.9. Se dispone de una caja que contiene 5.000 chips, de los cuales 1.000

han sido fabricados por la compañía X y el resto por la compañía Y. El 10% de

los chips fabricados por la compañía X y el 5% de los fabricados por la compañía

Y son defectuosos. Si un chip seleccionado al azar es defectuoso, calcular la

probabilidad de que proceda de la compañía X.

Solución: 1/3.

3.10.10. Un sistema recibe energía eléctrica el 30% del tiempo, energía hidráulica

el 60% y energía mecánica el 10% restante. Cuando funciona eléctricamente la

probabilidad de avería es 0.002, cuando lo hace hidráulicamente es 0.001 y

cuando lo hace mecánicamente es 0.05. Hallar la probabilidad de avería.

Solución: 0.0062.

3.10.11. Una compañía utiliza un test para la contratación del personal. El test lo

aprueban el 60% de los aspirantes. De los que pasan el test el 80% completan la

formación. En una prueba, se empleó a aquellos aspirantes que no aprobaron el

test. La formación fue terminada con éxito solo por el 50% de este grupo. Si no

se usará ningún test, que porcentaje de aspirantes podría esperarse que

completarán la formación.

Solución: 0.68.

3.10.12. Dos cajas contienen cerrojos grandes y cerrojos pequeños. Supongamos

que una caja tiene 60 cerrojos grandes y 40 cerrojos pequeños y que la otra caja

tiene 10 grandes y 20 pequeños. Seleccionamos una caja al azar y extraemos un

cerrojo de la misma. Calcular la probabilidad de que el cerrojo sea grande.

Solución: 7/15.

3.10.13. Un lote de circuitos contiene un 2% de defectuosos. Cada circuito es

comprobado antes de su uso. El téster no es totalmente fiable ya que la

probabilidad de que el téster indique que un circuito es correcto siendo correcto

es 0.95 y la probabilidad de que el téster indique que es defectuoso siendo

defectuoso es 0.94. Si el téster ha indicado que un circuito es defectuoso, ¿cuál

es la probabilidad de que efectivamente sea defectuoso?

Solución: 0.2772.

3. Probabilidades

-63-

3.10.14. De todos los estudiantes de una universidad, el 70% son mujeres y el

30% son hombres. Si el 20% de las mujeres y el 25% de los hombres fuman.

Determinar la probabilidad de que un estudiante elegido al azar sea:

a) una mujer que fuma,

b) un hombre que fuma,

c) un fumador,

d) siendo fumador sea mujer.

Solución: a) 0.14 b) 0.075 c) 0.215 d) 0.651.

3.10.15. Un canal de comunicación binario transporta información con dos tipos

de señal representados por 0 y 1. Debido a los ruidos, un 0 transmitido es

recibido a veces como 1 y un 1 transmitido es recibido a veces como 0. Para un

canal dado la probabilidad de que un 0 transmitido sea recibido como 0 es 0.94 y

la probabilidad de que un 1 transmitido sea recibido como 1 es 0.91. Por otra

parte la probabilidad de transmitir un 0 es 0.45. Si se envía una señal, calcular:

a) la probabilidad de que se reciba un 1,

b) la probabilidad de que se reciba un 0,

c) la probabilidad de que se haya transmitido un 1, sabiendo que se ha recibido

un 1,

d) la probabilidad de que se haya transmitido un 0, sabiendo que se ha recibido

un 0.

e) la probabilidad de que haya un error en la transmisión.

Solución: a) 0.5275 b) 0.4725 c) 0.9488 d) 0.8952 e) 0.0765.

3.10.16. Sea un canal de comunicación, con tres tipos de señal 1,2 y 3 .Para i

=1,2,3, Ti es el suceso "el dígito i es transmitido y Ri es el suceso "el dígito i es

recibido". Sabemos que:

P(R1/T1 )=1-α P(R2/T1 )=α/2 P(R3/T1 )=α/2

P(R1/T2)=β/2 P(R2/T2)=1-β P(R3/T2)=β/2

P(R1/T3)=/2 P(R2/T3)=/2 P(R3/T3)=1-

Sabemos también que el 3 se transmite tres veces más que el 1, y el 2 dos veces

más que el 1.

a) Si se recibe un 1, ¿cuál es la probabilidad de que se haya enviado un 1?.

b) Calcular la probabilidad de que una transmisión sea errónea.

3. Probabilidades

-64-

Solución: a)(2-2α)/(2-2α+2β+3) b) (α/6)+(β/3)+(/2)

3.10.17. Supongamos dos líneas de fabricación del mismo producto. La primera

línea fabrica 20 unidades/hora, de las cuales el 90% son apropiadas para una

segunda operación. La segunda línea produce 90 unidades/hora, de las cuales

sólo el 20% son apropiadas. Todas las unidades van a un almacén común. Si al

extraer una pieza al azar, ha resultado ser apropiada, ¿cuál es la probabilidad

de que provenga de la primera línea?

Solución: 0.5

3.10.18. Por un canal de comunicación se transmite una de las sucesiones de

letras AAAA, BBBB o CCCC con probabilidades P1, P2 y P3 (P1+P2+P3 =1).

Cada letra transmitida se recibe correctamente con una probabilidad n y cada

una de las otras dos opciones erróneas (las otras dos letras) se reciben con

probabilidad (1-n)/2. Se supone que las letras se distorsionan

independientemente unas de otras (incluso dentro de la misma secuencia). Se

pide:

a) Hallar la probabilidad de que se haya transmitido AAAA si se ha recibido

ABCA.

b) Establecer la decisión a tomar al recibir ABCA cuando n=0.7 y P1=P2=1/8.

c) ¿Cuál es la probabilidad de que una secuencia recibida contenga al menos un

error?

Solución: a) 2nP1/(2nP1+(1-n)P2+(1-n)P3) b) La decisión es que sea transmitido

CCCC c) 0.76

3.10.19. El Departamento de Control técnico (DCT) realiza la clasificación de los

aparatos fabricados. Cada aparato tiene, independientemente de los demás,

defectos con una probabilidad p. Durante una comprobación el DCT revela la

existencia de defectos con una probabilidad igual a a. Además, durante la

comprobación un aparato en buen estado puede comportarse como defectuoso

con una probabilidad b. Todos los aparatos que en la comprobación se

comportan incorrectamente son rechazados.

a) Hallar la probabilidad 0q de que un aparato no desechado tenga defectos y la

probabilidad 1q de que un aparato desechado tenga defectos.

b) ¿Para qué condiciones 0q > 1q ?

3. Probabilidades

-65-

Solución: a) q0=(1-a)p/((1-a)p+(1-b)(1-p)) y q1=ap/(ap+b(1 -p)) b) b>a

3.10.20. En los ensayos de cierto equipo se ha determinado que la probabilidad

de buen funcionamiento de un relé, en ausencia de perturbaciones es 0.99,

si sólo hay sobrecalentamiento se sitúa en 0.95, si sólo hay vibraciones en 0.9 y

si se dan ambas circunstancias baja a 0.8. Se supone que ambas

perturbaciones se presentan independientemente.

a) Hallar la probabilidad de que el relé falle en un ambiente donde la probabilidad

de sobrecalentamiento es 0.2 y la de vibraciones de 0.1.

b) Sabemos que se ha producido un fallo. Se ha detectado que ha habido

sobrecalentamiento. ¿Cuál es la probabilidad de que también hayan habido

vibraciones? Y si no se supiera nada sobre el sobrecalentamiento, ¿cuál

sería la probabilidad de que hubiera habido vibraciones?

c) Si se trabaja ahora en un entorno donde sobrecalentamiento y vibraciones no

son independientes, sino que, con las probabilidades del apartado a), la

probabilidad de que se den ambas a la vez es 0.05, ¿cuál es la probabilidad

de que el relé funcione correctamente?

Solución: a) 0.0282 b) 0.3077 0.4255 c) 0.97

3.10.21. Si A y B son dos sucesos independientes entonces: (determinar la

respuesta incorrecta)

a) A y B no siempre son independientes.

b) P(A)P(A/B)

c) )AP()B/AP(

d) )AP(/B)AP(

3.10.22. La probabilidad de que funcione una máquina cuando no existe ni

sobrecalentamiento ni vibraciones es del 99%. Si hay vibraciones y no

sobrecalentamiento, la probabilidad de que funcione es del 95%. Si hay

sobrecalentamiento y no vibraciones, la probabilidad de que funcione es del 90%.

Y si existen vibraciones y sobrecalentamiento a la vez, la probabilidad de que

funcione es del 80%. Calcular la probabilidad de que dicha máquina funcione un

día cualquiera en una fábrica en la cual la probabilidad de que existan

vibraciones es del 20% y la probabilidad de que exista sobrecalentamiento es del

15%.

a) 0’8965

3. Probabilidades

-66-

b) 0’9667

c) 0’9208

d) 0’8999

3.10.23. Un proceso de fabricación puede estar ajustado o desajustado. Cuando

está ajustado produce un 1% de piezas defectuosas y cuando está desajustado

un 10%. El proceso está desajustado el 25% del tiempo. En un momento

determinado, se toma una muestra de 10 piezas y no aparece ninguna

defectuosa. Calcular la probabilidad de que esté ajustado en ese momento.

a) 0.8582

b) 0.8861

c) 0.9121

d) 0.9362

3.10.24. Dados dos sucesos A y B pertenecientes al mismo espacio muestral E, la

probabilidad de que ocurra A es de 0.85 y la probabilidad de que ocurra B de

0.25. Entonces:

a) A y B son siempre dependientes pero no excluyentes.

b) A y B son siempre mutuamente excluyentes pero no dependientes.

c) B está siempre incluido en A.

d) ninguna de las anteriores es cierta

3.10.25. Existe un test de control de piezas que rechaza piezas buenas un 5% de

las veces y piezas malas un 95%. Se sabe que en un proceso de fabricación en

el que se aplica este test, la probabilidad de que una pieza que ha sido

rechazada sea buena es del 0.9%. ¿Qué porcentaje de piezas defectuosas se

están produciendo en dicho proceso?

a) 85.28%

b) 90.32%

c) 14.73%

d) 79.89%


3.11.1. Para el siguiente esquema de fiabilidad, donde al lado de cada elemento

3. Probabilidades

-67-

figura la probabilidad de funcionamiento del elemento,

A

B

C

D

E

0,95

0,98

0,87

0,85

0,90

calcular la probabilidad de funcionamiento de todo el sistema. (1 punto)

Solución cuestión 2:

La probabilidad de funcionamiento del primer grupo es:

99987,0)]87,01)·(98,01)·(95,01[(1)]R1)(R1)(R1[(1R CBA1S

Y la probabilidad de funcionamiento del segundo grupos es:

985,0)]90,01)(85,01[(1)]R1)(R1[(1R ED2S

Y la probabilidad de funcionamiento de todo el sistema es,

9849,0985,0·99987,0R·RR 2S1SSYS

3.11.2. El departamento de recursos humanos de una gran empresa tiene clasificados a sus empleados por grupos de edad. Un total de 220 están entre 18 y 40 años, 150 entre 41 y 55 años y 50 con más de 56 años. De los más jóvenes el 20% tienen titulación superior, el 30% otras titulaciones y el resto no tiene estudios. El 15% del grupo de edad intermedia tiene titulación superior, el 40% otras titulaciones y el resto no tiene estudios. El grupo de mayor edad hay un 2% con titulación superior, 20% con otras titulaciones y el resto sin estudios. a) ¿Cuál es la probabilidad de que al seleccionar al azar a un trabajador sea del

grupo de los mayores y no tenga estudios? (0,5 puntos)

b) ¿Cuál es la probabilidad de que al elegir al azar un expediente sea de un

titulado superior? (0,5 puntos)

c) Si los expedientes se encuentran ahora agrupados en tres carpetas, una para

cada grupo de edad y se cogen al azar 6 trabajadores de una carpeta también

elegida al azar y resulta que solo 2 de ellos no tienen ningún tipo de estudio

¿Cuál es la probabilidad de que la carpeta elegida sea la de los jóvenes? (1

punto)

Solución cuestión 5:

3. Probabilidades

-68-

El árbol de Bayes es,

0,2

18-40

41-55

>=56

S

M

SE

S

M

SE

S

M

220/420

150/420

50/420

0,2

0,3

0,5

0,15

0,4

0,45

0,02

0,78

SE

C1

C2

C3

C4

C5

C6

C7

C8

C9

a) La probabilidad de que sea mayor de 56 y sin estudios es justamente el camino 9, esto es,

0929,078,0·420

509C)sSinEstudio56Edad(P ===∩>

b) La probabilidad de que al elegir uno al azar sea titulado superior es la suma de los caminos 1, 4 y 7, esto es:

16,002,0·420

5015,0·

420

1502,0·

420

220741)( CCCSuperiorP

c) Ahora el árbol de probabilidades es,

3. Probabilidades

-69-

2 de 6 sin estudios (c1)



otros

otros

otros

1/3

1/3

1/3

p1

1-p1

p2

1-p2

p3

1-p3

2344,0)5,01(5,0·2

6)2)5,0;6(B(P1p 42

2780,0)45,01(45,0·2

6)2)45,0;6(B(P1p 42

0214,0)78,01(78,0·2

6)2)78,0;6(B(P1p 42

18-40

41-55

>=56

La probabilidad pedida es,

P(jóvenes/hay 2 de 6 sin estudios)=

4391,0

0214,0·3

12780,0·

3

12344,0·

3

1

2344,0·3

1

3C2C1C

1C

3.11.3. Un fabricante de motores produce un 20% de defectuosos. El coste es de 5.000 € por unidad y el precio de venta es de 10.000 euros. Si el motor es defectuoso debe devolverse lo cobrado y pagar una indemnización de 7.000 €. a) Calcular el beneficio medio por motor si vende todos los motores tal como

salen de fábrica. (1 punto) b) Se puede hacer una prueba de control de calidad A que cuesta 3.000 €. y que

determina con toda seguridad si el motor es o no es defectuoso. Estudiar si es rentable la prueba. (1 punto)

c) Se puede utilizar una prueba alterativa B, que conduce a conclusiones erróneas en un 5% de los casos. Calcular el precio máximo que puede pagarse por dicha prueba. (1 punto)

d) En qué porcentaje de los casos en los que la prueba B indique que el motor es correcto se tendrá que pagar indemnización. (1 puntos)

NOTA: se asume que cuando la prueba indica que el motor es defectuoso no se vende el mismo, mientras que si la prueba indica que el motor es correcto, se vende.

a) E(B) = 0.8×5000 + 0.2×(-5000-7000)= 4000 – 2400 = 1600 euros

b) E(B) = 0.8×(5000-3000) + 0.2×(-5000-3000)=1600 –1600 = 0 euros. Como 0 euros es menos que 1600 euros, NO ES RENTABLE hacer la prueba.

3. Probabilidades

-70-

c)

E(B)=0.8×0.95×(5000-x)-0.8×0.05×(5000+x)-0.2×0.95×(5000+x)-0.2×0.05×(12000-

x)=1600

Despejando,

2530-x=1600, de donde el precio máximo a pagar por la prueba es 930 euros.

d)

MD=Motor defectuoso

MC=Motor correcto

PC=Prueba correcta

Por el teorema de Bayes,

P(MD/PC)= P(PC/MD)×P(MD)/P(PC)=0.05×0.2/0.77=1.3%

Donde, por el teorema de la probabilidad total,

P(PC)= P(PC/MD)×P(D)+P(PC/MC)×P(MC)=0.05×0.2+0.95×0.8=0.01+0.76=0.77

Motor Correcto

0.8

Motor Defectuoso

0.2

Prueba Correcto

0.95

Prueba

Defectuoso

0.05

Prueba

Defectuoso

0.95

Prueba Correcto

0.05

B=10000-5000-x

B=-5000-x

B=-5000-x

B=-5000-7000-x

3. Probabilidades

-71-

3.11.4. Una empresa electrónica fabrica una placa base para un determinado tipo de ordenador. Se sabe que el porcentaje de placas base defectuosas de toda la producción es del 2%. El coste de fabricación de cada placa es de 100€ y se vende cada una a 300€. Si al instalar en el ordenador se detecta que no funciona bien, se debe reemplazar por otra que seguro que no es defectuosa, pero cuyo coste de fabricación es de 150€. La empresa puede realizar un test antes de venderla, pero este test, cuando la placa es correcta, falla en el 1% de los casos, y cuando la placa realmente está mal, acierta en el 90% de los casos. Se pide:

a) Sabiendo que el test dice que una placa está bien, calcular la probabilidad de que dicha placa realmente sea defectuosa. (0,75 puntos)

b) Calcular el porcentaje de veces que se equivoca el test. (0,75 puntos) c) Si el test resulta positivo, se instala la placa tal y como está (aun pudiendo ser

defectuosa). Si el test resulta negativo, una reparación de 10 € asegura que la placa estará bien. ¿Cuál es el precio máximo que debemos pagar por el test para que, en promedio, sea rentable?(2 puntos)

d) Si la placa base internamente consta de 10 componentes idénticas e independientes, que asumimos que están montados en serie, y un requisito es que la probabilidad de no fallo de la placa base es del 80%, ¿cuál debe ser la probabilidad de no fallo de cada componente? (0,75 puntos)

Solución Cuestión 1:

C

D

+

-

+

-

C1

C2

C3

C4

0,98

0,02

0,99

0,01

0,1

0,9

a) 0021,09722,0

002,0

1,0·02,099,0·98,0

1,0·02,0

3C1C

3C)/D(P

b) P(Error)=P(C2+C3)=0,98·0,01+0,02·0,1=0,0118. Es decir, el 1,18 % de las veces

se equivoca el test.

c) El beneficio es

3. Probabilidades

-72-

C

D

+

-

+

-

C1

C2

C3

C4

0,98

0,02

0,99

0,01

0,1

0,9

=0,9702

=0,0098

=0,002

=0,018

B1=300-100=200

B2=-100+300-10=190

B3=300-100-150=50

B4=-100+300-10=190

El valor medio del beneficio es,

E(B) = 200·0,9702+(190)·0,0098+50·0,002+(190)·0,018 = 199,442

Sin hacer el test, el árbol con los beneficios es,

C

D

B1=300-100=200

B2=300-100-150=50

Y el valor medio del beneficio es,

E(B)=0,98·200+0,02·50=197

El precio máximo del test es 199,332-197=2,442 €.

d)

Para que funcione el sistema deben funcionar todos los elementos, por lo que la

probabilidad de funcionamiento del sistema es,

3. Probabilidades

-73-

8,0)C(P)C(P)····C(P)·C(P)C····CC(P)S(P 1010211021

De donde 9779,08,0)C(P 10/1 debe ser la de cada componente.

3.11.5. Los componentes de un determinado producto están dispuestos según la figura de abajo, donde al lado de cada elemento se indica la probabilidad de no fallo del mismo.

1

2

3

4

5

0,85 0,75

0,93

0,95

?

a) ¿Cuál debe ser la probabilidad de no fallo del componente 4 para que en

conjunto la probabilidad de no fallo sea del 90%?

(1.5 puntos)

SOLUCIÓN:

Llamando de R la probabilidad de no fallo de cada componente, la fiabilidad del

sistema es,

54321sys R))·R1)·(R1(1))·(R1)·(R1(1(R

Sustituyendo valores,

95.0))·R1·(25.01)·(07.0·15.01(90.0 4

95.0))·R1·(25.01(9895.090.0 4

9574.0)R1·(25.01 4

1703.025.0

9574.01)R1( 4

De donde la probabilidad de no fallo del componente 4 es 8297.0R4

3.11.6. Para comprobar si un motor eléctrico es correcto o defectuoso el Departamento de Calidad aplica dos pruebas independientes y sucesivas. La primera prueba tiene una probabilidad de acertar en el diagnóstico del 90%, y la segunda prueba, cuando el motor es correcto acierta el 95% de los casos, pero cuando el motor es defectuoso se equivoca en el 7% de las veces. Sabiendo que

3. Probabilidades

-74-

la proporción de motores defectuosos es del 5%, se pide:

a) Si una cualquiera de las pruebas, pero no ambas, dice que el motor es correcto,

¿qué proporción de casos realmente será correcto el motor?

(1 punto)

b) ¿Cuál de las dos pruebas tiene mayor probabilidad de error?

(1 punto)

SOLUCIÓN:

a) El árbol de probabilidades es,

C

D

+

-

+

-

0.07

+

-

+

-

+

-

+

-

0.95

0.05

0.90

0.10

0.10

0.90

0.95

0.05

0.95

0.05

0.93

0.07

0.093

C1

C2

C3

C4

C5

C6

C7

C8

La probabilidad que nos piden es,

945.0141.0

1331.0

0032.00047.00903.00428.0

0903.00428.0

07.0·90.0·05.093.0·10.0·05.095.0·10.0·95.005.0·90.0·95.0

95.0·10.0·95.005.0·90.0·95.0

7C6C3C2C

3C2C)1/C(P

b) La probabilidad de error de la primera prueba es del 10%, y la de la segunda

prueba, árbol de probabilidades es,

3. Probabilidades

-75-

C

D

+

-

+

-

0.95

0.05

0.95

0.05

0.07

0.93

C1

C2

C3

C4

La probabilidad de error viene dada por la suma de probabilidades de los caminos 2 y

3. Esto es,

051.007.0·05.005.0·95.03C2C)Error(P

Por lo que la prueba 1 es la de mayor probabilidad de error.

3. Probabilidades

-76-

4. Concepto de variable aleatoria

-77-

4. CONCEPTO DE VARIABLE ALEATORIA

Contenido 4.1. DEFINICIÓN DE VARIABLE ALEATORIA UNIDIMENSIONAL ...................... 77 4.2. FUNCIÓN DE DISTRIBUCIÓN ....................................................................... 78 4.3. VARIABLES DISCRETAS .............................................................................. 79 4.4. VARIABLES CONTINUAS ............................................................................. 81

Función de densidad ......................................................................................... 81 Transformación de variables aleatorias ............................................................. 84

4.5. ESPERANZA MATEMÁTICA ......................................................................... 85 Esperanza matemática ...................................................................................... 85 Momentos ......................................................................................................... 86

4.6 PARÁMETROS DE TENDENCIA .................................................................... 88 Valor medio ....................................................................................................... 88 Mediana ............................................................................................................ 89 Cuartiles ............................................................................................................ 89 Moda ................................................................................................................. 90

4.7. VARIANZA. CONCEPTO Y PROPIEDADES ................................................. 90 Desviación típica ............................................................................................... 91

4.8. OTROS PARÁMETROS DE UNA DISTRIBUCIÓN ........................................ 91 Rango o Recorrido ............................................................................................ 91 Coeficiente de variación .................................................................................... 92 Coeficiente de asimetría ................................................................................... 92 Coeficiente de apuntamiento o de curtosis ........................................................ 92

4.9. DISTRIBUCIONES BIDIMENSIONALES ....................................................... 93 Concepto ........................................................................................................... 93 Función de distribución ..................................................................................... 94 Función de densidad ......................................................................................... 95 Función de densidad marginal........................................................................... 96 Función de densidad condicional ...................................................................... 98 Independencia de variables aleatorias .............................................................. 99 Esperanza de vectores aleatorios ................................................................... 100 Momentos ....................................................................................................... 101 Matriz de varianzas-covarianzas ..................................................................... 102 Combinación lineal de variables aleatorias ...................................................... 106 Curva de regresión condicional ....................................................................... 106 Recta de regresión mínimo cuadrática ............................................................ 107

4.10. PROBLEMAS PROPUESTOS ................................................................... 109 4.11. PROBLEMAS Y CUESTIONES DE EXÁMENES ....................................... 113

4.1. DEFINICIÓN DE VARIABLE ALEATORIA UNIDIMENSIONAL

Dado un espacio de probabilidades (E,F,P) vemos que podemos asignar una

probabilidad a cada FA , pero en lugar de manejar frases para designar a los

sucesos, es más cómodo numerizar los posibles resultados del experimento

aleatorio, de esta forma todas las frases se corresponden con números. Estos


-78-

números serán variables y como su resultado es impredecible las llamamos variables

aleatorias.

Más concretamente, dado un espacio probabilístico (E,F,P) diremos que la

aplicación RE:X es una variable aleatoria unidimensional, si y solo si, la

antiimagen de cualquier intervalo x],-=]I x

pertenece a la sigma-álgebra F. La

representación gráfica de una variable aleatoria aparece en la Figura 4.1

.

Figura 4. 1.Variable aleatoria.

Todos los conjuntos de la forma x],-] , más sus complementarios y los que

se pueden obtener por operaciones de unión e intersección, forman lo que se llama

un conjunto de Borel en R, y cualquier conjunto está probabilizado, ya que su

antiimagen pertenece a F, el cual está probabilizado por la medida P. Esto es, la

probabilidad asignada a un conjunto de la recta real es la probabilidad de su

antiimagen. Así:

x)P(X=x)P(X(e)=)]I(OP[=)Ip(X=)IP( xxxx

Llamando a )I(O xx el original por la aplicación X del conjunto I x .

4.2. FUNCIÓN DE DISTRIBUCIÓN

Dada una variable aleatoria X, se llama función de distribución de esta variable a la

función F(x) definida como sigue:

x)P(X=x)P(X(e)=)IP(=F(x) Rx x


-79-

Esta función F(x) tiene las siguientes propiedades:

1) Rx es 1F(x)0 , pues es una probabilidad.

2) El 1=F(x) lim+x

.

3) El 0=F(x) lim-x

.

4) La F(a)-F(b)=b])]a,P(x , ya que como b<a se cumple que

b],-=]b]a]+]a,,-]

=b]]a,a],-]

y por el axioma tercera de la probabilidad,

F(a)-F(b)=b)X<P(a

luego,

b],-]P(x=b])]a,P(x+a]),-]P(x

5) F(x) es no decreciente. De la propiedad anterior:

b)X<P(a+F(a)=F(b)

6) F(x) es siempre continua por la derecha y si 0=a)=P(X , también es

continua por la izquierda. Si 0a)=P(X es discontinua por la izquierda con un salto

igual a a)=P(X .

Una analogía mecánica que resulta útil es pensar que la cantidad de masa

(tiza) de 1 gramo se reparte a lo largo de la recta real, y entonces la función de

distribución en un punto se define como la cantidad de masa que existe a su

izquierda, incluyendo dicho punto.

4.3. VARIABLES DISCRETAS

Una variable aleatoria es discreta cuando toma un conjunto finito de valores. También

se llama categórica.


-80-

La cantidad de masa se encuentra almacenada en un conjunto de puntos de

la recta real. La función de probabilidad P(x) define la cantidad de masa de cada

punto. La función de distribución tiene unos saltos en los puntos discretos de masa.

Si la v.a. es discreta, la cantidad de masa está repartida en una serie de

puntos discretos de la recta real, cada uno de ellos con 0)xP( i . La función de

distribución es la suma de todas las masas que hay a la izquierda, esto es:

)xP(=F(x) i

xxi

La forma gráfica es una función escalonada donde en cada punto donde

existe la variable, hay un salto igual a la probabilidad en dicho punto.

Actividad 4.1:

Dibujar la función de probabilidad de la variable aleatoria del dado.

Dibujar la función de distribución de la variable aleatoria del dado.

¿Cuánto vale P(X=6)?

¿Cuánto vale F(2,5)?

¿Cuánto vale F(3)?

¿Cuánto vale P(X>=5)?

¿Cuánto vale P(x<5)?

Calcular la función de distribución de la variable aleatoria suma de puntos al lanzar dos dados.

Prob. de Evento,Ensayos

0,1,10

Binomial Distribución

x

pro

ba

bilid

ad

0 2 4 6 8 10

0

0,1

0,2

0,3

0,4

Figura 4. 2. Función de probabilidad discreta


-81-

Figura 4. 3. Función de distribución discreta

4.4. VARIABLES CONTINUAS

Para una variable continua, la gráfica no presenta ningún salto. Se trata del límite de

la variable aleatoria discreta.

Función de densidad

Diremos que X es una v.a. continua, si existe una función f(x) no negativa, tal que

para todo a de la recta real se cumple que:

f(x)dx=(a)F

a

-

x

Esta función f(x) se denomina función de densidad.

También decimos que X es continua si la F(x) es continua en todo punto y

derivable respecto de x, excepto a lo sumo en un número finito de puntos o

intervalos. La derivada de la función de distribución es la función de densidad,

dx

dF(x)=f(x)

Por la definición matemática de derivada, se tiene que:

Prob. de Evento,Ensayos

0,1,10

Binomial Distribución

x

pro

bab

ilid

ad

acu

mula

tiva

0 2 4 6 8 10

0

0,2

0,4

0,6

0,8

1


-82-

x

F(x)-x)+F(x=

dx

dF(x)=f(x)

0x

lim

El numerador del límite expresa la cantidad de masa que hay en un intervalo

de longitud x . Cuando 0x , el límite expresa la cantidad de masa que hay

encima de un incremento infinitesimal, esto es, la cantidad de masa por unidad de

longitud, lo que en mecánica recibe el nombre de una densidad, y de ahí el nombre

de función de densidad para designar f(x) .

Para una variable aleatoria continua, la probabilidad de exactamente un punto

es 0=a)=P(X , es decir, no hay probabilidad pero si hay densidad de probabilidad

encima del punto.

La cantidad de masa en el intervalo b]=]a,I es:

b)<XP(a=b)X<=P(a=f(x)dx=F(a)-F(b)=b)X<P(a

b

a

Si X es continua, la cantidad de masa en toda la recta real es:

)F(--)F(+=1=f(x)dx

+

-

la cantidad de masa en un diferencial de longitud es:

f(x)dx

La función de densidad se puede tomar como el límite de un histograma de

frecuencias cuando la base de los rectángulos es infinitesimal.

Para una variable discreta no existe la función de densidad, y la función que

expresa la cantidad de masa que hay en cada punto la denominamos "función de

probabilidad".

Actividad 4.2:

Si X está distribuida uniformemente entre 1 y 3:

o ¿Cuánto vale la función de distribución en un punto cualquiera a?

o ¿Cuánto vale la función de densidad en un punto cualquiera a?

Si X está distribuida de forma triangular como se expresa en la figura siguiente,


-83-

0 3x

f(x)

Figura 4. 4 Distribución triangular

o Calcular la función de densidad y la función de distribución en un punto cualquiera a

o ¿Cuál será la probabilidad de que un punto esté entre 1,5 y 2,5?

Si X está distribuida de forma triangular como se expresa en la figura siguiente,

0 42

x

f(x)

Figura 4. 5 Distribución en triángulo isósceles

o Calcular la función de densidad y la función de distribución en un punto

cualquiera a

o ¿Cuál será la probabilidad de que un punto esté entre 1,5 y 2,5?


-84-

Figura 4. 6. Función de densidad

Figura 4. 7. Función de distribución

Transformación de variables aleatorias

En muchas ocasiones una variable aleatoria se obtiene como una función de

otra variable aleatoria, esto es una transformación del tipo Y=g(X), y deseamos

conocer la distribución de la nueva variable aleatoria Y sabiendo la distribución de X.

Para ello aplicamos la definición de la función de distribución de Y,

)aY(P)a(Fy

Y sustituyendo la expresión de Y en función de X, tenemos que,

)a(gF))a(gX(P)a)X(g(P)aY(P)a(F 1

x

1

y

Media

10

Exponencial Distribución

0 10 20 30 40 50 60

x

0

0,02

0,04

0,06

0,08

0,1

dens

idad

Media

10

Exponencial Distribución

0 10 20 30 40 50 60

x

0

0,2

0,4

0,6

0,8

1

pro

ba

bili

da

d a

cu

mu

lativ

a


-85-

Una vez conocida la función de distribución de Y, podemos obtener todas las

demás características de la variable Y.

e

XY

Y=g(X(e))

X(e)

Espacio muestral

Figura 4. 8. Transformación de variables

Por ejemplo, supongamos que el coste de una determinada materia prima

fluctúa en el mercado según una función de densidad de,

12x1052

x)x(f

Pero el precio de venta de dicha materia prima es Y=1,3*X+20. La

probabilidad de que el precio de venta sea menor de 34 es,

148,0dx52

x)77,10X(P

)30,1

2034X(P)3420X·30,1(P)34Y(P

77,10

10

4.5. ESPERANZA MATEMÁTICA

Esperanza matemática

Actividad 4.3:

Un casino plantea el siguiente juego de azar. Se hace una apuesta del resultado de

lanzar un dado. Se lanza una dado, si sale un 1, el casino dará 1000€, si sale un 2 ó

un 3, el casino dará 500€, y si sale un 4, un 5 ó un 6, el casino dará 100€. ¿Cuánto

tendremos que pagar por cada apuesta para participar en el juego?


-86-

Dada la variable aleatoria X y una función uniforme g(x) , llamamos Esperanza

matemática de dicha función, a la expresión:

Si la v.a. es discreta, la esperanza matemática es:

)x)P(xg(=E[g(x)] ii

xi

y si la v.a. es continua, es:

g(x)f(x)dx=E[g(x)]

donde f(x) es la función de densidad de una variable aleatoria continua.

El concepto de esperanza matemática es el valor que cabe esperar de la

función g(x), si repetimos el experimento aleatorio hasta el infinito.

Actividad 4.4:

Calcular el valor medio de la suma de puntos al lanzar dos dados.

La esperanza matemática es un operador lineal, esto es, sea X una variable aleatoria,

y (x)gy (x)g 21 dos funciones uniformes de la misma, entonces la esperanza

matemática de una combinación lineal de dichas funciones es:

(x)]gE[·b+(x)]gE[·a=(x)]g·b+(x)g·E[a2121

La expresión se deduce a partir de la definición de integral de Rieman-Stieljes.

Momentos

Dada la v.a. X, para el caso particular de que la función g(x) sea x=g(x) , la

esperanza matemática de dicha función se denomina momento respecto al origen de

orden , y se escribe:

Si la v.a. es discreta, se tiene:


-87-

)P( xx=)XE(= ii

xi

y si la v.a. es continua,

f(x)dxx=)XE(=_

El primer momento respecto al origen, recibe el nombre de media, o valor

medio, de la v.a. X, y se representa por la letra (griega).

Caso discreto es:

)P( xx= ii

xi

Caso continuo es:

xf(x)dx=

+

-

Si la función g(x) es ahora )-(X=g(x)

, donde a cada valor de X le hemos

restado su media, es decir hemos centrado la variable, entonces la esperanza

matemática de dicha función se denomina "momento centrado de orden , y su

expresión es:

Si la v.a. es discreta:

)P(x)-x(=)-E(X= ii

xi


f(x)dx)-(x=)-E(X=

donde f(x) es la función de densidad, de la v.a. X.

El momento centrado de orden uno es siempre nulo, ya que

0-=dx)x(f-dx)x(xf=dx)x()f-(x=)-E(X=1

ya que dx)x(f

expresa toda la cantidad de masa que hay en la recta real.


-88-

Todo momento centrado se puede poner en función de momentos respecto al

origen, desarrollando el polinomio y tomando valores medios.

4.6 PARÁMETROS DE TENDENCIA

Valor medio

Ya hemos definido el valor medio como

dx)x(xf=E(X)=

+

-

y expresa, mecánicamente, el centro de gravedad de la distribución de masas.

Es una medida "poco robusta", ya que un valor extremo modifica totalmente el

centro de masas. Gráficamente se puede asimilar al punto de apoyo de una barra,

donde arriba situamos una serie de pesos, ya sea de forma puntual, caso de v.a.

discreta, o continua, caso de v.a. continua.

Tiene las siguientes propiedades:

1) Si multiplicamos la v.a. por una constante a, el valor medio queda

multiplicado por dicha constante.

a.=E(aX)

2) El valor medio de una constante es la misma constante.

a=E(a)

3) El valor medio de una suma de variables aleatorias es la suma de sus

medias.

n21n21n21 ...++=)XE(...++)XE(+)XE(=)X...++X+XE(

4) El valor medio de una combinación lineal de variables aleatorias es la

combinación lineal de sus medias, esto es:

nn2211

nn2211nn2211

a...++a+a=

)XaE...++)XaE(+)XaE(=)Xa....++Xa+XaE(


-89-

Si el espacio muestral es discreto y simétrico, con n elementos, n

1=)xP( i y

el valor medio es

n=

n

1=)P(

x

xxx=E(x)

i

ii

i

ii

i

Actividad 4.5:

Calcular el valor medio de la variable aleatoria número de puntos al lanzar un dado.

Calcular el valor medio de la distribución uniforme entre a y b.

Calcular el valor medio de la distribución triangular.

Calcular el valor medio de la distribución exponencial.

Mediana

Expresa el punto por debajo del cual está el 50% de los valores y por encima el 50 %

de los valores. Matemáticamente, es aquel valor de x para el cual F(x), la función de

distribución, vale 0,5.

0,5=)xF( med

A aquel valor de x por debajo del cual hay una cantidad de masa de p%, se le

llama percentil p. De esta forma:

p=)xF( p

La mediana es el percentil 50%.

La mediana es una medida muy robusta, ya que para un valor extremo

apenas se modifica.

Cuartiles

Si la cantidad de masa la dividimos en 4 partes, a cada uno de los puntos de

la división se le llama "cuartil". Así el "tercer cuartil" es el que tiene por debajo de él

una cantidad de masa del 75%, es decir las 3/4 de los valores de x.


-90-

Moda

Como su nombre indica, es el valor más frecuente, es decir, el máximo valor de

)xP( i , para una distribución discreta, o el valor máximo de la curva f(x). Esta curva

puede tener varios máximos, y entonces la distribución se denomina "multimodal".

4.7. VARIANZA. CONCEPTO Y PROPIEDADES

Se define como el momento centrado de orden 2, es decir:

222 )X(E)X(D)Xvar(

Si la v.a. es discreta:

)xP()-x(=)-E(X= i

2

i

x

22

i

y si la v.a. es continua:

f(x)dx)-(x=)-E(X=2

+

-

22

Como todos los valores están elevados al cuadrado, siempre es una cantidad

positiva. Cuanto mayor sea dicha cantidad, mayor dispersión hay en los datos.

Esta medida tiene las siguientes propiedades:

1) La varianza de una constante es cero.

0=a)-E(a=(a)D2

2) La varianza de una constante por la v.a. X es la constante al cuadrado por

la varianza de la variable aleatoria X.

(X)Da=(a.X)D222

(X)Da=)-E(Xa=])-(XaE[=)a-E(aX=(aX)D222

x

22

x

22

x

2

3) La varianza de b+X·a es:

(X)Da=b)+(aXD222

4) La varianza en función de los momentos respecto al origen vale:


-91-

=)+x2-XE(=)-E(X=(X)D2222

212

22 -=+E(X)2-)XE(=

E(X)-)XE(=(X)D222

Desviación típica

La varianza es una medida al cuadrado y por lo tanto no se puede comparar con la

medida X. Para poder hacer comparaciones empleamos la raíz cuadrada en signo

positivo de la varianza, a la cual denominamos desviación típica, y se expresa por:

2+=var(x)+=D(X)=

Si la desviación típica es grande, indica que hay una gran dispersión en los

datos.

Tanto la varianza como la desviación típica son medidas poco robustas, ya

que para valores extremos (muy altos o muy bajos) se modifica en gran manera su

valor.

Actividad 4.6

Calcular la variancia de la variable aleatoria del dado.

Calcular la variancia de la distribución uniforme entre a y b.

Calcular la variancia de la distribución triangular.

Calcular la variancia de la distribución exponencial.

4.8. OTROS PARÁMETROS DE UNA DISTRIBUCIÓN

Rango o Recorrido

Otra idea de la dispersión de los datos la indica la diferencia entre el máximo y el

mínimo, a la cual denominamos "Recorrido" o "Rango" de variación de la v.a. X.


-92-

Coeficiente de variación

Es el cociente entre la desviación típica y la media de la v.a.

=C.V.

Sirve para comparar dispersiones de dos distribuciones, cuando éstas tienen

diferentes situaciones en la recta real.

Coeficiente de asimetría

Para ver si una distribución es asimétrica, empleamos el momento centrado de orden

3, ya que si existe simetría respecto de la media, los valores por encima de la media

tienden a compensarse con los valores por debajo de la media, y su valor será nulo.

De lo contrario, habrá un valor + si la asimetría es hacia la derecha de la media, o un

valor "-", si la asimetría es hacia la izquierda.

Pero como son valores al cubo, para que sea una medida adimensional,

dividimos por el cubo de la desviación típica. Se representa por

3

3

i

N

1i=

1)-/(N)x-(x

=CA

Coeficiente de apuntamiento o de curtosis

Para conocer el mayor o menor grado de apuntamiento de la distribución, se emplea

el momento de orden 4, y para que sea adimensional, lo dividimos por la desviación

típica elevada a la cuarta. Se representa por:

4

4

i

N

1i=

1)-/(N)x-(x

=CC

Si es igual a 3, es el caso estándar, >3, está por encima del caso estándar, y <3 está

por debajo del caso estándar.


-93-

4.9. DISTRIBUCIONES BIDIMENSIONALES

Concepto

Si al realizar un experimento observamos dos o más valores, por ejemplo, al extraer

una persona al azar podemos anotar el peso, la altura, la edad, etc. Las dos, tres o

más características observadas constituyen una variable aleatoria bidimensional o n-

dimensional.

La v.a. bidimensional se define como una aplicación del espacio muestral en

el plano R2 , de manera que a cada punto del espacio muestral le corresponde un

punto en el plano R2 .

Al igual que en el caso unidimensional, podemos pensar que la masa de 1

gramo se encuentra ahora repartida en el plano, de manera que para cualquier punto

del plano, la antiimagen del conjunto de puntos del plano,

xX,xX)/x,x(=I 221121x,x 21

es un suceso perteneciente a la -álgebra F, y por lo tanto, probabilizable.

Si las dos coordenadas son puntos discretos, entonces se dice que la v.a.

bidimensional es discreta, y si ambas son continuas, la v.a. bidimensional es

continua. Puede ser que una sea discreta y la otra continua, en cuyo caso cabe

hablar de v.a. mixtas.

Gráficamente se representa en la Figura 4.9


-94-

Figura 4. 9. Definición de variable aleatoria bidimensional

Función de distribución

Dada una v.a. bidimensional, definimos la función de distribución )x,xF( 21 como

)I(e))X(e),XP((=)xX;xXP(=)x,xF( x,x21221121 21

es decir, es la cantidad de masa que existe por debajo y a la izquierda del punto

)x,x( 21 , incluyendo dicho punto.

Esta función tiene las siguientes propiedades:

1) 1)x,xF(0 21 .

2) 0=)x,xF( 21

-x

lim1

0=)x,xF( 21

-x

lim2

3) 1=)x,xF( 21

+x+x

lim2

1

4) La cantidad de masa en el rectángulo de la Figura 4.10 es:


-95-

Figura 4. 10. Función de distribución

)a,aF(+)b,aF(-)b,aF(-)b,bF(=)bX<a;bX<aP( 21122121222111

5) )x,xF( 21 es siempre continua por la derecha y discontinua por la izquierda

de )x , x( 21 en aquellos puntos de probabilidad no nula.

6) Para v.a. discretas se obtiene sumando todas las masas que hay por

debajo y a la izquierda de punto )x,x( 21 , incluyendo dichos valores.

Función de densidad

Si la variable aleatoria es continua, la cantidad de masa que hay por debajo y a la

izquierda del punto )x,x( 21 equivale a calcular el volumen de masa en cada punto, la

de una función de punto, a la que llamamos función de densidad, de tal forma que:

1=xdx)dx,xf(y 0)x,xf( 2121

+

-

+

-

21

La función de distribución se obtiene a partir de la función de densidad como:

xdx)dx,xf(=b)F(a, 2121

b

-

a

-


-96-

O también por derivación parcial de la función de distribución, obtenemos la

función de densidad:

xx

)x,xF(=)x,xf(

21

212

21

Como significado físico, es la cantidad de masa por unidad de superficie.

La cantidad de masa debajo de una área A viene dada por

xdx)dx,xf(=A))x,xP( 2121A21

Para un rectángulo es:

xdx)dx,xf( =)bXa;bXaP( 2121

b

a

b

a

222111

2

2

1

1

Al igual que en el caso unidimensional, cuando la v.a. es continua no existe

cantidad de masa en un punto, pero sí que hay densidad encima de él.

Función de densidad marginal

Dada la v.a. bidimensional )X,X( 21 con función de distribución )x,xF( 21 , y en el

caso continuo, función de densidad )x,xf( 21 , deseamos saber la distribución de una

de ellas, sin tener en cuenta la otra. A ello se llama distribución marginal, ya que en

una tabla de doble entrada se calculaba en el margen derecho o en el margen inferior

de la tabla, de ahí el término de "marginal".

La distribución marginal de X 1 se obtiene imponiendo la condición de que

X 2 pueda tener cualquier valor entre - y + . Así la función de distribución

marginal de X 1 es:

xdx)dx,xf( =)x,xF(=)xF( 1221

+

-

x

-

21

+x

1

1

2

lim

y la función de densidad marginal es:

x)dx,xf(=)xf( 221

+

-

1


-97-

Para variables discretas se tiene que la función de probabilidad es,

)x,xP(=)XP( 2j1i

j

1i

Físicamente, viene a ser la proyección de toda la cantidad de masa que había

en el plano, sobre un solo eje, ya sea el X 1 , o el X 2 .

X1

X2

x1

Figura 4. 11 Distribución marginal de X1

Actividad 4.7:

1. Para la siguiente distribución bidimensional, calcular:

o P(X1=1).

o PX2=2).

o P(X1<=2).

o P(X1=2,X2=2)

Figura 4. 12 Distribución marginal de X1

X1 1 2 3

1

2

X2

0,28

0,24

0,18

0,15

0,09

0,06


-98-

Función de densidad condicional

En otras ocasiones nos interesa conocer, para un determinado valor de la variable,

como se distribuye la otra. Por ejemplo, para aquellas personas que pesan 70 kg.,

cuál es la distribución de sus alturas. A esta distribución se llama "distribución

condicional".

Físicamente equivale a realizar un corte infinitesimal que pasa por el punto

condicionante y paralelo al otro eje. Pero como la cantidad de masa que se toma ya

no vale la unidad, debemos hacer una redistribución de manera que siga valiendo la

unidad.

La función de distribución se define como el límite de:

h)+xXxP(

h)+xXxxXP(=h)+xX<x/xXP( =)x/xF(

111

11122

0h

11122

0h

12

limlim

Si la v.a. )X,X( 21 es discreta, la probabilidad condicionada se obtiene

imponiendo la condición de que la suma de pesos debe ser la unidad, y para ello

nada más que dividir cada peso )x,xP( 21 por el total, que corresponde a la

distribución unidimensional. Esto es,

)x/x)P(xP(

)x/x).P(xP(=

)xP(

)x/x).P(xP(=

)xP(

)x,xP(=)x/XP(

2j12j

j

212

1

212

1

1212

Si la v.a. )X,X( 21 es continua, análogamente es

x)dx/x)f(xf(

)x/x).f(xf(=

)xf(

)x/x)f(xf(=

)xf(

)x,xf(=)x/xf(

2212

212

1

212

1

2112

cuya expresión es semejante al Teorema de Bayes.

Si la v.a. bidimensional es mixta se tiene en cuenta si la condicionante es

discreta o continua, y si la condicionada es discreta o continua.

Gráficamente, y empleando la analogía mecánica, es fácil deducir cada

expresión. Recordar que una v.a. discreta no tiene función de densidad. Al pasar de

discretas a continuas, la regla sencilla es que donde pone "P" se cambia a "f", de

función de densidad, y donde pone un , se cambia a .


-99-

X1

X2

x1+h x1

Figura 4. 13Distribución condicional de X2/x1

Actividad 4.8:

Para la siguiente distribución bidimensional calcular:

o P(X2<=1/X1=2)

o P(X2=1/x1<=2)

o P(X1<=2/X2=2)

Figura 4. 14 Distribución condicional

Independencia de variables aleatorias

Dada una variable aleatoria bidimensional )X,X( 21 diremos que las v.a. marginales

X,X 21 son independientes, cuando para cualquier 2R)x,x( 21 se cumple que los

sucesos ]x,-] 1 y ]x,-] 2 son independientes, lo cual significa que:

)xX).P(xXP(=)xXxXP( 22112211

X1 1 2 3

1

2

X2

0,28

0,24

0,18

0,15

0,09

0,06


-100-

Esto equivale a decir que la función de distribución conjunta es igual al

producto

)x(F).x(F=)x,xF( 221121

Si la v.a. es continua, y las marginales son independientes, la función de

densidad es el producto de funciones de densidad marginales.

)x(f).x(f=)x,xf( 221121

También se cumple que:

)xf(=)xf(

)x).f(xf(=

)xf(

)x,xf(=)x/xf( 2

1

21

1

2112

es decir, semejante a la probabilidad condicional.

Si las variables aleatorias marginales no son independientes, la función de

densidad conjunta se puede calcular como:

)x/x).f(xf(=)x/x).f(xf(=)x,xf( 21212121

Esperanza de vectores aleatorios

Dada la v.a. )X,X( 21 y una función uniforme )x,xg( 21 se define esperanza

matemática de dicha función, al valor medio que cabe esperar de dicha función, al

extraer infinitos valores de la v.a. bidimensional. Su expresión es

Si la v.a. es discreta,

)x,x)P(x,xg(=)]x,xE[g( 2j1i2j1i

ji

21


xdx)dx,x)f(x,xg(=)]x,xE[g( 212121R21 2

Además de la propiedad de ser operador lineal, si las variables X,X 21 son

independientes y )x(gy )x(g 2211 son funciones uniformes de Xy X 21 ,

respectivamente, entonces el valor medio del producto es el producto de valores

medios:


-101-

)]x(gE[·)]x(gE[=)]x(g·)x(gE[ 22112211

La media de la suma de v.a., sean varias independientes ó no, son suma de

valores medios.

Para distribuciones condicionales, el valor medio de una función es:

x)dx/x(f )xg(=)x)/xE[g( 121c1

+

-

21

Pudiendo variar los límites de integración para cada valor de x2 .

Momentos

Si la función )x,xg( 21 es ahora x.x=)x,xg( v2

u121 , a su esperanza matemática se le

llama momento respecto al origen de orden u+v, su expresión es:

Si la v.a. es discreta

),P(. xxXX= 2j1iv2j

u1i

ji

vu,

Si la v.a. es continua,

xdx)dx,xf(x.x 2121v2

u1vu,

Si en la función xx=)x,xg( v2

u121 , a cada valor de 1,2)=(i X i le restamos su

media, su esperanza matemática recibe el nombre de momento centrado de orden

u+v, y se expresa por

)xdxd)x(f)-x()-x(=])-X.()-XE[(= 21

v

22

u

11

v

22

u

11vu,

Algunos casos particulares son:

x1,01

=

x0,12

=

0=1,0


-102-

0=0,1

2x2,0 1

=

2x0,2 2

=

Todo momento centrado se puede poner en función de los momentos

respecto al origen, desarrollando los polinomios y aplicando el operador valores

medio.

Matriz de varianzas-covarianzas

El momento centrado 111,1= cuya expresión es:

)X,Xcov(=)-X)(-XE(= 2112221111

recibe el nombre de covarianza y expresa el grado de relación lineal que existe entre

Xy X 21 . Por ejemplo, si la distribución de los valores es como la que aparece en la

Figura 4. 15.

IIV

II

III

X1

X2

1

2

Figura 4. 15. Concepto de covariancia


-103-

X1 1 2 3

1

2

X2

0,28

0,24

0,18

0,15

0,09

0,06

0,52 0,33 0,15

0,45

0,55

Tomando como punto de referencia el ),(21 , centro de gravedad de masas,

y trazando dos rectas paralelas a los ejes coordenados, dividimos el plano en 4

regiones, marcadas con I, II, III y IV. En la región I todos los valores de X 1 son

mayores que m1 , a igual que los de m2 , por lo que los productos )-x)(-x(2211

serán positivos. En la región III, tanto X 1 como X 2 están por debajo de sus medias,

por lo cual el producto )-x)(-x(2211 también será positivo. En cambio en las

regiones II y IV, los productos son negativos. Como se observa en la figura, hay

muchos más productos positivos que negativos, por lo cual la cantidad 11 será

positiva, indicando una relación lineal en sentido positivo, es decir, a medida que

aumenta una componente, aumenta el valor de la otra componente. Si la cantidad

0<11 indica que al aumentar una componente tiende a disminuir la otra.

Si 0=11 no hay ningún tipo de relación lineal entre las variables marginales.

Si las variables son independientes 0=11 , pero no a la inversa.

La covarianza también se puede representar por:

Actividad 4.9:

Para la siguiente distribución bidimensional, calcular la covariancia entre X1 y X2.

63,115,0·333,0·252,0·1)X(E 1 45,155,0·245,0·1)X(E 2

)XE(·)XE(-)X·XE(=)X,Xcov(== 2121211211


-104-

54,209,0·2·306,0·1·3

18,0·2·215,0·1·228,0·2·124,0·1·1)X·X(E 21

1765,045,1·63,154,2

)X(E)·X(E)X·X(E)X,Xcov( 212121

Figura 4. 16 Covarianza

A la matriz ][=V ij siempre que i+j=2, recibe el nombre de matriz de

varianzas-covarianzas. Los elementos de la diagonal son las varianzas de las

distribuciones marginales.

Actividad 4.10:

¿Cuáles son los elementos de una matriz de varianza-covarianzas de 3 variables

aleatorias?

Coeficiente de correlación

La covarianza es una cantidad al cuadrado, y para que sea adimensional, se divide

por sus desviaciones típicas, recibiendo el nombre de "coeficiente de correlación".

)X).D(XD(

)X,Xcov(=

21

21

12

Siempre se cumple que )X(D).X(D)X,X(cov 22

12

212

12 es una cantidad que siempre está entre -1 y +1. Si +1=

12 , hay una

relación lineal perfecta en sentido positivo entre las variables X,X 21 , y si es

negativa, hay una relación lineal perfecta en sentido negativo.

Si 0=12 , significa que no hay correlación lineal entre las v.a. X,X 21 .

La matriz cuyo término general es el ij se llama matriz de correlación.


-105-

X1 1 2 3

1

2

X2

0,28

0,24

0,18

0,15

0,09

0,06

Actividad 4.11:

Calcular el coeficiente de correlación de la distribución bidimensional siguiente,

19,315,0·333,0·252,0·1)X(E 22221

533,063,119,3)X(E)X(E)Xvar( 221

211

65,255,0·245,0·1)X(E 2222

548,045,165,2

)X(E)X(E)Xvar(

2

22

222

327,0548,0·533,0

1765,0

)X)·var(Xvar(

)X,Xcov(

21

21

Figura 4. 17 Coeficiente de correlación


-106-

Combinación lineal de variables aleatorias

Si la variable aleatoria Y viene dada por una combinación lineal de las v.a. X1, X2 de

la forma

)X(Da+)X(Da=)XaXa(D 222

2122

122112

El valor medio de la v.a. Y es,

Y Si las v.a. X1, X2 son dependiente, la varianza de una combinación lineal de

variables aleatorias es:

=)a-a-Xa+XaE(=)Xa+Xa(D2

2211221122112

=))-X(a+)-X(aE(=2

222111

=)]-x)(-x(aa2+)-x(a+)-x(aE[=221121

2

2222

2

1121

=)-x)(-xE(aa2+a+a=221121

22

22

21

21

)x,xcov(aa2+a+a= 212122

22

21

21

Actividad 4.12:

Una variable X1 tiene de valor medio 4 y desviación típica 2. Otra variable aleatoria X2

tiene un valor medio de 3 y una desviación típica de 1, y la covariancia que hay entre

las dos variables se de 1,8. Calcular la variancia de la nueva variable aleatoria

Y=2·X1-X2.

Curva de regresión condicional

Dada una distribución bidimensional ),( 21 xx ,se define la curva de regresión

condicional de 12 / xx , como el lugar geométrico de los puntos medios de las

distribuciones condicionales de 12 / xx . Se expresión matemática es:

)()/()/( 1212212 xhdxxxfxxxE c


-107-

X1 1 2 3

1

2

X2

0,28

0,24

0,18

0,15

0,09

0,06

Esta curva h(x1) es la que minimiza los errores de predicción de 2x conocido

1x . Se expresa también como )(ˆ12 xhx .

De forma análoga se obtendría la curva de regresión condicional de 21 / xx ,

sin más que intercambiar los subíndices.

Actividad 4.12:

Calcular el E(X2/X1=2) para la siguiente distribución bidimensional.

54,118,015,0

18,0·2

18,015,0

15,0·1

)2x/x(P·x)2x/X(E

i2x

1i2i212

Figura 4. 18 Esperanza condicional

Recta de regresión mínimo cuadrática

Si en lugar de una curva queremos encontrar la recta que minimiza la suma de los

cuadrados de los errores de predicción de 2x conocido 1x , se tiene la recta de

regresión mínimo cuadrática. Esta recta viene dada por

)x()x,xcov(

x 112

1

2122


-108-

De forma análoga se obtiene la recta de regresión mínimo cuadrática de

21 / xx .

Actividad 4.13:

Calcular la recta de regresión mínima-cuadrática de la siguiente distribución

bidimensional:

)63,1x·(533,0

1765,045,1X 12

12 x·331,091,0X

Figura 4. 19 Recta de regresión mínimo cuadrática

X1

X2

)x()x,xcov(

x 112

1

2122

r.r.m.c

)x/X(E)x(hx 1212 c.r.c.

Figura 4. 20 Curva y rrmc

X1 1 2 3

1

2

X2

0,28

0,24

0,18

0,15

0,09

0,06


-109-


4.10.1. Si X es la variable aleatoria número de puntos al lanzar un dado, determinar su valor medio y su varianza.

Solución: E(x) = 7/2 D2(x) = 224/9

4.10.2. Si se selecciona al azar un número entero entre 1 y 100, ¿cuál es el valor esperado?

Solución: 50.5

4.10.3. Las lecturas sobre sensores son analógicas (continuas), y deben ser convertidas a una escala discreta para permitir su procesamiento digital. Sea X la lectura de un sensor. En un caso muy sencillo, supongamos que si la lectura iguala o supera un valor límite t=1/2, el valor almacenado es 1 y en caso contrario es 0. Si la función de densidad de X es:

otroscasos

xx

xx

xf

0

21 2

10

)(

Hallar la función de probabilidad de la variable aleatoria Y que indica el valor

almacenado.

Solución: P(Y=0)=1/8 P(Y=1 )=7/8

4.10.4. El tiempo, X, que tarda una máquina en elaborar un producto tiene como función de densidad:

otroscasos

xexf

x

0

0 2)(

2

Si el mecanismo tarda 3 minutos o menos, el beneficio del fabricante es 100 euros. Si

tarda más de tres minutos el beneficio es -200 euros. Si Y es el beneficio, hallar su

función de probabilidad y su función de distribución.

4.10.5. Un fabricante de motores produce un 30% de defectuosos. El coste es

de 4.000 €. por unidad y el precio de venta es de 9.000 .. Si el motor es defectuoso debe devolverse lo cobrado y pagar una indemnización de 6.000 €. a) Calcular el beneficio medio por motor.


-110-

b) Se puede hacer una prueba de control de calidad A que cuesta 2.000 €. y que

determina con toda seguridad si el motor es o no es defectuoso. Estudiar si es

rentable la prueba.

c) Se puede utilizar una prueba alterativa B, que conduce a conclusiones

erróneas en un 10% de los casos. Calcular el precio máximo que puede

pagarse por dicha prueba.

Solución: a)500 b)300 c)990

4.10.6. La longitud de una cierta pieza se distribuye con la siguiente función de densidad:

valoresotros

xxk

xk

xf

0

5.22 )2(

21

)( 2

y se consideran correctas las piezas de longitud comprendida entre 1'5 y 2'1.Se

pide:

a) valor de la constante k

b) proporción esperada de piezas correctas

c) función de distribución de la variable longitud de la pieza

Solución: a) k=0'694 b) 0'4163

4.10.7. Sea X una variable aleatoria continua cuya función de densidad es:

3,0 0

3,0 )1()(

2

x

xxkxf

Hallar:

a) El valor de la constante k.

b) Probabilidad de que X esté comprendida entre 1 y 2.

c) Probabilidad de que X sea menor que uno.

d) Sabiendo que X es mayor que 1, probabilidad de que sea menor que 2.

Solución: a) 1/12 b) 5/18 c) 1/9 d) 5/16


-111-

4.10.8. Dada la función de densidad de la variable aleatoria X:

valoresotros

x

xx

xf

0

21x -2

10

)(

Hallar su función de distribución.

Solución: 2x1si2

)x2(1)x(F;1x0si

2

x)x(F

2

x

2

x

4.10.9. La variable X está definida en el intervalo ]-, a] con función de densidad f(x). La expresión:

a

dxxfx )(

facilita:

a) el valor de la función de distribución en el punto x=a.

b) el valor de la desviación típica de X.

c) es una expresión que vale 1.

d) es el valor medio de la variable X.

4.10.10. Se realiza un estudio sobre la duración de las llamadas en una centralita telefónica y se estima que su función de densidad de la variable es:

valoresotros

xexf

x

0

0 2

1

)(2

Hallar el valor esperado de la longitud de una llamada telefónica en esa estación.

Solución: E(x)=2

4.10.11. Dada una variable aleatoria continua cuya función de densidad es:


-112-

esotrosvalor

xxxf

0

21 5.0)(

Hallar su esperanza matemática.

Solución: 19/12.

4.10.12. Dada una variable aleatoria continua cuya función de densidad es:

valoresotros

xxxf

0

10 2

1)(

Hallar su varianza.

Solución: 4/45.

4.10.13. De una estación parte un tren cada 20 minutos. Un viajero llega de imprevisto. Calcular:

a) Probabilidad de que espere el tren menos de 7 minutos

b) Valor medio del tiempo de espera

c) Probabilidad de que espere exactamente 12 minutos.

Solución: a) 7/20 b) 10 c) 0.

4.10.14. Se intenta estudiar el porcentaje de tiempo en el que se esta utilizando un ordenador en un determinado departamento a lo largo de las semanas de trabajo. Supongamos que el porcentaje de utilización del ordenador sigue una función de densidad de probabilidad dada por:

resotros valo

xxxf

0

10 3)(

2

Calcular el promedio y la varianza del porcentaje de utilización del ordenador.

Solución: 0.75 0.0375

4.10.15. Un almacenista compra a principio de semana N kg. de un producto perecedero a 200 pts/kg. y lo revende a 300 pts/kg. La demanda se distribuye exponencialmente con media 100 kg/semana, y aquellos kilos que no vende se estropean y pierden. Calcular cuántos kilos del producto debe comprar a la semana para maximizar su beneficio.


-113-

Solución: N= 40.55 Kg.

4.10.16. Un revendedor de entradas sabe que la demanda diaria en la reventa de las mismas se distribuye aleatoriamente, siendo Prob(D> d)= e-0.05 d. Si el revendedor compra en taquilla a 200 ptas. y revende con un beneficio del 20%, pero debe quedarse con las que no puede vender, calcular cuántas entradas debe comprar al día para maximizar su beneficio.

Solución: 4 entradas diarias

4.10.17. Si X es una variable aleatoria que mide la duración real de una lámpara, X=EXP(θ), determinar el valor medio de su duración.

Solución: 1/θ

4.10.18. Dada la función de densidad de la variable X:

otros 0

6x5 5

x6

5x1 5

1

1x0 5

x

)x(f

determinar su valor medio.

Solución: E(x) = 3


4.11.1 El espesor de una plancha de acero sigue una distribución aleatoria según la

figura de abajo. La plancha de acero es adecuada para su uso siempre que el

espesor sea mayor de 1,75 mm y menor de 3 mm. Se pide:

f(x)

x1 2 3,5


-114-

a) Calcular la función de densidad en cada punto. b) Calcular el E(X). c) Calcular la proporción de planchas defectuosas.

Solución:

a) Como el área total bajo la función de densidad tiene que ser la unidad, la altura de la figura debe ser,

1h)·25,3(2

h)·12(

De donde h=1/2.

La función de densidad será:

resto0

]5,3;2[x2/1h

]2,1[xbxa

)x(f

Aplicando la fórmula de la ecuación de una recta que pasa por 2 puntos, se tiene

12

0h

1x

0y

h

1x

y

y se tiene que

2

1

2

xhhx)x(fy

b) El valor medio viene dado por,

48,22·2

x

2·2

x

2·3

xdx

2

1·xdx)

2

1

2

x(xdx)x(f·x)x(E

5,3

2

22

1

235,3

2

2

1

-- ∫∫∫∞

∞

c) El porcentaje de defectuosas será la suma del porcentaje de piezas por debajo del límite inferior de tolerancias más el porcentaje de piezas defectuosas por encima del límite superior de tolerancias. Esto es,

39,025,014,0dx2

1dx

2

1x)3X(P)75,1X(Pppp

5,3

3

75,1

121

4.11.2 El contenido de arroz en gramos dentro de un paquete sigue una

distribución con función de densidad,

casootroen0)x(f

254x239para150

x2

35,5

1)x(f

a) Calcular la media y la dispersión del contenido de arroz en cada paquete. b) Si el contenido de arroz es menor de 245 gr. se considera que es un paquete

defectuoso. Calcular el porcentaje de paquetes defectuosos.


-115-

c) Si el contenido de arroz pesa menos de 245 gramos, el coste es de 2x·25,1 , y

si es mayor a 245 el coste es de x·3,1 . Calcular el valor medio del coste del

contenido de arroz de un paquete. Solución:

a) El valor medio es,

15,246dx)150

x2(

35,5

1·x)X(E

254

239

Y la varianza se calcula como,

222 )X(E)X(E)X(D

Siendo 254

239

22 2,60608dx)150

x2(

35,5

1·x)X(E

38,1815,2462,60608)X(E)X(E)X(D 2222

Y la desviación típica es 29,4)X(D

b) El porcentaje de paquetes defectuosos es,

434,0dx)150

x2(

35,5

1)245X(P

245

239

c) El valor medio del coste es,

254

245

245

239

2 31920dx)150

x2(

35,5

1x·3,1dx)

150

x2(

35,5

1x·25,1)c(E

4.11.3 El espesor, X, de una determinada pieza sigue una distribución

aleatoria, según la siguiente función de densidad,

casootroen0)x(f

15x5si50

x15)x(f

Sabiendo que la tolerancia del espesor es de 10±3 mm, se pide:

a) Calcular la proporción de piezas defectuosas. b) Por término medio, ¿cuánto vale el espesor de cada pieza? c) Calcular la varianza del espesor de la pieza. d) Calcular el valor de la media y el valor de la desviación típica del espesor

medio de 5 piezas tomadas al azar. e) Si la pieza es correcta, el beneficio es de 10 €/unidad, pero si es mayor que la

tolerancia superior se tiene una pérdida de 2·(X-13) €/unidad, y en caso de ser menor que la tolerancia inferior, la pérdida es de 2·(7-X)€/unidad. Calcular


-116-

el beneficio medio que obtendríamos al producir 5000 piezas. Solución:

a) La proporción de piezas correctas es,

60,0100

8

100

2

50·2

)x15(dx

50

x15dx)x(fp1

2213

7

213

7

13

7

De donde la proporción de defectuosas es del p=0,40.

b) La media de X es,

333,8150

5

100

5·15

150

15

100

15·15

150

x

2·50

x·15

dx)50

xx

50

15(dx

50

x15·x)x(E

323215

5

32

15

5

215

5

c) La varianza es,

222 )X(E)X(E)X(D

75200

5

150

5·15

200

15

150

15·15

200

x

150

x·15

dx)50

xx

50

15(dx

50

x15·x)x(E

434315

5

43

15

5

32

15

5

22

Y la varianza es,

611,533,875)x(D 22

d) Llamando a Y el espesor medio, éste es,

5

xxxxxy 54321

La media de y es,

333,8)x(E5

)x(E·5)y(E

Y la desviación típica es,

059,125

611,5·5

5

)x(D)x(D)x(D)x(D)x(D)y(D

2

5

2

4

2

3

2

2

2

1

2

e) El valor medio del beneficio viene dado por,


-117-

pieza/2,5dx50

x15)·13x·(2dx

50

x15·10dx

50

x15)·x7·(2)B(E

15

13

13

7

7

5

4.11.4 Sea una variable aleatoria X que representa el espesor, en milímetros,

de las arandelas que produce una máquina. Si la variable X tiene una

función de densidad dada por:

contrariocaso0

),1.2,9.1(xx5.2)x(f

Determinar:

a) La función de distribución. a) La probabilidad de que una arandela tenga un espesor igual a 1.95 mm. b) P(1.95 < X < 2.05). c) El valor a tal que P(X < a) = 0.25 e interpretar el resultado. d) Sabiendo que la media de X es 2, calcular su varianza.

Solución:

a)

2.1x 1

(1.9,2.1)x 51.41.25x2.5xdx

1.9x 0

)x(F 2

x

1.9

b) P(X=1.95)=0

c) 5.0xdx5.2)05.2X95.1(P

1.2

9.1

d) 25.05.29.1

a

xdx 25.0)9,1a(25.1 22 a=1.95

01.0401.42xdx5.2x)]X(E[)X(E 2

1.2

9.1

2222

4.11.5 En el almacén de un taller de fontanería hay tubos de cobre de 1.25

pulgadas de diámetro interior cortados a diferentes longitudes y

amontonados los trozos en un contenedor. Asumimos que la longitud de

los tubos cortados que se utilizan es una variable aleatoria cuya función de

densidad es:


-118-

contrariocaso

xkxxf

0

),20.2,40.0(/)(

Supuestos:

I. Todos los tubos se compran a un proveedor pagando un coste de 3 €/m

II. Los tubos se eligen del contenedor al azar para proceder a su montaje en la

construcción de una caldera de vapor

III. El coste de montaje de los tubos (preparación, limpieza, soldadura, etc.)

asciende a 10 €/m de tubo montado

IV. Al cliente se le cobra según los metros montados a razón de 50 €/m

V. Los tubos de longitud inferior a 0.50 m se desechan directamente y no se

montan

VI. Los tubos de longitud comprendida entre 0.5 y 2.00 m se montan enteros

VII. A los tubos con longitud mayor de 2.00 m, se les corta previamente el exceso

sobre los 2.00 m que se pierde y no se cobra. Los 2 m restantes se montan

como en el apartado anterior

Calcular:

a) El valor medio de la longitud de los tubos del contenedor.

b) El valor medio del beneficio por tubo del almacén.

Solución:

f(x)

0,40 2,2 X


-119-

a) Recordando que

1)4,02,2(2

1

2

11)( 22

2,2

4,0

22,2

4,0

k

xk

dxk

xtendremosdxxf

x despejando k=2,34

5077,1)4,02,2(k3

1x

k3

1dx

k

xxdx)x(xf)X(E 33

2,2

4,0

3

x

2,2

4,0

b) x

dxxfxBBEBeneficioE )()()()(

B= (cobrado-pagado) en cada caso

B1 =0 -3x = -3x para (0,4≤ X ≤0,5)

B2 =50x-(3+10)x= 37x para (0,5≤ X ≤2.0)

B3 =(50 . 2)-(3x+2 . 10)= 80-3x para (2,0≤X ≤2,2)

2,2

0,2

0,2

5,0

5,0

4,0 34,2)380(

34,237

34,2)3()()()()( dx

xxdx

xxdx

xxdxxfxBBEBeneficioE

x

tuboeurosxxxx

/7077,542274,135064,410261,02

80

34,2

1

33,2

37

334,2

32,2

0,2

32

0,2

5,0

35,0

4,0

3

4.11.6 La longitud de una determinada pieza es una variable aleatoria con

función de densidad,

casootroen)x(f

mmxmmparax

·k)x(f

0

2001003

300

Consideramos que la pieza es correcta cuando su longitud está entre 105 mm y 190

mm. Se pide:

a) Calcular el porcentaje de piezas defectuosas. b) Calcular la función de distribución de la variable aleatoria longitud de la pieza. c) Si la longitud de la pieza es mayor de 190 la pérdida que se produce es de

10€, si la longitud es menor de 105 mm la pérdida es de 230 x· €, y si la pieza

es correcta el beneficio es de x·200 €. Por término medio, ¿cuál será el

beneficio por cada pieza producida?


-120-

Solución:

La constante k la calculamos con la condición de que la integral de la función de

densidad para todo su campo de existencia es igual a la unidad.

1dxx

)x300(·k

200

100

Integrando,

130000·6

k

2

100

2

200·

3

k

2

)x300(·

3

k 22200

100

2

-

De donde k=0.0002

a) La proporción 1-p de piezas correctas es,

190

105864,0dx

3

)x300(·0002,0p1

Y la proporción de piezas defectuosas es p=1-0,864=0,136.

b) La función de distribución para x entre 100 y 200 es,

])x300(40000[6

0002,0

2

)x300(

3

0002,0dx

3

)x300(·0002,0)x(F 2

x

100

2X

100

F(x) = 0 para x<100

F(x)= 1 para x>200

c) El valor medio de cada pieza producida es,

pieza/€4060

dx3

)x300(·0002,0)·10(dx

3

)x300(·0002,0·x200

dx3

)x300(·0002,0)·x30()B(E

200

190

190

105

105

100

2

5. Principales distribuciones discretas

-121-

5. PRINCIPALES DISTRIBUCIONES DISCRETAS

Contenido 5.1. DISTRIBUCIÓN DICOTÓMICA ............................................................. 121

5.2. DISTRIBUCIÓN BINOMIAL ................................................................... 122

5.3. DISTRIBUCIÓN HIPERGEOMÉTRICA ................................................. 123

5.4. DISTRIBUCIÓN DE POISSON .............................................................. 125

5.5. DISTRIBUCIÓN BINOMIAL-NEGATIVA ................................................ 126

5.6. DISTRIBUCIÓN MULTINOMIAL ........................................................... 127

5.7. PROBLEMAS PROPUESTOS .............................................................. 129

5.8. PROBLEMAS Y CUESTIONES DE EXÁMENES .................................. 143

A continuación vamos a estudiar las principales distribuciones discretas que aparecen

en la práctica. Para cada una de ellas definimos:

1) La función de probabilidad.

2) Valor medio.

3) Varianza.

4) Suma de variables aleatorias del mismo tipo.

5) Convergencia a otras variables.

5.1. DISTRIBUCIÓN DICOTÓMICA

Diremos que X es una v.a. dicotómica de parámetro "p", y la representamos por

D(p)X

si toma únicamente dos valores posibles:

X = 1 , con probabilidad "p",

X = 0 , con probabilidad "q",

donde 1=q+p .

Se suele asociar el "1" con la presencia de un cierto suceso, y "0" por su

ausencia. Por ejemplo, una pieza mecánica puede ser defectuosa, 1, o no tener

defecto, 0. Al lanzar una moneda aparece la cara, y lo asociamos con el "1", y en

caso contrario, lo asociamos con el "0".


-122-

El valor medio de X se calcula como:

p=0.q+1.p=0.P(0)+1.P(1)=)P( xx=E(X) ii

xi

La varianza la calculamos a partir de los momentos respecto al origen, así

212

2 -=(X)D

de donde

p=.q0+.p1=)xP(x=)XE(= p;= 22i

2i

221

p.q=p)-p.(1=p-p=22

5.2. DISTRIBUCIÓN BINOMIAL

Al repetir un experimento aleatorio n veces, de forma independiente, el número de

veces que aparece un suceso A, de probabilidad P(A), se denomina variable

aleatoria binomial, y se representa por,

p)B(n,X

Al realizar una vez el experimento aleatorio puede ocurrir el suceso A o el

suceso contrario. Al efectuar n repeticiones, una posible secuencia puede ser:

A .......AA A A A A

Supongamos que queremos calcular la probabilidad de que al repetir n veces

el experimento aleatorio, aparezcan veces el suceso A, esto es )=P(X . Ello

significa en una secuencia de aparición de los sucesos, hay -veces el A y, por lo

tanto, -n veces el suceso A , con una cantidad de masa de )AP(P(A)-n

, y como

cada secuencia, con igual número de A son mutuamente excluyentes, el total de

secuencias viene dado por:

)!-(n!

n!

Luego la probabilidad de obtener exactamente veces el suceso A, es

)p-(1pn

=)=P(X-n

que recibe el nombre de "fórmula binomial".


-123-

También se puede considerar la variable binomial como una suma de "n"

variables aleatorias dicotómicas independientes, ya que al sumar el número de 1's

nos da el número de veces que aparece el suceso A. A partir de esta suma de

variables se pueden calcular las características de la binomial.

De este modo, el valor medio de la binomial es:

n.p=p=)XE(=)X....++X+XE(=E(X)n

1

i

n

1

n21

La varianza de la binomial es:

npq=pqXD=)X...++X+X(D=(X)D

n

=1i

i2

n

=1i

n2122 )=(

Si p),nB(X 11 y p),nB(X 22 e independientes, la suma de estas dos v.a.

es otra binomial de parámetros p);n+nB(X+X 2121 .

Actividad 5.1:

Probabilidad de que al lanzar 5 monedas salgan dos caras.

5.3. DISTRIBUCIÓN HIPERGEOMÉTRICA

Sea E una población finita cuyos elementos son de dos tipos: el A o el A . El número

de veces que aparece el suceso A al realizar n extracciones sin reemplazamiento, se

denomina v.a. hipergeométrica y se representa por:

p)n,H(N,X

Por ejemplo, supongamos un lote de N piezas, de las cuales hay N 1

defectuosas y N 2 correctas. Si tomamos n piezas al azar del lote y contamos el

número de piezas defectuosas que aparecen de entre esas "n", dicho número se

denomina variable hipergeométrica.


-124-

N1

N2

n

n-

Figura 5. 1. Distribución hipergeométrica

Se suele representar por el esquema que aparece en la Figura 5. 1 5. 1.

La función de probabilidad es:

n

N+N

-n

NN

=)=P(X21

21

Se demuestra que el valor medio de esta v.a. es:

np=E(X)

y que su varianza es:

1-N

n-Nnpq.=(x)D

2

Observar que cuando N es muy grande en relación al tamaño n de la muestra,

la varianza, tomando límites, tiende a

npq=(X)D2

esto es la varianza de la binomial. Por ello cuando se cumple la condición de que

10n

N

la variable hipergeométrica se aproxima a la binomial B(n,p). Es decir, las

extracciones sin reemplazamiento equivalen a extracciones con reemplazamiento, ya


-125-

que al ser el tamaño de la población muy grande en relación al tamaño de la muestra,

hay muy pocas posibilidades de que un mismo elemento sea elegido dos veces.

Actividad 5.2:

Probabilidad de que al extraer al azar 3 cartas de una baraja de 40 cartas, dos de

ellas sean oros.

En un contenedor hay 500 motores y se sabe que el 5% de ellos son defectuosos. Si

extraemos al azar 10 motores ¿cuál es la probabilidad de que en esos 10 hayan 2

motores defectuosos?

5.4. DISTRIBUCIÓN DE POISSON

Si observamos el número de defectos que aparecen en una pieza mecánica, estos

pueden ser 0,1,2,3..., y en teoría pueden haber hasta infinitos defectos. Es decir, se

trata de un espacio muestral infinito numerable.

Un modelo matemático que se ajusta bastante bien al número de defectos es

la distribución de Poisson, la cual aparece como consecuencia del límite de una v.a.

binomial p)B(n, cuando 0p ,n y se mantiene constante el producto de

=n.p .

Para obtener la función de probabilidad de la v.a. de Poisson, partimos de la

fórmula de la binomial, y hacemos tender el límite para cuando 0py n , así:

=)p-(1pn

=)=P(X-n

)p-(1p!

1)+-1)...(n-n(n=)p-(1p

)!-(n!

n!=

-n-n

Haciendo tender 1q 0,p ,n , y queda

!

.e=)=P(X

-

La media es

==E(X) 1

y la varianza es


-126-

=-+=-=(X)D222

122

Si )PS(X 11 y )PS(X 22 e independientes, la suma de v.a. de Poisson

da lugar a otra distribución de Poisson de parámetro suma de parámetros.

Otra forma en que aparece la distribución de Poisson es contando el número

de sucesos hasta un cierto tiempo "t", cuya expresión es:

!

)t(e=)=XP(

t-

t

donde λ·t es el promedio de sucesos que ocurren en un tiempo t.

Para obtener los distintos valores de )=P(X se emplea el ábaco de

Poisson.

Actividad 5.3:

o En una fábrica donde hay muchas máquinas se sabe que por término medio se

averían 2 al día. Se pide:

o Probabilidad de que en un día se averíen 4 máquinas.

o Probabilidad de que se averíen 4 máquinas en 5 días.

o De una determinada póliza de seguros se sabe que reclaman por término medio 4 al

mes. Si por cada póliza hay que indemnizar con 1000€, ¿cuánto dinero tenemos que

preparar para poder pagar al final del mes con una probabilidad del 95%?

5.5. DISTRIBUCIÓN BINOMIAL-NEGATIVA

El número de veces que hay que repetir un experimento aleatorio hasta que aparece

"r" veces el suceso A de probabilidad p, se llama variable aleatoria binomial

negativa, y se representa por:

p)BN(r,X

La función de probabilidad )=P(X , se calcula pensando que para que en la

repetición número haya aparecido el suceso A "r" veces, en los 1- primeros

tiene que haber aparecido de cualquier forma r-1 veces el suceso A, y en la repetición

el suceso A, de aquí:


-127-

qp1-r

1-=.pqp

1-r

1-=)=P(X

r-rr-1-r

El valor medio de esta variable aleatoria es:

p

r=E(X)

y su varianza

p

rq=(X)D 2

2

Un caso particular interesante es cuando r=1, esto es, el número de veces

que hay que repetir un experimento aleatorio hasta que aparece por primera vez el

suceso A. A este caso particular también recibe el nombre de "distribución

geométrica" o "distribución de Pascal".

El valor medio y la varianza son:

p

xE1

)(

2

2 )(q

pXD

Actividad 5.4:

¿Cuántas veces, por término medio, hemos de tirar un dado para que salga por

primera vez el 1?

¿Cuántas veces por término medio hemos de tirar un dado para que salga por

segundo vez el 1?

5.6. DISTRIBUCIÓN MULTINOMIAL

La distribución multinomial es una generalización de la binomial. En lugar de contar la

aparición de un suceso cada vez que realizamos un experimento aleatorio, contamos

más de un suceso. De esta forma, nombrando a A1 , A2 ,..., Ak los distintos sucesos

que pueden aparecer al efectuar el experimento aleatorio, designamos con x1 el


-128-

número de veces que aparece el suceso A1, x2 el número a veces que aparece el

suceso A2, y xk el número de veces que aparece el suceso Ak, al repetir n veces el

experimento aleatorio,

La variable k-dimensional (x1, x2, ...,xk) recibe el nombre de variable aleatoria

multinomial, con función de probabilidad,

k

k

k

kk pppn

xxxP

21

21

21

2211!...!!

!);...;;(

siendo pi la probabilidad que aparezca el suceso Ai al realizar una vez el experimento

aleatorio, y cumpliéndose que:

1...

....

321

321

k

k

pppp

n

Cuando k=2 se trata de la variable binomial, que tal como dice el nombre cuenta

dos sucesos aleatorios.

El valor medio de cada marginal viene dado por:

ii npxE )(

La variancia de cada marginal es:

iii qnpxD )(2

La covariancia (mide la relación lineal que hay entre dos variables) entre dos

marginales es:

jiji pnpxx ),cov(

Por ejemplo, si lanzamos n veces un dado, la variable aleatoria que cuenta el

número de 1's, 2's, 3's, 4's, 5's y 6's, es una variable aleatoria multinomial.

Actividad 5.5:

1. De 20 barajas de 40 cartas, saco al azar 8 cartas. ¿Cuál es la probabilidad de que

sean 2 oros, 1 espadas, 2 copas y 3 espadas.


-129-


5.7.1.- Si X es la variable aleatoria número de veces que hay que lanzar un dado

hasta obtener por primera vez un seis, determinar su valor medio.

Solución: 6

5.7.2.- Un interruptor debe ser reemplazado después del primer fallo. La probabilidad

de que funcione adecuadamente en cualquier utilización es 0,995. Si X indica el

número de veces que el interruptor ha funcionado correctamente hasta su

reemplazamiento, calcular su valor medio y su varianza.

Solución: E(X) = 199 Var(X) = 39800

5.7.3.- Sea X el número de veces que se ha lanzado un dado hasta conseguir un

seis. Hallar:

a) Función de probabilidad de X,

b) Valor esperado de X.

Solución: a) P(X = k) =(5/6)k-1 (1/6) k =1,2, . . b) 6

5.7.4.- Una nave de fabricación está integrada por un número considerable de

máquinas idénticas y se sabe por experiencia que el promedio de las que se averían

semanalmente es de 5.

a. Calcular la probabilidad de que hayan más de 3 averiadas en la misma

semana.

b. ¿Cuál es el número de máquinas de reserva que se precisan en una semana

para tener una probabilidad al menos de 0,99 de que al averiarse cualquier

máquina podrá sustituirse.

Solución: a) 0,7340 b) 11

5.7.5.- En una central telefónica de una ciudad se reciben un promedio de 4 llamadas

por minuto, en las horas de máximo tráfico. Si la instalación tiene una capacidad tal

que puede atender a los sumo 12 llamadas por minuto, ¿cuál es la probabilidad de

que en un minuto determinado no sea posible dar línea a todos los clientes que lo


-130-

soliciten?

Solución: 0,0003

5.7.6.- Un servicio de mantenimiento de aviones realiza diferentes tipos de

reparaciones. Las solicitudes de reparación para un sistema particular recibidas en un

período de tiempo pueden considerarse que constituyen un proceso de Poisson.

Concretamente:

SISTEMA Nº MEDIO DE REPARACIONES

EN UNA SEMANA

motor λ1 = 2.0

diseño λ2 = 0.5

hidráulica λ3 = 1.3

tren de aterrizaje λ4 = 0.2

a) ¿Cuál es la probabilidad de que el número total de reparaciones solicitadas en

una semana sea mayor o igual que tres y menor o igual que 7?

b) Si el promedio de reparaciones de diseño se duplica y el promedio de

reparaciones de motor se reduce a la mitad, ¿cuál es la probabilidad de que

en dos semanas el número total de reparaciones sea menor o igual que 8?

Solución: a) 0.7108 b) 0.7291

5.7.7.- Los fallos de fluido eléctrico en una estación de trabajo siguen una distribución

de Poisson y tienen un promedio de 1,5 fallos al mes.

a) ¿Cuál es el número de fallos esperado en un año?

b) ¿Cuál es la probabilidad de que se produzcan más de 20 fallos en un año?

c) ¿Cuál es la probabilidad de que el próximo fallo ocurra antes de 2 meses?

d) ¿Cuál es la probabilidad de que ocurra antes de tres meses pero no antes de

2 meses?

Solución: a) 18 b) 0,2776 c) 0,9502 d) 0,0387

5.7.8.- Las máquinas de 5 fábricas diferentes se rompen con una frecuencia media de


-131-

1.2, 3.2, 0.7, 3.5 y 2.4 veces al día. Los procesos de rotura en los diferentes sitios son

independientes, y cada proceso se asume que satisface las condiciones de un

experimento de Poisson:

a) ¿Cuál es la probabilidad de que el número total de roturas en un día dado

exceda de 12 unidades?,

b) Después de una rotura en cualquier fábrica ¿cuál es la probabilidad de que la

próxima rotura (sea cual sea la fábrica) ocurra en las dos horas siguientes?

Solución: a) 0.3113 b) 0.60

5.7.9.- Se ha fabricado una partida de transistores con un 20% de unidades

defectuosas. Si X es una variable aleatoria que indica el número de transistores

defectuosos obtenidos al seleccionar 4 transistores de la partida, obtener su función

de probabilidad.

Solución: xx

xxP

4)8.0()2.0(

4)(

5.7.10.- Un sistema multiproceso utiliza 12 procesadores y ha sido configurado de

modo que puede satisfacer todas sus funciones, aunque mas lentamente, si

funcionan 9 procesadores. Si la probabilidad de que funcione cada procesador

durante el tiempo de ejecución de un trabajo es 0,8 y los fallos de los procesadores

son independientes ¿cuál es la probabilidad de que el sistema funcione hasta que se

complete el trabajo?

Solución: 0.7946

5.7.11.- Una compañía de seguros, que cuenta con 10.000 asegurados, determina

que el 0,005% de la población fallece cada año de un cierto tipo de accidente:

a) Calcular la probabilidad de que la compañía de seguros tenga que pagar a los

beneficiarios de 3 o más de los asegurados contra tal tipo de accidente en un

año determinado.

b) ¿Cuál es el número de accidentes al año por término medio?

Solución: a) 0,0144 b) 0,5


-132-

5.7.12.- Se seleccionan por separado tres muestras aleatorias en una línea de

producción en la cual el 5% de las unidades son defectuosas. Las dos primeras

muestras tienen un tamaño igual a 20 y la tercera un tamaño igual a 10. ¿Cuál es la

probabilidad de que el número de unidades defectuosas encontradas entre las tres

muestras sea mayor o igual que 1 y menor o igual que 4?.

Solución: 0.81944

5.7.13.- Una partida de bujías con alta proporción de inservibles (20%) sale al

mercado en paquetes de 4 unidades y en cajas de 10 paquetes. Calcular la

probabilidad de que:

a) Elegido un paquete al azar contenga 2 o más bujías inservibles.

b) Elegida una caja al azar contenga más de 10 bujías inservibles.

c) Elegida una caja al azar contenga 3 paquetes sin bujías inservibles.

Solución: a) 0'1808 b) 0'1608 c) 0'2062

5.7.14.- Una máquina de fabricación de tornillos produce por término medio 2

tornillos defectuosos por cada 85, empaquetándose éstos en cajas de 170 unidades.

¿Cuál es la probabilidad de que tomadas al azar 7 cajas, en sólo 2 de ellas no haya

ningún tornillo defectuoso?

Solución: 0'0064

5.7.15.- Una fábrica encuentra que el 20% de los diskettes que produce son

defectuosos. Si se eligen diez diskettes al azar de un lote, hallar la probabilidad de

que:

a) Hayan exactamente dos defectuosos.

b) Que dos o más sean defectuosos.

Solución: a) 0.3 b) 0.62419

5.7.16.- Cada hora se toman 50 unidades de la producción de una máquina. Si la

muestra contiene dos o más unidades defectuosas, se ajusta la máquina. Si esta

produce un 2% de unidades defectuosas, calcular el tiempo medio entre sucesivos

ajustes.


-133-

Solución: (3'784-1) horas

5.7.17.- Una industria recibe piezas en lotes de un gran número de unidades. Se

desea reparar un plan de control de calidad de tal forma que tomando al azar n

unidades del lote, si se observa alguna defectuosa se rechaza el lote. Determinar n

para que si el lote tiene un 5% de unidades defectuosas, la probabilidad de

aceptarlos sea menor de 0,01.

Solución: 90.

5.7.18.- Un cargamento de 20 acelerómetros altamente sensibles deben ser

aceptados o rechazados en base a una muestra de 5 unidades seleccionadas

aleatoriamente del lote. El cargamento será rechazado si en la muestra hay más de

una unidad defectuosa. ¿Cuál es la probabilidad de que el cargamento sea aceptado

si se sabe que el 10% de las unidades no cumplen las especificaciones?.

Solución: 0,9473

5.7.19.- Un comerciante compra relés eléctricos en lotes de 1.000 unidades. En cada

lote se seleccionan 15 unidades, y el lote se acepta si el número de unidades

defectuosas es menor o igual que 3. El fabricante sabe que hay un 10% de unidades

defectuosas en cada lote, ¿cuál es la probabilidad de que sea rechazado un lote?

Solución: 0,0555

5.7.20.- En una fábrica el número de accidentes por semana sigue una distribución

de Poisson de parámetro λ =2. Se pide:

a) Probabilidad de que en una semana haya algún accidente

b) Probabilidad de que hayan 4 accidentes en el transcurso de 2 semanas

c) Probabilidad de que hayan 2 accidentes en una semana y otros 2 en la

siguiente

d) Es lunes, y ya ha habido un accidente. Calcular la probabilidad de que en esa

semana no haya más de tres accidentes.


-134-

Solución: a) 0'8646 b) 0'1954 c) 0'0733 d) 0'8348

5.7.21.- Un partida de diamantes industriales con una proporción de inservibles de

15% sale al mercado en paquetes de 4 unidades y en cajas de 10 paquetes, elegida

una caja al azar calcular la probabilidad de que contenga 2 paquetes con al menos un

diamante defectuoso.

a) 0’0567

b) 0’1860

c) 0’2456

d) 0’0836

5.7.22.- Una línea de fabricación está compuesta por un número considerable de

robots ¿Cuál es el número de robots de reserva que se precisan en una semana para

tener una probabilidad al menos del 90% de que al averiarse cualquier robot podrá

sustituirse?. Se sabe por experiencia que el promedio de averías es de 9’5 a la

semana.

a) 10

b) 16

c) 13

d) 14

5.7.23.- En una empresa de electrónica se reciben componentes en lotes de gran

tamaño. Un lote se considera correcto si tiene menos de un 1‰ de piezas

defectuosas. Se toma una muestra de tamaño n y si no aparece ninguna defectuosa

se acepta el lote. Calcular el tamaño de muestra mínimo que se debe tomar si

queremos cometer un error de segunda especie con probabilidad menor del 8%

cuando el porcentaje de piezas defectuosas en el lote sea del 1%

a) 230

b) 240

c) 252

d) 265


-135-

5.7.24.- De un paquete de bolígrafos en los que hay un 18% que no funcionan, ¿cuál

es la probabilidad de tener que probar 6 de ellos hasta encontrar 3 que funcionen?.

a) 0.0116

b) 0.0326

c) 0.0097

d) 0.0177

5.7.25.- El número medio de defectos por metro cuadrado de una superficie cerámica

es de 0.29, ¿cuál es la probabilidad de que una superficie de 50 m2 encontremos 12

o mas defectos?

a) 0.9389

b) 0.2911

c) 0.8200

d) 0.7799

5.7.26.- La probabilidad de que en un telar se produzca al menos una avería en un

día, es del 5%. Calcular, por término medio, el número de averías que se producirán

semanalmente.

a) 0.359

b) 20.97

c) 0.0513

d) 0.0073

5.7.27.- En un lote de 40 diamantes industriales para máquinas de corte, existe una

probabilidad del 25 % de que un diamante no cumpla las características físicas para

ser utilizado. ¿Cuántos diamantes debemos tomar para tener una probabilidad de

0.98785 de que al menos uno nos va a ser útil?


-136-

a) 8

b) 7

c) 5

d) 3

5.7.28.- Un plan de muestreo de materias primas en lotes de 1000 unidades, consiste

en tomar 10 piezas al azar, y si aparece alguna defectuosa se rechaza el lote.

Calcular la proporción de piezas defectuosas en un lote que tenga una probabilidad

de ser rechazado, según dicho plan de muestreo, de 0.1.

a) 0.3162

b) 0.2056

c) 0.0513

d) 0.0104

5.7.29.- Se denomina fiabilidad de un sistema informático a la probabilidad de que

funcione satisfactoriamente. Supongamos que esta formado por 50 componentes

cuya función requiere el correcto funcionamiento de al menos 40 de ellos. La

probabilidad de que cada componente funcione después de 100 horas es 0.9 y los

componentes se averían independientemente. ¿cual es la fiabilidad del sistema

informático después de 100 horas?

Solución: 0.985

5.7.30.- De una Base de Datos se cogen 20 registros para su verificación. Se

considera que la Base de Datos es correcta cuando no hay ningún registro

defectuoso. ¿Cual es la probabilidad de aceptar cuando la Base de Datos tiene un

10% de registros defectuosos?


-137-

Solución: 0.12

5.7.31.- Se tiene constatado que 1/3 de una Base de Datos de Clientes de un

empresa son extranjeros. Tomando una muestra al azar de 10 registros de la Base

de Datos, estudiar:

a) Probabilidad de que hayan 2 empresas extranjeras.

b) Probabilidad de que hayan más de 3 empresas extranjeras.

c) Probabilidad de que hayan como máximo cinco empresas extranjeras.

Solución: a) 0.1951 b) 0.44 c) 0.9235

5.7.32.- El control de calidad de las carcasas de ordenadores, se realiza tomando 2

unidades y contando el nº de defectos que aparecen. El promedio de defectos que se

ha tenido hasta el presente es de 1.3 (entre las dos unidades). ¿Cuál es la

probabilidad de que, sin cambios en el proceso, aparezca una muestra con más de 5

defectos?

Solución: 0.002

5.7.33.- Si de cada 200 diskettes hay uno con virus, ¿cuántos discos debemos

verificar para tener una probabilidad de 0.85 de encontrar al menos uno con virus?

Solución: 379

5.7.34.- En un proceso de fabricación de componentes electrónicos se produce un

0.5% de unidades defectuosas. Dichas componentes se expiden en cajas de 3.000

unidades.

a) ¿Cuál puede ser la población de estudio?, ¿y la variable aleatoria?, ¿cómo se

distribuye?

b) Se desea acompañar cada caja con un certificado garantizando que la caja

contiene como mínimo C componentes correctas. ¿cuál es el máximo valor que

puede darse a C si se desea que la probabilidad de cumplir la garantía sea


-138-

superior al 99%?

Solución: a) X= B(3000, 0.005) , N(15, 3.863) b) 2976 unidades

5.7.35.- Una persona rellena sus quinielas completamente al azar,

a) ¿Cuántas tendría que rellenar si deseara tener una probabilidad superior al

95% de acertar al menos 13 resultados?

b) Si rellena 100.000 quinielas de la misma forma ¿cuál es la probabilidad de

obtener al menos dos veces una de 14 aciertos?

c) ¿Y si rellena 1.000.000 quinielas?

Solución: a) 494.018 quinielas b) 0.000308 c) 0.01992

5.7.36.- Una empresa de software desea vender un nuevo programa de aplicación en

empresas, para ello envía publicidad postal a una muestra de 40 empresas,

invitándoles a conocer la última novedad de la empresa y ofrecerles un obsequio a

cambio. Los expertos estiman que un 30% de las empresas responderán a la

invitación pero que, de éstas, sólo un 20% adquirirá el programa. Calcula la

probabilidad de que después de la demostración nadie haya decidido comprar el

programa.

Solución: 0.084

5.7.37.- Una determinada normativa oficial exige que para unos envíos de disquetes,

el porcentaje de defectuosos no puede exceder del 10%; con el fin de controlar el

cumplimiento de dicho requisito un servicio de control inspecciona cada partida

seleccionando N disquetes al azar y rechazando el envío si encuentra más de 2

defectuosos.

a) Calcular cuánto debe valer N para que la probabilidad de aceptar un envío

que no satisfaga el requisito de calidad exigido sea inferior al 5 %.

b) Los disquetes se agrupan en cajas de 10 unidades que se envían en

paquetes de 50 cajas. Una caja se considera defectuosa si tiene más de 1

disquete defectuoso. Si un envío tiene un 10% de disquetes defectuosos ¿cuál

es la probabilidad de que un paquete no tenga ninguna caja defectuosa? (definir


-139-

las poblaciones y variables aleatorias de estudio en cada caso).

Solución: a) N= 62 unidades b) p= 0.0000002062

5.7.38.- Para controlar la calidad de las partidas de cierto tipo de piezas que se

reciben en una factoría se utiliza el siguiente plan de muestreo en dos etapas:

1 - Se toma una primera muestra de 50 piezas. La partida se acepta si todas las

piezas resultan correctas y se rechaza si hay más de 2 defectuosas.

2- En el resto de los casos se toma una muestra de otras 50 piezas,

aceptándose definitivamente la partida si en el total de las dos muestras hay

menos de 3 piezas defectuosas y rechazándose en el caso contrario.

a) ¿Qué probabilidad tiene el plan anterior de aceptar una partida que tenga un

1% de piezas defectuosas?.

b) Si todas las partidas que llegan a la factoría tienen un 1% de piezas

defectuosas, en promedio ¿ qué número de piezas se examinarán por partida?

Solución: a) 0.9285 b) 69.04 unidades revisadas

5.7.39.- Se sabe que una mecanógrafa comete en promedio un error cada 1000

caracteres tecleados. Calcular la probabilidad de que en un escrito que contiene 3000

letras haya más de dos errores.

Solución: 0.577

5.7.40.- Una peña juega a las quinielas 1000 boletos cada semana manteniendo 6

partidos fijos rellenando al azar los resultados (1, X ó 2) de los 8 restantes.

Supongamos que la peña acierta siempre los resultados de los 6 fijos:

a) ¿Cómo se distribuye la variable aleatoria X: número de aciertos en una

quiniela?

b) Un boleto resulta premiado si ha acertado al menos 12 resultados, ¿cómo se

distribuye la variable aleatoria Y: número de boletos premiados obtenidos en una

semana?

c) La peña juega todos los años de la forma indicada las 40 jornadas en las que

hay quinielas, ¿cómo se distribuye la variable aleatoria Z: número de semanas

en que la peña obtiene algún premio a lo largo del año? (definir también la

población y sucesos de estudio en todos los casos, y no considerar el partido del


-140-

pleno al 15, es decir sólo 14 partidos).

Solución: a) X: B(14, 0.33) b) Y: B(1000, 0.0196)» N(19.66, 4.43) c) Z: B(40,1)

5.7.41.- Un campo de naranjos es atacado por una plaga de mosca del Mediterráneo

y se sabe que cada mosca deposita sus huevos (es decir "pica") en una sola naranja.

Suponiendo que en el huerto hay 200.000 naranjas y que es atacado por 50.000

moscas

a) ¿Cuál es la probabilidad de que una naranja tenga más de una picada?.

b) Si las naranjas del huerto se vendieran en bolsas de 10 unidades ¿cuál sería

la probabilidad de que hubiera 10 naranjas sanas en la bolsa? (definir las

poblaciones y variables aleatorias de estudio en cada caso, así como los

supuestos para las que estén justificadas las distribuciones propuestas).

Solución: a) 0.0265 b) 0.082

5.7.42.- Se sabe que el 1 por mil de las ostras que se encuentran en determinada

zona tiene una perla en su interior. Para hacer una determinada joya se precisan 5

ostras. ¿cuál es el número mínimo de ostras que hay que coger si se desea tener una

probabilidad superior al 95% de reunir las 5 perlas necesarias?.

Solución: 9000 ostras

5.7.43.- Una determinada pieza de una máquina sufre a lo largo de su funcionamiento

impactos accidentales que la van deteriorando progresivamente. Estos impactos, no

apreciables exteriormente, se presentan siguiendo un proceso de Poisson de

parámetro λ=0.4 impactos por hora.

Se sabe que, a causa del deterioro ocasionado, la pieza falla al recibir el

decimoquinto impacto. Con el fin de evitar el fallo de la pieza, que puede

ocasionar serios daños a toda la máquina, la sección de mantenimiento ha

decidido sustituir sistemáticamente la pieza por otra nueva tras cada Z horas de

funcionamiento.

¿Cuánto debe valer como máximo Z, si se desea que la probabilidad de fallo de

una pieza sea inferior a 0.05?


-141-

Solución: 21.57

5.7.44.- La pérdida espontánea de información de un "bit" almacenado en una

memoria de cálculo se denomina fallo S. Este tipo de fallo no es muy frecuente

apareciendo en promedio uno por cada millón de horas y por "bit" almacenado. Sin

embargo, cuando el "chip" está expuesto a partículas alfa (núcleos de Helio), lo que

ocurre de forma natural en el ambiente, esta probabilidad de fallo S se ve

incrementada, siendo igual a 1 fallo por cada 1000 horas.

Si "chips" que contienen 6000 "bits" son expuestos a partículas alfa:

a) ¿Qué distribución sigue la variable aleatoria X: número de fallos S por hora en

un "chip"? ¿Cuál es la población objeto de estudio? Justifica las respuestas.

b) ¿Cuál es la probabilidad de que en una hora haya al menos un fallo S en un

"chip"?. ¿Sería anormal que hubiera cinco o más fallos S en una hora? Justifica

la respuesta obteniendo la probabilidad del suceso correspondiente.

c) Si un módulo contiene dos "chips" de estas característica, ¿sería extraño que

en dicho módulo hubiera más de 20 fallos S en una hora? Justifica la respuesta

obteniendo la probabilidad del suceso correspondiente.

d) ¿Cuál es la mediana de la distribución del número de fallos S por módulo y

por hora? ¿Qué indica? ¿Cuál crees que será el coeficiente de asimetría de esta

distribución? Justifica las respuestas.

Solución: a) 0.998 b) 9 0.715 c) 0.01 d) 12 y CA=0

5.7.45.- Para poder aceptar las partidas de diskettes que ofrece un nuevo proveedor,

una multinacional exige que el porcentaje de diskettes con algún sector defectuoso

no puede exceder el 2.5%.

Con el fin de controlar el cumplimiento de este requisito, un servicio de control en

recepción inspecciona cada envío, seleccionando N diskettes al azar y rechazando

dicho envío si encuentra más de dos diskettes defectuosos.

a) Calcular cuánto debe valer N para que la probabilidad de aceptar un envío

que no satisfaga el requisito exigido sea inferior al 5%. (Utilizar aproximación de

Poisson).

b) Los diskettes se comercializan en paquetes de 10 unidades, y a su vez los

paquetes se envían en cajas de 15 paquetes cada una. Un paquete se considera


-142-

defectuoso si tiene más de 1 diskette dañado. Si un envío tiene un 8% de

diskettes defectuosos:

b1) ¿Cómo se distribuye la variable aleatoria X: número de paquetes

defectuosos en una caja?

b2) ¿Sobre qué población estará definida X?

b3) ¿Cuál es la probabilidad de que una caja no tenga ningún paquete

defectuoso?

Solución: a) N>248 b3) 0.044

5.7.46.- Un canal binario simétrico transmite los dígitos 0 y 1. Se supone que hay una

probabilidad de 0,2 de que al transmitir uno de los números se reciba otro a causa de

ruidos o perturbaciones. supongamos que se envía un mensaje importante y para

transmitir "0" enviamos "000" y análogamente para "1" enviamos "111". Se supone

que el receptor al traducir la señal recibida utiliza la regla de la mayoría.

Ejemplo:

Si se recibe "110" se traduce como 1

Si se recibe "010" se traduce como 0

... ... ...

¿Cuál es la probabilidad de que al traducir una señal sea errónea?

Solución: 10.4%


-143-


5.8.1.- En un taller se ha recibido un envío de 150 tuercas de rosca métrica 5, 2500

tuercas de rosca métrica 6 y 2350 tuercas de rosca métrica 7. Por un error del

proveedor vienen todas mezcladas en una única caja.

a) Si tomamos 10 tuercas al azar, calcular la probabilidad de que haya

exactamente 5 de rosca métrica 6. (0,5 puntos)

b) Ahora separamos una caja con 100 tuercas elegidas al azar ¿Cuál es la

probabilidad de que haya más de 2 y menos de 5 tuercas de rosca métrica 5?

(0,5 puntos)

c) Si un operario necesita exactamente 4 tuercas de rosca métrica 6. Si las va

cogiendo una a una al azar ¿Cuál es la probabilidad de que tenga que sacar

exactamente 7 tuercas hasta conseguir las 4 necesarias? (0,5 puntos)

d) Si un operario coge un puñado de 10 tuercas ¿Cuál es la probabilidad de que

haya exactamente 5 de rosca métrica 6 y otras 5 de rosca métrica 7? (0,5

puntos)

e) Si necesitamos exactamente 5 tuercas de rosca métrica 5 ¿Cuántas

deberemos coger aleatoriamente para garantizarnos una probabilidad del 90%

de que conseguiremos las 5 necesarias? (1 punto)

SOLUCIÓN

a) Llamando a X= número de roscas de métrica 6, ésta sigue una distribución

binomial de parámetros,

)5,0;10()5000

2500;10( BpnBX

La probabilidad pedida es

2461,05,0·2525,0·5,0·5

10)5( 1055

XP

b) Llamando ahora a X= número de roscas de métrica 5, ésta sigue una distribución

binomial de parámetros,

)03,0;100()5000

150;100( BpnBX

Y esta distribución, como n>30 y p<0,1 y np<5, se puede aproximar a una distribución

de Poisson de parámetros )3(Ps . La probabilidad pedida es,


-144-

3911,04232,08153,0)2X(P)4X(P)5X2X(P

c) Si llamamos a X= número de tuercas que sacamos hasta tener 4 de métrica 5,

ésta es una distribución binomial negativa de parámetros,

)5,0p;4r(BNX

La probabilidad de que exactamente X sea 7 es,

rr )p1(p1r

1)X(P

1563,05,0·20)5,01·(5,0·14

17)7X(P 7474

d) En este caso la X se trata de una distribución multinomial de parámetros,

)47,0p5,0p03,0p;10n(MX 321

Y la probabilidad pedida es,

1806,047,0·5,0·03,0·!5!5!0

!10)5,5,0( 550

321 XXXP

e) El número de roscas de métrica 5 que hay en n elegidas al azar, sigue una

distribución binomial de parámetros,

)03,0·()03,0;( nPspnBX

La condición impuesta es que 9,0)5)·03,0(( nPsP , y su contraria es

10,0)4)·03,0(( nPsP

Buscando en las tablas se tiene que 8n·03,0 de donde,

26767,26603,0

8n

5.8.2.-

a) En la empresa FORD ESPAÑA S.A. se lleva a cabo el control de calidad del

proceso de imprimación de las carrocerías contando los defectos de todo tipo

(rayas, manchas, pelusas, cráteres,…) que aparecen en las carrocerías antes


-145-

de proceder al lijado de dichos defectos como paso previo al pintado de las

carrocerías. El ingeniero de calidad de la planta propone un plan de control de

calidad consistente en contar los defectos en 2 carrocerías y rechazar que el

proceso sea correcto si en total aparecen más de C defectos. ¿Cuál debe ser

ese valor C si queremos que cuando el promedio de defectos por carrocería

sea de 1,45 aceptemos el proceso como correcto en el 99% de los casos?(1,5

puntos)

b) En la misma empresa se inspeccionan las grapas de sujeción de la tapicería

cogiendo n grapas y aceptando el lote si en ellas aparece como máximo 5

defectuosas. ¿Cuál debe ser el número de grapas a inspeccionar si queremos

que un lote con solo un 1% de grapas defectuosas sea aceptado con una

probabilidad mayor del 99%? (1,5 puntos)

SOLUCIÓN

a) El número de defectos en una carrocería es una variable X=Ps(λ) y en dos

carrocerías Y=X1+X2=Ps(2λ).

Según la propuesta habrá que calcular un C tal que

P(Ps(2x1,45)≤C)=0,99.

En las tablas de la variable de Poisson esto ocurre para C=7

b) El número de grapas defectuosas en una muestra de n grapas es X=B(n,

P)≈Ps(nP) (después comprobaremos la aproximación)

Habrá que buscar n para que

P(Ps(n0,01)≤5)=0,99

En las tablas de la Poisson, para λ=1,70 tenemos p(Ps(1,70)≤5)=0,9920 (>0,99)

Luego λ=1,70=n·0,01→n=170

Justificación: n=170 >50, p=0,01<0,10 y nP=1,70< 5 luego vale la aproximación

5.8.3.- El director de una fábrica, un Graduado en Tecnologías Industriales, debe

decidir el número de operarios de una cierta sección de la fábrica que va a

contratar. Dichos operarios procesan unidades de un cierto producto, que llegan a

su sección cada mañana a primera hora. El número de unidades de dicho

producto que llega a la sección cada día se distribuye según una Poisson con

media 5. Cada operario puede procesar una y sólo una unidad por día. Las

unidades que no se procesen se acumulan en un contenedor único y serán

eliminadas mediante el uso de una máquina recicladora, lo que genera un coste


-146-

igual a 1000 € por día que se utilice (independientemente del número de unidades

que tenga que reciclar).

a) ¿Cuántos operarios tendrá que contratar como mínimo para asegurarse que,

con una probabilidad del 95%, todas las unidades que llegan en un día

cualquiera serán procesadas? (1.25 puntos)

b) Suponiendo que se dispone de 9 operarios, ¿cuál es la probabilidad de que se

tenga que usar la máquina recicladora más de 5 veces en un año? ¿Cuál será,

en promedio, el gasto de la fábrica en la máquina recicladora por año?

(Suponer que la fábrica opera 300 días al año). (1.25 puntos)

c) En promedio, ¿cuántos días pasarán a partir de hoy hasta que la máquina

recicladora tenga que actuar por primera vez? ¿Y por segunda vez? (0.5

puntos).

SOLUCIÓN

a) X=Ps(5)

Hay que buscar a/ P(Ps(5)≤a)≥0,95 según ábaco P(Ps(5)≤9)=0,97 a=9

trabajadores

b) Según los datos anteriores P(Ps(5)>9)=0,03 que es la probabilidad de que en

un día tengamos que utilizar la recicladora por uno o más equipos reciclados

El número de días en 300 que se utiliza la recicladora X=B(n=300, P=0,03)=Ps(9)

P(X>5)=1-P(X≤5)=1-P(Ps(9)≤5)=1-0,12=0,88

El coste anual de la recicladora es Y=1000X y su valor medio

E(Y)=1000E(X)=1000 x 9 =9000 Euros/año

c) Días hasta 1ª vez X=Bn(r=1, P=0,03) E(X)=r/P= 1/0,03=33,33

Días hasta 2ª vez X=Bn(r=2, P=0,03) E(X)=r/P= 2/0,03=66,66


-147-

5.8.4.- Una empresa de telefonía móvil factura un 5% de llamadas de duración

superior a 10 minutos.

a) Calcular la probabilidad de que en 15 llamadas elegidas al azar haya

exactamente 1 con duración superior a 10 minutos (1 punto)

b) ¿Cuál es el promedio de llamadas que tendremos que verificar hasta

encontrar 10 con duración inferior a 10 minutos? (1 punto)

SOLUCIÓN

a) El número de llamadas con duración superior a 10´ en una muestra de n=15

llamadas, si sabemos que hay un 5% de llamadas con duración superior a ese tiempo

será una variable

X=B(n=15; P=0,05)

3658,0)05,01(05,01

15)1( 141

XPLa

b) El número de llamadas hasta obtener 10 con una duración inferior a 10´ será una

variable X=BN(r=10;P=0,95)

y su valor medio E(X)=r/P=10/0,95=10,526


-148-

6. Principales Distribuciones Continuas

-149-

TEMA 6. PRINCIPALES DISTRIBUCIONES CONTINUAS

Contenido 6.1. DISTRIBUCIÓN UNIFORME ................................................................... 149

6.2. DISTRIBUCIÓN EXPONENCIAL ............................................................. 150

Tasa de fallos .................................................................................................. 152

6.3. DISTRIBUCIÓN NORMAL UNIDIMENSIONAL ....................................... 154

6.3.1. Variable normal tipificada ...................................................................... 155

6.3.2. Variable normal general......................................................................... 158

6.3.3. Teorema central del límite ..................................................................... 160

Aproximación de la binomial a la normal ........................................................ 161

Aproximación de la Poisson a la normal .......................................................... 162

Corrección por continuidad .............................................................................. 163

6.4. LA DISTRIBUCIÓN NORMAL BIDIMENSIONAL ..................................... 165

Distribuciones marginales ............................................................................... 166

Distribuciones condicionales ........................................................................... 166


Distribución uniforme ....................................................................................... 169

Distribución exponencial.................................................................................. 170

Distribución Normal ......................................................................................... 172

Distribuciones bidimensionales ....................................................................... 182


6.1. DISTRIBUCIÓN UNIFORME

La variable aleatoria X sigue una distribución uniforme en el intervalo [a;b] cuando

cualquier punto del mismo tiene la misma densidad de probabilidad. De este modo la

función de densidad es constante en todo el intervalo de definición de la variable, tal

y como se expresa en la figura de abajo,

Figura 6. 1. Función de densidad de la distribución uniforme

b

a

fx(x)

X

6. Principales Distribuciones Discretas

-150-

El valor de la altura de la función de densidad tiene que ser de tal forma que el área

bajo dicha función y el eje de abscisas sea la unidad. De aquí que la función de

densidad sea,

ab

1)x(f

La función de distribución viene dada por,

ab

axdx

ab

1xdx)x(f)x(F

x

a

x

a

El valor medio es,

b

a

22b

a

2b

a 2

ab

)ab(2

ab

2

x

ab

1dx

ab

1xdx)x(fx)X(E

Y la varianza se calcula como,

12

)ab()X(E)X(E)mX(E)X(D

2222

x

2

Actividad 6.1:

A partir de un valor al azar entre 0 y 1, obtener un valor al azar de una

uniforme entre 1 y 6.

6.2. DISTRIBUCIÓN EXPONENCIAL

Sea X una v.a. no negativa con función de densidad

a esta v.a. se denomina distribución exponencial, y se representa por )(X EXP .


1=E(X)

2

2 1=(X)D

y la función de distribución es:

+<x0 para e=f(x) x-


-151-

Figura 6. 2. Función de densidad exponencial

Figura 6. 3. Función de distribución de la exponencial

Cuando veíamos la distribución de Poisson, definíamos el "proceso de

Poisson" como aquel que cuenta el número de sucesos hasta un tiempo t, cuya

función de probabilidad es:

El tiempo aleatorio entre dos sucesos viene dado por la distribución

exponencial. Así, llamando a "T" la v.a. que indica el tiempo hasta el siguiente

!

)t.(e=)=P(X(t)

t-

x

1

FX(x)

6/ 4/ 3/ 2/ 1/ 5/ 0

0 1/ 2/ 3/ 4/ 5/ 6/ X

fX(x)


-152-

suceso, se cumple que ese tiempo será mayor que uno en concreto "t", siempre y

cuando de o a t, no haya ocurrido nada, esto es:

y la función de distribución es:

que es la función de distribución de la exponencial y es un modelo matemático muy

empleado en el cálculo los tiempos de vida de un elemento en su periodo de vida útil.

Otra característica de la exponencial es la falta de memoria, es decir,

sabiendo que es mayor que cierto valor, la probabilidad de que sea mayor que otro

valor más avanzado es independiente de lo anterior al primer valor, esto es:

Actividad 6.2:

A partir de un valor al azar de una uniforme entre 0 y 1, obtener un valor al

azar de una exponencial de media 20.

¿Cuál es la probabilidad de obtener un valor menor que la media de una

distribución exponencial?

¿Cuánto vale la mediana de una distribución exponencial de media 20?

Tasa de fallos

Se trata del número de fallos por unidad de tiempo que tiene lugar en una población

de muchos elementos. Matemáticamente se define como un límite de la probabilidad

que un elemento falle en el intervalo de t a t+t, cuando sabemos que el elemento

estaba funcionando en el instante t, todo eso dividido por incremento de t y cuando

este incremento tiende a cero. La expresión que resulta es:

e=0!

)t.(e=0)=P(X(t)=t)>P(T t-

0t-

e-1=t)>P(T-1=(t)Ft-

T

e=e

e=

t)>P(X

s)+t>P(X=t)>s/X+t>P(X s-

t

s)+(t-


-153-

La función R(t) = P(T>t) es la probabilidad que el elemento esté en

funcionamiento durante un tiempo t, y se define como la fiabilidad de dicho elemento.

La tasa de fallos h(t) viene a ser la velocidad de extinción de los elementos de

una población. Si dibujamos la función h(t) tomando como abscisas el tiempo, la

forma es como se ve en la Figura 6. 4.

h(t)=Tasa de fallos

(función de azar)

t=tiempo

precocesaccidentales fatiga

Figura 6. 4. Tasa de fallos

A esta curva se llama “curva en bañera”. En ella se distinguen claramente tres zonas:

1. Zona A, de fallos precoces o infantiles. Es la etapa de fallos en garantía. Al

principio hay muchos elementos que fallan y poco a poco va decreciendo la

velocidad de fallos.

2. Zona B, de fallos accidentales. Los fallos en esta etapa son accidentales o

debidos al azar. Es la etapa de madurez o periodo de vida útil y la tasa de

fallos h(t) es constante en el tiempo.

3. Zona C, de fallos por envejecimiento. A partir de una determinada edad

aparecen fallos por desgaste o envejecimiento de los elementos.

La distribución exponencial es representativa de los fallos accidentales, donde h(t)

es constante. Así, para la distribución exponencial la tasa de fallo es:


-154-

Y es la constante de esa tasa de fallo, que expresa el número de fallos por

unidad de tiempo. Tener en cuenta que la media de la variable exponencial es

justamente la inversa de esa tasa de fallos.

En las otras dos zonas, la tasa de fallo se puede aproximar por medio de una

ecuación lineal de la forma

h(t)=·(·t)-1

De manera que:

Si β = 1, h(t) = y se trata de la distribución exponencial.

Si β > 1, h(t) es creciente y es representativo de la zona por

envejecimiento. La distribución que sigue los tiempos de fallo es una

Weibull.

Si β <1, h(t) es decreciente y es representativo de la zona infantil. La

distribución del tiempo de fallo es también una Weibull.

La tasa de fallo tiene mucha importancia en la Ingeniería de Fiabilidad y del

Mantenimiento

6.3. DISTRIBUCIÓN NORMAL UNIDIMENSIONAL

La distribución más importante, tanto por aspectos teóricos como prácticos, es la

distribución normal, la más empleada y la que modeliza el mayor número de

comportamientos de la vida real.

La primera vez que se empleó la distribución normal fue durante el siglo XVIII

en la observación de los errores de medición, de forma que sus valores se ajustaban

bastante bien a una curva en forma de campana. La primera vez que se utilizó esta

distribución fue debido a Moivre en 1733, para demostrar la aproximación de la

binomial a la distribución normal. Esta distribución fue conocida también por Laplace

hacia el año 1775, para demostrar que la suma de los efectos de muchas variables

cada una con poca importancia en relación a las demás, era una distribución normal.

No obstante debido a un error histórico, se atribuyó a Gauss, cuya primera referencia

apareció en 1809, y por ello también se le da el nombre de "campana de Gauss" o

distribución Gaussiana.

En un principio se pensaba que todas las distribuciones seguían una campana

de Gauss, de ahí su nombre de "normal" o "estándar" para referirse a ella, ya que era

“lo normal” es que apareciera.


-155-

6.3.1. Variable normal tipificada

Aquella variable continua, con campo de existencia en toda la recta real, y con

función de densidad

+<x<- para e2

1=f(x) x

2

1- 2

se denomina variable "normal tipificada", y se representa por N(0;1)X .

f(x) es una función de densidad, ya que 0f(x) y se demuestra que su

integral para todo el campo de existencia vale la unidad. La forma de la función f(x)

aparece en la Figura 6. 5.

Figura 6. 5. Función de densidad de la normal N(0;1)

El área que hay bajo la curva f(x), la cual tiene forma de campana, y la recta

real vale la unidad.

1=f(x)dx

+

-

Del estudio de la curva f(x) se deducen las siguientes propiedades:

1) Asíntotas.

2) Simétrica respecto a x=0.

-3 -2 -1 2 1 3 0

fZ(z)

Z


-156-

f(-x)=f(x)

3) Tiene un máximo en el punto x=0.

4) Para 0<x es creciente y para 0>x es decreciente.

5) En -1=x y +1=x hay puntos de inflexión, y es cóncava para 1|>x| , y convexa

en aquellos puntos en que 1|<x| .

Todas estas propiedades corroboran la forma de campana que tiene la

función de densidad.

La media es y la varianza son:

0==E(X) 1

de ahí la notación de N(0;1) para caracterizar a la distribución, donde 0 corresponde

a la media, y 1 a la desviación típica.

Una de las características de la distribución Normal es que la distribución de

probabilidades es siempre la de la figura 6.6

-3

99’73%

95’44%

68’26%

-2 -1 +2 +1 +3 X

Figura 6.6. Áreas bajo la campana de Gauss

La función de distribución de la N(0;1) es

dxe2

1=F(x) x

2

1-

x

-

2

y para cada valor de x se obtiene un valor. Como la integral no es inmediata, se ha

tabulado su valor para cada punto x, de esta manera tenemos las áreas a la izquierda

para cada punto, según la Figura 6..


-157-

Figura 6.7. Función de distribución de la normal N(0;1)

Los valores de la normal tipificada o estándar, también se representan por z, y

mediante el símbolo z expresamos aquel valor de la abscisa que tiene a su derecha

una probabilidad , según la Figura 6. 6

Figura 6. 6. Área a la derecha de un valor de la normal N(0;1)

De la Figura 6. 5 se deduce que

-1=f(x)dx =f(x)dxz

-

+

z

Actividad 6.3:

Calcular las siguientes probabilidades de una normal tipificada:

o P(Z<1)

-3 -2 -1 2 1 3 0

fZ(z)

Z

z

-3 -2 -1 2 1 3 0

fZ(z)

Z

FZ(z)


-158-

o P(Z>2)

o P(-1<Z<+1)

o P(-1.25<Z<2.37)

Calcular los siguientes valores de la normal tipificada:

o P(Z<a)=0.60

o P(Z>a)=0.35

o P(-a<Z<+a)=0.95

o Z0.05

o Z0.90

6.3.2. Variable normal general

Dada la v.a. normal tipificada N(0;1)X , si aplicamos la transformación lineal

b+aX=Y

resulta la distribución normal general, cuyo campo de existencia es toda la recta real.

El valor medio de Y es,

y=b=b+0a=b+E(X)a=b)+XE(a=E(Y)

es decir, el coeficiente b coincide con la media de la distribución.

La varianza de Y es 2

Y22222 =.1a=(X)Da=b)+(aXD=(Y)D

de donde "a" puede ser positivo o negativo, pero su módulo coincide con la

desviación típica de y, así:

|=a| esto es XY ·

La variable Y se representa por );N(Y , ya que conociendo y

conocemos todas sus características.

La función de densidad de Y es, a partir de la fórmula del cambio de variable,

dx

dy

1(x(y))f=

dy

dx(x(y))f=(y)f xxy

||

-y=x


-159-

despejando x,

e2

1=

|a|

1.e

2

1=(y)f 2

2

2

2)-(y

2

1-

)-(y

2

1-

y

Se observa que esta función es simétrica respecto de , y tiene los puntos de

inflexión en .

La función de distribución es:

dye2.

1=F(y)

-y

2

1-

y

-

2

Como para cada valor de y habría que tener una tablas con todas las

áreas a la izquierda, lo que se hace es tipificar la variable y calcular el área de la

normal tipificada. "Tipificar" o "estandarizar" una variable significa restar su valor

medio y dividirla por la desviación típica. Así,

-a-YP=a)P(Y

y la variable

-Y tiene una distribución N(0;1) , por lo tanto:

-a=

-aN(0;1)P=a)P(Y

y expresa el valor de Y que deja a su derecha un área de .

Actividad 6.4:

De una variable aleatoria normal de media 15 y desviación típica 1.5, calcular

las siguientes probabilidades:

P(Y<16)

P(Y>12.5)

P(12<Y<17)

La combinación lineal de un conjunto de variables normales e independientes, es a


-160-

su vez otra distribución normal. Esto es, si X,...,X,X n21 son v.a. normales

);N(X iii , e independientes,

Xa....++Xa+Xa=Y nn2211

entonces Y sigue una distribución normal con

nn2211y a+...+a+a=

2n

2n

22

22

21

21

2a....++a+a=(Y)D

6.3.3. Teorema central del límite

Si Y es una suma de n variables aleatorias independientes que satisfacen ciertas

condiciones generales, entonces para n suficientemente grande, Y se distribuye

según una v.a. normal.

Más concretamente, el teorema central del límite dice que si X,...X,X n21 es

una secuencia de n v.a. independientes con ii =)XE( y ii2 =)X(D , y

X...++X+X=Y n21 , entonces la suma tipificada

2i

n

=1i

in

-Y=S

converge a una distribución normal N(0;1) .

Cada X i representa una aportación a la suma Y, la cual es de pequeña

importancia en relación a las demás, pero la suma de muchos factores de pequeña

importancia cada uno de ellos, da lugar a la distribución normal.

Un caso particular del teorema central del límite es cuando todas las variables

aleatorias son independientes y tienen la misma distribución. Esta propiedad se

recoge como el Teorema de Lindenberg-Levy.

Dicho teorema dice que para una sucesión de variables aleatorias

independientes X,...,X,X n21 , la suma tipificada converge a una distribución normal

N(0;1).


-161-

De esta forma, si E(Xi)= y D2(Xi)=

2, la media y la varianza de

Y=X1+X2+···+Xn es:

n21n21 +...++=]X+...+X+XE[=E(Y)

2

n2122 n=)X...++X+X(D=(Y)D

n=D(Y)

De aquí que:

n

n-Y=S n

converge a una N(0;1).

Aproximación de la binomial a la normal

Hemos visto que la v.a. binomial se puede considerar como la suma de n variables

aleatorias dicotómicas D(p) cada una de ellas con igual distribución. En

consecuencia, si n , entonces podemos aplicar el teorema de Lindenberg-Levy,

y la suma tipificada converge a una distribución normal N(0;1).

De esta forma

X....++X+X=Y p)B(n,Y n21

pq=)X(D p=)XE( D(p)X i2

ii

de donde np)Y(E y npq)Y(D2 por lo que

N(0;1)npq

np-Y=S n

Ello equivale a decir que:

)npqN(np;>----------p)B(n,

La aproximación a la normal es bastante buena cuando se dan las siguientes

condiciones:

1) 30>n .

2) 9,0p1,0

3) 5p·n


-162-

Figura 6. 7. Aproximación de la Binomial a la Normal

Aproximación de la Poisson a la normal

La distribución de Poisson de parámetro , por su propiedad aditiva, se

puede considerar como la suma de variables independientes de parámetro "1", y

en consecuencia también podemos aplicar el teorema de Lindenberg-Levy. De este

modo:

X...+X+X=Y ; )PS(Y 21

1=)X(D ; 1=)XE( ; PS(1)X i2

ii

cuando

N(0;1)-y

=1

1-Y=S n

·

·

lo cual es equivalente a

),N(>-----------)PS(

La aproximación es bastante buena a partir de 5> .

B(10,0’1)

B(40,0’2)

Distribución Binomial

x

PX(x)

0 10 20

0

0,1

0,2

0,3

0,4


-163-

Figura 6. 8. Aproximación de la Poisson a la Normal

Corrección por continuidad

Al aproximar la distribución binomial o la de Poisson a una normal, estamos pasando

de una variable discreta a otra continua, y al calcular probabilidades se comete un

error que puede ser apreciable cuando np o bien están entre 5 y 25. Cuando np o

bien son elevados, el error cometido no es muy importante.

Por ejemplo, supongamos que X sigue una distribución de Poisson de

parámetro =8, y nos piden calcular la probabilidad P(X>10). Aplicando la distribución

de Poisson,

1841,08159,01!c

8·e1)10X(P1)10X(P

10

0c

c8

Mediante la aproximación a la normal es,

2398,0)7071,0Z(P8

810ZP)10X(P

La diferencia con el valor exacto de la Poisson es muy apreciable.

Gráficamente es,

Ps(10)

Ps(2)

Distribución de Poisson

x

0 5 10 15 20 25

0

0,05

0,1

0,15

0,2

0,25

0,3

PX(x)


-164-

Histogram for X

10

X

0

4

8

12

16

fre

qu

en

cy

119

10,5

Error sin la corrección por continuidad

Área exacta de 0,1841

Figura 6. 9. Corrección por continuidad

El error sería menor si al efectuar la aproximación a la variable continua, en

lugar de calcular el área a la derecha de 10, tomáramos el área a la derecha de 10,5,

y así el cálculo es,

1884,0)8839,0(8

85,10)5,10()10(

ZPZPXPXP

Y esto es mucho mejor aproximación al valor exacto de 0,1841 que sin hacer

esta corrección por continuidad.

De esta forma, si el área pedida hubiera sido,

)( bXaP

Al pasar a una variable continua, y teniendo en cuenta que las desigualdades

puede ser estrictas o no, para el caso anterior la corrección por continuidad es,

)5,05,0( bXaP

Gráficamente es,


-165-

a b

P(a<X<b)

9 10 11

9,5 10,5

P(X=10)

Figura 6. 10. Corrección por continuidad

6.4. LA DISTRIBUCIÓN NORMAL BIDIMENSIONAL

Para una variable aleatoria n-dimensional y

la función de densidad conjunta de la

normal general es:

e

| Vdet

)-y(V)-y(2

1-

1/2

1-’

| 2

1=)yf(

n

y en el caso de dos dimensiones, el vector de medias

es:

b=)yE(=

b=)yE(=

222

111

y la matriz V de varianzas-covarianzas es:

2212

1211

=V

Calculando la inversa de V y el determinante de V , la función de densidad

bidimensional es:

e-12

1=)y,yf(

2

22

2

2

22

1

11

1

11

2

2

-y+

-y-y2-

-y

)-2(1

1-

2

21

21


-166-

Si 0= la función de densidad conjunta se puede expresar como producto

de funciones de densidad marginales y de ahí que y e y 21 sean independientes. Esta

implicación solamente se cumple para las variables normales.

Lo anterior equivale a decir que si la matriz de varianzas-covarianzas tiene

todos sus elementos nulos excepto en la diagonal, todas las marginales son

independientes entre si.

Figura 6. 11. Distribución normal bidimensional

Distribuciones marginales

Las distribuciones marginales siguen otra distribución normal, es decir,

),N(Y e );N(Y 222111

Hay que pensar que la proyección de la campana de Gauss sobre cualquiera

de los planos de Y Y 21 define otra campana de Gauss.

Distribuciones condicionales

Dada la campana de Gauss en tres dimensiones, si efectuamos un corte infinitesimal,

la forma que tiene la distribución de masas es otra campana de Gauss. La función de

densidad condicional de Y 2 sabiendo un valor de y1 es:

f(y1,y2)

y2

y1


-167-

)yf(

)y,yf( = )y/y(f

1

1212c

que efectuando las correspondientes operaciones y agrupando términos es:

2

2

11

1

2

22

2

2

2

12c

-1

)-y(+-y

2

1-

2-1

1=)y/y(f exp

En consecuencia, la distribución condicional es otra normal,

2

211

1

2

212 -1);-y(+ Ny/Y

Lógicamente si 0= queda la distribución marginal de y2 .

Lo mismo se puede decir de la distribución condicional de Y 1 dado un valor

de y2 :

2

122

2

1

121 -1);-y(+ Ny/Y

sin más que intercambiar los índices.

Todas las distribuciones condicionales tienen la misma desviación típica al no

depender ésta del valor y condicionante.


-168-

Figura 6. 12. Distribución normal bidimensional con correlación de 0.6

)y/y(f 12

1y

2y

)y/Y(E 12

Figura 6.12. Distribución condicional de Y2 dado y1.

f(y1,y2)

y2

y1


-169-

)y/y(E 21

)y/y(f 21

1y

2y

Figura 6.13. Distribución condicional de Y1 dado y2


Distribución uniforme

6.5.1. Se ha desarrollado un programa de simulación para una determinada investigación que tarda en ejecutarse entre 10 y 30 segundos, siguiendo una distribución uniforme. ¿Qué número máximo de simulaciones se pueden hacer para que la probabilidad de tardar más de 45 minutos sea inferior a 1.5% ?

Solución: 127

6.5.2. La venta diaria de una fábrica de montaje de ordenadores se adapta a una distribución uniforme entre 20 y 40 unidades.

a) Después de transcurridos 182 días de venta, ¿cuál es la probabilidad de

haber vendido más de 5.600 ordenadores, suponiendo las ventas

independientes de un día para otro?.

b) ¿Cuántos días de venta debemos considerar para asegurar, con un 67% de

probabilidad, la venta de más de 6.000 unidades?

Solución: a) 0.036 b) más de 202 días

6.5.3. El tiempo que tarda un programa en ejecutar un determinado procedimiento sigue un modelo uniforme de 0 a 12 milisegundos. Calcula:


-170-

a) La proporción de ejecuciones superiores a 5 milisegundos.

b) Aplicando la función de densidad, el primer y tercer cuartil.

Solución: a) 0.5833 b) 3 y 9

Distribución exponencial

6.5.4. La distribución exponencial se utiliza a menudo para modelizar la duración de un sistema. En este caso, la variable X indica el tiempo que funciona el sistema antes de fallar. Si la duración de un sistema, en años, sigue una distribución exponencial de media E(X)=6 meses:

a) ¿cuál será la función de densidad de la variable aleatoria X?

b) ¿Y la desviación típica?

c) ¿cuál será la probabilidad de que el sistema funcione por lo menos durante 1

año?

Solución: b) σ=1/2 c) 0.1353

6.5.5. Si el tiempo de vida de una máquina sigue una distribución exponencial, siendo el tiempo medio entre fallos (MTBF) de 200 horas ¿Cual es la probabilidad de que transcurran más de 200 horas sin que se produzca una avería?

Solución: 0'37

6.5.6. Se ha comprobado que la vida de un diseño de un sistema informático sigue una distribución exponencial con media de 8 años (sin que se modifique substancialmente el diseño). Se pide:

a) Calcular la probabilidad de que un diseño tenga una vida entre 3 y 12 años.

b) La probabilidad de que un diseño que ha vivido sin modificarse más de 10

años, perdure 15 años más.

Solución: a) 0,47 b) 0,15335

6.5.7. Una empresa de fabricación de carcasas de ordenador, tiene tres plantas de proceso, y todas reciben planchas de metal para cortar y confeccionar las carcasas (en kg.). La cantidad de Kg. de plancha de metal que puede procesar una planta en un día se puede representar mediante una función exponencial con un promedio de 4 (en miles de Kg.), para cada una de las tres plantas. Si las plantas trabajan de forma independiente, calcular la probabilidad de que sean exactamente dos de las tres plantas las que procesen más de 4 (miles de Kg.) en


-171-

un día determinado.

Solución: 0.26

6.5.8. La duración X de unos componentes electrónicos fluctúa aleatoriamente, verificándose que Prob(X>x)= e-λx. Se sabe que las componentes duran en promedio 400 horas de funcionamiento. ¿Qué porcentajes de las componentes duran más de 400 horas?

Solución: 0.37

6.5.9. La probabilidad de que la vida de unos componentes electrónicos sea superior a t, decrece exponencialmente a medida que aumenta dicho parámetro, fluctuando aleatoriamente, verificándose que P( V > t )=e -λt. Se sabe que en el 50% de los casos la vida no sobrepasa 100 horas de funcionamiento.

Calcular la probabilidad de que con dos componentes, la vida del conjunto

sobrepase 100 horas:

a) Situados en paralelo.

b) Situados en serie.

Solución: a) 0.75 b) 0.25

6.5.10. En el servicio técnico de mantenimiento y reparación de una compañía de ordenadores, el tiempo en horas que transcurre entre dos avisos consecutivos de avería sigue una distribución exponencial con media de un cuarto de hora, en cualquier momento del día. Se pide :

a) Probabilidad de que si a las diez y media se recibe una llamada de aviso, la

próxima se reciba después de las 11h.

b) ¿Cuál es el número máximo de avisos que se recibirán entre las once y media

y las trece horas con una probabilidad del 98%?

Solución: a) 0,1353 b) Aprox. 11 avisos.

6.5.11. El personal de una empresa de ingeniería usa un terminal para realizar cálculos técnicos. El tiempo que cada técnico emplea en una sesión es en promedio 20 minutos. (Asumiendo que dicho tiempo sigue una distribución

exponencial con xe·)x(f ;x>0).

a) Calcular la probabilidad de que un técnico emplee menos de 20 minutos en su

sesión.


-172-

b) Cuando un técnico va a usar el terminal, encuentra que está ocupado por otro

que lleva ya media hora. ¿Cuál es la probabilidad de que tenga que esperar

más de 10 minutos antes de que quede libre?

c) Sabiendo que una mañana deben realizarse 10 sesiones en el terminal (cada

una de las cuales empieza nada más terminar la anterior), calcular

aproximadamente la probabilidad de que todas ellas puedan finalizarse a lo

largo de las 4 horas de la jornada de la mañana.

Solución: a) 0.6321 b) P(X>10) c) 0.7364

6.5.12. Un dispositivo está formado por dos componentes electrónicos iguales A y B montados en serie. La duración en horas de funcionamiento de dichos componentes fluctúa aleatoriamente siguiendo una distribución exponencial de parámetro z. Si por motivos de seguridad es necesario que el dispositivo tenga una fiabilidad del 99.4% a las t horas de funcionamiento, ¿qué fiabilidad se requiere a las t horas para cada uno de los dos componentes?

Solución: 0.997

6.5.13. La duración de un determinado componente electrónico sigue una distribución exponencial de media 1000 horas. Un componente de este tipo lleva funcionando 300 horas. ¿Cuál es la probabilidad de que siga funcionando durante más de 700 horas adicionales?

Solución: 0.496

Distribución Normal

6.5.14. Si Z es una variable aleatoria N(0,1), hallar:

a) P(Z 1.85)

b) P(Z -1.85)

c) P(1 Z 1.85)

d) P(-1.85 Z -1)

e) P(-1 Z 1.85)

Solución: a) 0.9678 b) 0.0322 c) 0.1265 d) 0.1265 e) 0.8091

6.5.15. Sea X una variable N(5,2). Calcular:

a) P(1 X 8)


-173-

b) P(X 1)

c) P(X -1)

Solución: a) 0.9104 b) 0.0228 c) 0.00135.

6.5.16. Los límites medios de tolerancia de un interruptor son 40±0,5 amperios. Si un interruptor se dispara a una intensidad menor de 39,5 o mayor de 40,5 se considera defectuoso. Si los puntos de ruptura de los interruptores de una partida se distribuyen normalmente con media 39,5 y desviación típica 0,2, ¿cuál será el porcentaje de interruptores defectuosos en esa partida?

Solución: 0,5

6.5.17. En la producción de piezas para un motor de combustión interna, los pesos presentan bastante dispersión. Una dispersión demasiado grande provoca un mal funcionamiento. Supongamos que un fabricante concreto desea rechazar el 3% de los cojinetes de menor peso y el 3% de los cojinetes de mayor peso. Si el peso medio es 4,72 Kg, la desviación típica es 0,006 kg y la distribución de los pesos es normal, determinar el peso máximo y el peso mínimo para que una pieza sea aceptada.

Solución: 4.7087 y 4.7313

6.5.18. Se admite que los pesos, expresados en kilogramos, de los jóvenes varones de un cierto grupo, se distribuyen según una ley normal N(69, 6). Se desea poder afirmar que la probabilidad de que el peso X de un joven, tomado al azar de ese grupo, sea mayor que una cantidad L es 0.9. Calcular L.

Solución: 61.29

6.5.19. Los coeficientes intelectuales de los alumnos de un colegio siguen la ley normal y se sabe que P(X>1.4)=0.1056 y P(X>1)=0.4013. Calcular los parámetros de la distribución.

Solución: N=0.9 a=0.4

6.5.20. Dada una variable aleatoria normal X tal que P(X≤15)=0.1 y P(X≤20)=0.95, calcular:

a) P(X13)

b) un valor a tal que P(Xa)=0.05

c) un valor b tal que P(X>b)=0.5.


-174-

Solución: a)0.00695 b)14.39 c)17.19

6.5.21. La señal recibida por la pantalla de un ordenador se considera apta si la desviación del voltaje observado respecto del teórico no es mayor de 10 voltios. Las desviaciones observadas obedecen a una ley normal de media 0 y desviación típica 5. Calcular que porcentaje de señales recibidas por la pantalla se consideran aptas.

Solución: 97,7%

6.5.22. En un sistema binario, la información se representa mediante señales eléctricas (por ejemplo voltaje). Un voltaje representa el bit 0 y otro el bit 1. Supongamos que deseamos representar los bits 0 y 1 por los voltajes 2 y 3 respectivamente. Debido a las fluctuaciones del voltaje en un circuito, la terminal de entrada de un circuito digital no siempre recibe el voltaje destinado ya que es frecuentemente distorsionada debido a ruidos en el canal. Muy a menudo, el ruido se modela como una variable aleatoria distribuida normalmente y se denomina ruido Gaussiano. Si el ruido es Gaussiano con media N=0 y desviación típica a=0,22, y la terminal de entrada reconoce el bit 0 si el voltaje recibido es menor de 2,6 y el bit 1 si el voltaje recibido es mayor o igual que 2,6, calcular la probabilidad de que el receptor reconozca:

a) un 1 cuando se ha transmitido un 0

b) un 0 cuando se ha transmitido un 1.

Solución: 0.0032 0.0344

6.5.23. El tiempo medio de CPU necesario para la ejecución de una clase de programas en un ordenador central es 2,52 minutos y la desviación típica es 0,37 minutos. Si el tiempo de ejecución se distribuye normalmente, ¿Cuál es la probabilidad de que un programa seleccionado aleatoriamente requiera entre 2 y 4 minutos de CPU? ¿cuál es la probabilidad de que la diferencia en valor absoluto entre el tiempo de ejecución y la media sea menor o igual que 1 minuto?

Solución: 0.92 0.9931

6.5.24. El nivel de decibelios de un escape averiado sigue una distribución normal con media 90.4 decibelios y varianza 5.8 decibelios2 . Si se toma el valor medio de dos medidas, en lugar de una medida única ¿cuál será su distribución? ¿qué sucede a la varianza cuando se promedian dos medidas, en lugar de tomar una única?.

Solución: N(90'4,1'70)


-175-

6.5.25. Un ingeniero de proyectos que está colaborando en el diseño de una refinería petroquímica. Se deben realizar cuatro actividades secuencialmente y sin solapamiento. Las duraciones de las actividades se supone que son variable aleatoria independientes normalmente distribuidas:

ACTIVIDAD MEDIA DESVIACIÓN TÍPICA

a 50 días 5 días

b 20 días 3 días

c 70 días 10 días

d 40 días 4 días

¿Cuál es la probabilidad de que el tiempo total necesario para que se elaboren

las cuatro actividades no supere los 200 días?

Solución: 0'9485

6.5.26. Los diámetros de los ejes fabricados para una determinada aplicación están distribuidos normalmente con una media de 3'810 cm y una desviación típica de 0'051. Las arandelas de los ejes tienen diámetros interiores que están normalmente distribuidos con una media de 3'942 cm y una desviación típica de 0'025. Dados un eje y una arandela seleccionados al azar, ¿cuál es la probabilidad de que el eje no entre en la arandela?

Solución: 0'0102

6.5.27. El peso neto de un paquete es una variable aleatoria N(20,2) y el del envase es una variable aleatoria N(1, 0'2). Colocamos 13 de estos paquetes sobre un soporte de madera que pesa 50 Kg. ¿Cuál es la probabilidad de que al ponerlos en un montacargas cuya carga límite es de 300 Kg. este no arranque?

Solución: 0'9990.

6.5.28. Los diámetros de los tornillos de una caja, medidos en cm siguen una distribución N(2,0'03) y los diámetros interiores de las tuercas de otra caja siguen una distribución N(2'02, 0'04). Un tornillo y una tuerca ajustarán si el diámetro interior de la tuerca es mayor que el diámetro del tornillo y la diferencia entre estos diámetros no es mayor de 0'05 cm. Si se seleccionan al azar un tornillo y una tuerca ¿cuál es la probabilidad de que ajusten?

Solución: 0'3811

6.5.29. En un examen de selectividad, los estudiantes del colegio A alcanzan


-176-

calificaciones que se distribuyen N(625,10) y los del colegio B alcanzan calificaciones que se distribuyen N(600,12'25). Si 2 estudiantes del colegio A y 3 del colegio B hacen este examen ¿cuál es la probabilidad de que el promedio de las dos calificaciones de los estudiantes del colegio A sea mayor que el promedio de los 3 estudiantes del colegio B?

Solución: 0’9938

6.5.30. La dimensión principal de cierta pieza producida en una fábrica se distribuye normalmente con media 150 y varianza 0,16. Se sabe que las piezas son aceptables si la longitud se halla comprendida entre 149.2 y 150.4. Calcular la probabilidad de que al menos el 90% de las piezas de un lote sean correctas:

a) En el caso de que el tamaño del lote sea 10.

b) En el caso de que sea 100.

Solución: a) 0.4342 b) 0.0239 (0.0178 sin aplicar la corrección por continuidad)

6.5.31. La resistencia eléctrica de las lámparas fabricadas según un determinado proceso, se distribuye normalmente con μ=2.000 y σ=200. Dichas lámparas se empaquetan en lotes de 100 unidades. Una lámpara se considera defectuosa si su resistencia es inferior a 1900 y un lote se considera de baja calidad si 20 o más lámparas son defectuosas. Calcular la probabilidad p de que un lote sea defectuoso.

Solución: 0'993

6.5.32. Si el tiempo de vida de un componente eléctrico sigue una distribución exponencial, siendo el tiempo medio entre fallos es de 100 horas. Calcular la probabilidad de que transcurran más de 200 horas sin averías.

a) 0’3679

b) 0’1353

c) 0’6065

d) 0’0183

6.5.33. Una máquina fabrica piezas cuya longitud sigue una distribución Normal. La probabilidad de que una pieza tenga una longitud mayor que 10 cm es del 6’68%, y la probabilidad de que sea menor que 5 cm es del 15’87%. Si una pieza se considera correcta cuando su longitud se encuentra entre 3 y 12 cm. Calcular el porcentaje de piezas defectuosas fabricadas por la máquina.

a) 0’0290

b) 0’1919

c) 0’0668


-177-

d) 0’1857

6.5.34. El peso en vacío de una bombona de butano sigue una distribución normal de media 6 Kg y desviación típica 1 Kg. El peso del gas es una variable normal e independiente de la anterior de media 13 Kg y desviación típica 1’5 Kg. Si el butanero pesa 86’94 Kg y el montacargas no soporta más de 100 Kg. Calcular la probabilidad de que el montacargas suba.

a) 0’0005

b) 0’0040

c) 0’0322

d) 0’0427

6.5.35. HIJOS DE ILUMINADA S.A. es una empresa que se dedica a producir bombillas. En una de sus líneas se fabrican bombillas de 40 Vatios y se introducen en paquetes de 40 bombillas. El filamento de las mismas tiene una resistencia con distribución NORMAL N(605,1.18) ohmios, y una bombilla se considera correcta cuando su resistencia esta situada entre los valores 607.86Ω y 600.96Ω.¿Cuál es la probabilidad de que elegido un paquete (de 40 bombillas) al azar, contenga 2 ó más bombillas defectuosas (por la resistencia)?

a) 0.81142

b) 0.00849

c) 0.18858

d) 0.04084

6.5.36. Disponemos de un montacargas que soporta 100 Kg, y queremos utilizarlo para que, en un 95% de las veces, pueda subir 3 paquetes de cemento. Para su traslado, los paquetes son colocados sobre un palet de madera. El peso individual de cada paquete tiene una distribución normal N(20,0.5)Kg. ¿Cuál debe ser el peso máximo del palet?

a) 37.53

b) 36.51

c) 38.57

d) 29.53

6.5.37. Una determinada máquina fabrica láminas de acero cuyo espesor sigue una distribución normal N(0.1, 0.005) cm. La máquina se considera que funciona mal, y por tanto se debe revisar, si al tomar una muestra, el espesor promedio de las láminas es superior a 0.1041cm. Calcular el número de piezas que deberemos tomar para que, cuando la máquina funcione bien, sólo tengamos que revisarla en un 5% de las veces.

a) 9


-178-

b) 6

c) 4

d) 8

6.5.38. La media de una variable aleatoria normal que modeliza el tiempo de ejecución de un determinado algoritmo es de 5 veces la desviación típica. Se

cumple además que P(X6)=0.84134. Calcular la media y la desviación típica.

Solución: 5 y 1

6.5.39. El tiempo de transmisión vía modem de un fichero con una gran cantidad de información, que se realiza semanalmente en una empresa (45 veces al año), se distribuye normalmente con una media de 168 seg. y una desviación típica de 5 seg. Calcular:

a) El número de veces con un tiempo de transmisión entre 165 y 175 seg.

b) El número de veces con un tiempo de transmisión mayor que 180 seg.

Solución: a) 29 b) 0.369

6.5.40. En un multiplexor de gran potencia, se pueden establecer 4600 conexiones por minuto. El número de conexiones por minuto se ha podido estudiar, que es una variable aleatoria que sigue una distribución de Poisson de valor λ=4489. Calcular la probabilidad de que en un minuto el multiplexor esté saturado de llamadas.

Solución: 0.0480

6.5.41. Una empresa de fabricación de mesas de ordenador, posee dos plantas de producción (A y B), en la planta A, la altura de las mesas fluctúan con media 75 cm. y σ=1.2 cm, y en la planta B, la altura de las mesas fluctúan con media 77 cm. y σ=0.9 cm. Suponiendo que ambas variables se distribuyen normalmente, determinar la probabilidad de que al seleccionar al azar una mesa de la planta A y otra de la planta B, resulte la mesa de la planta A mas alta que la de la planta B.

Solución: 0.0918

6.5.42. La dimensión de un determinado componente electrónico (para incorporarlo en la placa base) fabricada por una determinada firma, exige que esté comprendida entre 149.2 mm y 150.4 mm (fuera de estos limites hay problemas). Se comienza a trabajar con un proveedor cuya dimensión de la componente se distribuye normalmente con media 150 mm y varianza 0.16 mm.


-179-

Calcular la probabilidad de que al menos el 90% de los componentes de un lote sean correctas:

a) Si el tamaño del lote es 10.

b) Si el tamaño del lote es 100.

Solución: a) 0.434 b) 0.0236

6.5.43. El tiempo medio de CPU necesario para la ejecución de una clase de programas en un ordenador central es 2.52 minutos y la desviación típica es 0.37 minutos. Si el tiempo de ejecución se distribuye normalmente.

a) Determinar la probabilidad de que un programa seleccionado aleatoriamente

requiera entre 2 y 4 minutos de CPU.

b) Calcular la probabilidad de que la diferencia en valor absoluto entre el tiempo

de ejecución y la media sea menor o igual que 1 minuto.

Solución: a) 0.92 b) 0.9931

6.5.44. La variable X se distribuye normalmente con media 200. Se sabe que la probabilidad de que X sea superior a 250 es 0.2. Calcular cuántos valores independientes de X deben observarse para tener una probabilidad mayor que 0.5 de que el mayor de ellos sea superior a 300.

Solución: 15 (clave: P(xmax>300)=1-P(Todos<300))

6.5.45. Unas 180 personas matriculadas en la universidad están en una cola para pagar las matrículas de los cursos; el importe no es el mismo en cada caso pero se estima una media por persona de 85.000 ptas. y una desviación de 12.300 ptas. ¿Qué probabilidad hay de que el cajero haya recibido en total más de 15 millones de ptas.?

Solución: 0.9656

6.5.46. Se calcula que durante el próximo mes de enero las ventas de una empresa de ordenadores bajarán entre 350 y 610 millones de ptas., con una probabilidad del 80%, siendo la cifra más probable de disminución de ventas los 480 millones de pts. ¿cuál es la probabilidad de que las ventas disminuyan menos de 500 millones de pts. aceptando un modelo de distribución aproximadamente normal?

Solución: 0.5792

6.5.47. Se ha advertido que el número de errores al escribir por primera vez un


-180-

programa sigue una distribución de Poisson de media 0.8 errores por página del listado. Calcula la probabilidad de que:

a) Haya algún error en una página.

b) En un procedimiento de diez páginas haya más de diez errores.

c) En las 500 páginas de que consta el programa haya menos de 350 errores.

Solución: a) 0.55067 b) 0.18411 c) 0.005868

6.5.48. Se ha calculado, de acuerdo con experiencias anteriores, que dos de cada cinco alumnos matriculados en una determinada asignatura, no acudirán a realizar el examen. Teniendo en cuenta que los alumnos son convocados en distintas aulas de examen, ¿a cuántos debe convocarse en un aula, con capacidad para 120 personas, para poder asegurar espacio para todos los que se presenten, con una probabilidad de 0.975?

Solución: 180 alumnos

6.5.49. La resistencia de un montacargas de una fábrica es de 10 Tm.; en el mismo se cargan paquetes de peso aleatorio distribuido uniformemente entre 40 y 60 Kg. Determinar el número máximo de paquetes que pueden cargarse manteniendo la probabilidad de rebasar la carga crítica inferior al 1 por mil.

Solución: 195 paquetes.

6.5.50. El número de placas base correctas que se elaboran en una fábrica de componentes de ordenador cuadruplica al de placas defectuosas. Se pide:

a) La probabilidad de que de 200 placas producidas en un día más de 40 y

menos de 70 sean defectuosas.

b) Las placas que deben producirse en un día para, con un 90% de probabilidad,

asegurar más de 100 placas correctas con el fin de satisfacer la demanda.

Solución: a) 0.464 b) 133 piezas

6.5.51. El peso de las naranjas que llegan a una envasadora se distribuye normalmente con media 150 gr. y desviación típica 30 gr. Calcular el número mínimo de naranjas que es necesario introducir en una bolsa para que la probabilidad de que ésta pese menos de 5 Kg. sea inferior al 1%.

Solución: 37 naranjas

6.5.52. En una población normal de media 20 y desviación típica 4, ¿a qué


-181-

distancia de la media se encuentra?:

a) el segundo cuartil.

b) el tercer cuartil.

c) el valor que dista 1.5 veces el Intervalo intercuartílico por encima del tercer

cuartil.

Solución: a) 0 b) 2.7 c) 30.8

6.5.53. Un fabricante exige a sus proveedores de placas de montaje que un determinado orificio de las mismas tenga un diámetro comprendido entre 96 y 102 micras, debiendo desecharse las que no verifiquen esta condición. Si un proveedor sabe que las placas que produce son de una calidad tal, que el

10% de ellas tienen el orificio con un diámetro mayor de 100 micras y que el 5%

de las placas lo tienen inferior a 97 micras, y suponiendo que dicho diámetro se

distribuye normalmente, determinar el porcentaje de placas que deben ser

desechadas por el proveedor. ¿Qué debería hacer éste para disminuir dicho

porcentaje?.

Solución: 0.6%

6.5.54. Un determinado microprocesador tiene una probabilidad de error de cálculo de una entre un millón. Para un determinado proceso se realizan 4.800.000 operaciones y el efecto de cada error es restar una décima de unidad de su valor correcto. ¿Cuál es la probabilidad de que el número obtenido sea exactamente una unidad por debajo del valor real?

Solución: 0.015

6.5.55. Por un punto de una carretera pasa en promedio un coche cada 20 segundos en un sentido y un coche cada 15 segundos en el sentido contrario.

a) ¿Qué tiempo transcurrirá en promedio entre el paso por el punto de dos

coches consecutivos, sea cual sea el sentido en el que circulen? (Indicar con

precisión las hipótesis realizadas para responder a esta cuestión.)

b) t segundos después del paso de un coche llega por un lateral a dicho punto

un peatón que desea cruzar. ¿Cómo se distribuirá la variable aleatoria "tiempo

desde que llega hasta que pasa un coche"? Justificar la respuesta.

c) Si el peatón necesita disponer de 10 segundos sin que pase ningún vehículo

para poder cruzar ¿cuál es la probabilidad de que pueda cruzar nada más

llegar sin tener que esperar?

Solución: a) 8.6 seg c) 0.31


-182-

6.5.56. Una industria dispone de dos envasadoras de un producto químico. La primera dosifica el 75% de la producción y la segunda el resto. Se sabe que el peso de producto por envase es una variable N(170,7) en la primera envasadora y N(176,7) en la segunda. Se consideran como incorrectos aquellos paquetes cuyo contenido neto es superior a 180 gr. Se pide:

a) Calcular la probabilidad que tiene cada envasadora de producir una paquete

incorrecto

b) Si se elige un paquete al azar y resulta ser incorrecto, hallar la probabilidad de

que haya sido envasado por la segunda máquina

c) Si se eligen 5 paquetes al azar, calcular la probabilidad de que 2 de ellos

hayan sido envasados por la 1ª máquina.

Solución: a) 0.0764 y 0.2843 b) 0.55 c) 0.0330

Distribuciones bidimensionales

6.5.57. Un sistema electrónico contiene cuatro componentes. Sea Xj el tiempo transcurrido hasta que falla la componente j (j=1,2,3,4). Suponemos que X1,X2,X3 y X4 son variable aleatoria independientes y cada una de ellas tiene como función de distribución F. El sistema funciona mientras funcione el componente 1 y al menos uno de los otros tres componentes. Determinar la función de distribución de la variable aleatoria X que indica el tiempo de duración del sistema.

Solución: FX(t)=1-(1-F(t))(1-F(t)3) t>0

6.5.58. Dos sistemas de ignición son utilizados en un satélite, como un dispositivo redundante para ayudar a garantizar la ignición. Si ambos sistemas poseen tiempos de supervivencia distribuidos exponencialmente, el primero con una media de 3 años y el segundo con una media de 4 años, ¿cuál es la probabilidad de que al menos uno sobreviva 2 años?.

Solución: 0'8086.

6.5.59. Sea X la temperatura en ºF e Y la cantidad de lluvia en pulgadas/acre de una ciudad seleccionada aleatoriamente. Se sabe que:

Cov(X,Y)=8'12 Var(X)=78'24 Var(Y)=2'17


-183-

Calcular el coeficiente de correlación existente entre estas dos variables, ¿qué

conclusiones se pueden obtener?

Si hubiéramos medido la temperatura en grados Celsius y la lluvia en litros/m2,

¿sería diferente el valor de la covarianza? ¿y el valor del coeficiente de

correlación?.

Solución: 0'623

6.5.60. Sean X1, X2 y X3 tres variables aleatorias independientes e idénticamente distribuidas. Cada una de ellas tiene una distribución uniforme sobre el intervalo (0,1). Determinar el valor de E[(X1-2X2+X3)

2].

Solución: 0.5

6.5.61. Sean X e Y dos variable aleatoria tales que Var(X)=9 Var(Y)=4 y cov(X,Y)=-1. Calcular:

a) Var(X+Y)

b) Var(X-3Y+4).

Solución: a) 11 b) 51

6.5.62. Sean X e Y dos variables aleatorias, que pueden ser dependientes, tales que Var(X)=Var(Y). Demostrar que la covarianza de las variables aleatorias X+Y y X-Y es nula.

6.5.63. El coste de fabricar un pequeña pieza para una máquina de corte es una variable aleatoria (X) con función de densidad f(x) = x/2 - 5 en el intervalo [10,12] y nula en el resto. El precio de venta es otra variable aleatoria (Y), que se puede calcular en función del coste de fabricación, según la expresión: precio de venta (Y) = coste(x) + 10% coste(x). Calcular la probabilidad de que el precio de venta de una pieza sea inferior 13.

a) 0.8265

b) 0.9649

c) 0.7641

d) 0.5153

6.5.64. La recta de regresión mínimo cuadrática de Y/X

a) Es el lugar geométrico de los valores medios de Y/Xi.

b) Es siempre la mejor función de predicción de los valores de Y a partir de los


-184-

de X.

c) Pasa siempre por el punto medio de la distribución de (X,Y)

d) Tiene pendiente negativa si el coeficiente de correlación entre X e Y es

próximo a cero.

6.5.65. Un ingeniero que está diseñando la cabina de un avión, considera que el brazo del piloto alcanza una longitud X y su altura sentado es Y. Estas variables siguen una distribución normal bivariante siendo μX=88'9 μy=91'44 σX=4'06 σY=3'3 ρ=0'8 . Hallar la probabilidad de que un piloto seleccionado al azar:

a) alcance con el brazo una longitud de más de 96'52

b) tenga sentado una altura de más de 96'52.

Solución: a) 0'0307 b) 0'0618

6.5.66. Una empresa grande de ingeniería y arquitectura pasa un conjunto de tests a los aspirantes a entrar en la sección de diseño. Los índices importantes son la destreza manual X y la visión espacial Y que se consideran juntos. Datos anteriores sugieren que estas dos variables tienen una distribución normal bivariante con parámetros μX=75, μY=60, σX=10, σY=15 y ρ=0,6.

a) Obtener la distribución condicional de la puntuación conseguida en visión

espacial, Y, para una destreza manual baja X=50, y para una destreza manual

alta X=90.

b) Si se requiere una puntuación mínima en visión espacial de 80 para ser

aceptado ¿cuál es la probabilidad de que sea aceptado un aspirante con una

puntuación en destreza manual de 50? ¿y con una puntuación de 90? ¿existe

alguna relación entre las variables X e Y?.

Solución: a) N(37'5,12) N(73'5,12) b) 2x10-4 0'2946

6.5.67. Dado un lote específico de engranajes, se cree que la duración del tratamiento de calor a que ha sido sometido, X, y la profundidad del endurecimiento Y tienen una distribución normal bivariante con μX =18 segundos, μY =7'87 mm, σX = 4'8, σY = 2'03 y ρ = 0'87 .

a) Obtener la recta de regresión E(Y/X=x) que proporciona el valor esperado de

la distribución condicional de la profundidad del endurecimiento para los

distintos tiempos.

b) Obtener la distribución condicional del endurecimiento para una duración

del tratamiento de 15 segundos.

c) Si X=15, ¿cuál es la probabilidad de que la profundidad del endurecimiento


-185-

esté entre 5'84 y 9'90?

d) Si la profundidad del endurecimiento es de 7,62, ¿cuál es el valor esperado de

la duración del tratamiento?

Solución: a) E(Y/X=x)=7'87+0'3679(x-18); b) N(6'76,1); c) 0'8204; d) 17'44

6.5.68. Se supone que la resistencia a la rotura de las soldaduras, Y, y el diámetro de las soldaduras, X, siguen una distribución normal bivariante. El modelo tiene los parámetros μX=0'201 pulgadas, μY=2240 p.s.i., σX=0'046, σy=342 y ρ=0'75.

a) Obtener E(Y/X=x)

b) si se observa un diámetro de 0'184 ¿cuál es la distribución condicional de la

resistencia a la rotura?

c) Si X=0'184, ¿cuál es la probabilidad de que la resistencia a la rotura sea

mayor de 1500 p.s.i.?

Solución: a) E(Y/X=x)=2240+5576'08(x-0'201) b) N(2145'20,226'211) c) 0'9978

6.5.69. En los mensajes que se transmiten en una red de ordenadores se tiene constatado que la Carga del Sistema (X) y el Tiempo de Respuesta (Y) fluctúan aleatoriamente con media mx = 20.5 trabajos y my = 5.2 seg., desviaciones típicas σx =5.7 trabajos y σy =1.3 seg. y coeficiente de correlación r=0.85. ¿Entre que limites fluctuara el Tiempo de Respuesta del 95% de los mensajes cuando hay una carga de 22 trabajos?

Solución: 4.125 y 6.865

6.5.70. En una red de ordenadores se ha realizado un estudio de regresión comprobándose que la relación entre la carga del sistema y el tiempo de respuesta de cualquier consulta, se ajusta mediante la recta TIEMPO_RESPUESTA en función de la CARGA_SISTEMA, con un coeficiente de correlación de 0.9, y se sabe que cuando la carga del sistema es de 6 trabajos, el tiempo medio de respuesta de cualquier consulta fluctúa en el 95% de los casos entre 15 y 35 segundos. ¿ cuánto vale la desviación típica de la variable TIEMPO_RESPUESTA?

Solución: 11.47


6.6.1. Se sabe que el tiempo de vida de un determinado componente electrónico sigue una distribución exponencial de media 125 minutos. Se pide:


-186-

a) Probabilidad de que el componente dure más de 3 horas. (0.5 puntos)

b) Sabiendo que el componente estaba funcionando a las 3 horas, calcular la probabilidad de que siga funcionando después de 4 horas. (0.5 puntos)

c) Si colocamos 2 componentes en serie, ¿cuál es la probabilidad de que la vida del sistema formado por estos dos componentes dure más de 100 minutos? Considerar componentes independientes. (1 punto)

d) Cuando falla un componente lo sustituimos por otro. Si al final hemos utilizado 50 componentes, ¿cuál es la probabilidad de que la suma de las vidas de los 50 componentes esté entre 100 horas y 110 horas? (1 punto)

SOLUCIÓN:

La vida del componente sigue una distribución exponencial )008,0125/1(EXPX

a) La probabilidad de que dure más de 3 horas es,

2369,0eee)180X(P 44,1180·008,0180·

b) Sabiendo que a los 180 minutos ya estaba funcionando, la probabilidad de que dure más de 240 minutos es,

6188,0eeee

e

)180X(P

)240X(P

)180X(P

)180X240X(P)180X/240X(P 48,060·008,060·

180·

240·

c) Para el sistema en serie, para que la vida del sistema dure más de 100 minutos se debe cumplir que los dos componentes duren más de 100 minutos, y como son componentes independientes, la probabilidad es,

2019,0e

eee·e)100X(P)·100X(P)100X100X(P)100X(P

6,1

100·008,0·2100··2100·100·2121

d) De acuerdo con el teorema central del límite, la suma de variables independientes y con la misma distribución sigue una normal de media la suma de las medias y varianza la suma de varianzas. Esto es,

5021 X...XXS

utosmin6250125·501

·50)X(E...)X(E)X(E)X...XX(E)S(E 50215021

2

2250

2

2

2

1

2

5021

22 7812500080

150

150 utosmin

,··)X(D...)X(D)X(D)X...XX(D)S(D


-187-

utosmin,)S(D 88883

La probabilidad que nos piden es,

26530388606539028303960

88883

62506000

88883

62506600660060006011060100

,,,),(,

,,)S(P)·S·(P

6.6.2. En el envasado de una marca de frutos secos, por normativa uno de los parámetros a controlar es el peso de cada paquete. Esta variable sigue una distribución Normal de media 110 g y de desviación típica 2 g.

a. Calcular la probabilidad de que un paquete pese más de 113 g. (0,5 puntos)

Llamando X al peso por cada paquete y siguiendo esta una distribución del tipo

X~N(110,2), la probabilidad pedida es:

b. De acuerdo a la normativa para el control del contenido efectivo de los

productos alimenticios envasados, un paquete de estas características se

considera defectuoso si su contenido es inferior al 95,5% del valor nominal,

que en este caso coincide con la media. Calcular la proporción de paquetes

defectuosos, es decir, que incumplen la normativa. (1 punto)

Los paquetes que incumplirán la normativa serán aquellos que su peso sea

inferior a

=0,955 Es por ello que la probabilidad pedida será:

c. Estos paquetes se envasan en cajas de 40 unidades. Si una caja contiene 3 o

más paquetes defectuosos son retirados de la cadena de producción.

Determinar el porcentaje de cajas que se retiran de la cadena de envasado. (1

punto)


-188-

Se retiran aquellas caja con 3 o más paquetes defectuosos, por lo que se define

una nueva variable Y que determina el número de defectuosos en cada caja. Esta

nueva variable sigue una distribución del tipo Y~B( 40, 0,0067).

La probabilidad pedida será:

d. Una cadena de supermercados hace un pedido de 200 cajas de dicho

producto. Calcular la probabilidad de que en el total del pedido haya más de

10 paquetes que incumplan la normativa. (1 punto)

Definimos una nueva variable T que sume el número de defectuosas que hay en

las 200 cajas, esto es:

, siendo Yi el número de paquetes defectuosos en la caja i,

tal y como se definió en el apartado anterior.

Esta nueva variable, por el Teorema Central del Límite, tendrá como distribución

T~ N(200·40·0,0067, 00 0 0 0 0 9 )=N(53,6, 7,3) por lo que la

probabilidad pedida es:

e. En el proceso de control de calidad, ¿cuantas cajas por término medio han de

controlarse hasta encontrar la primera que sea defectuosa? (1 punto)

Sea S, el número de cajas a controlar antes de encontrar una defectuosa. Esta

variable sigue una distribución de tipo S~BN(1, 0,00247), por lo que en término

medio el número de cajas que tiene que controlar hasta que parezca la primera

defectuosa es:

cajas habrá que controlar

6.6.3. El 50% de unos cartuchos de tinta para impresión duran 10 horas. Admitiendo que la duración de los cartuchos sigue una distribución exponencial, se pide:

a) Calcular la probabilidad de que un cartucho recién instalado permita imprimir durante más de 18 horas. (1 punto)

b) ¿Cuál es la probabilidad de que con los 20 cartuchos que vienen en una caja podamos imprimir durante más de 300 horas. (1 punto)


-189-

Solución:

a) La función de distribución de la exponencial es xx e1)x(F . Para x=10

5,0e1 10· y despejando el valor de es

0693,010

5,0ln


2873,0ee)18X(P 18·0693,018·

b) la duración total de los cartuchos es,

2021 X...XXY

Aplicando el teorema central del límite, la variable Y se aproxima a una normal

de media y varianza dado por,

6,2880693,0

1·20)X(E)Y(E

20

1i

i

51,41640693,0

1·20)Xvar()Yvar(

2

20

1i

i

5,64)Y(D


4299,0)1767,0Z(P5,64

6,288300ZP)300Y(P

6.6.4. La vida de un componente electrónico y la temperatura del entorno siguen una distribución normal bivariante de covarianza -30 h ºC. La vida del componente se distribuye de forma normal, con media 100 horas y desviación típica 10. Sabemos además que la probabilidad de que la temperatura sea superior a 30º es 0,0228 y la de que sea superior a 20 ºC es 0,5. Se pide:

a) Calcular la probabilidad de que el componente funcione más de 100 horas si

la temperatura es de 25 ºC. (1 punto)

Solución:

como P(T>20)=0.5, la media de la temperatura será 20, y

1-f(z)=0.0228 para z=2.0, por lo tanto s=30-20/2.0=5

De modo que el vector de medias será m=(100, 20) y la matriz V será (100,-

30//-30,25). El coeficiente de correlación será entonces r=-0.6

(X|y=25)=N(100-0.6*10/5*(25-20); 10*sqrt(1-0.6²))=N(94,8)

Por lo tanto P(X>100)=1- f((100-94)/8)=1- f(0.75)=0.227


-190-

7. Distribuciones derivadas de la normal

-191-

7. DISTRIBUCIONES DERIVADAS DE LA NORMAL

Contenido 7.1. DISTRIBUCIÓN CHI-CUADRADO ............................................................ 191

7.2. DISTRIBUCIÓN t .................................................................................... 192

7.3. DISTRIBUCIÓN F ..................................................................................... 194

7.4. PROBLEMAS PROPUESTOS .................................................................. 195

7.1. DISTRIBUCIÓN CHI-CUADRADO

La distribución chi-cuadrado aparece cuando hacemos la suma de variables aleatorias normales tipificadas y al cuadrado. De esta forma, z1, z2, …, zn son v.a.

N(0;1) e independientes, la variable chi-cuadrado se define como

2

n

2

2

2

1

2

n Z...ZZ

La función de densidad es asimétrica a la derecha.

Grad. de libertad3591530

Chi-Cuadrado Distribución

x

de

nsid

ad

0 20 40 60 80

0

0,04

0,08

0,12

0,16

0,2

0,24

3

5

15 309

Figura 7. 1. Función de densidad de la chi-cuadrado

El número de sumandos son los grados de libertad de la chi-cuadrado. El valor medio es

n)(E 2

n

y la variancia viene dada por,

n2)(D 2

n

2


-192-

El interés de esta variable se debe a que la varianza muestral sigue una distribución chi-cuadrado. Más concretamente,

2

1n2

2s)1n(

El valor de es aquel valor de la chi-cuadrado que deja a su derecha un

área de probabilidad , según la expresión

)(P )(2

n

2

n

Actividad 7.1:

Calcular la probabilidad )5(P 2

3

Calcular el valor de a tal que 10,0)a(P 2

3 , esto es )10,0(2

3 o bien

2

10,0;3 .

7.2. DISTRIBUCIÓN t

La t de STUDENT se define como el cociente entre una variable normal N(0;1) y la raíz cuadrado de una chi-cuadrado dividida ésta por sus grados de libertad. Así,

n

Zt

2

n

n

Donde z es una variable N(0;1) e independiente de la chi quadrado. La forma de la función de densidad es parecida a la normal N(0;1), pero un poco más aplanada. Cuando n>30, la función de densidad de la t coincide con la función de densidad de la normal N(0;1).

)(2 n


-193-

Grad. de libertad2591730

t de Student Distribución

x

de

nsid

ad

-8 -4 0 4 8

0

0,1

0,2

0,3

0,4

2

30

Figura 7. 2. Función de densidad de la t de Student

El valor medio de la tn es,

0]t[E n

La varianza de la tn es,

2n

n)t(D n

2

para n>2

La cantidad es aquel valor de la tn que deja a su derecha un área de

probabilidad α, según la expresión,

)tt(P nn

La media muestral está relacionada con una distribución t cuando la desviación típica no es conocida y se estima a partir de la desviación típica muestral, más concretamente, la expresión,

1ntns

x

sigue una distribución tn-1 con n-1 grados de libertad.

Actividad 7.2:

Calcular la probabilidad de P(t3> 2,33)

Calcular la probabilidad de P(t5<-1,96)

Calcular la probabilidad de P(|t7|>2,1)

Calcular el valor de a que cumple P(t9>a)=0,10, esto es 100

9

,t

nt


-194-

7.3. DISTRIBUCIÓN F

La distribución F aparece como un cociente de dos variables chi-cuadrado cada una de ellas divididas por sus grados de libertad, e independientes, esto es,

2

2

n

1

2

n

n,n

n

nF

2

1

21

Se dice que el cociente sigue una distribución F con n1 y n2 grados de

libertad, n1 para el numerador y n2 para el denominador.

La función de densidad es asimétrica hacia la derecha.

Figura 7. 3. Función de densidad de una F

El valor medio de una F es,

2n

n]F[E

2

2n,n 21

para n2 >2

y la varianza es,

)4n)(2n(n

)2nn(n2)F(D

221

21

2

2n,n

2

21

El valor de es aquel valor de la F que deja a su derecha un área de

probabilidad , según la expresión,

Numerador g.l.,Denominador g.l.10,105,913,16

F (índice de varianza) Distribución

x

de

nsid

ad

0 1 2 3 4 5

0

0,2

0,4

0,6

0,8

1

21 ,nnF


-195-

)FF(P2121 n,nn,n

El cociente de dos varianzas muestrales sigue una distribución F, más con concretamente,

1n,1n

2

2

2

2

2

1

2

1

21F

s

s

Actividad 7.3:

Calcular la probabilidad de )10F(P 5;3

Calcular el valor de a tal que 05,0)aF(P 9;7 , esto es 05,0

9;7F


7.4.1. Determinar a y b para que P(as2b)=0'8 si s2 procede de una muestra

aleatoria simple de tamaño 16 de una población NORMAL N(8,2).

Solución: a = 2.28, b = 5.95


-196-

8. Distribuciones en el muestreo

-197-

8. DISTRIBUCIONES EN EL MUESTRO

Contenido 8.1. POBLACIÓN, MUESTREO Y MUESTRA .................................................... 197

8.2. DISTRIBUCIÓN DE LA VARIANZA MUESTRAL ......................................... 201

8.3. DISTRIBUCIÓN DE LA MEDIA MUESTRAL ............................................... 203

8.4. DISTRIBUCIÓN DEL COCIENTE DE VARIANZAS ..................................... 204

8.5. DISTRIBUCIÓN DE LA PROPORCIÓN ...................................................... 206

8.6. DISTRIBUCIÓN DE LA DIFERENCIA DE MEDIAS MUESTRALES ............ 207

8.7. DISTRIBUCIÓN DE LA DIFERENCIA DE PROPORCIONES ..................... 208

8.8. VARIANZA EN POBLACIONES FINITAS .................................................... 210



8.1. POBLACIÓN, MUESTREO Y MUESTRA

Población y muestra

El conjunto de todos los elementos bajo estudio se denomina “Población”, y a una

parte de ellos recibe el nombre de “Muestra”. Por ejemplo si queremos estudiar el

nivel de renta en la Comunidad Valenciana, la población es el conjunto de individuos

que pertenecen a dicha Comunidad y una muestra es una parte de esa población,

elegida al azar, a partir de la cual se quiere deducir las características de toda la

población.

Conociendo cada elemento de la población, conocemos todas las

características y parámetros de la misma. Una población se puede caracterizar por

una función de distribución, la cual depende de un conjunto de parámetros. Así:

),...,,F(x; k21

Si todos los elementos de la población son conocidos, los parámetros

k21 ,...,, son perfectamente conocidos. A estos parámetros se denominan

"parámetros poblacionales" y se representan por letras griegas.

El problema estriba en que no podemos conocer todos los elementos de la

población, debido a uno de los siguientes motivos:


-198-

1) La población es muy extensa y llevaría mucho tiempo su recopilación.

2) El coste de obtener la información es muy elevado.

3) Al obtener la información se puede destrozar el elemento de la población.

Por ejemplo, para obtener la tensión de rotura de una barra de acero.

4) La población como tal puede no existir todavía. Por ejemplo, el conjunto de

piezas producidas por una máquina.

En tales casos no queda más remedio que tomar una pequeña parte de la

población y a partir de ella intentar deducir el valor de los parámetros poblacionales.

A esa pequeña parte de la población se denomina "muestra".

Los datos de una muestra se pueden considerar como un conjunto de

variables aleatorias, todas ellas con la misma función de distribución

),...,,F(x, k21 , así:

)x,...,x,x(=x n21

A cualquier función de estos valores, )x,...,x,x( n21 , se denomina

"estadístico".

El problema se reduce a obtener un estadístico, función de los datos

muestrales, que nos dé una aproximación del parámetro poblacional, lo cual se

expresa por:

)x,...,x,x(= n2111ˆˆ

La cantidad 1 varía para cada x,...,x,x n21 , luego se puede considerar como

una función o transformación de n-variables aleatorias, y por lo tanto, tendrá una

media, una varianza, así como su propia )F(1 ,

)E(1

)(D 1

2

Con lo cual nos interesa estudiar las propiedades de esa distribución en

relación al parámetro desconocido poblacional.

A las distribuciones que tienen los estadísticos muestrales, y que dependen

de los parámetros poblacionales y del tamaño de la muestra, se denominan

Distribuciones en el Muestreo y son las que nos permitirán relacionar los estadísticos

muestrales con los parámetros de la población con vistas a un posible conocimiento

de estos últimos.


-199-

Población

Muestra 1

Muestra

2

Muestra

m

1x

2x

mx

1s

2s

ms

N(15; 2.5)

n=10

.

.

.

.

Histogram

-3,7 -1,7 0,3 2,3 4,3

X

0

100

200

300

400

500

600

freq

uen

cy

Histogram

-1 -0,5 0 0,5 1 1,5

MEANS

0

20

40

60

80

freq

uen

cy

Histogram

SIGMAS

freq

uen

cy

0 0,3 0,6 0,9 1,2 1,5 1,8

0

20

40

60

80

Figura 8. 1. Población y muestra

Se debe cuidar mucho la forma de extracción de la muestra, ya que ésta debe

ser representativa de la población. Si al obtener la muestra, cada elemento de la

población tiene la misma posibilidad de salir, se dice que la muestra es "aleatoria

simple".

Si el tamaño de la población no es muy elevado en relación al tamaño de la

muestra, se aplican unos procedimientos que se estudian en "Muestreo en

poblaciones finitas". En este tema suponemos que el tamaño de la población es muy

grande en relación a la muestra, es decir, estamos en "Muestreo en poblaciones

infinitas".


-200-

Tipos de muestreo

Los muestreos pueden ser probabilísticos y no probabilísticos. Entre los

probabilísticos, los más utilizados son:

Muestreo aleatorio simple. Cada elemento de la población tiene la misma

probabilidad de salir elegido para formar parte de la muestra.

Muestreo sistemático. Cuando la población esté enumerada en una lista y

queremos obtener los elementos a lo largo de la lista. Para ello se divide el

tamaño de la población entre el número de elementos a extraer en la muestra.

Esté cociente dará, por ejemplo, un valor h. A continuación se elige un

número al azar de 1 a h, por ejemplo k, y los elementos a extraer son el k, el

k+h, el k+2h, y así sucesivamente.

Muestreo estratificado. Cuando en la población se pueden formar grupos

con una cierta homogeneidad (Ej. Grupos de edad, grupos por estatus

económico, etc.). A cada grupo se denomina estrato, y el tamaño n de la

muestra a tomar se subdivide para cada estrato según algún criterio de

afijación.

Muestreo por conglomerados. Cuando en la población se pueden formar

grupos con una cierta heterogeneidad, y cada uno de esos grupos, de por sí,

puede representar al total de la población. El procedimiento es traer un

número al azar de conglomerados, y para cada uno de ellos examinamos

todos sus elementos.

Muestreo por etapas. Viene a ser una generalización de los conglomerados.

En lugar de examinar todos los elementos del conglomerado, se toma una

muestra aleatoria del mismo.

Entre los muestreos no probabilísticos, los más empleados son:

El muestreo opinático. Es función del entrevistador la elección del elemento

de la población a examinar.

El muestreo por cuotas. Se requiere un cierto número de elementos para

cada grupo de la población. Se van tomando elementos de la población,

según algún procedimiento establecido de antemano, antes que se cubre la

cuota para dichos tipos de elementos.

Muestreo por bola de nieve. Cuando es difícil acceder a los elementos de la

población, debido a su desconocimiento. Cuando se encuentra a alguno de

ellos, se le pregunta si nos puede indicar la existencia de otros. A su vez esos

otros nos pueden guiar para encontrar nuevos elementos de la población.


-201-

Distribuciones muestrales

En este apartado supondremos que la población estudiada sigue una distribución

normal, );N( , y que de ella, extraemos unos valores )x,...,x,x( n21 al azar e

independientemente. Cada X i se puede considerar, antes de que aparezca el valor

concreto, como );N( , es decir, son variables aleatorias independientes con la

misma distribución normal.

fX(x)

X

)x(PX

X

1/n

POBLACIÓN MUESTRA

Características poblacionales

(constantes)

Características muestrales

(variables aleatorias)

(X1, X2, ..., Xn)

(media)

2 (varianza)

(desviación típica)

p (proporción)

x (media muestral)

2ns (varianza muestral)

21ns (cuasivarianza)

sn (desv. típica muestral) sn-1 (cuasidesviación típica)

f (proporción muestral)

Figura 8. 2 Distribuciones muestrales

8.2. DISTRIBUCIÓN DE LA VARIANZA MUESTRAL

Una distribución 2

n se define como una suma de variables N(0;1) al cuadrado e

independientes. El valor medio y la varianza son:

2n = )(D

n = )E(

2

m

2

2

n


-202-

Cuando n>30 se distribuye según una normal )2nN(n; .

El estadístico

n

)x-x(

S

2

i

in

2

se denomina varianza muestral y al definido por

1

2

1

n

)x-x(

S

2

i

in

se le conoce como varianza muestral corregida o cuasivarianza muestral.

La raíz cuadrada positiva de la varianza muestral es la desviación típica

muestral y se representa por s

Sea )x,...,x,x( n21 una muestra aleatoria simple extraída de una población

normal );N( , se demuestra que el estadístico

2

2

i

i

)x-x(

sigue una distribución 2

1-n.

Multiplicando y dividiendo por n

2

-1n

2

22

2

i

i =sn

=n

)x-x(n

o por (n-1),

2

1-n2

’2

2

2

i

i =s

1)-(n=1)-(n

)x-x(1)-(n

Actividad 8.1:

De una población normal N(30;2,5) se extrae una muestra de tamaño 5, ¿Cuál es la

probabilidad que la desviación típica muestral sea mayor de 3,5?


-203-

8.3. DISTRIBUCIÓN DE LA MEDIA MUESTRAL

La media muestral de un conjunto de valores muestrales )x,...,x,x( n21 ,

viene dada por

n

x

x i

i

La media y la varianza de x son :

n=)x(D ; =)xE(

22

Como xn

1...++x

n

1+x

n

1=x n21 es una combinación de variables normales, x

será a su vez una normal,

)n

;N())xD();xN(E(X

o bien tipificando,

N(0;1)=

n

-x

Si es desconocida y empleamos los datos de la muestra para estimarla, y

la sustituimos por s, la desviación típica muestral, se obtiene que en lugar de una

N(0;1) sigue una distribución t de Student de n-1 grados de libertad.

Una distribución t de Student se define como un cociente de

n

N(0,1) = t

2

n

n



-204-

2-n = )t(D

0 = )tE(

n2

n

Cuando n>30 se distribuye según una N(0;1).

Así:

t=

n

s

-x1-n

Actividad 8.2:

De una población normal de media 15 y desviación típica 3 se extrae una muestra de

tamaño 7. ¿Cuál será la probabilidad que la media muestral sea mayor de 16?

De una población normal hemos obtenido la estimación de la media con un valor de

15,3 y una estimación de la desviación típica con una estimación de 2,3. Si de esta

población obtengamos una muestra de tamaño 9, ¿Cuál es la probabilidad que la

media muestral sea mayor de 17,2?

___________________________________________________________________

8.4. DISTRIBUCIÓN DEL COCIENTE DE VARIANZAS

Una distribución F n,n 21se define como un cociente de dos

2 independientes dividida

cada una por sus grados de libertad

n

n = F

2

2

n

1

2

n

n,n

2

1

21

Sea );N(X 11 y otra población );N(Y 22 , e independientes. Si de la

primera población extraemos una m.a.s )x,...,x,x( n21 y de la segunda otra m.a.s.

)y,...,y,y(n21

, el cociente de sus varianzas muestrales, dividida cada una de ellas

por su varianza poblacional, se distribuye según una F de n,n 21 grados de libertad.


-205-

Esto es:

F=s

s

1-n1,-n

22

’22

21

’21

21

Para cada muestra

2

-1n21

’21

11

=s

1)-n(

2

1-n22

’22

22

=s

1)-n(

dividiendo cada 2 por sus grados de libertad y efectuando su cociente, resulta la

definición de una distribución F de 1-n1,-n 21 grados de libertad.

Si las varianzas poblacionales son iguales == 22

21 , el cociente de

varianzas muestrales es una F,

F=s

s1-n1,-n’2

2

’21

21

Por lo general, se suele colocar la varianza muestral mayor en el numerador,

y la menor en el denominador.

Actividad 8.3:

De dos poblaciones normales con la misma variancia sacamos una muestra de cada

una de ellas. La primera de tamaño 7, y la segunda de tamaño 9. Cuál es la

probabilidad que la variancia de la primera muestra sea mayor que el doble que la

variancia de la segunda muestra.


-206-

8.5. DISTRIBUCIÓN DE LA PROPORCIÓN

Proporción de defectuosas

El número X de unidades defectuosas de una muestra aleatoria simple de n unidades

sigue una distribución Binomial B(n;p). Como X es una suma de dicotómicas, cuando

np>5, el número de defectuosas en la muestra sigue una distribución normal,

)(; p1npnpNX

La proporción de unidades defectuosas en la muestra es

n

Xf

Y f sigue una distribución normal

n

pppNf

)1(;

Proporción de defectos (defectos por unidad)

En caso de que X cuenta el número de defectos que hay entre todas las piezas de

una muestra de tamaño n, esta variable aleatoria sigue una distribución de Poisson

PS(c), donde c es el número medio de defectos por muestra. Si c>5 el número de

defectos sigue una distribución normal,

);( ccNX

La proporción de defectos b(defectos por unidad) es

n

Xf

En la que f sigue una distribución normal,

n

u;uNf

Donde u es el número medio de defectos por unidad.


-207-

Actividad 8.4:

Una máquina produce piezas con una proporción de defectuosas del 2%. Si de esta

máquina extraemos una muestra de 60 piezas, ¿cuál será la probabilidad que la

proporción de piezas defectuosas en la muestra sea mayor del 3%?

8.6. DISTRIBUCIÓN DE LA DIFERENCIA DE MEDIAS MUESTRALES

Si de una población que sigue una N(μ1 , 1) extraemos una muestra aleatoria simple

de tamaño n1 , y de otra población con distribución N(μ2 , 2) se extrae otra muestra

aleatoria simple de tamaño n2, y para cada una de dichas muestras calculamos las

medias muestrales, cada una de ellas sigue una distribución,

),(1

111

nNx

),(

2

222

nNx

La diferencia de medias muestrales, como es una combinación lineal de

variables normales, sigue una distribución,

2

2

2

1

2

12121 ;

nnNxx

Si 1 y 2 son desconocidas, las estimamos a partir de sus desviaciones

típicas muestrales, y suponiendo que n1 y n2 son suficientemente grandes, la

diferencia de medias muestrales sigue una distribución,

2

2

2

1

2

12121 ;

n

s

n

sNxx

Si 1 y 2 son desconocidas, pero iguales, la mejor estimación de la común

es,

2

)1()1(ˆ

21

2

2

21

2

122

nn

nsnss

Y la diferencia de medias muestrales seguirá una distribución t de Student con

n1+n2-2 grados de libertad. Esto es,


-208-

2

21

2121

2111

)()(

nnt

nns

xx

Actividad 8.5:

De una población normal N(40;3) sacamos una muestra de tamaño 10, y de otra

población normal N(45; 3,5) sacamos una muestra de tamaño 13. Cuál es la

probabilidad que la media muestral de la segunda muestra sea mayor que la media

de la primera muestra.

Si en el ejemplo anterior las desviaciones típicas realmente son estimaciones de las

desviaciones típicas poblacionales, cuál sería ahora la probabilidad que la media

muestral de la segunda muestra fuera mayor que la media muestral de la primera

muestra.

8.7. DISTRIBUCIÓN DE LA DIFERENCIA DE PROPORCIONES

Proporción de defectuosas

Si de un lote de gran tamaño en el cual conocemos la proporción de defectuosas p1,

tomamos una muestra de tamaño n1, la fracción de defectuosas es,

1

11

n

xf

Y sigue una distribución normal

))1(

,(1

1111

n

pppNf

Si efectuamos el mismo procedimiento, pero para otra población con

proporción p2, la fracción de unidades defectuosas sigue una distribución normal

))1(

,(2

2222

n

pppNf

La diferencia de fracciones, como es una combinación lineal de variables


-209-

normales, sigue otra distribución normal,

2

22

1

112121

)1()1(,

n

pp

n

ppppNff

Si p1 y p2 son desconocidas pero iguales, la mejor estimación de la p común

es,

11

21

nn

xxp

ˆ

Y en tal caso la diferencia de proporciones sigue una distribución,

11

21

11)ˆ1(ˆ;0

nnppNff

Proporción de defectos (defectos por unidad)

Para la diferencia de proporción de defectos, la frecuencia observada es,

1

11

n

xf

Como 1x sigue una distribución de Poisson de parámetro 1p , la aproximación a la

normal es,

1

111 ,

n

ppNf

Y para una diferencia de proporciones de defectos, la distribución normal que sigue

es,

2

2

1

12121 ,

n

p

n

pppNff

Si 1p y 2p son iguales pero desconocidas, la mejor estimación de la proporción de

defectos es,

11

21ˆnn

xxp

Donde:

1x = total de defectos de la muestra de tamaño 1n

2x = total de defectos de la muestra de tamaño 2n .

Y la diferencia de proporciones sigue una distribución normal


-210-

11

21

11ˆ;0

nnpNff

Observar que estar fórmulas son las mismas que para la diferencia de proporciones

de defectuosas sin mas que cambiar la pq por p, y donde p es la proporción (número)

de defectos por unidad.

Actividad 8.6:

Una maquina hace piezas con una proporción de defectos del 5%, y otra máquina

hace las mismas piezas con una proporción de defectos del 3%. ¿Si cogen una

muestra de 50 unidades de la primera máquina y 70 piezas de la segunda máquina,

¿cuál será la probabilidad que la proporción de defectos observada en la primera

muestra sea mayor que la proporción de defectos de la segunda muestra?

8.8. VARIANZA EN POBLACIONES FINITAS

Cuando el tamaño de la población no es muy grande en relación al tamaño de la

muestra, las varianzas de los estadísticos muestrales difieren un poco de las

varianzas en caso de poblaciones infinitas. Concretamente para la media muestral,

proporción muestral, y para el total de la muestra, las varianzas quedan multiplicadas

por un factor de corrección 1

N

nN. Así, las expresiones de dichas varianzas son:

Para la media muestral x es,

1)(

22

N

nN

nxD

Para la proporción muestral f es,

1)(2

N

nN

n

pqfD

Para el total

n

i

ixT1

de la muestra es,


-211-

1)( 22

N

nNnTD


8.9.1.- Dada una población NORMAL N(5,2), ¿cuál es la probabilidad de que la media

muestral para una muestra de tamaño 4 sea superior a 6? ¿Y si el tamaño es 25?

Solución: 0.1587 0.0062

8.9.2.- Se extraen dos muestras aleatorias simples de tamaños n1=22 y n2=30 de

una población NORMAL de varianza 9. Calcular la probabilidad de que la diferencia

de medias de ambas muestras sea superior a 1.

Solución: 0.235

8.9.3.- Determinar el tamaño de muestra a tomar en el estudio de la fabricación de

ciertas piezas para que la media muestral de una cierta dimensión difiera de la media

poblacional en menos de 1 cm con una probabilidad del 95% si σ=3.

Solución: 36

8.9.4.- En la inspección de recepción por lotes se mide la longitud de una

determinada pieza, su distribución poblacional es N(10,0'15). Se toma una muestra

de tamaño 25, si x <10 no se compra el lote x >10 se compra pagando sobre el

precio una cantidad adicional y=1000( x -10)2 (en euros). Determinar :

a) La distribución de la cantidad adicional.

b) La probabilidad de que dicha cantidad sea inferior a 2 euros.

c) Valor de k / P( y>k )= 0'001

Solución: b) 0.9319 c) 8.64


-212-

8.9.5.- Un fabricante produce lámparas eléctricas con una vida media de 2.000 horas

y una desviación típica de 200 horas. Mediante la modificación del proceso de

fabricación se piensa elevar la media a 2.200 horas conservando la dispersión. Si se

tenía una muestra de 10 lámparas producidas antes del cambio, se toma una

muestra de 30 después del mismo y se halla la diferencia entre las medias

muestrales, ¿cuál es la probabilidad de que esta diferencia esté entre 195 y 205?

Se admite una distribución NORMAL para la vida de las lámparas.

Solución: 0.056

8.9.6.- Determinar a y b para que P(as'2b)=0'8 si s'2 procede de una muestra

aleatoria simple de tamaño 16 de una población NORMAL N(8,2).

Solución: a = 2.28, b = 5.95


8.10.1.- El espesor de unas planchas de acero sigue una distribución normal con

varianza 5,4. Se pide:

a) Si tomamos una muestra de tamaño n=20, cuál es la probabilidad de que la

desviación típica sea superior a 3. (1 punto)

b) ¿Cuál debe ser el número de planchas a medir para que la probabilidad de

que la media muestral de estas planchas difiera de la media poblacional en

más de 2 unidades sea inferior al 10%? (1punto)

Solución :

a) 034,066,314,5

19·9)·1()3( 2

192

2

P

snPsP

b) La condición que se debe cumplir es,

10,0)2( xP


-213-

El suceso contrario es,

90,0)2( xP

90,022

nn

x

n

P

Buscamos el valor de 645,105,0 z , y de la expresión anterior el valor de n se

obtiene de,

645,12

n

Despejando n se tiene,

2

4,5·645,1n

n=3,65 de donde el valor de n tiene que ser como mínimo de n=4.

8.10.2.- La longitud de una pieza utilizada en un proceso de montaje sigue una

distribución normal de media 50 mm y desviación típica 12 mm. Si extraemos una

muestra aleatoria simple de 16 piezas. Determinar:

a. ¿Cuál es la probabilidad de que su media sea menor de 58? (0,5 puntos)

La media muestral seguirá una distribución del tipo ~N(50, 12/√16), por lo que la

probabilidad pedida es:

b. ¿Entre qué valores se encontrará el 38% de las medias muestrales obtenidas

al tomar reiteradamente muestras de 16 piezas de ese lote? (1,5 puntos)

La probabilidad pedida es:


-214-

Asumiendo simetría para simplificar

c. ¿Qué tamaño tendría que tener la muestra para que la probabilidad de

encontrar medias superiores a 52 fuese 0,2578? (1,5 puntos)

El tamaño de muestra n debe cumplir que:

d. ¿Calcular la probabilidad de que la varianza muestral sea mayor de 12,5? (1

punto)

La varianza muestral sigue una distribución del tipo por lo que la

probabilidad pedida será:

8.10.3.- En un proceso de fabricación se dispone de dos máquinas. El peso de las

piezas fabricadas por la máquina A sigue una distribución N (100; 2). El peso de las

piezas fabricadas por la máquina B sigue una distribución N (102; 2). Se toma una

muestra aleatoria de 5 piezas fabricadas por la máquina A y se calcula la media

muestral. A continuación se toma otra muestra de 5 piezas de B y se calcula la media

muestral. ¿Cuál es la probabilidad de que la media muestral de A sea mayor que la


-215-

de B? (2 puntos)

Solución:

)52;100(NxA )52;102(NxB

2102100 BABA xExExxE

6,1)5/4()5/4(222 BABA xxxx

)58,1(6,1/20)6,1;2(0 NPxxPxxP BABA 0,057


-216-

9. Inferencia en poblaciones normales

-217-

9. INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA

Contenido 9.1 ESTIMACIÓN PUNTUAL ......................................................................... 217

9.2. ESTIMACIÓN POR INTERVALOS DE CONFIANZA ............................... 220

9.2.1. Intervalo de confianza para la media poblacional .................................. 221

9.2.2. Intervalo de confianza para la varianza poblacional ............................... 223

9.2.3. Intervalo de confianza para el cociente de varianzas poblacionales ..... 224

9.2.4. Intervalo de confianza para la proporción .............................................. 225

9.2.5. Intervalo de confianza para la diferencia de proporciones ..................... 227

9.2.6. Intervalo de confianza para la diferencia de medias poblacionales ........ 228

9.3. TEST DE HIPÓTESIS ............................................................................. 230

Conceptos ....................................................................................................... 230

Obtención de los tests .................................................................................... 234

9.4. TEST DE HIPÓTESIS PARÁMETRICOS ..................................................... 235

9.4.1. Contrastes de la media de una poblacional normal .......................... 235

9.4.2. Test de hipótesis para la varianza poblacional ................................. 240

9.4.3. Test de hipótesis para el cociente de varianzas poblacionales ........ 241

9.4.4. Contrastes de proporciones ............................................................. 242


muestras independientes ................................................................................ 246

9.4.6. Test para la diferencia de medias poblacionales con datos

apareados ....................................................................................................... 247

9.4.7. Test para la diferencia de proporciones ........................................... 248

9.4.8. Test de ajuste a una distribución ...................................................... 250

9.4.9. Test de independencia ..................................................................... 252


Test de hipótesis ................................................................................................. 256

Tabla de contingencia ......................................................................................... 260

Test de ajuste a una distribución ......................................................................... 261

9.6. PROBLEMAS Y CUESTIONES DE EXÁMENES ......................................... 262

9.1 ESTIMACIÓN PUNTUAL

Sea X una v.a. cuya función de distribución F(x;) depende del parámetro poblacional

, y una muestra aleatoria simple (x1, x2, ···, xn) extraída de la misma población. El

proceso de estimación consiste en elegir una función de dichos datos muestrales,

de manera que sus valores se aproximen lo mejor posible al valor

verdadero y desconocido del parámetro .


-218-

¿Cuál es el criterio para saber que nos aproximamos lo mejor posible al valor

verdadero del parámetro?

Llamando a

se sigue el criterio de elegir de forma que minimice la cantidad )-(2

, o lo que

es equivalente, que minimice por término medio esa cantidad. Esto se puede

expresar como:

Imaginemos que tenemos dos posibles funciones de la muestra (estimadores)

y para estimar el mismo parámetro poblacional (la media de una distribución

N(0;1)), con las distribuciones que aparecen en la Figura 9. 1.

Figura 9. 1. Dispersión de los estimadores

Observamos que será preferible al , ya que está centrado en el valor verdadero,

y tiene una dispersión menor que la del estimador .

Si el valor medio del estimador coincide con el parámetro a estimar, se dice

que el estimador es centrado o insesgado,

=)E( ˆ

Caso contrario existe un sesgo )b( que se define como,

N(0,1)

N(0,2)

x

fx(x)

-10 -6 -2 2 6 10 0

0,1

0,2

0,3

0,4


-219-

)ˆE()b(

Figura 9. 2. Comparación de estimadores

Supongamos ahora que las distribuciones de los estadísticos fueran las que

aparecen en la Figura 9. 2. Aquí no tendríamos un criterio claro para elegir, ya que si

uno es preciso, el otro es más exacto.

La exactitud del estimador es la propiedad de proporcionar valores cerca del

valor verdadero, y la precisión se refiere a la dispersión de dichos valores.

Figura 9. 3. Exactitud y precisión de un estimador

Para comparar estos estadísticos debemos elegir otros criterios, por ejemplo,

el que sea Uniformemente de Mínima Varianza (UMV), es decir, entre todos los

posibles estimadores será mejor el que tenga una varianza más pequeña.

Luego en primer lugar, nos interesa estudiar aquellos estimadores que sean

insesgados y de mínima varianza.

Preciso pero no exacto Exacto pero no preciso Exacto y preciso

x x x

x

x

x

x

x x x

x x x x x

N(0,2) N(2,1)

x

fx(x)

-10 -6 -2 2 6 10 0

0,1

0,2

0,3

0,4


-220-

El error cuadrático medio se descompone en sesgo al cuadrado y varianza del

estimador, según la siguiente expresión:

)ˆ()ˆ(ˆ 22 Db)-E( 2

Para cada estimador nos interesa conocer su función de distribución, su

media y su varianza o desviación típica. La varianza del estimador viene dada por

la expresión , cuya expresión depende, por lo general, de un parámetro

poblacional. Por ejemplo, la varianza de la media muestral es,

nxD

22 )(

En caso de no conocer la varianza poblacional, la estimamos por la varianza

muestral, con lo cual la varianza del estimador es realmente una estimación de la

varianza poblacional del estimador. Esto se expresa mediante . La desviación

típica de esta varianza estimada se denomina error estándar del estimador , y se

expresa mediante )ˆ(EE , lo cual viene a ser equivalente a la notación )ˆ(ˆ D . El error

estándar de la media muestral es,

n

sxEE )(

9.2. ESTIMACIÓN POR INTERVALOS DE CONFIANZA

No solamente interesa obtener un valor concreto del parámetro desconocido, sino

también una idea de la precisión de la estimación. Con este objeto proporcionamos

un intervalo de valores, cuyos límites son función de los valores muestrales, de forma

que tendrá una gran probabilidad, -1 , de contener al valor verdadero del parámetro

estimado. Es decir, se debe cumplir la condición de que

-1=))x(L)x(LP( 21

Cuanto menor sea el intervalo, mayor es la precisión del estimador.

Si cambia la muestra, también cambia los valores Ly L 21 , de manera que

tenemos unos intervalos aleatorios.

A la cantidad -1 se denomina "coeficiente o nivel de confianza" y es el

coeficiente o nivel de significación. Por lo general, es el 5% ó el 1%. Si tomamos

5%= significa que de cada 100 intervalos que obtengamos para estimar , 95

contendrán al valor verdadero y desconocido del parámetro y 5 no lo contendrán.


-221-

Esta idea se expone en la Figura 9. 4.

Figura 9. 4. Concepto de intervalos de confianza

Para obtener intervalos de confianza elegimos una función );xg(

cuya

distribución, es conocida, y no depende del parámetro a estimar y que permite

despejar en función de todo lo demás. Vamos a verlo con casos sencillos que

estudiamos a continuación.

9.2.1. Intervalo de confianza para la media poblacional

Si x

procede de una población normal );N( de media y desviación típica

conocidas, entonces:

N(0;1)=

n

-x

y podemos obtener dos valores de la N(0;1) tales que

-1=z+

n

-xz- P /2/2

despejando queda:


-222-

-1=n

z+ -x n

z- P /2/2

de donde:

-1=n

z+x n

z-xP /2/2

Si la poblacional es desconocida, se tiene que

t=

n

s

-x1-n

y obtenemos unos valores de la t 1-n tales que:

-1=t+

n

s

-xt-P /2

1-n/21-n

despejando queda:

-1=n

st+x

n

st-xP /2

1-n/21-n

Y los límites del intervalo son:

n

st-x)x(L /2

1-n1

n

stx)x(L /2

1-n2

Error de estimación de la media poblacional

Si empleamos el estadístico x para estimar la media poblacional, el error de

estimación es justamente la semiamplitud del intervalo de confianza, esto es,

nz

2/

Si no conocemos la el error de estimación es,

n

st

/21-n


-223-

Si el tamaño N de la población no es muy grande en relación al tamaño de la

muestra, a la varianza hay que aplicar el factor de corrección 1

N

nN por población

finita, y los errores de estimación son,

12/

N

nN

nz

1

N

nN

n

st

/21-n

Cálculo del tamaño muestral para un error determinado

Si deseamos saber cuántas unidades debemos evaluar para que nuestra

estimación de la media poblacional no sea superior a un error determinado con un

nivel de confianza de 1 , despejando el tamaño muestral n de las fórmulas

anteriores del error, tenemos la expresión,

2

2

zn

Si no conocemos la el valor de la n es, 2

2

22/

1nzsts

n

Se aproxima a la normal para no tener que recurrir a tanteos al estar la

incógnita n en la fórmula del cálculo inicial.

Si la población es finita, el valor de la n se despeja de sus expresiones

respectivas, donde aparece el factor de corrección por población finita.

9.2.2. Intervalo de confianza para la varianza poblacional

Para una m.a.s. )x,...,x,x( n21 extraída de una población normal );N( , tenemos

que

2

1-n2=

sn

2

)1(

y podemos calcular unos valores de la chi-cuadrado tales que

-1=s

n P2

21,-n2

2

2-1,1-n

2

)1(


-224-

despejando 2

-1=1

sn

1 P

2

21,-n

2

2

2-1,1-n

2)1(

-1=snsn

P2

2-1,1-n

2

2

21,-n

22 )1()1(

9.2.3. Intervalo de confianza para el cociente de varianzas poblacionales

Sea X 1

una m.a.s. extraída de una población );N( 11 , y X 2

otra m.a.s. extraída de

una población );N( 22 , se tiene que:

F=s

s

1-n1,-n

22

21

21

2

2

2

1

y podemos obtener unos valores de la F tal que:

-1=Fs

s

F P /21-n1,-n

22

21/2-1

1-n1,-n 2121

2

2

2

1

-1=

F

1

s

sF

1 P

/21-n1,-n

22

21

/2-11-n1,-n 2121

2

2

2

1

-1=F

s

s

F

s

s

P/2-1

1-n1,-n22

21

/21-n1,-n 2121

2

2

2

1

2

2

2

1


-225-

Actividad 9.1:

En una planta de envasado de agua se toman al azar de la cadena de producción 15

botellas, y se analiza para cada una de ellas el contenido de calcio en mg/l.,

resultando los siguientes valores:

25 29,4 28,1 27,5 31 27,7 24,7 33,1 32,2 29,4 33,3 28,4 31 26,8 33,3

Se pide:

a) Estimar la media poblacional y su error de estimación con un nivel de

significación del 5%.

b) Calcular un intervalo de confianza para la media poblacional, con un

coeficiente de confianza del 95%.

c) De antemano se sabe que la varianza es 9, ¿cuánto vale el intervalo de

confianza al 95% para la media poblacional?

d) ¿Cuántas botellas se deben examinar para estimar la media poblacional con

un error menor del 1 mg/l y un nivel de confianza del 95%?

9.2.4. Intervalo de confianza para la proporción

Si de una población con proporción poblacional de defectuosas 0p tomamos una

muestra aleatoria de tamaño n y observamos el número X de piezas defectuosas,

como el valor de X sigue una distribución binomial, y ésta se puede aproximar a una

distribución normal, un intervalo de confianza para la proporción 0p , viene dado por,

n

qpzpp

n

qpzp /2/2

ˆˆˆ

ˆˆˆ

0

Siendo p la proporción muestral, esto es,

n

xfp ˆ

Si p fuera la proporción de defectos entre las n piezas, entonces X sigue una

distribución de Poisson, y como se puede aproximar a una distribución normal, el

intervalo de confianza para la proporción de defectos es,

n

pzpp

n

pzp /2/2

ˆˆ

ˆˆ

0


-226-

Error de estimación de la proporción

El error de estimación de la proporción de unidades defectuosas viene dado

por la expresión que hay a la derecha del del intervalo de confianza para la

proporción, esto es,

n

qpz /2

Para el caso de población finita, hemos de adjuntar a la varianza el factor de

corrección 1N

nN

, y el error es,

1

N

nN

n

qpz /2

Si no conocemos la p poblacional, hay que obtener una estimación previa p ,

o bien ponernos en el caso más desfavorable, y es considerar que el producto

p·q=0,25, que es lo máximo que puede ser dicho producto.

El tamaño muestral para un error determinado se obtiene despejando n de las

expresiones anteriores.

Si estamos estimando la proporción de defectos, el intervalo de confianza se

basa en la distribución de Poisson, y resultan las mismas expresiones pero quitando

la q, es decir, cambiando p·q por p. Las expresiones de los errores son,

n

pz /2

1

N

nN

n

pz /2

Actividad 9.2:

De una producción de componentes electrónicos se examinaron 75, y resultaron 5

defectuosos.

a) Calcular un intervalo de confianza para la proporción de componentes

defectuosos.

b) ¿Cuántas piezas se deben examinar para estimar el valor verdadero de la

proporción de piezas defectuosas con un error menor de 0,01 y una confianza

de 95%?

c) Calcular el tamaño muestral si no conocemos un valor previo de p.

d) Calcular el tamaño muestral si tenemos una estimación previa de p=0,04.


-227-

e) Caso de suponer una población finita de N=1000 bujías.

f) Mismo enunciado que el anterior, pero suponiendo que deseamos estimar la

proporción de defectos por unidad de bujía.

9.2.5. Intervalo de confianza para la diferencia de proporciones

Si de una población de proporción de defectuosas p1 tomamos una muestra aleatoria

de tamaño n1 y observamos que hay X1 defectuosas; y de otra población de

proporción de defectuosas p2 tomamos una muestra aleatoria de tamaño n2 y

observamos el número de defectuosas X2, como tanto X1 como X2 siguen

distribuciones normales, si los tamaños de muestra son suficientemente grandes, la

diferencia

2

2

1

1

n

X

n

X

también sigue una distribución normal, y un intervalo de confianza para la diferencia

de proporciones viene dado por,

n

qp+

n

qpzp-pp-p

n

qp+

n

qpzp-p

2

22

1

11

2121

2

22

1

11

21

ˆˆˆˆˆˆ

ˆˆˆˆˆˆ

2/2/

Donde,

2

111

ˆn

xfp y

2

222

ˆn

xfp

Si las proporciones se refieren a defectos por unidad, el intervalo de confianza

es el mismo, pero cambiando el producto de p·q por p, esto es,

n

p+

n

pzp-pp-p

n

p+

n

pzp-p

2

2

1

1

2121

2

2

1

1

21

ˆˆˆˆ

ˆˆˆˆ

2/2/

Actividad 9.3:

De una muestra de 400 alumnos de la ETSII, 27 de ellos dijeron que fumaban

habitualmente, en cambio de una muestra de 500 alumnos de la Bellas Artes dijeron

que fumaban 35. ¿Se pueden considerar que el porcentaje de fumadores en BBAA

es bastante superior al de la ETSII?


-228-

9.2.6. Intervalo de confianza para la diferencia de medias poblacionales

Si de una población normal );(N 11 , extraemos una muestra de tamaño n1 y

calculamos la 1x ; y de otra población normal );(N 22 extraemos otra muestra

aleatoria de tamaño n2, y observamos 2x , como la diferencia 21 xx sigue una

distribución normal,

2

2

2

1

2

12121 ;

nnNxx

Un intervalo de confianza para la diferencia de medias poblacionales, siempre

y cuando los tamaños muestrales sean bastante elevados, es,

n+

nzx-x

n+

nzx-x

2

22

1

21

/221

2

22

1

21

/221

21

En el caso de no conocer las varianzas poblacionales 2 las estimamos a

partir de las varianzas muestrales 2s y el intervalo de confianza es,

n

s+

n

stx-x

n

s+

n

stx-x

21

/22n+n21

21

/22n+n21 2121

2

2

2

121

2

2

2

1

Si admitimos que las varianzas poblacionales son iguales pero desconocidas,

la varianza común la estimamos a partir de una ponderación de las varianzas

muestrales, esto es,

2-n+n

s1)-n(+s1)-n(=s

21

222

2112

Y el intervalo de confianza es,

n

1+

n

1stx-x

n

1+

n

1stx-x

21

/22-n+n21

21

/22-n+n21 2121

21

Actividad 9.4:

1. Un almacenista de pilas alcalinas desea conocer la duración media de las pilas que

ofrece un nuevo proveedor. Para ello ha tomado 12 pilas al azar y ha medido el

tiempo de duración en horas. Los resultados han sido:


-229-

Duración(hrs.)

27.5

31.2

33.4

29.8

25.4

30.5

31.7

26.3

29.2

32.1

30.8

28.6

a) ¿Cuál es la estimación de la duración media.

b) ¿Cuál es la estimación de su dispersión?

c) ¿Qué error se comete en la estimación de la duración media?

d) Calcular los intervalos de confianza para la duración media y la dispersión de

la duración de la pilas.

2. El almacenista anterior tiene la oportunidad de comprar pilas alcalinas de otro

nuevo proveedor que afirma que las que él fabrica tiene una mayor duración. Para

ello el almacenista extra 10 pilas de este nuevo proveedor y mide la duración de las

mismas. Los resultados han sido:

Duración(hrs.)

31.3

33.5

34.2

29.4

28.5

30.7

32.9

31.7

30.3

32.1

a) Estimar la media y la varianza de la duración de las pilas.

b) Calcular los errores de estimación.

c) Calcular el intervalo de confianza para diferencia de medias.

d) Estimar el intervalo de confianza para la desviación típica.

e) Contrastar la hipótesis de que el segundo proveedor es mejor que el


-230-

primero.

f) Contrastar la hipótesis de igualdad de varianzas.

3. En la tabla siguiente se recogen medidas de desgaste de las suelas de zapatos de

10 chicos. Las suelas se fabricaron de dos materiales sintéticos A y B. La pregunta a

contestar es, ¿hay diferencias entre el material A y el B en cuanto a desgaste de la

suela de zapato.

Chico Material A Material B Diferencia(B-A)

1 13,2 14,0 0,8

2 8,2 8,8 0,6

3 10,9 11,2 0,3

4 14,3 14,2 -0,1

5 10,7 11,8 1,1

6 6,6 6,4 -0,2

7 9,5 9,8 0,3

8 10,8 11,3 0,5

9 8,8 9,3 0,5

10 13,3 13,6 0,3

El material se asignó de forma aleatoria a cada zapato.

a) Obtener un intervalo de confianza para la diferencia de la media del desgaste

entre los dos tipos de materiales.

9.3. TEST DE HIPÓTESIS

Conceptos

Una hipótesis es una afirmación acerca de algo. Por ejemplo, el parámetro es igual

a cero. Bajo esta suposición estudiamos los datos y su comportamiento, y si no hay

mucha discrepancia entre lo observado y lo esperado, aceptamos tal afirmación,

cuanto menos decimos que no hay suficiente evidencia como para rechazar la

hipótesis establecida.

En consecuencia, se plantea el problema como una toma de una de las dos

decisiones siguientes:


-231-

d 0 = acepto la afirmación planteada.

d 1 = rechazo la afirmación planteada.

La afirmación que realizamos se llama "hipótesis nula" y casi siempre va

ligada a lo que es habitual indicando que hay “nulo” cambio; y la contraria se llama

"hipótesis alternativa".

Si la hipótesis respecto del valor de un parámetro se reduce a un punto,

decimos que la hipótesis es "simple", y si se trata de un conjunto de puntos, decimos

que la hipótesis es "compuesta".

Hipótesis simples son H0(=0) frente a la alternativa H1(=1). Hipótesis

compuestas son H0( 0) frente a la alternativa H1( 1). Así pues, podemos tener

H0(=0) vs H1(0)

que es un test bilateral cuando los valores alternativos están a ambos lados del valor

supuesto, y

H0(0) vs H1(>0) o bien H0(=0) vs H1(>0)

H0(0) vs H1(<0) o bien H0(=0) vs H1(<0)

que son test unilaterales, porque los valores alternativos están a un lado del valor

supuesto.

La hipótesis alternativa es la más fuerte, y se suele colocar como hipótesis

nula aquella cuyas consecuencias económicas sean más graves. Es decir, la

hipótesis nula tiende a ser más conservadora, de modo que no cambia su

formulación a menos de que no haya evidencias objetivas muy fuertes en su contra.

Región de aceptación y de rechazo

Una vez planteadas la hipótesis nula y la alternativa, el problema consiste en

tomar una muestra de la población, y a partir de ella decidir si aceptar o rechazar la

hipótesis nula, en función de la coherencia de los valores muestrales con la hipótesis

nula establecida.

Esto equivale a dividir el espacio muestral en dos zonas. Si el punto muestral

cae en la zona de aceptación, que llamamos X0(s), aceptamos H0, y si cae en la zona

de rechazo X1(s) aceptamos H1, lo cual implica rechazar H0. La letra "s" indica la

partición efectuada. Esquemáticamente es como aparece en la Figura 9. 5.


-232-

Figura 9. 5. Test de hipotesis

Encontrar el test significa encontrar la subdivisión del espacio muestral que

minimiza las pérdidas de las decisiones erróneas, según la matriz de pérdidas

Decisión\Espacio paramétrico 00 11

0, decisión correcta Error 2 () W(d0,1)

Error 1 () W(d1,0) 0, decisión correcta

Suponemos que cuando la decisión es la correcta, la pérdida es cero.

Errores de primera y segunda especie

En el contraste de hipótesis se pueden cometer dos errores:

1) Rechazar H 0 , cuando realmente es verdadera.

2) Aceptar H 0 , cuando realmente es falsa.

El primero de ellos se llama error de primera especie o tipo I cuya probabilidad

es , y viene dado por,

)(s)/XP(x= 01

y el segundo es el error de segunda especie o tipo II cuya probabilidad es , y es

)(s)/XP(x= 10

d 0

d 1


-233-

Figura 9.6. Valor de la β

Para un contraste de hipótesis nos interesaría que tanto como sean cero,

o ambos lo más pequeño posible. Lo primero no se puede conseguir salvo que

analicemos toda la población. Para conseguir lo segundo bastaría con aumentar

suficientemente el tamaño de la muestra con lo que aumentamos nuestra información

y reducimos la probabilidad de equivocarnos. De tal forma que si hacemos =0, se

cumple, para una misma n, que =1; y al contrario, si hacemos que =0, para una

misma n, se cumple que =1.

La Potencia del test se define como:

)(s)/XP(x=)(Pot 1s

es decir, la probabilidad de rechazar la hipótesis nula en función del valor del

parámetro. El mejor test es aquel que para =0 la potencia es mínima y para otro

valor sea máxima.

La curva característica es la complementaria de la curva de potencia, es decir,

)/()( 0HaceptarPCC

x/n

x LI LS

x/n


-234-

Figura 9. 7. Potencia del test

Obtención de los tests

La forma práctica de obtención del test de hipótesis es la siguiente: bajo el supuesto

de que se cumple la hipótesis nula H0, observamos un estadístico "T", función de la

muestra, que seguirá un determinado tipo de distribución, y por lo tanto será muy

probable que el valor observado esté dentro del campo de existencia de la

distribución T. Esta idea aparece representada en la Figura 9. 8.

Figura 9. 8. Distribución del estadístico T

Pero si el valor observado cae fuera del intervalo esperado, esto está en

contradicción con la hipótesis nula, lo cual nos lleva a rechazarla. Por lo general, el

intervalo esperado corresponde al -1 de los datos, siendo 5%= .

También se puede decir que si la probabilidad de obtener un valor mayor que

LI LS

Intervalo Esperado

1-

1

1-

0 1

Pa

1-

1

1-

0 1

Pr

0 0

Curva Característica Curva de Potencia


-235-

el observado, el cual viene dado por:

value-p=)T>P(T observ

es muy pequeño, <value-p , entonces es algo raro, bajo el supuesto de que se

cumpla la hipótesis nula, lo cual nos lleva a rechazarla.

Es decir, que admitimos un cierto nivel de discrepancia entre lo esperado y lo

observado, pero si la discrepancia es muy grande, esto lleva a rechazar la hipótesis

nula.

Con este razonamiento encontramos los principales test, que vemos a

continuación.

9.4. TEST DE HIPÓTESIS PARÁMETRICOS

9.4.1. Contrastes de la media de una poblacional normal

Las hipótesis que planteamos son )(H a frente )=(H 0100 , supuesto que

la varianza poblacional sea conocida. El estadístico a emplear es:

ZN(0;1)=

n

-x=T 0

y bajo el supuesto de la hipótesis nula, se cumple que:

-1=)z+<T<zP(- /2/2

y si la T observada resulta

z|>T| /20

entonces se rechaza la hipótesis nula.

Si la varianza poblacional es desconocida, empleamos el estadístico t:


-236-

t=

n

s

-x=T 1-n

0

y bajo el supuesto de la hipótesis nula, se cumple que:

-1=)t+ T tP(- /21-n

/21-n

luego, si

t|>T| /21-n

0

rechazamos la hipótesis nula.

Gráficamente es según la Figura 9. 9.

Figura 9. 9. Zonas de aceptación y de rechazo

El test "s" es mejor que el "t" para contrastar )0=(H o .

s

t

0

Pr

0

1

LI LS

Zona de aceptación

Zona de rechazo


-237-

Figura 9. 10. Comparación de test 0=15

Con este planteamiento también se puede resolver un test a un sólo lado, por

ejemplo

conocido con )(H a frente )>(H 0100

El estadístico a observar es el mismo

n

-x=T 0

las zonas de aceptación y de rechazo son según la Figura 9. 11.

Figura 9. 11. Test unilateral

Esto significa que el área en lugar de repartirse a ambos lados, sólo está

en el lado de H 1 , ya que bajo )>(H 00 , lo normal es que la tobserv. se vaya hacia la

izquierda de la figura.

De esta forma, si:

z->T observ.

aceptamos la H0.

De forma análoga, si el test de hipótesis es,

conocido con )(H a frente )(H 0100

Las zonas de aceptación y de rechazo se muestran en la figura siguiente,

LI

Zona de aceptación

Zona de rechazo


-238-

Actividad 9.5

Un proveedor de pilas alcalinas del tamaño de R6 asegura que pueden funcionar por

término medio hasta 40 horas. El comprador de las pilas, para contrastar tal

afirmación, prueba 9 de ellas y observa el tiempo de duración de cada uno de ellas.

El resultado ha sido:

40,5 39,5 41 42 37 35 43 41,5 42,5

a) ¿Se puede aceptar la afirmación del proveedor?

b) ¿Cuánto vale el p-valor del test?

c) Si realmente la duración de las pilas fuera de 35 horas, ¿cuál serà la

probabilidad de aceptar que funcionan por término medio 40 horas?

d) ¿Cuál será el tamaño muestral a tomar por que la probabilidad de aceptar la

hipótesis nula sea del 60%

Aplicación del test de hipótesis para la media poblacional

En función de la escala de la x , la zona de aceptación del test H0(=0) frente

a H1(0) es,

n

zxn

zxsX

2/02/00 /)(

Que gráficamente es colocar dos líneas, la LCS y la LCI, siendo,

LCS=n

z 0

2/0

LCI=

nz 0

2/0

LI LS

Zona de aceptación

Zona de rechazo


-239-

Tomamos una muestra de tamaño, calculamos su media muestral, y si este

valor está entre el LCI y el LCS, aceptamos que la media poblacional no se ha

modificado.

Figura 9. 12. Gráfico de control para la media poblacional

Cálculo de la

Para el test H0(=0) frente a H1(0), si la media en lugar de 0 cambia a

1 , la probabilidad de que un punto muestral esté dentro de los límites de aceptación

es,

12020)(

nzx

nzPLCSxLCIP

Suponiendo que la no haya cambiado, para obtener la probabilidad

tipificamos, pero ahora la distribución de x es )n

;(Nx 1

y el valor de la

n

nz

n

nz

12/012/0 ··

Sustituyendo valores calcularíamos el valor de .

Tamaño muestral

Si nos dan dos puntos de la curva característica )1,( 0 y );( 1 , el tamaño

de muestra para realizar el contraste de hipótesis, se obtiene imponiendo que la

LCS

LCI

Muestra 1 Muestra 2

t

Aceptamos H0

Rechazamos H0


-240-

curva característica pase por esos dos puntos y despejando el valor de n se tiene,

2

2

2

2/

2

2/

zz

d

zzn

Donde

01d es el descentrado relativo, y 01 .

9.4.2. Test de hipótesis para la varianza poblacional

El mismo razonamiento se aplica para la varianza poblacional. Así para el contraste

)(H a frente )=(H20

21

20

20

empleamos el estadístico

2

1-n20

22

.observ

s)1n(=

y por lo tanto se pueden calcular unos valores de la chi-cuadrado tales que:

-1=)P(

2

/2-1,1-n

2

1n

2

/2-1,1-n

y en consecuencia, si la 2

.observ está fuera de ese intervalo, rechazamos la hipótesis

nula )=(H20

20 .

Para el contraste de

)>(H a frente )=(H2

120

20

2

0

si el valor de la 2

.observ se va hacia la derecha, da más peso a H 1 que a H 0 , luego el

área se va hacia la derecha. Gráficamente es según la Figura 9. 13.


-241-

2n-1

()

1-

2n-1

Figura 9. 13. Zona de rechazo.

Si

2

1,-n

2

.observ > , rechazamos la H 0

Actividad 9.6.

La duración de las pilas alcalinas se sabe que tiene una desviación típica de 3

minutos. Para comprobar que una nueva remesa de pilas tienen la misma dispersión,

se prueba 11 de ellas y la desviación típica muestral ha sido s=3,7. ¿Se puede decir

que la dispersión es mucho mayor en esta segunda remesa?

9.4.3. Test de hipótesis para el cociente de varianzas poblacionales

Análogamente, para contrastar

)(H a frente )=(H22

211

22

210

el estadístico a observar es:

F=s

s

=F 1-n1,-n

22

21

observ. 21

2

2

2

1

que bajo el supuesto de que 22

21 = , el estadístico se reduce a:


-242-

F=s

s=F 1-n1,-nobserv. 212

2

2

1

Tomando como 2

1s la mayor de las cuasivarianzas muestrales, el cociente

deberá ser la unidad, pero si es un poco mayor que la unidad, todavía no hay

evidencia de que 22

21 , pero si el cociente es bastante mayor que la unidad,

entonces si hay razón para pensar que 22

21 .

)(

1,1 21

nnF

1,1 21 nnF

Figura 9. 14. Zona de rechazo

Ese bastante nos lo indica el cociente de varianzas muestrales, de forma que

si F>F/2

1-n1,-nobserv. 21

, rechazamos la H 0 , y podemos decir que 22

21 > .

Actividad 9.7.

De una remesa de 11 pilas alcalinas la desviación típica ha sido de 3,7 y de una

segunda remesa de 13 pilas alcalinas la desviación típica ha sido de 4,6. ¿Se puede

decir que la dispersión de la segunda remesa es mucho mayor que la dispersión de la

primera?

9.4.4. Contrastes de proporciones

Para contrastar si el porcentaje de defectos de un lote de piezas es p0, muestreamos

n piezas al azar del lote, y observamos el número X de piezas defectuosas. En

principio, si el tamaño del lote es grande en comparación con la muestra, X sigue una


-243-

distribución Binomial B(n,p), pero si np>5, se puede aproximar a una distribución

normal )p)-np(1N(np;X . Con ello bajo el supuesto de que p=p0 la cantidad X

se distribuye según una ))p-(1np;npN(000

y tipificando se tiene:

)p-(1np

pn-X =z

00

0

Esta cantidad Z sigue una distribución N(0;1), de forma que el valor observado

cabe esperar que esté dentro del campo de existencia de la normal tipificada, con

una probabilidad del 95% (tomando 0,05= ). En caso de que ocurra lo esperado,

no hay razón para rechazar la hipótesis nula de que p=p0. Es decir, la región de

aceptación del test es,

z+ <z < z- /2/2

y la región de rechazo es la contraria,

z > |z| /2

Actividad 9.8

De un contenedor con 10000 piezas se afirma que el porcentaje de defectuosas es

del 2%. Para contrastarlo se toma una muestra de 50 unidades y se observa que hay

2 defectuosas.

a) ¿Es eso coherente con la hipótesis nula de que el porcentaje es del 2%?


c) Si viniera un contenedor con un porcentaje del 5%, ¿cuál será la probabilidad

de aceptar la hipótesis nula?

d) ¿Si queremos que la probabilidad anterior fuera de 0,40 ¿qué tamaño de

muestra debemos tomar?

Cálculo de la para un proporción

Para el test )pp(H 00 frente a )pp(H 01 los límites de la zona de

aceptación son,


-244-

n

qpzpLCS 00

2/0 n

qpzpLCI 00

2/0

Si la proporción fuera p1, el valor de es,

)/ˆ()/( 100

2/000

2/01 pn

qpzpp

n

qpzpPpLCSfLCIP

Cuando p0 cambia a p1, la f sigue una distribución normal )n

q·p;p(N 11

1 ,

pero los límites de la zona de aceptación no cambian, y el valor de es,

n

qp

pn

qpzp

n

qp

pn

qpzp

11

1

00

2/0

11

1

00

2/0

·

··

·

··

Sustituyendo valores, calcularíamos el valor de .

Para la proporción de defectos(defectos por unidad), es todo igual pero

cambiando p·q por sólo p.

Gráficos de control para la proporción de piezas defectuosas

Para controlar que la proporción de piezas defectuosas de un proceso

industrial se mantiene en un nivel de 0p , tomamos una muestra al azar de tamaño n

y observamos la proporción muestral,

n

xfp ˆ

Siendo x el número de piezas defectuosas que aparecen en la muestra.

Las sucesivas muestras de tamaño n, vamos graficando en ordenadas el valor

de dicha proporción muestral, y siempre que la misma esté dentro de unos límites de

aceptación para el test )pp(H 00 frente a )pp(H 01 diremos que el proceso está

bajo control, tal y como se refleja en la figura de abajo.


-245-

TiempoMuestra 1 Muestra 2

Aceptamos la H0

Rechazamos la H0f=x/n

n

qpzpLCS /

0020

n

qpzpLCI /

0020

Figura 9. 15. Gráfico de control para la proporción de defectuosas

Siempre que la proporción observada de la muestra esté dentro de dichos

límites, asumiremos que el proceso se encuentra dentro de lo que cabe esperar, pero

cuando un punto salga de dichos límites, habrá que buscar la causa del cambio del

proceso.

Tamaño muestral

Si nos dan dos puntos de la curva característica )1,( 0 y );( 1 , el tamaño

de muestra para realizar el contraste de hipótesis, se obtiene imponiendo que la

curva característica pase por esos dos puntos y despejando el valor de n se tiene,

2

0

002/

pp

pqzqpzn

Para la proporción de defectos (defectos por unidad), el tamaño de muestra a

tomar para que el test pase por los dos puntos de la curva característica es,

2

0

02/

pp

pzpzn


-246-


muestras independientes

Si partimos de dos poblaciones de dos poblaciones que siguen distribuciones

N(μ1,1) y N(μ2 , 2) respectivamente, para realizar el contraste de,

)()( 2121 HafrenteH

Tomamos una muestra de tamaño n1 de la primera población y otra muestra

de tamaño n2 de la segunda población, calculamos las medias muestrales de cada

muestra, y observamos el estadístico,

2

22

1

21

2121

nn

xxT

)()(

El cual sigue una normal tipificada. Si el valor de T cae dentro de la zona de

aceptación (1-) no hay razón para rechazar la hipótesis nula. El área de aceptación

es,

22 zTz //

En el caso de que 1 y 2 sean desconocidas pero iguales, la común la

estimamos mediante,

2

)1()1(

21

2

2

21

2

1

nn

nsnss

Y el estadístico

21

2121

11

)()(

nns

xxT

Sigue una t de Student con n1+n2-2 grados de libertad.

Si

2/

2

2/

2 2121

nnnn tTt

Aceptamos la hipótesis nula de igualdad de medias.

Para el contraste unilateral

)()( 2121 HafrenteH

Aceptamos la H0 cuando


-247-

221 nntT

9.4.6. Test para la diferencia de medias poblacionales con datos

apareados

Se trata de un contraste para la diferencia de medias de dos poblaciones, pero en

que las muestras obtenidas no son independientes, sino que están de alguna forma

relacionadas una a una, de manera que el tamaño de las muestras es el mismo. Es

típico el caso de que de un elemento de la población realizamos mediciones antes y

después de un tratamiento y queremos contrastar si hay diferencias debido al

tratamiento.

El tamaño de la muestra es n, y para cada elemento tenemos las

observaciones x1i y x2i, la primera y segunda medición, y deseamos contrastar si las

iii xxd 21

son por término medio cero. Es decir, el test de diferencias de medias,

)()( 2121 HafrenteH

Se reduce al test

)0()0( dd HafrenteH

Para ello aplicamos este test a la variable di y observamos el estadístico,

ns

dT

d

0

Donde n

d

d

n

i

i 1

y 1

)(1

2

n

dd

s

n

i

i

d .

Si 2/

1

2/

1

nn tTt aceptamos la hipótesis nula de igualdad de medias y en

caso contrario la rechazamos.


-248-

Actividad 9.9.

En la tabla siguiente se recogen medidas de desgaste de las suelas de zapatos de 10

chicos. Las suelas se fabricaron de dos materiales sintéticos A y B. La pregunta a

contestar es, ¿hay diferencias entre el material A y el B en cuanto a desgaste de la

suela de zapato.

Chico Material A Material B Diferencia(B-A)

1 13,2 14,0 0,8

2 8,2 8,8 0,6

3 10,9 11,2 0,3

4 14,3 14,2 -0,1

5 10,7 11,8 1,1

6 6,6 6,4 -0,2

7 9,5 9,8 0,3

8 10,8 11,3 0,5

9 8,8 9,3 0,5

10 13,3 13,6 0,3

Las mediciones son las alturas que restan en las suelas de los zapatos.

El material se asignó de forma aleatoria a cada zapato.

a) Suponiendo que los datos fueran independientes, ¿hay diferencias entre el

material A y B?

b) Como los datos se han obtenido a pares (son dependientes), ¿qué material es

el mejor?

9.4.7. Test para la diferencia de proporciones

Se trata de un contraste para comprobar si las proporciones de dos poblaciones son

iguales o distintas. Suponemos que la primera población tiene una proporción p1 de

una determinada característica, y de ésta tomamos una muestra al azar de n

elementos, y la segunda población tiene una proporción p2 de la misma característica,

y tomamos una muestra al azar de n2 elementos.

El test que plantamos es


-249-

)()( 2121 ppHafrenteppH

El cual equivale a,

)0()0( 2121 ppHafrenteppH

Para su contraste empleamos el estadístico,

21

21

11)ˆ1(ˆ

)0()(

nnpp

ffT

donde

21

21ˆnn

xxp

1

11

n

xf

2

22

n

xf

Siendo x1 y x2 el número de elementos de la muestra que poseen la

característica que estamos estudiando.

Bajo el supuesto de que se cumpla la H0 , y n1 y n2 lo suficientemente grandes,

el estadístico T se distribuye según una normal tipificada.

Si 2/2/ zTz aceptamos la hipótesis nula con un nivel de significación

de , y en caso contrario rechazamos la hipótesis nula.

Actividad 9.10

Se quiere comprobar si dos lotes con un determinado tipo de componente presenta el

mismo porcentaje de unidades defectuosas. Para comprobarlo se sacan 40 piezas

del primer lote y resulta que hay 2 defectuosas; y después se sacan 50 piezas del

segundo lote y resulta que hay 4 piezas defectuosas.

a) ¿Podemos afirmar que el porcentaje es el mismo?



-250-

9.4.8. Test de ajuste a una distribución

Cuando observamos unos datos extraídos al azar de una población se plantea la

hipótesis de si dicha población sigue una determinada distribución o por el contrario

los datos no se puede decir que proceden de dicha población supuesta.

Vamos a plantear el test de ajuste a una distribución mediante un ejemplo

sencillo, como es la distribución aleatoria del los puntos extraídos al lanzar un dado.

La función de probabilidad es,

6,5,4,3,2,16

1)( ii xparaxXP

El objetivo de la prueba es comprobar si un dado está trucado o no. Para ello

lanzamos el dado 60 veces y anotamos la frecuencia de cada cara. Imaginemos que

el resultado haya sido.

OBSERVADO ESPERADO

9 10

13 10

7 10

14 10

12 10

5 10

A la vista de los resultados, ¿podemos decir que el dado está bien?

Bajo el supuesto de que el dado está bien la frecuencia esperada de cada xi

es

106

1·60)(· ixPn

Si observamos que las frecuencias fluctúan alrededor del valor de 10, diremos

que no hay motivo para pensar que el dado está trucado. Pero si las frecuencias que

observamos se separan mucho de 10, habrá motivo para pensar que el dado

realmente está trucado, ya que existen valores que se escapan de lo que cabe

esperar.

¿Cómo decimos que hay mucha diferencia respecto de lo que esperamos?

Para medir está diferencia empleamos el estadístico Chi-cuadrado, cuya

expresión es,

k

i

k

i

ii

cE

EO

1

2

1

2)(

donde:

io = frecuencia observada del valor xi .


-251-

ie = frecuencia esperada del valor de xi .

Las hipótesis que se plantean son:

H0(los datos siguen la distribución del dado) frente a H1(los datos no siguen la

distribución del dado)

Bajo el supuesto de la H0 se demuestra que el estadístico 2c sigue una

distribución 2 de k-1 grados de libertad, donde k es el número de intervalos o

número de sumas de la chi-cuadrado.

La aplicación del test consistir-a en calcular la cantidad 2c y si

Si 2

,1k2c

aceptamos la H0

Si 2,1k

2c rechazamos la H0.

O bien calculamos el p-valor del estadístico 2c , esto es,

22

1 ckPvalorp

Y si,

El p-valor > aceptamos la H0

El p-valor < rechazamos la H0 .

En la siguiente hoja de cálculo EXCEL hemos realizado la aplicación de este

test.

OBSERVADO ESPERADO CONTRIBUCION

9 10 0,1

13 10 0,9

7 10 0,9

14 10 1,6

12 10 0,4

5 10 2,5

Suma…… 6,4

p-valor…, 0,269218814

Por lo tanto no podemos rechazar que el dado sea correcto con α=0,05.


-252-

En resumen, para comprobar si unos datos )x,....,x,x( n21 se ajustan a una

determinada distribución aleatoria con función de distribución F(x), el procedimiento a

seguir es:

1) Dividir el campo de existencia de la v.a. X en k intervalos disjuntos, a ser

posible equiprobables (con igual probabilidad de pertenecer a uno de los

intervalos).

2) Contar el número de datos que caen en cada intervalo. Esto es las oi .

3) Calcular la frecuencia esperada en cada intervalo, mediante ii p·ne .

4) Calcular la cantidad

k

i

sk

i

ii

cE

EO

1

2

1

2)(

donde s es el número de parámetros que definen la F(x) estimados a partir de los

propios datos.

Si para calcular la ip debemos conocer los parámetros de la distribución,

entonces los grados de libertad k-1 se reducen con el número s de parámetros que

estimamos a partir de los propios datos.

Por ejemplo, si X es una normal debemos conocer la media y la sigma. Pero

si son desconocidos, hay que estimarlos a partir de los propios datos. De este modo,

para este caso el valor de la s=2.

Comprobamos si la 2c cae dentro de la zona de aceptación, con lo cual

decimos que los datos siguen esa función de distribución F(x), o si caen el la zona de

rechazo, y decimos que no se admite que los datos siguen esa F(x).

Para que el test funcione bien, un requisito es que la frecuencia esperada sea

al menos de 5, esto es, que 5p·n i . En caso de que algún intervalo no cumpla esta

condición, se combina con los anteriores o posteriores para cumplir que la frecuencia

esperada al menos sea de 5.

9.4.9. Test de independencia

En muchas ocasiones clasificamos a los elementos de una población en función de

dos características, la A y la B, donde la característica A tiene r posibles valores, y la

B tiene c posibles valores. La clasificación de cada elemento según el valor de A y el

valor de B da lugar a una tabla de doble entrada, filas y columnas, que recibe el

nombre de “tabla de contingencia”. Por ejemplo, la tabla de turno de fabricación en

filas y número de defectos de calidad en cada coche en columnas.


-253-

La pregunta que se formula es ¿tiene algo que ver el turno de trabajo con el

que aparezcan más o menos defectos de calidad? En definitiva, se trata de

comprobar si la característica A es independiente de la característica B, es decir,

plantemos un test de independencia entre las dos características.

Recordamos la notación expuesta en el tema de estadística descriptiva

bidimensional.

1 2 j J total

1

2

i nij ni

I

total n j n

Y llamando a:

ip = probabilidad de pertenecer a la clase i de la característica A.

jp = probabilidad de pertenecer a la clase j de la característica B.

La probabilidad de pertenecer a la clase Ai y a la clase Bj es,

)( ji BAP

Y bajo el supuesto de independencia, se cumple que,

jijijiij ppBPAPBAPp ·)()·()(

Y las hipótesis son,

),·(0 jipppH jiij frente a ),·(1 jiparunmenosapppH jiij

Para comprobar esta hipótesis aplicamos el estadístico chi-cuadrado como,

r

i

c

j ij

ijij

ce

eo

1 1

2

2)(

Donde:

i jo = frecuencia observada en la casilla i,j.

i je = frecuencia esperada en la casilla i,j.


-254-

Bajo el supuesto de independencia, i je se calcula como

n·p·pn·pe jiijij

Siendo

n

np i

i

n

np

j

j

Que sustituyendo queda,

n

nnn

n

n

n

ne

jiji

ij

·

··

Y bajo la H0 la cantidad 2c se distribuye según una Chi-cuadrado de (r-1)·(c-

1) grados de libertad. La regla de decisión es,

Si 2

),1)(1(

2

crc aceptamos la H0.

Si 2

),1)(1(

2

crc rechazamos la H0.

O bien calculando el 2

c

2

)1c)(1r(Pvalorp ,

Si p-valor > aceptamos la H0.

Si p-valor < rechazamos la H0.

Para que funcione bien el test la frecuencia esperada en cada casilla debe ser

superior a 5.

Para el contraste de igualdad de proporciones de varias poblaciones o para la

igualdad de varias poblaciones (contraste de homogeneidad), los datos se clasifican

como una tabla de contingencia y se aplica el mismo procedimiento que el visto en el

test de independencia.

Actividad 9.11:

Se toma una muestra de estudiantes de diferentes grupos de clase de aula y se les

pide su opinión en cuanto a una propuesta de cambio del plan de estudios. Los

resultados son los siguientes:


-255-

Clase A favor En contra

1 120 80

2 70 130

3 60 70

4 40 60

¿Podemos decir que algunos grupos de clase están más a favor de la propuesta que

otros?

Se ha preguntado a un grupo de hombres y mujeres si fuman cigarrillos de forma

habitual. Los resultados han sido:

Fuma No fuma

Mujer 9 11

Hombre 20 40

¿Hay diferencias entre los hombres y las mujeres en cuanto al hábito de fumar

cigarrillos?


9.5.1. Calcular el tamaño de la muestra para que el error relativo de s'2 respecto de σ2 sea inferior al 25% con una probabilidad mayor del 80%.

Solución: 52

9.5.2. Para estudiar el espesor de la capa de imprimación de la carrocería de un determinado modelo de automóvil se examinaron 10 vehículos obteniéndose los siguientes valores

{ 45, 40, 44, 43, 45, 43, 46, 45, 44, 45 }

medidos en micras. En el supuesto de que sigan una distribución NORMAL :

a) Calcular un intervalo de confianza al nivel α=0'05 para el promedio del

espesor.

b) Lo mismo para la varianza del espesor.

Solución: a) [42.78; 45.21] b) [1.37; 9.63]


-256-

9.5.3. Una resistencia eléctrica ha sido medida 6 veces, resultando los valores en ohmios :

{ 1'5, 1'6, 1'4, 1'5, 1'3, 1'1 }

Calcular el intervalo de confianza para la media con α=0'05.

Solución:[1.21,1.59]

9.5.4. Para un intervalo de confianza de un determinado parámetro con un nivel de confianza del 90%; indicar cuál de las siguientes afirmaciones es correcta:

a) contiene con una probabilidad del 90% el valor real y desconocido del parámetro poblacional a estimar.

b) es la región de aceptación de un test de hipótesis al 10%. c) estima puntualmente con una probabilidad del 90% el parámetro muestral. d) ninguna de las anteriores.

Test de hipótesis

9.5.5. Una muestra de 16 transistores de cierto tipo ha presentado una vida media de 734 horas. ¿Puede aceptarse que la media poblacional es de 740 horas con un nivel de significación α=0'05?

a) Supuesta normalidad y conocido σ=12 horas.

b) Supuesta normalidad y conocido s'=12 horas.

Solución: a) no [728.12,739.88] b) si [727.61,740.39]

9.5.6. Sea X una variable aleatoria de distribución NORMAL N(m,1). Con el fin de contrastar la hipótesis de que la media poblacional es m=2 frente a m≠2 se toma una muestra, siendo esta:

{ 2'1, 2'2, 2'5, 1'9, 1'2 }

¿Puede aceptarse la hipótesis nula con α=0'05?

Solución: si 1.98 [1.1235,2.8765]

9.5.7. Tras numerosas comprobaciones, el número de pulsaciones por minuto de varones de 20 a 25 años se distribuye según una NORMAL N(72,9). Si una muestra de 100 jugadores de fútbol da como media 64 pulsaciones por minuto, ¿debemos considerar esta diferencia como significativa con α=0'05?

Solución: no 64 70.5195


-257-

9.5.8. El contenido de un determinado elemento en un acero es una variable aleatoria NORMAL N(35,1). Se sospecha que una modificación del proceso da lugar a un aumento del contenido medio del elemento en cuestión, y se sabe que es imposible que lo disminuya.

a) Plantear el Test de hipótesis que confirme el aumento de dicho elemento.

Tomar α=0'05.

b) Calcular la probabilidad de aceptar la hipótesis nula para diferentes valores

de la media.

La modificación no altera las dispersiones.

Muestra {35'5, 34'0, 36'8, 37'0, 35'8, 37'5, 34'5, 38'0, 37'5, 36'0}

Solución: a) x 35.62 b) {35,0.975} {35.62,0.5} {36.0,0.115} {36.2,0.033}

9.5.9. Se tiene el Test de hipótesis Ho : σ

2=4

H1 : σ2=9

a partir de una muestra aleatoria simple de tamaño n=21 procedente de una

población NORMAL. La región de aceptación es Xo(s)={ x / s'26} y la de rechazo

X1(s)={ x / s'27}. Si s'2 esta entre ambos se decide aceptar con probabilidad 0'6 y

rechazar con probabilidad 0'4. Hallar las probabilidades de los riesgos de I y II

especie.

Solución:α = 0.04 β = 0.2

9.5.10. Una empresa anuncia que el 10% de las unidades de un artículo en venta procede de sus fábricas, frente a un competidor que asegura que dicho porcentaje es menor. Se toma una muestra de 100 artículos, de los cuales sólo 3 son de la primera empresa. ¿Puede aceptarse que ésta tiene razón? Tomar α=0'05.

Solución: no 0.03 0.05065

9.5.11. En el proceso de fabricación de tornillos se desea que la proporción máxima de tornillos defectuosos producidos debe ser de un 5o/o. En un control de fabricación tomamos una muestra de 100 tornillos y encontramos uno defectuoso.

a) ¿Se puede afirmar que el proceso esta fuera de control? Tomar α=0'05.

b) ¿Qué ocurre si la dirección quiere mas precisión en el test?


-258-

Solución: a) no 0.01 [0.0073, 0.0927]

9.5.12. Un partido afirma que el 55% de los electores están de acuerdo con sus ideas frente a un problema. Se toma una muestra de 1.000 electores y se obtiene una proporción del 51%. ¿Puede sostener el partido político dicha afirmación? Tomar α=0'05.

Solución: no 0.51 [0.5192, 0.5808]

9.5.13. La proporción de unidades defectuosas en un lote de 100 unidades del proveedor A es del 4%, mientras que un lote de 150 unidades del proveedor B es del 7%. ¿Hay evidencias para decir que el proveedor A produce menos unidades defectuosas que el proveedor B? Tomar α=0'05.

Solución: no 0.9941 < 1.96

9.5.14. La variabilidad de un proceso en condiciones de producción correctas es de 3 unidades. Se dispone de una muestra de tamaño n=15, con los siguientes valores:

{ 27, 17, 18, 30, 17, 22, 16, 23, 26, 20, 22, 16, 23, 21, 17 }

¿Funciona correctamente el proceso? Tomar α=0'05.

Solución: no [3.6185, 16.7907]

9.5.15. Para contrastar

Ho : λ=1

H1 : λ=2

se dispone de una única observación x que proviene de una distribución de

Poisson Ps(λ). Si se toma como región de rechazo 4, calcular las

probabilidades de los errores de tipo I y tipo II.

Solución: α = 0.0189 β = 0.85712

9.5.16. Una partida de gran tamaño de piezas se considera válida si tiene menos

de un 2% de piezas defectuosas (H0 :p0’02). Para su control se toman 9 piezas y se acepta la partida si todas las piezas son correctas. ¿Cuál es la probabilidad


-259-

de cometer un error de 2ª especie si en realidad el lote inspeccionado tiene un 10% de piezas defectuosas?

a) 0’3874

b) 0’6126

c) 0’2252

d) 0’7748

9.5.17. HIJOS DE ILUMINADA S.A. es una empresa que se dedica a producir bombillas. En una de sus lineas se fabrican bombillas de 40 Watios. El filamento de las mismas tiene una resistencia con distribución NORMAL N(605,1.18) ohmios, y una bombilla se considera correcta cuando su resistencia esta situada entre los valores 607.86Ω y 600.96Ω. Para comprobar que el proceso de fabricación esta bajo control, es decir, que la media vale 605, los operarios de la linea realizan un test consistente en tomar muestras de tamaño 7 de forma periódica, y si la resistencia media esta situada entre los valores 606.338Ω y 603.662Ω se acepta que el proceso esta bajo control. Determinar la probabilidad de cometer el error de primera especie, y el de segunda especie cuando el valor de la media poblacional es de 606.5Ω.

a) α=0.00270, β=0.44540

b) α=0.02571, β=0.35942

c) α=0.02571, β=0.44540

d) α=0.00270, β=0.35942

9.5.18. Para contrastar la hipótesis de igualdad de precisión de dos métodos de análisis, utilizamos la distribución:

a) N(m1+m2,2

2

2

1 )

b) 2

21 nn

c) 21 ,nnF

d) 21 nnt

9.5.19. Se quiere contrastar la hipótesis nula de que la proporción de piezas defectuosas en una partida es menor o igual al 1%, contra la alternativa de que es mayor. Para ello se realiza el siguiente plan: se van tomando piezas de la partida hasta que aparezca una defectuosa. Si el número de piezas tomadas hasta ese momento es menor o igual que 2 se acepta la partida y en caso contrario se rechaza. Calcular el error de segunda especie para una proporción de piezas defectuosas del 10%.

a) 0.1900

b) 0.1000


-260-

c) 0.0975

d) 0.0950

9.5.20. Una determinada máquina fabrica láminas de acero cuyo espesor sigue una distribución normal N(0.1, 0.005) cm. La máquina se considera que funciona mal, y por tanto se debe revisar, si al tomar una muestra, el espesor promedio de las láminas es superior a 0.1041cm. Si al tomar una muestra el promedio de longitud es inferior a 0.1041cm y por tanto no revisamos la máquina, ¿cuál de estas afirmaciones es cierta?

a) Podemos estar cometiendo un error de primera especie

b) Podemos estar cometiendo un error de segunda especie

c) Seguro que cometeremos un error de primera especie

d) Seguro que cometeremos un error de segunda especie

Tabla de contingencia

9.5.21. La siguiente tabla muestra la frecuencia con la que se dan las distintas calidades de piezas en dos máquinas de una determinada empresa. Se pretende comprobar mediante un test χ2 si existen diferencias significativas entre las dos máquinas en cuanto a número de piezas fabricadas de cada calidad. Calcular el nivel de significación de dicho test.

Piezas

inútiles

Piezas

reciclables

Piezas

correctas

Máquina A 15 33 60

Máquina B 42 61 82

a) 0’05

b) 0’10

c) 0’25

d) 0’50

9.5.22. Un estudio realizado sobre el número de accidentes mortales de automóvil durante el último puente festivo, muestra los siguientes resultados, en función del tamaño del coche y el estado del conductor y los pasajeros:

MUERTOS \ TAMAÑO DEL COCHE PEQUEÑO MEDIANO GRANDE

al menos uno 49 35 18

ninguno 71 65 62


-261-

En un periódico (A) se afirma que el tamaño del coche (y su equipamiento de

seguridad) no influye en el número de accidentes mortales, mientras que otro (B)

dice que sí, y que la distribución es:

MUERTOS \ TAMAÑO DEL COCHE PEQUEÑO MEDIANO GRANDE

al menos uno 46 34 20

Ninguno 74 66 60

Con los datos expuestos:

a. Sólo el periódico A tiene razón, el tamaño del coche no influye en la siniestrabilidad del accidente.

b. Sólo el periódico B tiene razón, y el tamaño del coche si que influye en el número de muertos, y la distribución que aporta es aceptable.

c. Ninguno de los dos periódicos tiene razón, ya que el tamaño del coche si que influye, pero la distribución no es la dada por el periódico

d. No se puede afirmar nada, ya que la muestra es demasiado pequeña y los grados de libertad no son suficientes.

Test de ajuste a una distribución

9.5.23. Se han sacado 200 muestras de 3 piezas en una línea de montaje, encontrándose fuera de tolerancia las siguientes:

Nº. de piezas

defectuosas

Nº. de muestras

0 100

1 80

2 15

3 5

¿Cuál de las siguientes afirmaciones es cierta?

a) Con una confianza del 95% rechazamos que sigan una distribución binomial de parámetro B(3,0.2).

b) Con una confianza del 99% rechazamos que sigan una distribución binomial de parámetro B(3,0.2).

c) Con una confianza del 90% no podemos rechazar que sigan una distribución binomial de parámetro B(3,0.2).

d) Con una confianza del 85% no podemos rechazar que sigan una distribución binomial de parámetro B(3,0.2)


-262-

9.5.24. El nº de llamadas vía modem que recibe un ordenador por unidad de tiempo se ha muestreado dando los siguientes resultados:

Nº llamadas Frecuencia

-----------------------------------------------

0 144

1 136

2 74

3 32

4 11

5 2

6 1

Pudiendo aceptarse que la variable tiene una distribución de Poisson, calcular el valor

de λ.

Solución: 1`1


9.6.1. Una fábrica trabaja con dos máquinas A y B. El coste semanal, XA, de reparación para la máquina A se aproxima a una distribución Normal con parámetros μA=350 y σA

2=500. El coste semanal, XB, de reparación de la máquina B se apro ima a una distribución normal con parámetros μB=200 y σB

2=400. Queremos estudiar el coste de las reparaciones de cada máquina y, para ello, tomamos una muestra aleatoria de nA=5 facturas de reparaciones de la máquina A y otra de nB=4 de la máquina B y calculamos las medias muestrales de los costes de reparación. Si queremos comparar los costes de las dos máquinas:

a) Determinar la distribución de la diferencia de los costes medios muestrales. (1 punto)

b) Hallar la probabilidad de que la diferencia entre el coste medio muestral de A y el coste medio muestral de B sea superior a 180 euros. (0.5 puntos)

c) Hallar la probabilidad de que al tomar las dos muestras de facturas, como se indica en el enunciado, la cuasivarianza del coste de la máquina A sea superior a 11’4 veces la cuasivarianza del coste de B? (1.5 puntos)

SOLUCIÓN:

a)

,

b)


-263-

c)

05,0)12,9()500

4004,11(

)4,11/

/()4,11/()4,11(

3,4)1(),1(

2

2

22

222222

FPFP

S

SPSSPSSP

BA nn

A

B

BB

AABABA

9.6.2. El tiempo que tarda en realizar la entrega de los paquetes a los clientes de la ciudad de Valencia una empresa de mensajería ubicada en el polígono de la Fuente del Jarro es, de forma habitual, una variable con distribución N(m=35min, σ=10min). La semana pasada se incorporaron al trabajo tres repartidores nuevos con poca experiencia, hecho que podría afectar a los tiempos de entrega empeorándolos. Para hacer un control verificamos el tiempo de entrega de 4 paquetes seleccionados aleatoriamente y obtenemos los siguientes valores expresados en minutos (40; 15; 42; 70).

a. Con un nivel de significación del 5% ¿Hay evidencias significativas de un empeoramiento del tiempo medio de entrega? (1 punto)

b. ¿Cuál sería el valor de β del test anterior si el tiempo medio de entrega hubiese aumentado a 45 minutos? (1 punto)

c. Calcular un intervalo de confianza al 99% para la media del tiempo de entrega y otro al 95% para la varianza de dicho tiempo de entrega (0,75 puntos)

d. ¿Cuántos envíos deberíamos controlar para estimar la media real del nuevo tiempo de espera con error absoluto menor de 2 minutos y un nivel de confianza del 80%? (0,75 puntos)

SOLUCIÓN:

a) Se trata de un test sobre la media m de una población normal Es un test unilateral porque el cambio solo es previsible que se dé en un

sentido (aumentar) por lo tanto tenemos

H0: m=m0=35 minutos

H1: m>35

Dado que conocemos la desviación típica σ=10, la regla de decisión es

)14,14,150()200,150(

)4

400

5

500,200350(,

22

NN

NNxxB

B

A

A

nnBABA


-264-

Aceptar H0 si

Calculamos y

Como podemos aceptar la hipótesis nula y admitir

que no ha habido un aumento significativo del tiempo medio de reparto.

b) Β=P( ceptar H0/ H1 cierta)=P( )=P(N(45, σ/√n)≤43,25)= P(N(45, 10/√4)≤43,25)= P(N(45, 5)≤43,25)=φ(43,25-45/5)=φ(-0,35)=0,3632

c) El intervalo de confianza para la media con varianza conocida es

y con nuestros datos

El intervalo de confianza para la varianza poblacional es

2

/2-1;1-n

22

2

/21;-n

2 s)1n(s)1n(

2

2

2

975´03025´03

583´505.3583´505.3

2160

583´505.3

3849

583´505.3

2

(161´63; 7021´944)

d)

9.6.3. Queremos estudiar si se mantiene la proporción de circuitos integrados defectuosos que se producen en un proceso de producción. Lo habitual es que

nzmx

0

75,41x 225,434

10645,135

225,4375,41 x

45/25,43 mx

entregase

zn 4228,41

2

10.285,122

2/

nzx

2/

4

1057,275,41

)60,5490,28()85,1275,41(


-265-

haya alrededor de un 0,5%. Para comprobarlo, tomamos una muestra de 300 circuitos y si encontramos un circuito defectuoso o más decimos que la proporción es superior a 0,5%.

a) Determinar, para este contraste de hipótesis, cuánto vale la probabilidad de error de 1ª especie (1,25 puntos).

b) Si la proporción de circuitos defectuosos del proceso fuera del 1% ¿cuánto valdría la probabilidad de error de 2ª especie? ¿Qué significado tiene? (1,50 puntos)

c) Si al tomar la muestra de 300 circuitos nos sale uno defectuoso ¿qué decisión tomamos? ¿Qué tipo de error podríamos estar cometiendo? (0,75 puntos)

SOLUCIÓN:

H0(p=0’005) vs H1(p>0’005)

a)

b)

El 4’9% de las veces que apliquemos este test, aceptaremos que la proporción

de piezas defectuosas es p=0’005 cuando en realidad es 0’01 (por lo tanto nos

estaremos equivocando)

c) Tal y como dice el enunciado, si nos sale X1, rechazamos la H0.

El único tipo de error que podemos cometer es el de primera especie ya que

hemos RECHAZADO.

9.6.4. De forma habitual, el 10% de los envíos de una empresa de distribución presentan alguna incidencia como retrasos, errores, etc. Después de la incorporación de varios conductores inexpertos y a lo largo de una semana se controlan 50 envíos registrándose incidencias en 6 de ellos.

a) Con un nivel de significación del 5% ¿hay evidencias significativas de un empeoramiento en la proporción de envíos con incidencias? (1,5 puntos)

b) ¿Cuál sería el valor de β del test anterior si la proporción de envíos con incidencias hubiese aumentado a un 15%? (1,5 puntos)

c) ¿Cuántos envíos deberíamos controlar para estimar la proporción real de envíos con incidencias con un error absoluto menor del 4% y un nivel de confianza del 80%? (0,5 puntos).


-266-

d) Calcular un intervalo de confianza al 99% para la proporción poblacional P de envíos con incidencias después de la incorporación de los nuevos conductores.(0,50 puntos)

Solución:

a) Las hipótesis a contrastar son: H0:P=P0= 0,10 H1:P>0,10 ya que de acuerdo con el enunciado el cambio podría suponer un empeoramiento respecto al funcionamiento habitual, es decir, una proporción mayor que la habitual

La región de aceptación para este test es

Aceptar si

Como p=6/50=0,12 <

Podemos aceptar H0 y concluir que no ha habido un incremento significativo

de la proporción de envíos con incidencias

b) β=P( ceptar H0/ H1)=P(p<0,169/P=0,15)=P(N(0,15 √0,15 . 0,85/50)<0,169)=

P(N(0,15 0,05)<0,169)=

c) El número de envíos a controlar, considerando como proporción habitual 0,10 es

Si tomamos como estimación previa de P el valor muestral 0,12 sale 108,98

109

Envíos.

d) El intervalo de confianza es

)23810;00190(50

880.12057,2120

)ˆ1(ˆˆ

2/

n

ppzp

9.6.5. El número de llamadas diarias realizadas con el móvil por las alumnas de 1º de GITI podemos admitir que es una variable de Poisson de media 2,5 llamadas/día y el de las llamadas realizadas por los chicos tiene una distribución de Poisson de promedio 1,5 llamadas/día.

Al entrar al examen todos dejan su móvil en la mesa del profesor. Elegido uno

de los móviles al azar, queremos verificar la hipótesis nula de que pertenece a una

chica frente a la alternativa de que es de un chico.

169,050

90,0.10,0645,110,0

n

PPzPp

)1(ˆ 00

0

6480,0)38,0()05,0

15,0169,0(

2

2

2/0

)ˆ1(ˆ

e

ppzn

envios9377,92

04,0

90,0.10,0.285,12

2


-267-

Como regla de decisión adoptamos la siguiente: Si el teléfono tiene

registradas tres llamadas o más a lo largo del día anterior, lo asignamos a una chica y

si tiene registradas dos o menos llamadas decimos que es de un chico.

a) Plantear estadísticamente las hipótesis a contrastar y las regiones de

aceptación y rechazo propuestas en el enunciado. (1 punto)

b) Calcular el riesgo de primera especie de la prueba. Interpretar la respuesta.

(1,5 puntos).

c) Calcular el riesgo de segunda especie de la prueba. Interpretar la respuesta.

(1,5 puntos).

Solución

a) Las hipótesis a contrastar son:

H0: λ=2,5 (pertenece a una chica)

H1: λ=1,5 (pertenece a un chico)

Las regiones de aceptación y rechazo son:

Aceptar H0 si X ≥3

Rechazar H0 si X ≤ 2 Siendo X=Ps(λ)

b) α=P(Rechazar H0/ H0)= P(X≤ 2/λ=2,5)=P( Ps (2,5)≤2)=0,5438 (El 54,38% de los teléfonos de las chicas serían asignados a los chicos con el test propuesto)

c) β=P( ceptar H0/ H1)=P(X≥3/λ=1,5)=P(Ps(1,5)≥3)=1-P(Ps(1,5)≤2)= 1-0,8088=0,1912 (El 19,12 % de los teléfonos de los chicos serían asignados

a las chicas con el test propuesto)

9.6.6. El espesor de unas planchas de acero sigue una distribución normal con varianza 5,4. Se pide:

a) Si tomamos una muestra de tamaño n=20, cuál es la probabilidad de que la desviación típica sea superior a 3. (1 punto)

b) ¿Cuál debe ser el número de planchas a medir para que la probabilidad de que la media muestral de estas planchas difiera de la media poblacional en más de 2 unidades sea inferior al 10%? (1punto)

Solución 3:

a) 034,066,31P4,5

19·9s)·1n(P)3s(P 2

192

2


-268-

b) La condición que se debe cumplir es,

10,0)2x(P

El suceso contrario es,

90,0)2x(P

90,0

n

2

n

x

n

2P

Buscamos el valor de 645,1z 05,0 , y de la expresión anterior el valor de n se

obtiene de,

645,1

n

2

Despejando n se tiene,

2

4,5·645,1n

n=3,65 de donde el valor de n tiene que ser como mínimo de n=4.

9.6.7. Un auditor de calidad está comprobando si los productos de un almacén logístico de la empresa Mercadona cumplen los requisitos establecidos. Para ello ha inspeccionado 30 de ellos y ha observado que 5 no cumplen los requisitos. Se pide:

a) Calcular el intervalo de confianza para la proporción de productos que no cumplen los requisitos, con un nivel de significación del 8%. (0,5 puntos)

b) ¿Cuál es el error máximo que cometemos en la estimación de dicha proporción con un nivel de significación del 8%. (0,5 puntos)

c) ¿Qué tamaño de muestra habría que tomar si conocemos que el total de productos almacenados es de 5000 y el error máximo que deseamos cometer es de un 3% con un nivel de significación del 5%? (1punto)

Solución 4:

a) La proporción estimada es 167,030

5p . Con un 08,0 el valor de la z es

75,1z 04,0 . Y el intervalo de confianza es,

048,0

286,0119,0167,0

30

)167,01·(167,0·75,1167,0

n

q·p·zp 2/

b) El error máximo cometido es 119,0 .

c) El tamaño de muestra viene dado por


-269-

1N

nN·

n

qpz 2/

Sustituyendo valores,

4999

n5000·

n

)167,01·(167,0·96,103,0 22

simplificando

n

n500042,8

5000n·42,9 , y despejando n queda,

79,53942,9

5000n . Esto , tomaremos n=540 elementos.

9.6.8. En un proceso de soldadura manual por puntos de planchas de acero, la distancia entre puntos resultante viene siendo una variable con distribución N(2 cm, 0,5 cm).

a) Ante las quejas del área de montaje, el jefe de la línea decide comprobar si se ha modificado sensiblemente la media de las distancias entre puntos. Para ello, mide las distancias entre 10 parejas de puntos de soldadura elegidas al azar obteniendo los siguientes valores expresados en cm

( 2,3 2,5 1,9 2,6 3,0 2,1 2,7 2,5 3,1 2,2 )

Con un nivel de significación α=0,10 ¿Qué podemos concluir? (Plantear las

hipótesis apropiadas y justificar la respuesta) (1 punto)

b) Si la media de las distancias hubiese pasado a ser realmente 2,5 cm ¿Cuál sería el riesgo β de la prueba anteriormente propuesta? (1 punto)

c) Olvidando los dos apartados anteriores de este ejercicio, supongamos que el jefe decide aceptar que la media de las distancias es 2 cm si el promedio de 9 distancias entre puntos de soldadura está entre 1,5 y 2,25 cm ¿Cuál sería el riesgo α de esta prueba? (1 punto)

Solución 5:

a) Se trata de un test bilateral sobre la media de una población Normal con σ

conocida, dado que no hay indicios de que el cambio haya sido en un determinado

sentido

H0: m=2 H1: m≠2

Y la regala de decisión

)26,274,110

5,0645,122/00

nzmxsiHAceptar


-270-

Como )26,274,1(49,2 x debemos rechazar la hipótesis nula y aceptar que ha

habido un cambio en la media.

b) Recordemos que

0643,000643,0)81,4()52,1()158,0

5,274,1()

158,0

5,226,2(

)26,274,1()10

5,0,5,2(()5,2/)26,274,1(()/( 10

NPmxPciertaHHAceptarP

c) Dada la expresión de la región de aceptación, las hipótesis establecidas son

H0: m=2 H1: m≠2

Recordemos que

0686,00014,09328,01

)99,2()497,1(1)167,0

25,1()

167,0

225,2(1)25,25,1()167,0,2(N(P1

)25,25,1()9

5,0,2(N(P)2m/)25,25,1(x(P)ciertaH/Hchazar(ReP 00

10. Análisis de la varianza

-271-

10. ANÁLISIS DE LA VARIANZA

Contenido 10.1. ANÁLISIS DE LA VARIANZA (I). UN FACTOR CONTROLADO. ................... 271

10.1.1. Generalidades ................................................................................ 271

10.1.2. Modelo teórico. Hipótesis del modelo.............................................. 273

10.1.3. Hipótesis nula ................................................................................. 276

10.1.4. Ecuación fundamental .................................................................... 277

10.1.5. Test F ............................................................................................. 277

10.1.6. Comparación de medias. Test L.S.D. (diferencia mínima significativa)

.................................................................................................................... 278

10.2. ANÁLISIS DE LA VARIANZA (II). DOS FACTORES CONTROLADOS .......... 280

10.2.1. Introducción. Planes factoriales ...................................................... 280

10.2.2. Anova para dos factores con repeticiones ...................................... 281

10.2.3. Concepto de Interacción ................................................................. 281

10.2.4. Modelo y supuestos teóricos ........................................................... 283

10.2.5. Hipótesis Nulas ............................................................................... 284

10.2.6. Descomposición de las Sumas de Cuadrados. Test F .................... 284

10.2.7. Comparación de Medias. Test L.S.D. .............................................. 284

10.2.8. Validación del modelo ...................................................................... 287

10.2.9. Igualdad de las varianzas ................................................................ 287

10.2.10. Estimación de los efectos .............................................................. 288

10.2.11. Predicciones .................................................................................. 289

10.3. PROBLEMAS Y CUESTIONES DE EXAMEN ................................................ 290

10.1. ANÁLISIS DE LA VARIANZA (I). UN FACTOR CONTROLADO

10.1.1. Generalidades

Bajo el nombre de Análisis de la Varianza se conocen un conjunto de métodos

estadísticos aplicables en general al análisis de observaciones que dependen

simultáneamente de varios factores. Fue desarrollado por Fisher en el 1er tercio del

siglo pasado.

Los factores a considerar, y que se presume pueden influir sobre la respuesta,

son aquéllos que podemos realmente controlar fijando a voluntad sus niveles

(factores controlados).


-272-

Los factores pueden ser cuantitativos, cuando sus niveles corresponden a

valores medibles (temperatura, pH, etc.) o cualitativos en otro caso (tipo de hojalata,

variedad, método de fabricación etc.).

Un ejemplo servirá para ilustrar un problema típico de aplicación de estos

métodos.

En un estudio sobre corrosión (X) en botes de conservas se desea investigar

la influencia al respecto del tipo de hojalata, pH del líquido de gobierno y temperatura

de almacenamiento del bote. En la terminología clásica del Análisis de la Varianza

existen en este caso tres factores:

Tipo de hojalata

pH

Temperatura de conservación

cuyos efectos se desean estudiar.

Para cada factor, se considerarán en el estudio diferentes niveles (si el factor

es cuantitativo) o variantes (si el factor es cualitativo). Así por ejemplo:

Factor tipo de hojalata (cualitativo): Se desean estudiar tres tipos distintos A, B

y C (3 variantes).

Factor pH (cuantitativo): Se estudiarán conservas a pH 4'5 y pH 5'5 (2

niveles).

Factor temperatura de almacenamiento (factor cuantitativo): Se almacenarán

los botes a 0º C, 15º C y 30º C (3 niveles).

A cada combinación de variantes de los diferentes factores se le denomina

tratamiento, por ejemplo un tratamiento será: bote hojalata tipo B con pH del líquido

de gobierno 4'5 almacenado a 15º C. En total existirán en este caso 3x2x3=18

tratamientos diferentes.

Una experiencia podría consistir en preparar 5 botes (repeticiones) con cada

uno de los 18 tratamientos posibles, con lo que constaría en total de 18x5 = 90 botes

o unidades experimentales.


-273-

El objetivo en una experiencia de este tipo sería el analizar cuáles de los tres

factores tienen una influencia significativa sobre el grado de corrosión del bote al

cabo de, por ejemplo, un mes de almacenamiento.

En aquellos factores cuyo efecto sea significativo, se deseará además, precisar la

naturaleza del mismo, determinando, qué variantes difieren significativamente entre sí

* Resumen:

- X : variable a estudiar o respuesta (grado de corrosión en el ejemplo).

- Factores: posibles causas controlables que pueden ser fuente de variabilidad

en la respuesta (tipo de hojalata, pH, temperatura, etc.).

- Variantes o niveles: valores que pueden tomar los factores.

- Tratamiento: combinación de niveles

- Unidad experimental: Unidad física sobre la que se aplica un tratamiento

(bote, parcela, animal de ensayo etc.)

- Repeticiones: número de veces que se aplica un mismo tratamiento (sobre

diferentes unidades experimentales) en una misma experiencia, o número de

veces que se repite la experiencia bajo las mismas condiciones.

Los métodos del Análisis de la Varianza, asumen la existencia de un modelo

probabilístico que explica los resultados observados en función de un conjunto de

parámetros desconocidos relativos a los efectos de los diferentes factores en estudio

y de una perturbación aleatoria.

La técnica de análisis consiste, en general, en descomponer la variabilidad total

del conjunto de las observaciones expresada por la suma de cuadrados global (Xijk -

X)2 con N -1 grados de libertad, en un conjunto de términos independientes, con sus

correspondientes grados de libertad, relativos a los diferentes factores en estudio y al

error experimental. La comparación de cada uno de estos términos con el

correspondiente a la perturbación aleatoria residual (ó error), permite contrastar la

significación de los factores estudiados.

Inicialmente desarrollaremos la teoría básica del Análisis de la Varianza en el

caso más sencillo de un solo factor controlado, dejando para más adelante la

generalización al caso de varios factores.

10.1.2. Modelo teórico. Hipótesis del modelo

Consideremos, por ejemplo, que se desean comparar I variantes distintas de un

determinado proceso industrial. De cada variante se hacen J pruebas cuyos

resultados podemos considerar como una muestra aleatoria simple extraída de la

población de posibles resultados que podrían obtenerse con dicha variante.


-274-

Variante 1 i I

Población N(1,) N(i,) N(I,)

Muestra (X11……X1J) (X21……X2J) (XI1……XIJ)

Como veremos a continuación, nuestras hipótesis sobre el modelo implican que

cada una de estas poblaciones tiene una distribución N(i,), y la hipótesis nula a

contrastar es H0: 1 = 2 …= I.

1

2

4

5

3

x

1x

2x

3x

4x

5x

Figura 10. 1. Distribución de las poblaciones

Vemos por tanto que el problema que tenemos no es más que la generalización a

I medias del problema de comparación de dos medias visto en un tema anterior.

Sea I el número de niveles del factor y J el número de observaciones para cada

una de las variantes (supondremos que dicho número es el mismo para todas las

variantes, en cuyo caso el modelo se denomina EQUILIBRADO).

Sea Xij la j-ava observación (j = 1...J) correspondiente a la i-ava variante del factor

(i = 1...I). Siendo i = (Xij) el valor medio poblacional correspondiente a dicha

variante, se tendrá:

Xij = i + ij (1)


-275-

i ijx

i

x

Figura 10. 2. Error experimental

donde jj es una perturbación aleatoria que origina las diferencias existentes entre las

observaciones de una misma variante o tratamiento; además (ij) =0

Con respecto a los residuos ij se harán, además, las siguientes hipótesis:

a) Homocedasticidad: 2ij = 2 (ij) = 2 i, j no dependiendo por tanto de la

variante i considerada.

Esta hipótesis hace necesaria la comprobación previa, mediante el test de

Bartlett u otros similares, de la homogeneidad de las varianzas en los diferentes

grupos o variantes.

b) Incorrelación: Cov (ij,i’j’) = 0 si ii' y/o jj'; es decir, todos los residuos están

mutuamente incorrelacionados.

c) Normalidad: los IxJ residuos ij tienen una distribución conjunta normal

multivariante

N(0,2 I)

Las hipótesis b) y c) implican la independencia de los residuos.

El modelo teórico anterior puede formularse de una forma alternativa que resulta

aconsejable por su más fácil generalización al caso de varios factores.

Sea = i /I el promedio de los valores medios de las diferentes variantes i=i -

es la diferencia entre la media de la variante i y el promedio general; i mide por lo

tanto el efecto específico (positivo, negativo o nulo) de la variante i del factor.

Evidentemente, se verifica i = (i - ) = i - I = 0

Como i = + i, el modelo teórico puede formularse como sigue

Xij = + i + I

Con i = 0


-276-

i

i

Xij X

ij

Figura 10. 3. Descomposición de un valor observado

Donde:

Xij = j-ava observación de la variante i del factor

= promedio general

i = efecto específico de la variante i del factor

ij = residuos N (0,) e independientes entre sí.

10.1.3. Hipótesis nula

La hipótesis nula a contrastar es que el factor no influye sobre la respuesta, es decir,

que todos los niveles tienen la misma media

Ho : 1 = 2 = 3 … = I =

H1 : i j

Estas hipótesis son equivalentes a contrastar

H0 : i = 0

H1 : i 0 ya que sustituyendo i por + i

Ho : + 1 = + 2 = + 3 = … = + I =

1 = 2 = 3 = …. = I = 0

i = 0 Se debe cumplir que 0i

i


-277-

10.1.4. Ecuación fundamental

Llamando

IJ

X..X

ijij media general de todas las observaciones

J

X.X

ijj

i

media de la variante i

La ECUACIÓN FUNDAMENTAL del Análisis de la varianza muestra la

descomposición de la variabilidad total de la variable respuesta estudiada.

SCT SCF SCR

(Xij – X..)2 se le denomina Suma de Cuadrados Total (SCT) pues mide la

variabilidad total del conjunto de las I x J observaciones.

J (Xi·-X..)2 se denomina Suma de Cuadrados debida al factor(SCF) pues

mide la magnitud de las desviaciones de la media de cada variante a la media

general. Mide la parte de la variabilidad total debida o explicada por el factor.

(Xij-Xi.)2 se denomina Suma de Cuadrados Residual pues se basa en las

desviaciones de cada observación respecto a la media de la variante

respectiva. Mide la parte de variabilidad total existente en las observaciones

no explicadas por el factor, es decir, la debida a causas aleatorias (error

experimental, otros factores no estudiados, etc.).

10.1.5. Test F

Si a las sumas de cuadrados anteriores (SCF y SCR) las dividimos por sus grados de

libertad correspondientes (I-1) e I(J-1) respectivamente) obtenemos los cuadrados

medios CMF y CMR.

Se demuestra que si la hipótesis nula es cierta 0i

2

iijij

2

ii

2

ijij .)XX(..)X.X(J..)XX(


-278-

)1J(I),1I(FCMR

CMF

La hipótesis nula 0i se contrastará, por tanto, calculando a partir de las

observaciones el estadístico CMF/CMR = Fc y rechazándola si este es mayor que el

valor en tablas de

)1J(I),1I(F para la probabilidad de error de 1ª especie

considerado. Esta regla es equivalente a rechazar H0 si el p-valor correspondiente al

Fc calculado es menor que .

Rechazar H0 equivale a aceptar con un nivel de significación α, que el factor

influye en la respuesta estudiada.

10.1.6. Comparación de medias. Test L.S.D. (diferencia mínima

significativa)

Si el test F pone de manifiesto la existencia de un efecto significativo del factor, y éste

es cualitativo, resulta procedente estudiar entre qué variantes del factor son

significativas las diferencias i - i’. La forma de operar consiste en general, en

calcular una "diferencia mínima significativa" (DMS) tal que dos variantes i, j difieren

significativamente si |Xi.-Xj.| > DMS.

En el test de Tuckey se propone como L.S.D. ó DMS

J

CMRQDMS )1J(I,I

I = nº de niveles del factor (en general nº de medias a comparar).

J = nº de observaciones en cada variante (en general, nº de datos con que se

ha calculado cada una de las medias a comparar).

Nota: En la determinación de la significación del efecto de un factor (o su

equivalente, en la determinación de la significación de la diferencia entre dos

medias), debemos hacer notar:

a) Que el hecho de que las diferencias sean significativas no implica que las

diferencias sean necesariamente importantes. El análisis de la varianza, si la

variabilidad residual es pequeña, puede dar como significativas diferencias

que en la práctica carezcan de importancia.


-279-

b) Si el análisis no da como significativas determinadas diferencias no quiere

decir que éstas no existan sino que, simplemente, el test no tiene suficiente

potencia para detectarlas. Este hecho tiene especial importancia cuando

intentamos interpretar el por qué algunas veces, a pesar de obtener en la

práctica diferencias importantes entre las medias, éstas no llegan a ser

significativas. Lo que habría que hacer en este caso es aumentar el tamaño

de la experiencia o reducir el error experimental (disminuir el CMR),

aumentando la homogeneidad del material experimental o utilizando un

diseño más adecuado.

Los resultados obtenidos se reflejan en el siguiente

CUADRO RESUMEN DEL ANÁLISIS DE LA VARIANZA

Origen de

la varianza

Suma de

cuadrados

Grados

de

libertad

Cuadrado

medio F calculada F tablas

FACTOR SCF I-1 1I

SCFCMF

CMR

CMF

)1J(I),1I(F

ERROR SCR I(J-1) )1J(I

SCRCMR

TOTAL SCT IJ-1

EJEMPLO:

Se desea estudiar la influencia de la materia prima sobre la resistencia de unas

piezas de plástico. Para ello se realizaron experiencias utilizando cuatro materias

primas diferentes. Con cada materia prima se fabricaron cinco piezas midiéndose

finalmente la resistencia en cada una de las veinte piezas fabricadas. Los resultados

fueron:

MAT PRIMA 1 MAT PRIMA 2 MAT PRIMA 3 MAT PRIMA 4

6,0 6,2 5,9 5,0

6,2 6,1 6,0 5,1

6,5 5,9 6,0 4,2

6,8 6,0 6,2 4,6

6,0 6,0 5,8 4,5


-280-

Cuadro resumen del Análisis de la Varianza

-----------------------------------------------------------------------------

Fuente SC gl CM F calc p-Valor

-----------------------------------------------------------------------------

Factor 7,922 3 2,64067 36,17 0,0000

Residual 1,168 16 0,073

-----------------------------------------------------------------------------

Total 9,09 19

Dado que el p-Valor es menor que 0,01, existen diferencias estadísticamente

significativas al nivel del 99% de confianza entre las medias de las cuatro materias

primas. Esta afirmación es equivalente a decir que la “materia prima” utilizada influye

sobre la resistencia de las piezas de plástico con un nivel de significación del 99%.

En el apartado siguiente analizaremos cuál o cuáles de las variantes de la materia

prima son diferentes en cuanto a su resistencia promedio.

Tests de rangos

Repeticiones Media Grupos diferentes

--------------------------------------------------------------------------------

M.P. 4 5 4,68 X

M.P. 3 5 5,98 X

M.P. 2 5 6,04 X

M.P. 1 5 6,30 X

Observamos que solo la cuarta materia prima da lugar a una resistencia media

estadísticamente diferente a las demás siendo menor en valor que el resto

10.2. ANÁLISIS DE LA VARIANZA (II). DOS FACTORES CONTROLADOS

10.2.1. Introducción. Planes factoriales

Apoyándonos en los conceptos y terminología expuestos en el apartado anterior,

vamos a desarrollar este apartado de forma esquemática. Solamente desarrollaremos

en profundidad aquellos conceptos que sean nuevos y propios del presente capitulo.

PLANES FACTORIALES. Constituyen un diseño especial para el estudio

simultáneo de dos o más factores en el que todos los niveles de todos los factores se

combinan entre sí. Los utilizaremos en este tema como diseño base para desarrollar

las técnicas del Análisis de la Varianza para dos factores.


-281-

10.2.2. Anova para dos factores con repeticiones

Utilizaremos como diseño base para el estudio de este apartado, el siguiente diseño

factorial

FACTOR B

FACTOR

A B1 B2 Bj BJ

A1 = n = n = =

A2 = = = =

A3 = = = =

Ai = = = n

Xijk. =

AI = = = =

10.2.3. Concepto de Interacción

Se dice que hay interacción entre dos factores si el efecto conjunto de la variante i de

uno de ellos con la j del otro, no es igual a la suma de los efectos simples

respectivos. (Efectos no aditivos).

También se dice que existe interacción entre dos factores cuando el efecto de uno

de ellos depende del nivel que consideremos en el otro.

De manera similar a la anterior, se dice que no existe interacción entre dos

factores cuando el incremento en la respuesta (+ ó -) al pasar de un nivel a otro de

uno de los factores, es el mismo en cualquiera de los niveles que podamos

considerar del otro factor.

Vamos a considerar algunos ejemplos representativos.

a) Consideremos el ejemplo de la corrosión de los botes de hojalata en el que

contemplamos dos factores: Factor tipo de hojalata (hojalata A y hojalata B) y

Factor pH (pH1, PH2 y pH3)


-282-

Figura 10. 4. Gráfico de interacciones

En este primer caso, cualquiera que sea el pH, la hojalata A presenta mayor

corrosión que la hojalata B y, además, LA DIFERENCIA ENTRE UNA Y OTRA

HOJALATA ES LA MISMA PARA CUALQUIER pH.

En el caso de la Figura 10.4, influyen los dos factores (hojalata A mayor corrosión

que la B, y a mayor pH menor corrosión) pero no hay interacción entre ellos.

Figura 10. 5. Hay interacción

En el caso de la Figura 10.5, el efecto del factor hojalata depende del valor del pH

que consideremos. Así, a pH bajo presenta menor corrosión la hojalata B, a pH

intermedio el grado de corrosión es el mismo y a pH alto presenta menor corrosión la

hojalata B. Obsérvese que en este caso no tiene sentido preguntarse qué hojalata es

más resistente si no se especifica cuál va a ser el pH a emplear en la conserva.


-283-

b) Consideremos ahora la calidad organoléptica de tres zumos de naranja

(natural, pasteurizado, esterilizado) a través del tiempo (recién preparado, a

los 5 días, a los 15 días) conservados a temperatura constante.

Figura 10. 6. Gráfico de interacciones

Obtenga el lector sus propias conclusiones

¿Hay interacción?

¿Por qué?

¿Qué zumo es mejor?

¿Se comportan igual los tres zumos?

¿Influye el tiempo de conservación en la calidad? ¿Cómo?

10.2.4. Modelo y supuestos teóricos

El modelo teórico completo es

ijkijjiijk )(X donde

Xijk = valor de la K.ésima observación en el tratamiento formado por la variante

i del primer factor con la variante j del segundo.

= promedio general

i = efecto específico de la variante i del 1er factor

j = efecto específico de la variante j del 2º factor

()ij = efecto de la interacción entre los factores en sus niveles i, j,

respectivos.

ijk = residuo aleatorio


-284-

0i

i 0j

j 0)(i

ij 0)(j

ij

Supuestos:

),0(N

0)(

ijk

ijk

independientes e incorrelacionados

10.2.5. Hipótesis Nulas

Las hipótesis nulas a contrastar son la ausencia de efecto sobre la respuesta de cada

uno de los factores así como la ausencia de interacción entre ellos

H0:

0)(

0

0

ij

j

i

H1:

0)(

0

0

ij

j

i

10.2.6. Descomposición de las Sumas de Cuadrados. Test F

La variabilidad total de las observaciones se descompone de la siguiente forma

similar al ANOVA de un factor

gl 1)-IJ(N 1)-1)(J-(I 1)-(J 1)-(I 1)-(IJN

SCR SCint 2 SCF 1 SCF SCT

ijk

2).ij

Xijk

X(

ij

...)X.j.

X..X.ij

X(N

j

2...)X.j.

X(IN

i

2...)X..i

X(JN

ijk

2...)Xijk

X(

La significación de cada factor se obtiene calculando el cociente

CMR

CMF

GLRSCR

GLFSCFFc

tivo significaNo GLR,GLFF

nivel al ivosignificat GLR,GLFF

10.2.7. Comparación de Medias. Test L.S.D.

Si algún factor resulta significativo podrá determinarse entre que variantes hay

diferencias significativas comparando la diferencia de medias con la L.S.D. ó DMS


-285-

bCMRQDMS glr,a

a = nº de medias a comparar entre si (nº de variantes del factor).

b = nº de datos con que se calculó cada una de las medias anteriores.

EJEMPLO:

En una experiencia para analizar la influencia de un nuevo catalizador en dos

métodos A y B de síntesis de un producto orgánico, se ensayaron 4 dosis de

catalizador. Con cada una de las 8 combinaciones - tratamientos - dosis x método se

realizaron tres experiencias.

Los resultados, expresados en gr. de producto obtenido con la misma cantidad de

materia prima en 1 hora, se recogen en la tabla siguiente:

Dosis de catalizador (mg.)

Método/Do

sis 0’75 1 1’25 1’50

A

68 91 90 105

60 75 98 95

62 86 94 99

B

60 72 64 48

45 71 75 55

66 60 70 50

Solución

El modelo es:

ijkijjiijk )(X

0)(

0)(

0

0

j

ij

i

ij

j

i

),0(Nijk independientes.


-286-

Cuadro resumen del análisis de la varianza

O.V. SC GL CM Fc Ft

Total 7096’96 23

Catalizado

r 1535’13 3 511’71 12’39 **29'5F 01'0

16'3

Método 3432’04 1 3432’04 83’12 **53'8F 01'016'1

Interacción

CxM 1469’13 3 489’71 11’86 **29'5F 01'016'3

Error 660’66 16 41’29

Son significativos todos los efectos al 99 % (p < 0'01)

Interpretación de Resultados

a) La interacción es significativa, luego no existe una concentración de catalizador

óptima. La concentración de 1'50, que con el método A da el rendimiento promedio

máximo (99'67 gr), con el método B da el mínimo rendimiento promedio (51 gr).

Luego habrá que estudiar el efecto del catalizador en cada uno de los métodos.

Interaction Plot

dosis

rendim

iento

me todo

A

B

51

61

71

81

91

101

0,75 1 1,25 1,50


-287-

b) No obstante, el método A presenta para cada concentración del catalizador, un

rendimiento mayor que el método B. Por ello sería conveniente la utilización del

catalizador sólo en el método A, y preferiblemente, a la dosis máxima.

10.2.8. Validación del modelo

Para validar el modelo del análisis de la varianza, debemos comprobar que se

cumplen la hipótesis que se hacen de los residuos. Es decir, que son normales, con

media cero, varianza igual para todas las poblaciones, y que los residuos son

independientes.

Por tal motivo debemos examinar los distintos gráficos de los residuos y, si no

observamos ningún comportamiento sistemático, quiere decir que podemos aceptar

la hipótesis del residuo y por lo tanto aceptar el modelo del análisis de la varianza.

10.2.9. Igualdad de las varianzas

Una forma sencilla para contrastar la igualdad de varianzas de las distintas

poblaciones es hacer el mismo análisis de la varianza pero dando como variable

dependiente el cuadrado del residuo del ANOVA con los datos originales.

Si con este ANOVA los factores no tienen significación, quiere decir que se

cumple la hipótesis nula de igualdad de las varianzas de todas las poblaciones.

Aplicando esta técnica al ejemplo anterior con dos factores, los resultados son:

Análisis de la Varianza paraRESIDUALS^2 - Sumas de Cuadrados de Tipo III

--------------------------------------------------------------------------------

Fuente Suma de cuadrados GL Cuadrado Medio Cociente-F P-Valor

--------------------------------------------------------------------------------

EFECTOS PRINCIPALES

A:Dosis 4517,83 3 1505,94 1,61 0,2261

B:Método 1040,17 1 1040,17 1,11 0,3071

INTERACCIONES

AB 6163,02 3 2054,34 2,20 0,1280

RESIDUOS 14953,9 16 934,616

--------------------------------------------------------------------------------

TOTAL (CORREGIDO) 26674,9 23

--------------------------------------------------------------------------------

Los cocientes F están basados en el error cuadrático medio residual.


-288-

Como todos los p-values son superiores a 0,05, no hay ningún efecto

significativo y eso quiere decir que las varianzas de todas las poblaciones son

iguales.

10.2.10. Estimación de los efectos

El efecto i viene dado por

-ii

Su estimación es:

xxˆii -

El efecto de la interacción entre dos factores es:

)()( jiijij -

Y su estimación es,

)ˆˆx(x)( jiijij

^

-

Para el ejemplo anterior, la tabla de las medias es,

Tabla de Medias por mínimos cuadrados para Rendimiento

con 95,0 Intervalos de confianza

--------------------------------------------------------------------------------

Error Límite Límite

Nivel Frecuencia Media Estándar Inferior Superior

--------------------------------------------------------------------------------

Media Total 24 73,2917

Dosis

0,75 6 60,1667 2,62335 54,6054 65,7279

1 6 75,8333 2,62335 70,2721 81,3946

1,25 6 81,8333 2,62335 76,2721 87,3946

1,5 6 75,3333 2,62335 69,7721 80,8946

Método

A 12 85,25 1,85499 81,3176 89,1824

B 12 61,3333 1,85499 57,4009 65,2657

Dosis según Método

0,75 A 3 63,3333 3,70997 55,4685 71,1981

0,75 B 3 57,0 3,70997 49,1352 64,8648

1 A 3 84,0 3,70997 76,1352 91,8648

1 B 3 67,6667 3,70997 59,8019 75,5315

1,25 A 3 94,0 3,70997 86,1352 101,865

1,25 B 3 69,6667 3,70997 61,8019 77,5315

1,5 A 3 99,6667 3,70997 91,8019 107,531

1,5 B 3 51,0 3,70997 43,1352 58,8648

--------------------------------------------------------------------------------

Por ejemplo, la estimación del efecto A , es,


-289-

96,1129,7325,85xxˆAA --

Esto significa que cuando tomamos el método A, por término medio, con

respecto a la media general, la variable observada aumenta con 11,96.

El efecto de 25,1

54,829,7383,81xxˆ25,125,1 --

El efecto de la interacción es,

21,0)54,896,1129,73(0,94)ˆˆx(x)( 25,1A25,1;A25,1;A

^

--

10.2.11. Predicciones

Si por ejemplo hemos comprobado que la mejor combinación de los factores es el

nivel i para el factor A y el nivel j para el factor B, la predicción de la media de los

resultados con esa combinación de los factores,

ij

^

jiij )(ˆˆˆˆ

El error de predicción viene dado por el CMresidual , es decir, la varianza del

residuo.

En el ejemplo anterior, cuando el método sea el A y la dosis sea 1,25, la

predicción del valor medio es,

21,054,896,1129,73)(ˆˆˆˆ25,1;A

^

25,1A25,1;A =94

Como la varianza residual es de CMresidual =41,29, un intervalo de

confianza para el valor medio con esas condiciones es,

]27,101;73,86[27,7943

29,41·96,194

Con un nivel de confianza del 95%, y donde 3 es el número de datos con los

que se ha calculado la media de 94.


-290-

10.3. PROBLEMAS Y CUESTIONES DE EXAMEN

10.3.1. Para evaluar la actuación que el gobierno está teniendo en el caso Bankia, se

ha realizado una encuesta a un total de 261 ciudadanos de ambos sexos en cinco

ciudades diferentes, donde cada ciudadano ha puntuado de 1 a 10 la actuación del

Gobierno. A los datos obtenidos se les ha aplicado un ANOVA de dos factores con

interacciones cuyos resultados más relevantes se muestran a continuación:

Analysis of Variance for PUNTUACION/100 - Type III Sums of Squares

--------------------------------------------------------------------------------

Source Sum of Squares Df Mean Square F-Ratio P-value(APROXIMADO)

--------------------------------------------------------------------------------

MAIN EFFECTS

A:CIUDAD 124,595 4 ---- ---- ----

B:SEXO 6,23191 1 ---- ---- ----

INTERACTIONS

AB 4,73289 4 ---- ---- ----

RESIDUAL 833,325 ---- 3,32002

--------------------------------------------------------------------------------

TOTAL 1061,3 260

Intervalos al 95% para las medias

CIUDAD

PU

NT

UA

CIÓ

N

1 2 3 4 5

1,8

2,8

3,8

4,8

5,8


-291-

1) Completar la tabla ANOVA

Analysis of Variance for PUNTUACION/100 - Type III Sums of Squares

--------------------------------------------------------------------------------

Source Sum of Squares Df Mean Square F-Ratio P-Value

--------------------------------------------------------------------------------

MAIN EFFECTS

A:CIUDAD 124,595 4 31,1488 9,38 0,0000

B:SEXO 6,23191 1 6,23191 1,88 0,1719

INTERACTIONS

AB 4,73289 4 1,18322 0,36 0,8395

RESIDUAL 833,325 251 3,32002

--------------------------------------------------------------------------------

TOTAL 1061,3 260

--------------------------------------------------------------------------------

2) ¿Qué efectos son significativos con α=0,05

a) Sexo, ciudad e interacción

b) Sexo y ciudad

c) Solo sexo

d) Solo ciudad (p-valor <0,05)

3) ¿Qué ciudad o ciudades presentan diferencias significativas con α=0,05

a) 2, 3 y 4

b) 1 respecto de las demás

Gráfico de interacciones

CIUDAD

PUNTUACIÓN SEXO

H M

2,2

3,2

4,2

5,2

6,2

1 2 3 4 5


-292-

c) 5 respecto de las demás (único intervalo que no se solapa con el

resto)

d) 1 y 2

4) En qué ciudad o ciudades presentan diferencias significativas las

puntuaciones de ambos sexos

a) En la 5

b) En la 2,3 y 4

c) En la 1

d) En ninguna (ya que la interacción no es significativa por lo que las

medias son iguales en todas las ciudades. No son significativamente

diferentes)

10.3.2. Se ha recogido la valoración de un líder político en dos ciudades distintas 1 y

2 (Factor A), dividida cada una en tres barrios según su nivel adquisitivo (Alto,

Medio y Bajo) (Factor B). Parece que el método más indicado para ver si existe

influencia de estos dos factores sobre dicha valoración es un Análisis de la

Varianza:

a) Los resultados obtenidos con el Statgraphics han sido estos ¿qué conclusiones

obtenemos?

--------------------------------------------------------------------------------


--------------------------------------------------------------------------------

MAIN EFFECTS

A:Ciudad 60,8444 1 60,8444 21,37 0,0000

B:Nivel 84,6889 2 42,3444 14,87 0,0000

INTERACTIONS

AB 29,4889 2 14,7444 5,18 0,0076

RESIDUAL 239,2 84 2,84762

--------------------------------------------------------------------------------

TOTAL (CORRECTED) 414,222 89

--------------------------------------------------------------------------------

b) A la vista de las gráficas siguientes y, teniendo en cuenta las conclusiones

obtenidas en el apartado anterior, determinar cuál es la ciudad en la que se tiene una


-293-

valoración más alta del líder político y qué nivel adquisitivo tienen, justificando en qué

gráficas has obtenido dichas conclusiones y porqué.

Means and 95,0 Percent LSD Intervals

Nivel

Va

lora

ció

n

A B M

2,8

3,8

4,8

5,8

6,8


Ciudad

Va

lora

ció

n

1 2

3,3

3,8

4,3

4,8

5,3

5,8


-294-

10.3.3. En una fábrica de botellas de plástico se quiere decidir qué producto resulta

más resistente. Para ello se supone que tanto el tipo de plástico utilizado como

materia prima, como el volumen de las botellas, pueden afectar a dicha

resistencia. Se estudiaron tres tipos de plástico, (A;B;C) y 4 volúmenes diferentes

(0,75; 1; 1,25 y 1,5), midiendo la resistencia de 3 botellas elegidas al azar para

cada posible combinación de tipo de plástico y volumen (se analizaron 36 botellas

en total).

a) Completar la tabla del ANOVA de dos factores que resultó de dicho

experimento (1 puntos):

Fuente SC Gl CM Fc

Plástico 2287,17 2 1143,585 42´929

Volúmen 1613,64 3 537,88 20´191

Plástico x Volúmen 2284,61 6 380,7683 14´294

Residual 639,33 24 26´639

Total 6824,75 35

b) En vista de la tabla anterior, ¿qué se puede decir de la significación de los

efectos de los factores estudiados? ¿Qué significado tiene en este caso

concreto de estudio la interacción? Tomar α = 0.05 (0,5 puntos)

Para el plástico: Tc=42´929 > F tablas

ivosignificatEfectovalorPF 05,040305,0

24,2

Para el volumen: Tc=20´191 > F tablas

ivosignificatEfectovalorPF 05,001305,0

24,3

Interaction Plot

Ciudad

Va

lora

ció

nNivel

A

BM

3,1

4,1

5,1

6,1

7,1

1 2


-295-

Para la interacción:Tc=14´294 > F tablas

ivosignificatEfectovalorPF 05,051,201,0

24,6

El efecto significativo de la interacción puede interpretarse como que el efecto del

volumen no es el mismo en los tres tipos de plastic

A partir del gráfico de interacción, ¿qué combinación de tipo de plástico y volumen da

una botella más resistente? Si por motivos económicos el único tipo de plástico que

se puede utilizar es el C, ¿qué volumen de botella da una mayor resistencia?

Mejor combinación (mayor resistencia) : Plástico A y Volumen 1,5 litros

Para el plástico C el volumen que ofrece mayor resistencia es de 1 litro

10.3.4. Una cooperativa agrícola vende tres tipos de fitoreguladores (A, B y C) para

regular el crecimiento de trigo. Para determinar cuál es el más efectivo, se

seleccionan al azar 12 parcelas de trigo con características similares. En tres de

ellas se aplica el fitoregulador A, en otras tres parcelas el fitoregulador B y en otras

seis, el C. En todos los casos, la aplicación se realiza por medio de un atomizador

a una dosis de 10 mg/ha. Los resultados obtenidos, medidos como longitud media

(mm) de 10 plantas seleccionadas al azar al cabo de 3 semanas de aplicación

(variable “longitud”) son los indicados en la tabla. Los datos se analizan con

ANOVA utilizando Statgraphics, obteniéndose el gráfico que se muestra a

continuación.

Gráfico de interacción

Volúmen

Re

sis

ten

cia

PlásticoABC

56

66

76

86

96

106

0,75 1 1,25 1,5

A

B

C


-296-


fitoregulador

longitud

A B C280

380

480

580

680

780

880

fitoregulador A fitoregulador B fitoregulador C

373 365 312 739 711 695 615 844 711

648 809 663

Práctica 2:

- ¿Cuál de las siguientes afirmaciones es correcta? (2,5

puntos)

a) A la vista de la gráfica se deduce que el p-valor del test del ANOVA es superior

a 0,05.

b) A la vista de la gráfica se deduce que el p-valor del test del ANOVA es inferior a

0,05.

c) A partir de la gráfica no es posible deducir ninguna de las dos respuestas

anteriores.

d) Depende del nivel de significación del test, el cual no se puede deducir del

gráfico.

Solución: los intervalos LSD se han construido con un nivel de confianza 1- =95%,

de modo que =0,05. Dado que los intervalos LSD no se solapan significa que

alguna de las medias es significativamente distinta de las demás considerando

=0,05, por lo que se rechaza la hipótesis nula H0: mA=mB=mC. Consecuentemente,

p-valor< , de modo que la respuesta correcta es la b).

- Teniendo en cuenta que Ax =350, CB xx =750, ¿qué tipo de fitoregulador se

recomendaría para maximizar la longitud?

(2,5 puntos)

a) El de tipo B, ya que la longitud de su intervalo LSD es mayor que la de C lo cual

sugiere que tiene una mayor probabilidad de que se alcancen valores mayores de

longitud.

b) El de tipo C, ya que la longitud de su intervalo LSD es menor que el de B lo cual

sugiere que su desviación típica es menor.


-297-

c) El de tipo B ó C.

d) Cualquiera de los tres, ya que se acepta la hipótesis nula H0: mA=mB=mC.

Solución: la c) ya que se solapan sus intervalos LSD, por lo que debe aceptarse la

hipótesis de que mB=mC.

- Una de las hipótesis del ANOVA es que la población de datos de la variable longitud

se ajusta a un modelo Normal en cada uno de los tres fitoreguladores ensayados.

¿Cómo se podría verificar si esta hipótesis es admisible?

(2,5 puntos)

a) La hipótesis de normalidad es admisible dado que los intervalos LSD son

simétricos.

b) Habría que estudiar si los 12 datos de la tabla se ajustan bien a un modelo

Normal.

c) Habría que calcular los residuos del ANOVA y estudiar si éstos se ajustan bien a

un modelo Normal.

d) No hay suficientes datos para estudiar si el modelo Normal es admisible.

Solución: los intervalos LSD son siempre simétricos, por lo que la respuesta a) es

falsa. Dado que la media de A es significativamente menor que las otras dos,

tampoco es correcto utilizar directamente los 12 datos de la tabla, pues tenemos una

mezcla de dos poblaciones con distinta media. La respuesta correcta es la c), pues

hay técnicas que permiten estudiar si el modelo Normal es admisible aunque sólo

tengamos 12 datos.

10.3.5. Una industria química desea estudiar el efecto del tipo de catalizador y de la

concentración de un cierto aditivo denominado NCV en la calidad final del producto

elaborado. Para ello se ha diseñado un experimento ensayando tres catalizadores

diferentes: A, B y C (factor CAT) combinados con tres concentraciones de aditivo:

4, 5 y 6 (factor NCV). Cada uno de los nueve tratamientos se ensayó dos veces,

midiéndose en cada prueba un parámetro de calidad final (variable LAT). Tras la

realización del experimento y la recogida de datos se llevó a cabo un Análisis de la

Varianza cuya tabla resumen se muestra a continuación:

Analysis of Variance for LAT - Type III Sums of Squares

------------------------------------------------------------------

Source Sum of Squares Df Mean Square F-Ratio

------------------------------------------------------------------

MAIN EFFECTS

A:CAT 77,7733 ___ ________ _____

B:NCV _______ ___ 41,4867 _____


-298-

INTERACTIONS

AB _______ ___ ________ _____

RESIDUAL 16,56 ___ ________

------------------------------------------------------------------

TOTAL (CORRECTED) 250,52 ___

------------------------------------------------------------------

a) Completa la tabla resumen del ANOVA, indicando qué efectos son

estadísticamente significativos (α=0,05). Justificando la respuesta, así como los

cálculos realizados. (3,5 puntos)

Analysis of Variance for LAT - Type III Sums of Squares

------------------------------------------------------------------

Source Sum of Squares Df Mean Square F-Ratio

------------------------------------------------------------------

MAIN EFFECTS

A:CAT 77,7733 2 38,8866 21,13

B:NCV 82,9734 2 41,4867 22,55

INTERACTIONS

AB 73,2133 4 18,303 9,95

RESIDUAL 16,56 9 1,84

------------------------------------------------------------------

TOTAL (CORRECTED) 250,52 17

------------------------------------------------------------------

Respuesta: Dado que se han realizado 18 pruebas experimentales, el número de

grados de libertad totales será 18 – 1 = 17. Como en los dos factores hay dos niveles,

los grados de libertad de cada factor serán 3 – 1 = 2. La interacción doble tendrá 2 · 2

= 4 grados de libertad, y los residuales se obtienen por diferencia: Dfres = 17 – 2 – 2 –

4 = 9

Cuadrado medioNCV = suma de cuadrados / gr. Lib

41,4867 = SC / 2 SC = 82,9734

SCAB = SCtotal – SCCAT – SCNCV = 73,2133

Dividiendo las sumas de cuadrados por los grados de libertad se obtiene el cuadrado

medio. Dividiendo el cuadrado medio de un factor entre el cuadrado medio residual

se obtiene la F-ratio.

El F-ratio de CAT (21,13) y el F-ratio de NCV (22,5) superan el valor crítico (α=0,05)

de una F2;9 que vale 4,26. El F-ratio de la interacción (9,95) supera el valor crítico

(α=0,05) de una F4;9 que vale 3,63. Por tanto, el efecto simple de los dos factores y de

la interacción son estadísticamente significativos.

b) ¿Qué información aporta el siguiente gráfico? ¿Dicha información es coherente

con las conclusiones del apartado anterior? ¿Por qué? (2,5 puntos)


-299-

Respuesta: Este gráfico muestra los intervalos LSD (Least Significant Differences)

para el factor CAT, obtenidos con un nivel de confianza del 95%. A la vista del gráfico

se deduce que el valor medio de la variable LAT es significativamente distinto entre

los catalizadores A y el B, así como también entre B y C ya que sus intervalos LSD

no se solapan. Sin embargo, no hay diferencias significativas entre A y C porque sus

respectivos intervalos se solapan. Por tanto, se deduce que:

mB < (mA = mC)

La información deducida del gráfico es coherente con el hecho de que el factor CAT resulta estadísticamente significativo, pues ello indica que al menos uno de los catalizadores tendrá un valor medio significativamente distinto de los demás.

Soluciones

a) Los dos factores y la interacción son significativas (p-valor<0’05), lo que implica

que las ciudades y los distintos niveles adquisitivos valoran al político de diferente

manera.

La interacción significaría que los distintos niveles no valoran igual en las dos

ciudades.

b) Dado que la interacción es significativa no podemos mirar en los intervalos LSD ya

que nos dan los valores del factor sin tener en cuenta la relación con la otra variable.

Si miramos en la gráfica “Interaction Plot” vemos que la valoración más alta es en la

ciudad 1 con nivel adquisitivo Alto y Medio, que tienen idéntica valoración.

Si hubiéramos mirado en los LSD (que no es lo correcto aunque en este caso difieren

poco) sólo es la ciudad 1 con nivel alto.


ALG

LA

T

A B C

5,3

7,3

9,3

11,3

13,3

CAT


-300-

11. Regresión lineal

-301-

11. REGRESIÓN LINEAL

Contenido 11.1. HIPÓTESIS DEL MODELO ..................................................................... 301

11.2. ESTIMACIÓN DE LOS COEFICIENTES DE REGRESIÓN ..................... 303

11.3. CONTRASTES DE SIGNIFICACIÓN DE LOS COEFICIENTES .............. 305

11.4. VALIDACIÓN DEL MODELO ................................................................... 310

11.5. INTERVALOS DE PREDICCIÓN ............................................................. 313

11.6. BONDAD DE AJUSTE ............................................................................. 315


11.1. HIPÓTESIS DEL MODELO

Supongamos que tenemos la variable aleatoria bidimensional (X,Y) donde X es la

altura de una persona, Y es su peso, y a partir de una muestra de n personas,

quisiéramos predecir el peso de una de ellas conociendo su altura. Para ello

aplicamos un modelo de la forma Y=g(X), siendo la más sencilla la recta, de manera

que a la nube de puntos (X,Y) queremos ajustar la mejor recta que pase por todos

ellos.

El modelo teórico a aplicar es:

+X+=Y

donde es una variable normal de media 0 y de varianza . X es un valor fijo, y

, son los parámetros que definen la recta, que se llama recta de regresión.

Como es aleatorio, también Y será aleatorio con una distribución normal de

media:

+=)E(+X+=E(Y)

y varianza

222 =)(D=(Y)D

Téngase en cuenta que X+ representan aquí una constante.

Si para una altura determinada el valor medio del peso fuera siempre el

mismo, no habría interés en ajustar una recta a los puntos, puesto que el conocer X

no aporta nada para predecir el valor de Y. Esto significaría que el coeficiente de

correlación es cero y la recta de regresión es paralela al eje de las X.


-302-

En caso contrario, el coeficiente de correlación es distinto de cero, y puede

ser interesante ajustar una recta a la nube de puntos (X,Y). Gráficamente es:

Figura 11. 1. Distribuciones condicionales.

Para una X fijada, el conjunto de puntos de Y forman una campana de Gauss.

Los valores medios de dichas campanas se encuentran sobre la recta X+ y la

dispersión de cada campana es siempre la misma. A esta última propiedad se le

llama homocedásticidad.

La ecuación +X+=Y significa que, conocido X, podemos predecir un

valor de Y, excepto una cantidad residual , que llamamos error, la cual engloba la

influencia de todos los demás factores sobre la variable Y.

Los errores tienen que cumplir la condición de ser independientes. Esta

propiedad se expresa diciendo que los errores o residuos deben estar

incorrelacionados entre si.

Con todo ello las hipótesis del modelo

+X+=Y

son:

1) Para cada X, Y sigue una distribución normal de media X+ y de

varianza 2 .

2) sigue una distribución normal de media 0 y varianza 2 .


-303-

3) Los residuos están incorrelacionados.

4) Los residuos no siguen un comportamiento sistemático.

5) Los residuos no tienen valores anómalos.

Si queremos reducir el error de predicción, podemos introducir otra variable X2

de forma que haya una mejor explicación de la variable Y. En otros casos,

directamente queremos conocer la relación entre una variable dependiente Y, y dos o

más variables independientes X1 y X2. El modelo a aplicar es:

+X+X+=Y 2211

entonces se dice que el modelo es de regresión lineal múltiple.

Las hipótesis a añadir son:

6) Las variables X's son independientes entre si.

7) El número de datos es mayor que el número de variables X's.

11.2. ESTIMACIÓN DE LOS COEFICIENTES DE REGRESIÓN

Para una nube de puntos (X,Y) como el de la figura siguiente

X

Y

y

y

ie

Figura 11. 2. Recta de ajuste

la mejor recta de regresión es aquella que la suma de los cuadrados de los

segmentos verticales dibujados sea mínima. Dichos segmentos representan el error


-304-

entre el valor observado y un valor predicho. Esto es, conociendo un valor de X, el

valor predicho es:

X+=Y ˆ

y el error es

X--y=Y-Y= ˆ

que por término medio tendrá un valor al cuadrado de:

)X--E(y2

y debemos elegir los parámetros α y β de forma que

)X--E(Y mínimo2

Para ello hacemos

0=E

0;=E

y obtenemos los valores de y , a los cuales llamamos a y b, respectivamente.

Los valores que se obtienen son:

S

S=b

2xx

2xy

xb+a=y

Donde,

n

i

iixy yyxxS1

2 ))((

n

i

ixx xxS1

22 )(

En regresión lineal múltiple, por ejemplo, para dos variables, el modelo es

+X+X+=Y 22110

y la condición a cumplir es )X-X--E(Y mÍn2

22110 , y obtenemos unos valores

de b,b,b 210 , en función de los datos muestrales.


-305-

11.3. CONTRASTES DE SIGNIFICACIÓN DE LOS COEFICIENTES

Se observa que a y b, las estimaciones de y , son funciones de los datos

muestrales )y,x),...(y,x(),y,x(nn2211 , de manera que, para cada muestra de n

puntos extraída al azar, cambian los valores de a y b. En consecuencia, a y b son dos

variables aleatorias con sus medias y sus varianzas. Se demuestra que para el

estadístico a son:

=E(a)

)n-n( xx

x

=(a)D22

i

n

1=i

2i

n

1=i

2

2

y para el estadístico b son:

=E(b)

xx

=(b)D22

i

n

1=i

22

n-

siendo 2 la varianza residual, cuya estimación viene dada por:

2ˆ

n

e

=

2i

n

1=i2

Como 2 es desconocida, la sustituimos por

2 , a y b siguen distribuciones t

de Student de n-2 grados de libertad. Es decir:

t=D(a)

E(a)-a2-n


-306-

t=D(b)

E(b)-b2-n

o bien:

t=D(b)

-b ;t=

D(a)

-a2-n2-n

las primeras hipótesis que se plantean es si y son nulas o por el contrario

tienen un valor significativamente distinto de cero.

Para contrastar 0)=(H0 observamos la cantidad

D(a)

0-a

lo cual da un número. Si éste está dentro del campo de existencia de la t, al 95%,

decimos que no hay razón para rechazar que 0= .

Para contrastar 0)=(H o observamos la cantidad

D(b)

0-b

lo cual da otro número. Si éste se encuentra dentro del campo de existencia al 95%

de una t 2-n , decimos que no hay razón para rechazar que 0= .

En la práctica, el valor de D(b)

b se le llama t-value, y se calcula la probabilidad

de que una t 2-n sea, en módulo, mayor que la t-value. Si dicha probabilidad es menor

que 0,05, rechazamos la hipótesis nula de que el coeficiente es cero.

Simple Regression - Peso vs. Altura

Dependent variable: Peso

Independent variable: Altura

Linear model: Y = a + b*X


-307-

Coefficients

Least Squares Standard T

Parameter Estimate Error Statistic P-Value

Intercept -78,486 19,6355 -3,99714 0,0002

Slope 0,833335 0,110693 7,52833 0,0000

Analysis of Variance


Model 2815,93 1 2815,93 56,68 0,0000

Residual 2782,35 56 49,6848

Total (Corr.) 5598,28 57

Correlation Coefficient = 0,709224

R-squared = 50,2999 percent

R-squared (adjusted for d.f.) = 49,4124 percent

Standard Error of Est. = 7,04874

Mean absolute error = 5,20749

Durbin-Watson statistic = 2,12033 (P=0,6706)

Lag 1 residual autocorrelation = -0,0660485

The StatAdvisor

The output shows the results of fitting a linear model to describe the relationship between Peso and

Altura. The equation of the fitted model is

Peso = -78,486 + 0,833335*Altura

Since the P-value in the ANOVA table is less than 0,05, there is a statistically significant relationship

between Peso and Altura at the 95,0% confidence level.

The R-Squared statistic indicates that the model as fitted explains 50,2999% of the variability in Peso.

The correlation coefficient equals 0,709224, indicating a moderately strong relationship between the

variables. The standard error of the estimate shows the standard deviation of the residuals to be

7,04874. This value can be used to construct prediction limits for new observations by selecting the

Forecasts option from the text menu.


-308-

The mean absolute error (MAE) of 5,20749 is the average value of the residuals. The Durbin-Watson

(DW) statistic tests the residuals to determine if there is any significant correlation based on the order in

which they occur in your data file. Since the P-value is greater than 0,05, there is no indication of serial

autocorrelation in the residuals at the 95,0% confidence level.

En regresión lineal múltiple se actúa con el mismo criterio, pero además se

suele hacer un contraste de hipótesis de que todos los coeficientes de regresión son

nulos, esto es:

0)==(H 210

frente que al menos uno de ellos es distinto de cero. Para esto aplicamos un

procedimiento semejante al análisis de la varianza. Se calcula el valor de 2 por dos

procedimientos que veremos a continuación, y que bajo el supuesto de la hipótesis

0)==(H 210 , deben dar lo mismo, esto es, que el cociente:

1ˆ

ˆ22

21

Siempre el numerador va a ser mayor que el denominador, y en caso de que

ese cociente sea muy elevado, eso es indicio de que al menos un coeficiente de

regresión es distinto de cero.

Figura 11. 3. Valores predichos

1

)y-y(

=

2

i

n

1=i21

ˆ

ˆ


-309-

2-n

)y-y(

=

2

ii

n

1=i22

ˆ

ˆ

y el cociente de varianzas sigue una F de 1 y n-2 grados de libertad.

Multiple Regression - Peso

Dependent variable: Peso

Independent variables:

Altura

Edad

Sexo=2

Standard T


CONSTANT -101,667 36,5018 -2,78526 0,0074

Altura 0,621629 0,144015 4,31641 0,0001

Edad 3,3533 1,18711 2,82477 0,0066

Sexo=2 -7,22088 3,53274 -2,04399 0,0458



Model 3434,97 3 1144,99 28,58 0,0000

Residual 2163,31 54 40,0613

Total (Corr.) 5598,28 57






-310-


Lag 1 residual autocorrelation = -0,081475

The StatAdvisor

The output shows the results of fitting a multiple linear regression model to describe the relationship

between Peso and 3 independent variables. The equation of the fitted model is

Peso = -101,667 + 0,621629*Altura + 3,3533*Edad - 7,22088*Sexo=2

Since the P-value in the ANOVA table is less than 0,05, there is a statistically significant relationship

between the variables at the 95,0% confidence level.

The R-Squared statistic indicates that the model as fitted explains 61,3576% of the variability in Peso.

The adjusted R-squared statistic, which is more suitable for comparing models with different numbers of

independent variables, is 59,2108%. The standard error of the estimate shows the standard deviation of

the residuals to be 6,3294. This value can be used to construct prediction limits for new observations by

selecting the Reports option from the text menu. The mean absolute error (MAE) of 4,85517 is the

average value of the residuals. The Durbin-Watson (DW) statistic tests the residuals to determine if there

is any significant correlation based on the order in which they occur in your data file. Since the P-value is

greater than 0,05, there is no indication of serial autocorrelation in the residuals at the 95,0% confidence

level.

In determining whether the model can be simplified, notice that the highest P-value on the independent

variables is 0,0458, belonging to Sexo=2. Since the P-value is less than 0,05, that term is statistically

significant at the 95,0% confidence level. Consequently, you probably don't want to remove any

variables from the model.

11.4. VALIDACIÓN DEL MODELO

Aparte de contrastar las hipótesis nulas de que los coeficientes de regresión son cero

o no, hay que comprobar las hipótesis del modelo acerca de los residuos. Esto es:

1) Son normales

2) Media cero.

3) Varianza constante.

4) Incorrelacionados.

5) No hay valores anómalos.

1) Normalidad

Para comprobar la normalidad de los residuos se realiza un gráfico probabilístico

normal, como el de la figura siguiente:


-311-

Normal Probability Plot

-13 -8 -3 2 7 12 17

RESIDUALS

0,1

1

5

20

50

80

95

99

99,9

perc

en

tag

e

Figura 11. 4. Test de ajuste a una normal.

Si los puntos están situados sobre una recta, decimos que los datos se

ajustan a una distribución normal.

2) Media cero

Se puede calcular el intervalo de confianza del residuo. Si el intervalo de confianza al

95% incluye al 0, decimos que la media es 0 con un nivel de significación del 5%.

3) Varianza constante

Para ello realizamos un gráfico de dispersión de ei frente a x. Por ejemplo, si el

gráfico fuera como el de la figura siguiente:

Figura 11. 5.Varianza no constante


-312-

se observa que a medida que aumenta X, aumenta la dispersión, lo que contradice la

hipótesis de homocedásticidad del modelo.

4) Autocorrelación

Por ejemplo, si el gráfico de ei frente a x es como el de la figura siguiente:

Figura 11. 6. Residuos en función de x

significa que los residuos están correlacionados, ya que primero son negativos, luego

positivos, negativos, etc.. Es decir, no hay independencia de los residuos.

Este caso particular corresponde a una situación en que la nube de puntos

(X,Y) tiene la forma de una parábola, pero se ha ajustado una recta, tal como en la

figura de abajo:

Figura 11. 7. Falta de ajuste

En general, las gráficas de residuos no tienen que mostrar ningún


-313-

comportamiento sistemático.

5) Valores anómalos

Se pueden determinar dibujando los residuos en función de x, y observando aquellos

puntos que sean muy extremos, tanto por arriba, como por abajo de la media.

También se pueden estandarizar los residuos, y observar aquellos cuyos valores

sean más de 3 en módulo.

11.5. INTERVALOS DE PREDICCIÓN

Una vez que el modelo ha pasado la etapa de validación, se puede emplear para

realizar predicciones de y0, conociendo un valor de x0 . Se pueden efectuar dos tipos

de predicciones:

a) Dado un valor de x0 , ¿cuánto vale por término medio el valor de y0? Es

una predicción para la media de y0.

b) Dado un valor de x0 , ¿cuánto vale el valor de y0? Es una predicción

para un valor puntual de y0.

Para el segundo caso habrá una mayor imprecisión que para el primero,

puesto que resulta más difícil predecir un valor puntual, que una media, en donde los

valores altos y bajos se pueden compensar.

El intervalo de predicción para la media de y0 es:

s

)xx(+

n

1t + x b+a

xx

2

02/2n20

ˆ

y para un valor puntual es:

s

)xx(+

n

1+1t + bx+a

xx

2

02/2n20

ˆ

donde

)xx(=S2

i

n

1=i

xx


-314-

Gráficamente, los límites superior e inferior de dichos intervalos forman unas

curvas alrededor de la recta de regresión, tal como se presenta en la figura siguiente:

Plot of Fitted Model

Peso = -78,486 + 0,833335*Altura

150 160 170 180 190 200

Altura

45

55

65

75

85

Peso

Fi

gura 11. 8. Intervalos de predicción.

Las curvas mas interiores corresponden a la predicción de un valor medio de

Y, y las mas exteriores, a un valor puntual de Y.

Cuando X coincide con x , la amplitud de los intervalos es mínima, tal y como

se observa en la figura 11.8, y se corresponde con las fórmulas.


-315-

Plantear el

problema

Formular el

modelo

y=a+bx+e

Calcular

coeficientes

Validación del

modelo

Ok?

Previsión y control

NO

SI

Figura 11. 9. Formulación de modelos de regresión

11.6. BONDAD DE AJUSTE

Para dos modelos de regresión que cumplan las hipótesis, )cuál de los dos es el

mejor? o bien para uno de ellos, )cuánto de bien se ajustan los datos al modelo?

Para determinar el grado de ajuste de los puntos se calcula el coeficiente de

determinación R2 , el cual viene dado por:

total cuadrados de suma

residual cuadrados de suma1=R

2

Cuánto más se ajuste a 100% el R2 , mejor será el ajuste de los datos al

modelo.


-316-

Si introducimos otra variable al modelo, el valor de R2 siempre aumenta, pero

puede ser que la aportación de la nueva variable no sea significativa. Por ello se

calcula el R2 ajustado, el cual es:

2Y

22adjus. 1=

var.total

alvar.residu1=R

el cual penaliza la introducción de nuevas variables, y en caso de no ser

significativas, disminuye el valor de R2adju.

# Método del incremento de la suma de cuadrados

Modelo 1 (más sencillo)

+x+=y 110

Suma de cuadrados:

SCR+SCE=SCT 111

Modelo 2 (más completo)

+x+x+=y 22110

Suma de cuadrados

SCR+SCE=SCT 222

Incremento de la suma de cuadrados SCR-SCR=SCR 21

El modelo 2 es mejor que el 1 si:

F >

2g.l.modelo

SCR

1

SCR

2elomodg.l.1,2


-317-


11.7.1.- Se quiere estudiar la relación existente entre la renta, en millones de euros,

para diferentes provincias españolas y el número de automóviles y motocicletas (en

miles de unidades) en las mismas. Para ello se tienen para cada provincia la

relación de automóviles y motocicletas así como su renta media.

Los resultados obtenidos mediante regresión se muestran a continuación.

Análisis de Regresión Múltiple

-----------------------------------------------------------------------------

Variable dependiente: RENTA_PROV

-----------------------------------------------------------------------------

Error Estadístico

Parámetro Estimación estándar T P-Valor

-----------------------------------------------------------------------------

CONSTANTE 6343.96 1127.17 5.62823 0.0000

AUTOMOVIL 0.610523 0.024924 24.4954 0.0000

MOTOS 0.110201 0.0565941 1.94722 0.0575

-----------------------------------------------------------------------------

Análisis de Varianza

-----------------------------------------------------------------------------

Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor

-----------------------------------------------------------------------------

Modelo 9.02343E10 2 4.51172E10 1537.11 0.0000

Residuo 1.37954E9 47 2.9352E7

-----------------------------------------------------------------------------

Total (Corr.) 9.16139E10 49

R-cuadrado = 98.4942 porcentaje

R-cuadrado (ajustado para g.l.) = 98.4301 porcentaje

Error estándar de est. = 5417.75

Error absoluto medio = 3469.87

Estadístico de Durbin-Watson = 2.29066 (P=0.1528)

Autocorrelación residual en Lag 1 = -0.153461


-318-

Con los resultados anteriores y un nivel de significación de un 5%

1. ¿Cuáles son las variables que presentan una influencia significativa sobre el nivel

de renta provincial? (2,5 puntos)

a) AUTOMOVIL y MOTOS

b) AUTOMOVIL

c) MOTOS

d) El modelo no es significativo

2. El coeficiente de determinación del modelo representado tiene un valor de: (2,5

puntos)

a) -0.153461

b) 98.4942

c) 6343.96

d) 1537.11

3. Empleando el modelo completo ¿ cuál es el valor esperado de la renta provincial

si AUTOMOVIL=1000 y MOTOS= B=500? (2,5 puntos)

a) 6343.96

b) 7505.533

c) 7009.5835

d) 55.1005

4. La estimación del parámetro AUTOMOVIL representa: (2,5 puntos)

a) Incremento medio en el valor esperado de la renta provincial por cada coche

que se matricula manteniendo constante el resto de variables independientes.

b) Incremento medio en el valor esperado de la renta provincial por cada mil

coches que se matriculan manteniendo constante el resto de variables

independientes.

c) Incremento en el valor esperado de la renta provincial por cada mil coches

que se matriculan manteniendo constante el resto de variables independientes


-319-

d) Incremento en el valor esperado de la renta provincial por cada coche que se

matricula sin matricularse ninguna moto.

11.7.2.- La relación que existe entre la potencia de un coche (horsepower) y su

consumo (mpg) y su país de procedencia se ha estudiado a través de un modelo de

regresión como el que se ve en la siguiente salida del statgraphics:

-----------------------------------------------------------------------------

Dependent variable: horsepower

-----------------------------------------------------------------------------

Standard T


-----------------------------------------------------------------------------

CONSTANT 161,85 6,75849 23,9477 0,0000

mpg -2,56657 0,196964 -13,0306 0,0000

Pais 1,43398 2,909 0,492947 0,6228

-----------------------------------------------------------------------------


-----------------------------------------------------------------------------


-----------------------------------------------------------------------------

Model 55446,7 2 27723,3 121,33 0,0000

Residual 33589,4 147 228,499

-----------------------------------------------------------------------------

Total (Corr.) 89036,1 149






Lag 1 residual autocorrelation = 0,26547


-320-

1) ¿De qué términos depende de forma significativa para un valor de α=0,05 la

variable dependiente? Justifica la respuesta (0,50 puntos)

a) Contante, mpg, país

x b) Constante, mpg porque sus P-valores son menores q ue 0,05

c) País

d) La dependencia nos la da la R-squared.

2) ¿Cuánto vale el coeficiente de determinación? (0,50 puntos)

a) Lo obtenemos de la tabla del análisis de la varianza y nos lo da el p-value

indicándonos que como es menos que 0’05 el modelo es válido.

b) Lo obtenemos de la tabla del análisis de la varianza y se calcula como la raíz

cuadrada de la SCE/SCT y vale 15,1162

x c) Lo obtenemos de la tabla del análisis de la varianza y se calcula como la

SCE/SCT por 100 y vale 62,2744%

d) Nos lo da la tabla del análisis de la varianza y es el valor F-Ratio 121,33 que al ser

tan grande significa que el modelo es válido.

11.7.3.- Se estudia la relación entre la composición de un cemento tipo Portland y el

calor desprendido durante la fase de fraguado. Para ello se midió la cantidad de calor

desprendido en calorías por gramos de cemento junto con las variables que se

pensaba podían tener influencia sobre el calor desprendido A, B y C que representan

el contenido en porcentaje de tres productos.

Los resultados se obtenidos se muestran a continuación.


-321-


-----------------------------------------------------------------------------

Variable dependiente: Calor

-----------------------------------------------------------------------------

Error Estadístico


-----------------------------------------------------------------------------

CONSTANTE 48,1936 3,9133 12,3153 0,0000

A 1,69589 0,204582 8,28954 0,0000

B 0,656915 0,0442342 14,8508 0,0000

C 0,250018 0,184711 1,35356 0,2089

-----------------------------------------------------------------------------


-----------------------------------------------------------------------------


-----------------------------------------------------------------------------

Modelo 2667,65 3 889,217 166,34 0,0000

Residuo 48,1106 9 5,34562

-----------------------------------------------------------------------------

Total (Corr.) 2715,76 12

R-cuadrado = 98,2285 porcentaje

R-cuadrado (ajustado para g.l.) = 97,638 porcentaje

Error estándar de est. = 2,31206

Error absoluto medio = 1,57588

Estadístico de Durbin-Watson = 2,11016 (P=0,3638)

Autocorrelación residual en Lag 1 = -0,116306


-322-


-----------------------------------------------------------------------------

Variable dependiente: Calor

-----------------------------------------------------------------------------

Error Estadístico


-----------------------------------------------------------------------------

CONSTANTE 52,5773 2,28617 22,998 0,0000

A 1,46831 0,121301 12,1047 0,0000

B 0,66225 0,0458547 14,4424 0,0000

-----------------------------------------------------------------------------


-----------------------------------------------------------------------------


-----------------------------------------------------------------------------

Modelo 2657,86 2 1328,93 229,50 0,0000

Residuo 57,9045 10 5,79045

-----------------------------------------------------------------------------

Total (Corr.) 2715,76 12

R-cuadrado = 97,8678 porcentaje

R-cuadrado (ajustado para g.l.) = 97,4414 porcentaje

Error estándar de est. = 2,40634

Error absoluto medio = 1,90933

Estadístico de Durbin-Watson = 1,92164 (P=0,4717)

Autocorrelación residual en Lag 1 = -0,054504


-323-

A. El coeficiente de determinación del modelo matemático más adecuado tiene un

valor de: (0,25 puntos)

a. 2,40634

b. 97,638

c. 2,31206

d. 97,4414 Cuando se comparan modelos se usa el R-cuadrado

(ajustado para gl)

B. La ecuación matemática que se debería utilizar para predecir el valor del calor

desprendido en la fase de fraguado es: (0,25 puntos)

a. Calor=48,1936+0,656915B+1,69589A

b. Calor=52,5773+0,66225B+1,46831A (el coeficiente de C no es

significativo)

c. Calor=48,1936+0,250018C+0,656915B+1,69589A

d. Ninguno de los anteriores

C. La estimación del parámetro A representa: (0,25 puntos)

a. Decremento medio en el valor del calor por cada unidad que aumenta

el parámetro A

b. Incremento medio en el valor del calor por cada unidad que

aumenta el parámetro A manteniendo constante el resto de

variables independientes.

c. Incremento medio en el valor del calor por cada unidad que aumenta el

parámetro A

d. Ninguna de los anteriores

D. Qué valor obtendríamos del calor desprendido si A=11, B=56 y C=8 (0,25

puntos)

103,63563

a. 105,81471 (sustituyéndolas variables significativas en el modelo

segundo que es el apropiado)


-324-

b. 106,45871

c. 105,635774

11.7.4.- Para estudiar a qué se debe la variabilidad obtenida en función del tipo de

fitoregulador, se analiza en laboratorio la composición de cada un de ellos y se

encuentra que su composición es muy similar, pero difieren en la concentración de

una hormona de crecimiento vegetal denominada auxina (variable “conc”). El

fitoregulador A contiene 10 g/l de auxina, el de tipo B contiene 40 g/l y el de tipo C, 20

g/l. El efecto de la concentración sobre la longitud obtenida (datos de la tabla anterior)

se analiza con regresión lineal múltiple, obteniéndose los siguientes resultados:

Multiple Regression Analysis

-----------------------------------------------------------------------------

Dependent variable: longitud

-----------------------------------------------------------------------------

Standard T


-----------------------------------------------------------------------------

CONSTANT -258,333 125,178 -2,06372 0,0691

conc 73,0 11,1942 6,52125 0,0001

conc^2 -1,21667 0,211749 -5,7458 0,0003

-----------------------------------------------------------------------------


-----------------------------------------------------------------------------


-----------------------------------------------------------------------------

Model 299756,0 2 149878,0 29,40 0,0001

Residual 45876,0 9 5097,33

-----------------------------------------------------------------------------

Total (Corr.) 345632,0 11



-325-




Teniendo en cuenta los resultados del modelo de regresión, ¿qué concentración de

auxina deberá tener el fitoregulador para maximizar la longitud, bajo las condiciones

del experimento? Considerar =0,05. (2,5 puntos)

a) conc = 20

b) conc = 30

c) conc = 40

d) conc = 20 o bien conc = 40

e) ninguna de las anteriores

Solución: las dos variables del modelo son estadísticamente significativas ya que su p-

valor es menor a 0,05. La ecuación resultante será: Longitud = –258,333 + 73 conc –

1,217 conc2

Para determinar el máximo relativo de esta ecuación, hay que derivar e igualar a

cero:

d(long)/dc = 73 –2 · 1,217 conc = 0 conc = 73/(2·1,217) = 30 g/l.


-326-

Anexo A

-327-

ANEXO A. Tablas de las principales distribuciones de probabilidad

DISTRIBUCIÓN DE POISSON .......................................................................................... 328

DISTRIBUCIÓN NORMAL TIPIFICADA ............................................................................ 331

DISTRIBUCIÓN 2

n DE PEARSON .................................................................................. 332

DISTRIBUCIÓN t de Student ............................................................................................ 335

DISTRIBUCIÓN F de snedecor ......................................................................................... 338

Anexo A

-328-

DISTRIBUCIÓN DE POISSON

c

i

i

!i

e)cX(P

0

0 1 2 3 4 5 6 7 8 9 10

c=0 c=1 c=2 c=3 c=4 c=5 c=6 c=7 c=8

0,02 0,9802 0,9998 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000

0,04 0,9608 0,9992 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000

0,06 0,9418 0,9983 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000

0,08 0,9231 0,9970 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000

0,10 0,9048 0,9953 0,9998 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000

0,15 0,8607 0,9898 0,9995 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000

0,20 0,8187 0,9825 0,9989 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000

0,25 0,7788 0,9735 0,9978 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000

0,30 0,7408 0,9631 0,9964 0,9997 1,0000 1,0000 1,0000 1,0000 1,0000

0,35 0,7047 0,9513 0,9945 0,9995 1,0000 1,0000 1,0000 1,0000 1,0000

0,40 0,6703 0,9384 0,9921 0,9992 0,9999 1,0000 1,0000 1,0000 1,0000

0,45 0,6376 0,9246 0,9891 0,9988 0,9999 1,0000 1,0000 1,0000 1,0000

0,50 0,6065 0,9098 0,9856 0,9982 0,9998 1,0000 1,0000 1,0000 1,0000

0,55 0,5769 0,8943 0,9815 0,9975 0,9997 1,0000 1,0000 1,0000 1,0000

0,60 0,5488 0,8781 0,9769 0,9966 0,9996 1,0000 1,0000 1,0000 1,0000

0,65 0,5220 0,8614 0,9717 0,9956 0,9994 0,9999 1,0000 1,0000 1,0000

0,70 0,4966 0,8442 0,9659 0,9942 0,9992 0,9999 1,0000 1,0000 1,0000

0,75 0,4724 0,8266 0,9595 0,9927 0,9989 0,9999 1,0000 1,0000 1,0000

0,80 0,4493 0,8088 0,9526 0,9909 0,9986 0,9998 1,0000 1,0000 1,0000

0,85 0,4274 0,7907 0,9451 0,9889 0,9982 0,9997 1,0000 1,0000 1,0000

0,90 0,4066 0,7725 0,9371 0,9865 0,9977 0,9997 1,0000 1,0000 1,0000

1,00 0,3679 0,7358 0,9197 0,9810 0,9963 0,9994 0,9999 1,0000 1,0000

1,10 0,3329 0,6990 0,9004 0,9743 0,9946 0,9990 0,9999 1,0000 1,0000

1,20 0,3012 0,6626 0,8795 0,9662 0,9923 0,9985 0,9997 1,0000 1,0000

1,30 0,2725 0,6268 0,8571 0,9569 0,9893 0,9978 0,9996 0,9999 1,0000

1,40 0,2466 0,5918 0,8335 0,9463 0,9857 0,9968 0,9994 0,9999 1,0000

1,50 0,2231 0,5578 0,8088 0,9344 0,9814 0,9955 0,9991 0,9998 1,0000

1,60 0,2019 0,5249 0,7834 0,9212 0,9763 0,9940 0,9987 0,9997 1,0000

1,70 0,1827 0,4932 0,7572 0,9068 0,9704 0,9920 0,9981 0,9996 0,9999

1,80 0,1653 0,4628 0,7306 0,8913 0,9636 0,9896 0,9974 0,9994 0,9999

1,90 0,1496 0,4337 0,7037 0,8747 0,9559 0,9868 0,9966 0,9992 0,9998

2,00 0,1353 0,4060 0,6767 0,8571 0,9473 0,9834 0,9955 0,9989 0,9998

2,10 0,1225 0,3796 0,6496 0,8386 0,9379 0,9796 0,9941 0,9985 0,9997

2,20 0,1108 0,3546 0,6227 0,8194 0,9275 0,9751 0,9925 0,9980 0,9995

2,30 0,1003 0,3309 0,5960 0,7993 0,9162 0,9700 0,9906 0,9974 0,9994

2,40 0,0907 0,3084 0,5697 0,7787 0,9041 0,9643 0,9884 0,9967 0,9991

2,50 0,0821 0,2873 0,5438 0,7576 0,8912 0,9580 0,9858 0,9958 0,9989

2,60 0,0743 0,2674 0,5184 0,7360 0,8774 0,9510 0,9828 0,9947 0,9985

2,70 0,0672 0,2487 0,4936 0,7141 0,8629 0,9433 0,9794 0,9934 0,9981

2,80 0,0608 0,2311 0,4695 0,6919 0,8477 0,9349 0,9756 0,9919 0,9976

2,90 0,0550 0,2146 0,4460 0,6696 0,8318 0,9258 0,9713 0,9901 0,9969

3,00 0,0498 0,1991 0,4232 0,6472 0,8153 0,9161 0,9665 0,9881 0,9962

3,10 0,0450 0,1847 0,4012 0,6248 0,7982 0,9057 0,9612 0,9858 0,9953

3,20 0,0408 0,1712 0,3799 0,6025 0,7806 0,8946 0,9554 0,9832 0,9943

3,30 0,0369 0,1586 0,3594 0,5803 0,7626 0,8829 0,9490 0,9802 0,9931

3,40 0,0334 0,1468 0,3397 0,5584 0,7442 0,8705 0,9421 0,9769 0,9917

3,50 0,0302 0,1359 0,3208 0,5366 0,7254 0,8576 0,9347 0,9733 0,9901

3,60 0,0273 0,1257 0,3027 0,5152 0,7064 0,8441 0,9267 0,9692 0,9883

3,70 0,0247 0,1162 0,2854 0,4942 0,6872 0,8301 0,9182 0,9648 0,9863

3,80 0,0224 0,1074 0,2689 0,4735 0,6678 0,8156 0,9091 0,9599 0,9840

3,90 0,0202 0,0992 0,2531 0,4532 0,6484 0,8006 0,8995 0,9546 0,9815

4,00 0,0183 0,0916 0,2381 0,4335 0,6288 0,7851 0,8893 0,9489 0,9786

4,10 0,0166 0,0845 0,2238 0,4142 0,6093 0,7693 0,8786 0,9427 0,9755

4,20 0,0150 0,0780 0,2102 0,3954 0,5898 0,7531 0,8675 0,9361 0,9721

4,30 0,0136 0,0719 0,1974 0,3772 0,5704 0,7367 0,8558 0,9290 0,9683

4,40 0,0123 0,0663 0,1851 0,3594 0,5512 0,7199 0,8436 0,9214 0,9642

4,50 0,0111 0,0611 0,1736 0,3423 0,5321 0,7029 0,8311 0,9134 0,9597

4,60 0,0101 0,0563 0,1626 0,3257 0,5132 0,6858 0,8180 0,9049 0,9549

4,70 0,0091 0,0518 0,1523 0,3097 0,4946 0,6684 0,8046 0,8960 0,9497

4,80 0,0082 0,0477 0,1425 0,2942 0,4763 0,6510 0,7908 0,8867 0,9442

4,90 0,0074 0,0439 0,1333 0,2793 0,4582 0,6335 0,7767 0,8769 0,9382

Anexo A

-329-


c

i

i

!i

e)cX(P

0

0 1 2 3 4 5 6 7 8 9 10

c=0 c=1 c=2 c=3 c=4 c=5 c=6 c=7 c=8

5,00 0,0067 0,0404 0,1247 0,2650 0,4405 0,6160 0,7622 0,8666 0,9319

5,10 0,0061 0,0372 0,1165 0,2513 0,4231 0,5984 0,7474 0,8560 0,9252

5,20 0,0055 0,0342 0,1088 0,2381 0,4061 0,5809 0,7324 0,8449 0,9181

5,30 0,0050 0,0314 0,1016 0,2254 0,3895 0,5635 0,7171 0,8335 0,9106

5,40 0,0045 0,0289 0,0948 0,2133 0,3733 0,5461 0,7017 0,8217 0,9027

5,50 0,0041 0,0266 0,0884 0,2017 0,3575 0,5289 0,6860 0,8095 0,8944

5,60 0,0037 0,0244 0,0824 0,1906 0,3422 0,5119 0,6703 0,7970 0,8857

5,70 0,0033 0,0224 0,0768 0,1800 0,3272 0,4950 0,6544 0,7841 0,8766

5,80 0,0030 0,0206 0,0715 0,1700 0,3127 0,4783 0,6384 0,7710 0,8672

5,90 0,0027 0,0189 0,0666 0,1604 0,2987 0,4619 0,6224 0,7576 0,8574

6,00 0,0025 0,0174 0,0620 0,1512 0,2851 0,4457 0,6063 0,7440 0,8472

6,10 0,0022 0,0159 0,0577 0,1425 0,2719 0,4298 0,5902 0,7301 0,8367

6,20 0,0020 0,0146 0,0536 0,1342 0,2592 0,4141 0,5742 0,7160 0,8259

6,30 0,0018 0,0134 0,0498 0,1264 0,2469 0,3988 0,5582 0,7017 0,8148

6,40 0,0017 0,0123 0,0463 0,1189 0,2351 0,3837 0,5423 0,6873 0,8033

6,50 0,0015 0,0113 0,0430 0,1118 0,2237 0,3690 0,5265 0,6728 0,7916

6,60 0,0014 0,0103 0,0400 0,1052 0,2127 0,3547 0,5108 0,6581 0,7796

6,70 0,0012 0,0095 0,0371 0,0988 0,2022 0,3406 0,4953 0,6433 0,7673

6,80 0,0011 0,0087 0,0344 0,0928 0,1920 0,3270 0,4799 0,6285 0,7548

6,90 0,0010 0,0080 0,0320 0,0871 0,1823 0,3137 0,4647 0,6136 0,7420

7,00 0,0009 0,0073 0,0296 0,0818 0,1730 0,3007 0,4497 0,5987 0,7291

7,20 0,0007 0,0061 0,0255 0,0719 0,1555 0,2759 0,4204 0,5689 0,7027

7,40 0,0006 0,0051 0,0219 0,0632 0,1395 0,2526 0,3920 0,5393 0,6757

7,60 0,0005 0,0043 0,0188 0,0554 0,1249 0,2307 0,3646 0,5100 0,6482

7,80 0,0004 0,0036 0,0161 0,0485 0,1117 0,2103 0,3384 0,4812 0,6204

8,00 0,0003 0,0030 0,0138 0,0424 0,0996 0,1912 0,3134 0,4530 0,5925

8,20 0,0003 0,0025 0,0118 0,0370 0,0887 0,1736 0,2896 0,4254 0,5647

8,40 0,0002 0,0021 0,0100 0,0323 0,0789 0,1573 0,2670 0,3987 0,5369

8,60 0,0002 0,0018 0,0086 0,0281 0,0701 0,1422 0,2457 0,3728 0,5094

8,80 0,0002 0,0015 0,0073 0,0244 0,0621 0,1284 0,2256 0,3478 0,4823

9,00 0,0001 0,0012 0,0062 0,0212 0,0550 0,1157 0,2068 0,3239 0,4557

9,20 0,0001 0,0010 0,0053 0,0184 0,0486 0,1041 0,1892 0,3010 0,4296

9,40 0,0001 0,0009 0,0045 0,0160 0,0429 0,0935 0,1727 0,2792 0,4042

9,60 0,0001 0,0007 0,0038 0,0138 0,0378 0,0838 0,1574 0,2584 0,3796

9,80 0,0001 0,0006 0,0033 0,0120 0,0333 0,0750 0,1433 0,2388 0,3558

10,0 0,0000 0,0005 0,0028 0,0103 0,0293 0,0671 0,1301 0,2202 0,3328

10,2 0,0000 0,0004 0,0023 0,0089 0,0257 0,0599 0,1180 0,2027 0,3108

10,4 0,0000 0,0003 0,0020 0,0077 0,0225 0,0534 0,1069 0,1863 0,2896

10,6 0,0000 0,0003 0,0017 0,0066 0,0197 0,0475 0,0966 0,1710 0,2694

10,8 0,0000 0,0002 0,0014 0,0057 0,0173 0,0423 0,0872 0,1566 0,2502

11,00 0,0000 0,0002 0,0012 0,0049 0,0151 0,0375 0,0786 0,1432 0,2320

11,20 0,0000 0,0002 0,0010 0,0042 0,0132 0,0333 0,0708 0,1307 0,2147

11,40 0,0000 0,0001 0,0009 0,0036 0,0115 0,0295 0,0636 0,1192 0,1984

11,60 0,0000 0,0001 0,0007 0,0031 0,0100 0,0261 0,0571 0,1085 0,1830

11,80 0,0000 0,0001 0,0006 0,0027 0,0087 0,0230 0,0512 0,0986 0,1686

12,00 0,0000 0,0001 0,0005 0,0023 0,0076 0,0203 0,0458 0,0895 0,1550

12,20 0,0000 0,0001 0,0004 0,0020 0,0066 0,0179 0,0410 0,0811 0,1424

12,40 0,0000 0,0001 0,0004 0,0017 0,0057 0,0158 0,0366 0,0734 0,1305

12,60 0,0000 0,0000 0,0003 0,0014 0,0050 0,0139 0,0326 0,0664 0,1195

12,80 0,0000 0,0000 0,0003 0,0012 0,0043 0,0122 0,0291 0,0599 0,1093

13,00 0,0000 0,0000 0,0002 0,0011 0,0037 0,0107 0,0259 0,0540 0,0998

13,20 0,0000 0,0000 0,0002 0,0009 0,0032 0,0094 0,0230 0,0487 0,0910

13,40 0,0000 0,0000 0,0002 0,0008 0,0028 0,0083 0,0204 0,0438 0,0828

13,60 0,0000 0,0000 0,0001 0,0007 0,0024 0,0072 0,0181 0,0393 0,0753

13,80 0,0000 0,0000 0,0001 0,0006 0,0021 0,0063 0,0161 0,0353 0,0684

14,00 0,0000 0,0000 0,0001 0,0005 0,0018 0,0055 0,0142 0,0316 0,0621

14,20 0,0000 0,0000 0,0001 0,0004 0,0016 0,0048 0,0126 0,0283 0,0562

14,40 0,0000 0,0000 0,0001 0,0003 0,0013 0,0042 0,0111 0,0253 0,0509

14,60 0,0000 0,0000 0,0001 0,0003 0,0012 0,0037 0,0098 0,0226 0,0460

14,80 0,0000 0,0000 0,0000 0,0002 0,0010 0,0032 0,0087 0,0202 0,0415

15,00 0,0000 0,0000 0,0000 0,0002 0,0009 0,0028 0,0076 0,0180 0,0374

Anexo A

-330-


c

i

i

!i

e)cX(P

1

Mª z

0,00

0,05

0,10

0,15

0,20

0,25

0,30

0,35

0,40

0,45

0,50

0,55

0,60

0,65

0,70

0,75

0,80

0,85

0,90

0,95

1,00

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Fu

nció

n d

e d

istr

ibu

ció

n P

(X≤x)

c=

0

1 2

3

3 4

5 6 7 8

9 10

11 12

13 14

15 16

17

18 19

20

22

24

26

28

Anexo A

-331-

DISTRIBUCIÓN NORMAL TIPIFICADA

dt e2

1 )zZ(P)z(

z

2

t-

2

z 0 1 2 3 4 5 6 7 8 9 z 0 1 2 3 4 5 6 7 8 9

-3 0,0013 0,0010 0,0007 0,0005 0,0003 0,0002 0,0002 0,0001 0,0001 0,0000 0.0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359

-2,9 0,0019 0,0018 0,0018 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014 0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753 -2,8 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0021 0,0020 0,0019 0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141 -2,7 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026 0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517 -2,6 0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036 0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879

-2,5 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 0,0049 0,0048 0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224 -2,4 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064 0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549 -2,3 0,0107 0,0104 0,0102 0,0099 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084 0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852 -2,2 0,0139 0,0136 0,0132 0,0129 0,0125 0,0122 0,0119 0,0116 0,0113 0,0110 0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133 -2,1 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143 0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389

-2,0 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183 1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621 -1,9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233 1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830 -1,8 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294 1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015 -1,7 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367 1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177 -1,6 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455 1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319

-1,5 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559 1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441 -1,4 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681 1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545 -1,3 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823 1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633 -1,2 0,1151 0,1131 0,1112 0,1093 0,1075 0,1057 0,1038 0,1020 0,1003 0,0985 1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706 -1,1 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170 1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767

-1,0 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379 2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817 -0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611 2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857 -0,8 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867 2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890 -0,7 0,2420 0,2389 0,2358 0,2327 0,2297 0,2266 0,2236 0,2207 0,2177 0,2148 2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916 -0,6 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451 2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936

-0,5 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776 2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952 -0,4 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121 2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964 -0,3 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483 2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974 -0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859 2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981 -0,1 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247 2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986 -0.0 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641 3 0,9987 0,9990 0,9993 0,9995 0,9997 0,9998 0,9998 0,9999 0,9999 1,0000

José Jabaloyes Vivas Vicente Chirivella González

Anexo A

-332-

DISTRIBUCIÓN 2

n DE PEARSON dt

/n

te )x(P

x

/n

/n/t

n

0

2

1222

22

0,00

0,05

0,10

0,15

0,20

0,25

0,30

0,35

0,40

0,45

0,50

0,55

0,60

0,65

0,70

0,75

0,80

0,85

0,90

0,95

1,00

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51

x

Fu

nció

n d

e d

istr

ibu

ció

n P

(

n2≤x)

n=1

n=2

n=3 n=4

n=5 n=6

n=7 n=8

n=9

n=10

n=12

n=14

n=16

n=18

n=20

n=22 n=24

n=26

n=28

n=30

Anexo A

-333-

DISTRIBUCIÓN

DE PEARSON (Cont.) dt

2/n 2

te )x(P

x

0

2/n

12/n2/t2

n

0,00

0,05

0,10

0,15

0,20

0,25

0,30

0,35

0,40

0,45

0,50

0,55

0,60

0,65

0,70

0,75

0,80

0,85

0,90

0,95

1,00

10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 105 110 115 120 125 130 135 140

Fu

nció

n d

e d

istr

ibu

ció

n P

(

n2≤x)

x

n=30 n=35

n=40

n=45

n=50

n=55

n=60

n=65

n=70

n=75

n=80 n=85

n=90

n=95

n=100

Anexo A

-334-

DISTRIBUCIÓN CHI-CUADRADO DE PEARSON

dt

2

te )xX(P

x 2

n2

n

12

n

2

t

2n ()

n 0.9995 0.999 0.995 0.99 0.975 0.95 0.90 0.50 0.10 0.050 0.025 0.01 0.005 0.001 0.0005

1 0.000 0.000 0.000 0.000 0.001 0.004 0.016 0.455 2.706 3.842 5.024 6.635 7.879 10.827 12.115 2 0.001 0.002 0.010 0.020 0.051 0.103 0.211 1.386 4.605 5.992 7.378 9.210 10.597 13.815 15.201 3 0.015 0.024 0.072 0.115 0.216 0.352 0.584 2.366 6.251 7.815 9.348 11.345 12.838 16.266 17.731 4 0.064 0.091 0.207 0.297 0.484 0.711 1.064 3.357 7.779 9.488 11.143 13.277 14.860 18.466 19.998 5 0.158 0.210 0.412 0.554 0.831 1.146 1.610 4.352 9.236 11.071 12.833 15.086 16.750 20.515 22.106

6 0.299 0.381 0.676 0.872 1.237 1.635 2.204 5.348 10.645 12.592 14.449 16.812 18.548 22.457 24.102 7 0.485 0.599 0.989 1.239 1.690 2.167 2.833 6.346 12.017 14.067 16.013 18.475 20.278 24.321 26.018 8 0.710 0.857 1.344 1.647 2.180 2.733 3.490 7.344 13.362 15.507 17.535 20.090 21.955 26.124 27.867 9 0.972 1.152 1.735 2.088 2.700 3.325 4.168 8.343 14.684 16.919 19.023 21.666 23.589 27.877 29.667 10 1.265 1.479 2.156 2.558 3.247 3.940 4.865 9.342 15.987 18.307 20.483 23.209 25.188 29.588 31.419

11 1.587 1.834 2.603 3.054 3.816 4.575 5.578 10.341 17.275 19.675 21.920 24.725 26.757 31.264 33.138 12 1.935 2.214 3.074 3.571 4.404 5.226 6.304 11.340 18.549 21.026 23.337 26.217 28.300 32.909 34.821 13 2.305 2.617 3.565 4.107 5.009 5.892 7.042 12.340 19.812 22.362 24.736 27.688 29.819 34.527 36.477 14 2.697 3.041 4.075 4.660 5.629 6.571 7.790 13.339 21.064 23.685 26.119 29.141 31.319 36.124 38.109 15 3.107 3.483 4.601 5.229 6.262 7.261 8.547 14.339 22.307 24.996 27.488 30.578 32.802 37.698 39.717

16 3.536 3.942 5.142 5.812 6.908 7.962 9.312 15.339 23.542 26.296 28.845 32.000 34.267 39.252 41.308 17 3.980 4.416 5.697 6.408 7.564 8.672 10.085 16.338 24.769 27.587 30.191 33.409 35.718 40.791 42.881 18 4.439 4.905 6.265 7.015 8.231 9.390 10.865 17.338 25.989 28.869 31.526 34.805 37.156 42.312 44.434 19 4.913 5.407 6.844 7.633 8.907 10.117 11.651 18.338 27.204 30.144 32.852 36.191 38.582 43.819 45.974 20 5.398 5.921 7.434 8.260 9.591 10.851 12.443 19.337 28.412 31.410 34.170 37.566 39.997 45.314 47.498

21 5.895 6.447 8.034 8.897 10.283 11.591 13.240 20.337 29.615 32.671 35.479 38.932 41.401 46.796 49.010 22 6.404 6.983 8.643 9.543 10.982 12.338 14.042 21.337 30.813 33.925 36.781 40.289 42.796 48.268 50.510 23 6.924 7.529 9.260 10.196 11.689 13.091 14.848 22.337 32.007 35.173 38.076 41.638 44.181 49.728 51.999 24 7.453 8.085 9.886 10.856 12.401 13.848 15.659 23.337 33.196 36.415 39.364 42.980 45.558 51.179 53.478 25 7.991 8.649 10.520 11.524 13.120 14.611 16.473 24.337 34.382 37.653 40.647 44.314 46.928 52.619 54.948

26 8.537 9.222 11.160 12.198 13.844 15.379 17.292 25.337 35.563 38.885 41.923 45.642 48.290 54.051 56.407 27 9.093 9.803 11.808 12.879 14.573 16.151 18.114 26.336 36.741 40.113 43.195 46.963 49.645 55.475 57.856 28 9.656 10.391 12.461 13.565 15.308 16.928 18.939 27.336 37.916 41.337 44.461 48.278 50.994 56.892 59.299 29 10.227 10.986 13.121 14.256 16.047 17.708 19.768 28.336 39.088 42.557 45.722 49.588 52.336 58.301 60.734 30 10.804 11.588 13.787 14.954 16.791 18.493 20.599 29.336 40.256 43.773 46.979 50.892 53.672 59.702 62.160

40 16.906 17.917 20.707 22.164 24.433 26.509 29.051 39.335 51.805 55.759 59.342 63.691 66.766 73.403 76.096 50 23.461 24.674 27.991 29.707 32.357 34.764 37.689 49.335 63.167 67.505 71.420 76.154 79.490 86.660 89.560 60 30.339 31.738 35.534 37.485 40.482 43.188 46.459 59.335 74.397 79.082 83.298 88.379 91.952 99.608 102.69

7 70 37.467 39.036 43.275 45.442 48.758 51.739 55.329 69.335 85.527 90.531 95.023 100.43 104.22 112.32 115.58 80 44.792 46.520 51.172 53.540 57.153 60.392 64.278 79.334 96.578 101.88 106.62 112.32 116.32 124.84 128.26 90 52.277 54.156 59.196 61.754 65.647 69.126 73.291 89.334 107.56 113.15 118.14 124.11 128.29 137.20 140.78

100 59.895 61.918 67.328 70.065 74.222 77.929 82.358 99.334 118.49 124.34 129.56 135.81 140.17 149.45 153.16

José Jabaloyes Vivas

Vicente Chirivella González

Anexo A

-335-

DISTRIBUCIÓN t de Student dt

n )2/n(

)()n/t1()xX(P

x

2

1n

2

1n

2

n x 1 2 3 4 5 6 7 8 9 10 11 12 13 14 16 18 20 22 24 26 28 30

0 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000

0,1 0,5317 0,5353 0,5367 0,5374 0,5379 0,5382 0,5384 0,5386 0,5387 0,5388 0,5389 0,5390 0,5391 0,5391 0,5392 0,5393 0,5393 0,5394 0,5394 0,5394 0,5395 0,5395

0,2 0,5628 0,5700 0,5729 0,5744 0,5753 0,5760 0,5764 0,5768 0,5770 0,5773 0,5774 0,5776 0,5777 0,5778 0,5780 0,5781 0,5782 0,5783 0,5784 0,5785 0,5785 0,5786

0,3 0,5928 0,6038 0,6081 0,6104 0,6119 0,6129 0,6136 0,6141 0,6145 0,6148 0,6151 0,6153 0,6155 0,6157 0,6160 0,6162 0,6164 0,6165 0,6166 0,6167 0,6168 0,6169

0,4 0,6211 0,6361 0,6420 0,6452 0,6472 0,6485 0,6495 0,6502 0,6508 0,6512 0,6516 0,6519 0,6522 0,6524 0,6528 0,6531 0,6533 0,6535 0,6537 0,6538 0,6539 0,6540

0,5 0,6476 0,6667 0,6743 0,6783 0,6809 0,6826 0,6838 0,6847 0,6855 0,6861 0,6865 0,6869 0,6873 0,6876 0,6881 0,6884 0,6887 0,6890 0,6892 0,6894 0,6895 0,6896

0,6 0,6720 0,6953 0,7046 0,7096 0,7127 0,7148 0,7163 0,7174 0,7183 0,7191 0,7197 0,7202 0,7206 0,7210 0,7215 0,7220 0,7224 0,7227 0,7229 0,7231 0,7233 0,7235

0,7 0,6944 0,7218 0,7328 0,7387 0,7424 0,7449 0,7467 0,7481 0,7492 0,7501 0,7508 0,7514 0,7519 0,7523 0,7530 0,7536 0,7540 0,7544 0,7547 0,7549 0,7551 0,7553

0,8 0,7148 0,7462 0,7589 0,7657 0,7700 0,7729 0,7750 0,7766 0,7778 0,7788 0,7797 0,7804 0,7810 0,7815 0,7823 0,7829 0,7834 0,7839 0,7842 0,7845 0,7848 0,7850

0,9 0,7333 0,7684 0,7828 0,7905 0,7953 0,7986 0,8010 0,8028 0,8042 0,8054 0,8063 0,8071 0,8078 0,8083 0,8093 0,8100 0,8106 0,8111 0,8115 0,8118 0,8121 0,8124

1 0,7500 0,7887 0,8045 0,8130 0,8184 0,8220 0,8247 0,8267 0,8283 0,8296 0,8306 0,8315 0,8322 0,8329 0,8339 0,8347 0,8354 0,8359 0,8364 0,8367 0,8371 0,8373

1,1 0,7651 0,8070 0,8242 0,8335 0,8393 0,8433 0,8461 0,8483 0,8501 0,8514 0,8526 0,8535 0,8544 0,8551 0,8562 0,8571 0,8578 0,8584 0,8589 0,8593 0,8597 0,8600

1,2 0,7789 0,8235 0,8419 0,8518 0,8581 0,8623 0,8654 0,8678 0,8696 0,8711 0,8723 0,8734 0,8742 0,8750 0,8762 0,8772 0,8779 0,8785 0,8791 0,8795 0,8799 0,8802

1,3 0,7913 0,8384 0,8578 0,8683 0,8748 0,8793 0,8826 0,8851 0,8870 0,8886 0,8899 0,8910 0,8919 0,8927 0,8940 0,8950 0,8958 0,8965 0,8970 0,8975 0,8979 0,8982

1,4 0,8026 0,8518 0,8720 0,8829 0,8898 0,8945 0,8979 0,9005 0,9025 0,9041 0,9055 0,9066 0,9075 0,9084 0,9097 0,9107 0,9116 0,9123 0,9128 0,9133 0,9138 0,9141

1,5 0,8128 0,8638 0,8847 0,8960 0,9030 0,9079 0,9114 0,9140 0,9161 0,9177 0,9191 0,9203 0,9212 0,9221 0,9235 0,9245 0,9254 0,9261 0,9267 0,9272 0,9276 0,9280

1,6 0,8222 0,8746 0,8960 0,9076 0,9148 0,9196 0,9232 0,9259 0,9280 0,9297 0,9310 0,9322 0,9332 0,9340 0,9354 0,9365 0,9374 0,9381 0,9387 0,9392 0,9396 0,9400

1,7 0,8307 0,8844 0,9062 0,9178 0,9251 0,9300 0,9335 0,9362 0,9383 0,9400 0,9414 0,9426 0,9435 0,9444 0,9458 0,9468 0,9477 0,9484 0,9490 0,9495 0,9499 0,9503

1,8 0,8386 0,8932 0,9152 0,9269 0,9341 0,9390 0,9426 0,9452 0,9473 0,9490 0,9503 0,9515 0,9525 0,9533 0,9546 0,9557 0,9565 0,9572 0,9578 0,9583 0,9587 0,9590

1,9 0,8458 0,9011 0,9232 0,9349 0,9421 0,9469 0,9504 0,9530 0,9551 0,9567 0,9580 0,9591 0,9601 0,9609 0,9622 0,9632 0,9640 0,9647 0,9652 0,9657 0,9661 0,9665

2 0,8524 0,9082 0,9303 0,9419 0,9490 0,9538 0,9572 0,9597 0,9617 0,9633 0,9646 0,9657 0,9666 0,9674 0,9686 0,9696 0,9704 0,9710 0,9715 0,9720 0,9724 0,9727

2,1 0,8585 0,9147 0,9367 0,9482 0,9551 0,9598 0,9631 0,9655 0,9674 0,9690 0,9702 0,9712 0,9721 0,9728 0,9740 0,9750 0,9757 0,9763 0,9768 0,9772 0,9776 0,9779

2,2 0,8642 0,9206 0,9424 0,9537 0,9605 0,9649 0,9681 0,9705 0,9723 0,9738 0,9750 0,9759 0,9768 0,9774 0,9786 0,9794 0,9801 0,9807 0,9812 0,9816 0,9819 0,9822

2,3 0,8695 0,9259 0,9475 0,9585 0,9651 0,9694 0,9725 0,9748 0,9765 0,9779 0,9790 0,9799 0,9807 0,9813 0,9824 0,9832 0,9838 0,9843 0,9848 0,9851 0,9854 0,9857

2,4 0,8743 0,9308 0,9521 0,9628 0,9692 0,9734 0,9763 0,9784 0,9801 0,9813 0,9824 0,9832 0,9840 0,9846 0,9855 0,9863 0,9869 0,9874 0,9877 0,9881 0,9884 0,9886

2,5 0,8789 0,9352 0,9561 0,9666 0,9728 0,9767 0,9795 0,9815 0,9831 0,9843 0,9852 0,9860 0,9867 0,9873 0,9882 0,9888 0,9894 0,9898 0,9902 0,9905 0,9907 0,9909

2,6 0,8831 0,9392 0,9598 0,9700 0,9759 0,9797 0,9823 0,9842 0,9856 0,9868 0,9877 0,9884 0,9890 0,9895 0,9903 0,9910 0,9914 0,9918 0,9921 0,9924 0,9926 0,9928

2,7 0,8871 0,9429 0,9631 0,9730 0,9786 0,9822 0,9847 0,9865 0,9878 0,9888 0,9897 0,9903 0,9909 0,9914 0,9921 0,9927 0,9931 0,9935 0,9937 0,9940 0,9942 0,9944

2,8 0,8908 0,9463 0,9661 0,9756 0,9810 0,9844 0,9867 0,9884 0,9896 0,9906 0,9914 0,9920 0,9925 0,9929 0,9936 0,9941 0,9945 0,9948 0,9950 0,9952 0,9954 0,9956

2,9 0,8943 0,9494 0,9687 0,9779 0,9831 0,9863 0,9885 0,9901 0,9912 0,9921 0,9928 0,9933 0,9938 0,9942 0,9948 0,9952 0,9956 0,9958 0,9961 0,9963 0,9964 0,9965

3 0,8976 0,9523 0,9712 0,9800 0,9850 0,9880 0,9900 0,9915 0,9925 0,9933 0,9940 0,9945 0,9949 0,9952 0,9958 0,9962 0,9965 0,9967 0,9969 0,9971 0,9972 0,9973

3,1 0,9007 0,9549 0,9734 0,9819 0,9866 0,9894 0,9913 0,9927 0,9936 0,9944 0,9949 0,9954 0,9958 0,9961 0,9966 0,9969 0,9972 0,9974 0,9976 0,9977 0,9978 0,9979

3,2 0,9036 0,9573 0,9753 0,9835 0,9880 0,9907 0,9925 0,9937 0,9946 0,9953 0,9958 0,9962 0,9965 0,9968 0,9972 0,9975 0,9978 0,9979 0,9981 0,9982 0,9983 0,9984

3,3 0,9063 0,9596 0,9771 0,9850 0,9893 0,9918 0,9934 0,9946 0,9954 0,9960 0,9965 0,9968 0,9971 0,9974 0,9977 0,9980 0,9982 0,9984 0,9985 0,9986 0,9987 0,9988

3,4 0,9089 0,9617 0,9788 0,9864 0,9904 0,9928 0,9943 0,9953 0,9961 0,9966 0,9970 0,9974 0,9976 0,9978 0,9982 0,9984 0,9986 0,9987 0,9988 0,9989 0,9990 0,9990

3,5 0,9114 0,9636 0,9803 0,9876 0,9914 0,9936 0,9950 0,9960 0,9966 0,9971 0,9975 0,9978 0,9980 0,9982 0,9985 0,9987 0,9989 0,9990 0,9991 0,9992 0,9992 0,9993

3,6 0,9138 0,9654 0,9816 0,9886 0,9922 0,9943 0,9956 0,9965 0,9971 0,9976 0,9979 0,9982 0,9984 0,9986 0,9988 0,9990 0,9991 0,9992 0,9993 0,9993 0,9994 0,9994

3,7 0,9160 0,9670 0,9829 0,9896 0,9930 0,9950 0,9962 0,9970 0,9975 0,9979 0,9982 0,9985 0,9987 0,9988 0,9990 0,9992 0,9993 0,9994 0,9994 0,9995 0,9995 0,9996

3,8 0,9181 0,9686 0,9840 0,9904 0,9937 0,9955 0,9966 0,9974 0,9979 0,9983 0,9985 0,9987 0,9989 0,9990 0,9992 0,9993 0,9994 0,9995 0,9996 0,9996 0,9996 0,9997

3,9 0,9201 0,9701 0,9850 0,9912 0,9943 0,9960 0,9971 0,9977 0,9982 0,9985 0,9988 0,9989 0,9991 0,9992 0,9994 0,9995 0,9996 0,9996 0,9997 0,9997 0,9997 0,9997

4 0,9220 0,9714 0,9860 0,9919 0,9948 0,9964 0,9974 0,9980 0,9984 0,9987 0,9990 0,9991 0,9992 0,9993 0,9995 0,9996 0,9996 0,9997 0,9997 0,9998 0,9998 0,9998

4,1 0,9239 0,9727 0,9869 0,9926 0,9953 0,9968 0,9977 0,9983 0,9987 0,9989 0,9991 0,9993 0,9994 0,9995 0,9996 0,9997 0,9997 0,9998 0,9998 0,9998 0,9998 0,9999

4,2 0,9256 0,9739 0,9877 0,9932 0,9958 0,9972 0,9980 0,9985 0,9988 0,9991 0,9993 0,9994 0,9995 0,9996 0,9997 0,9997 0,9998 0,9998 0,9998 0,9999 0,9999 0,9999

4,3 0,9273 0,9750 0,9884 0,9937 0,9961 0,9975 0,9982 0,9987 0,9990 0,9992 0,9994 0,9995 0,9996 0,9996 0,9997 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999

4,4 0,9289 0,9760 0,9891 0,9942 0,9965 0,9977 0,9984 0,9989 0,9991 0,9993 0,9995 0,9996 0,9996 0,9997 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999

4,5 0,9304 0,9770 0,9898 0,9946 0,9968 0,9979 0,9986 0,9990 0,9993 0,9994 0,9995 0,9996 0,9997 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 1,0000

4,6 0,9319 0,9779 0,9903 0,9950 0,9971 0,9982 0,9988 0,9991 0,9994 0,9995 0,9996 0,9997 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 1,0000 1,0000

4,7 0,9333 0,9788 0,9909 0,9953 0,9973 0,9983 0,9989 0,9992 0,9994 0,9996 0,9997 0,9997 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 1,0000

4,8 0,9346 0,9796 0,9914 0,9957 0,9976 0,9985 0,9990 0,9993 0,9995 0,9996 0,9997 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 1,0000

4,9 0,9359 0,9804 0,9919 0,9960 0,9978 0,9986 0,9991 0,9994 0,9996 0,9997 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 1,0000

5 0,9372 0,9811 0,9923 0,9963 0,9979 0,9988 0,9992 0,9995 0,9996 0,9997 0,9998 0,9998 0,9999 0,9999 0,9999 1,0000

5,1 0,9384 0,9818 0,9927 0,9965 0,9981 0,9989 0,9993 0,9995 0,9997 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999

5,2 0,9395 0,9825 0,9931 0,9967 0,9983 0,9990 0,9994 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 0,9999 1,0000

5,3 0,9406 0,9831 0,9934 0,9970 0,9984 0,9991 0,9994 0,9996 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999

5,4 0,9417 0,9837 0,9938 0,9972 0,9985 0,9992 0,9995 0,9997 0,9998 0,9998 0,9999 0,9999 0,9999 1,0000

5,5 0,9428 0,9842 0,9941 0,9973 0,9986 0,9992 0,9995 0,9997 0,9998 0,9999 0,9999 0,9999 0,9999

5,6 0,9438 0,9848 0,9944 0,9975 0,9987 0,9993 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000

5,7 0,9447 0,9853 0,9946 0,9977 0,9988 0,9994 0,9996 0,9998 0,9999 0,9999 0,9999 1,0000

5,8 0,9457 0,9858 0,9949 0,9978 0,9989 0,9994 0,9997 0,9998 0,9999 0,9999 0,9999

5,9 0,9466 0,9862 0,9951 0,9979 0,9990 0,9995 0,9997 0,9998 0,9999 0,9999 0,9999

6 0,9474 0,9867 0,9954 0,9981 0,9991 0,9995 0,9997 0,9998 0,9999 0,9999 1,0000

6,1 0,9483 0,9871 0,9956 0,9982 0,9991 0,9996 0,9998 0,9999 0,9999 0,9999

6,2 0,9491 0,9875 0,9958 0,9983 0,9992 0,9996 0,9998 0,9999 0,9999 0,9999

6,3 0,9499 0,9879 0,9960 0,9984 0,9993 0,9996 0,9998 0,9999 0,9999 1,0000

6,4 0,9507 0,9882 0,9961 0,9985 0,9993 0,9997 0,9998 0,9999 0,9999

6,5 0,9514 0,9886 0,9963 0,9986 0,9994 0,9997 0,9998 0,9999 0,9999

6,6 0,9521 0,9889 0,9965 0,9986 0,9994 0,9997 0,9998 0,9999 1,0000

6,7 0,9528 0,9892 0,9966 0,9987 0,9994 0,9997 0,9999 0,9999

6,8 0,9535 0,9895 0,9967 0,9988 0,9995 0,9998 0,9999 0,9999

6,9 0,9542 0,9898 0,9969 0,9988 0,9995 0,9998 0,9999 0,9999

7 0,9548 0,9901 0,9970 0,9989 0,9995 0,9998 0,9999 0,9999

7,2 0,9561 0,9906 0,9972 0,9990 0,9996 0,9998 0,9999 1,0000

7,4 0,9572 0,9911 0,9974 0,9991 0,9996 0,9998 0,9999

7,6 0,9584 0,9916 0,9976 0,9992 0,9997 0,9999 0,9999

7,8 0,9594 0,9920 0,9978 0,9993 0,9997 0,9999 0,9999

8 0,9604 0,9924 0,9980 0,9993 0,9998 0,9999

Anexo A

-336-

Mª Teresa Carot Sánchez

DISTRIBUCIÓN t de Student dt

n )2/n(

)()n/t1()xX(P

x

2

1n

2

1n

2

n x 35 40 45 50 55 60 65 70 75 80 85 90 95 100 110 120

0 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000

0,05 0,5198 0,5198 0,5198 0,5198 0,5198 0,5199 0,5199 0,5199 0,5199 0,5199 0,5199 0,5199 0,5199 0,5199 0,5199 0,5199 0,5199

0,1 0,5395 0,5396 0,5396 0,5396 0,5396 0,5397 0,5397 0,5397 0,5397 0,5397 0,5397 0,5397 0,5397 0,5397 0,5397 0,5397 0,5398

0,15 0,5592 0,5592 0,5593 0,5593 0,5593 0,5594 0,5594 0,5594 0,5594 0,5594 0,5594 0,5594 0,5595 0,5595 0,5595 0,5595 0,5596

0,2 0,5787 0,5788 0,5788 0,5789 0,5789 0,5789 0,5789 0,5790 0,5790 0,5790 0,5790 0,5790 0,5790 0,5791 0,5791 0,5791 0,5793

0,25 0,5980 0,5981 0,5981 0,5982 0,5982 0,5983 0,5983 0,5983 0,5984 0,5984 0,5984 0,5984 0,5984 0,5984 0,5985 0,5985 0,5987

0,3 0,6170 0,6171 0,6172 0,6173 0,6173 0,6174 0,6174 0,6175 0,6175 0,6175 0,6175 0,6176 0,6176 0,6176 0,6176 0,6177 0,6179

0,35 0,6358 0,6359 0,6360 0,6361 0,6362 0,6362 0,6363 0,6363 0,6363 0,6364 0,6364 0,6364 0,6364 0,6365 0,6365 0,6365 0,6368

0,4 0,6542 0,6544 0,6545 0,6546 0,6546 0,6547 0,6548 0,6548 0,6549 0,6549 0,6549 0,6549 0,6550 0,6550 0,6550 0,6551 0,6554

0,45 0,6723 0,6724 0,6726 0,6727 0,6728 0,6728 0,6729 0,6729 0,6730 0,6730 0,6731 0,6731 0,6731 0,6732 0,6732 0,6732 0,6736

0,5 0,6899 0,6901 0,6902 0,6904 0,6905 0,6905 0,6906 0,6907 0,6907 0,6908 0,6908 0,6909 0,6909 0,6909 0,6910 0,6910 0,6915

0,55 0,7071 0,7073 0,7075 0,7076 0,7077 0,7078 0,7079 0,7080 0,7080 0,7081 0,7081 0,7082 0,7082 0,7082 0,7083 0,7083 0,7088

0,6 0,7238 0,7241 0,7242 0,7244 0,7245 0,7246 0,7247 0,7248 0,7248 0,7249 0,7249 0,7250 0,7250 0,7251 0,7251 0,7252 0,7258

0,65 0,7400 0,7403 0,7405 0,7407 0,7408 0,7409 0,7410 0,7411 0,7412 0,7412 0,7413 0,7413 0,7414 0,7414 0,7415 0,7415 0,7422

0,7 0,7557 0,7560 0,7562 0,7564 0,7566 0,7567 0,7568 0,7569 0,7570 0,7570 0,7571 0,7571 0,7572 0,7572 0,7573 0,7574 0,7580

0,75 0,7709 0,7712 0,7714 0,7716 0,7718 0,7719 0,7720 0,7721 0,7722 0,7723 0,7723 0,7724 0,7724 0,7725 0,7726 0,7726 0,7734

0,8 0,7854 0,7858 0,7860 0,7863 0,7864 0,7866 0,7867 0,7868 0,7869 0,7870 0,7870 0,7871 0,7871 0,7872 0,7873 0,7874 0,7881

0,85 0,7994 0,7998 0,8001 0,8003 0,8005 0,8006 0,8008 0,8009 0,8010 0,8011 0,8011 0,8012 0,8013 0,8013 0,8014 0,8015 0,8023

0,9 0,8129 0,8132 0,8135 0,8138 0,8140 0,8141 0,8143 0,8144 0,8145 0,8146 0,8147 0,8147 0,8148 0,8149 0,8150 0,8150 0,8159

0,95 0,8257 0,8261 0,8264 0,8267 0,8269 0,8270 0,8272 0,8273 0,8274 0,8275 0,8276 0,8277 0,8277 0,8278 0,8279 0,8280 0,8289

1 0,8379 0,8383 0,8387 0,8389 0,8392 0,8393 0,8395 0,8396 0,8397 0,8398 0,8399 0,8400 0,8401 0,8401 0,8402 0,8403 0,8414

1,05 0,8495 0,8500 0,8503 0,8506 0,8508 0,8510 0,8512 0,8513 0,8515 0,8516 0,8517 0,8517 0,8518 0,8519 0,8520 0,8521 0,8531

1,1 0,8606 0,8610 0,8614 0,8617 0,8619 0,8621 0,8623 0,8624 0,8626 0,8627 0,8628 0,8629 0,8629 0,8630 0,8631 0,8632 0,8643

1,15 0,8710 0,8715 0,8719 0,8722 0,8724 0,8726 0,8728 0,8730 0,8731 0,8732 0,8733 0,8734 0,8735 0,8736 0,8737 0,8738 0,8749

1,2 0,8809 0,8814 0,8818 0,8821 0,8824 0,8826 0,8828 0,8829 0,8830 0,8832 0,8833 0,8834 0,8834 0,8835 0,8836 0,8837 0,8849

1,25 0,8902 0,8907 0,8911 0,8914 0,8917 0,8919 0,8921 0,8923 0,8924 0,8925 0,8926 0,8927 0,8928 0,8929 0,8930 0,8931 0,8944

1,3 0,8990 0,8995 0,8999 0,9002 0,9005 0,9007 0,9009 0,9011 0,9012 0,9013 0,9014 0,9015 0,9016 0,9017 0,9018 0,9020 0,9032

1,35 0,9072 0,9077 0,9081 0,9085 0,9087 0,9090 0,9092 0,9093 0,9095 0,9096 0,9097 0,9098 0,9099 0,9100 0,9101 0,9102 0,9115

1,4 0,9148 0,9154 0,9158 0,9162 0,9164 0,9167 0,9169 0,9170 0,9172 0,9173 0,9174 0,9175 0,9176 0,9177 0,9178 0,9180 0,9193

1,45 0,9220 0,9226 0,9230 0,9233 0,9236 0,9239 0,9241 0,9242 0,9244 0,9245 0,9246 0,9247 0,9248 0,9249 0,9250 0,9252 0,9265

1,5 0,9287 0,9293 0,9297 0,9300 0,9303 0,9306 0,9308 0,9309 0,9311 0,9312 0,9313 0,9314 0,9315 0,9316 0,9318 0,9319 0,9332

1,55 0,9349 0,9355 0,9359 0,9363 0,9366 0,9368 0,9370 0,9372 0,9373 0,9375 0,9376 0,9377 0,9378 0,9378 0,9380 0,9381 0,9394

1,6 0,9407 0,9413 0,9417 0,9421 0,9423 0,9426 0,9428 0,9429 0,9431 0,9432 0,9433 0,9434 0,9435 0,9436 0,9438 0,9439 0,9452

1,65 0,9461 0,9466 0,9470 0,9474 0,9477 0,9479 0,9481 0,9483 0,9484 0,9486 0,9487 0,9488 0,9489 0,9490 0,9491 0,9492 0,9505

1,7 0,9510 0,9516 0,9520 0,9523 0,9526 0,9528 0,9530 0,9532 0,9534 0,9535 0,9536 0,9537 0,9538 0,9539 0,9540 0,9541 0,9554

1,75 0,9556 0,9561 0,9565 0,9569 0,9572 0,9574 0,9576 0,9577 0,9579 0,9580 0,9581 0,9582 0,9583 0,9584 0,9585 0,9587 0,9599

1,8 0,9598 0,9603 0,9607 0,9611 0,9613 0,9616 0,9617 0,9619 0,9621 0,9622 0,9623 0,9624 0,9625 0,9626 0,9627 0,9628 0,9641

1,85 0,9636 0,9641 0,9646 0,9649 0,9652 0,9654 0,9656 0,9657 0,9659 0,9660 0,9661 0,9662 0,9663 0,9664 0,9665 0,9666 0,9678

1,9 0,9672 0,9677 0,9681 0,9684 0,9687 0,9689 0,9691 0,9692 0,9694 0,9695 0,9696 0,9697 0,9698 0,9698 0,9700 0,9701 0,9713

1,95 0,9704 0,9709 0,9713 0,9716 0,9719 0,9721 0,9723 0,9724 0,9725 0,9727 0,9728 0,9729 0,9729 0,9730 0,9731 0,9732 0,9744

2 0,9733 0,9738 0,9742 0,9745 0,9748 0,9750 0,9752 0,9753 0,9754 0,9756 0,9757 0,9757 0,9758 0,9759 0,9760 0,9761 0,9772

2,05 0,9760 0,9765 0,9769 0,9772 0,9774 0,9776 0,9778 0,9779 0,9781 0,9782 0,9783 0,9784 0,9784 0,9785 0,9786 0,9787 0,9798

2,1 0,9785 0,9790 0,9793 0,9796 0,9798 0,9800 0,9802 0,9803 0,9805 0,9806 0,9807 0,9807 0,9808 0,9809 0,9810 0,9811 0,9821

2,15 0,9807 0,9812 0,9815 0,9818 0,9820 0,9822 0,9824 0,9825 0,9826 0,9827 0,9828 0,9829 0,9830 0,9830 0,9831 0,9832 0,9842

2,2 0,9827 0,9832 0,9835 0,9838 0,9840 0,9842 0,9843 0,9844 0,9846 0,9847 0,9847 0,9848 0,9849 0,9849 0,9851 0,9851 0,9861

2,25 0,9846 0,9850 0,9853 0,9856 0,9858 0,9859 0,9861 0,9862 0,9863 0,9864 0,9865 0,9866 0,9866 0,9867 0,9868 0,9869 0,9878

2,3 0,9862 0,9866 0,9869 0,9872 0,9874 0,9875 0,9877 0,9878 0,9879 0,9880 0,9881 0,9881 0,9882 0,9882 0,9883 0,9884 0,9893

2,35 0,9877 0,9881 0,9884 0,9886 0,9888 0,9890 0,9891 0,9892 0,9893 0,9894 0,9895 0,9895 0,9896 0,9896 0,9897 0,9898 0,9906

2,4 0,9891 0,9894 0,9897 0,9899 0,9901 0,9902 0,9904 0,9905 0,9906 0,9906 0,9907 0,9908 0,9908 0,9909 0,9910 0,9910 0,9918

2,45 0,9903 0,9906 0,9909 0,9911 0,9913 0,9914 0,9915 0,9916 0,9917 0,9918 0,9918 0,9919 0,9919 0,9920 0,9921 0,9921 0,9929

2,5 0,9914 0,9917 0,9919 0,9921 0,9923 0,9924 0,9925 0,9926 0,9927 0,9928 0,9928 0,9929 0,9929 0,9930 0,9931 0,9931 0,9938

2,55 0,9923 0,9926 0,9929 0,9931 0,9932 0,9933 0,9934 0,9935 0,9936 0,9937 0,9937 0,9938 0,9938 0,9939 0,9939 0,9940 0,9946

2,6 0,9932 0,9935 0,9937 0,9939 0,9940 0,9941 0,9942 0,9943 0,9944 0,9945 0,9945 0,9946 0,9946 0,9946 0,9947 0,9948 0,9953

2,65 0,9940 0,9943 0,9945 0,9946 0,9948 0,9949 0,9950 0,9950 0,9951 0,9952 0,9952 0,9952 0,9953 0,9953 0,9954 0,9954 0,9960

2,7 0,9947 0,9949 0,9951 0,9953 0,9954 0,9955 0,9956 0,9957 0,9957 0,9958 0,9958 0,9959 0,9959 0,9959 0,9960 0,9960 0,9965

2,75 0,9953 0,9955 0,9957 0,9959 0,9960 0,9961 0,9961 0,9962 0,9963 0,9963 0,9964 0,9964 0,9964 0,9965 0,9965 0,9966 0,9970

2,8 0,9959 0,9961 0,9962 0,9964 0,9965 0,9966 0,9966 0,9967 0,9968 0,9968 0,9968 0,9969 0,9969 0,9969 0,9970 0,9970 0,9974

2,85 0,9964 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9971 0,9972 0,9972 0,9973 0,9973 0,9973 0,9973 0,9974 0,9974 0,9978

2,9 0,9968 0,9970 0,9971 0,9972 0,9973 0,9974 0,9975 0,9975 0,9976 0,9976 0,9976 0,9977 0,9977 0,9977 0,9977 0,9978 0,9981

2,95 0,9972 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9978 0,9979 0,9979 0,9979 0,9980 0,9980 0,9980 0,9981 0,9981 0,9984

3 0,9975 0,9977 0,9978 0,9979 0,9980 0,9980 0,9981 0,9981 0,9982 0,9982 0,9982 0,9983 0,9983 0,9983 0,9983 0,9984 0,9987

3,05 0,9978 0,9980 0,9981 0,9982 0,9982 0,9983 0,9983 0,9984 0,9984 0,9984 0,9985 0,9985 0,9985 0,9985 0,9986 0,9986 0,9989

3,1 0,9981 0,9982 0,9983 0,9984 0,9985 0,9985 0,9986 0,9986 0,9986 0,9987 0,9987 0,9987 0,9987 0,9987 0,9988 0,9988 0,9990

3,15 0,9983 0,9985 0,9985 0,9986 0,9987 0,9987 0,9988 0,9988 0,9988 0,9989 0,9989 0,9989 0,9989 0,9989 0,9989 0,9990 0,9992

3,2 0,9985 0,9987 0,9987 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990 0,9990 0,9990 0,9991 0,9991 0,9991 0,9991 0,9991 0,9993

3,25 0,9987 0,9988 0,9989 0,9990 0,9990 0,9991 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9992 0,9992 0,9993 0,9994

3,3 0,9989 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9993 0,9993 0,9993 0,9993 0,9993 0,9993 0,9993 0,9994 0,9995

3,35 0,9990 0,9991 0,9992 0,9992 0,9993 0,9993 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9996

3,4 0,9992 0,9992 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995 0,9995 0,9995 0,9995 0,9995 0,9995 0,9997

3,45 0,9993 0,9993 0,9994 0,9994 0,9995 0,9995 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997

3,5 0,9994 0,9994 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997 0,9997 0,9997 0,9998

3,55 0,9994 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998

3,6 0,9995 0,9996 0,9996 0,9996 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998 0,9998 0,9998 0,9998

3,65 0,9996 0,9996 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9999

3,7 0,9996 0,9997 0,9997 0,9997 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9999

3,75 0,9997 0,9997 0,9997 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999

3,8 0,9997 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999

3,9 0,9998 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 1,0000

4 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999

Anexo A

-337-

Mª Teresa Carot Sánchez

DISTRIBUCIÓN t de Student

dt n )(

)()

n

t1()xX(P

x2

n

2

1n

2

1n2

tn()

Probabilidad de una cola

n 0.0005 0.001 0.005 0.01 0.025 0.05 0.1 0.2 0.25 0.3 0.4 0.45 0.475

1 636.578 318.289 63.656 31.821 12.706 6.314 3.078 1.376 1.000 0.727 0.325 0.158 0.079 2 31.600 22.328 9.925 6.965 4.303 2.920 1.886 1.061 0.816 0.617 0.289 0.142 0.071 3 12.924 10.214 5.841 4.541 3.182 2.353 1.638 0.978 0.765 0.584 0.277 0.137 0.068 4 8.610 7.173 4.604 3.747 2.776 2.132 1.533 0.941 0.741 0.569 0.271 0.134 0.067 5 6.869 5.894 4.032 3.365 2.571 2.015 1.476 0.920 0.727 0.559 0.267 0.132 0.066

6 5.959 5.208 3.707 3.143 2.447 1.943 1.440 0.906 0.718 0.553 0.265 0.131 0.065 7 5.408 4.785 3.499 2.998 2.365 1.895 1.415 0.896 0.711 0.549 0.263 0.130 0.065 8 5.041 4.501 3.355 2.896 2.306 1.860 1.397 0.889 0.706 0.546 0.262 0.130 0.065 9 4.781 4.297 3.250 2.821 2.262 1.833 1.383 0.883 0.703 0.543 0.261 0.129 0.064

10 4.587 4.144 3.169 2.764 2.228 1.812 1.372 0.879 0.700 0.542 0.260 0.129 0.064

11 4.437 4.025 3.106 2.718 2.201 1.796 1.363 0.876 0.697 0.540 0.260 0.129 0.064 12 4.318 3.930 3.055 2.681 2.179 1.782 1.356 0.873 0.695 0.539 0.259 0.128 0.064 13 4.221 3.852 3.012 2.650 2.160 1.771 1.350 0.870 0.694 0.538 0.259 0.128 0.064 14 4.140 3.787 2.977 2.624 2.145 1.761 1.345 0.868 0.692 0.537 0.258 0.128 0.064 15 4.073 3.733 2.947 2.602 2.131 1.753 1.341 0.866 0.691 0.536 0.258 0.128 0.064

16 4.015 3.686 2.921 2.583 2.120 1.746 1.337 0.865 0.690 0.535 0.258 0.128 0.064 17 3.965 3.646 2.898 2.567 2.110 1.740 1.333 0.863 0.689 0.534 0.257 0.128 0.064 18 3.922 3.610 2.878 2.552 2.101 1.734 1.330 0.862 0.688 0.534 0.257 0.127 0.064 19 3.883 3.579 2.861 2.539 2.093 1.729 1.328 0.861 0.688 0.533 0.257 0.127 0.064 20 3.850 3.552 2.845 2.528 2.086 1.725 1.325 0.860 0.687 0.533 0.257 0.127 0.063

21 3.819 3.527 2.831 2.518 2.080 1.721 1.323 0.859 0.686 0.532 0.257 0.127 0.063 22 3.792 3.505 2.819 2.508 2.074 1.717 1.321 0.858 0.686 0.532 0.256 0.127 0.063 23 3.768 3.485 2.807 2.500 2.069 1.714 1.319 0.858 0.685 0.532 0.256 0.127 0.063 24 3.745 3.467 2.797 2.492 2.064 1.711 1.318 0.857 0.685 0.531 0.256 0.127 0.063 25 3.725 3.450 2.787 2.485 2.060 1.708 1.316 0.856 0.684 0.531 0.256 0.127 0.063

26 3.707 3.435 2.779 2.479 2.056 1.706 1.315 0.856 0.684 0.531 0.256 0.127 0.063 27 3.689 3.421 2.771 2.473 2.052 1.703 1.314 0.855 0.684 0.531 0.256 0.127 0.063 28 3.674 3.408 2.763 2.467 2.048 1.701 1.313 0.855 0.683 0.530 0.256 0.127 0.063 29 3.660 3.396 2.756 2.462 2.045 1.699 1.311 0.854 0.683 0.530 0.256 0.127 0.063 30 3.646 3.385 2.750 2.457 2.042 1.697 1.310 0.854 0.683 0.530 0.256 0.127 0.063

40 3.551 3.307 2.704 2.423 2.021 1.684 1.303 0.851 0.681 0.529 0.255 0.126 0.063 60 3.460 3.232 2.660 2.390 2.000 1.671 1.296 0.848 0.679 0.527 0.254 0.126 0.063

120 3.373 3.160 2.617 2.358 1.980 1.658 1.289 0.845 0.677 0.526 0.254 0.126 0.063

3.290 3.090 2.576 2.326 1.960 1.645 1.282 0.842 0.674 0.524 0.253 0.126 0.063

n 0.001 0.002 0.01 0.02 0.05 0.1 0.2 0.4 0.5 0.6 0.8 0.9 0.95

Probabilidad de dos colas

José Jabaloyes Vivas

Vicente Chirivella González

Anexo A

-338-

DISTRIBUCIÓN F de snedecor

dt

)tnn( )(

t n n)xX(P

x2

nn

122

2n,

2

1n

12

n

2

n

2

2

n

1

21

121

Fn n1 2,( )

Grados de libertad de la varianza mayor (n1)

1 2 3 4 5 6 7 8

p 0.05 0.01 0.05 0.01 0.05 0.01 0.05 0.01 0.05 0.01 0.05 0.01 0.05 0.01 0.05 0.01

1 161.45 4052.2 199.50 4999.3 215.71 5403.5 224.58 5624.3 230.16 5763.9 233.99 5858.9 236.77 5928.3 238.88 5980.9 2 18.51 98.50 19.00 99.00 19.16 99.16 19.25 99.25 19.30 99.30 19.33 99.33 19.35 99.36 19.37 99.38 3 10.13 34.12 9.55 30.82 9.28 29.46 9.12 28.71 9.01 28.24 8.94 27.91 8.89 27.67 8.85 27.49 4 7.71 21.20 6.94 18.00 6.59 16.69 6.39 15.98 6.26 15.52 6.16 15.21 6.09 14.98 6.04 14.80 5 6.61 16.26 5.79 13.27 5.41 12.06 5.19 11.39 5.05 10.97 4.95 10.67 4.88 10.46 4.82 10.29 6 5.99 13.75 5.14 10.92 4.76 9.78 4.53 9.15 4.39 8.75 4.28 8.47 4.21 8.26 4.15 8.10 7 5.59 12.25 4.74 9.55 4.35 8.45 4.12 7.85 3.97 7.46 3.87 7.19 3.79 6.99 3.73 6.84 8 5.32 11.26 4.46 8.65 4.07 7.59 3.84 7.01 3.69 6.63 3.58 6.37 3.50 6.18 3.44 6.03 9 5.12 10.56 4.26 8.02 3.86 6.99 3.63 6.42 3.48 6.06 3.37 5.80 3.29 5.61 3.23 5.47

10 4.96 10.04 4.10 7.56 3.71 6.55 3.48 5.99 3.33 5.64 3.22 5.39 3.14 5.20 3.07 5.06 11 4.84 9.65 3.98 7.21 3.59 6.22 3.36 5.67 3.20 5.32 3.09 5.07 3.01 4.89 2.95 4.74 12 4.75 9.33 3.89 6.93 3.49 5.95 3.26 5.41 3.11 5.06 3.00 4.82 2.91 4.64 2.85 4.50 13 4.67 9.07 3.81 6.70 3.41 5.74 3.18 5.21 3.03 4.86 2.92 4.62 2.83 4.44 2.77 4.30 14 4.60 8.86 3.74 6.51 3.34 5.56 3.11 5.04 2.96 4.69 2.85 4.46 2.76 4.28 2.70 4.14 15 4.54 8.68 3.68 6.36 3.29 5.42 3.06 4.89 2.90 4.56 2.79 4.32 2.71 4.14 2.64 4.00 16 4.49 8.53 3.63 6.23 3.24 5.29 3.01 4.77 2.85 4.44 2.74 4.20 2.66 4.03 2.59 3.89 17 4.45 8.40 3.59 6.11 3.20 5.19 2.96 4.67 2.81 4.34 2.70 4.10 2.61 3.93 2.55 3.79 18 4.41 8.29 3.55 6.01 3.16 5.09 2.93 4.58 2.77 4.25 2.66 4.01 2.58 3.84 2.51 3.71 19 4.38 8.18 3.52 5.93 3.13 5.01 2.90 4.50 2.74 4.17 2.63 3.94 2.54 3.77 2.48 3.63

20 4.35 8.10 3.49 5.85 3.10 4.94 2.87 4.43 2.71 4.10 2.60 3.87 2.51 3.70 2.45 3.56 21 4.32 8.02 3.47 5.78 3.07 4.87 2.84 4.37 2.68 4.04 2.57 3.81 2.49 3.64 2.42 3.51 22 4.30 7.95 3.44 5.72 3.05 4.82 2.82 4.31 2.66 3.99 2.55 3.76 2.46 3.59 2.40 3.45 23 4.28 7.88 3.42 5.66 3.03 4.76 2.80 4.26 2.64 3.94 2.53 3.71 2.44 3.54 2.37 3.41 24 4.26 7.82 3.40 5.61 3.01 4.72 2.78 4.22 2.62 3.90 2.51 3.67 2.42 3.50 2.36 3.36 25 4.24 7.77 3.39 5.57 2.99 4.68 2.76 4.18 2.60 3.85 2.49 3.63 2.40 3.46 2.34 3.32 26 4.23 7.72 3.37 5.53 2.98 4.64 2.74 4.14 2.59 3.82 2.47 3.59 2.39 3.42 2.32 3.29 27 4.21 7.68 3.35 5.49 2.96 4.60 2.73 4.11 2.57 3.78 2.46 3.56 2.37 3.39 2.31 3.26 28 4.20 7.64 3.34 5.45 2.95 4.57 2.71 4.07 2.56 3.75 2.45 3.53 2.36 3.36 2.29 3.23 29 4.18 7.60 3.33 5.42 2.93 4.54 2.70 4.04 2.55 3.73 2.43 3.50 2.35 3.33 2.28 3.20

30 4.17 7.56 3.32 5.39 2.92 4.51 2.69 4.02 2.53 3.70 2.42 3.47 2.33 3.30 2.27 3.17 31 4.16 7.53 3.30 5.36 2.91 4.48 2.68 3.99 2.52 3.67 2.41 3.45 2.32 3.28 2.25 3.15 32 4.15 7.50 3.29 5.34 2.90 4.46 2.67 3.97 2.51 3.65 2.40 3.43 2.31 3.26 2.24 3.13 33 4.14 7.47 3.28 5.31 2.89 4.44 2.66 3.95 2.50 3.63 2.39 3.41 2.30 3.24 2.23 3.11 34 4.13 7.44 3.28 5.29 2.88 4.42 2.65 3.93 2.49 3.61 2.38 3.39 2.29 3.22 2.23 3.09 38 4.10 7.35 3.24 5.21 2.85 4.34 2.62 3.86 2.46 3.54 2.35 3.32 2.26 3.15 2.19 3.02 42 4.07 7.28 3.22 5.15 2.83 4.29 2.59 3.80 2.44 3.49 2.32 3.27 2.24 3.10 2.17 2.97 46 4.05 7.22 3.20 5.10 2.81 4.24 2.57 3.76 2.42 3.44 2.30 3.22 2.22 3.06 2.15 2.93 50 4.03 7.17 3.18 5.06 2.79 4.20 2.56 3.72 2.40 3.41 2.29 3.19 2.20 3.02 2.13 2.89 60 4.00 7.08 3.15 4.98 2.76 4.13 2.53 3.65 2.37 3.34 2.25 3.12 2.17 2.95 2.10 2.82

80 3.96 6.96 3.11 4.88 2.72 4.04 2.49 3.56 2.33 3.26 2.21 3.04 2.13 2.87 2.06 2.74 100 3.94 6.90 3.09 4.82 2.70 3.98 2.46 3.51 2.31 3.21 2.19 2.99 2.10 2.82 2.03 2.69 200 3.89 6.76 3.04 4.71 2.65 3.88 2.42 3.41 2.26 3.11 2.14 2.89 2.06 2.73 1.98 2.60 1000 3.85 6.66 3.00 4.63 2.61 3.80 2.38 3.34 2.22 3.04 2.11 2.82 2.02 2.66 1.95 2.53

3.84 6.63 3.00 4.61 2.60 3.78 2.37 3.32 2.21 3.02 2.10 2.80 2.01 2.64 1.94 2.51

NOTA: Los valores de la para 1-α son los mismos que los de para α.

Anexo A

-339-

DISTRIBUCIÓN F de Snedecor (Continuación)

dt

)tnn( )(

t n n)xX(P

x2

nn

122

2n,

2

1n

12

n

2

n

2

2

n

1

21

121

Fn n1 2,( )

Grados de libertad de la varianza mayor (n1)

10 12 16 20 30 50 100

p 0.05 0.01 0.05 0.01 0.05 0.01 0.05 0.01 0.05 0.01 0.05 0.01 0.05 0.01 0.05 0.01

1 241.88 6055.9 243.90 6106.7 246.47 6170.0 248.02 6208.7 250.10 6260.4 251.77 6302.3 253.04 6333.9 254.31 6365.6 2 19.40 99.40 19.41 99.42 19.43 99.44 19.45 99.45 19.46 99.47 19.48 99.48 19.49 99.49 19.50 99.50 3 8.79 27.23 8.74 27.05 8.69 26.83 8.66 26.69 8.62 26.50 8.58 26.35 8.55 26.24 8.53 26.13 4 5.96 14.55 5.91 14.37 5.84 14.15 5.80 14.02 5.75 13.84 5.70 13.69 5.66 13.58 5.63 13.46 5 4.74 10.05 4.68 9.89 4.60 9.68 4.56 9.55 4.50 9.38 4.44 9.24 4.41 9.13 4.37 9.02 6 4.06 7.87 4.00 7.72 3.92 7.52 3.87 7.40 3.81 7.23 3.75 7.09 3.71 6.99 3.67 6.88 7 3.64 6.62 3.57 6.47 3.49 6.28 3.44 6.16 3.38 5.99 3.32 5.86 3.27 5.75 3.23 5.65 8 3.35 5.81 3.28 5.67 3.20 5.48 3.15 5.36 3.08 5.20 3.02 5.07 2.97 4.96 2.93 4.86 9 3.14 5.26 3.07 5.11 2.99 4.92 2.94 4.81 2.86 4.65 2.80 4.52 2.76 4.41 2.71 4.31

10 2.98 4.85 2.91 4.71 2.83 4.52 2.77 4.41 2.70 4.25 2.64 4.12 2.59 4.01 2.54 3.91 11 2.85 4.54 2.79 4.40 2.70 4.21 2.65 4.10 2.57 3.94 2.51 3.81 2.46 3.71 2.40 3.60 12 2.75 4.30 2.69 4.16 2.60 3.97 2.54 3.86 2.47 3.70 2.40 3.57 2.35 3.47 2.30 3.36 13 2.67 4.10 2.60 3.96 2.51 3.78 2.46 3.66 2.38 3.51 2.31 3.38 2.26 3.27 2.21 3.17 14 2.60 3.94 2.53 3.80 2.44 3.62 2.39 3.51 2.31 3.35 2.24 3.22 2.19 3.11 2.13 3.00 15 2.54 3.80 2.48 3.67 2.38 3.49 2.33 3.37 2.25 3.21 2.18 3.08 2.12 2.98 2.07 2.87 16 2.49 3.69 2.42 3.55 2.33 3.37 2.28 3.26 2.19 3.10 2.12 2.97 2.07 2.86 2.01 2.75 17 2.45 3.59 2.38 3.46 2.29 3.27 2.23 3.16 2.15 3.00 2.08 2.87 2.02 2.76 1.96 2.65 18 2.41 3.51 2.34 3.37 2.25 3.19 2.19 3.08 2.11 2.92 2.04 2.78 1.98 2.68 1.92 2.57 19 2.38 3.43 2.31 3.30 2.21 3.12 2.16 3.00 2.07 2.84 2.00 2.71 1.94 2.60 1.88 2.49

20 2.35 3.37 2.28 3.23 2.18 3.05 2.12 2.94 2.04 2.78 1.97 2.64 1.91 2.54 1.84 2.42 21 2.32 3.31 2.25 3.17 2.16 2.99 2.10 2.88 2.01 2.72 1.94 2.58 1.88 2.48 1.81 2.36 22 2.30 3.26 2.23 3.12 2.13 2.94 2.07 2.83 1.98 2.67 1.91 2.53 1.85 2.42 1.78 2.31 23 2.27 3.21 2.20 3.07 2.11 2.89 2.05 2.78 1.96 2.62 1.88 2.48 1.82 2.37 1.76 2.26 24 2.25 3.17 2.18 3.03 2.09 2.85 2.03 2.74 1.94 2.58 1.86 2.44 1.80 2.33 1.73 2.21 25 2.24 3.13 2.16 2.99 2.07 2.81 2.01 2.70 1.92 2.54 1.84 2.40 1.78 2.29 1.71 2.17 26 2.22 3.09 2.15 2.96 2.05 2.78 1.99 2.66 1.90 2.50 1.82 2.36 1.76 2.25 1.69 2.13 27 2.20 3.06 2.13 2.93 2.04 2.75 1.97 2.63 1.88 2.47 1.81 2.33 1.74 2.22 1.67 2.10 28 2.19 3.03 2.12 2.90 2.02 2.72 1.96 2.60 1.87 2.44 1.79 2.30 1.73 2.19 1.65 2.06 29 2.18 3.00 2.10 2.87 2.01 2.69 1.94 2.57 1.85 2.41 1.77 2.27 1.71 2.16 1.64 2.03

30 2.16 2.98 2.09 2.84 1.99 2.66 1.93 2.55 1.84 2.39 1.76 2.25 1.70 2.13 1.62 2.01 31 2.15 2.96 2.08 2.82 1.98 2.64 1.92 2.52 1.83 2.36 1.75 2.22 1.68 2.11 1.61 1.98 32 2.14 2.93 2.07 2.80 1.97 2.62 1.91 2.50 1.82 2.34 1.74 2.20 1.67 2.08 1.59 1.96 33 2.13 2.91 2.06 2.78 1.96 2.60 1.90 2.48 1.81 2.32 1.72 2.18 1.66 2.06 1.58 1.93 34 2.12 2.89 2.05 2.76 1.95 2.58 1.89 2.46 1.80 2.30 1.71 2.16 1.65 2.04 1.57 1.91 38 2.09 2.83 2.02 2.69 1.92 2.51 1.85 2.40 1.76 2.23 1.68 2.09 1.61 1.97 1.53 1.84 42 2.06 2.78 1.99 2.64 1.89 2.46 1.83 2.34 1.73 2.18 1.65 2.03 1.57 1.91 1.49 1.78 46 2.04 2.73 1.97 2.60 1.87 2.42 1.80 2.30 1.71 2.13 1.62 1.99 1.55 1.86 1.46 1.73 50 2.03 2.70 1.95 2.56 1.85 2.38 1.78 2.27 1.69 2.10 1.60 1.95 1.52 1.82 1.44 1.68

60 1.99 2.63 1.92 2.50 1.82 2.31 1.75 2.20 1.65 2.03 1.56 1.88 1.48 1.75 1.39 1.60 80 1.95 2.55 1.88 2.42 1.77 2.23 1.70 2.12 1.60 1.94 1.51 1.79 1.43 1.65 1.32 1.49

100 1.93 2.50 1.85 2.37 1.75 2.19 1.68 2.07 1.57 1.89 1.48 1.74 1.39 1.60 1.28 1.43 200 1.88 2.41 1.80 2.27 1.69 2.09 1.62 1.97 1.52 1.79 1.41 1.63 1.32 1.48 1.19 1.28 1000 1.84 2.34 1.76 2.20 1.65 2.02 1.58 1.90 1.47 1.72 1.36 1.54 1.26 1.38 1.08 1.11

1.83 2.32 1.75 2.18 1.64 2.00 1.57 1.88 1.46 1.70 1.35 1.52 1.24 1.36 1.01 1.01

NOTA: Los valores de la para 1-α son los mismos que los de para α.

José Jabaloyes Vivas y Vicente Chirivella González

Anexo A

-340-

Bibliografía

-341-

BIBLIOGRAFÍA PEÑA, DANIEL (1986), Estadística, modelos y métodos. Vol. 1 Fundamentos, Alianza Universidad Textos, Madrid. MONTGOMERY, DOUGLAS C. Y RUNGER, GEORGE C, (2003), Probabilidad y estadística aplicadas a la ingeniería, Limusa-Wiley, México. ROMERO, RAFAEL Y ZÚNICA, LUISA ROSA (2008), Métodos estadísticos e ingeniería, Editorial UPV- 637, Valencia. “Formulario y tablas de estadística”, Editorial UPV nº 104, Valencia.

estadística básica para la ingeniería.pdf

Documents