parte i: estadÍstica descriptiva - métodos … · • medidas de dependencia lineal: ... 1.7...

19
INGENIERÍA INFORMÁTICA Universidad Carlos III de Madrid Programa de la asignatura PARTE I: ESTADÍSTICA DESCRIPTIVA TEMA 1: Estadística descriptiva 1.1 Introducción 1.2 Tipos de datos 1.3 Descripción de datos mediante tablas: Tablas de frecuencias univariantes Tablas de frecuencias bivariantes Distribución marginal y condicionada 1.4 Descripción de datos mediante gráficos: Diagrama de tallo y hojas Diagrama de barras Histograma y polígono de frecuencias Pictograma Gráficos de dispersión 1.5 Medidas características de un conjunto de datos: Medidas de centralización Medidas de dispersión Otras medidas de forma Medidas de dependencia lineal: covarianza y correlación 1.6 Transformaciones lineales y su efecto en las medidas características 1.7 Transformaciones no lineales que mejoran la simetría PARTE II: PROBABILIDAD TEMA 2: Probabilidad 2.1 Introducción 2.2 Definición de probabilidad y propiedades 2.3 Probabilidad condicionada y probabilidad total 2.4 Independencia de sucesos 2.5 Teorema de Bayes Ybnias Elí Grijalva Yauri [email protected] 1 of 265

Upload: dothien

Post on 21-Sep-2018

222 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: PARTE I: ESTADÍSTICA DESCRIPTIVA - Métodos … · • Medidas de dependencia lineal: ... 1.7 Transformaciones no lineales que mejoran la simetría ... Introducción al Control Estadístico

INGENIERÍA INFORMÁTICA Universidad Carlos III de Madrid

Programa de la asignatura

PPAARRTTEE II:: EESSTTAADDÍÍSSTTIICCAA DDEESSCCRRIIPPTTIIVVAA

TEMA 1: Estadística descriptiva

1.1 Introducción 1.2 Tipos de datos 1.3 Descripción de datos mediante tablas:

• Tablas de frecuencias univariantes

• Tablas de frecuencias bivariantes • Distribución marginal y condicionada

1.4 Descripción de datos mediante gráficos: • Diagrama de tallo y hojas

• Diagrama de barras

• Histograma y polígono de frecuencias • Pictograma

• Gráficos de dispersión 1.5 Medidas características de un conjunto de datos:

• Medidas de centralización

• Medidas de dispersión

• Otras medidas de forma • Medidas de dependencia lineal: covarianza y correlación

1.6 Transformaciones lineales y su efecto en las medidas características 1.7 Transformaciones no lineales que mejoran la simetría

PPAARRTTEE IIII:: PPRROOBBAABBIILLIIDDAADD

TEMA 2: Probabilidad

2.1 Introducción 2.2 Definición de probabilidad y propiedades 2.3 Probabilidad condicionada y probabilidad total 2.4 Independencia de sucesos 2.5 Teorema de Bayes

Ybnias Elí Grijalva Yauri [email protected] 1 of 265

Page 2: PARTE I: ESTADÍSTICA DESCRIPTIVA - Métodos … · • Medidas de dependencia lineal: ... 1.7 Transformaciones no lineales que mejoran la simetría ... Introducción al Control Estadístico

TEMA 3: Introducción a las variables aleatorias

3.1 Introducción: la variable aleatoria como modelo de variabilidad 3.2 Variables aleatorias discretas

• Función de probabilidad

• Función de distribución 3.3 Variables aleatorias continuas

• Función de densidad

• Función de distribución 3.4 Medidas características de las variables aleatorias

• Medidas de centralización

• Medidas de dispersión • Acotación de Tchebychev

• Efecto de las transformaciones lineales en las medidas características 3.5 Variables aleatorias multivariantes

• Distribución conjunta de un vector aleatorio

• Distribución marginal

• Distribución condicionada e independencia • Covarianza y correlación

TEMA 4: Modelos de probabilidad univariantes

4.1 Introducción 4.2 El proceso de Bernoulli 4.3 Variables aleatorias asociadas al proceso de Bernoulli

• Distribución de Bernoulli

• Distribución binomial

• Distribución geométrica 4.4 El proceso de Poisson 4.5 Variables aleatorias asociadas al proceso de Poisson

• Distribución de Poisson • Distribución exponencial

4.6 Fiabilidad • Tasa de fallos • Distribución Weibull

• Distribución Gamma 4.7 La distribución normal

• Propiedades

• El Teorema Central del Límite 4.8 Relación entre la normal, la binomial y la Poisson

Ybnias Elí Grijalva Yauri [email protected] 2 of 265

Page 3: PARTE I: ESTADÍSTICA DESCRIPTIVA - Métodos … · • Medidas de dependencia lineal: ... 1.7 Transformaciones no lineales que mejoran la simetría ... Introducción al Control Estadístico

PPAARRTTEE IIIIII:: IINNFFEERREENNCCIIAA

TEMA 5: Introducción a la inferencia estadística

5.1 La inferencia estadística. Población y muestra 5.2 Distribución muestral de un estadístico 5.3 La distribución de la media muestral 5.4 Estimación y estimadores 5.5 Diagnosis y crítica del modelo

• Contrastes de bondad de ajuste

• Métodos gráficos • Transformaciones para conseguir normalidad

5.6 El método de máxima verosimilitud • La distribución conjunta de la muestra

• La función de verosimilitud • El método de máxima verosimilitud

• Propiedades de los estimadores de máxima verosimilitud

TEMA 6: Inferencia con muestras grandes

6.1 Introducción 6.2 Intervalos de confianza para µ para muestras grandes 6.3 Determinación del tamaño muestral 6.4 Introducción al contraste de hipótesis 6.5 Contraste de hipótesis de la media µ para muestras grandes 6.6 Interpretación de un contraste usando el p-valor 6.7 Relación entre contrastes de hipótesis e intervalos de confianza 6.8 Inferencia sobre una proporción con muestras grandes

• Estimación • Intervalos y tamaño muestral

• Contrastes 6.9 Inferencia con estimadores de máxima verosimilitud

• Intervalos

• Contrastes

TEMA 7: Inferencia en una población normal

7.1 Inferencia en muestras pequeñas 7.2 La distribución t de Student 7.3 Inferencia sobre µ

• Intervalos de confianza

• Contrastes 7.4 Inferencia sobre σ2

• La distribución χ2

• Intervalos • Contrastes

Ybnias Elí Grijalva Yauri [email protected] 3 of 265

Page 4: PARTE I: ESTADÍSTICA DESCRIPTIVA - Métodos … · • Medidas de dependencia lineal: ... 1.7 Transformaciones no lineales que mejoran la simetría ... Introducción al Control Estadístico

TEMA 8: Comparación de poblaciones

8.1 Introducción 8.2 Comparación de dos medias usando muestras independientes

• Intervalos de la diferencia de medias

• Contrastes para la diferencia de medias 8.3 Comparación de dos medias usando datos emparejados 8.4 Comparación de dos varianzas en poblaciones normales

• Intervalo del ratio de varianzas • Contrastes

8.5 Comparación de dos proporciones • Intervalo de la diferencia de proporciones • Contrastes

PPAARRTTEE IIVV:: CCOONNTTRROOLL EESSTTAADDÍÍSSTTIICCOO DDEE PPRROOCCEESSOOSS

TEMA 9: Introducción al Control Estadístico de Procesos

9.1 Fundamentos de los gráficos de control 9.2 Gráfico de control para la media 9.3 Gráficos de control para la dispersión 9.4 Capacidad de un proceso. Índice de capacidad 9.5 Gráficos P y NP

Ybnias Elí Grijalva Yauri [email protected] 4 of 265

Page 5: PARTE I: ESTADÍSTICA DESCRIPTIVA - Métodos … · • Medidas de dependencia lineal: ... 1.7 Transformaciones no lineales que mejoran la simetría ... Introducción al Control Estadístico

Capítulo 7

Inferencia en una poblaciónnormal

1. Inferencia en muestras pequeñas

2. Inferencia con la distribución t de Student

3. Inferencia sobre µ

4. Inferencia sobre σ2

0Apuntes realizados por Ismael Sánchez. Universidad Carlos III de Madrid.

Ybnias Elí Grijalva Yauri [email protected] 180 of 265

Page 6: PARTE I: ESTADÍSTICA DESCRIPTIVA - Métodos … · • Medidas de dependencia lineal: ... 1.7 Transformaciones no lineales que mejoran la simetría ... Introducción al Control Estadístico

2 CAPÍTULO 7. INFERENCIA EN UNA POBLACIÓN NORMAL

7.1. Inferencia en muestras pequeñas

En este tema estamos interesados en hacer inferencia sobre los parámetros de una variablealeatoria normalX ∼ N(µ, σ2). Es decir, sobre su media µ y sobre su varianza σ2. En el tema anteri-or se introdujeron los elementos para realizar inferencia para la media µ de una población cualquieraen muestras grandes. El principio fundamental era que para una muestra X1,X2, ...,Xn de unavariable aleatoria X, la media muestral

X =X1 +X2 + · · ·+Xn

n

tiene una distribución muestral que se aproxima asintóticamente a la normal (es decir, a mayortamaño muestral n, mayor parecido a la normal). La justificación de este resultado se encuentraen la aplicación del teorema central del límite. En la práctica, tamaños muestrales en torno a 50obervaciones pueden ser suficientes para que podamos realizar intervalos de confianza y contrastessobre µ basados en la media muestral y su aproximación a la normal. Cuando el tamaño muestrales pequeño, el teorema central del límite ya no se cumple, y la distribución de la variable aleatoriaX en el muestreo depende de la distribución de la variable X que estamos analizando. En estoscasos, los intervalos de confianza que construyamos siguiendo la formulación del tema anterior yano tendrán el nivel de confianza que deseamos, ni los contrastes tendrán el nivel de significación oel p-valor que nos salga en los cálculos; al estar basados en propiedades estadísticas que ya no secumplen.En este tema nos ocuparemos de la inferencia cuando la variable de interés X es normal, y que

será de especial interés en muestras pequeñas. Como ya se ha mencionado en temas anteriores,las variables aleatorias normales verifican que su combinación lineal produce variablesaleatorias normales, para cualquier número de variables que combinemos. De esta formatenemos que, para cualquier tamaño muestral grande o pequeño, si X ∼ N(µ, σ2),

X ∼ Nµµ,σ2

n

¶,

y por tanto

Z =X − µσ/√n∼ N (0, 1) , (7.1)

para cualquier n. Cuando σ2 es desconocida, ha de utilizarse un estimador. En este tema seguiremosutilizando como estimador de σ2 el estimador insesgado

S2 =

Pni=1

¡Xi − X

¢2n− 1 . (7.2)

Si sustituimos σ2 por S2 en (7.1) obtenemos el estadístico T siguiente:

T =X − µS/√n. (7.3)

En el tema anterior, también acudíamos a este estadístico T para hacer inferencia. Hay una difer-encia importante entre los estadísticos Z y T que hace que en muestras pequeñas sus propiedadesestadísticas sean diferentes. En Z sólo interviene una variable aleatoria, que es la media muestralX. Al ser X normal y estandarizarse con sus verdaderos parámetros, obtenemos que Z es la normal

Ybnias Elí Grijalva Yauri [email protected] 181 of 265

Page 7: PARTE I: ESTADÍSTICA DESCRIPTIVA - Métodos … · • Medidas de dependencia lineal: ... 1.7 Transformaciones no lineales que mejoran la simetría ... Introducción al Control Estadístico

7.2. INFERENCIA CON LA DISTRIBUCIÓN T DE STUDENT 3

estándar. En T hay, sin embargo, dos variables aleatorias, X en el numerador y S en el denomi-nador. Se puede demostrar que con muestras grandes, el componente aleatorio que aporta S en laspropiedades estadísticas de T puede despreciarse. Por esta razón, en el tema anterior utilizamosque, para muestras grandes

T ∼ N(0, 1). (7.4)

Para muestras pequeñas, la distribución muestral de T viene influenciada tantopor X como por S, por lo que la aproximación a la normal que se usa en (7.4) serámuy imprecisa. La distribución muestral de T cuando X es normal es conocida yse denomina distribución t de Student. En la siguiente sección se describe brevemente estadistribución.

7.2. Inferencia con la distribución t de Student

La distribución t de Student es una variable aleatoria continua, simétrica, de media cero, y deperfil muy parecido a la normal estándar. Depende de un parámetro g que se denomina grados delibertad. Su notación habitual es tg. La figura siguiente muestra dos ejemplos de distribución tgcon g = 3 y g = 10 junto con la distribución N(0, 1).

En este gráfico puede verse que cuanto mayor es el número de grados de libertad, más parecidohay entre la distribución tg y N(0, 1). Puede demostrarse que efectivamente la función de densidadde tg tiende hacia la normal a medida que aumentan los grados de libertad. Para g = ∞ ladistribución tg es idéntica a la N(0, 1), pero a efectos prácticos, para g > 30 ambas distribucionesproporcionan probabilidades similares. La principal diferencia entre ambas distribuciones es que conpocos grados de libertad, la distribución tg tiene la zona de las colas más ancha que laN(0, 1). Estadiferencia es muy importante, pues en estas zonas de las colas donde nos interesarácalcular probabilidades; tanto para la construcción de intervalos de confianza como encontrastes. Esta distribución está tabulada y puede encontrarse en la mayoría de los manuales deestadística.

Ybnias Elí Grijalva Yauri [email protected] 182 of 265

Page 8: PARTE I: ESTADÍSTICA DESCRIPTIVA - Métodos … · • Medidas de dependencia lineal: ... 1.7 Transformaciones no lineales que mejoran la simetría ... Introducción al Control Estadístico

4 CAPÍTULO 7. INFERENCIA EN UNA POBLACIÓN NORMAL

Puede demostrarse que si X ∼ N(µ, σ2),

T =X − µS/√n∼ tn−1, (7.5)

donde n es el tamaño de la muestra. Para tamaños muestrales pequeños, tendremos greducidos, y por tanto mayores diferencias entre tn−1 y N(0, 1). Será entonces máspreciso utilizar la distribución tn−1 en aquellos lugares en los que al hacer inferenciapara una población normal (intervalos y contrastes) usemos el estadístico T.

7.3. Inferencia sobre µ

7.3.1. Intervalos de confianza

En el tema anterior se dedujo el intervalo de confianza para µ para muestras grandes, válidopara cualquier distribución de X. Este intervalo, de nivel de confianza (1− α) es

µ ∈½x± zα/2 s√n

¾. (7.6)

En el caso X ∼ N(µ, σ2), un intervalo más preciso, sobre todo con muestras pequeñas, se ob-tiene reemplazando los valores de la normal estándar zα/2 por los de la distribución tn−1. Elrazonamiento es el mismo que el que se siguió en el tema anterior. De (7.5) se tiene que

P¡−tn−1;α/2 < T < tn−1;α/2¢ = 1− α

donde tn−1;α/2 es el valor de la distribución tn−1 que deja el área α/2 a la derecha, como se muestraen la siguiente figura

Por tanto, se tiene que

P

Ã−tn−1;α/2 < X − µ

S/√n< tn−1;α/2

!= 1− α

Ybnias Elí Grijalva Yauri [email protected] 183 of 265

Page 9: PARTE I: ESTADÍSTICA DESCRIPTIVA - Métodos … · • Medidas de dependencia lineal: ... 1.7 Transformaciones no lineales que mejoran la simetría ... Introducción al Control Estadístico

7.3. INFERENCIA SOBRE µ 5

y operando en el interior del paréntesis

P

ÃX − tn−1;α/2 S√n < µ < X + tn−1;α/2

S√n

!= 1− α.

Por lo tanto, un intervalo de nivel de confianza (1− α) para la media µ de una población normala partir de la información que suministra una muestra de tamaño n es

IC(1− α) : µ ∈½x± tn−1;α/2 s√n

¾. (7.7)

En la práctica, si los datos proceden de una normal, deberemos utilizar siempre la distribucióntn−1 en los intervalos. De esta forma aseguraremos que el nivel de confianza real es (1 − α). Losintervalos de confianza en (7.6) son intervalos asintóticos, y en la práctica sólo podremos estarseguros de que el nivel de confianza real es (1 − α) si el tamaño muestral es muy grande. Sinembargo, el intervalo (7.7) está hecho a la medidad de una población normal y el tamaño muestraln, y por eso siempre tienen el nivel de confianza (1− α). Por esta razón se dice que los intervalos(7.7) son exactos. Para poder aplicar (7.7) debemos asegurarnos que nuestros datos se ajustansuficientemente a la normal. Para saber si los datos de la muestra proceden de una normal podemoshacer un histograma de los mismos o incluso algún test de bondad de ajuste como el test de lachi-cuadrado que se vio en temas anteriores.

Ejemplo 1 En una explotación minera las rocas excavadas se someten a un análisis químicopara determinar su contenido porcentual de Cadmio. Después de analizar 25 rocas se obtiene quex = 9,77 y s = 3,164..Suponiendo que el contenido porcentual de Cadmio sigue una distribuciónnormal. Se quiere construir un intervalo de confianza al 95% para el contenido porcentual mediode Cadmio en la mina. El tamaño de la muestra n = 25 es muy pequeño para que los intervalosasintóticos (7.6) sean válidos. Al ser la variable de interés una normal, podemos emplear el intervaloexacto (7.7). El intervalo de nivel de confianza 0,95 será

0,95 = P

(−tn−1,α/2 < X − µ0

S/√n< tn−1,α/2

)

= P

(X − tn−1,α/2 S√

n< µ < X + tn−1,α/2

S√n

)Luego el intervalo es de la forma

IC(1− α) : µ ∈½x± tn−1,α/2 s√

n

¾.

Usando α = 0,05 tenemos que, según las tablas de la t24, t24,0,025 = 2,06. El intervalo para elcontenido medio de cadmio de las rocas que se extraigan de la mina es

IC(0,95) : µ ∈½9,77± 2,063,164√

25

¾= (8,47, 11,07) .

A la vista de este resultado, los técniccos de la mina pueden tomar una decisión acerca de laconveniencia de seguir haciendo prospección en dicha mina o por el contrario deben descartar suexplotación.

Ybnias Elí Grijalva Yauri [email protected] 184 of 265

Page 10: PARTE I: ESTADÍSTICA DESCRIPTIVA - Métodos … · • Medidas de dependencia lineal: ... 1.7 Transformaciones no lineales que mejoran la simetría ... Introducción al Control Estadístico

6 CAPÍTULO 7. INFERENCIA EN UNA POBLACIÓN NORMAL

7.3.2. Contrastes de hipótesis

Se quiere contrastar alguna de las siguientes hipótesis:

1. H0 : µ = µ0; frente a H1 : µ 6= µ0,2. H0 : µ ≥ µ0; frente a H1 : µ < µ0,3. H0 : µ ≤ µ0; frente a H1 : µ > µ0.

La forma de realizar los contrastes para poblaciones normales es la misma que la que se mencionóen el tema anterior, con la única diferencia de la distribución de referencia del estadístico T, queserá la distribución tn−1 en lugar de la aproximación a la normal estándar. La siguiente tablaresume los detalles de estos contrastes.

ContrastesEstadísticosde contraste

Distribuciónde referencia

Regiónde rechazo

(1)-H0 : µ = µ0; H1 : µ 6= µ0(2)-H0 : µ ≥ µ0; H1 : µ < µ0(3)-H0 : µ ≤ µ0; H1 : µ > µ0

(a) Z0 =X − µ0σ/√n

(b) T0 =X − µ0S/√n

(a) Z0 ∼ N(0, 1)(b) T0 ∼ tn−1

(1-a) |z0| > zα/2(2-a) z0 < −zα(3-a) z0 > zα(1-b) |t0| > tn−1;α/2(2-b) t0 < −tn−1;α(3-b) t0 > tn−1;α

Ejemplo 2 Con los datos de la muestra de transistores BC547B mencionados en el tema anteriordeseamos contrastar si se mantiene el valor nominal µ = 290 como media de la distribucionpoblacional de valores β, es decir,

H0 : µ = 290

H1 : µ 6= 290

Para hacer el contraste se toma una muestra de n = 100 observaciones y se obtiene la mediamuestral x y la cuasivarianza s2. El histograma de este conjunto de datos junto con la normalN(x, s2) sobreimpresa es el siguiente

Esta figura sugiere que loss datos podrían proceder de una distribución normal. El p-valor delcontraste chi-cuadrado es mayor que 5%, lo que refuerza la bondad del ajuste de la normal a

Ybnias Elí Grijalva Yauri [email protected] 185 of 265

Page 11: PARTE I: ESTADÍSTICA DESCRIPTIVA - Métodos … · • Medidas de dependencia lineal: ... 1.7 Transformaciones no lineales que mejoran la simetría ... Introducción al Control Estadístico

7.4. INFERENCIA SOBRE σ2 7

nuestros datos. Consideramos entonces, con un p-valor<0.05, que es aceptable la normalidad de lapoblación de valores β. Por tanto realizaremos el contraste usando como distribución de referenciapara el estadístico de contraste la distribución tn−1. Los datos muestran que

x = 282,3; s = 27,57;

t0 =x− µ0s/√n=282,3− 29027,69/10

= −2,78.

Como es un contraste bilateral necesitamos dos valores críticos. Como la distribución de referenciatn−1 es simétrica de media cero, ambos valores críticos serán iguales pero de signo contrario.Uusando un nivel de significación α = 0,05, y la distribución de referencia t de Student conn − 1 = 99 grados de libertad se tiene que t99;0,025 = 1,984. Por tanto, como |t0| = 2,78 > 1,984rechazamos H0. Rechazamos, con un nivel de significación del 5%, que la ganancia media de lostransistores se siga manteniendo en elvalor 290.

7.4. Inferencia sobre σ2

7.4.1. Estimación

En esta sección simplemente recordaremos que hemos visto dos estimadores para σ2 : la varianzamuestral

S2 =

Pni=1

¡Xi − X

¢2n

,

que es un estimadorde σ2 sesgado, y la cuasivarianza

S2 =

Pni=1

¡Xi − X

¢2n− 1 ,

que es insesgado. Para poblaciones normales, la distribución muestral de ambos estimadores estárelacionada con la distribución llamada chi-cuadrado. A continuación vamos a describir brevementeesta distribución.

7.4.2. La distribución χ2g

Antes de presentar resultados sobre la inferencia relacionada con σ2 en poblaciones normales,presentaremos una variable aleatoria denominada chi-cuadrado, y que se denota por χ2g. La dis-tribución chi-cuadrado es una distribución que depende del parámetro g que se denomina gradosde libertad (g = 1, 2, ...). La distribución χ2g va de 0 a ∞ y es asimétrica positiva. Su asimetríadisminuye al aumentar los grados de libertad. la figura siguiente muestra la función de densidad

Ybnias Elí Grijalva Yauri [email protected] 186 of 265

Page 12: PARTE I: ESTADÍSTICA DESCRIPTIVA - Métodos … · • Medidas de dependencia lineal: ... 1.7 Transformaciones no lineales que mejoran la simetría ... Introducción al Control Estadístico

8 CAPÍTULO 7. INFERENCIA EN UNA POBLACIÓN NORMAL

de la χ23 y la χ26.

Las medidas características de la χ2g son

E(χ2g) = g,

Var(χ2g) = 2g.

Esta distribución está también tabulada y puede encontrarse en la mayoría de los textos de es-tadística.

La distribución muestral de los estimadores de σ2, la varianza y la cuasivarianza muestral, enpoblaciones normales están relacionadas con esta distribución. Puede demostrarse que

(n− 1)S2σ2

∼ χ2n−1; (7.8)

nS2

σ2∼ χ2n−1.

donde n es el tamaño de la muestra.

7.4.3. Intervalos de confianza para σ2

Para construir los intervalos de confianza para σ2 en una población normal vamos a seguir elmismo razonamiento que el utilizado para deducir los intervalos de µ. De (7.8) puede deducirseque

P

Ãχ2n−1;1−α/2 <

(n− 1)S2σ2

< χ2n−1;α/2

!= 1− α. (7.9)

Ybnias Elí Grijalva Yauri [email protected] 187 of 265

Page 13: PARTE I: ESTADÍSTICA DESCRIPTIVA - Métodos … · • Medidas de dependencia lineal: ... 1.7 Transformaciones no lineales que mejoran la simetría ... Introducción al Control Estadístico

7.4. INFERENCIA SOBRE σ2 9

donde χ2n−1;α/2 es el valor de la distribución χ2n−1 que deja el área α/2 a la derecha. La figura

siguiente ilustra estos valores χ2n−1;α/2 y χ2n−1;1−α/2.

Operando en el interior del paréntesis de (7.9) se obtiene que

P

Ã(n− 1)s2χ2n−1;α/2

< σ2 <(n− 1)s2χ2n−1;1−α/2

!,

o bien, para el caso del estimador S2,

P

ÃnS2

χ2n−1;α/2< σ2 <

nS2

χ2n−1;1−α/2

!.

Por tanto, un intervalo de confianza de nivel de confianza (1− α) para el parámetro σ2 será

IC(1− α) : σ2 ∈Ã(n− 1)s2χ2n−1;α/2

,(n− 1)s2χ2n−1;1−α/2

!(7.10)

o bien, si utilizamos el estimador S2,

IC(1− α) : σ2 ∈Ã

ns2

χ2n−1;α/2,

ns2

χ2n−1;1−α/2

!. (7.11)

A diferencia de los intervalos de confianza para µ, los intervalos para σ2 no son simétricosalrededor de s2 o s2.

Ejemplo 3 Continuando con el ejemplo 1 anterior sobre el contenido de cadmio en rocas, quere-mos construir un intervalo de confianza al 99% para σ2. Como el estimador utilizado para σ2 esla cuasivarianza muestral S2, se tiene que

0,99 = P

(χ2n−1,α/2 <

(n− 1)S2σ2

< χ2n−1,1−α/2

)= P

((n− 1)S2χ2n−1,1−α/2

< σ2 <(n− 1)S2χ2n−1,α/2

)Como α = 0,01, tenemos que según las tablas de la chi cuadrado: χ224,0,995 = 9,89, χ

224,0,005 = 45,6.

El intervalo es:IC (0,99) : σ2 ∈ (5,27, 24,29)

Ybnias Elí Grijalva Yauri [email protected] 188 of 265

Page 14: PARTE I: ESTADÍSTICA DESCRIPTIVA - Métodos … · • Medidas de dependencia lineal: ... 1.7 Transformaciones no lineales que mejoran la simetría ... Introducción al Control Estadístico

10 CAPÍTULO 7. INFERENCIA EN UNA POBLACIÓN NORMAL

7.4.4. Contraste de hipótesis

Se quiere contrastar las siguientes hipótesis.

1. H0 : σ2 = σ20; H1 : σ2 6= σ20

2. H0 : σ2 ≥ σ20; H1 : σ2 < σ20

3. H0 : σ2 ≤ σ20; H1 : σ2 > σ20

donde σ20 es un valor numérico concreto. Los contrastes para σ2 en poblaciones normales

siguen las mismas reglas que en los contrastes vistos para µ. El contraste se basa en las sigu-ientes propiedades de la varianza muestral en poblaciones normales X ∼ N(µ, σ2) que ya se hanmencionado anteriormente:

(n− 1)S2σ2

∼ χ2n−1, (7.12a)

nS2

σ2∼ χ2n−1. (7.12b)

El estadístico de contraste que resuma la información necesaria para realizar un contraste sebasará en (7.12), pero sustituyendo σ2 por σ20. El estadístico de contraste es por tanto:

X20 =

(n− 1)S2σ20

; (7.13)

X20 =

nS2

σ20. (7.14)

Ejemplo 4 Volviendo a los datos sobre los transistores BC547B mencionados anteriormente,teníamos el objetivo de comprobar si la media no había cambiado, así como comprobar si la varian-za no había aumentado. Podemos ahora contrastar este segundo punto. Los datos históricos decíanque σ20 = 760. Por tanto el contraste es

H0 : σ2 ≤ 760;H1 : σ2 > 760.

Asumiendo a la vista del test de la chi-cuadrado que los datos son normales podemos realizar elcontraste presentado más arriba. De los datos se obtiene

x20 =(n− 1)s2σ20

=99× 766,85

760= 99,89.

Al realizar un contraste de hipótesis, aceptaremos la hipótesis nula salvo que los datos arrojenmucha evidencia en contra. Por tanto, rechazaremos la hipótesis nula cuando el valor del estimadorde σ2 que usemos haga lo que especifique la hipótesis alternativa de forma muy acusada.

Ybnias Elí Grijalva Yauri [email protected] 189 of 265

Page 15: PARTE I: ESTADÍSTICA DESCRIPTIVA - Métodos … · • Medidas de dependencia lineal: ... 1.7 Transformaciones no lineales que mejoran la simetría ... Introducción al Control Estadístico

7.4. INFERENCIA SOBRE σ2 11

En el caso del contraste con alternativa bilateral H0 : σ2 = σ20; H1 : σ2 6= σ20, rechazaremos H0

cuando s2 (o s2) tenga un valor s2 >> σ20 o s2 << σ20, como se ilustra en la siguiente figura

Puede verse en (7.13) que cuando s2 >> σ20, el estadístico de contraste X20 tendrá también

un valor alto, y tenderá a estar en la cola de la derecha de la distribución de referencia, mientrasque cuando s2 << σ20, el estadístico X

20 estará en la zona de la izquierda de la distribución de

referencia. La región de rechazo, de área igual al nivel de significación α, estará a ambos extremosde la distribución χ2n−1, como se ilustra en la siguiente figura.

Análogamente, en el caso de un contraste con alternativa unilateral, la región de rechazo estarásólo a un lado de la distribución. En el caso del contraste H0 : σ2 ≥ σ20; H1 : σ2 < σ20, rechazaremoscuando s2 << σ20, o análogamente, cuando X

20 tenga un valor muy bajo. Finalmente, en el caso

del contraste H0 : σ2 ≤ σ20; H1 : σ2 > σ20, rechazaremos cuando s2 >> σ20, lo que dará un valor delestadístico de contraste en la cola de la derecha de la distribución χ2n−1. Puede verse por tanto,que la región de rechazo está allá donde señala H1. Las siguientes figuras muestran las recgiones

Ybnias Elí Grijalva Yauri [email protected] 190 of 265

Page 16: PARTE I: ESTADÍSTICA DESCRIPTIVA - Métodos … · • Medidas de dependencia lineal: ... 1.7 Transformaciones no lineales que mejoran la simetría ... Introducción al Control Estadístico

12 CAPÍTULO 7. INFERENCIA EN UNA POBLACIÓN NORMAL

de rechazo en estos dos contrastes.

La siguiente tabla resume las características de estos contrastes

ContrastesEstadísticosde contraste

Distribuciónde referencia

Regiónde rechazo

(1)-H0 : σ2 = σ20; H1 : σ2 6= σ20

(2)-H0 : σ2 ≥ σ20; H1 : σ2 < σ20(3)-H0 : σ2 ≤ σ20; H1 : σ2 > σ20

X20 =

(n− 1)S2σ20

X20 =

nS2

σ20

X20 ∼ χ2n−1

(1)x20 > χ

2n−1;α/2

ó x20 < χ2n−1;1−α/2

(2) x20 < χ2n−1;1−α

(3) x20 > χ2n−1;α

Ejemplo 5 Volviendo a los datos sobre los transistores BC547B, rechazaremos H0 si x20 > χ299;0,05.

Como χ299;0,05 = 123,2 y x20 = 99,89, no podemos rechazar la hipótesis nula, con un nivel de sig-

nificación de α = 0,05, de que el proceso no ha aumentado su variabilidad. Por tanto, aunques2 = 766,85 > σ20, la diferencia no es significativa, y es es perfectamente explicable por la variabil-idad debida a la muestra. El p-valor de este contraste será la probabilidad P (χ299 > 99,89) = 0,456que es muy elevada, por lo que x20 está bastante dentro de la región de aceptación. Aceptamos lahipótesis nula con bastante seguridad.

Ejemplo 6 Un fabricante de aparatos de precisión garantiza que la desviación típica de las medidasque pueden efectuarse con el tipo de balanza que comercializa es σ ≤ 5 unidades. Para compro-bar dicha afirmación se pesa un objeto en 100 básculas de dicho tipo y se obtiene una varianzamuestral de s2 =26.243. Si sabemos que la distribucion de los pesos siguen una normal, realizarun contraste que permita tomar una decisión respecto a aceptar o no la información suministradapor el fabricante (α = 0,05).Lo que queremos contrastar es

H0 : σ2 ≤ σ20(= 25);H1 : σ2 > 25.

Se rechaza H0 si s2 >> σ20; más concretamente, si

ns2

σ20> χ2n−1;α

De los datos se tiene que n = 100, s2 = 26,243. Por tanto

x20 =ns2

σ20=100× 26,243

25= 104,972,

χ299,0,05 = 123,2 (Statgraphics).

Ybnias Elí Grijalva Yauri [email protected] 191 of 265

Page 17: PARTE I: ESTADÍSTICA DESCRIPTIVA - Métodos … · • Medidas de dependencia lineal: ... 1.7 Transformaciones no lineales que mejoran la simetría ... Introducción al Control Estadístico

7.4. INFERENCIA SOBRE σ2 13

Como X0 < χ299,0,05 no tenemos evidencia suficiente (con un nivel del 5%) para sospechar delfabricante. Es decir, si la población tiene σ2 ≤ 25 no es raro encontrar que en una muestra detamaño n = 100 tengamos s2 = 26,243. Entra dentro de la variabilidad muestral que se encuentrapor azar al tener muestras de tamaño 100.

Ybnias Elí Grijalva Yauri [email protected] 192 of 265

Page 18: PARTE I: ESTADÍSTICA DESCRIPTIVA - Métodos … · • Medidas de dependencia lineal: ... 1.7 Transformaciones no lineales que mejoran la simetría ... Introducción al Control Estadístico

Tema 7: Inferencia en una población normalHOJA DE EJERCICIOS

1. La duración de un cierto componente sigue una distribución normal de media µ desconocida y desviacióntípica σ = 100 horas. Se desea enviar una muestra de dichos componentes al laboratrorio para que haganpruebas y estimen la duración media. Se quiere que la duración media muestral no difiera de µ en más de50 horas, con una probabilidad de 0.95. Hallar el tamaño de la muestra que hará falta

SOLUCIÓN:

n ≈ 16 componentes2. Una muestra aleatoria extraída de una población normal presenta una media muestral x = 160 y cuasi-varianza s2 = 100. Para n = 14, se pide:

(a) Calcular un intervalo de confianza del 95% para la media poblacional.

(b) Calcular un intervalo de confianza del 90% para la media poblacional. (junio 99)

SOLUCIÓN:

(a) 95%, IC(0.95);µ ∈ (154.2; 165.8)(b) 90%, IC(0.90);µ ∈ (155.3; 164.7)

3. En una explotación minera las rocas excavadas se someten a un análisis químico para determinar su con-tenido porcentual de Cadmio. Después de analizar 25 rocas se obtiene que x = 9.77 y s = 3.164..Suponiendoque el contenido porcentual de Cadmio sigue una distribución normal, sepide:

(a) Construir un intervalo de confianza al 95% para el contenido porcentual medio de Cadmio en la mina.

(b) Construir un intervalo de confianza al 99% para σ2.

SOLUCIÓN:

(a) IC(1− α) : µ ∈ (8.47, 11.07)(b) El intervalo es: (5.27, 24.29)

4. Un proceso de rellenado de envases produce, cuando funciona correctamente, un peso promedio de 200 g.por envase. Una muestra aleatoria de 9 envases presentó los siguientes contenidos (en gramos):

214 197 197 206 208 201 197 203 209

Asumiendo que la distribución de la población es normal, contrastar a un nivel de significación del 5%la hipótesis de que el proceso está funcionando correctamente, frente a la alternativa bilateral.(Nota:x = 203.55, s = 6.12)(junio 97)

SOLUCIÓN:

No hay evidencia suficiente, con un nivel de significación del 5%, para rechazar la hipótesis nula.

5. Un fabricante de aparatos de precisión garantiza que la desviación típica de las medidas que puedenefectuarse con el tipo de balanza que comercializa es σ ≤ 5 unidades. Para comprobar dicha afirmaciónse pesa un objeto en 100 básculas de dicho tipo y se obtiene una varianza muestral de s2 =26.243. Si

1

Ybnias Elí Grijalva Yauri [email protected] 193 of 265

Page 19: PARTE I: ESTADÍSTICA DESCRIPTIVA - Métodos … · • Medidas de dependencia lineal: ... 1.7 Transformaciones no lineales que mejoran la simetría ... Introducción al Control Estadístico

sabemos que la distribucion de los pesos siguen una normal, realizar un contraste que permita tomar unadecisión respecto a aceptar o no la información suministrada por el fabricante (α = 0.05). (junio 98)

SOLUCIÓN:

No hay evidencia suficiente, con α = 0.05, para rechazar la información proporcionada por el fabricante.

6. Basándonos en una muestra de tamaño n = 18 de una población normal, se concluye que un intervalo deconfianza del 95% para la media es

IC(0.95) : µ ∈ (17; 19)

(a) Realiza un intervalo de confianza para la varianza del 90%

(b) ¿Cuál será el resultado del contraste H0 : µ = 16;H1 : µ 6= 16 con un nivel de significación del 5%?

SOLUCIÓN:

(a) IC(0.90) : σ2 ∈ (2.49; 7.92)(b) Se rechaza, con α = 0.05 que µ = 16.

7. Se tiene una muestra aleatoria simple de tamaño n de una variable aleatoria X. Se realiza el contrasteH0 : σ2 ≥ 10;H1 : σ2 < 10 con α = 0.05 y se rechaza H0. Decir para cada una de las siguientes cuestiones,si son verdaderas, falsas, o inciertas

(a) El contraste no es válido, pues no sabemos si el tamaño muestral es grande o pequeño

(b) Si X es normal, el contraste será siempre válido aunque n sea pequeño

(c) Si el tamaño muestral es grande, la distribución de referencia será la normal estándar, pero si espequeño será la tn−1

(d) Sólo usaremos la distribución de referencia tn−1 si X es normal

(e) La distribución de referencia es χ2n si utilizamos como estimador de σ2 a S2 y χ2n−1 si utilizamos el

estimador insesgado

(f) El intervalo de confianza de nivel de confianza 0.95 no contendrá el valor 10.

8. Se tiene una muestra aleatoria simple de tamaño n = 15 de una variable aleatoria X de distribucióndesconocida. A partir de las estimaciones x y s2 Se realiza el contraste H0 : µ ≥ 10;H1 : µ < 10 conα = 0.05 y se rechaza H0. Decir para cada una de las siguientes cuestiones, si son verdaderas, falsas, oinciertas

(a) Al tener un tamaño muestral pequeño, el contraste sólo será válido si usamos la distribución tn−1 dedistribución de referencia

(b) Si X no es normal, no podremos hacer el contraste con las herramientas estadísticas que hemosestudiado

(c) Si X es normal podemos utilizar tanto la tn−1 como la Z de distribución de referencia para hacerdicho contraste

(d) Como hemos rechazado H0 será imposible que la población tenga una media muestral mayor que 10

(e) Como hemos rechazado H0 con α = 0.05, la probabilidad de equivocarnos y que la población tengaµ ≥ 10 es 0.05

2

Ybnias Elí Grijalva Yauri [email protected] 194 of 265