estimación de parámetros
DESCRIPTION
Estimación de Parámetros, universidad continental de ciencias y ingenieríaTRANSCRIPT
ESTADÍSTICA
Muestreo y Estimación
Introducción Preguntas: ¿Cuál es el tiempo promedio de trabajo (en horas) de los
trabajadores de una empresa? ¿Cuál es el tiempo promedio que demoran en hacer una
determinada tarea los trabajadores del área de Mantenimiento? En un día, ¿qué porcentaje de los trabajadores solicitan permiso
para ausentarse por enfermedad? En promedio, ¿cuánto autos pasan por día por la caseta de peaje? Etc.
Inferencia Estadística
La inferencia estadística se refiere a los métodos y procesos para obtener conclusiones acerca de Poblaciones, basados en información muestral. Combinamos nuestro conocimiento sobre
el manejo de información con la teoría de probabilidades para poder derivar inferencias sobre la población, tomando como base información muestral.
El muestreo
En muchos problemas, los datos de sólo una parte de
la población (muestra), pueden dar la información
necesaria para tomar una decisión o probar una
hipótesis referente a la población o universo. El objetivo del muestreo es seleccionar una muestra
que sea representativa de la población. Para esto, se
debe determinar el método adecuado de selección, el
tamaño correcto de la muestra y la técnica de
estimación de las características de la población en
base a la muestra.
Parámetro y estadísticoUna característica especial de la población se denomina un parámetro, su contra parte en la muestra, se llama estadístico o estadígrafo.
Población MuestraCaracterísticas Parámetro Estadístico Media µ XProporciónpDesviación EstándarSVarianza S
En resumen, tomamos una muestra y usando las leyes de probabilidades logramos un estimado de los parámetros de la población.
P
Propiedad de la media muestral
Menor tamaño de muestra
X
f XMayor tamaño
de muestra
A medida que la muestra crece la media muestral se acerca a la media
verdadera
¿Qué tan grande debe ser la muestra?
Para la mayoría de las distribuciones se
obtiene una buena aproximación para n ≥ 30
Para distribuciones casi simétricas, n ≥ 15
Para poblaciones distribuidas normalmente, la
distribución muestral de la media siempre será
normalmente distribuida
Propiedad de la proporción muestral
Tamaño de muestra menor
Tamaño de muestra mayor
A medida que la muestra crece la proporción muestral se acerca a la
proporción poblacional)(Pf
Pp
Estimación de parámetros
Proceso de Estimación
Población Muestra
Estimador
Estimación
Población
μ=???
σ=???
μ Estimado=
σ Estimado= s
x
Estimación de parámetros
Definimos la población que nos interesa.
No conocemos sus parámetros. De la población se obtiene una
muestra aleatoria. A partir de la muestra, obtenemos
información acerca los parámetros desconocidos.
Métodos de estimación de parámetros
Estimación
EstimaciónPuntual
Estimación de Intervalo
Parámetro =
Número
Parámetro [a, b]
Métodos de estimación de parámetros
Estimación puntual Parámetro = Número
El 24% de los limeños tiene temor a sufrir un atraco o
asalto con armas, según sondeo PUCP de agosto 2009.
Estimación por intervalos Parámetro está en el intervalo [a, b]
El peso medio de las cajas de cereal está entre 248 y 252
gramos con una confianza del 95%
Estimación Puntual
El estadístico muestral usado para
estimar un parámetro de la población se llama estimador puntual, y un valor observado específico, calculado con los valores de la muestra se llama estimación puntual del parámetro de interés.
15
Estimadores Puntuales
Media
Proporción
Varianza
Desv. Estándar
p
Estimador Población Muestra
x
p2
s
2s
Estimación Puntual
El estimador puntual es una variable aleatoria y por lo tanto tiene una distribución de probabilidades
Una estimación puntual es insesgada si el valor esperado del estadístico es igual al parámetro poblacional que se está estimando.
X es un estimador insesgado de µ
es un estimador insesgado de p P
XE
pPE
22
1
2
2
)(
1
)
SE
n
X(XS
n
ii
La varianza muestral o cuasi varianza definida como:
Es un estimador insesgado de la varianza poblacional pues:
Ejemplo Una pizzería está estudiando la posibilidad de
colocar como publicidad, los días viernes, que garantiza sus entregas de pizzas en menos de 30 minutos, caso contrario la pizza será gratis. Para determinar si es capaz de lograrlo, un día viernes se realiza un muestreo de 40 entregas de pizzas.
Determine las siguientes estimaciones puntuales poblacionales (para todos los tiempos de entrega):
1. Tiempo promedio de entrega2. Desviación estándar de los tiempos de entrega3. Proporción muestral de los tiempos de entrega
que demoran 30 minutos o más.
REGISTRO DEL TIEMPO DE ENTREGA DE PIZZAS
1 252 153 304 315 306 207 228 129 2610 3211 2312 2313 2714 2915 1216 2117 2018 3019 2720 2821 2822 2523 2624 2025 1526 3227 3128 1329 3230 3031 2732 2033 2534 1535 1236 2137 3138 2139 3140 27
Num de orden
Tiempo de entrega (min)
Ejemplo (Continuación)
Las estimaciones respectivas son:
=24.13 min
S =6.26 min
= 0.275
x
P
Estimación por intervalos
Estimación por Intervalo
Describe un intervalo de valores dentro del cual es posible que esté el parámetro de la población. Basado en las observaciones de la
muestra. Da información sobre el error de la
estimación. Proporciona un grado de confianza para
determinar donde se ubica el parámetro de la población.
Proceso de estimación por intervalos
La media, , es desconocida
Población
Muestra aleatoria
La verdadera media de la población se
encuentra entre 40 y 60 con una
confianza del 95%
Media X = 50
Muestra
Media muestral
Intervalo de confianza
Intervalo de Confianza
Intervalo de ConfianzaEstadística de la
Muestra
Límite de Confianza Inferior
Amplitud de la estimación que estamos haciendo
Límite de Confianza Superior
Probabilidad de que el intervalo contenga al parámetro de la población que se está estimando
Se denota (1 - )x100 es la área bajo la curva en el ancho del
intervalo. es el área en cada extremo o cola.
Niveles de confianza típicos son:
99%, 95%, 90%
Nivel de Confianza
27
Intervalo y Nivel de Confianza
El IC se obtiene de la Distrib. de la Media Muestral
(1 - )x100% de los intervalos de las muestras contienen a
x
Interpretación del nivel de confianza
Ejemplo: Nivel de confianza = 95%
Si se seleccionan repetidamente 100
muestras de tamaño n, y calculamos las
medias de cada una de ellas, podremos
construir 100 intervalos de confianza. Se
espera o confía que 95 de ellos
contengan el parámetro y los 5
restantes no lo contengan.
z Scores
5% or 0.05
(z score will be positive)
z Scores
1.645
5% or 0.05
(z score will be positive)
(One z score will be negative and
the other positive)
z Scores
(One z score will be negative and
the other positive)
z Scores
(One z score will be negative and
the other positive)
z Scores
The Critical Value z2
Finding z2 for 95% Degree of Confidence
-z2z2
Critical Values
2 = 2.5% = .025
= 5%
z2 = ± 1.96
Use Table A-2to find a z score of 1.96
= 0.05
Finding z2 for 95% Degree
of Confidence
Intervalo de confianza para Población infinita
Varianza poblacional conocida
Varianza poblacional desconocida
nzx
nzx
2
12
1
n
stx
n
stx
nn 1,2
1,2
Intervalo de confianza para Población finita
Varianza poblacional conocida
Varianza poblacional desconocida
11 21
21
NnN
nzx
NnN
nzx
11 1,2
1,2
NnN
n
stx
NnN
n
stx
nn
Ejercicio
Se visitó 20 restaurantes de una cadena de comida rápida.
Durante cada visita se ordenó una comida básica (un sandwich, una porción de papas y una gaseosa).
Se registró el tiempo entre pedir y recibir la orden. Los siguientes datos son los tiempos (en minutos) para 20 visitas:
Ejercicio
Calcule e interprete un intervalo de confianza de 95% para la media poblacional
0,9 1,0 1,2 2,2 1,9 3,6 2,8 5,2 1,8 2,1
6,8 1,3 3,0 4,5 2,8 2,3 2,7 5,7 4,8 3,5
Ejercicio De un grupo de 50 analistas, se tomó
una muestra de tamaño 12, los cuales dieron sus opiniones acerca de las ganancias, en dólares, por acción del año 2004 para la empresa El Águila. Los datos son:
1,40 1,55 1,40 1,42 1,48 1,63 1,40 1,40 1,45 1,49 1,37 1,27
Ejercicio
Estime e interprete, con un nivel de confianza del 95%, la ganancia promedio poblacional por acción para la empresa El Águila según la opinión de los analistas.
Ejercicio Una oficina turística de Huaraz, encuestó
a 321 turistas de los 5 500 turistas que llegaron a Huaraz en el mes de abril, obteniendo un gasto promedio de $612 y una desviación estándar de $200.
Estime e interprete, con un nivel de confianza del 97%, el gasto medio de todos los turistas en su visita a Huaraz en el mes de abril.
Ejercicio Se pide al director de una sucursal
bancaria que estime el tiempo medio que se invierte en atender a un cliente. Quiere confiar al 99% en que la estimación de la media muestral no supere en más de 15 segundos a la media poblacional.
¿Cuántas observaciones debe recoger, si se sabe que la desviación estándar poblacional es de 2,7 minutos?
Ejercicio
El gasto semanal de los estudiantes de una universidad en fotocopias tiene una desviación estándar de 1.5 soles. Se tomó una muestra aleatoria de 50 alumnos y se encontró una media muestral de 4 soles en fotocopias a la semana.
Calcule e interprete un intervalo de confianza del 95% para dicho gasto.
47
48
Intervalos de confianza para p
Condiciones: Si n>30, , Población infinita
Población finita
5ˆ pn 5ˆ1 pn
npp
zppnpp
zpˆ1ˆ
ˆˆ1ˆ
ˆ2
12
1
1
ˆ1ˆˆ
1
ˆ1ˆˆ
21
21
NnN
npp
zppNnN
npp
zp
50
A una muestra aleatoria de 400 personas mayores de 28 años de una ciudad determinada se les preguntó si estaban a favor de un nuevo impuesto adicional del 4% en el precio de la gasolina para obtener fondos necesarios que se destinarían a un programa de asistencia social. Si en la muestra elegida se encontró que 245 estaban a favor del impuesto adicional, determine e interprete un intervalo de confianza del 90% para la verdadera proporción de personas a favor del nuevo impuesto.
51
Ejercicio Una empresa dedicada a la venta de
electrodomésticos, obtuvo una muestra aleatoria de 500 clientes, encontrándose que 311 clientes deseaban comprar sus televisores bajo la forma de pago a plazos.
Calcule e interprete un intervalo de confianza al 90% para la proporción poblacional de clientes que desean comprar sus televisores a plazos si su cartera de clientes está formada por 5000 clientes.
53
Una encuestadora llevó a cabo una encuesta a 508 personas mayores de 18 años de Lima Metropoli- tana entre el 14 y 16 de junio del presente año.
¿Cómo calificaría usted la situación actual de la limpieza p ública?
Muy buena Bu en a R eg ular M ala Muy m ala No precisa Total P orcenta je 3% 27% 42% 21% 6% 1% 100%
Calcule e interprete un intervalo del 98% de confianza para la verdadera proporción de personas mayores de 18 años de Lima Metropolitana que calificaron como buena la situación actual de la lim- pieza pública.
Ejercicio
El intervalo de confianza para la proporción poblacional a un nivel de confianza del 95% es 0.22,0.38.
Si la población es infinita, calcular el tamaño de muestra usado.
Copyright © 2004 Pearson Education, Inc.
Estimating a Population VarianceAssumptions
1. The sample is a simple random sample.
2. The population must have normally distributed values (even if the sample is large).
Copyright © 2004 Pearson Education, Inc.
where n = sample size
s 2 = sample variance
2 = population variance
Chi-Square Distribution
2 = 2(n – 1) s 2
Copyright © 2004 Pearson Education, Inc.
Properties of the Distribution of the Chi-Square Statistic
1. The chi-square distribution is not symmetric, unlike the normal and Student t distributions.
Figure 6-8 Chi-Square Distribution Figure 6-9 Chi-Square Distribution for df = 10 and df = 20
As the number of degrees of freedom increases, thedistribution becomes more symmetric. (continued)
Copyright © 2004 Pearson Education, Inc.
2. The values of chi-square can be zero or positive, but they cannot be negative.
3. The chi-square distribution is different for each number of degrees of freedom, which is df = n – 1 in this section. As the number increases, the chi- square distribution approaches a normal distribution.
In Table A-4, each critical value of 2 corresponds to an area given in the top row of the table, and that area represents the total region located to the right of the critical value.
Properties of the Distribution of the Chi-Square Statistic
(continued)
Copyright © 2004 Pearson Education, Inc.
Example: Find the critical values of 2 that determine critical regions containing an area of 0.025 in each tail. Assume that the relevant sample size is 10 so that the number of degrees of freedom is 10 – 1, or 9.
= 0.05/2 = 0.025
/2 = 0.975
Copyright © 2004 Pearson Education, Inc.
Critical Values: Table A-4Areas to the right of each tail
Copyright © 2004 Pearson Education, Inc.
Estimators of 2
The sample variance s is the best point estimate of the population
variance 2 .
2
Intervalos de confianza para la varianza
Varianza poblacional
Desviación estándar poblacional
2
2,1
22
2
21,1
2 11
nn
snsn
2
2,1
2
2
21,1
2 11
nn
snsn
Copyright © 2004 Pearson Education, Inc.
Procedure for Constructing a Confidence Interval for or 2
1. Verify that the required assumptions are met.
2. Using n – 1 degrees of freedom, refer to Table A-4 and find the critical values 2
R and 2Lthat
corresponds to the desired confidence level.3. Evaluate the upper and lower confidence interval limits using this format of the confidence interval:
2
(n – 1)s 2
2
R
(n – 1)s 2
2L continued
n = 106
x = 98.2o
s = 0.62o
= 0.05/2 = 0.025
1 –/2 = 0.975
Example: A study found the body temperatures of 106 healthy adults. The sample mean was 98.2 degrees and the sample standard deviation was 0.62 degrees. Find the 95% confidence interval for .
R
= 129.561, 2L = 74.222
(106 – 1)(0.62)2 < 2 < (106 – 1)(0.62)2
129.561 74.2220.31 < 2 < 0.540.56 < < 0.74
We are 95% confident that the limits of 0.56°F and 0.74°F contain the true value of . We are 95% confident that the standard deviation of body temperatures of all healthy people is between 0.56°F and 0.74°F.
Ejercicio Un fabricante de baterías para automóviles
tomó una muestra aleatoria de diez baterías y registró su duración, en años, obteniéndose los siguientes resultados:
Suponga que la duración de una batería sigue una distribución normal. Calcule e interprete un intervalo de confianza al 95% para la desviación estándar de la duración de una batería.
3,2 4,4 3,5 2,0 3,4 1,9 2,4 3,0 3,5 4,2
66
Ejemplo. Un fabricante de baterías para automóviles afirma que sus baterías durarán, en promedio, tres años con una varianza de un año. Si cinco de estas baterías tienen duraciones de 1.9, 2.4, 3.0, 3.5 y 4.2 años, construya un intervalo de confianza del 95% para la varianza real y decida si la afirmación del fabricante de es válida. Suponga que la población de duraciones de las baterías es de forma aproximadamente normal.
67
Problema. Para estimar el tiempo promedio que lleva ensamblar cierto componente de una computadora, el supervisor de una empresa electrónica tomó el tiempo que 20 técnicos tardaban en ejecutar esta tarea, obteniéndose una media de 12.73 minutos y una desviación estándar de 2.06 minutos. Asuma que los tiempos tienen distribución normal. Construya e interprete un intervalo de confianza de 98% para la varianza real que lleva ensamblar el componente de la computadora.
Copyright © 2004 Pearson Education, Inc.
Determining Sample Size
Copyright © 2004 Pearson Education, Inc.
Example: We want to estimate , the standard deviation off all body temperatures. We want to be 95% confident that our estimate is within 10% of the true value of . How large should the sample be? Assume that the population is normally distributed.
From Table 6-2, we can see that 95% confidence and an error of 10% for correspond to a sample of size 191.
Distribución muestral de la razón de varianzas
Si y son las varianzas de muestras independientes de tamaño y respectivamente de poblaciones normales, entonces un intervalo de confianza para la razón de varianzas es:
2,1,122
21
22
21
2,1,122
21
12
21
1
nnnn
fS
S
fS
S
21S
22S
Ejemplo El gerente de un banco comercial de Lima
quiere evaluar el desempeño de dos sucursales, la primera ubicada en el distrito de Miraflores y la segunda en San Isidro.
Decide elegir dos muestras aleatorias del total de operaciones realizadas la última semana: 16 en Miraflores y 25 en San Isidro donde se registró, entre otras variables, el monto de operación (en dólares). Los resultados se muestran a continuación:
Ejemplo Hallar e interpretar un intervalo de
confianza del 95% para la razón de varianzas de los montos de operación en las sucursales de Miraflores y San Isidro. Asumir normalidad donde corresponda.
SucursalTamaño de
muestraMonto promedio
por operaciónDesviación estándar del
monto por operación
Miraflores 16 800 180
San Isidro 25 1200 220
Ejercicio Una empresa fabrica polos deportivos
y compra los hilos a dos proveedores. Para verificar que no existe diferencias en la resistencia de los hilos adquiridos a estos proveedores se toma una muestra de piezas de cada clase de hilo y se registró la resistencia en condiciones similares. Los datos se muestran a continuación.
Ejercicio Proveedor 1: Proveedor 2:
Calcule e interprete un intervalo de confianza del 90% para la razón de varianzas de las resistencias de los hilos de estos proveedores. Asumir poblaciones normales.
84.32 82.61 86.16 78.78 82.76 86.93 85.56 84.84
81.22 89.77 83.91 84.92 89.80 88.74 84.06 59.92
211 n 611.78x 093.3s
Distribución muestral de la diferencia de medias
Varianzas poblacionales conocidas
El intervalo de confianza es:
1,0
2
22
1
21
2121 N
nn
XXZ
2
22
1
21
21
21212
22
1
21
21
21 nnzxx
nnzxx
Distribución muestral de la diferencia de medias
Varianzas desconocidas supuestas iguales 2121 XXE
2
2
1
2
21 n
S
n
SXXV pp
2
)1()1(
21
2221
212
nn
nSnSS p
Distribución muestral de la diferencia de medias
La variable
se distribuye t-Student con (n1+n2–2) g.l. El intervalo de confianza es
2
2
1
2
2,2
21212
2
1
2
2,2
212121 n
S
n
Stxx
n
S
n
Stxx pp
nn
pp
nn
2
2
1
2
2121 )(
n
S
n
S
XX
pp
Distribución muestral de la diferencia de medias
Varianzas desconocidas supuestas diferentes
La variable se distribuye t-Student con v grados de libertad. El valor de v es el entero más cercano a
2121 XXE 2
22
1
21
21 nS
nS
XXV
2
22
1
21
2121 )(
n
S
n
S
XX
2
2
2
22
1
2
1
21
2
2
22
1
21
11
n
nS
n
nS
nS
nS
Distribución muestral de la diferencia de medias
El intervalo es
2
22
1
21
,2
21212
22
1
21
,2
21 nS
nS
txxnS
nS
txx
Ejercicio Construya un intervalo de confianza del
94% para la diferencia real entre las duraciones de dos marcas de focos, si una muestra de 40 focos tomada al azar de la primera marca dio una duración media de 418 horas, y una muestra de 50 focos de otra marca dieron una duración media de 402 horas. Las desviaciones estándares de las dos poblaciones son 26 horas y 22 horas, respectivamente.
Ejercicio Los siguientes datos representan los
tiempos, en minutos, de secado de un tipo de pintura, con y sin aditivo de secado.
Calcule un intervalo de confianza de 90% para la diferencia entre los tiempos de secado promedio de la pintura con y sin aditivo. Asuma varianzas poblacionales iguales.
Con aditivo 76 75 72 75 74 78 79 60 85 95 74 81 75 78
Sin aditivo 94 82 78 79 95 98 75 86 94 92 93 89
Ejercicio
Calcule un intervalo de confianza de 90% para la diferencia entre los tiempos de secado promedio de la pintura con y sin aditivo. Asuma varianzas poblacionales diferentes.