probabilidad y estadística
DESCRIPTION
Probabilidad y Estadística. Master en Administración de Empresas Facultad de Ciencias Empresariales Universidad Austral Año 2007. Clase 6 – Prof. Martha Blanco y Fernanda Méndez. Intervalo de confianza para una media poblacional. - PowerPoint PPT PresentationTRANSCRIPT
Probabilidad y Estadística
Master en Administración de Empresas
Facultad de Ciencias EmpresarialesUniversidad Austral
Año 2007Clase 6 – Prof. Martha Blanco y Fernanda Méndez
Intervalo de confianza para una media poblacional
Obtén una muestra aleatoria simple de tamaño n de una población de media desconocida. Un intervalo de confianza de nivel C para es
donde t* es el valor crítico superior (1-C)/2 de la distribución t(n-1). Este intervalo es exacto cuando la distribución de la población es normal y aproximadamente correcto para muestras grandes en los demás casos.
Prueba de significación para una media poblacional
Obtén una muestra aleatoria simple de tamaño n de una población de media desconocida. Para contrastar la hipótesis H0: =0 a partir de una muestra aleatoria simple de tamaño n, calcula el estadístico t de una muestra
En términos de la variable T que tiene una distribución t(n-1), el valor P para contrastar H0 en contra de
Estos valores P son exactos si la distribución de la población es normal y son aproximadamente correctos para muestras grandes en los demás casos.
Procedimientos t en diseños por pares
Utiliza estos procedimientos t de una muestra para analizar los datos de los diseños por pares. Primero tienes que calcular la diferencia dentro de cada par para obtener una sola muestra.
Antes de utilizar los procedimientos t, dibuja un gráfico para detectar asimetrías o la presencia de observaciones atípicas (gráfico de probabilidad normal, diagrama de tallo y hoja, diagrama de caja). Excepto en el caso de muestras pequeñas, el supuesto de que los datos sean una muestra aleatoria simple de la población de interés es más importante que el supuesto de que la distribución de la población sea normal.
Tamaño de muestra menor que 15. Utiliza los procedimientos t si los datos son aproximadamente normales. Si los datos no son claramente normales o si existen observaciones atípicas, no utilices los procedimientos t.
Utilización de los procedimientos t
Tamaño de muestra mayor o igual a 15. Los procedimientos t se pueden utilizar a no ser que existan observaciones atípicas o que la distribución sea muy asimétrica.
Muestras grandes. Los procedimientos t se pueden utilizar incluso para distribuciones muy asimétricas cuando la muestra sea grande, aproximadamente cuando n ≥ 40.
Comparación de dos medias
Problemas de dos muestras
El objetivo de la inferencia es la comparación de las respuestas de dos tratamientos o la comparación de las características de dos poblaciones.
Tenemos una muestra distinta de cada población o de cada tratamiento.
Supuestos para la comparación de dos medias
Tenemos dos muestras aleatorias simples de dos poblaciones distintas. Las muestras son independientes. Es decir, una muestra no tiene ninguna influencia sobre la otra. Así, por ejemplo, la agrupación por pares viola la independencia. Medimos la misma variable en las dos muestras.
Las dos poblaciones tienen distribuciones normales. Las medias y las desviaciones típicas de las dos poblaciones son desconocidas.
Intervalo de confianza t de dos muestras
Obtén una muestra aleatoria simple de tamaño n1 de la población normal de media 1 desconocida y una muestra aleatoria simple independiente de tamaño n2 de otra población normal de media 2 desconocida. El intervalo de confianza para 1 -2
dado por
tiene un nivel de confianza de al menos C, independientemente de cuáles sean las desviaciones típicas poblacionales. Aquí t* es el valor crítico superior de (1-C)/2 de la distribución t(k), donde k es el menor de los valores n1-1 y n2-1.
Para contrastar la hipótesis H0: 1 = 2, calcula el estadístico t de dos muestras
y utiliza los valores P o los valores críticos de la distribución t(k). El verdadero valor P o el nivel de significación predeterminado siempre será igual o menor que el valor calculado a partir de t(k), independientemente de cuáles sean los valores que tengan desviaciones poblacionales desconocidas.
Prueba de significación t de dos muestras
Procedimientos t de dos muestras más precisos
Procedimientos t de dos muestras con varianza común
Si se puede suponer que las dos poblaciones tienen varianzas iguales, se pueden utilizar los procedimientos t de dos muestras con varianza común. Estos se basan en el estimador amalgamado de la varianza muestral
El estadístico t de dos muestras con varianza común tiene exactamente una distribución t con n1+n2-2 grados de libertad si las varianzas poblacionales son realmente iguales.
2as
Prueba F para comparar dos desviaciones típicas
Caso de estudio 1
Estudios de arquitectura: En el archivo caso1.xls se presentan las características de una muestra aleatoria de 25 estudios de arquitectura del área de Indianápolis.
Realice una tabla donde muestre el promedio, la desviación estándar, el intervalo de confianza del 95%, y los cinco números resumen para las variables: facturación del año 1998, facturación del año 1997, número de arquitectos matriculados empleados, número de ingenieros matriculados empleados y número de empleados tiempo completo.
Compare la facturación promedio de los años 1998 y 1997 de los estudios de arquitectura. ¿Se puede concluir que la facturación promedio de las empresas en el año 1998 es superior a la del año 1997?
Clasifique las empresas como “viejas” o “nuevas” según ellas hayan comenzado o no a trabajar en el área antes de 1970. Compare la facturación promedio en el año 1997 de las empresas nuevas y viejas. Indique si ha utilizado o no los procedimientos amalgamados y explique por qué. Informe sus resultados con resúmenes numéricos y gráficos. Escriba un párrafo corto explicando las diferencias encontradas.
Discusión. Procedimientos t de una muestra.Cuadro 1. Promedio y desviación estándar de las
variables en estudio
3.1280 1.4226
2.6880 1.3857
10.0400 8.6770
7.0800 9.6217
60.6000 44.7064
facturacion_1998
facturacion_1997
arquitectos matriculados
ingenieros matriculados
empleados tiempo completo
Mean Std. Deviation
Cuadro 2. Los cinco números resumen de las variables en estudio
1.60 6.20 2.05 2.60 3.80
.70 5.60 1.45 2.40 3.85
2.00 31.00 4.00 5.00 15.50
.00 35.00 .00 2.00 12.50
7.00 155.00 16.00 61.00 103.00
facturacion_1998
facturacion_1997
arquitectos matriculados
ingenieros matriculados
empleados tiempo completo
Minimum Maximum 25 50 75
Percentiles
Diagramas de tallo y Diagramas de caja de las variables en estudio
Facturación en el año 1998 Facturación en el año 1997
Frequency Stem & Leaf 4.00 1 . 6666 10.00 2 . 0011235567 6.00 3 . 334788 1.00 4 . 4 2.00 5 . 25 2.00 6 . 22
Frequency Stem & Leaf 2.00 0 . 79 6.00 1 . 023457 7.00 2 . 0034455 5.00 3 . 03889 3.00 4 . 127 2.00 5 . 06
25N =
facturacion_1998
7
6
5
4
3
2
1
25N =
facturacion_1997
6
5
4
3
2
1
0
Diagramas de tallo y Diagramas de caja de las variables en estudio
Número de arquitectos matriculadosNúmero de ingenieros matriculados
Frequency Stem & Leaf 7.00 0 . 2233344 9.00 0 . 555555689 3.00 1 . 022 2.00 1 . 99 1.00 2 . 1 3.00 Extremes (>=24)
Frequency Stem & Leaf 16.00 0 . 0000000011112344 1.00 0 . 7 4.00 1 . 2234 .00 1 . 3.00 2 . 133 1.00 Extremes (>=35)
25N =
arquitec matric
40
30
20
10
0
-10
5
2
3
25N =
ingenieros matric
40
30
20
10
0
-10
11
Número de empleados a tiempo completo
Frequency Stem & Leaf 8.00 0 . 01111111 2.00 0 . 22 2.00 0 . 55 6.00 0 . 666777 1.00 0 . 9 3.00 1 . 111 2.00 1 . 23 1.00 1 . 5
25N =
emp tiempo comp
200
150
100
50
0
-50
Cuadro 3: Intervalos de confianza del 95% para la media de las variables en estudio
Variable Intervalo de confianza del 95% para la media
Facturación en el año 1998
(2.541; 3.715)
Facturación en el año 1997
(2.116; 3.260)
Número de arquitectos matriculados
No se cumplen los supuestos(La distribución de los datos de la muestra
es muy asimétrica y presenta valores extremos)
Número de ingenieros matriculados
No se cumplen los supuestos(La distribución de los datos de la muestra
es muy asimétrica y presenta valores extremos)
Número de empleados a tiempo completo
(42.146; 79.054)Este intervalo puede ser aproximado pues la distribución de los datos de la muestra
presenta cierta asimetría
Discusión. Comparación facturación de las empresas en el año 1998 y 1997En este caso se trata de un experimento de datos
apareados y no de dos muestras independientes, por lo tanto se calculan las diferencias entre la facturación del año 1998 y la del 1997 para cada estudio de arquitectura, con el objeto de evaluar si la facturación promedio del año 1998 es significativamente diferente de la correspondiente al año 1997. Se contrastan las siguientes hipótesis:
H0: D = 0 Ha: D > 0
El siguiente cuadro muestra el promedio y el desvío estándar de las 25 diferencias: 25 .4400 1.3392
25
factur98-factur97
Valid N (listwise)
N MeanStd.
Deviation
Para verificar si se pueden aplicar los procedimientos t se realiza el diagrama de tallo y el gráfico de probabilidad normal de las diferencias entre la facturación de 1998 y la de 1997.
Se observa que los datos son bastantes simétricos y poco alejados de la normalidad, lo que permite la aplicación de los procedimientos t.
Frequency Stem & Leaf 2.00 -1 . 56 1.00 -1 . 3 4.00 -0 . 5788 3.00 -0 . 234 5.00 0 . 12344 3.00 0 . 568 1.00 1 . 1 .00 1 . 4.00 2 . 3344 2.00 2 . 67
Observed Cum Prob
1.00.75.50.250.00
Exp
ect
ed
Cu
m P
rob
1.00
.75
.50
.25
0.00
Diagrama de tallo de las diferencias en la facturación de
1998 y 1997
Gráfico de probabilidad normal para las diferencias en la
facturación de 1998 y 1997
La estadística t es entonces
El valor P para t=1.643 es el área situada a la derecha de 1.643 por debajo de la curva de la distribución t con n-1=24 grados de libertad. Un programa estadístico da el valor exacto, P=0.056. Los datos muestran que a un nivel de significación del 10% la facturación de los estudios de arquitectura en 1998 es más alta que en 1997.
1.643ns/
0xt
Paired Samples Test
.4400 1.3392 .2678 -.1128 .9928 1.643 24 .113facturacion_1998 -facturacion_1997
Pair1
MeanStd.
DeviationStd. Error
Mean Lower Upper
95% ConfidenceInterval of the
Difference
Paired Differences
t dfSig .
(2-tailed)
Cuadro 6: Salida del programa estadístico SPSS
Los procedimientos t para diseños por pares sólo son completamente exactos cuando la población es normal. Las diferencias en la facturación de 1998 y 1997 para la muestra de 25 empresas presentan desviaciones de la normalidad.
La pregunta de interés es si la facturación promedio en el año 1997 es diferente en las empresas nuevas y viejas. Se desea probar:
H0: 1 = 2 Ha: 1 2
El siguiente cuadro muestra el promedio y el desvío estándar de los dos grupos de empresas:
11 2.6364 1.1075
14 2.7286 1.6117
ANTIGUEDvieja
nueva
facturacion_1997N Mean
Std.Deviation
Discusión. Comparación empresas nuevas y viejas
1411N =
nuevavieja
fact
ura
cio
n_
19
97
6
5
4
3
2
1
0
Diagrama de tallo de la facturación en el año 1997 de
empresas nuevas y viejas
Diagrama de caja de la facturación en el año 1997 de
empresas nuevas y viejas 9 0 7 5 4 2 0 1 3 7 5 4 0 0 2 3 4 5 8 3 0 3 8 9 7 2 4 4 2 5 2
Viejas Nuevas
Primero es recomendable comparar los desvíos estándares poblacionales mediante la siguiente pruebaH0: 1 = 2 Ha: 1 2
El estadístico F de contraste es
Se compara el valor calculado F = 2.1178 con los valores críticos de la distribución F(13, 10). El valor observado F = 2.1178 es menor al valor crítico F=2.14, correspondiente al área de probabilidad 0.10 de la cola de la distribución F(13, 10). En consecuencia, el valor P de dos colas es mayor a 0.10 (exactamente es igual a 0.2397) y luego no se rechaza H0. La conclusión es que los datos muestran que a un nivel de significación del 10% la variabilidad de los dos grupos de empresas no es distinta.
2.11781.1075
1.6117
mayors
mayorsF
2
2
2
2
Es decir que los datos de la muestra no presentan evidencias para suponer que las desviaciones estándares poblacionales no son iguales. La varianza muestral amalgamada es:
El estadístico t de dos muestras con varianza común es
La probabilidad asociada resulta igual a 0.873, luego no se rechaza la hipótesis nula de igualdad de la facturación promedio en el año 1997 de las empresas nuevas y viejas.
1.3267
214111.1075131.611710
2nn
s1ns1ns
22
21
222
2112
p
0.162n1n1s
xxt
21p
21
Independent Samples Test
3.151 .089 -.162 23 .873 -9.221E-02 .5700 -1.2714 1.0870
-.169 22.674 .867 -9.221E-02 .5450 -1.2206 1.0361
Equal variancesassumed
Equal variancesnot assumed
facturacion_1997F Sig .
Levene's Test forEquality of Variances
t dfSig .
(2-tai led)Mean
DifferenceStd. ErrorDifference Lower Upper
95% ConfidenceInterval of the
Difference
t-test for Eq uality of Means
Cuadro 5: Salida del programa estadístico SPSS
Obtén una muestra aleatoria simple de tamaño n de una gran población con una proporción p de éxitos desconocida. Un intervalo de confianza de nivel C aproximado para p es
donde
z* es el valor crítico superior normal estandarizado de
Inferencia para una proporción poblacional
2C1
Para contrastar la hipótesis H0: p = p0 calcula el estadístico
En términos de la variable Z que tiene una distribución normal estandarizada, el valor P aproximado para el contraste de H0 en contra de
El tamaño de muestra necesario para obtener un intervalo de confianza de nivel C con un error de estimación aproximado m, para una proporción poblacional p es
donde p* es el valor supuesto para la proporción muestral y z* es el valor crítico normal estandarizado correspondiente al nivel de confianza que desees. Si utilizas p* = 0,5 en esta fórmula, el error de estimación del intervalo será menor o igual que m.
Tamaño de muestra para un error de estimación deseado
Intervalos de confianza para la comparación de dos proporciones
Obtén una muestra aleatoria simple de tamaño n1 de una población con una proporción p1 de éxitos y obtén una muestra aleatoria simple, independiente de la anterior, de tamaño n2 de otra población con una proporción p2 de éxitos. Cuando n1 y n2 son grandes, un intervalo de confianza aproximado de nivel C para p1 - p2 es
En esta fórmula el error típico ET de es
y z* es el valor crítico superior normal estandarizado de
En la práctica, utiliza este intervalo de confianza cuando la población sea al menos 10 veces mayor que las muestras y los recuentos de éxitos y fracasos sean mayores o iguales que 5 en ambas muestras.
21 pp ˆˆ
2C1
Pruebas de significación para la comparación de dos proporciones
Para contrastar la hipótesis
H0: p1 = p2
Halla en primer lugar la proporción muestral común de éxitos en las dos muestras combinadas. Luego calcula el estadístico z
p̂
En términos de la variable z que tiene una distribución normal estandarizada, el valor P para una prueba en contra de
En las práctica, utiliza estas pruebas cuando las poblaciones sean al menos 10 veces mayores que la muestra y cuando los recuentos de éxitos y fracasos sean mayores o iguales a 5 en ambas muestras.
Caso de estudio 2Tamaño de muestra, valor P y error típico. En este caso se examinan los efectos del tamaño de muestra sobre el contraste de hipótesis y el intervalo de confianza para la comparación de dos proporciones.
Para cada cálculo, suponga que y y considere n como el valor común entre n1 y n2. Use la estadística z para probar H0: p1 = p2 frente a la alternativa Ha: p1 p2. Calcule la estadística y el valor P asociado para los siguientes valores de n: 15, 25, 50, 75, 100 y 500.
Resuma los resultados en una tabla y realice un gráfico. Explique lo observado con respecto al efecto del tamaño muestral sobre la significación estadística cuando las proporciones muestrales no cambian.
0,61 p̂ 0,42 p̂
Luego realice cálculos similares para el intervalo de confianza. Suponga que y . Calcule el error típico para el intervalo de confianza del 95% para la comparación de dos proporciones para los siguientes valores de n = 15, 25, 50, 75, 100 y 500. Resuma y explique sus resultados.
0,61 p̂ 0,42 p̂
Discusión. Tamaño de muestra y valor P
Se desea contrastar la hipótesis
H0: p1 = p2 frente a la Ha: p1 p2.
Se supone que las proporciones muestrales son y
, luego la proporción muestral común es
.
Se considera n el valor común entre n1 y n2.
0,4p1 ˆ
0,6p2 ˆ
0,5pp21
p 21 ˆˆˆ
n Estadístico
Valor P
15 1,095 0,273
25 1,414 0,157
50 2,000 0,046
75 2,449 0,014
100
2,828 0,005
500
6,325 0,000
Se calcula el estadístico z bajo el supuesto de que es válida la
H0: p1 = p2:
y luego el correspondiente valor P: 2P(Z ≥ |z|). Tamaño de muestra y valor P
0,0000
0,0500
0,1000
0,1500
0,2000
0,2500
0,3000
0 50 100 150 200 250 300 350 400 450 500 550
tamaño de muestra (n1=n2)
valo
r P
21
21
n1n1p1p
ppz
ˆˆ
ˆˆ
El gráfico anterior permite observar el efecto del tamaño muestral sobre la significación estadística cuando las proporciones muestrales no cambian. El mismo muestra que el valor P disminuye a medida que aumenta el tamaño muestral. Además, en este caso, se observa que para tamaños de muestra superiores a 100 los valores P son prácticamente nulos.
Esto indica que con un tamaño muestral grande, aún una diferencia pequeña en las proporciones muestrales, puede resultar estadísticamente significativa o bien, por otro lado, que una diferencia importante puede ser estadísticamente no significativa si la muestra es pequeña.
n Error típico
15 0,351
25 0,272
50 0,192
75 0,157
100 0,136
500 0,061
Tamaño de muestra y error típico
0,000
0,050
0,100
0,150
0,200
0,250
0,300
0,350
0,400
0 50 100 150 200 250 300 350 400 450 500 550
tamaño de muestra (n1=n2)
erro
r tí
pico
Discusión. Tamaño de muestra y error típicoLa fórmula del error típico de es 21 pp ˆˆ
n2
p1pn
p1pET 22
1
11 ˆˆˆˆ
n Intervalo de confianza del 95%
para la comparación de
dos proporciones15 (-0,151; 0,551)
25 (-0,072; 0,472)
50 (0,008; 0,392)
75 (0,043; 0,357)
100 (0,064; 0,336)
500 (0,139; 0,261)
I ntervalo de confianza del 95% para la comparación de
proporciones y Tamaño muestral
-0.200
-0.100
0.000
0.100
0.200
0.300
0.400
0.500
0.600
0 50 100 150 200 250 300 350 400 450 500 550tamaño de muestra (n1=n2)
inte
rval
o de
con
fian
za
El gráfico anterior permite observar el efecto del tamaño muestral sobre la amplitud del intervalo de confianza para la comparación de dos proporciones. El mismo muestra que la amplitud disminuye a medida que aumenta el tamaño muestral.