probabilidad y estadística

Probabilidad y Estadística

Master en Administración de Empresas

Facultad de Ciencias EmpresarialesUniversidad Austral

Año 2007Clase 6 – Prof. Martha Blanco y Fernanda Méndez

Intervalo de confianza para una media poblacional

Obtén una muestra aleatoria simple de tamaño n de una población de media desconocida. Un intervalo de confianza de nivel C para es

donde t* es el valor crítico superior (1-C)/2 de la distribución t(n-1). Este intervalo es exacto cuando la distribución de la población es normal y aproximadamente correcto para muestras grandes en los demás casos.

Prueba de significación para una media poblacional

Obtén una muestra aleatoria simple de tamaño n de una población de media desconocida. Para contrastar la hipótesis H0: =0 a partir de una muestra aleatoria simple de tamaño n, calcula el estadístico t de una muestra

En términos de la variable T que tiene una distribución t(n-1), el valor P para contrastar H0 en contra de

Estos valores P son exactos si la distribución de la población es normal y son aproximadamente correctos para muestras grandes en los demás casos.

Procedimientos t en diseños por pares

Utiliza estos procedimientos t de una muestra para analizar los datos de los diseños por pares. Primero tienes que calcular la diferencia dentro de cada par para obtener una sola muestra.

Antes de utilizar los procedimientos t, dibuja un gráfico para detectar asimetrías o la presencia de observaciones atípicas (gráfico de probabilidad normal, diagrama de tallo y hoja, diagrama de caja). Excepto en el caso de muestras pequeñas, el supuesto de que los datos sean una muestra aleatoria simple de la población de interés es más importante que el supuesto de que la distribución de la población sea normal.

Tamaño de muestra menor que 15. Utiliza los procedimientos t si los datos son aproximadamente normales. Si los datos no son claramente normales o si existen observaciones atípicas, no utilices los procedimientos t.

Utilización de los procedimientos t

Tamaño de muestra mayor o igual a 15. Los procedimientos t se pueden utilizar a no ser que existan observaciones atípicas o que la distribución sea muy asimétrica.

Muestras grandes. Los procedimientos t se pueden utilizar incluso para distribuciones muy asimétricas cuando la muestra sea grande, aproximadamente cuando n ≥ 40.

Comparación de dos medias

Problemas de dos muestras

El objetivo de la inferencia es la comparación de las respuestas de dos tratamientos o la comparación de las características de dos poblaciones.

Tenemos una muestra distinta de cada población o de cada tratamiento.

Supuestos para la comparación de dos medias

Tenemos dos muestras aleatorias simples de dos poblaciones distintas. Las muestras son independientes. Es decir, una muestra no tiene ninguna influencia sobre la otra. Así, por ejemplo, la agrupación por pares viola la independencia. Medimos la misma variable en las dos muestras.

Las dos poblaciones tienen distribuciones normales. Las medias y las desviaciones típicas de las dos poblaciones son desconocidas.

Intervalo de confianza t de dos muestras

Obtén una muestra aleatoria simple de tamaño n1 de la población normal de media 1 desconocida y una muestra aleatoria simple independiente de tamaño n2 de otra población normal de media 2 desconocida. El intervalo de confianza para 1 -2

dado por

tiene un nivel de confianza de al menos C, independientemente de cuáles sean las desviaciones típicas poblacionales. Aquí t* es el valor crítico superior de (1-C)/2 de la distribución t(k), donde k es el menor de los valores n1-1 y n2-1.

Para contrastar la hipótesis H0: 1 = 2, calcula el estadístico t de dos muestras

y utiliza los valores P o los valores críticos de la distribución t(k). El verdadero valor P o el nivel de significación predeterminado siempre será igual o menor que el valor calculado a partir de t(k), independientemente de cuáles sean los valores que tengan desviaciones poblacionales desconocidas.

Prueba de significación t de dos muestras

Procedimientos t de dos muestras más precisos

Procedimientos t de dos muestras con varianza común

Si se puede suponer que las dos poblaciones tienen varianzas iguales, se pueden utilizar los procedimientos t de dos muestras con varianza común. Estos se basan en el estimador amalgamado de la varianza muestral

El estadístico t de dos muestras con varianza común tiene exactamente una distribución t con n1+n2-2 grados de libertad si las varianzas poblacionales son realmente iguales.

2as

Prueba F para comparar dos desviaciones típicas

Caso de estudio 1

Estudios de arquitectura: En el archivo caso1.xls se presentan las características de una muestra aleatoria de 25 estudios de arquitectura del área de Indianápolis.

Realice una tabla donde muestre el promedio, la desviación estándar, el intervalo de confianza del 95%, y los cinco números resumen para las variables: facturación del año 1998, facturación del año 1997, número de arquitectos matriculados empleados, número de ingenieros matriculados empleados y número de empleados tiempo completo.

Compare la facturación promedio de los años 1998 y 1997 de los estudios de arquitectura. ¿Se puede concluir que la facturación promedio de las empresas en el año 1998 es superior a la del año 1997?

Clasifique las empresas como “viejas” o “nuevas” según ellas hayan comenzado o no a trabajar en el área antes de 1970. Compare la facturación promedio en el año 1997 de las empresas nuevas y viejas. Indique si ha utilizado o no los procedimientos amalgamados y explique por qué. Informe sus resultados con resúmenes numéricos y gráficos. Escriba un párrafo corto explicando las diferencias encontradas.

Discusión. Procedimientos t de una muestra.Cuadro 1. Promedio y desviación estándar de las

variables en estudio

3.1280 1.4226

2.6880 1.3857

10.0400 8.6770

7.0800 9.6217

60.6000 44.7064

facturacion_1998

facturacion_1997

arquitectos matriculados

ingenieros matriculados

empleados tiempo completo

Mean Std. Deviation

Cuadro 2. Los cinco números resumen de las variables en estudio

1.60 6.20 2.05 2.60 3.80

.70 5.60 1.45 2.40 3.85

2.00 31.00 4.00 5.00 15.50

.00 35.00 .00 2.00 12.50

7.00 155.00 16.00 61.00 103.00

facturacion_1998

facturacion_1997

arquitectos matriculados

ingenieros matriculados

empleados tiempo completo

Minimum Maximum 25 50 75

Percentiles

Diagramas de tallo y Diagramas de caja de las variables en estudio

Facturación en el año 1998 Facturación en el año 1997

Frequency Stem & Leaf 4.00 1 . 6666 10.00 2 . 0011235567 6.00 3 . 334788 1.00 4 . 4 2.00 5 . 25 2.00 6 . 22

Frequency Stem & Leaf 2.00 0 . 79 6.00 1 . 023457 7.00 2 . 0034455 5.00 3 . 03889 3.00 4 . 127 2.00 5 . 06

25N =

facturacion_1998

7

6

5

4

3

2

1

25N =

facturacion_1997

6

5

4

3

2

1

0

Diagramas de tallo y Diagramas de caja de las variables en estudio

Número de arquitectos matriculadosNúmero de ingenieros matriculados

Frequency Stem & Leaf 7.00 0 . 2233344 9.00 0 . 555555689 3.00 1 . 022 2.00 1 . 99 1.00 2 . 1 3.00 Extremes (>=24)

Frequency Stem & Leaf 16.00 0 . 0000000011112344 1.00 0 . 7 4.00 1 . 2234 .00 1 . 3.00 2 . 133 1.00 Extremes (>=35)

25N =

arquitec matric

40

30

20

10

0

-10

5

2

3

25N =

ingenieros matric

40

30

20

10

0

-10

11

Número de empleados a tiempo completo

Frequency Stem & Leaf 8.00 0 . 01111111 2.00 0 . 22 2.00 0 . 55 6.00 0 . 666777 1.00 0 . 9 3.00 1 . 111 2.00 1 . 23 1.00 1 . 5

25N =

emp tiempo comp

200

150

100

50

0

-50

Cuadro 3: Intervalos de confianza del 95% para la media de las variables en estudio

Variable Intervalo de confianza del 95% para la media

Facturación en el año 1998

(2.541; 3.715)

Facturación en el año 1997

(2.116; 3.260)

Número de arquitectos matriculados

No se cumplen los supuestos(La distribución de los datos de la muestra

es muy asimétrica y presenta valores extremos)

Número de ingenieros matriculados

No se cumplen los supuestos(La distribución de los datos de la muestra

es muy asimétrica y presenta valores extremos)

Número de empleados a tiempo completo

(42.146; 79.054)Este intervalo puede ser aproximado pues la distribución de los datos de la muestra

presenta cierta asimetría

Discusión. Comparación facturación de las empresas en el año 1998 y 1997En este caso se trata de un experimento de datos

apareados y no de dos muestras independientes, por lo tanto se calculan las diferencias entre la facturación del año 1998 y la del 1997 para cada estudio de arquitectura, con el objeto de evaluar si la facturación promedio del año 1998 es significativamente diferente de la correspondiente al año 1997. Se contrastan las siguientes hipótesis:

H0: D = 0 Ha: D > 0

El siguiente cuadro muestra el promedio y el desvío estándar de las 25 diferencias: 25 .4400 1.3392

25

factur98-factur97

Valid N (listwise)

N MeanStd.

Deviation

Para verificar si se pueden aplicar los procedimientos t se realiza el diagrama de tallo y el gráfico de probabilidad normal de las diferencias entre la facturación de 1998 y la de 1997.

Se observa que los datos son bastantes simétricos y poco alejados de la normalidad, lo que permite la aplicación de los procedimientos t.

Frequency Stem & Leaf 2.00 -1 . 56 1.00 -1 . 3 4.00 -0 . 5788 3.00 -0 . 234 5.00 0 . 12344 3.00 0 . 568 1.00 1 . 1 .00 1 . 4.00 2 . 3344 2.00 2 . 67

Observed Cum Prob

1.00.75.50.250.00

Exp

ect

ed

Cu

m P

rob

1.00

.75

.50

.25

0.00

Diagrama de tallo de las diferencias en la facturación de

1998 y 1997

Gráfico de probabilidad normal para las diferencias en la

facturación de 1998 y 1997

La estadística t es entonces

El valor P para t=1.643 es el área situada a la derecha de 1.643 por debajo de la curva de la distribución t con n-1=24 grados de libertad. Un programa estadístico da el valor exacto, P=0.056. Los datos muestran que a un nivel de significación del 10% la facturación de los estudios de arquitectura en 1998 es más alta que en 1997.

1.643ns/

0xt

Paired Samples Test

.4400 1.3392 .2678 -.1128 .9928 1.643 24 .113facturacion_1998 -facturacion_1997

Pair1

MeanStd.

DeviationStd. Error

Mean Lower Upper

95% ConfidenceInterval of the

Difference

Paired Differences

t dfSig .

(2-tailed)

Cuadro 6: Salida del programa estadístico SPSS

Los procedimientos t para diseños por pares sólo son completamente exactos cuando la población es normal. Las diferencias en la facturación de 1998 y 1997 para la muestra de 25 empresas presentan desviaciones de la normalidad.

La pregunta de interés es si la facturación promedio en el año 1997 es diferente en las empresas nuevas y viejas. Se desea probar:

H0: 1 = 2 Ha: 1 2

El siguiente cuadro muestra el promedio y el desvío estándar de los dos grupos de empresas:

11 2.6364 1.1075

14 2.7286 1.6117

ANTIGUEDvieja

nueva

facturacion_1997N Mean

Std.Deviation

Discusión. Comparación empresas nuevas y viejas

1411N =

nuevavieja

fact

ura

cio

n_

19

97

6

5

4

3

2

1

0

Diagrama de tallo de la facturación en el año 1997 de

empresas nuevas y viejas

Diagrama de caja de la facturación en el año 1997 de

empresas nuevas y viejas 9 0 7 5 4 2 0 1 3 7 5 4 0 0 2 3 4 5 8 3 0 3 8 9 7 2 4 4 2 5 2

Viejas Nuevas

Primero es recomendable comparar los desvíos estándares poblacionales mediante la siguiente pruebaH0: 1 = 2 Ha: 1 2

El estadístico F de contraste es

Se compara el valor calculado F = 2.1178 con los valores críticos de la distribución F(13, 10). El valor observado F = 2.1178 es menor al valor crítico F=2.14, correspondiente al área de probabilidad 0.10 de la cola de la distribución F(13, 10). En consecuencia, el valor P de dos colas es mayor a 0.10 (exactamente es igual a 0.2397) y luego no se rechaza H0. La conclusión es que los datos muestran que a un nivel de significación del 10% la variabilidad de los dos grupos de empresas no es distinta.

2.11781.1075

1.6117

mayors

mayorsF

2

2

2

2

Es decir que los datos de la muestra no presentan evidencias para suponer que las desviaciones estándares poblacionales no son iguales. La varianza muestral amalgamada es:

El estadístico t de dos muestras con varianza común es

La probabilidad asociada resulta igual a 0.873, luego no se rechaza la hipótesis nula de igualdad de la facturación promedio en el año 1997 de las empresas nuevas y viejas.

1.3267

214111.1075131.611710

2nn

s1ns1ns

22

21

222

2112

p

0.162n1n1s

xxt

21p

21

Independent Samples Test

3.151 .089 -.162 23 .873 -9.221E-02 .5700 -1.2714 1.0870

-.169 22.674 .867 -9.221E-02 .5450 -1.2206 1.0361

Equal variancesassumed

Equal variancesnot assumed

facturacion_1997F Sig .

Levene's Test forEquality of Variances

t dfSig .

(2-tai led)Mean

DifferenceStd. ErrorDifference Lower Upper

95% ConfidenceInterval of the

Difference

t-test for Eq uality of Means

Cuadro 5: Salida del programa estadístico SPSS

Obtén una muestra aleatoria simple de tamaño n de una gran población con una proporción p de éxitos desconocida. Un intervalo de confianza de nivel C aproximado para p es

donde

z* es el valor crítico superior normal estandarizado de

Inferencia para una proporción poblacional

2C1

Para contrastar la hipótesis H0: p = p0 calcula el estadístico

En términos de la variable Z que tiene una distribución normal estandarizada, el valor P aproximado para el contraste de H0 en contra de

El tamaño de muestra necesario para obtener un intervalo de confianza de nivel C con un error de estimación aproximado m, para una proporción poblacional p es

donde p* es el valor supuesto para la proporción muestral y z* es el valor crítico normal estandarizado correspondiente al nivel de confianza que desees. Si utilizas p* = 0,5 en esta fórmula, el error de estimación del intervalo será menor o igual que m.

Tamaño de muestra para un error de estimación deseado

Intervalos de confianza para la comparación de dos proporciones

Obtén una muestra aleatoria simple de tamaño n1 de una población con una proporción p1 de éxitos y obtén una muestra aleatoria simple, independiente de la anterior, de tamaño n2 de otra población con una proporción p2 de éxitos. Cuando n1 y n2 son grandes, un intervalo de confianza aproximado de nivel C para p1 - p2 es

En esta fórmula el error típico ET de es

y z* es el valor crítico superior normal estandarizado de

En la práctica, utiliza este intervalo de confianza cuando la población sea al menos 10 veces mayor que las muestras y los recuentos de éxitos y fracasos sean mayores o iguales que 5 en ambas muestras.

21 pp ˆˆ

2C1

Pruebas de significación para la comparación de dos proporciones

Para contrastar la hipótesis

H0: p1 = p2

Halla en primer lugar la proporción muestral común de éxitos en las dos muestras combinadas. Luego calcula el estadístico z

p̂

En términos de la variable z que tiene una distribución normal estandarizada, el valor P para una prueba en contra de

En las práctica, utiliza estas pruebas cuando las poblaciones sean al menos 10 veces mayores que la muestra y cuando los recuentos de éxitos y fracasos sean mayores o iguales a 5 en ambas muestras.

Caso de estudio 2Tamaño de muestra, valor P y error típico. En este caso se examinan los efectos del tamaño de muestra sobre el contraste de hipótesis y el intervalo de confianza para la comparación de dos proporciones.

Para cada cálculo, suponga que y y considere n como el valor común entre n1 y n2. Use la estadística z para probar H0: p1 = p2 frente a la alternativa Ha: p1 p2. Calcule la estadística y el valor P asociado para los siguientes valores de n: 15, 25, 50, 75, 100 y 500.

Resuma los resultados en una tabla y realice un gráfico. Explique lo observado con respecto al efecto del tamaño muestral sobre la significación estadística cuando las proporciones muestrales no cambian.

0,61 p̂ 0,42 p̂

Luego realice cálculos similares para el intervalo de confianza. Suponga que y . Calcule el error típico para el intervalo de confianza del 95% para la comparación de dos proporciones para los siguientes valores de n = 15, 25, 50, 75, 100 y 500. Resuma y explique sus resultados.

0,61 p̂ 0,42 p̂

Discusión. Tamaño de muestra y valor P

Se desea contrastar la hipótesis

H0: p1 = p2 frente a la Ha: p1 p2.

Se supone que las proporciones muestrales son y

, luego la proporción muestral común es

.

Se considera n el valor común entre n1 y n2.

0,4p1 ˆ

0,6p2 ˆ

0,5pp21

p 21 ˆˆˆ

n Estadístico

Valor P

15 1,095 0,273

25 1,414 0,157

50 2,000 0,046

75 2,449 0,014

100

2,828 0,005

500

6,325 0,000

Se calcula el estadístico z bajo el supuesto de que es válida la

H0: p1 = p2:

y luego el correspondiente valor P: 2P(Z ≥ |z|). Tamaño de muestra y valor P

0,0000

0,0500

0,1000

0,1500

0,2000

0,2500

0,3000

0 50 100 150 200 250 300 350 400 450 500 550

tamaño de muestra (n1=n2)

valo

r P

21

21

n1n1p1p

ppz

ˆˆ

ˆˆ

El gráfico anterior permite observar el efecto del tamaño muestral sobre la significación estadística cuando las proporciones muestrales no cambian. El mismo muestra que el valor P disminuye a medida que aumenta el tamaño muestral. Además, en este caso, se observa que para tamaños de muestra superiores a 100 los valores P son prácticamente nulos.

Esto indica que con un tamaño muestral grande, aún una diferencia pequeña en las proporciones muestrales, puede resultar estadísticamente significativa o bien, por otro lado, que una diferencia importante puede ser estadísticamente no significativa si la muestra es pequeña.

n Error típico

15 0,351

25 0,272

50 0,192

75 0,157

100 0,136

500 0,061

Tamaño de muestra y error típico

0,000

0,050

0,100

0,150

0,200

0,250

0,300

0,350

0,400

0 50 100 150 200 250 300 350 400 450 500 550

tamaño de muestra (n1=n2)

erro

r tí

pico

Discusión. Tamaño de muestra y error típicoLa fórmula del error típico de es 21 pp ˆˆ

n2

p1pn

p1pET 22

1

11 ˆˆˆˆ

n Intervalo de confianza del 95%

para la comparación de

dos proporciones15 (-0,151; 0,551)

25 (-0,072; 0,472)

50 (0,008; 0,392)

75 (0,043; 0,357)

100 (0,064; 0,336)

500 (0,139; 0,261)

I ntervalo de confianza del 95% para la comparación de

proporciones y Tamaño muestral

-0.200

-0.100

0.000

0.100

0.200

0.300

0.400

0.500

0.600

0 50 100 150 200 250 300 350 400 450 500 550tamaño de muestra (n1=n2)

inte

rval

o de

con

fian

za

El gráfico anterior permite observar el efecto del tamaño muestral sobre la amplitud del intervalo de confianza para la comparación de dos proporciones. El mismo muestra que la amplitud disminuye a medida que aumenta el tamaño muestral.

probabilidad y estadística

Documents