estadÍstica fortino vela peÓn - blog de … los comandos de stata utilizados. ii) ... histograma...

9
ESTADÍSTICA FORTINO VELA PEÓN DPTO. PRODUCCIÓN ECONÓMICA UAMX 1 PRUEBAS INFORMALES DE “NORMALIDAD” PARA UN CONJUNTO UNIVARIADO DE MEDICIONES. La distribución normal es una de las distribuciones de muestreo más utilizadas en el trabajo estadístico. Si bien muchos datos en realidad siguen una distribución normal esta no es la regla. No obstante, es posible investigar si un conjunto de mediciones provenientes de una muestra aleatoria de tamaño n poseen una distribución normal, aunque sea de manera aproximada. Este tema ha resultado de un gran interés en la estadística existiendo distintas pruebas formales e informales. Dentro de las primeras, se encuentran las de Smirnov- Kolmogorov, Jarque y Bera, Cramer-Von Mises, Shapiro-Wilk, entre otras. El segundo tipo de pruebas, las informales, descansan más en pruebas gráficas o que involucran cálculos sencillos apoyados por la estadística descriptiva. Esta nota tiene como propósito el aplicar al segundo tipo de pruebas con el fin de complementar las pruebas formales. Específicamente se revisan las pruebas siguientes: a) el histograma de frecuencias relativas; b) la regla empírica; c) la razón entre el rango intercuartílico (RIC) y la desviación estándar (σ); y d) el gráfico de probabilidad normal. Para elaborar estas pruebas informales se consideran dos ejemplos considerando dos conjuntos de datos distintos así como la ayuda que ofrece el paquete estadístico Stata para su elaboración.

Upload: duongcong

Post on 29-Apr-2018

219 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: ESTADÍSTICA FORTINO VELA PEÓN - Blog de … los comandos de Stata utilizados. ii) ... Histograma de frecuencias relativas 0 50 100 150 Frequency 0 500 1000 DDT No se distribuye aproximadamente

ESTADÍSTICA FORTINO VELA PEÓN

DPTO. PRODUCCIÓN ECONÓMICA UAMX 1

PRUEBAS INFORMALES DE “NORMALIDAD” PARA UN CONJUNTO UNIVARIADO DE MEDICIONES .

La distribución normal es una de las distribuciones de muestreo más utilizadas

en el trabajo estadístico. Si bien muchos datos en realidad siguen una

distribución normal esta no es la regla. No obstante, es posible investigar si un

conjunto de mediciones provenientes de una muestra aleatoria de tamaño n

poseen una distribución normal, aunque sea de manera aproximada. Este tema

ha resultado de un gran interés en la estadística existiendo distintas pruebas

formales e informales. Dentro de las primeras, se encuentran las de Smirnov-

Kolmogorov, Jarque y Bera, Cramer-Von Mises, Shapiro-Wilk, entre otras. El

segundo tipo de pruebas, las informales, descansan más en pruebas gráficas o

que involucran cálculos sencillos apoyados por la estadística descriptiva.

Esta nota tiene como propósito el aplicar al segundo tipo de pruebas con el fin

de complementar las pruebas formales. Específicamente se revisan las

pruebas siguientes:

a) el histograma de frecuencias relativas;

b) la regla empírica;

c) la razón entre el rango intercuartílico (RIC) y la desviación

estándar (σ); y

d) el gráfico de probabilidad normal.

Para elaborar estas pruebas informales se consideran dos ejemplos

considerando dos conjuntos de datos distintos así como la ayuda que ofrece el

paquete estadístico Stata para su elaboración.

Page 2: ESTADÍSTICA FORTINO VELA PEÓN - Blog de … los comandos de Stata utilizados. ii) ... Histograma de frecuencias relativas 0 50 100 150 Frequency 0 500 1000 DDT No se distribuye aproximadamente

ESTADÍSTICA FORTINO VELA PEÓN

DPTO. PRODUCCIÓN ECONÓMICA UAMX 2

Ejemplo 1 .

A continuación de presenta un conjunto de mediciones referentes al peso (en gramos) de diferentes tipos de baterías para motocicletas. Los datos muestran que existen fabricantes que ofrecen baterías fabricadas en litio con un peso a partir de los 173 gramos para motos de 600cc y con un peso de hasta 2302 gramos para motores de mayor cilindrada. ¿Presentan estas mediciones una distribución normal?

id peso id peso id peso id peso 1 732 37 936 73 1300 109 1285 2 795 38 1058 74 1365 110 1178 3 547 39 800 75 1437 111 1492 4 465 40 1087 76 1460 112 1524 5 1252 41 1329 77 1671 113 1473 6 1255 42 897 78 1717 114 520 7 741 43 778 79 613 115 863 8 1151 44 532 80 353 116 549 9 1186 45 441 81 909 117 810

10 754 46 544 82 886 118 908 11 679 47 393 83 890 119 804 12 985 48 733 84 1031 120 1179 13 1133 49 961 85 1083 121 556 14 1139 50 886 86 864 122 659 15 1186 51 678 87 886 123 1229 16 984 52 1011 88 965 124 1050 17 965 53 947 89 537 125 952 18 1084 54 989 90 630 126 826 19 986 55 1291 91 1486 127 599 20 1023 56 1186 92 1743 128 1704 21 1266 57 1293 93 2061 129 1207 22 1086 58 1709 94 1707 130 911 23 1044 59 1425 95 862 131 1498 24 1770 60 1176 96 911 132 1496 25 1048 61 980 97 476 133 1142 26 1641 62 1176 98 743 134 879 27 1331 63 989 99 1128 135 525 28 1728 64 1084 100 848 136 806 29 917 65 1115 101 1091 137 694 30 1398 66 724 102 715 138 643 31 1763 67 847 103 983 139 514 32 1459 68 876 104 1251 140 358 33 2302 69 844 105 1255 141 856 34 1614 70 908 106 1152 142 793 35 1444 71 1358 107 1085 143 173 36 2006 72 1019 108 1118 144 1433

Page 3: ESTADÍSTICA FORTINO VELA PEÓN - Blog de … los comandos de Stata utilizados. ii) ... Histograma de frecuencias relativas 0 50 100 150 Frequency 0 500 1000 DDT No se distribuye aproximadamente

ESTADÍSTICA FORTINO VELA PEÓN

DPTO. PRODUCCIÓN ECONÓMICA UAMX 3

a) Histograma de frecuencias relativas Esté debe ofrecer una forma aproximada a la de una distribución de probabilidad normal. Al elaborarlo se presenta un comportamiento aproximado en forma de campana, razón por la cual pudiera ser factible que los datos de distribuyan normalmente. histogram peso, freq normal

010

2030

Fre

quen

cy

0 500 1000 1500 2000 2500peso

b) La regla empírica La regla empírica establece que cuando una población presenta una distribución en forma, más o menos, a la de una distribución normal, la media, la mediana y la moda coinciden en el centro de la distribución y los porcentajes de todos los valores poblacionales se encuentran dentro de ± 1, ± 2, y ± 3 desviaciones estándar de la media. Estos porcentajes son aproximadamente iguales a 68, 95 y 99% , respectivamente. Con ayuda de Stata se obtienen los estadísticos descriptivos más importantes que servirán para el calculo de los intervalos antes señalados. sum peso Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------- peso | 144 1049.715 376.5461 173 2302

Se procede al cálculo de los intervalos antes señalados.

Page 4: ESTADÍSTICA FORTINO VELA PEÓN - Blog de … los comandos de Stata utilizados. ii) ... Histograma de frecuencias relativas 0 50 100 150 Frequency 0 500 1000 DDT No se distribuye aproximadamente

ESTADÍSTICA FORTINO VELA PEÓN

DPTO. PRODUCCIÓN ECONÓMICA UAMX 4

i) y s± debe contener aproximadamente el 68% de las observaciones. Realizando el cálculo se tiene:

1049.715 ±±±± 376.5461 = (673.1689, 1426.2611) Al ejecutar sum peso if peso >= 673.1689 & peso<= 1426.2611 se puede observar que 116 de las 144 observaciones caen dentro de este intervalo de valores, es decir, el 68.06% de las observaciones, cifra muy cercana al 68% que establece la regla empírica.

Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------- peso | 98 1012.184 187.8005 678 1425

tab peso if peso >= 376.5461 | peso<= 76.5461

se puede observar que 141 de las 144 observaciones caen dentro de este intervalo, es decir, el Se procede de igual manera para los otros dos intervalos de valores, es decir, considerando ± 2, y ± 3 desviaciones estándar de la media. A continuación se presentan como los resultados obtenidos así como los comandos de Stata utilizados. ii) 2y s± debe contener aproximadamente el 95% de las observaciones. Se tiene entonces

1049.715 ± 2*376.5461= (296.6228, 1802.8072) Dentro de este intervalo caen 140 de las 144 observaciones, es decir, el 97.22%, valor muy cercano al 95% postulado por la regla empírica.

Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------- peso | 140 1032.979 338.8756 353 1770

dis 1049.715 - 2*376.5461 dis 1049.715 + 2* 376.5461 sum peso if peso >= 296.6228 & peso<= 1802.8072 dis 143/144

iii) 3y s± debe contener aproximadamente el 99% de las observaciones. Dentro de este intervalo caen 143 de las 144 observaciones, es decir, 99.31%, valor cercano al 99% postulado por la regla empírica. Se tiene entonces

1049.715 ± (3*376.5461)=(-79.9233, 2179.3533) Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------- peso | 143 1040.958 362.856 173 206

Page 5: ESTADÍSTICA FORTINO VELA PEÓN - Blog de … los comandos de Stata utilizados. ii) ... Histograma de frecuencias relativas 0 50 100 150 Frequency 0 500 1000 DDT No se distribuye aproximadamente

ESTADÍSTICA FORTINO VELA PEÓN

DPTO. PRODUCCIÓN ECONÓMICA UAMX 5

dis 1049.715 - (3*376.5461) dis 1049.715 + (3* 376.5461) sum peso if peso >= -79.9233 & peso<= 2179.3533 dis 143/144

En resumen, se tiene que siguiendo la regla empírica, este conjunto de mediciones sigue, de manera aproximada, una distribución de probabilidad normal, ya que

y s± =68% los datos presentan 68.06%; 2y s± = 95% los datos presentan 97.22%; y 3y s± =99% los datos presentan 99.31%

c) Cálculo de la razón RIC σ Se espera que para datos distribuidos normalmente 1.3RIC σ = . Utilizando Stata es posible encontrar los valores del primer (Q1) y segundo (Q2) cuartil para así calcular el RIC (dada por: 3 1RIC Q Q= − ). peso ------------------------------------------------------------- Percentiles Smallest 1% 353 173 5% 514 353 10% 549 358 Obs 144 25% 805 393 Sum of Wgt. 144 50% 1000 Mean 1049.715 Largest Std. Dev. 376.5461 75% 1260.5 1770 90% 1524 2006 Variance 141787 95% 1717 2061 Skewness .4953224 99% 2061 2302 Kurtosis 3.314398

De esta manera, se tiene que RIC=455.5 para entonces obtener un valor de la razón 1.26RIC σ = . Este valor es cercano al esperado por lo que es posible que los datos se distribuyan normalmente. sum peso, d scalar RIC=1260.5-805 dis RIC dis RIC/362.856

d) Gráfico de probabilidad normal El gráfico de probabilidad normal compara la distribución empírica de la muestra de datos, con la teórica distribución normal. La idea básica consiste en representar, en un mismo gráfico, los datos empíricos observados, frente a los datos que se obtendrían en una distribución normal teórica. Si la distribución de la variable es normal, los puntos quedarán cerca de una línea recta. Al efectuar el gráfico mediante Stata se observa que su comportamiento es aproximado al de la línea recta, razón por la que puede considerase que los datos se distribuyen normalmente.

Page 6: ESTADÍSTICA FORTINO VELA PEÓN - Blog de … los comandos de Stata utilizados. ii) ... Histograma de frecuencias relativas 0 50 100 150 Frequency 0 500 1000 DDT No se distribuye aproximadamente

ESTADÍSTICA FORTINO VELA PEÓN

DPTO. PRODUCCIÓN ECONÓMICA UAMX 6

pnorm peso

0.00

0.25

0.50

0.75

1.00

Nor

mal

F[(

peso

-m)/

s]

0.00 0.25 0.50 0.75 1.00Empirical P[i] = i/(N+1)

Page 7: ESTADÍSTICA FORTINO VELA PEÓN - Blog de … los comandos de Stata utilizados. ii) ... Histograma de frecuencias relativas 0 50 100 150 Frequency 0 500 1000 DDT No se distribuye aproximadamente

ESTADÍSTICA FORTINO VELA PEÓN

DPTO. PRODUCCIÓN ECONÓMICA UAMX 7

Ejemplo 2 Para el conjunto de mediciones de la variable X se efectúan las cuatro pruebas mostradas en el ejemplo 1, tratando de determinar si estas presentan una distribución normal o no. La sintaxis se Stata se muestra al final del ejemplo para que Ud. pueda verificar el cálculo correcto de cada prueba.

id X id X id X id X 1 10 37 19 73 1.3 109 12 2 16 38 7.2 74 4.8 110 33 3 23 39 6 75 5.1 111 48 4 21 40 10 76 5.1 112 10 5 50 41 12 77 4 113 44 6 150 42 2.8 78 10 114 0.43 7 28 43 0.48 79 12 115 1100 8 7.7 44 0.18 80 22 116 9.4 9 2 45 0.34 81 10 117 4.1

10 19 46 0.11 82 11 118 2.8 11 16 47 0.22 83 17 119 0.74 12 5.4 48 0.8 84 9.7 120 14 13 2.6 49 8.7 85 12 121 22 14 3.1 50 22 86 4.7 122 9.1 15 3.5 51 13 87 6 123 140 16 9.1 52 3.5 88 3.8 124 4.2 17 7.8 53 9.3 89 17 125 12 18 4.1 54 21 90 12 126 2 19 8.4 55 3.4 91 1.4 127 0.3 20 15 56 13 92 6.1 128 1.2 21 25 57 5.6 93 2.8 129 7.1 22 5.6 58 12 94 4.8 130 180 23 4.6 59 21 95 5.7 131 1.5 24 8.2 60 8 96 3.3 132 2.4 25 6.1 61 12 97 3.3 133 4.3 26 13 62 6 98 3.7 134 3.9 27 6 63 4.7 99 9.9 135 0.99 28 6.6 64 31 100 6.8 136 0.45 29 5.5 65 5.2 101 13 137 2.5 30 11 66 27 102 8.8 138 0.25 31 4.5 67 18 103 57 139 0.58 32 4.2 68 7.5 104 96 140 2 33 3 69 3 105 360 141 2.2 34 2.3 70 13 106 130 142 7.4 35 2.5 71 7.3 107 13 143 0.35 36 6.8 72 15 108 61 144 1.9

Page 8: ESTADÍSTICA FORTINO VELA PEÓN - Blog de … los comandos de Stata utilizados. ii) ... Histograma de frecuencias relativas 0 50 100 150 Frequency 0 500 1000 DDT No se distribuye aproximadamente

ESTADÍSTICA FORTINO VELA PEÓN

DPTO. PRODUCCIÓN ECONÓMICA UAMX 8

a) Histograma de frecuencias relativas

050

100

150

Fre

quen

cy

0 500 1000DDT

No se distribuye aproximadamente normal. b) La regla empírica Siguiendo lo señalado en la regla empírica, este conjunto de mediciones no sigue de manera aproximada una distribución de probabilidad normal debido a que

y s± =68% los datos presentan 95.83%; 2y s± = 95% los datos presentan 98.61%; y 3y s± =99% los datos presentan 98.61%

c) Cálculo de la razón RIC σ En este caso, el valor de la razón RIC σ 0.0981= valor muy distante al esperado para una distribución normal por lo que estos datos no siguen tal distribución. d) Gráfico de probabilidad normal El gráfico de probabilidad normal para esta variable muestra un comportamiento muy alejado al de la línea recta por la que no puede considerase que los datos se distribuyen normalmente.

Page 9: ESTADÍSTICA FORTINO VELA PEÓN - Blog de … los comandos de Stata utilizados. ii) ... Histograma de frecuencias relativas 0 50 100 150 Frequency 0 500 1000 DDT No se distribuye aproximadamente

ESTADÍSTICA FORTINO VELA PEÓN

DPTO. PRODUCCIÓN ECONÓMICA UAMX 9

0.00

0.25

0.50

0.75

1.00

Nor

mal

F[(

X-m

)/s]

0.00 0.25 0.50 0.75 1.00Empirical P[i] = i/(N+1)

Sintaxis de Stata para el ejemplo 2

histogram X, freq normal sum X dis 24.355 -98.37859 -dis 24.355 +98.37859 sum X if X >= -74.0235 & X<= 122.73359 dis 138/144 dis 24.355 -(2*98.37859) dis 24.355 +(2*98.37859) sum X if X >= -172.40218 & X<= 221.11218 dis 142/144 dis 24.355 -(3*98.37859) dis 24.355 +(3*98.37859) sum X if X >= -270.78077 & X<= 319.49077 dis 142/144 sum X, d scalar RIC=13-3.35 dis RIC dis RIC/98.37859 pnorm X