la desviación estándar y otras medidas de dispersión ... · pdf filedonde...

6
La desviación estándar y otras medidas de dispersión CAPÍTULO 4 DISPERSION O VARIACION La dispersión o variación de los datos es el grado en que los datos numéricos tienden a esparcirse alrededor de un valor promedio. Existen diversas medidas de dispersión o varia- ción, siendo las más comunes el rango, la desviación media, el rango semiintercuartilar, el rango percentilar 10-90 y la desviación estándar. EL RANGO El rango de un conjunto de números es la diferencia entre el número mayor y el menor del conjunto. EJEMPLO 1 El rango del conjunto 2, 3, 3, 5, 5, 5, 8, 10, 12 es 12 - 2 = 10. Algunas veces el rango se obtiene simplemente señalando el número más pequeño y el más grande; en el conjunto anterior, por ejemplo, el rango podría indicarse como de 2 a 12 o 2-12. LA DESVIACION MEDIA La desviación media o desviación promedio de un conjunto de N números X u X 2 A se abrevia DM y se define como: Desviación media (DM) = El* N N \X - X\ donde Xes la media aritmética délos números y \X- XI es el valor absoluto de U desvaen de X respecto de X. (El valor absoluto de un número es el número sin el signo asociado > wt indica con dos líneas verticales colocadas a los lados del número: así í = -. 3 - • t» = 6 y 1-0.841 = 0.84.)

Upload: dangque

Post on 21-Feb-2018

226 views

Category:

Documents


0 download

TRANSCRIPT

La desviación estándar y otras medidas de dispersión

CAPÍTULO 4 DISPERSION O VARIACION La dispersión o variación de los datos es el grado en que los datos numéricos tienden a esparcirse alrededor de un valor promedio. Existen diversas medidas de dispersión o varia­ción, siendo las más comunes el rango, la desviación media, el rango semiintercuartilar, el rango percentilar 10-90 y la desviación estándar.

EL RANGO El rango de un conjunto de números es la diferencia entre el número mayor y el menor del conjunto.

EJEMPLO 1 El rango del conjunto 2, 3, 3, 5, 5, 5, 8, 10, 12 es 12 - 2 = 10. Algunas veces el rango se obtiene simplemente señalando el número más pequeño y el más grande; en el conjunto anterior, por ejemplo, el rango podría indicarse como de 2 a 12 o 2-12.

LA DESVIACION MEDIA La desviación media o desviación promedio de un conjunto de N números Xu X2 A se abrevia DM y se define como:

Desviación media (DM) = E l * N N

\X - X\

donde Xes la media aritmética délos números y \X- XI es el valor absoluto de U desvaen de X respecto de X. (El valor absoluto de un número es el número sin el signo asociado > wt indica con dos líneas verticales colocadas a los lados del número: así í = - . — 3 - • t» = 6 y 1-0.841 = 0.84.)

90 CAPITULO 4 M La desviación estándar y otras medidas de dispersión

EJEMPLO 2 Calcule la desviación media del conjunto 2, 3, 6, 8, 11.

M .. .. 2 + 3 + 6 + 8 + 11 k Media antmetica (X) = = 6

D M = | 2 - 6 | + | 3 - 6 | + | 6 - 6 | + | 8 - 6 | + |11-6 | = | - 4| + | - 3| + |0| + |2| + |5| = 4 + 3 + 0 + 2 + 5 = ^

Si Xu X2,..., XK ocurren con frecuencias/,,/2,..., fK, respectivamente, la desviación media puede expresarse

DM U Hf\x-x\

N N \X-X\ (2)

donde A' = X %\ f¡ = Z/- Esta forma es útil para datos agrupados, donde las X¡ representan las marcas de clase y las f} son las frecuencias de clase correspondientes.

En ocasiones la desviación media se define en términos de desviaciones absolutas con respecto a la mediana u otro promedio, en lugar de hacerlo en relación con la media. Una propiedad interesante de la suma Zjl, \Xj - a\ radica en que es mínima cuando a es la mediana (es decir, la desviación media con referencia a la mediana es mínima).

Obsérvese que sena más adecuado utilizar el término desviación media absoluta que desviación media.

EL RANGO SEMIINTERCUARTILAR El rango semiintercuartilar o desviación cuartilar de un conjunto de datos se denota por Q y se define como

Q3-Q1 Q = (3)

donde Q¡ y Q3 son el primer y tercer cuartiles de los datos (véanse los problemas 4.6 y 4.7). Algunas veces se usa el rango intercuartilar Q} —Qx, aunque el rango semiintercuartilar es más común como medida de dispersión.

EL RANGO PERCENTILAR 10-90 El rango percentilar 10-90 de un conjunto de datos se define como

Rango percentilar 10-90 = P 9 0 - P¡0 (4)-

donde Pí0 y P^ son los percentiles 10o. y 90o. de los datos (véase el problema 4.8). También puede utilizarse el rango semipercentilar 10-90, 5(^ ,0 - P 1 0), pero esto no es frecuente.

LA DESVIACION ESTANDAR La desviación estándar de un conjunto N de números X¡, X2 A^se denota por 5 y se define como:

s = N N N x? (5)

donde x representa las desviaciones de cada uno de los números X¡, respecto de la X. Por lo tanto, 5 es la media cuadrática de las desviaciones en relación con la media o, como se le llama en forma común, desviación de la media cuadrática (véase pág. 63).

Métodos cortos para calcular la desviación estándar • 91

Si Xu X2,..., XK ocurren con frecuencias/,,/2,..., fK, respectivamente, la desviación estándar suele expresarse

donde N = X%\ f¡ = X/- De esta forma, es útil para datos agrupados. Algunas veces la desviación estándar de los datos de una muestra se define con (.'•

reemplazando N en los denominadores de las expresiones de las ecuaciones (5) y (6). ya que el valor resultante representa un mejor estimado de la desviación estándar de la población original. Para los valores grandes de N (de modo preciso N > 30), prácticamente no existe diferencia entre las dos definiciones. Además, cuando se necesita el mejor estimado, siem­pre podemos obtenerlo multiplicando la desviación estándar, calculada de acuerdo con la primera definición, por VAV(Af - 1). Por lo tanto, se usarán las formas (5) y (6).

LA VARIANZA La varianza de un conjunto de datos se define como el cuadrado de la desviación estándar; por lo tanto, se representa como s2 en las ecuaciones (5) y (6).

Cuando es necesario distinguir la desviación estándar de una población de la desvia­ción estándar de una muestra obtenida de dicha población, con frecuencia se utiliza el sím­bolo i para esta última y a (sigma griega minúscula) para la primera. Por lo tanto, representan la varianza de una muestra y la varianza de una población, respectivamente.

MÉTODOS CORTOS PARA CALCULAR LA DESVIACIÓN ESTÁNDAR Las ecuaciones (5) y (6~) pueden expresarse, respectivamente, en las formas equivalentes:

donde X2 denota la media de los cuadrados de los distintos valores de X. mientras que X denota el cuadrado de la media de los distintos valores de X (véanse los problemas 4.12 al 4.14).

Si dj = Xj-A son las desviaciones de X ;con respecto a una constante arbitraria A, los resultados de (7) y (8) se convierten, respectivamente, en

(Véanse los problemas 4.15 y 4.17.)

l - ; -.I - • . r rer- z: z- erandar y otras medidas de dispersión

Cuando los datos se encuentran agrupados en una distribución de frecuencias, cuyos intervalos de clase son del mismo tamaño c, se tiene d¡ - cu¡ oX¡ = A + cu¡ y el resultado (70 se convierte en

s = c £ /«2 (Z fu

N N un

Esta fórmula ofrece un método muy breve para calcular la desviación estándar y debe utili­zarse siempre para datos agrupados cuando el tamaño de los intervalos de clase sea igual. Es denominado método de codificación y es exactamente análogo al utilizado en el capítulo 3 para calcular la media aritmética de datos agrupados. (Véanse los problemas 4.16 al 4.19.)

PROPIEDADES DE LA DESVIACION ESTANDAR 1. La desviación estándar puede definirse como

s =• Ñ

donde a es un promedio cercano a la media aritmética. De todas las desviaciones están­dar, la mínima es aquella en que a = X, debido a la propiedad 2 del capítulo 3. Esta propiedad proporciona una razón importante para definir la desviación estándar como se hizo antes. Para probar esta propiedad, véase el problema 4.27. En distribuciones normales (véase el capítulo 7), resulta que (como se muestra en la figura 4-1):

a) 68.27% de los casos están incluidos entre X-s y X + s (es decir, una desviación estándar a cada lado de la media).

b) 95.45% de los casos están incluidos entre X- 2s y X + 2s (es decir, dos desviacio­nes estándar a cada lado de la media).

c) 99.73% de los casos están incluidos entre X-3s y X + 3s (es decir, tres desviacio­nes estándar a cada lado de la media).

En distribuciones moderadamente asimétricas, los porcentajes anteriores pueden ser aproximados (véase el problema 4.24).

X-3s X + 3s

3. Suponga que dos conjuntos con A7, y números (o dos distribuciones de frecuencias con frecuencias totales N¡ y N2) tienen varianzas dadas por s] y sf, respectivamente, y la misma media X. Entonces la varianza combinada de ambos conjuntos (o dos distribu­ciones de frecuencias) estará dada por

NjS2 + N2s\ V, +N2

(12)

Obsérvese que se trata de una media aritmética ponderada de las varianzas. El resulta­do puede generalizarse a tres o más conjuntos.

Dispersión absoluta y relativa: coeficiente de variación • 93

9 COMPROBACIÓN DE CHARLIER

La comprobación de Charlier en los cálculos de la media y de la desviación i«- por medio del método de codificación, hace uso de las identidades

£ / ( « + 1 ) = £ / « + £ / = E > + JV

£ / ( " + l ) 2 = E f(u2 + 2u+\) = £ fu2 + 2 £ / " + £ / = £ fu2+ 2¿Z fu + N

(Véase el problema 4.20.)

CORRECCIÓN DE SHEPPARD PARA LA VARIANZA

El cálculo de la desviación estándar tiene cierto grado de error como resultado de la agrupa­ción de los datos en clases (error de agrupación). Para corregirlo, se utiliza la fórmula

c2

Varianza corregida = varianza de datos agrupados - — (73)

donde c es el tamaño del intervalo de clase. La corrección c2/12 (que se resta) es llamada corrección de Sheppard. Se usa para distribuciones de variables continuas, donde las "co­las" van gradualmente hacia cero en ambas direcciones.

Los estadísticos difieren respecto de cuándo y dónde debe aplicarse la corrección de Sheppard. Ciertamente no antes de examinar de manera cuidadosa la situación, ya que con frecuencia se tiende a sobrecorregir, reemplazando un error por otro. En este libro no se utilizará la corrección de Sheppard, a menos que se indique lo contrario.

RELACIONES EMPÍRICAS ENTRE MEDIDAS DE DISPERSIÓN Para distribuciones moderadamente sesgadas, se tienen las fórmulas empíricas

Desviación media = ^(desviación estándar)

Rango semiintercuartilar = § (desviación estándar)

Ambas son consecuencia del hecho de que la desviación media y el rango semiintercuartilar para la desviación estándar son iguales a 0.7979 y 0.6745 veces la desviación estándar, respectivamente.

DISPERSION ABSOLUTA Y RELATIVA: COEFICIENTE DE VARIACIÓN La variación real o dispersión, determinada a partir de la desviación estándar u otra medida de dispersión, se denomina dispersión absoluta. Sin embargo, una variación (o dispersión) de 10 pulgadas (pulg), al medir una distancia de 1 000 pies, tiene un efecto muy diferente si la misma variación de 10 pulg se presenta en una distancia de 20 pies. Una medida de < efecto es sustituida por la dispersión relativa, que se define como

dispersión absoluta Dispersión relativa = T-

promedio Si la dispersión absoluta es la desviación estándar s

tonces la dispersión relativa se denomina coeficiente de variación o < sión; la misma se denota por V y está dada por

_c jes-' aaon estándar y otras medidas de dispersión

Coeficiente de variación (V) =-=- (75)

que por lo general se expresa en forma de porcentaje. También existen otras posibilidades (véase el problema 4.30).

Obsérvese que el coeficiente de variación es independiente de las unidades usadas. Por este motivo es útil para comparar distribuciones con unidades diferentes. Una desventaja del coeficiente de variación es que no sirve cuando la media es cercana a cero.

VARIABLE ESTANDARIZADA: MEDIDAS ESTÁNDAR La variable que mide la desviación respecto de la media, en unidades de la desviación estándar, se denomina variable estandarizada; es una cantidad adimensional (es decir, es independiente de las unidades utilizadas) y está dada por

X-X z = — - (16)

Si las desviaciones en relación con la media se dan en unidades de la desviación están­dar, se dice que están expresadas en unidades estándar o medidas estándar. Son muy útiles para comparar distribuciones (véase el problema 4.31).