medidas de dispersion

Cuarta sección

Medidas dispersión

ParteIII

MSc Edgar Madrid Cuello

Departamento de Matemática, UNISUCRE

Estadística I

MSc Edgar Madrid Cuello Departamento de Matemática, UNISUCRE Estadística IMedidas dispersión

Cuarta sección

Medidas de dispersión

Una buena descripción de la distribución debería también

caracterizar el grado de dispersión de la misma (¾son las

observaciones de la muestra casi todas iguales, o di�eren

sustancialmente?). Una medida de dispersión es el IQR. Otras

medidas de dispersión.

De�nición (El rango)

El rango muestral es la diferencia entre las observaciones máxima ymínima de la muestra.

Ejemplo (Presión sanguínea)

Las presiones sanguíneas sistólicas (mm Hg) de seis hombres demediana edad fueron las siguientes:

113 124 124 132 146 170

Cuarta sección

113 124 124 132 146 170

Cuarta sección

113 124 124 132 146 170

Cuarta sección

113 124 124 132 146 170

Cuarta sección

113 124 124 132 146 170

Cuarta sección

113 124 124 132 146 170

Cuarta sección

El rango es fácil de calcular, pero es muy sensible a los

valores extremos. Es decir, no es robusto. Si el

máximo de la muestra de la presión sanguínea

hubiera sido 190 en vez de 170, el rango habría

cambiado de 57 a 77.

Cuarta sección

De�nición (La desviación típica)

La desviación típica es la medida de dispersión clásica y másampliamente utilizada.La desviación típica de la muestra, o desviación típica muestral, sedetermina combinando las desviaciones de una forma especial,como se indica en el siguiente recuadro.La desviación típica muestral se denota como s y se de�nemediante la siguiente fórmula:

√√√√ n∑i=1

(xi − x̄ )2

n− 1

Cuarta sección

√√√√ n∑i=1

(xi − x̄ )2

n− 1

Cuarta sección

√√√√ n∑i=1

(xi − x̄ )2

n− 1

Cuarta sección

Por tanto, para obtener la desviación típica de una muestra,

primero se obtienen las desviaciones. Seguidamente

1 Se elevan al cuadrado.

2 Se suman.

3 El resultado se divide por n− 1.

4 Se toma la raíz cuadrada.

Cuarta sección

2 Se suman.

Cuarta sección

2 Se suman.

Cuarta sección

2 Se suman.

Cuarta sección

2 Se suman.

Cuarta sección

Ejemplo (Crecimiento de crisantemos)

En un experimento sobre crisantemos, un botánico midió elalargamiento del tallo (mm en 7 días) de cinco plantas que crecíanen el mismo banco del invernadero. Los resultados fueron lossiguientes:

76 72 65 70 82

Cuarta sección

De�nición (varianza muestral)

La varianza muestral denotada como s2, es simplemente ladesviación típica al cuadrado;

s =√varianza

Cuarta sección

Interpretación de la de�nición de s

El módulo de cada desviación, se puede interpretar como la

distancia de la correspondiente observación a la media muestral x̄.La Figura muestra una grá�ca de los datos de crecimiento de

crisantemos, donde se ha marcado cada distancia.

Cuarta sección

Interpretación de la de�nición de s

El módulo de cada desviación, se puede interpretar como la

distancia de la correspondiente observación a la media muestral x̄.La Figura muestra una grá�ca de los datos de crecimiento de

crisantemos, donde se ha marcado cada distancia.

Cuarta sección

A partir de la fórmula de s, puede verse que cada desviación

contribuye a la DT. Por tanto, una muestra del mismo tamaño

pero con menor dispersión tendrá una DT menor.

Si los datos de crecimiento de crisantemos del Ejemplo anteriorhubieran cambiado a75 72 73 75 70

Cuarta sección

A partir de la fórmula de s, puede verse que cada desviación

contribuye a la DT. Por tanto, una muestra del mismo tamaño

pero con menor dispersión tendrá una DT menor.

Si los datos de crecimiento de crisantemos del Ejemplo anteriorhubieran cambiado a75 72 73 75 70

Cuarta sección

¾Por qué n− 1?

Como dividir por n parece más natural, podemos preguntarnos por

qué la fórmula de la DT divide por (n− 1). La suma de las

desviaciones es siempre cero. Por tanto, una vez que se han

calculado las primeras n− 1 desviaciones, la última desviación está

restringida. Esto signi�ca que una muestra con n observaciones hay

solo n− 1 unidades de información con respecto a la desviación del

promedio. La cantidad n− 1 se denomina los grados de libertad

de la desviación típica o de la varianza. Considerando el caso

extremo de n = 1, como en el ejemplo siguiente.

Cuarta sección

¾Por qué n− 1?

Cuarta sección

¾Por qué n− 1?

Cuarta sección

¾Por qué n− 1?

Cuarta sección

¾Por qué n− 1?

Cuarta sección

Supongamos que el experimento sobre crecimiento de crisantemoshubiera incluido solo una planta, de forma que la muestraconsistiera únicamente en la observación

Cuarta sección

El coe�ciente de variación

De�nición

El coe�ciente de variación en la desviación típica expresada comoun porcentaje de la media:

coeficiente de variacion =s

x̄× 100%

En el Ejemplo de crecimiento de crisantemos, obtuvimosx̄ = 73, 0mm y s = 6, 4mm.

El coe�ciente de variación de la muestra es 8,8%. Por tanto, ladesviación típica es el 8,8% de la media.

Cuarta sección

De�nición

x̄× 100%

Cuarta sección

De�nición

x̄× 100%

Cuarta sección

Ejemplo

Como parte de la Berkeley Guidance Study , se midieron las alturas(en cm) y los pesos (en kg) de 13 niñas de dos años. A la edad dedos años, la altura media fue de 86,6 cm y la DT fue de 2,9 cm.Por tanto, el coe�ciente de variación de la altura a la edad de dosaños es:

El promedio del peso a la edad de dos años fue de 12,6 kg y la DTfue de 1,4 kg. Por tanto, el coe�ciente de variación del peso a laedad de dos años es

Cuarta sección

Ejemplo

Como parte de la Berkeley Guidance Study , se midieron las alturas(en cm) y los pesos (en kg) de 13 niñas de dos años. A la edad dedos años, la altura media fue de 86,6 cm y la DT fue de 2,9 cm.Por tanto, el coe�ciente de variación de la altura a la edad de dosaños es:

El promedio del peso a la edad de dos años fue de 12,6 kg y la DTfue de 1,4 kg. Por tanto, el coe�ciente de variación del peso a laedad de dos años es

Cuarta sección

Hay considerablemente más variabilidad en el peso que en la altura,

cuando expresamos cada medida de variabilidad como un

porcentaje de la media. La DT del peso es un porcentaje bastante

grande del peso medio, pero la DT de la altura es un porcentaje

más bien pequeño de la altura media.

Cuarta sección

Representación de medidas de dispersión

El rango y el intervalo intercuartílico son fáciles de interpretar. El

rango es la dispersión de todas las observaciones yel intervalo

intercuartílico es la dispersión de (aproximadamente) el 50% central

de las observaciones. En términos del histograma de un conjunto

de datos, el rango se puede ver como (aproximadamente) la

anchura del histograma. Los cuartiles son (aproximadamente) los

valores que dividen el área en cuatro partes iguales y el intervalo

intercuartílico es la distancia entre los cuartiles primero y tercero.

Cuarta sección

Ejemplo (Ganancia diaria de ganado)

Se evaluó el rendimiento del ganado vacuno midiendo su gananciade peso durante un periodo de prueba de 140 días con una dietaestándar. La Tabla muestra las ganancias diarias promedio (kg/día)de 39 toros de la misma raza (Charoláis). Las observaciones sepresentan en orden creciente. Los valores van desde 1.18 kg/díahasta 1.92 kg/día.1.18 1.24 1.29 1.37 1.41 1.51 1.58 1.721.20 1.26 1.33 1.37 1.41 1.53 1.59 1.761.23 1.27 1.34 1.38 1.44 1.55 1.64 1.831.23 1.29 1.36 1.40 1.48 1.57 1.64 1.921.23 1.29 1.36 1.41 1.50 1.58 1.65

Cuarta sección

Se evaluó el rendimiento del ganado vacuno midiendo su gananciade peso durante un periodo de prueba de 140 días con una dietaestándar. La Tabla muestra las ganancias diarias promedio (kg/día)de 39 toros de la misma raza (Charoláis). Las observaciones sepresentan en orden creciente. Los valores van desde 1.18 kg/díahasta 1.92 kg/día.1.18 1.24 1.29 1.37 1.41 1.51 1.58 1.721.20 1.26 1.33 1.37 1.41 1.53 1.59 1.761.23 1.27 1.34 1.38 1.44 1.55 1.64 1.831.23 1.29 1.36 1.40 1.48 1.57 1.64 1.921.23 1.29 1.36 1.41 1.50 1.58 1.65

Cuarta sección

Histogram of peso

Ganancia de Peso

1.2 1.4 1.6 1.8 2.0

La Figura muestra un histograma de los datos, el rango, loscuartiles y el intervalo intercuartílico (IQR). El área sombreadarepresenta (aproximadamente) el 50% central de las observaciones.

Cuarta sección

Histogram of peso

Ganancia de Peso

1.2 1.4 1.6 1.8 2.0

● ●

Cuarta sección

La Figura muestra un histograma SUAVIZADO de los datos, elrango, los cuartiles y el intervalo intercuartílico (IQR). El áreasombreada representa (aproximadamente) el 50% central de lasobservaciones.

Cuarta sección

Representación de la desviación típica

De�nición (Porcentajes típicos: la regla empírica)

Para distribuciones con �forma buena�, es decir, distribucionesunimodales que no estén demasiado sesgadas y cuyas colas no seandemasiado largas y cortas, en general podemos esperar encontrar:Aproximadamente 68 % de las observaciones dentro de unadistancia de ±1 DT de la media.Aproximadamente el 95% de las observaciones dentro de unadistancia de ±2DT de la media.>99% de las observaciones dentro de una distancia de ±3 DT de lamedia.

Cuarta sección

Se puede ver un histograma y estimar la DT.Para ello, necesitamos

estimar los extremos del intervalo que esté centrado en la media y

que contenga aproximadamente el 95% de los datos. La regla

empírica implica que este intervalo es aproximadamente el mismo

que (x̄− 2s, x̄ + 2s), por lo que la longitud del intervalo debería ser

aproximadamente cuatro veces la DT:

(x̄− 2s, x̄ + 2s) tiene una longitud de 2s + 2s = 4s

Esto signi�ca que longitud del intervalo = 4sPor lo que

estimacindes =longitud del intervalo = 4s

Cuarta sección

Nuestra estimación visual del intervalo que abarca el 95% de los

datos alrededor de la mitad de la distribución podría ser errónea.

Es más, la regla empírica trabaja mejor con distribuciones que son

simétricas. Por tanto, este método de estimar la DT producirá

únicamente una estimación general. El método funciona mejor

cuando la distribución es bastante simétrica, pero funciona

razonablemente bien incluso si la distribución es algo sesgada.

Cuarta sección

Ejemplo

Un grupo de 28 adultos realizó un ejercicio moderado durante cincominutos y después se midieron sus pulsaciones. La Figura muestrala distribución de los datos.

medidas de dispersion

Education