introducción a las medidas de dispersión · la desviación media se calcula con la fórmula: ......
TRANSCRIPT
UNIDAD 8: INTERPRETEMOS LA VARIABILIDAD DE
LA INFORMACION.
Introducción a las medidas de dispersión.
Como su nombre lo indica, las medidas de dispersión son parámetros que nos indican
qué tan dispersos están los datos. Cuanto más dispersos estén, mayor será el valor de
la medida.
Consideremos las series siguientes.
a. 10, 10, 10, 10.
b. 2, 5, 6, 7, 9, 13.
c. 1, 7. 8, 14, 20
En la serie a, la dispersión es cero; y la serie c es la más dispersa. De hecho, para la
serie a la desviación típica, que es una medida de dispersión, es CERO.
Las medidas de dispersión tienen su importancia. El caso siguiente ilustrará esta
importancia.
Se tienen 2 empresas. La empresa A paga un salario promedio de $265; mientras que
la empresa B paga un salario promedio de $240. A juzgar por la media aritmética (el
promedio), podría afirmarse que los empleados de la empresa A están mejor
económicamente. Pero No es cierto que los de A están mejor que los de B.
Analicemos los salarios de cada empleado por empresa.
Salarios de los empleados de la empresa A.
174 180 173 190 200 183 500 220 450 175 185 550
Salarios de los empleados de la empresa B.
220 210 200 230 310 250 225 290 215 235 240 255
Podemos observar que en la empresa A hay salarios muy bajos: el más bajo es $173.
En cambio en la empresa B, el salario más bajo es de $210. Definitivamente que en B
se tienen los mejores salarios individuales. Lo que ocurre es que en A, los salarios son
más heterogéneos; es decir, están más dispersos. En cambio en B, los salarios son
más homogéneos; es decir, menos dispersos.
En conclusión: la media aritmética no es el parámetro adecuado para estimar el
bienestar económico de los empleados. En cambio, el grado de dispersión de los
salarios sí nos aproxima de mejor manera al estado económico individual de cada
empleado.
6 Amplitud y desviación media.
Tanto la amplitud como la desviación media son medidas de dispersión.
6.1 Amplitud: definición y cálculo.
Entre las medidas de dispersión, la amplitud o rango es la más elemental y fácil de
calcular.
Definición. La amplitud o rango es la diferencia entre el mayor
valor y el menor de un grupo de datos.
De la definición, se ve que su cálculo es sencillo. Para el caso de 15, 20, 10, 30, 40,
25; la amplitud A es: A = 40 – 10 = 30.
Ocurre que 2 valores extremos (uno muy grande y uno muy pequeño) conducen a
estimaciones erróneas.
6.2 Desviación media: definición y cálculo.
Definición. La desviación media, DM, es el promedio del valor
absoluto de las desviaciones de cada dato respecto de la media.
La desviación media se calcula con la fórmula: DM = ∑ I – xiI
Cuanto mayor es la desviación media, mayor es la desviación de los datos.
Ejemplo. Calcular la desviación media en los casos siguientes:
1. 10, 15, 12, 9, 14.
2. 12, 4, 15, 7, 3.
Solución.
10, 15, 12, 9, 14. Calculemos para esta serie. = (10 + 15 + 12 + 9 +14)/5 =
60/5 = 12.
Calculemos la sumatoria de las desviaciones de cada valor respecto de la media.
∑ I – xiI = I12 – 10I + I12 – 15I + I12 – 12I + I12 – 9I + I12 – 14I
= I2I + I– 3I + I0I + I3I + I–2I = 2 + 3 + 3 + 2 = 10
Por lo tanto: DM = ∑ I – xiI = 10/5 = 2.
12, 4, 15, 7, 3. Para esta serie = 8.2 Y DM = (3.8 + 4.2 + 6.8 + 1.2 + 5.2)/5 =
4.24
Podemos observar que la DM es mayor que en el caso anterior. Es el resultado lógico,
ya que los datos están más dispersos.
Actividad 4. En cada caso, calcular la amplitud y la desviación media.
Comparen las DM.
1. 5, 5, 5, 5, 5, 5, 5. ________________________________ ________________________________
2. 3, 5, 2, 4, 2, 5, 3, 6, 5, 6 ________________________________ ________________________________
3. 2, 5, 3, 7, 9, 4, 7, 3, 8, 9, 10, 7, 5, 8. ________________________________ ________________________________
n
n
4. 10, 15, 5, 10, 20, 25, 20 ________________________________ ________________________________
5. 2, 8, 4, 20, 10, 15, 25, 6, 4, 15, 20. _______________________________ ________________________________
7. Varianza.
Si en la desviación media se trabaja con los cuadrados de las desviaciones, se obtiene
la varianza.
7.1 Definición y notación.
Definición y notación. La varianza, denotada σ2, es la media
aritmética de los cuadrados de las desviaciones de los datos con
respecto a su media.
La varianza puede ser poblacional o muestral.
La poblacional se calcula así: σ2 = ∑ ( – xi)
2
La muestral se calcula así: σ2 = ∑ ( – xi)
2
No olvidemos que el cuadrado de un número es SIEMPRE positivo.
Ejemplo. Calcular la varianza para los grupos de datos del ejemplo anterior.
Solución.
Consideraremos datos poblacionales en ambos casos.
10, 15, 12, 9, 14. Para esta serie = (10 + 15 + 12 + 9 +14)/5 = 60/5 = 12.
∑ ( – xi)2
= (12 – 10)2 + (12 – 15)
2 + (12 – 12)
2 + (12 – 9)
2 + (12 – 14)
2
∑ ( – xi)2 = (2)
2 + (-3)
2 + (0)
2 + (3)
2 + (-2)
2
= 4 + 9 + 0 + 9 + 4 = 26
Por lo tanto: σ2 = ∑ ( – xi)
2 = 26/5 = 5.2
[Si fuesen datos muestrales, tendríamos: σ2 = 26/(5-1) = 26/4 = 6.5]
12, 4, 15, 7, 3. Para esta serie = 8.2
n
n -1
n
∑ ( – xi)2 = (-3.8)
2 + (4.2)
2 + (-6.8)
2 + (1.2)
2 + (5.2)
2 = 14.44 + 17.64 + 46.24 + 1.44
+ 27.04
= 106.8
Por lo tanto: σ2 = 106.8/5 = 21.36
[Si fuesen datos muestrales, tendríamos: σ2 = 106.85/(5-1) = 26.7125]
Podemos observar que la varianza es mayor que en el caso anterior. Es el resultado
lógico, ya que los datos están más dispersos.
Actividad 5. En cada caso (datos poblacionales), calcular la varianza.
discusión 3. Discutan las respuestas obtenidas en cada uno de los 3
grupos anteriores.
discusión 4. Discutan y traten de llegar a la respuesta en cada caso.
1. 2, 4, 6, 8, 10 ____ σ2 = ___________
2. 4, 6, 8, 10, 12 ____ σ2 = __________
3. 6, 8, 10, 12, 14. ____ σ2 = ____________
4. 8, 10, 12, 14, 16. ____ σ2 = ___________
5. 11, 13, 15, 17, 19 ____ σ2 = ___________
6. 2, 4, 6, 8, 10 ____ σ2 = ______________
7. 2, 5, 8, 11, 14 ____ σ2 = ______________
8. 2, 6, 10, 14, 18 ____ σ2 = ______________
9. 2, 7, 12, 17, 22 ____ σ2 = ______________
10. 2, 4, 6, 8, 10 ____ σ2 = ______________
11. 2, 4, 6, 8, 10, 12 ____ σ2 = _____________
12. 2, 4, 6, 8, 10, 12, 14 ____ σ2 = ______________
13. 2, 4, 6, 8, 10, 12, 14, 16 ____ σ2 = ______________
14. 2, 4, 6, 8, 10, 12, 14, 16, 18 ____ σ2 = ______________
15. 2, 4, 6, 8, 10, 12, 14, 16, 18, 20 ____ σ2 = ______________
1. Se toman 10 términos consecutivos de la serie f(n) = 3n + 1; también 10 términos
consecutivos de la serie f(n) = 3n + 5. ¿En qué caso la varianza es mayor?
2. Se toman 10 términos consecutivos de la serie f(n) = 2n + 1; posteriormente se
toman 12 de la misma serie. ¿En qué caso la varianza es mayor?
3. Se toman 10 términos consecutivos de la serie f(n) = 2n + 1; también 10 términos
consecutivos de la serie f(n) = 3n + 1. ¿En qué caso la varianza es mayor?
Cálculo de la varianza para datos agrupados.
Cuando se tienen datos agrupados, la fórmula σ2 = ∑ ( – xi)
2
Se convierte en σ2 = ∑fi ( – Xi)
2 para datos agrupados sólo en
frecuencias.
Y se convierte en σ2 = ∑fi ( – Pmi)
2 para datos agrupados en clases y
frecuencias.
Recordemos que: 1. para datos agrupados en frecuencias = ∑ fi Xi
2. para datos agrupados en clases y frecuencias = ∑ fi Pmi
Ejemplo. Calcular la varianza para los datos de la tabla.
Datos 5 10 15 20 25
f 2 4 8 3 4
Solución.
Los datos están agrupados en frecuencias. Calculemos . Recordemos que n es la
suma de las frecuencias. Para nuestro caso n = 2 + 4 + 8 + 3 + 4 = 21.
= ∑ fi Xi = (2x5 + 4x10 + 8x15 + 3x20 + 4x25)/21 = (10 + 40 + 120 + 60 + 100)/21 =
330/21
=
15.71
σ2 = ∑fi ( – Xi)
2
= [2(15.71–5)2 + 4(15.71–10)
2 + 8(15.71–15)
2 + 3(15.71–20)
2 + 4(15.71–25)
2]/21
n
n
n
n
n
n
n
= [2(10.71)2 + 4(5.71)
2 + 8(0.71)
2 + 3(-4.29)
2 + 4(-9.29)
2]/21
= [2(114.7) + 4(32.6) + 8(0.5) + 3(18.4) + 4(86.3)]/21 = [229.4 + 130.4 + 4 + 55.2 +
345.2]/21
= 764.2/21 = 36.4.
Ejemplo. Calcular la varianza para los datos de la tabla.
Puntos Corredores
(f)
Pm
5 9 17 7
9 13 7 11
13 17 3 15
17 21 22 19
21 25 15 23
Solución.
Los datos están agrupados en clases y frecuencias. Para este caso, la fórmula a
utilizar es:
σ2 = ∑fi ( – Pmi)
2
El total de datos es n = 17 + 7 + 3 + 22 + 15 = 64.
La media aritmética es = ∑ fi Pmi . = (17x7 + 7x11 + 3x15 + 22x19 + 15x23)/64 =
15.69
Agreguemos a la tabla las columnas de Pm, – Pmi, ( – Pmi)2 y fi( – Pmi)
2
Puntos Corredores
(f)
Pm – Pmi ( – Pmi)2 fi( –
n
n
Pmi)2
5
9
17 7 8.69 75.52 1283.84
9
13
7 11 4.69 22 154
13
17
3 15 0.69 0.48 1.44
17
21
22 19 -3.31 10.96 241.12
21
25
15 23 -7.31 53.44 801.6
Suma = 64 Suma =
2482
σ2 = 2482/64 = 38.78
Actividad 6. Calcular la varianza en cada caso.
Datos 10 20 30 40 50
F 2 4 8 3 4
Datos 20 40 60 80 100
F 2 4 8 3 4
3
Datos 25 50 75 100 125
F 2 4 8 3 4
4 σ2 = _________________
Clases 5
7
7
9
9
11
11
13
13
15
frecuencia 2 4 8 3 4
5 σ2 = _________________
Clases 5 10 15 20 25
2
σ2 = _________________
σ2 = _________________
σ2 = _________________
10 15 20 25 30
frecuencia 2 4 8 3 4
8. Desviación típica.
Definición. la desviación típica, llamada también desviación
estándar, es la raíz cuadrada de la varianza.
Por lo anterior, se tiene que la desviación típica se calcula de la siguiente manera:
σ = ∑( – Xi)2 Para datos no agrupados.
σ = ∑fi ( – Pmi)2 Para datos agrupados en clases y frecuencias.
Ejemplo. Calcular la desviación típica para la serie 5, 10, 15, 20, 25.
Solución.
5, 10, 15, 20, 25. Para esta serie = 15 y n = 5
Calculemos ∑( – Xi)2
∑( – Xi)2
= (15 – 5)2 + (15 – 10)
2 + (15 – 15)
2 + (15 – 20)
2 + (15 – 25)
2
= (10)2 + (5)
2 + (0)
2 + (-5)
2 + (-10)
2 = 100 + 25 + 25 + 100 = 250
Dividamos la sumatoria entre n: 250/5 = 50.
Por lo tanto σ = √ 50 = 7.07
Ejemplo. Calcular la desviación típica para los datos de la tabla.
Puntos Corredores
(f)
Pm – Pmi ( – Pmi)2 fi( –
Pmi)2
5
9
17 7 8.69 75.52 1283.84
9
13
7 11 4.69 22 154
13
17
3 15 0.69 0.48 1.44
n
n
17
21
22 19 -3.31 10.96 241.12
21
25
15 23 -7.31 53.44 801.6
Suma = 64 Suma =
2482
Los datos están agrupados en clases y frecuencias. Los cálculos necesarios ya están
hechos. Por lo tanto:
σ = ∑fi ( – Pmi)2 = 2482/64 = 38.78 = 6.23
Actividad 7. Calcular la desviación típica en los casos siguientes.
n
1. 2, 4, 6, 8, 10 ____ σ = ___________
2. 4, 6, 8, 10, 12 ____ σ = __________
3. 6, 8, 10, 12, 14. ____ σ = ____________
4. 8, 10, 12, 14, 16. ____ σ = ___________
5. 11, 13, 15, 17, 19 ____ σ = ___________
6. 2, 4, 6, 8, 10 ____ σ = ______________
7. 2, 5, 8, 11, 14 ____ σ = ______________
8. 2, 6, 10, 14, 18 ____ σ = ______________
9. 2, 7, 12, 17, 22 ____ σ = ______________
10. 2, 4, 6, 8, 10 ____ σ = ______________
11. 2, 4, 6, 8, 10, 12 ____ σ = _____________
12. 2, 4, 6, 8, 10, 12, 14 ____ σ = ______________
13. 2, 4, 6, 8, 10, 12, 14, 16 ____ σ = ______________
14. 2, 4, 6, 8, 10, 12, 14, 16, 18 ____ σ = ______________
15. 2, 4, 6, 8, 10, 12, 14, 16, 18, 20 ____ σ = ______________
Actividad 8. Calcular la desviación típica en los casos siguientes.
1.
Clases 5
7
7
9
9
11
11
13
13
15
frecuencia
2 4 8 3 4
2.
Clases 5
10
10
15
15
20
20
25
25
30
frecuencia 2 4 8 3 4
9. Propiedades de la desviación típica.
Propiedad 1. La desviación típica nunca es negativa.
Propiedad 2. La desviación típica de un dato constante es cero.
Propiedad 3. Si la desviación típica de un grupo de datos es D, al multiplicar cada
dato por K obtendremos una desviación típica igual a KD.
Propiedad 4. La desviación típica de un grupo de datos no varía si a cada dato se le
suma una constante.
Esta propiedad aparece en las primeras cinco series de la actividad 7.
Comprobemos la propiedad 3. Para 2, 4, 6; la desviación típica es 1.63
Multipliquemos cada valor por 2, obtenemos: 4, 8, 12. Para estos datos, la desviación
típica es: 3.26 Pero 3.26 = 2(1.63)
Comprobemos la propiedad 4. Para 2, 4, 6; la desviación típica es 1.63 Sumémosle 5
a cada dato. Obtenemos: 7, 9, 11. Para estos datos, la desviación típica es 1.63 No varía.
10. Coeficiente de variabilidad.
El coeficiente de variabilidad, CV, es el cociente de la
desviación típica entre la media.
CV = σ/
Puede verse que su cálculo es sencillo, pero requiere calcular antes la desviación
típica. Para el caso de la serie 2, 4, 6; el coeficiente de variabilidad es: CV = 1.63/4 =
0.4.
Soluciones.
Actividad 1. Resolver los casos siguientes.
1. = 5.17 2. a. = 16.175 b. = 10.09 c. 4.45 d. = 5.06
Pm f Pmf
2.9 10 29
3.7 20 74
4.5 25 112.5
5.3 5 26.5
6.1 15 91.5
75 333.5
discusión 1.
1. K = 7. Aquí se plantea la ecuación (10 + 8 + 14 + 6 + k)/5 = 9. Al resolver la
ecuación, se obtiene que k = 7. 2. K = 5 y m = 40 Aquí se deben plantear las
siguientes ecuaciones:
(10 + 3k + 30 + 20 + m)/5 = 23 y (20 + k + 10 + m + 15)/5 = 18. al resolver el
sistema, se llega a que K = 5 y m = 40 3. m = 6. La ecuación que se debe plantear
es: (10 + 3m + 20 + 80)/(5 + m + 5 + 16) = 4. 4. K = 20 De acuerdo con la propiedad
4, si al sumar 10 a cada valor la media es 35; significa que para los datos originales la
media es 35 – 10 = 25. Sabiendo esto se plantea la ecuación: (30 + 15 + 10 + k +
50)/5 = 25. De aquí resulta que k = 20. 5. = 13.84 6. = 120 La media inicial
es 500/5 = 100. Se agregan 20 libras. Según la propiedad 4, la media final es 100 +
20 = 120. 7. = 35. Para 200 la media es 200/5 = 40. Pero a lo recibido hay que
restarle 5 libras a cada uno. Resulta que la media real es 40 – 5 = 35. 8. = 16
años. Aquí se plantea la ecuación de media de medias. 9. 15 personas.
discusión 2.
1. 99 2. P50 3. P75 4. Al decil 5 5. NO
Actividad 2.
Pm f Pmf
2.9 10 29
3.7 15 55.5
4.5 20 90
5.3 25 132.5
6.1 15 91.5
6.9 10 69
7.7 5 38.5
100 506
C
1. a. Cuartil 3: 41 Decil 6: 30 Percentil 75: 41. b. Cuartil 3: 51.25 Decil 6: 37
Percentil 75: 51.25
2. a. Cuartil 2: 112 Decil 5: 112 Decil 8: 178 Percentil 80: 178 Percentil 90: 200.
b. Cuartil 2: 94 Decil 5: 94 Decil 8: 156.4 Percentil 80: 156.4 Percentil 90: 177.2
3. Mediana: 242.5 Cuartil 2: 242.5 Decil 5: 242.5 Decil 6: 293 Decil 8: 394
Percentil 60: 293 Percentil 80: 394 Percentil 85: 419.25
Actividad 3. Calcular las escalas percentilar y decilar para los grupos de datos
siguientes:
1.
Dato .f .fa .faa E. Per. E. Dec.
12 5 5 cero 5 0.5
13 3 8 5 13 1.3
16 4 12 8 20 2.0
17 4 16 12 28 2.8
18 6 22 16 38 3.8
19 6 28 22 50 5.0
21 3 31 28 59 5.9
22 5 36 31 67 6.7
23 3 39 36 75 7.5
25 2 41 39 80 8.0
27 2 43 41 84 8.4
28 3 46 43 89 8.9
29 4 50 46 96 9.6
Actividad 4.
1. A = 0 DM = 0 2. A = 4 DM = 1.3 3. A = 8 DM = 2.18 4. A = 20 DM = 5.71
5. A = 23 DM = 6.6
Actividad 5.
Del 1 al 6, σ2 = 8. 7. σ2
= 18 8. σ2 = 32 9. σ2
= 50 10. σ2 = 8 11. σ2
= 11.7
12. σ2 = 16 13. σ2
= 21 14. σ2 = 26.7 15. σ2
= 33.
Dato .f .fa .faa E. Per. E. Dci.
20 4 4 cero 3.39 0.339
22 7 11 4 12.71 1.271
25 6 17 11 23.73 2.373
30 5 22 17 33.05 3.305
35 7 29 22 43.22 4.322
40 6 35 29 54.24 5.424
42 4 39 35 62.71 6.271
45 3 42 39 68.64 6.864
50 7 49 42 77.12 7.712
52 6 55 49 88.13 8.813
54 4 59 55 96.61 9.661
2
. f(x) = √ X + 5
discusión 3.
En el primer grupo es bueno notar que al no variar el número de datos y la diferencia entre uno
y el anterior, la varianza no cambia.
En el segundo grupo debe notarse que al aumentar la diferencia entre un dato y el
anterior en cada serie, aunque el número de datos permanezca constante, la varianza
aumenta de una serie a la otra.
En el tercer grupo debe notarse que, aunque la diferencia entre un dato y el anterior es igual para
todas las series, la varianza aumenta al aumentar el número de datos.
discusión 4.
1. ¿En qué caso la varianza es mayor? En ambos casos es la misma: igual número
de datos y la misma diferencia entre uno y el anterior. 2. En el segundo caso, pues
se aumentó el número de datos. 3. En el segundo caso. Aunque no se aumentó el
número de datos, la diferencia entre un dato y el anterior es mayor en el segundo
caso: 3 es mayor que 2.
Actividad 6.
1. 45.57 2. 582.3