dispersion agrupados y no agrupados
TRANSCRIPT
Medidas de Dispersión
"No se puede entender cabalmente la historia de un pueblo si no se conoce la dinámica de su pueblo. Y no se puede planificar
y tomar decisiones sabias en un país (municipio, comunidad
o grupo), si no se considera cuidadosamente
su situación demográfica y sus perspectivas futuras". Dr. José Vázquez Calzada
Una de las funciones de la estadística se relaciona con el cálculo de la
variabilidad. Conocer las medidas de dispersión (variación) es de suma importancia,
ya que la no consideración de diferencias puede conducir a errores de juicio en la
toma de decisiones (Sánchez, 1992). Una medida particular de tendencia central da
lugar a una puntuación que, en cierto sentido, "representa" a todas las puntuaciones
de un grupo (Glass & Stanley, 1974). Sin embargo, cuando se usa cualquier medida
de tendencia central, ésta nos da sólo un cuadro incompleto de un conjunto de datos
y, por consiguiente, podría conducir a conclusiones erróneas o distorsionadas (Levin,
1979), porque este proceso pasa por alto las diferencias entre las puntuaciones en sí
(Glass & Stanley, 1974). Sería incorrecto concluir que dos (2) conjuntos de datos son
iguales sólo porque tienen la mismas medidas de tendencia central, es decir, que el
valor de la media aritmética sea el mismo para ambos conjuntos, cuando la distancia
de los datos de ambos conjuntos se distribuyen de una forma diferente (Elorza, 1987).
Para describir una distribución en forma más completa o para interpretar con
más detalle una calificación, necesitamos información adicional acerca de la
dispersión de las calificaciones con respecto a nuestra medida de tendencia central
(Haber & Runyon, 1992). Es necesario un índice de cómo están diseminados los
puntajes alrededor del centro de la distribución. A tales distancias se les suele
6
Arnaldo Torres Degró y Evelyn Afanador Mejías
154
denominar medidas de dispersión o variación. Las medidas de dispersión, también
conocidas como medidas de variación o variabilidad, indican el grado en que los
sujetos se dispersan respecto al centro de la distribución. A través de las mismas el
investigador verifica cuán homogéneos, parecidos o estables son los elementos bajo
estudio, en contraste con otros grupos de interés (Sánchez, 1992). Si todos los
valores son los mismos, no existe dispersión; si no todos son los mismos, hay
dispersión en los datos. La magnitud de la dispersión puede ser pequeña, cuando los
valores, aunque diferentes, están próximos entre sí. Si los valores están ampliamente
separados, la dispersión es mayor.
Este capítulo trata sólo de la medidas de dispersión o variabilidad más
conocidas: el recorrido (rango) y la desviación estándar. Estas técnicas estarán
enmarcadas según la composición de los datos, es decir, arreglo de datos, datos no
agrupados y datos agrupados. Además, se evaluará la técnica de coeficiente de
variación para variables cuantitativas y cualitativas, tales como: coeficiente de
variación e índice de dispersión cuantitativo.
[6.1] Tipos de Medidas de Dispersión
Cuando nuestro interés se centra en las medidas de dispersión, debemos
buscar un índice de variabilidad que indique la distancia a lo largo de la escala de
calificaciones (Runyon & Haber, 1992). El recorrido y la desviación estándar realizan
dicha labor.
Recorrido Una manera de medir la variación en un conjunto de valores es calculando el
recorrido. El recorrido es la más sencilla y directa de las medidas de dispersión
(Runyon & Haber, 1992), y a la vez la menos confiable de las medidas de variación
(Sánchez, 1992). Se trata simplemente de la distancia entre el valor menor y el valor
mayor en un conjunto de observaciones. El hecho de que sólo tome en consideración
dos (2) valores, hace que la medida sea muy pobre. Nótese que si hay un valor
extremo en la distribución, se tendrá la impresión de que la dispersión es grande
cuando, en realidad, si hiciéramos caso omiso de esa calificación, podríamos
Medidas de Dispersión
155
encontrar que dicha distribución es, por el contrario, una distribución "compacta". El
recorrido refleja únicamente las dos (2) calificaciones extremas de la distribución
(Runyon & Haber, 1992), es decir, solamente dos (2) puntuaciones exactas de un
grupo son las que los determina, ignorando así, todas las demás puntuaciones, a
excepción de los extremos (Glass & Stanley, 1974). El recorrido no puede darnos una
idea precisa con respecto a la dispersión y, en el mejor de los casos, debe
considerarse sólo como un índice preliminar o muy aproximado (Levin, 1977). Puede
expresarse de la siguiente manera:
R = Recorrido, rango o amplitud
Vmax = Valor máximo de los datos de un conjunto
Vmin = Valor mínimo de los datos de un conjunto
Varianza y Desviación Estándar
La desviación estándar (DE) es la medida de dispersión más adecuada para la
estadística descriptiva (Haber & Runyon, 1992). Tanto en la escalas de intervalo
como en las de razones, la varianza y la desviación estándar son las mejores medidas
de dispersión. Toman en consideración todos los puntajes y controlan por el efecto de
valores extremos. La DE permite una interpretación precisa de las calificaciones
dentro de una distribución (Runyon & Haber, 1992). Si todos los sujetos son iguales
en una característica (por ejemplo, índice académico), entonces el resultado será igual
a cero. Por el contrario, si aumentan las diferencias, aumentará el índice, alejándose
más y más del punto cero. La varianza se define como las desviaciones cuadradas
medias respecto a la media. La desviación estándar es la raíz cuadrada de la
varianza. La desviación estándar estará formulada de la siguiente manera:
R = Vmax - Vmin
donde;
Arnaldo Torres Degró y Evelyn Afanador Mejías
156
Fórmulas para población
Fórmulas para muestras
Σƒ² – (Σƒ)²
N
N donde:
σ =
Desviación
estándar para
arreglos de datos
usando el
universo
Σƒx² – (Σƒx)²
N
N donde:
σ =
Desviación
estándar para
datos no
agrupados y datos
agrupados usando
el universo
Σƒ² – (Σƒ)²
n
n-1 donde:
s =
Desviación
estándar para
arreglos de datos
usando muestra
Σƒx² – (Σƒx)²
n
n-1 donde:
s =
Desviación
estándar para
datos no
agrupados y datos
agrupados usando
muestra
Medidas de Dispersión
157
σ =
Desviación estándar de la población.
s = Desviación estándar de la muestra
Σƒ = Sumatoria de los valores que toma la variable (x), cuando estamos trabajando con datos no agrupados.
Para los datos agrupados el símbolo cambia a Σƒx.
Σƒ² = Sumatoria de los valores que toma la variable (x) al cuadrado, cuando estamos trabajando con datos no agrupados. Para los datos agrupados el símbolo
cambia a Σƒx².
N = Tamaño del universo o la población
n = Tamaño de la muestra
n-1 = Tamaño de la muestra menos uno (1)
[6.2] Análisis de Dispersión a partir de los Arreglos de Datos
Para poder evaluar este tópico retomaremos el ejemplo de datos hipotéticos del
capítulo 5, sección 5.2 (ver página 116). Uno de los primeros paso en el formato de
arreglo de datos es acomodar los datos de una forma útil. El mismo consiste en
organizar los datos obtenidos de una forma ordenada, de menor a mayor o viceversa.
Con esta estructura establecida, podemos con facilidad aplicar diversos métodos
Arnaldo Torres Degró y Evelyn Afanador Mejías
158
estadísticos para poder entender mejor el conjunto de datos en estudio. Si
quisiéramos realizar un análisis de dispersión sobre la edad inicial del uso de Internet
entre los estudiantes de ciencias políticas de la Universidad Pitirre de Puerto Rico del
año académico 2003-2004, el primer paso sería organizar los porcentajes de mayor a
menor o viceversa (ver figura 6.1).
Recorrido El recorrido sería la distancia que existe entre la edad mas alta vs. la edad más
baja sobre el inicio en el Internet en los estudiantes de ciencias políticas de la
Universidad Pitirre de Puerto Rico para el año académico 2003-2004. Es
recomendable que se organicen las categorías de la variable de interés de menor a
mayor o viceversa. En la figura 6.1 las edades de inicio en el Internet entre los
estudiantes de ciencias políticas de la Universidad Pitirre de Puerto Rico para el año
académico 2003-2004 fueron organizados de menor a mayor. Si observamos
detenidamente las edades organizadas (ver figura 6.1), notaremos que el dato más
alto fue la edad 23 años, mientras que el dato más bajo fue la edad 10 años. Con esta
información podemos obtener el recorrido de la siguiente manera:
R = edad más alta − edad más baja
R = 23 − 10
R = 13
Figura 6.1
Edades organizadas de menor a mayor
10 10 10 12 12 12 12 13 13 13
13 13 13 15 15 15 15 15 15 15
16 16 16 16 16 16 18 18 18 21
21 21 21 22 22 23 23 23 23 23
N= 40 datos hipotéticos
Medidas de Dispersión
159
Podemos indicar que en la Universidad pitirre de Puerto Rico para el año
académico 2003-2004 la diferencia de la edad de inicio en el Internet entre los
estudiantes de ciencias políticas fue de 13 años.
Desviación Estándar
Para buscar la desviación estándar entre las edades sobre el inicio del Internet
en los estudiantes de ciencias políticas de la Universidad Pitirre de Puerto Rico para el
año académico 2003-2004 es necesario elaborar una nueva columna conocida como
(ƒ²). La columna ƒ² se obtiene elevando al cuadrado a la frecuencia (ƒ) como
observamos en la figura 6.2. Una vez realizado dicha operación se suman por
separado ambas columnas, para obtener: Σƒ (sumatoria de las edades) y Σƒ² (sumatoria
de las edades al cuadrado).
Con la columna establecida (ver figura 6.2) podremos buscar la desviación
estándar (σ) de la siguiente manera:
Figura 6.2 Desarrollo de los datos para establecer la Desviación Estándar
ƒ ƒ²
[10]² 100
[10]² 100
[10]² 100
[12]² 144
[12]² 144
[12]² 144
[12]² 144
[13]² 169
[13]² 169
ƒ ƒ² [13]² 169
[13]² 169
[13]² 169
[13]² 169
[15]² 225
[15]² 225
[15]² 225
[15]² 225
[15]² 225
ƒ ƒ² [15]² 225
[15]² 225
[16]² 256
[16]² 256
[16]² 256
[16]² 256
[16]² 256
[16]² 256
[18]² 324
ƒ ƒ² [18]² 324
[18]² 324
[21]² 441
[21]² 441
[21]² 441
[21]² 441
[22]² 484
[22]² 484
[23]² 529
ƒ ƒ² [23]² 529
[23]² 529
[23]² 529
[23]² 529
Σƒ= 654
Σƒ²=11,350
Arnaldo Torres Degró y Evelyn Afanador Mejías
160
Podemos concluir que en la Universidad pitirre de Puerto Rico para el año
académico 2003-2004 la desviación estándar de la edad de inicio en el Internet
entre los estudiantes de ciencias políticas fue de 4.05 años.
11,350 – (654)²
40
40
11,350 – 427,716
40
40
11,350 − 10,692.9
40
σ = 657.1
40
σ = 16.4275
σ = 4.0530852
σ = 4.05
σ =
σ =
σ =
Medidas de Dispersión
161
Ejercicios de Dispersión según arreglo de datos Favor de identificar las hojas de ejercicios y elaborar todos los problemas según lo establecido en el texto. Desprenda las hojas de ejercicios y entréguelas al profesor, SI FUESE NECESARIO.
NOMBRE: FECHA: _______________
NUMERO DE ESTUDIANTE: SECCION: ___________
Ejercicio 6.2.1 Favor de utilizar los datos para calcular y analizar el recorrido y la desviación estándar según el formato de arreglo de datos.
Estudiantes de pre-jurídico sobre la edad de inicio en el consumo de bebidas alcohólicas, Universidad Pitirre, Puerto Rico: 2000
10 23 19 17 15 23 19 16 10 16 19 23 17 19 10
23 19 16 10 19 17 10 16 19 15 10 15 14 23 16
19 16 10 16 19 15 17 19 10 23 19 19 15 17 10
17 19 23 16 14 17 23 10
Casos hipotéticos
Arnaldo Torres Degró y Evelyn Afanador Mejías
162
Ejercicio 6.2.2 Favor de utilizar los datos para calcular y analizar el recorrido y la desviación estándar según el formato de arreglo de datos.
Estudiantes de ciencias políticas respecto al gasto en dólares diario de gasolina, Universidad Pitirre, Puerto Rico: 2000
12 20 15 10 22 15 10 12 09 22 09 12 08 10 15
10 22 10 12 09 08 15 05 22 05 15 08 10 20 09
20 12 08 15 09 12 05 20 12 10 22 20 12 15
Casos hipotéticos
Medidas de Dispersión
163
Ejercicio 6.2.3 Favor de utilizar los datos para calcular y analizar el recorrido y la desviación estándar según el formato de arreglo de datos.
Estudiantes de economía con respecto a la cantidad de hermanos en su familia, Universidad Pitirre, Puerto Rico: 2000
2 1 4 3 6 2 7 3 5 1 2 6 3 5 1 3 4 1 2 3 1 4
3 1 3 4 2 8 3 2 5 7 3 2 9 3 1 1 5 3 8 5 1
3 4 3 5 2 1 4 6
Casos hipotéticos
Arnaldo Torres Degró y Evelyn Afanador Mejías
164
Ejercicio 6.2.4 Favor de utilizar los datos para calcular y analizar el recorrido y la desviación estándar según el formato de arreglo de datos.
Estudiantes de antropología con respecto a la cantidad de créditos acumulado de concentración, Universidad Pitirre, Puerto Rico: 2000
18 12 15 20 15 21 27 18 14 16 27 21 24 15 15
27 15 12 18 15 15 18 14 18 16 27 16 18 21 15
18 12 15 27 15 12 18 16 12 15 20 18 16 13 21
15 27 18 12 14 18 27 20 15 14 27 18 20 16 15
Casos hipotéticos
Medidas de Dispersión
165
[6.3] Análisis de Dispersión a partir de los Datos no Agrupados
En Puerto Rico para el año 1993 se
registraron 12,820 nacimientos que provienen de
madres adolescentes. Los nacimientos se
ubicaron según el orden de embarazo de la madre
adolescente (ver cuadro 6.1). El orden de
embarazo supone la posición que ocupará el
infante con respecto a sus hermanos(as).
Ejemplo, podemos observar en el cuadro 6.1 que
8,709 nacimientos representan el primer hijo(a)
para las madres adolescentes ó 12 nacimientos
representan el sexto hijo(a) para las madres
adolescentes.
Recorrido Si su interés como estudioso es realizar un análisis de dispersión al orden de
embarazo que representa dicho nacimiento en la mujer ocurrido en Puerto Rico para
el año 1990, podríamos buscar el recorrido y la desviación estándar. El recorrido, es
decir, la distancia que existe entre el orden de embarazo mayor menos el orden de
embarazo menor, sería:
Cuadro 6.1 Nacimientos por Orden de embarazo
por madres adolescentes Puerto Rico, 1993
Orden de embarazo
(x) nacimientos
(ƒ)
1 8,709
2 2,958
3 903
4 195
5 37
6 12
7+ 6 Fuente: Cuadro elaborado por el Dr. Arnaldo Torres Degró con datos obtenido del Departamento de Salud de Puerto Rico, 1992. Informe Anual de Estadísticas Vitales de
Puerto Rico: 1990. Nacimientos Vivos, tabla 15, pág. 68.
R = Orden de embarazo Orden de embarazo
mayor − menor
R = 7 − 1
R = 6
Arnaldo Torres Degró y Evelyn Afanador Mejías
166
Podemos interpretar que en Puerto Rico para el año 1993 la distancia
observada o el recorrido entre el orden de embarazo de los nacimientos de las
madres adolescentes fue de seis (6).
Desviación Estándar Para buscar la desviación estándar entre el orden de embarazo de los
nacimientos de las madres adolescentes ocurridos en Puerto Rico para el 1993 es
preciso elaborar varias columnas adicionales a las establecidas en el cuadro 6.1.
Como observamos en la figura 6.3, las columnas adicionales para elaborar la
desviación estándar son (ƒx) y (ƒx²). La columna ƒx se obtiene multiplicando las
categorías de la variable (x) con su frecuencia (ƒ) correspondiente. La columna ƒx² se
obtiene multiplicando la columna (ƒx) por la categoría (x) correspondiente. Notemos,
que no estamos elevando al cuadrado la columna (ƒx). De realizar dicho cálculo se
invalida el resultado. La población o universo (N) es obtenido por la suma de la
columna de la frecuencia (ƒ).
Figura 6.3. Procedimiento para obtener ƒƒƒƒx y ƒƒƒƒx², según los datos del cuadro 6.1
Orden de
embarazo
x
1
2
3
4
5
6
7+
Nacimientos
ƒ
8,709
2,958
903
195
37
12
6
ƒx²
= 8,709
= 11,832
8,127
3,120
925
432
294
ƒx
= 8,709
= 5,916
= 2,709
780
185
72
42
por
por
por
por
por
N 12,820 Σƒx 18,413 Σƒ² 33,439
Medidas de Dispersión
167
Con la columna establecida (ver figura 6.3) podremos buscar la desviación
estándar (σ) de la siguiente manera:
Podemos concluir que en Puerto Rico para el año 1990 la desviación
estándar entre el orden de embarazo de las madres adolescentes fue de .74
33,439 – (18,413)²
12,820
12,820
33,439 – 26,446.066
12,820
6,992.9338
12,820
σ = .5454707
σ = .7385599
σ = .74
σ =
σ =
σ =
Medidas de Dispersión
169
Ejercicios de Dispersión según datos no agrupados Favor de identificar las hojas de ejercicios y elaborar todos los problemas según lo establecido en el texto. Desprenda las hojas de ejercicios y entréguelas al profesor, SI FUESE NECESARIO.
NOMBRE: FECHA: _______________
NUMERO DE ESTUDIANTE: SECCION: ___________
Ejercicio 6.3 Favor de utilizar los datos que reflejan la cantidad menores contra quienes se presentaron querellas por sexo y edad, Puerto Rico, año fiscal 1991-1992.
Sexo
Edad Hombres
Mujeres
Ambos
Sexos
TOTAL 9 años
25
3
28
10 años
34
4
38
11 años
73
6
79
12 años
141
24
165
13 años
316
62
378
14 años
536
117
653
15 años
884
120
1,004
16 años
1,160
134
1,294
17 años
1,428
106
1,534
18 años
144
18
162
TOTAL
4,741
594
5,335
Fuente: Tribunal Superior de Puerto Rico, Asunto de Menores
Arnaldo Torres Degró y Evelyn Afanador Mejías
170
[6.3.1] Favor de calcular y analizar el recorrido de la edad de las menores (mujeres) contra quienes se le presentaron querellas en el Tribunal Superior de Puerto Rico para el año fiscal 1991-1992.
[6.3.2] Favor de calcular y analizar la desviación estándar de la edad de las menores (mujeres) contra quienes se le presentaron querellas en el Tribunal Superior de Puerto Rico para el año fiscal 1991-1992. Incluya una tabla con las columnas necesarias para completar el ejercicio.
Medidas de Dispersión
171
[6.3.3] Favor de calcular y analizar el recorrido de la edad de los menores (hombres) contra quienes se le presentaron querellas en el Tribunal Superior de Puerto Rico para el año fiscal 1991-1992.
[6.3.4] Favor de calcular y analizar la desviación estándar de la edad de los menores (hombres) contra quienes se le presentaron querellas en el Tribunal Superior de Puerto Rico para el año fiscal 1991-1992. Incluya una tabla con las columnas necesarias para completar el ejercicio.
Arnaldo Torres Degró y Evelyn Afanador Mejías
172
[6.3.5] Favor de calcular y analizar el recorrido de la edad total de los menores (ambos sexos) contra quienes se le presentaron querellas en el Tribunal Superior de Puerto Rico para el año fiscal 1991-1992.
[6.3.6] Favor de calcular y analizar la desviación estándar de la edad total de los menores (ambos sexos) contra quienes se le presentaron querellas en el Tribunal Superior de Puerto Rico para el año fiscal 1991-1992. Incluya una tabla con las columnas necesarias para completar el ejercicio.
Medidas de Dispersión
173
[6.4] Análisis de Dispersión a partir de los Datos Agrupados
El Departamento de Salud de Puerto Rico
informó que para el año 1993 murieron 1,148
personas debido al virus de inmunodeficiencia
humana (SIDA). El cuadro 6.2 refleja las muertes
ocurridas por SIDA ubicadas por grupos de
edades. Si usted suma todas las defunciones por
SIDA ubicadas en grupos de edades notará una
diferencia de doce (12) casos. Dicha diferencia se
debe a los casos que no informaron o se
desconoce la edad. Para este ejercicio se tomará
en cuenta todos los casos que informaron la edad,
es decir, 1,139 defunciones. Si su interés como
investigador es analizar la dispersión o variabilidad
de la edad de las personas que murieron por SIDA
en Puerto Rico para el año 1993, podríamos
buscar el recorrido y la desviación estándar. Para
obtener el recorrido y la desviación estándar según
la configuración de datos agrupados es necesario
elaborar tres (3) columnas adicionales: (Pt½); (ƒx) y
(ƒx²). La columna (Pt½) y (ƒx) ya han sido
explicadas y elaboradas en el capítulo 5 (ver tópico
5.4). La columna ƒx² se obtiene mediante la
multiplicación de la columna ƒx por la columna Pt½.
Cuadro 6.2
Frecuencia de muertes
por SIDA y edad
Puerto Rico, 1993
Edad
(clase)
x
ƒƒƒƒ
0-4 14
5-9 4
10-14 0
15-19 0
20-24 20
25-29 118
30-34 237
35-39 268
40-44 214
45-49 115
50-54 65
55-59 32
60-64 14
65-69 19
70-74 6
75-79 6
80-84 5
85-89 2 Fuente: Cuadro elaborado por el Dr. Arnaldo Torres Degró con datos obtenidos del Departamento de Salud de Puerto Rico, 1995. Informe Anual de Estadísticas
Vitales: Puerto Rico, 1993. Mortalidad, tabla 15a: pág. 187; Existen 12 casos sin especificar las edades
Arnaldo Torres Degró y Evelyn Afanador Mejías
174
Recorrido
El recorrido, es decir la diferencia de la edad mayor vs. la edad menor de las
personas que murieron por SIDA, debe conseguirse en el punto medio (Pt½) de la clase de
edad mayor vs. la clase de edad menor. Si observamos la figura 6.4 el punto medio de la
clase mayor (85 - 89) es 87 años, mientras que el punto medio de la clase menor (0 - 4) es
2 años. Con estos elementos el recorrido podrá obtenerse de la siguiente forma:
Figura 6.4 Columnas necesarias como Pt½, ƒƒƒƒx y ƒƒƒƒx², según los datos del cuadro 6.2
Edades|
(clases)
0-4
5-9
10-14
15-19
20-24
25-29
30-34
35-39
40-44
45-49
50-54
55-59
60-64
65-69
70-74
75-79
80-84
85-89
ƒ
14
4
0
0
20
118
237
268
214
115
65
32
14
19
6
6
5
2
Pt½
x
2
7
12
17
22
27
32
37
42
47
52
57
62
67
72
77
82
87
ƒx
28
28
0
0
440
3,186
7,584
9,916
8,988
5,405
3,380
1,824
868
1,273
432
462
410
174
ƒx²
56
196
0
0
9,680
86,022
242,688
366,892
377,496
254,035
175,760
103,968
53,816
85,291
31,104
35,574
33,620
15,138
N= 1,139 Σƒx =44,389 Σƒx² =1,871,336
Medidas de Dispersión
175
1,871,336 – (44,398)²
1,139
1,139
1,871,336 – 1,730,625.5
1,139
140,710.54
1,139
σ = 123.53866
σ = 11.114795
σ = 11.12 años
Podemos indicar que el recorrido observado en la edad de las personas que
murieron por SIDA en Puerto Rico para el año 1993 fue de 85 años.
Desviación Estándar
Como hemos establecido, para
obtener la desviación estándar según la
configuración de datos agrupados es
necesario elaborar dos (2) columnas
adicionales: (ƒx) y (ƒx²). La columna ƒx es
obtenida mediante la multiplicación de la
columna frecuencias (ƒ) por la columna del
punto medio (Pt½). La columna ƒx² es
obtenida mediante la multiplicación de la
columna ƒx por la columna Pt½. Con estas
columnas realizadas en la figura 6.4 podemos
buscar la varianza y luego la desviación
estándar.
Podemos afirmar que en Puerto Rico
para el año 1993 la desviación estándar de
la edad por defunciones debido al SIDA
fue de 11.12 años.
R = Pt½ de la Pt½ de la
clase mayor − clase menor
R = 87 – 2
R = 85 años
σ =
σ =
σ =
Medidas de Dispersión
177
Ejercicios de Dispersión según datos agrupados Favor de identificar las hojas de ejercicios y elaborar todos los problemas según lo establecido en el texto. Desprenda las hojas de ejercicios y entréguelas al profesor, SI FUESE NECESARIO.
NOMBRE: FECHA: _______________
NUMERO DE ESTUDIANTE: SECCION: ___________
Ejercicio 6.4 Favor de utilizar los datos que reflejan la cantidad de defunciones por accidentes de tráfico de vehículos de motor por edad, Puerto Rico: 1980, 1985 y 1990.
Años naturales
Grupo de
edad 1980
1985
1990
5 - 14
44
53
43
15 - 24
145
129
107
25 - 34
97
110
84
35 - 44
65
90
87
45 - 54
67
65
67
55 - 64
47
55
62
65 - 74
53
42
52
75 - 84
20
27
33
85 - 94
10
5
8
Fuente: Departamento de Salud, 1993. Estadísticas Vitales de Puerto Rico: Resumen de una década 1980 al 1990. San Juan, P.R.: pág. 108.
Arnaldo Torres Degró y Evelyn Afanador Mejías
178
[6.4.1] Favor de calcular y analizar el recorrido de la edad por defunciones en accidentes de tráfico por vehículos en Puerto Rico para el año 1980.
[6.4.2] Favor de calcular y analizar la desviación estándar de la edad por defunciones en accidentes de tráfico por vehículos en Puerto Rico para el año 1980. Incluya una tabla con las columnas necesarias para completar el ejercicio.
Medidas de Dispersión
179
[6.4.3] Favor de calcular y analizar el recorrido de la edad por defunciones en accidentes de tráfico por vehículos en Puerto Rico para el año 1985.
[6.4.4] Favor de calcular y analizar la desviación estándar de la edad por defunciones en accidentes de tráfico por vehículos en Puerto Rico para el año 1985. Incluya una tabla con las columnas necesarias para completar el ejercicio.
Arnaldo Torres Degró y Evelyn Afanador Mejías
180
[6.4.5] Favor de calcular y analizar el recorrido de la edad por defunciones en accidentes de tráfico por vehículos en Puerto Rico para el año 1990.
[6.4.6] Favor de calcular y analizar la desviación estándar de la edad por defunciones en accidentes de tráfico por vehículos en Puerto Rico para el año 1990. Incluya una tabla con las columnas necesarias para completar el ejercicio.
Medidas de Dispersión
181
[6.5] Función de la Desviación Estándar
Una vez obtenida la desviación estándar, conforme uno de los tres (3) tipos de
organización de datos, la pregunta inminente es ¿qué implicación o función tiene
dicha medida?. Al principio de este capítulo indicamos que el objetivo de las medidas
de dispersión es indicar el grado en que los sujetos se dispersan (se alejan o se
acercan) respecto al centro (la media) de una distribución. La desviación estándar
cumple a cabalidad con dichos objetivos. A mayor la desviación estándar mayor es la
dispersión o a menor la desviación estándar menor es la dispersión de los sujetos, con
respecto a la media. Como función de la desviación estándar podemos encontrar
cuán homogéneos, parecidos o estables son los sujetos bajo estudio cuando estos
son comparados con otro(s) grupo(s) de interés.
Por ejemplo, en dos (2) secciones del curso de estadística social la edad media
fue igual, es decir, 21.4 años de edad. La desviación estándar para la sección 1 fue
de 10 años y la desviación estándar de la sección 2 fue de 2 años. ¿Qué podemos
inferir de las resultados obtenidos tanto de la sección 1 como de la sección 2?
Primeramente, debemos señalar que la comparación de la desviación estándar de
ambas secciones es posible, única y exclusivamente, porque la media es igual. Al
comparar la desviación estándar notamos una diferencia. La desviación estándar de
la sección 1 (10 años) es mayor que la sección 2 (2 años). Esto sugiere que en la
sección 2 del curso de estadística social los estudiantes son más homogéneos
(parecidos) en la edad que los estudiantes de la sección 1.
Otro ejemplo, para visualizar la utilidad de la desviación estándar es el
siguiente. Se le sometió a dos grupos profesionales una situación determinada y se le
tomó el tiempo en resolver dicha encomienda. El grupo de criminólogos obtuvo un
media de 45 minutos, con una desviación estándar de 3 minutos. El grupo de
trabajadores sociales obtuvieron una media de 45 minutos con una desviación
estándar de 11 minutos. Notemos, que la media es la misma para ambos grupos
profesionales. No obstante, la desviación estándar es diferente para ambos grupos.
Dicha diferencia nos sugiere que el tiempo en terminar de resolver el problema en
cuestión fue más homogéneo o más parecido en el grupo de criminólogos que el
tiempo obtenido en el grupo de trabajadores sociales. Como hemos observado, las
comparaciones que se han realizado en este tópico son posibles porque la media
Arnaldo Torres Degró y Evelyn Afanador Mejías
182
aritmética de cada distribución ha sido igual. Pero, ¿qué pasaría si al comparar dos
distribuciones las medias son diferentes? Sencillamente, no podríamos analizar la
homogeneidad como lo hemos hecho en este tópico. Sin embargo, es posible realizar
la comparación utilizando un coeficiente de variación. En el tópico siguiente se
desarrollará el coeficiente de variación.
[6.6] Coeficiente de Variación
La desviación estándar DE es útil como medida de la variación dentro de un
conjunto de datos. Mas aún, si las medias son iguales se pueden comparar
directamente las dos DE (Sánchez, 1992). Sin embargo, cuando se desea comparar
la dispersión en dos conjuntos de datos, comparar las DE pueden conducir a
resultados sin sentido, si las medias difieren o si las unidades de medición son
diferentes. Esto es así, puesto que cada DE se obtiene a partir de la media particular
que corresponde a cada conjunto (Sánchez, 1992).
Lo que se necesita en situaciones como ésta es una medida de variación
relativa, en lugar de una variación absoluta (Daniel, 1985). La medida que nos puede
resolver este problema es el coeficiente de variación (C.V.), llamado de Pearson, que
es la relación entre la DE y la media aritmética (Elorza, 1987). Se multiplica además
por 100, para considerar el resultado en forma de porcentaje. A mayor el porcentaje,
mayor es la variación y viceversa. La fórmula está dada por:
s = Desviación estándar de una muestra
x = media aritmética de una muestra
C.V. = s ÷÷÷÷x (100) donde:
Medidas de Dispersión
183
σ = Desviación estándar de la población
µ = Media aritmética de la población
Para poder entender el coeficiente de variación analizaremos la siguiente
situación hipotética. Supongamos que la Universidad Pitirre de Puerto Rico en el
semestre de agosto a diciembre del 2002 se ofrecieron tres (3) curso de estadística
social. Una vez finalizado los cursos se pudo obtener la media de notas generales, la
desviación estándar de notas generales y la cantidad de estudiantes por cada curso.
Promedios finales de tres cursos de
estadística social, Universidad Pitirre,
agosto-diciembre del 202 Parámetros
Sec. 01 Sec. 02 Sec. 03
Población (N) 25 20 28
Media (µµµµ) 90 78.2 62.9
Desviación Estándar (σ) 12.6 11.2 9.6
Si nuestro interés es indagar entre las secciones de estadística social, cuál de ellos,
con respecto a las notas, tiende ha ser más homogénea o más parecidas, debemos
incursionar en la dispersiones de las notas. Recuerde que señalamos que a mayor
dispersión de los valores de una población de estudio, menos se paren los valores
sugiriendo que hay poca homogeneidad. Lo inverso sugiere que a menor dispersión
de los valores de una población de estudio, más se paren los valores sugiriendo que
hay mucha homogeneidad. Notemos que para establecer la comparación de
homogeneidad en el ejercicio que nos compete, la media de las tres (3) secciones de
estadística social no son iguales. Este factor es muy importante, previo al manejo de
la homogeneidad, porque teniendo las medias diferentes, no es posible obtener el
grado de homogeneidad utilizando como punto de referencia la desviación estándar.
C.V. = σ ÷÷÷÷ µ (100) donde:
Arnaldo Torres Degró y Evelyn Afanador Mejías
184
Por ejemplo, si no tomáramos en consideración la disparidad de las medias y
analizáramos única y exclusivamente la desviación estándar para conseguir el grado
de homogeneidad, podríamos concluir, dado que la desviación estándar es menor en
la sección 3 (σ =9.6) con respecto a la sección 2 (σ =11.2) y la sección 1 (σ =12.6),
que las notas de la sección 3 del curso de estadística social tienden hacer más
parecidas (homogéneas) que entre las demás secciones. Sin embargo, esta
conclusión adolece de veracidad porque cuando las medias en una comparación no
son iguales, no se puede utilizar la desviación estándar para obtener el grado de
homogeneidad. Para resolver el dilema, sugerimos que se busque el coeficiente de
variación en todos los grupos de interés y luego sería posible concluir sobre el grado
de homogeneidad, veamos:
Si analizamos los resultados de los coeficiente de variación nos percataremos que la
sección 01 de estadística social obtuvo el resultado más bajo (14.00 %) con respecto
a las otras dos secciones. Recuerde, mientras más bajo es la dispersión, una vez se
compara con los demás grupos de interés, el mismo sugiere alto grado de
homogeneidad. Podemos concluir que las notas entre los estudiantes del curso de
estadística social de la sección 01, tienden a ser más parecidas (homogéneas) que
entre las secciones 02 y 03 del mismo curso de la Universidad Pitirre de Puerto Rico
para el semestre de agosto a diciembre del 2002.
Sección 01 = 12.6 (100)
90
= 14.00 %
Sección 02 = 11.2 (100)
78.2
= 14.32 %
Sección 03 = 9.6 (100)
62.9
= 15.26 %
Medidas de Dispersión
185
Ejercicios Coeficiente de Variación Favor de identificar las hojas de ejercicios y elaborar todos los problemas según lo establecido en el texto. Desprenda las hojas de ejercicios y entréguelas al profesor, SI FUESE NECESARIO.
NOMBRE: FECHA: _______________
NUMERO DE ESTUDIANTE: SECCION: ___________ [6.6.1] Favor de buscar la media aritmética y la desviación estándar de las edades por suicidio para los años 1980, 1990 y 2000 según los datos del cuadro 4.1 de la página 105. Luego calcule y analice el coeficiente de variación para todos los años.
Arnaldo Torres Degró y Evelyn Afanador Mejías
186
[6.6.2] Favor de buscar la media aritmética y la desviación estándar de los ejercicios 5.4.1.a página 145 y 5.4.2 de la página 147. Luego calcule y analice el coeficiente de variación.
Medidas de Dispersión
187
[6.6.3] Favor de buscar la media aritmética y la desviación estándar de las edades de los varones y mujeres según el ejercicio 6.3 de la página 169. Luego calcule y analice el coeficiente de variación.
Arnaldo Torres Degró y Evelyn Afanador Mejías
188
[6.6.4] Favor de buscar la media aritmética y la desviación estándar de las edades por defunciones para cada anoo según el ejercicio 6.4 de la página 177. Luego calcule y analice el coeficiente de variación.
Medidas de Dispersión
189
[6.7] Índice de Dispersión Cualitativa
Normalmente en el campo de las ciencias sociales se utilizan o manejan
muchas variables cualitativas. Se puede observar previamente que dichas variables
pueden variar de clase o cantidad. La premisa sería cuán diferentes son esas
observaciones. Utilizando el coeficiente de variación cualitativa o un índice de
dispersión podemos encontrar dichas diferencias en las observaciones. El índice de
dispersión fluctúa entre cero (0) y uno (1), donde cero (0) implica homogeneidad
perfecta y uno (1) representa heterogeneidad perfecta. Si los casos o sujetos están
distribuidos entre las categorías de una forma equitativa, es decir, que para cada
categoría de la variable existe la misma cantidad de casos, podemos indicar que
existe una distribución heterogénea (equitativa) en las categorías de la variable de
interés. Por el contrario, si todos los casos están ubicados en una sola categoría
podemos indicar que existe una distribución homogénea (desproporcional). El índice
de dispersión cualitativo se expresa de la siguiente manera:
D = índice de dispersión cualitativo
k = número de categorías
Σƒ² = suma de frecuencias cuadradas (ƒ²) de cada categoría
n = total de casos
Tomemos dos (2) municipios de Puerto Rico y analicemos la distribución de
matrimonios conforme los tipos de celebraciones. Según el cuadro 6.3 podemos
observar tanto para el municipio de Loíza como para el municipio de Hormigueros la
cantidad (ƒ) de matrimonios celebrados según el tipo de celebrantes.
k [ (n)² – (Σƒ²) ]
[ (n)² (k-1) ]
donde:
D =
Arnaldo Torres Degró y Evelyn Afanador Mejías
190
Para buscar el índice de dispersión cualitativo necesitamos (ver figura 6.5)
elevar la frecuencia (ƒ) de cada categoría al cuadrado (ƒ²).
Cuadro 6.3
Cantidad de matrimonios por tipo de celebración en Loíza y
Hormigueros, Puerto Rico: 1993.
Celebrantes
Sacerdotes
Ministros
Juez
TOTAL
Loíza
ƒ
8
122
11
141
Hormiguero
ƒ
30
48
43
121
Fuente: Departamento de Salud de Puerto Rico, 1996. Informe
Anual de Estadísticas Vitales de Puerto Rico: 1993. Matrimonios y Divorcios, tabla 5, pág. 331-334.
Figura 6.5 Procedimiento para obtener la columna ƒƒƒƒ²,según los datos del cuadro 6.3
Celebrantes
Sacerdotes
Ministros
Juez
TOTAL
ƒ
8
122
11
141
ƒ²
64
14,884
121
Σƒ² 15,069
ƒ
30
48
43
121
ƒ²
900
2,304
1,849
Σƒ² 5,053
Loíza
Hormiguero
Medidas de Dispersión
191
Con la columna de (ƒ²) debidamente elaborada (ver figura 6.5) podemos
calcular el índice de dispersión cualitativo para los dos (2) municipios.
Analizando los resultados de los índices de dispersión para ambos municipios
podemos inferir lo siguiente:
_ En Loíza, Puerto Rico para el año 1993 el índice de dispersión
cualitativa por tipos de celebraciones fue de .36.
_ En Hormigueros, Puerto Rico para el año 1993 el índice de dispersión
cualitativa por tipos de celebraciones fue de .98.
Cuando comparamos los dos (2) municipios observamos que los matrimonios
ocurridos en Hormigueros tienden a ser más heterogéneos conforme a los tipos de
celebraciones que los matrimonios ocurridos en el municipio de Loíza, Puerto Rico.
Si analizamos el cuadro 6.3 podemos notar que los matrimonios ocurridos en Loíza,
Loíza
D = 3[ (141)² - 15,069 ]
[ (141)² (3-1)]
= 3[ 19,881 - 15,069 ]
[ (19,881) (2) ]
= 3[ 4,812 ]
39,762
= 14,436
39,762
= .3630602
= .36
Hormiguero
D = 3[ (121)² - 5,053 ]
[ (121)² (3-1) ]
= 3[ 14,641 - 5,053 ]
[ (14,641) (2) ]
= 3[ 9,588 ]
29,282
= 28,764
29,282
= .9823099
= .98
Arnaldo Torres Degró y Evelyn Afanador Mejías
192
Puerto Rico para el año 1993 están mayormente concentrados en el tipo de
celebración con ministros. Para el municipio de Hormigueros, Puerto Rico, para el
año 1993 los matrimonios tienden a distribuirse casi equitativamente entre los tres (3)
tipos de celebrantes.
Medidas de Dispersión
193
Ejercicios de índice de dispersión cualitativa
Favor de identificar las hojas de ejercicios y elaborar todos los problemas según lo establecido en el texto. Desprenda las hojas de ejercicios y entréguelas al profesor, SI FUESE NECESARIO.
NOMBRE: FECHA: _______________
NUMERO DE ESTUDIANTE: SECCION: ___________
Ejercicio 6.7 Favor de utilizar los datos que reflejan la cantidad de matrimonios por tipo de celebración en Villalba, Utuado y Ponce Puerto Rico: 1993.
Celebrantes
Sacerdotes
Ministros
Juez
TOTAL
ƒ
74
14
50
ƒ²
ƒ
82
116
111
ƒ²
Villalba
Utuado
Ponce
ƒ
532
360
743
ƒ²
Fuente: Departamento de Salud de Puerto Rico, 1996. Informe Anual de Estadísticas Vitales de
Puerto Rico: 1993. Matrimonios y Divorcios, tabla 5, pág. 331-334.
Arnaldo Torres Degró y Evelyn Afanador Mejías
194
[6.7.1] Favor de calcular y analizar el índice de dispersión de los matrimonios ocurridos en el municipio de Villalba, Puerto Rico para el año 1993 conforme el tipo de celebración. Desarrolle las columnas necesarias para completar el ejercicio.
[6.7.2] Favor de calcular y analizar el índice de dispersión de los matrimonios ocurridos en el municipio de Utuado, Puerto Rico para el año 1993 conforme el tipo de celebración. Desarrolle las columnas necesarias para completar el ejercicio.
[6.7.3] Favor de calcular y analizar el índice de dispersión de los matrimonios ocurridos en el municipio de Ponce, Puerto Rico para el año 1993 conforme el tipo de celebración. Desarrolle las columnas necesarias para completar el ejercicio.
Medidas de Dispersión
195
[6.8] Fórmulas
Recorrido
Desviación Estándar para población
Desviación Estándar para muestras
Coeficiente de Variación
Índice de dispersión cualitativa
R = Vmax - Vmin
Σƒ² – (Σƒ)² N
N
Arreglos de datos
σ =
Σƒx² – (Σƒx)²
N
N
Datos no agrupados
Datos agrupados
σ =
Σƒ² – (Σƒ)²
n
n-1
Arreglos de datos
s =
Σƒx² – (Σƒx)²
n
n-1
Datos no agrupados
Datos agrupados
s =
C.V. = s ÷÷÷÷x (100)
muestra
C.V. = σ ÷÷÷÷ µ (100)
poblacion
k [ (n)² – (Σƒ²) ]
[ (n)² (k-1) ]
D =
Arnaldo Torres Degró y Evelyn Afanador Mejías
196
[6.9] Ejercicios Adicionales Arreglo de datos [6.9.1] Favor de buscar y analizar el recorrido y la desviación estándar de la nota del primer examen de los
atletas de la Universidad Pitirre para el año 2004 en el curso de primeros auxilios: datos hipotéticos 56; 78; 78; 75; 77; 72; 75; 79; 79; 80; 72; 73; 74; 72; 75; 73; 72; 70; 72; 80; 77; 75; 72; 90; 88; 72; 74; 78; 80; 66; 72; 76; 83; 90; 72; 77; 79.
[6.9.2] Favor de buscar y analizar el recorrido y la desviación estándar de la cantidad de horas semanales
viendo televisión entre los atletas de la Universidad Pitirre para el año 2004: datos hipotéticos 15; 10; 20; 10; 10; 27; 22; 10; 16; 16; 09; 17; 28; 19; 15; 15; 15; 18; 10; 10; 10; 14; 17; 20; 13; 12; 12; 18; 20; 08; 09; 10; 12; 14; 20; 16; 12.
[6.9.3] Favor de buscar y analizar el recorrido y la desviación estándar de la cantidad en dólares por concepto
en compra de libros para estudios entre los atletas de la Universidad Pitirre para el año 2004: datos hipotéticos 95; 76; 50; 88; 50; 89; 74; 90; 56; 86; 89; 90; 69; 150; 120; 120; 90; 96; 89; 100; 89; 58; 90; 60; 100; 58; 88; 79; 90; 100; 120; 90; 99; 87; 90; 99; 130.
Datos no agrupados [6.9.4] Favor de buscar y analizar el recorrido y la desviación estándar de la edad de las mujeres menores
quienes se les presentaron querellas en Puerto Rico para el año fiscal 1991-1992, según los datos registrados en el ejercicio 6.3 de la página 169.
[6.9.5] Favor de buscar y analizar el recorrido y la desviación estándar de la edad de las varones menores
quienes se les presentaron querellas en Puerto Rico para el año fiscal 1991-1992, según los datos registrados en el ejercicio 6.3 de la página 169..
[6.9.6] Favor de buscar y analizar el recorrido y la desviación estándar de la edad de todos los menores
quienes se les presentaron querellas en Puerto Rico para el año fiscal 1991-1992, según los datos registrados en el ejercicio 6.3 de la página 169.
Datos agrupados [6.9.7] Favor de buscar y analizar el recorrido y la desviación estándar de la edad por suicidio en Puerto Rico
para el año 1980, según los datos registrados en el cuadro 4.1 de la página 105. [6.9.8] Favor de buscar y analizar el recorrido y la desviación estándar de la edad por suicidio en Puerto Rico
para el año 1990, según los datos registrados en el cuadro 4.1 de la página 105. [6.9.9] Favor de buscar y analizar el recorrido y la desviación estándar de la edad por suicidio en Puerto Rico
para el año 2000, según los datos registrados en el cuadro 4.1 de la página 105.