dispercion definicion y ejemplos

15
UNIVERSIDAD AUTÓNOMA DE CENTRO AMÉRICA SEDE REGIONAL PACÍFICO NORTE NICOYA - GUANACASTE MEDIDAS DE DISPERSIÓN EN DATOS NO AGRUPADOS CURSO: PROBABILIDAD Y ESTADÍSTICA PREPARADO POR: ING. ALLAN VILLEGAS ALEMÁN 2012

Upload: juan-felipe-ruge-bautista

Post on 07-Jul-2015

565 views

Category:

Education


0 download

DESCRIPTION

MANERA FACIL DE APRENDER MAS RAPIDO

TRANSCRIPT

Page 1: Dispercion DEFINICION Y EJEMPLOS

UNIVERSIDAD AUTÓNOMA DE CENTRO AMÉRICA

SEDE REGIONAL PACÍFICO NORTE

NICOYA - GUANACASTE

MEDIDAS DE DISPERSIÓN

EN DATOS NO AGRUPADOS

CURSO:

PROBABILIDAD Y ESTADÍSTICA

PREPARADO POR:

ING. ALLAN VILLEGAS ALEMÁN

2012

Page 2: Dispercion DEFINICION Y EJEMPLOS

Medidas De Dispersión en Datos No Agrupados

Ing. Allan Villegas Alemán Página 2

INTRODUCCIÓN

El concepto de variabilidad juega un papel clave dentro de la Estadística. Si

los hechos no se repitieran o se repitieran sin variación, la Estadística casi no

tendría razón de ser; pero la realidad es que la mayoría de los fenómenos se repiten

y lo hacen mostrando variaciones de mayor o menor intensidad; de ahí la

importancia que tiene la Estadística en el mundo moderno, al suministrarle al

hombre procedimientos válidos y confiables para analizar esos hechos que se repiten

y hacer inferencias acerca de ellos a pesar de la variabilidad que presentan.

Básicamente, al analizar un conjunto de datos, se tienen en mente dos

objetivos: a) por una parte, se trata de descubrir las irregularidades que puedan

existir en él y de resumirlas a través de un valor típico (un promedio por ejemplo); y

b) por otra, se procura establecer la medida en que los datos se concentran o se

dispersan alrededor de ése valor típico, o sea, la importancia de las desviaciones de

los elementos individuales respecto a ese valor representativo escogido para

caracterizar al grupo.

En realidad, es casi tan importante conocer un promedio como conocer la

variabilidad de los datos alrededor de él. Esto es lógico: la validez de un valor típico

para resumir o representar al conjunto de datos para el cual se calculó, depende, en

gran medida de si los datos individuales se concentran o se dispersan alrededor de

él. Cuanto más concentrados estén los datos alrededor del promedio aritmético, por

ejemplo, mucho más confianza se tendrá en este valor para caracterizar o

representar el conjunto de datos.

Si la moda del número ideal de hijos es 3 en una población, y una porción

muy grande de mujeres se concentran en ese valor, podemos utilizar con seguridad

ese valor para describir las preferencias reproductivas de la población, como un

todo, ya que sabemos que pocos se alejan, de forma significativa, de ese valor.

En esta oprtunidad veremos el cálculo de las medidas de dispersión para

datos no agrupados.

Page 3: Dispercion DEFINICION Y EJEMPLOS

Medidas De Dispersión en Datos No Agrupados

Ing. Allan Villegas Alemán Página 3

LA VARIABILIDAD Y SU IMPORTANCIA

La importancia del concepto de variabilidad se hace aún más clara, si se nota

que en la práctica puede suceder que varios conjuntos de datos tengan, la misma

media aritmética y sin embargo, su dispersión sea muy diferente, tal como se puede

apreciar a continuación:

A: 5, 5, 5, 5, 5; ;

B: 4, 5, 5, 5, 6; ;

C: 1, 3, 4, 7, 10; ;

Figura 1: Ilustración de tres distribuciones con igual media y diferente variabilidad.

0

1

2

3

4

5

1 2 3 4 5 6 7 8 9 10

0

1

2

3

1 2 3 4 5 6 7 8 9 10

0

1

2

1 2 3 4 5 6 7 8 9 10

Page 4: Dispercion DEFINICION Y EJEMPLOS

Medidas De Dispersión en Datos No Agrupados

Ing. Allan Villegas Alemán Página 4

Los anteriores conjuntos tienen la misma media aritmética (5) pero su

dispersión o variabilidad es muy diferente: mientras que en el grupo A todos los

valores son iguales a cinco, es decir, no existe dispersión, en B sí existe cierto grado

de variabilidad y en el grupo C la dispersión es aún mayor. Aún más, en este último

grupo ni siquiera hay un valor que sea igual al promedio y esto puede darnos una

idea de las conclusiones erróneas a que podríamos llegar si no tomáramos en cuenta

la dispersión de los datos con respecto a esta medida. Para los investigadores, la

variabilidad es un fenómeno natural y corriente del cual tienen clara conciencia.

Es evidente que sólo el conocimiento del valor central x no es suficiente para

caracterizar un conjunto de datos.

LA MEDICIÓN DE LA VARIABILIDAD

Dentro del tratamiento estadístico de la información cuantitativa, es necesario

hacer referencia a la medición de la variabilidad. Han sido propuestas diferentes

formas de medir la dispersión o variabilidad de un conjunto de datos; cada una de

ellas posee ventajas y también limitaciones conceptuales y prácticas.

La elección de una de ellas, en particular, dependerá de la situación concreta

que se considere y de si, en ese caso, las ventajas de su utilización superan a las

desventajas, en relación a las demás medidas. Seguidamente se discutirán las

medidas de variabilidad más conocidas, a saber:

a) El recorrido o amplitud.

b) La desviación media.

c) La desviación estándar.

d) La variancia.

e) El coeficiente de variación.

El recorrido o amplitud (R)

Una forma natural de apreciar la variabilidad es considerar los valores

extremos del grupo de datos. Esto da origen al recorrido o amplitud, que se define

como la diferencia entre el valor mayor y el valor menor del conjunto de datos. Su

cálculo es simple; por ejemplo, lo calcularemos para los siguientes datos: 3, 10, 2, 8,

7. . También puede indicarse dando directamente los valores

extremos, o sea, para el ejemplo considerado: Recorrido de 2 a 10.

No obstante lo simple de su cálculo y lo fácil que resulta percibir su

significado, el recorrido no es muy usado debido a ciertas limitaciones que presenta.

La más importante, como puede apreciarse en su definición es la de que no toma en

cuenta todas las observaciones del grupo o muestra, sino únicamente el mayor y el

Page 5: Dispercion DEFINICION Y EJEMPLOS

Medidas De Dispersión en Datos No Agrupados

Ing. Allan Villegas Alemán Página 5

menor. Esta característica hace que dependa sensiblemente del número de datos y

que aumente al crecer este número ya que es probable que, entre las nuevas

observaciones agregadas aparezca una más pequeña y/o una de mayor valor que las

existentes y eso producirá un incremento en el valor del recorrido.

En la práctica el recorrido se utiliza cuando se desea una medida simple de la

variabilidad o cuando -por falta de tiempo- no se pueden emplear medidas más

complejas.

La desviación media (DM)

La necesidad de definir una medida de dispersión que tome en cuenta para su

cálculo todos los datos y no esté tan estrictamente ligada al número de ellos, lleva

casi automáticamente a la conclusión de que esta medida tiene que estar basada en

las desviaciones o diferencias de los datos individuales respecto de un valor central

o típico.

Esta línea de razonamiento conduce lógicamente, a considerar la suma de las

desviaciones de los datos con respecto a la media aritmética como una posible

medida de dispersión. Sin embargo, como es sabido, la suma de las desviaciones de

las observaciones con respecto a la media aritmética siempre es igual a cero,

circunstancia que impide que pueda ser utilizada como medida de dispersión.

Para obviar este problema, se puede emplear la suma de los valores absolutos

de las diferencias y dividirla por el número de datos para obtener una medida de

dispersión promedio o por observación. Así se origina la llamada desviación media.

Simbólicamente así:

Recuérdese que el símbolo se emplea para indicar que deben ser

considerados los valores absolutos de las diferencias, es decir, ignorando su signo.

Su cálculo se ilustra seguidamente para los valores: 3, 10, 2, 8, 7. Primero se

obtiene la media aritmética:

Se recomienda hacer una tabla como la que se muestra a continuación:

Page 6: Dispercion DEFINICION Y EJEMPLOS

Medidas De Dispersión en Datos No Agrupados

Ing. Allan Villegas Alemán Página 6

3 -3 3 10 +4 4 2 -4 4 8 +2 2 7 +1 1 Σ 0 14

Luego se calcula la desviación media:

La desviación media, no obstante las ventajas conceptuales que reúne, casi no

se utiliza debido a que requiere el manejo de valores absolutos por una parte, y por

el hecho de que existe otra medida, basada también en las desviaciones respecto a

la media aritmética, que es mucho más cómoda y útil, y reúne numerosas ventajas

prácticas y teóricas. Esta medida es la desviación típica.

Desviación típica (Desviación estándar)

La desviación estándar -o típica- utiliza en lugar de los valores absolutos, los

cuadrados de las desviaciones. La desviación estándar nos indica cuánto se alejan,

en promedio, las observaciones de la media aritmética del conjunto.

Es la medida de dispersión más usada en estadística, tanto para aspectos

descriptivos como analíticos. Es, la raíz cuadrada del cuadrado de la suma de las

desviaciones entre el número total de observaciones, así:

Simbólicamente es así:

También tiene mucha importancia el cuadrado de la desviación estándar, que

recibe el nombre de variancia (en algunos textos aparece como “varianza”).

Page 7: Dispercion DEFINICION Y EJEMPLOS

Medidas De Dispersión en Datos No Agrupados

Ing. Allan Villegas Alemán Página 7

La Variancia

Como se dijo atrás, la variancia es el cuadrado de la desviación típica, así:

Simbólicamente así:

Es conveniente hacer algunas observaciones acerca de la definición de varianza,

según se considere una muestra o toda la población.

Como ya se ha explicado, el estudio de una población se realiza observando no

todos sus elementos, sino, tomando una muestra. Las medidas o valores calculados

a partir de las muestras se utilizan luego para representar o estimar los valores de la

población en los que estamos interesados.

Con el propósito de establecer claramente si el cálculo ha sido realizado para

toda la población o para una muestra, se acostumbra indicar con símbolos

diferentes cada una de las situaciones. Comúnmente se utilizan letras latinas

mayúsculas o letras griegas para indicar los valores de la población y letras latinas

minúsculas para los valores calculados a partir de los datos de la muestra

(estimadores).

Además, es corriente emplear la letra N para indicar el número total de

elementos en la población y la n para representar el tamaño de la muestra.

Seguidamente se presentan los símbolos y definiciones para el promedio y la

variancia, según se refieran a la población o a una muestra:

GRUPO DE REFERENCIA PROMEDIO VARIANCIA

Muestra (n)

Población (N)

Algo que llama la atención inmediatamente es que, al definir , se utiliza n-1

como divisor en vez de n. Esto obedece al hecho de que, de acuerdo con la teoría de

Page 8: Dispercion DEFINICION Y EJEMPLOS

Medidas De Dispersión en Datos No Agrupados

Ing. Allan Villegas Alemán Página 8

la estadística, al dividir por n-1 se obtiene una mejor estimación del valor

poblacional (variancia de la población).

Debe señalarse, sin embargo, que si la muestra es grande no tiene

importancia alguna usar n ó n-1 como divisor, ya que el resultado numérico que se

obtendrá será prácticamente el mismo; en cambio, si la muestra es pequeña,

entonces sí es importante el usar la fórmula apropiada, o sea, la correspondiente a

(minúscula).

Cálculo de la variancia en datos no agrupados

Seguidamente se presentará el cálculo de la variancia cuando se tiene una

muestra de n datos sin agrupar. Como ya se vio, la fórmula de es la siguiente:

Utilizando esta fórmula y sacando luego la raíz cuadrada, puede obtenerse el

valor de la desviación estándar (s). Ahora se ilustra el cálculo de ambas medidas a

partir de la definición.

EJEMPLO: Para los valores: 3, 10, 2, 8, 7. Calcular y s.

Primero se obtiene la media aritmética:

Se recomienda hacer una tabla como la que se muestra a continuación:

3 -3 9 10 4 16 2 -4 16 8 2 4 7 1 1

Σ=30 0 46

Page 9: Dispercion DEFINICION Y EJEMPLOS

Medidas De Dispersión en Datos No Agrupados

Ing. Allan Villegas Alemán Página 9

En el ejemplo anterior, el promedio resultó ser un número entero y por lo

tanto, el cómputo de las diferencias y su elevación al cuadrado, fue una

labor relativamente fácil; sin embargo, en la mayoría de los casos, la utilización de la

fórmula , implica una serie de operaciones incómodas y largas, al tener que elevar

al cuadrado números con muchos decimales. Además, la expresión , no

es la más apropiada cuando se trabaja con calculadora, por ello, para fines de

cálculo, es preferible emplear la expresión siguiente:

A la cual se llega realizando ciertas transformaciones algebraicas en el numerador

de . Seguidamente, se repite el cálculo de y s, utilizando la “fórmula para

cálculos” que se acaba de introducir:

3 9 10 100 2 4 8 64 7 49

Σ=30 Σ=226

Puede verse que los resultados obtenidos para la desviación típica y la

variancia son idénticos a los hallados empleando la fórmula de la página anterior.

Page 10: Dispercion DEFINICION Y EJEMPLOS

Medidas De Dispersión en Datos No Agrupados

Ing. Allan Villegas Alemán Página 10

EL COEFICIENTE DE VARIACIÓN

Una situación corriente en la investigación, es la necesidad de comparar dos o

más conjuntos de datos en cuanto a su variabilidad. Si los datos están dados en las

mismas unidades, y si los promedios de los conjuntos, es decir, la magnitud de los

datos, son bastantes similares, la desviación estándar es una herramienta

perfectamente apropiada para realizar la comparación.

Pero, si alguna de las condiciones antes citadas no se cumple, la desviación

estándar, y cualquier medida absoluta de dispersión, pierde casi toda su utilidad

para este propósito.

Si los datos están expresados en diferentes unidades, es obvio que no puede

compararse su variabilidad utilizando la desviación estándar, ya que carece de

sentido comparar, por ejemplo, una desviación estándar expresada en kg, con otra

dada en minutos o en “años luz”.

Por otra parte, aun cuando los conjuntos de datos están dados en la misma

unidad de medida, la diferencia entre sus promedios puede ser tan importante que

haga completamente inadecuada la comparación directa de las desviaciones

estándar.

Se hace necesario entonces, disponer de valores que sean independientes de

las unidades de medida y que no dependan de la magnitud general de los datos que

se consideren. Con este propósito se utilizan las llamadas medidas de dispersión

relativa, la más importante de las cuales es el coeficiente de variación.

El coeficiente de variación indica la importancia de la desviación estándar en

relación al promedio aritmético y cuya definición puede representarse de la siguiente

forma:

Nótese que se da multiplicado por 100. De acuerdo con la simbología

presentada anteriormente, se tendrían las siguientes fórmulas según se trate de una

población o de una muestra:

Page 11: Dispercion DEFINICION Y EJEMPLOS

Medidas De Dispersión en Datos No Agrupados

Ing. Allan Villegas Alemán Página 11

Su definición obedece a las necesidades mencionadas anteriormente de contar

con una medida independiente de las unidades y de la magnitud general de las

observaciones.

Al dividir la desviación estándar (“ ” medida de dispersión absoluta) entre la

media aritmética (“ ” medida de posición), se eliminan las unidades1, por una parte,

y por otra, la inclusión del promedio en el divisor, permite corregir el efecto que

sobre la desviación estándar tiene la magnitud general de los datos.

En otras palabras, si la desviación estándar es grande porque los datos en sí

son grandes, al dividirse entre la media aritmética ese factor queda eliminado. En

cuanto a la multiplicación por 100, no tiene otro propósito que el de “amplificar” el

número relativo y hacer más cómodo su uso.

Ejemplo:

Los siguientes datos se refieren a estatura en centímetros de niñas de 2 y 16

años.

EDAD EN AÑOS ESTATURA PROMEDIO DESVIACIÓN ESTÁNDAR

2 84 3 16 160 5

En términos absolutos es evidente que hay mayor variabilidad en el grupo de

niñas de 16 años, ya que la desviación estándar es mayor; sin embargo, al calcular

los coeficientes de variación se descubre que son muy parecidos, resultando más

bien ligeramente inferior el correspondiente a niñas de 16 años.

Debe concluirse, entonces, que la dispersión relativa en ambos grupos de

niñas es muy similar.

1 Tanto la desviación estándar como la media aritmética vienen referidas a unidades concretas; por ejemplo, si se trata de la variable peso, ambas vendrían dadas en kilogramos; al dividir una entre la otra, se dividen los kg entre kg, desapareciendo las unidades de referencia, es decir kg, quedando un número abstracto (un escalar) que no se refiere a ninguna unidad determinada.

Page 12: Dispercion DEFINICION Y EJEMPLOS

Medidas De Dispersión en Datos No Agrupados

Ing. Allan Villegas Alemán Página 12

ANEXO I

OBTENCIÓN DE LA FÓRMULA PARA CÁLCULOS

Page 13: Dispercion DEFINICION Y EJEMPLOS

Medidas De Dispersión en Datos No Agrupados

Ing. Allan Villegas Alemán Página 13

FÓRMULA PARA CÁLCULOS

La fórmula para cálculos introducida en la página 9, se obtuvo, como se dijo

antes, de manipular el numerador de la fórmula para de datos sin agrupar

introducida en la página 8. Veamos dicho procedimiento.

Primero tomamos la fórmula para calcular la variancia en datos no agrupados:

Y desarrollamos (o expandimos) la fórmula notable que se haya implícita en su

numerador:

Así:

Page 14: Dispercion DEFINICION Y EJEMPLOS

Medidas De Dispersión en Datos No Agrupados

Ing. Allan Villegas Alemán Página 14

La expresión anterior corresponde al nuevo numerador de la fórmula para

cálculos; sólo resta dividir esta expresión entre n-1, así:

Así queda demostrado de dónde sale la “fórmula para cálculos”.

Page 15: Dispercion DEFINICION Y EJEMPLOS

Medidas De Dispersión en Datos No Agrupados

Ing. Allan Villegas Alemán Página 15

Referencias

LIPSCHUTZ, SEYMOUR y SCHILLER, JOHN. Introducción a la Probabilidad y

Estadística, Editorial McGraw Hill. 2000.

QUINTANA, CARLOS. Estadística Elemental, Editorial Máster Libro S.A.1992.

GÓMEZ, MIGUEL. Estadística Descriptiva, Oficina de publicaciones de la Universidad

de Costa Rica, 1977.