tema 4: descripciÓn nÚmerica 4.2 medidas de dispersiÓn de ... · 4.3 medidas de forma medidas de...
Post on 07-Aug-2020
9 Views
Preview:
TRANSCRIPT
Tema 4: DESCRIPCIÓN NÚMERICA DE DATOS UNIVARIANTES
ÍNDICE4.1 MEDIDAS DE POSICIÓN
Medidas de tendencia centralMedidas de tendencia no central
4.2 MEDIDAS DE DISPERSIÓNMedidas de dispersión absolutaMedidas de dispersión relativa
4.3 MEDIDAS DE FORMAMedidas de asimetríaMedidas de curtosisDiagramas de caja
4.4 MEDIDAS DE DESIGUALDADÍndice de GiniCurva de Lorenz
OBJETIVOS
Describir los aspectos notables de una distribución defrecuencias mmediante unas medidas numéricas quenos permitan resumir las principales característicasdel conjunto de datos.* Elegir y calcular las medidas adecuadas para resumir
los aspectos notables de los datos.* Interpretar correctamente los valores obtenidos en las
medidas numéricas y evaluar su representatividad.
Comparar diferentes conjuntos de datos odistribuciones mediante el análisis de las medidasnuméricas adecuadas.
OBJETIVOS
En cualquier medida de síntesis de la distribucióndebemos observar los siguientes aspectos:
¿Intervienen todos los datos?¿Con qué tipo de datos se puede calcular?¿Es única?¿Es robusta?¿Qué representatividad tiene?¿Cómo se interpreta?¿Cómo se comporta al transformar los datos originales?
MEDIDAS DE POSICIÓNLas mmedidas de posición buscan señalar dónde se encuentrasituada la distribución de frecuencias, bien sea sus valoresmás representativos o centrales, bien sea sus zonasintermedias y sus extremas (colas)
Se clasifican en:
Medidas de tendencia central: buscan situar los valoresmedios o más representativos de la distribución con unafinalidad de síntesis de la información.
Medidas de tendencia no central: buscan situar laszonas intermedias y extremas de la distribución defrecuencias con una finalidad de dispersión o predicción
MEDIDAS DE POSICIÓN
Cuartiles Deciles Percentiles
Cuantiles
Medidas no centrales
Ponderada No ponderada
Promedios Mediana Moda
Medidas de tendencia central
Media aritmética
MEDIA ARITMÉTICA. DEFINICIÓNEn la distribución de frecuencias de un conjunto de datos:
{(xx i , ni); i=1,...,k}con N=n1+n2+...+nk el número de datos observadosLa Media Aritmética se define como:
Observaciones:1.- En variables continuas, habitualmente agrupadas en intervalos, seaproxima utilizando las marcas de clase.2.- No tiene sentido calcularla en variables cualitativas, excepto si sonbinarias codificadas como 0/1, en cuyo caso la media aritmética esuna proporción.
1 1
1 k k
i i i ii i
x x n x fN
MEDIA ARITMÉTICA. EJEMPLOS
5
1 1 5 2 15 3 20 4 8 5 2 137 2,74 50 50
i ii
x nx
N
X=“Nº horasdiárias de estudio”
Frecuencia absoluta
Frecuencia relativa
xi ni f i1 5 10 %2 15 30 %3 20 40 %4 8 16 %5 2 4 %
50
1 0,10 2 0,30 3 0, 40 4 0,16 5 0,04 2,74 x
CUESTIÓN 1:Por término medio, ¿cuántas horas estudia un alumno al día?
Respuesta: Los alumnos estudian una media de 2,74 horas al día
Salario mensual
Número de trabajadores
500-1.000 501.000-1.500 1501.500-2.000 2002.000-2.500 902500-3000 10
MEDIA ARITMÉTICA. EJEMPLOSCUESTIÓN 2:En una cierta empresa la distribución de los salarios mensualesentre los trabajadores se recoge en la tabla:
Determina a cuánto asciende el salario mensual medio endicha empresa.
805000 1610500
x
X=Salario mensual ni x i nix i
500 1000 50 750 375001000 1500 150 1250 1875001500 2000 200 1750 3500002000 2500 90 2250 2025002500 3000 10 2750 27500
SUMA 500 805000
MEDIA ARITMÉTICA. EJEMPLOS
El salario medio mensual asciende a 1.610 €
Volumen de ventas (104 €)
Número de empresas
50-100 30100-200 25200-500 40500-1000 501000-2000 252000-5000 30
(SOL:1000 por 104 € )
MEDIA ARITMÉTICA. EJEMPLOSCUESTIÓN 3:La tabla recoge la distribución de las empresas de un sector encuanto a su volumen de ventas (expresadas en 10.000€)
¿Cuál es el volumen de ventas medio entre las empresasdel sector?
MEDIA ARITMÉTICA. PROPIEDADESEs única.Utiliza todos los datos de la distribución de frecuencias.Únicamente tiene sentido en características cuantitativasy se utiliza preferentemente en variables continuas.En distribuciones agrupadas que presentan algúnintervalo de clase infinito no se puede calcular.Es el centro de gravedad de la distribución en sentidoaditivo.No es robusta.No es invariante frente a cambios de escala y origen.Minimiza el error cuadrático medio.Es una medida descomponible.
MEDIA ARITMÉTICA. PROPIEDADES
Media de los números 2, 4, 7, 8 y 9:
2 4 7 8 9 30 65 5
x
2 4 7 8 96
xi xi-Media
2 -4
4 -2
7 1
8 2
9 3
Total 0
La media aritmética es el centro de gravedad de la distribución en
sentido aditivo 10
k
ii
x x
5
15
20
8
2
0
5
10
15
20
1 2 3 4 5
Núm
ero
de e
stud
iant
es
X= horas de estudio por día74.2x
10
k
i ii
x x nEn general, en cualquier
distribución de frecuencias, la propiedad de centro de gravedad:
MEDIA ARITMÉTICA. PROPIEDADES
MEDIA ARITMÉTICA. PROPIEDADES
Dados los números 2, 4, 7, 8 y 9 planteamos encontrar el valorx que minimiza el error/desviación cuadrático medio como unproblema usual de minimización:
La media aritmética minimiza la distancia cuadrática media
2 4 7 8 9x
2
( )i i i i
i iopt
x x n x nMin e x x x
N N
2 2 2 2 2( 2) ( 4) ( 7) ( 8) ( 9)( )5
6
x x x x xMin e x
x x
Se cumple:y a b x
Supongamos que en la cuestión sobre el salario de lostrabajadores se plantea un aumento salarial de un 10%junto con un parte constante de 50 euros mensuales, enconcepto de dietas.
Y = Nuevo salario Y=50+1.1 X
50 1.1 1.821 y x
Cambio de escala y de origen
MEDIA ARITMÉTICA. PROPIEDADES
Y a b X
Tras la subida salarial, el salario medio mensualasciende a 1.281€
Si hacemos
EEjercicio 1En una empresa metalúrgica, los empleados se clasifican en trescategorías: técnicos, especialistas y administrativos. El número deempleados, así como el salario medio mensual de cada categoría en elmes de Diciembre son los que aparecen en la tabla:
CATEGORÍA NÚMERO SALARIO MEDIO MENSUAL
Técnicos 20 2000€
Especialistas 100 1200€
Administrativos 40 1000€
a) Calcula el salario medio del conjunto de los trabajadores.b) Si se elevan todos los salarios un 5%, ¿a cuánto ascenderá el
salario medio en cada categoría? ¿y para el conjunto?.c) Tras una prima fija de 50€ mensuales indica cuál será el salario
medio para cada categoría y para el conjunto de los empleados.
MEDIA ARITMÉTICA. EJERCICIOS
20 2000 100 1200 40 100020 100 40
200000 1 250160
T T E E A ATOT
T E A
N s N s N ssN N N
.
MEDIA ARITMÉTICA. EJERCICIOS
CATEGORÍA NÚMERO SALARIO MEDIO MENSUAL
Técnicos 20 2000€
Especialistas 100 1200€
Administrativos 40 1000€
a) El salario medio mensual en esta empresa asciende a 1.250€
Las medias ponderadas se utilizan cuando no todos losvalores de la variable tienen la misma importancia.
1
1
k
i ii
w k
ii
x wx
w
MEDIA ARITMÉTICA PONDERADA
Sean:
1iw ;i ,...,k Colección de pesos asignando laimportancia de cada dato
La media aritmética ponderada, se calcula como:
EEjercicio
Un estudiante realizó tres exámenes, en los que logró unapuntuación de 50, 80 y 70 puntos. El tiempo de realizaciónde cada examen era proporcional a la importancia delmismo. Así, primer examen tuvo una duración de mediahora, el segundo de una hora y el tercero de hora y media.Calcular la nota media del alumno mediante la mediaaritmética ponderada.
(Sol.:70 puntos)
MEDIA ARITMÉTICA PONDERADA
Dada una distribución de frecuencias de una variableordinal o cuantitativa{(xi , ni); i=1,...,k} con N=n1+n2+...+nk el número de datosobservados
Se define la MEDIANA (Me) como el valor o dato dela distribución que ddivide ésta en dos partes iiguales,dejando la mitad de los datos por debajo (y la otramitad) por encima. Es decir la frecuencia de datos másbajos y más elevados que la mediana son ambas del50%
Su cálculo depende del tipo de variable analizada.
MEDIANACálculo para DATOS DISCRETOS:
Se identifica el dato o modalidad cuya frecuenciaacumulada es N/2.
Para ello se ordenan los datos de forma creciente y sedetecta el entero m tal que
m-1< N/2 mSi N es impar la mediana es: MMe= xm
Si N es par y la variable es cuantitativa por convenio lamediana es la media de los dos valores centrales
MEDIANA
21mm xxMe
MEDIANAEjemplos
c) Calcular la mediana de las siguientes distribuciones de valores:Xi ni Ni
1 3 3
3 6 9
4 9 18
6 9 27
8 5 32
9 4 36
a) Calcular la mediana de la siguiente distribución de valores:
1, 3, 4, 5, 6, 7, 9
b) Calcular la mediana de la siguiente distribución de valores:
1, 3, 5, 6, 7, 9 Me = (5 + 6) /2 = 5,5
Me = 5
Me = 5
Xi ni Ni
1 4 4
3 6 10
4 9 19
6 9 28
8 4 32
9 4 36
Me = 4
MEDIANA
Nº horas de estudiodiarias
Nº de alumnos
xi ni fi Ni Fi
1 5 10% 5 10%2 15 30% 20 40%3 20 40% 40 80%4 8 16% 48 96%5 2 4% 50 100%
50
3Me
%501F%502F%503F
EjemploLa mitad de los alumnos que menos horas diarias dedican alestudio, ¿cuántas horas como máximo dedican?
Al menos la mitad de los alumnos estudian menos de 3horas al día
MEDIANA
Nº horas de estudiodiarias
Nº de alumnos
xi ni fi Ni Fi
1 10 20% 10 20%
2 15 30% 25 50%
3 18 36% 43 86%
4 5 10% 48 96%
5 2 4% 50 100%
50
%501F
2 50%F
CUESTIÓN 1 :La mitad de los alumnos que menos horas diarias dedican alestudio, ¿cuántas horas como máximo dedican?
Al menos la mitad de los alumnos estudian menos de 2,5 horas al día
1 2 3 2.5 2 2
m mx xMe
Cálculo para DATOS CONTINUOS O AGRUPADOS:
MEDIANA
50% 50%
Me
50% 50%
Me
n1
n2
n31. Obtendremos las frecuenciasacumuladas absolutas (Ni).
2. Identificaremos el intervalo de“clase mediano” (Lm-1 , Lm]que es aquél cuya frecuenciaacumulada es superior al50%. Esto es:
Nm-1 < N/2 Nmó
Fm-1 < 50% Fm
3. Si Fm = 50%: =Si Fm > 50%:= =
MEDIANA. EJERCICIOSEEjercicio En una cierta empresa los salarios mensuales y el número detrabajadores se distribuyen como indica la tabla:
Salario mensual Número de trabajadores500-1000 501000-1500 1501500-2000 2002000-2500 902500-3000 10
Obtén el intervalo mediano del salario mensual delos trabajadores de la empresa.
MEDIANA
EEjercicio
Li-1 Li ni xi fi ai di Ni Fi
500 1000 50 750 10% 500 0.1000 50 10.00%
1000 1500 150 1250 30% 500 0.3000 200 40.00%
1500 2000 200 1750 40% 500 0.4000 400 80.00%
2000 2500 90 2250 18% 500 0.1800 490 98.00%
2500 3000 10 2750 2% 500 0.0200 500 100.00%
500
1500 2000 200 1750 40% 500 0.4000 400 80.00%
El intervalo mediano es el 3º : [1.500-2.000) L3 = 80% > 50% Me = 1750 €
MEDIANA
10%
20%
30%
40%
500 1000 1500 2000 2500 3000
10%
30%
40%
18%
2%
MEDIANA
10%
20%
30%
40%
500 1000 1500 2000 2500 3000
10%
30%
40%
18%
2%
10%
MEDIANA
10%
20%
30%
40%
500 1000 1500 2000 2500 3000
10%
30%
40%
18%
2%
40%
MEDIANA
10%
20%
30%
40%
500 1000 1500 2000 2500 3000
10%
30%
40%
18%
2%
80%
Me = 1750 €
MEDIANA. EJERCICIOSEEjercicio En otra empresa los salarios mensuales y el número detrabajadores se distribuyen como indica la tabla:
Salario mensual Número de trabajadores500-1000 501000-1500 2001500-2000 1502000-2500 902500-3000 10
Obtén el intervalo mediano del salario mensual delos trabajadores de la empresa.
MEDIANA
EEjercicio
Li-1 Li ni xi fi ai di Ni Fi
500 1000 50 750 10% 500 0.1000 50 10.00%
1000 1500 200 1250 40% 500 0.4000 250 50.00%
1500 2000 150 1750 30% 500 0.3000 400 80.00%
2000 2500 90 2250 18% 500 0.1800 490 98.00%
2500 3000 10 2750 2% 500 0.0200 500 100.00%
500
1000 1500 200 1250 40% 500 0.4000 250 50.00%
El intervalo mediano es el 2º : [1.000-1.500) F2 = 50% Me = 1.500 €
MEDIANA
10%
20%
30%
40%
500 1000 1500 2000 2500 3000
10%
30%
40%
18%
2%
MEDIANA
10%
20%
30%
40%
500 1000 1500 2000 2500 3000
10%
30%
40%
18%
2%
10%
MEDIANA
10%
20%
30%
40%
500 1000 1500 2000 2500 3000
10%
30%
40%
18%
2%
50%
Me = 1500 €
Medimos la dureza de una serie de minerales:
1 1 2 2 3 4 4 5 6 7
La escala de Mohs es una relación de diez minerales ordenados por su dureza, de menor a mayor. Se utiliza como referencia de la dureza de una sustancia. Se basa en el principio de que una sustancia cualquiera puede rayar a otras más blandas, sin que suceda lo contrario
Dureza Mineral1 Talco2 Yeso3 Calcita4 Fluorita5 Apatita6 Ortoclasa7 Cuarzo8 Topacio9 Corindón10 Diamante
MEDIANALa mediana tiene sentido y puede calcularse también condatos cualitativos cuando la escala de medida utilizada esordinal
MEDIANA. PROPIEDADES
Es única, si bien puede aproximarse de formas diferentes.(como la marca de clase del intervalo mediano, o en basea proporcionalidad)
No utiliza todos los datos
No tiene sentido para variables cualitativas con escala de medida nominal.
Es más robusta que la media.
Minimiza el error absoluto medio
No es invariante frente a cambios de escala y origen.
No es una medida descomponible
0
5
10
15
20
1 2 3 4 5
3Me
74.2x
MEDIANA. PROPIEDADESRobustez
Mediana versus media aritmética.
2 4 7 8 9
2 4 7 8 997Me
7Me
6x
24x
MEDIA vs MEDIANA
Fuente: INE. Decil de salarios del empleo principal.Encuesta de Población Activa (EPA). Año 2017
Años Salario Medio Salario Mediano
2012 1.850,30 1.579,00
2013 1.869,10 1.600,20
2014 1.881,30 1.602,50
2015 1.893,70 1.596,80
2016 1.878,10 1.594,50
2017 1.889,00 1.590,30
Salarios mensuales del empleo principal (euros)Valores medios y medianos. 2006-2013
MEDIANA. PROPIEDADES
Dados los números 2, 4, 7, 8 y 9 planteamos encontrar el valor x que minimiza el error/desviación absoluta media como un problema usual de minimización:
La mediana minimiza la distancia o error absoluta media
2 4 7 8 9x
( )i i
iopt
x x nMin e x x Me
N
2 4 7 8 9( )
57
x x x x xMin e x
x Me
Se cumple:Y XMe a b Me
Supongamos que en la cuestión sobre el salario de lostrabajadores se plantea un aumento salarial de un 10% juntocon un parte constante de 50 euros mensuales, en conceptode dietas. Y = Nuevo salario Y=50+1.1 X
Cambio de escala y de origen
MEDIANA. PROPIEDADES
Si hacemos Y a b X
Tras la subida salarial, podemos afirmar que el salariomensual del 50% de los trabajadores será inferior a1.837,25€
50 1.1 1.837,25 Y XMe Me
EEjercicioDe un sector económico se tiene la siguiente información sobrelas ventas de las empresas que lo componen:
Volumen de ventas(104 €)
Número de empresas
50-100 30100-200 25200-500 40500-1000 501000-2000 252000-5000 30
Identifica el intervalo mediano del Volumen de ventas de lasempresas del sector y aproxima en él la mediana.
MEDIANA. EJERCICIOS
MEDIANA. EJERCICIOS
Li-1 Li ni fi Ni Fi
50 100 30 15,00% 30 15,0%
100 200 25 12,50% 55 27,5%
200 500 40 20,00% 95 47,5%
500 1000 50 25,00% 145 72,5%
1000 2000 25 12,50% 170 85,0%
2000 5000 30 15,00% 200 100,0%
Total 200 100,00%
El volumen de ventas mediano se encuentra en elintervalo[500-1000). Aproximando con la marca declase se obtiene que Me=7.500.000€
El propietario de una pequeña empresa tiene asignado un sueldo de3.910 € mensuales. Los salarios mensuales de sus empleadosaparecen en la tabla siguiente:
a) ¿Cuál es el salario medio en la empresa incluyendo al propietario?¿Y el salario medio de los empleados sin incluir al propietario?(1.031,63 € y 871,72 €)b) ¿Cuál es el salario mediano en la empresa incluyendo alpropietario? ¿Y el salario mediano de los empleados sin incluir alpropietario? (859 € y 856 €)
480 510 739 883 859 499
505 1106 980 1172 853 487
553 944 920 1713 1893 595
EEjercicioMEDIANA. EJERCICIOS
Dada una distribución de frecuencias de una variable{(xi , ni); i=1,...,k}con N=n1+n2+...+nk el número de datos observadosSe define la MODA (Mo) como el valor o dato de ladistribución que se observa en más individuos, quemás se repite. Es decir, la moda corresponde a lamodalidad cuya frecuencia es más alta.
Su cálculo depende del tipo de variable analizada.Pueden darse varias modas y dependiendo delnúmero de modas, las distribuciones se clasificancomo unimodales, bimodales ó multimodales.
MODA• Cálculo para DATOS DISCRETOS:
Se identifica la modalidad cuya frecuencia es mayor:Mo=xj si nj=máx{ni}
Cálculo para DATOS CONTINUOS O AGRUPADOS:
21 mm LLMo
MODA
1. Se calcula la densidad de frecuencia: di=ni/ai
2. Se identifica el intervalo “clase modal” (Lm-1,Lm] cuya densidad de frecuencia es máxima
3. Se aproxima la Moda (Mo):
xi ni
[0, 1) 12
[1,2) 16
[2,3) 12
[3,4) 14
[4,5) 16
[5,10] 30
30
161412
[0, 1) [1,2) [2, 3) [3,4) [4,5) [5,10]
MODA
Ejemplo: Calificaciones de una asignatura (datos agrupados)
En distribuciones agrupadas en intervalos con amplitudes distintas, la moda corresponde a la máxima densidad.
xi ni ai di
[0, 1) 12 1 12
[1,2) 16 1 16
[2,3) 12 1 12
[3,4) 14 1 14
[4,5) 16 1 16
[5,10] 30 5 6
30
161412
[0, 1) [1,2) [2, 3) [3,4) [4,5) [5,10]
MODAEn distribuciones agrupadas en intervalos con amplitudes distintas, la moda corresponde a la máxima densidad.
MODA. PROPIEDADESNo tiene por qué ser única.
Si existen varias modas es indicación de que lapoblación no tiene un comportamiento homogéneorespecto a la variable, sino que existen dos o másgrupos diferenciados.
No es invariante frente a cambios de escala y origen
No es una medida descomponible.No se ve afectada por valores extremos.Es fácil de interpretar y sencilla de calcular.No utiliza los datos.
Y XMo a b MoSi hacemos Y a b X
MODA. EJERCICIOSEEjercicio En una cierta empresa los salarios mensuales de lostrabajadores se distribuyen como se recoge en la tabla:
Salario mensual
Número de trabajadores
500-1000 501000-1500 1501500-2000 2002000-2500 902500-3000 10
Obtén el salario mensual modal entre lostrabajadores de la empresa.
MODA. EJERCICIOS
Li-1 Li ni ai di
500 1000 50 500 0,10
1000 1500 150 500 0,30
1500 2000 200 500 0,40
2000 2500 90 500 0,18
2500 3000 10 500 0,02
5001
21500 2000 1750
2
m mL LMo
Ejercicio
El salario más frecuente en la empresa es aproximadamente 1.750 €
Volumen de ventas (104 €)
Número de empresas
50-100 30100-200 25200-500 40500-1000 501000-2000 252000-5000 30
MODA. EJERCICIOSEjercicioLa tabla recoge la distribución de las empresas de un sector encuanto a su volumen de ventas (expresadas en 10.000€)
¿Cuál es el volumen de ventas más frecuente entre lasempresas del sector?
Volumen de ventas (104 €)
Número de empresas ai di
50-100 30 50 0.6100-200 25 100 0.25200-500 40 300 0.13500-1000 50 500 0.11000-2000 25 1000 0.0252000-5000 30 3000 0.01
MODA. EJERCICIOS
1 50 100 752 2
m mL LMoEl volumen de ventas modalaproximado es de 750.000€
(150-155) 3(155-160) 25(160-165) 39(165-170) 33(170-175) 27(175-180) 32(180-185) 16(185-190) 14(190-195) 4(195-200) 2
0
5
10
15
20
25
30
35
40
3
25
39
33
27
32
1614
42
MODA. DISTRIBUCIONES MULTIMODALES
Estatura de los alumno/as
0
5
10
15
20
25
30
35
40
3
24
38
23
15
20 0 0 0
0
5
10
15
20
25
30
0 1 1
1012
30
1614
42
30303030303030303030Estatura de los alumnos
3838383838383838383838383838Estatura de las alumnas
0
5
10
15
20
25
30
35
40
MODA: Distribuciones multimodales CUANTILESSe define CUANTIL DE ORDEN p (Qp) como el valorde la variable que divide la distribución en dos partescuyas frecuencias son p y 1-p, es decir, hay unafrecuencia igual a p por debajo de él y una frecuencia1-p por encima de él.
Es una extensión del concepto de medianaposibilitando que el porcentaje acumulado del 50%pueda ser cualquier otro valor p, tal que 0<p<1
Q0,7
CUANTILES: CuartilesLos cuantiles más importantes son los CUARTILES, DECILES Y PERCENTILES
25% 25% 25% 25%
C2C1 C3
25% 25% 25% 25%
C2C1 C3
CUARTILES:Dividen la distribución en cuatro partes iguales.Los denotamos por { Ci ; i=1,2,3 } y son los
cuantiles de orden 0.25; 0.50 y 0.75.
C1=Q0.25
C2=Q0.5=MeC3=Q0.75
CUANTILES: Deciles
Los cuantiles más importantes son los CUARTILES, DECILES Y PERCENTILES
DECILES:Dividen la distribución en diez partes iguales.Se denotan por {Di; i=1,2,…,9} y son los cuantiles
de orden 0.1; 0.2;…; y 0.9
Di=Qi/10
i=1,2,…,9D 1 D
2D
3D
4D
5D
6D
7D
8D
91 2 3 4 5 6 7 8 9
10% 10% 10% 10% 10% 10% 10% 10% 10% 10%
CUANTILES: PercentilesLos cuantiles más importantes son los CUARTILES, DECILES Y PERCENTILES
PERCENTILES:Dividen la distribución en cien partes iguales.Se denotan por { Pi ; i=1,2,…,99} y son los cuantilesde orden 0,01; 0,02;…; y 0,99.
Pi=Qi/100
i=1,2, …, 99
Cálculo del CUANTIL de orden p (QQp)
1. Calcular las frecuencias acumuladas Ni y/o Fi
2. Identificar m tal que < × %(o < × )
Si la variable es discreta y no agrupada en intervalos
Si > × %: =Si = × %: =
En una variable continua agrupada en intervalos
Si > × %: = =Si = × %: =
CUANTILES
CUANTILES. PROPIEDADES
Son únicos.Su robustez depende del valor de p: cuanto más cerca de 0 ó 1 son menos robustos; cuanto más cerca de 0.5 (mediana) son más robustos.No tiene sentido para variables cualitativas medidas en escala nominalNo son invariantes frente a cambios de escala y origen
No son descomponibles.p pQ Y a b Q XSi hacemos Y a b X
CUANTILES
Fuente: INE. Decil de salarios del empleo principal.Encuesta de Población Activa (EPA). Año 2013
CUANTILES
Fuente: INE. Decil de salarios del empleo principal.Encuesta de Población Activa (EPA). Año 2017
CUANTILES: EjemplosEEjemplo Dada la siguiente distribución de datos
calcula el valor de los cuartiles
C1 = 3
C3 = 6
xi ni Ni Fi
1 4 4 11,11%
3 6 10 27,77%
4 9 19 52,77%
6 9 28 77,77%
8 4 32 88,89%
9 4 36 100,00%
3 6 10 27,77%
6 9 28 77,77%
0,25iF
0,75iF
CUANTILES: Ejemplos
C1 = 3,5
C3 = 7
xi ni Ni Fi
1 3 3 8,33%
3 6 9 25,00%
4 9 18 50,00%
6 9 27 75,00%
8 5 32 88,89%
9 4 36 100,00%
EEjemplo Dada la siguiente distribución de valores:Calcula el valor de los cuartiles
3 6 9 25,00%
6 9 27 75,00%
2 0, 25F
4 0, 25F
CUANTILES. EJEMPLOS
Nº horas de estudio
Nº de alumnos
xi ni fi Ni Fi
1 5 10% 5 10%
2 15 30% 20 40%
3 20 40% 40 80%
4 8 16% 48 96%
5 2 4% 50 100%
50= 2 horas = 3 horas = 3 horas= 1,5 horas = 3,5 horas = 4 horas
Ejemplo. Dada la siguiente distribución de valores:Calcula el valor de los cuartilesCalcula los deciles 1, 8 y 9
CUARTILES. EJERCICIOSEEjercicio En una cierta empresa los salarios mensuales y el número detrabajadores se distribuyen como indica la tabla:
Salario mensual Número de trabajadores500-1000 501000-1500 1501500-2000 2002000-2500 902500-3000 10
Sitúa los cuartiles de la distribución de los salarios
Calcula los deciles 1 y 9 y el percentil 99
Li-1 Li ni xi fi ai Ni Fi
500 1000 50 750 10% 500 50 10,00%
1000 1500 150 1250 30% 500 200 40,00%
1500 2000 200 1750 40% 500 400 80,00%
2000 2500 90 2250 18% 500 490 98,00%
2500 3000 10 2750 2% 500 500 100,00%
500
CUARTILES. EJERCICIOS
= 1250 € = 1750 € = 1750 €= 1000 € = 2250 € = 2750 €MEDIDAS DE DISPERSIÓN
INTRODUCCIÓN
En un estudio descriptivo de los datos, es importantecompletar la síntesis proporcionada por las medidas deposición, evaluando así mismo el alejamiento o cercaníaglobal entre el conjunto de datos.Para ello se deben utilizar medidas de dispersión quemiden numéricamente el grado de variabilidad presenteen los valores de la variable.Por otra parte, existen medidas de dispersión diseñadaspara cuantificar la distancia de los datos con respecto adiferentes medidas de posición. De este modo, sirvenpara analizar la representatividad de éstas.
MEDIDAS DE DISPERSIÓN
Medidas de dispersión ABSOLUTA• No hacen referencia a ninguna medida de tendencia
central: • Recorridos muestral, intercuartílico, decil y percentil
• Hacen referencia a una medida de tendencia central:• Desviaciones cuadráticas: Varianza y Desviación Típica
Medidas de dispersión RELATIVA• No hacen referencia a ninguna medida de tendencia
central:• Recorrido semi-intercuartílico
• Hacen referencia a alguna medida de tendencia central• Coeficiente de Variación de Pearson
CLASIFICACIÓN
MEDIDAS DE DISPERSIÓN ABSOLUTAEntre los datos
RI = C3 - C1
- Recorrido muestralInconveniente: No tiene en cuenta las observaciones centrales, ypor tanto, puede verse muy afectado por la existencia de atípicos
- Recorrido IntercuartílicoAmplitud del intervalo que recoge el 50% de las observaciones o valores centrales.
Re = xk - x1
OBSERVACIÓN: Del mismo modo, se puede definir el
Recorrido décil Rd=D9-D1
Recorrido percentil Rp=P99-P1
MEDIDAS DE DISPERSIÓNEjercicio
En una cierta empresa los salarios mensuales y el númerode trabajadores se distribuyen como indica la tabla:
Salario mensual Número de trabajadores
500-1000 50
1000-1500 150
1500-2000 200
2000-2500 90
2500-3000 10
a) Calcula el recorrido y el recorrido intercuartílico
b) El 80% central de los salarios, ¿entre que valores seencuentra?
MEDIDAS DE DISPERSIÓN. VARIANZA
La distancia o desviación de los datos respecto de la mediaaritmética es la más importante medida de dispersión. Semide en términos cuadráticos, obteniendo una distanciaglobal promedio, que es la Varianza de una variable X:
22
1
1 k
X i ii
S x x nN
Respecto de una medida de posición
Es no negativa y si es cero es porque todos los valores coinciden y no hay dispersión
Cuanto más dispersa es la distribución, mayor es el valor de S2
2 0XS 2 S 0 X i iSi x x x
MEDIDAS DE DISPERSIÓNPara el cálculo de la varianza se emplea la expresión equivalente: 22 2
1
1N
k
X i ii
S x n x
que se denomina formula abreviada de la varianza.
Si hacemos Y a b X 2 2 2 bY XS S
La varianza viene dada en unidades cuadráticas, por ello se utiliza la desviación típica, que es su raíz cuadrada
22 2
1
1N
k
X X i ii
S S x n x
Si hacemos Y a b X bY XS S
VARIANZA. EJERCICIOSEjercicio
En una cierta empresa los salarios mensuales y el númerode trabajadores se distribuyen como indica la tabla:
Salario mensual
Número de trabajadores
500-1000 50
1000-1500 150
1500-2000 200
2000-2500 90
2500-3000 10
Obtén el valor de la desviación típica
Salario mensual
Número de trabajadores
500-1000 50 750 37.500 28.125.000
1000-1500 150 1.250 187.500 234.375.000
1500-2000 200 1.750 350.000 612.500.000
2000-2500 90 2.250 202.500 455.62.000
2500-3000 10 2.750 27.500 75.625.000
N=500 805,000 1,406.250.000
= 1.610 €
VARIANZA. EJERCICIOS
S2 = 220.400 €2
S = 469,47 €
ix i ix n 2i ix n
MEDIDAS DE DISPERSIÓN RELATIVASA fin de comparar la dispersión existente en dos o másconjuntos de datos, o dos o más distribuciones, opoblaciones diferentes, se utilizarán las medidas dedispersión relativas.
Para evaluar la dispersión en términos relativos, ha deeliminarse la influencia de las unidades y medidas propiasde cada conjunto de datos; todo ello se consigue medianteuunos coeficientes que son adimensionales.
Diremos que un conjunto de datos es más homogéneo queotro si su dispersión relativa es menor y será másheterogéneo si presenta mayor variabilidad (relativa).
Para concluir sobre la homogeneidad, se compararán loscoeficientes diseñados, y el menor señalará a la población, ala variable o, al conjunto de datos más homogéneo.
MEDIDAS DE DISPERSIÓN RELATIVAS
)()(
13
13
CCCCRSI
Recorrido Semi-intercuartílico viene dado por:
• Son medidas adimensionales• No son invariantes ante cambios de origen,
pero sí de escala
Entre los datosSon la versión relativa de los recorridos.
Recorrido Relativo se obtiene como:
minRe máxr
máx máx
x xR
x x
MEDIDAS DE DISPERSIÓN RELATIVAS
xSCV
La versión relativa de la varianza es el Coeficiente deVariación de Pearson que se obtiene como:
• Es una medida adimensional que si es menor que 0.2 (20%)indica que la dispersión relativa es baja y por ende se puedeconcluir que la media aritmética es representativa. En casocontrario, no lo será.
• No debe utilizarse cuando la media aritmética es cero o muypróxima a cero.
• No es invariante ante cambios de origen pero sí de escala
Entre los datos y una medida de posición En una cierta empresa los salarios mensuales y el número detrabajadores se distribuyen como indica la tabla:
Salario mensual
Número detrabajadores
500-1000 501000-1500 1501500-2000 2002000-2500 902500-3000 10
a) Analiza si el salario medio mensual es representativo.b) La empresa decide subir un 50% los salarios y retener a todos
los trabajadores 250€ para un fondo de pensiones.Determina la dispersión entre los salarios tras la subida
c) Qué distribución de salarios es más homogénea, la inicial o lanueva, tras la subida?
COEFICIENTE DE VARIACIÓN. EJEMPLOS
X=Salariomensual
Número de trabajadores
500-1000 501000-1500 1501500-2000 2002000-2500 902500-3000 10
= 1,610 €
S2 = 220,400 €2
S = 469.47 €
a) Hemos de calcular el C.V. y concluir469.47. . 100 29,15%1.610
XSC V Xx
b) Hacemos 1,5 250 1,5 704,2Y XY X S S
c) Calculamos el C.V. de la nueva variable Y, para comparar:
704,2. .( ) 100 32,53%2.165
YSC V Yy
COEFICIENTE DE VARIACIÓN. EJEMPLOS COEFICIENTE DE VARIACIÓN. EJEMPLOSEEjercicio
De un sector económico se tiene la siguiente informaciónsobre los datos de facturación de las empresas que locomponen:
Volumen deventas (104 €)
Número deempresas
50-100 30100-200 25200-500 40
500-1000 501000-2000 252000-5000 30
Calcula el coeficiente de variación (113,47%).
¿Es representativa la media? (No)
TIPIFICACIÓN DE DATOSPara comparar datos de distintas distribuciones, éstosdeben trasladarse a un origen común y estandarizarse.Tipificación: Es la transformación de una variableestadística X cualquiera en una variable tipificada.
RESULTADO: Si X es una variable estadística cuya mediaaritmética es y su varianza SX
2, la variable tipificada Z seobtiene mediante:
XSxXZ
La media aritmética de Z es 0 y su varianza 1.
Los valores o datos tipificados se comparan y aquél queresulte más alto (en valor absoluto) señalará al dato que esmás alejado o atípico respecto de su distribución.
x
TIPIFICACIÓN. EJEMPLOSEEjercicio
De los resultados obtenidos en unas oposiciones se tiene lasiguiente tabla con las puntuaciones proporcionadas por dostribunales distintos:
Si un opositor tiene una puntuación de 31 puntos en el TribunalA y otro opositor tiene una calificación de 16 con el Tribunal B.¿Cuál de los dos irá primero al confeccionar una lista conjunta?
(Puntuaciones tipificadas 0,065 y 0,263)
Puntuaciones del Tribunal A
Nº opositores
Puntuaciones del Tribunal B
Nº opositores
10-20 10 0-6 620-30 9 6-12 1530-40 18 12-18 840-50 8 18-24 21
Tribunal A
Li-1 Li ni xi nixi nixi2
10 20 10 15 150 225020 30 9 25 225 562530 40 18 35 630 22050 Unidades40 50 8 45 360 16200 Media(A) 30,33 puntos
Total 45 1365 46125 S(A) 10,24 puntos
Tribunal B
Li-1 Li ni xi nixi nixi2
0 6 6 3 18 546 12 15 9 135 1215
12 18 8 15 120 1800 Unidades18 24 21 21 441 9261 Media(B) 14,28 puntos
Total 50 714 12330 S(B) 6,53 puntos
TIPIFICACIÓN. EJEMPLOS
UnidadesMedia(A) 30,33 puntos
S(A) 10,24 puntos
x i(A) 31,00 puntos
XSxXZ
UnidadesMedia(B) 14,28 puntos
S(B) 6,53 puntos
x i(B) 16,00 puntos
Unidades: puntos tipificados
TIPIFICACIÓN. EJEMPLOS
065,024,10
33,3031A
AAA S
xXZ 263,053,6
28,1416B
BBB S
xXZ
MEDIDAS DE FORMAJunto con la posición y dispersión de un conjunto de datos, es
posible medir la apariencia del histograma de frecuencias. Lasmedidas de forma tratan de detectar si la distribución de los datospuede no ser conforme a los supuestos que usualmente serequieren en un análisis estadístico porque podrían invalidar losresultados obtenidos al utilizar las herramientas técnicas.
Se basan en comparar las colas de la distribución entre sí o porcomparación con los valores centrales de las mismas.Se clasifican en:
MEDIDAS DE ASIMETRÍA:que cuantifican si existe algún desequilibrio en una de lascolas de la distribución
MEDIDAS DE CURTOSIS:que cuantifican el perfil más o menos apuntado de ladistribución
ASIMETRÍA. GRÁFICOSASIMETRÍA: Es la apariencia de la distribución comparando los
valores y sus frecuencias de la cola derecha frente a la cola izquierda.
DistribuciónSIMÉTRICA
Distrib. AsimétricaNegativa
Distrib. AsimétricaPositiva
ASIMETRÍA. CLASIFICACIÓNTTipos de distribuciones
Una distribución es simétrica si existe el mismo número devalores equidistantes y con la misma frecuencia a amboslados del eje de simetría trazado por X = Me = Mo.
Una distribución es asimétrica a la derecha cuando lasfrecuencias descienden más lentamente por la derechaque por la izquierda, resultando una rama derecha máslarga que la de la izquierda respecto de la moda X > Mo.
Una distribución es asimétrica a la izquierda cuando lasfrecuencias descienden más lentamente por la izquierdaque por la derecha, resultando una rama izquierda máslarga que la de la derecha respecto de la moda X < Mo.
Tipos de distribuciones
X = Me = Mo
Simetría
Me X
Asimetría a Derecha Asimetría a Izquierda
XMo Me Mo
Mo Me X X Me MoX = Me = Mo
ASIMETRÍA. GRÁFICOS Y MEDIDAS
Tipos de distribuciones
X = Me
Simetría
Me X
Asimetría a Derecha Asimetría a Izquierda
X Me
C1 C2 C1 C2 C1 C2C3 C3 C3
ASIMETRÍA. GRÁFICOS Y MEDIDAS ASIMETRÍA. EJEMPLOS
Esperanza de vida (en años)
80,078,0
76,074,0
72,070,0
68,066,0
64,062,0
60,058,0
Histograma
Frec
uenc
ia
12
10
8
6
4
2
0
Desv. típ. = 5,20 Media = 73,0
N = 49,00
Distribución de la esperanza de vida en países
Exportaciones (Miles de millones de $)
450,0
425,0
400,0
375,0
350,0
325,0
300,0
275,0
250,0
225,0
200,0
175,0
150,0
125,0
100,0
75,0
50,0
25,0
0,0
Histograma
Frec
uenc
ia
20
10
0
Desv. típ. = 103,39 Media = 66,7
N = 49,00
ASIMETRÍA. EJEMPLOS
Distribución de las exportaciones en paísesCoeficiente de Asimetría de Fisher:
En simetría perfecta, las modalidades y sus frecuenciasestán exactamente equilibradas en signo positivos ynegativos. Por ello, Fisher introduce una potencia impar, latercera de la desviación –estandarizada- de lasmodalidades, respecto de la media aritmética.
> 0 Asimétrica Positiva
< 0 Asimétrica Negativa= 0 Simétrica
3
1
1. .k
ii
i X
x xC A F nN S
ASIMETRÍA. MEDIDAS
Recuperando la expresión de los valores tipificados, lo calcularemos como:
3
1
1. .k
i ii
C A F z nN
MEDIDAS DE CURTOSIS
CURTOSIS: Es la apariencia de lazona central comparándola conlas colas de la distribución.
- Se toma como referencia ladistribución normal, cuyacurtósis es 0.
Sólo debería medirse endistribuciones campaniformes,unimodales y simétricas o conligera asimetría.
Curtosis>0
Curtosis=0
Curtosis <0
MEDIDAS DE CURTOSISCOEFICIENTE DE CURTOSIS DE FISHER: Se define como la
potencia cuarta de la desviación estandarizada de los valoresrespecto de la media aritmética menos el valor dereferencia de la normal (3).
Si C.K. = 0 la distribución se dice mesocúrtica(apuntamiento igual que la normal)Si C.K. > 0 la distribución se dice leptocúrtica
(apuntamiento superior a la normal)Si C.K. < 0 la distribución se dice platicúrtica
(apuntamiento inferior que la normal)
4
1
1. . 3k
ii
i X
x xC K nN S
MEDIDAS DE FORMA.SIGNIFICATIVIDADSe considera que un coeficiente de asimetría de Fisher es significativo estadísticamente, si en valor absoluto, es superior a , es decir:
Se considera que un coeficiente de curtosis de Fisher es significativo estadísticamente, si:
Todos los coeficientes tanto de asimetría como deapuntamiento, al ser medidas relativas, son invariantesfrente a cambios de origen y escala. La asimetría y lacurtosis no dependen de las unidades, ni del origen.
NCAF 62
NCK 242
N62
En una cierta empresa los salarios mensuales y el número detrabajadores se distribuyen como indica la tabla:
Salario mensual
Número de trabajadores
500-1000 501000-1500 1501500-2000 2002000-2500 902500-3000 10
a) Analiza la simetría de la distribución de los salarios utilizando elcoeficiente de asimetría de Fisher. C.A.F = 0,00
b) ¿Es cierto que el apuntamiento de la distribución de los salarioses similar al de la normal? C.K=-0,45
MEDIDAS DE FORMA. EJEMPLOS
MEDIDAS DE FORMA. EJEMPLOS
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
750 1250 1750 2250 2750
Polígono de frecuencias de la distribución del salario mensual de los trabajadores
COEFICIENTE DE VARIACIÓN. EJEMPLOSEEjercicio
De un sector económico se tiene la siguiente informaciónsobre los datos de las empresas que lo componen:
Volumen deventas (104 €)
Número de empresas
50-100 30100-200 25200-500 40
500-1000 501000-2000 252000-5000 30
a) Determina el coeficiente de asimetría de Fisher CAF = 1,44
b) Calcula el coeficiente de curtosis CK=0,67
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0 1000 2000 3000 4000 5000 6000
Den
sida
d de
frec
uenc
ia
Volumen de ventas (en 10^4 euros)
DISTRIBUCIÓN DEL VOLUMEN DE VENTAS
= 1000 x104
Me xMo
Me = 550 x104
Mo = 75 x104
MEDIDAS DE FORMA. EJEMPLOSMEDIDAS DE FORMA. EJEMPLOS
CAF = 1.44CK = 0.67 3464.062
N6928.0242
N
DIAGRAMA DE CAJAS
C1 C2 C3 C3+1,5RI C3+3RIC1-3RI C1-1,5RI
Atípicos ExtremosAtípicosExtremos
RI
DIAGRAMA DE CAJAS
C2
C1
C3
* Extremo por encima de C3+3*RI
*Extremo
por debajo de C1-3*RI
Outlier débilentre C3+ 1.5RI y C3+3*RI
Outlier débilentre C1- 3RI y C1 - 1.5*RI
Recorrido Recorrido intercuartílicointercuart
RI = CCC3
artCCC3 3 -
icotílirt-- CCCCC1
Bigotes
Bigotesminx
maxx
100N =
Nivel de Uso70
60
50
40
30
2049N =
Exportaciones500
400
300
200
100
0
-100
49
1143
15
48
7
41
49N =
Esperanza de vida90
80
70
60
50
SimetríaAsimetría a Derecha
Asimetría a Izquierda
C1 C2 C1 C2 C1 C2C3 C3 C3
DIAGRAMA DE CAJAS Y ASIMETRÍA
MesocúrticaLeptocúrtica Platicúrtica
C1 C2 C1 C2C3 C3
7665791097734655581100412286666021243461124646068269144684663667
759677692
4751031108458458267112226851237699702762462695753686
C1 C2 C3
DIAGRAMA DE CAJAS Y CURTOSIS DIAGRAMA DE CAJAS: EJEMPLOS
Esperanza de vida (en años)
80,078,0
76,074,0
72,070,0
68,066,0
64,062,0
60,058,0
Histograma
Frec
uenc
ia
12
10
8
6
4
2
0
Desv. típ. = 5,20 Media = 73,0
N = 49,00
49N =
Esperanza de vida (e
90
80
70
60
50
Coeficiente de Asimetría=-0,883Coeficiente de Curtosis= -0,062
Esperanza de vida (en años) de 49 países
DIAGRAMA DE CAJAS: EJEMPLOS
Exportaciones (Miles de millones de $)
450,0
425,0
400,0
375,0
350,0
325,0
300,0
275,0
250,0
225,0
200,0
175,0
150,0
125,0
100,0
75,0
50,0
25,0
0,0
Histograma
Frec
uenc
ia
20
10
0
Desv. típ. = 103,39 Media = 66,7
N = 49,00
49N =
Exportaciones (Miles
500
400
300
200
100
0
-100
HONG KONG
ITALYUK
FRANCE
JAPAN
GERMANY
USA
Coeficiente de Asimetría: 2,434Coeficiente de Curtosis: 3,588
Exportaciones (en miles de millones de $) de 49 países
DIAGRAMA DE CAJAS: EJEMPLOS
Coeficiente de Asimetría: -0,053Coeficiente de Curtosis: -1,153
Veteranía en el puesto
97.595.0
92.590.0
87.585.0
82.580.0
77.575.0
72.570.0
67.565.0
62.5
60
50
40
30
20
10
0
Desv. típ. = 10.06 Media = 81.1
N = 474.00
474N =
Veteranía en el puesto110
100
90
80
70
60
Antigüedad en el empleo de 474 trabajadores
DIAGRAMA DE CAJAS: EJEMPLOS
Coeficiente de Asimetría: -0,391Coeficiente de Curtosis: 2,915
LNIBEX35
6.50
5.50
4.50
3.50
2.50
1.50
.50-.50
-1.50
-2.50
-3.50
-4.50
-5.50
-6.50
-7.50
Rentabilidad diaria del IBEX-35
Frec
uenc
ia
300
200
100
0
Desv. típ. = 1.45 Media = .07
N = 1251.00
1251N =
Rentabilidad diaria del Ibex-358
6
4
2
0
-2
-4
-6
-8
-10
7665791097734655581100412286666021243461124646068269144684663667
759677692
4751031108458458267112226851237699702762462695753686
Rentabilidad díaria del IBEX 35 durante 1251 sesiones
DIAGRAMA DE CAJAS: EJEMPLOS
Coeficiente de Asimetria: 0,259Coeficiente de Curtosis: -1,421
Renta personal (en $)
22000,020000,0
18000,016000,0
14000,012000,0
10000,08000,0
6000,04000,0
2000,00,0
Histograma
Fre
cuen
cia
12
10
8
6
4
2
0
Desv. típ. = 6759,23 Media = 9348,2
N = 49,00
49N =
Renta personal ($)
30000
20000
10000
0
-10000
Renta per cápita en $ en 49 países
Transformaciones
Sea Y = a X + b. Se cumple:
bXaY bXaMeYMe )()(
bXaMoYMo )()( bXaQYQ pp )()(
)()( XaRYR )()( XaRIYRI
)()( 222 XSaYS )()( XaSYS
)()( XCAFYCAF )()( XCKYCK
Introducción
En Economía es frecuente el estudio de magnitudescuyo valor global se distribuye entre el total decomponentes de una población.
Este sería el caso de la masa salarial percibida por elconjunto de asalariados de cierto sector, o de losdividendos que percibirán una serie de accionistas, osimplemente de los presupuestos generales del Estado, quese distribuirán entre distintos epígrafes presupuestarios.
En casos como éstos, es interesante conocer cómo sereparte entre los perceptores la variable económicaconsiderada.
MEDIDAS DE DESIGUALDAD
MEDIDAS DE DESIGUALDADLas Medidas de Desigualdad o Concentración indicansi una cierta magnitud total se encuentra repartidaequitativamente o por el contrario existen desequilibriosen su reparto.
Se aplican a variables socio-económicas que sonsusceptibles de ser repartidas.
Su objetivo es cuantificar el grado de desigualdad enel reparto de una magnitud económica (rentas,negocios, beneficios, nivel de riqueza, etc) entre unnúmero determinado de “unidades” (individuos,familias, empresas,...).
Vamos a estudiar la desigualdad de dos formas, unanumérica: Índice de Gini y otra gráfica: Curva de Lorenz
Oxfam International (19 de enero de 2015):
“EEl 1% de la población con mayor riqueza personal acumula un
porcentaje de la riqueza superior al resto
de la población en 2016”
MEDIDAS DE DESIGUALDAD
MEDIDAS DE DESIGUALDADDenominamos desigualdad (concentración) a la mayor o menorequidad en el reparto de la suma total de los valores de la variableconsiderada. Las infinitas posibilidades que pueden adoptar losvalores, se encuentran entre los dos extremos:
Mínima desigualdad (concentración) o máxima igualdad:Cuando a todos los integrantes del conjunto perceptor se lesasigna la misma cantidad en el reparto del monto total.
x1= x2 =…= xk-1= xk
Máxima desigualdad (concentración) o mínima igualdad:cuando un único perceptor recibe la suma total a repartir y losdemás no perciben nada.
x1= x2 =…= xk-1= 0; xk 0Estas dos situaciones deberán estar claramente identificadas porlas medidas de desigualdad y que asimismo deberán graduar lassituaciones intermedias, entre las que se encuentra toda lacasuística en los repartos.
MEDIDAS DE DESIGUALDADPara una variable estadística X = {(xi , ni); i = 1,2, …, k}, dondexi es la renta de cada individuo, con modalidades ordenadas:
x1 < x2 < ... < xk
Se comienza calculando las cantidades acumuladas de losingresos ui = x1n1+…+xini (total que se reparten losindividuos que perciben una renta xi o menor)
Ambas medidas de desigualdad comparan:
Las frecuencias relativas acumuladas (expresadas en %)(porcentaje de población con renta menor o igual que xi)
pi = 100*Ni/N; i = 1,…,kLas proporciones acumuladas de los ingresos (porcentajedel total a repartir (uk) que se llevan los individuos cuyarenta es menor o igual que xi)
qi = 100* ui/uk; i = 1,…,k
MEDIDAS DE DESIGUALDAD
Es conveniente construir la tabla siguiente:
xi ni xini Ni uix1 n1 x1n1 N1 u1 =x1n1
x2 n2 x2n2 N2 u2 =x1n1+ x2n2
x3 n3 x3n3 N3 u3 =x1n1+ x2n2+ x3n3
….. ….. ….. ….. …..xk nk xknk Nk uk =x1n1+ x2n2+ …+ xknk
La columna xini contiene el total de la renta percibida ensu conjunto por los ni individuos con renta xi.Las columnas Ni y ui presentan el montante acumuladodel reparto (ui) y de individuos que se la reparten (Ni).pi y qi representan dicha evolución, pero expresada entérminos relativos (%).
qiq1 =( u1 / uk)*100q2 =( u2 / uk)*100q3 =( u3 / uk)*100
…..qk =( uk / uk)*100 = 100
pip1 =( N1 / Nk)*100p2 =( N2 / Nk)*100p3 =( N3 / Nk)*100
…..pk =( Nk / Nk)*100 = 100
MEDIDAS DE DESIGUALDAD
EjemploUn padre de familia con 4 hijos decide testar y repartir su patrimonio de la siguiente forma.
Total = 100.000 €Hijo 1: 10.000 €
Hijo 2: 50.000 €
Hijo 3: 30.000 €
Hijo 4: 10.000 €
Construir la tabla y calcular los valores de pi y qi.
CURVA DE LORENZCurva de Lorenz (Lorenz, 1905) Es una representación
gráfica de la desigualdad de la variable: es la curva opoligonal que une los pares de puntos pi y qi obtenidospara las correspondientes modalidades de la variable dereparto.
CURVA DE LORENZ. PROPIEDADESSiempre se encuentra situada por debajo de la diagonal
principal.Es creciente (pi y qi son valores acumulados).Se interpreta en relación a la proximidad o alejamiento de
las dos situaciones extremas. Cuanto más cercana esté lacurva a la línea de equidistribución pi =qi menor será ladesigualdad y cuanto más próxima a la curva deconcentración máxima, mayor seráDominación: una curva de Lorenz domina a otra cuandopara cualquier proporción de población p se encuentrapor encima. La distribución dominante es más igualitaria.Intersección: cuando las curvas de Lorenz se intersectan,no es posible concluir en la comparación.
ÍNDICE DE GINI. DEFINICIÓNEl Índice de Gini fue propuesto por Conrado Gini (1912) y hasido y es la medida numérica más utilizada para cuantificarel grado de desigualdad en el reparto de la riqueza, si bienpuede utilizarse para medir cualquier forma de repartodesigual de magnitudes de reparto.
Representa de forma aproximada el área comprendidaentre la curva de Lorenz y la diagonal respecto del áreabajo la diagonal. Viene dado por la fórmula:
1 1
1 11 1
1 1
1
k k
i i ii i
G k k
i ii i
p q qI
p p
ÍNDICE DE GINIPropiedadesLos valores del IG en los dos casos extremos son:
IG = 0 Indicaría que no hay desigualdad. La magnitud está repartida por igual entre los N individuos - línea de equidistribución-.
IG = 1 Indica que la desigualdad en el reparto es máxima es decir, una modalidad acumula o concentra el montante total de toda la magnitud a repartir.
Para los casos intermedios:
Valores próximos a 1 índican fuerte nivel de desigualdad, mientrasque los valores próximos a 0 reflejan escasa concentración y proximidad a la situación de igualdad.
Es una medida adimensional (no tiene unidad de medida).Es invariante ante cambios de escala, pero no ante cambios de origen.
10 GI
MEDIDAS DE DESIGUALDAD
Ejercicio:
Se reparten 100.000 € de la siguiente forma:
1.000 € a 5 personas, 5.000€ a 1 persona y 90.000 a 1 persona
1.000 € a 5 personas, 5.000€ a 1, 10.000 € a 4 y 50.000 a 1 persona
1.000 € a 5 personas, 5.000€ a 3, 10.000 € a 4 y 20.000 a 2 persona
2.000 € a 5 personas, 5.000€ a 4, 10.000 € a 5 y 20.000 a 1 persona
¿Cuál de los repartos es más equitativo? Calcula el índice de Gini y
representa la curva de Lorenz
MEDIDAS DE DESIGUALDAD
IG 0,92
xi ni nixi Ni ui pi qi0 8 0 8 0 53,33% 0,00%
1000 5 5000 13 5000 86,67% 5,00%5000 1 5000 14 10000 93,33% 10,00%
90000 1 90000 15 100000 100,00% 100,00%180,00% 15,00%
0,00%
20,00%
40,00%
60,00%
80,00%
100,00%
0,00% 20,00% 40,00% 60,00% 80,00% 100,00%
MEDIDAS DE DESIGUALDAD
IG 0,70
0,00%
20,00%
40,00%
60,00%
80,00%
100,00%
0,00% 20,00% 40,00% 60,00% 80,00% 100,00%
xi ni nixi Ni ui pi qi0 4 0 4 0 26,67% 0,00%
1000 5 5000 9 5000 60,00% 5,00%5000 1 5000 10 10000 66,67% 10,00%
10000 4 40000 14 50000 93,33% 50,00%50000 1 50000 15 100000 100,00% 100,00%
220,00% 65,00%
MEDIDAS DE DESIGUALDAD
IG 0,54
0,00%
20,00%
40,00%
60,00%
80,00%
100,00%
0,00% 20,00% 40,00% 60,00% 80,00% 100,00%
xi ni nixi Ni ui pi qi0 1 0 1 0 6,67% 0,00%
1000 5 5000 6 5000 40,00% 5,00%5000 3 15000 9 20000 60,00% 20,00%
10000 4 40000 13 60000 86,67% 60,00%20000 2 40000 15 100000 100,00% 100,00%
186,67% 85,00%
MEDIDAS DE DESIGUALDAD
xi ni nixi Ni ui pi qi2000 5 10000 5 10000 33,33% 10,00%5000 4 20000 9 30000 60,00% 30,00%
10000 5 50000 14 80000 93,33% 80,00%20000 1 20000 15 100000 100,00% 100,00%
186,67% 120,00%
IG 0,36
0,00%
20,00%
40,00%
60,00%
80,00%
100,00%
0,00% 20,00% 40,00% 60,00% 80,00% 100,00%
MEDIDAS DE DESIGUALDAD
EjemploSe reparten 100.000 € de la siguiente forma:
1.000 € a 5 personas, 5.000€ a 1persona y 90.000 a 1 persona1.000 € a 5 personas, 5.000€ a 1, 10.000 € a 4 y 50.000 a 1 persona1.000 € a 5 personas, 5.000€ a 3, 10.000 € a 4 y 20.000 a 2 persona2.000 € a 5 personas, 5.000€ a 4, 10.000 € a 5 y 20.000 a 1 persona
¿Cuál de los repartos es más equitativo? IG = 0,92IG = 0,70IG = 0,54IG = 0,36
MEDIDAS DE DESIGUALDAD
0,00%
20,00%
40,00%
60,00%
80,00%
100,00%
0,00% 20,00% 40,00% 60,00% 80,00% 100,00%0,00%
20,00%
40,00%
60,00%
80,00%
100,00%
0,00% 20,00% 40,00% 60,00% 80,00% 100,00%
0,00%
20,00%
40,00%
60,00%
80,00%
100,00%
0,00% 20,00% 40,00% 60,00% 80,00% 100,00%0,00%
20,00%
40,00%
60,00%
80,00%
100,00%
0,00% 20,00% 40,00% 60,00% 80,00% 100,00%
MEDIDAS DE DESIGUALDAD
0,00%
20,00%
40,00%
60,00%
80,00%
100,00%
0,00% 20,00% 40,00% 60,00% 80,00% 100,00%
Ejemplos – Índice de Gini
Índices de Gini para la concentración de la riqueza en el mundo
Ejemplos – Índice de Gini
Índices de Gini para la concentración de la riqueza en el mundo
Ejemplos – Curva de LorenzDiferencias en la distribución de la renta entre algunos países
desarrollados utilizando curvas de Lorenz
Ejemplos – Curva de Lorenz
Curvas de Lorenz de la distribución de los ingresos en España
RESÚMEN: ANÁLISIS INICIAL DE DATOS
Tipos de variables Tabulación Representación gráfica
Descripción numérica
Binarias Frec. no agrupadas Diagramas de sectores o barras
Media (proporción) o Moda
Nominales con más de 2 valores Frec. no agrupadas Diagramas de sectores o
barras Moda
Ordinales Frec. no agrupadas Diagramas de barras Moda, Mediana, Cuantiles
Cuantitativas discretas con pocos valores Frec. no agrupadas Diagramas de barras
Media (con reparos)Mediana y Moda
CuantilesDispersión
Forma
Cuantitativas discretas con muchos valores y continuas Frec. agrupadas Histogramas o
Polígonos de frecuencias
Media, Mediana, Moda
Cuantiles, Dispersión, Forma
Variables nominales
Xi ni fi
Cerveza 9 9/24 = 27.5%
Vino 5 5/24 = 20.8%
Agua 4 4/24 = 16.7%
Refresco 6 6/24 = 25%
24 100%
Información Original
CONTAR.SI
Cerveza Vino Agua Refresco
0
2
4
6
8
10
Cerveza Vino Agua Refresco
MODA.UNO Moda: Max ni
Variables ordinales
Información Original
CONTAR.SI
MODA.UNOCUARTIL.EXC PERCENTIL.EXC
Moda: Max niQp: Buscar p% en Fi
Xi ni fi Ni Fi
Soldado 32 80% 32 80%
Sargento 5 12.5% 37 92.5%
Teniente 2 5% 39 97.5%
Capitán 1 2.5% 40 100%
40 100%
80%
12,50%5% 2,50%
0%
20%
40%
60%
80%
100%
Soldado Sargento Teniente Capitán
Variables discretas
Información Original
CONTAR.SI
PROMEDIOMODA.UNOCUARTIL.EXC PERCENTIL.EXC
Media: nixi/N Moda: Max niQp: Buscar p%
Xi ni fi Ni Fi
1 1 6,25% 1 6,25%
2 3 18,75% 4 25%
3 4 25% 8 50%
4 4 25% 12 75%
5 3 18,75% 15 93,75%
6 1 6,25% 16 100%
16 100%
0,00%
5,00%
10,00%
15,00%
20,00%
25,00%
30,00%
1 2 3 4 5 6
RECORRIDOS (*)VAR.PDESVEST.P CV (*)
COEFICIENTE.ASIMETRIA CURTOSIS
RecorridosS2= nix2i/N-= ; = /
= =
Variables continuas
Información Original
FRECUENCIA
PROMEDIOMODA.UNOCUARTIL.EXC PERCENTIL.EXC
Media: nixi/N Moda: Max diQp: Buscar p%
RECORRIDOS (*)VAR.PDESVEST.P CV (*)
COEFICIENTE.ASIMETRIA CURTOSIS
RecorridosS2= nix2i/N-= ; = /
= =
Li-1 Li xi ni (alumnos)150 155 152,5 0155 160 157,5 1160 165 162,5 3165 170 167,5 10170 175 172,5 18175 180 177,5 23180 185 182,5 16185 190 187,5 10190 195 192,5 2
0,00%5,00%
10,00%15,00%20,00%25,00%30,00%
152,5 157,5 162,5 167,5 172,5 177,5 182,5 187,5 192,5
% d
e al
umno
s
Estatura (en cm)
Distribución estudiantes (alumnos) por estatura
top related