parametros y estadisticos - fcnym.unlp.edu.ar · otras medidas de dispersión: definición: el...
TRANSCRIPT
Estadística descriptiva
PARAMETROS Y ESTADISTICOS
Marta Alperin
Profesora Adjunta de Estadística
http://www.fcnym.unlp.edu.ar/catedras/estadistica
• Medidas de tendencia central: Moda, Mediana, Media
aritmética, propiedades, ventajas e inconvenientes, Media
geométrica.
• Medidas de dispersión: Rango, Rango intercuartilico,
Varianza, Desvío estándar.
• Medidas de forma: asimetría y apuntamiento o curtosis.
• Ejemplo de cálculo con datos agrupados.
Estadística descriptiva:
Descripción de los datos con estadísticos y parámetros Para inferir como es la población necesitamos medidas rigurosamente definidas. Para describir las distribuciones se definen medidas o valores que dan cuenta de la:
a. Tendencia central
a. Dispersión o variabilidad de los datos
c. Forma
Nuestro interés es describir la muestra y la población. Cualquier medida referida a la:
• el tamaño de muestra lo representaremos con n, los de la población con N.
• MUESTRA recibe el nombre de “Estadístico o Estadística” y se designa con letras mayúsculas (X, Y, W, con algún adorno).
• POBLACIÓN recibe el nombre de “Parámetros” y se designan con letras griegas (σ, ρ, ц, Ф, γ, etc.).
a.Tendencia central
1. Moda
2. Mediana
3. Promedio o Media Aritmética
4. Media Geométrica
1. Moda: la Moda de una serie de datos es el valor que aparece con más frecuencia que cualquier otro. Ejemplo: para el siguiente conjunto de datos del largo del ala de mariposas emperador (mm)
X̂
Observación: la moda es inestable ya que puede cambiar con el método de redondeo de los datos. En distribuciones que aumentan o disminuyen continuamente y a ritmo constante, la moda podrá ser un valor extremo más que un valor de tendencia central. Puede haber distribuciones con 2 modas (bimodales) o mas de 2 (multimodales).
A B C D E F G
6,2 9,3 4,8 7,2 5,5 5,5 5,5
moda
Datos agrupados
La moda se encuentra en la clase de mayor frecuencia,
la clase modal.
CLX
21
1.mod.inf.ˆ
L.inf.mod = límite inferior de la clase modal,
Δ1 = valor absoluto de la diferencia entre la frecuencia de la clase
premodal y modal
Δ2 = valor absoluto de la diferencia entre la frecuencia de la clase
posmodal y modal
C = amplitud del intervalo de la clase modal
Histograma
0 5 10 15 20 25 30
Contenido de Limo (g)
0
5
10
15
20
25
30
No
. de
da
tos
Valor de la MODA
Mediana: La Mediana de una serie, cuando los valores se disponen según sus magnitudes, es el valor medio. Es una medida de posición que divide a una serie dejando a su izquierda el 50% de los valores menores a él y a su derecha el 50% de los valores mayores a él.
-Datos sin agrupar. n impar, el valor coincide con el valor central.
n par, se encuentra entre los dos valores centrales.
X~
A B C D E
6,2 9,3 4,8 7,2 5,5
Observación: una característica importante de la mediana es que no se deja influenciar con la magnitud de los valores de las colas de una distribución.
{4,8; 5,5; 6,2; 7,2; 9,3}
mediana
-Datos agrupados La clase mediana es la clase cuya frecuencia acumulada
supera primero el valor de la mitad mas uno de los datos
[(n+1)/2]
C
fme
fapnmedLX
2/1..inf.
~
Lme = límite inferior de la clase mediana
fap = frecuencia acumulada en la clase que precede
inmediatamente a la clase que tiene a la mediana
fme = frecuencia de la clase que tiene a la mediana
C = amplitud del intervalo
Polígono de frecuencia acumulada (Ojiva)
4 8 12 15 19 23 27
Contenido de limo (g)
F(x
)
100
20
80
40
60
OJIVA
Valor de la Mediana
50
Ejemplo: para el siguiente de datos del diámetro de concreciones del Valle de la Luna (mm):
Promedio o Media Aritmética: la media aritmética, , para un conjunto de
“n” observaciones {x1, x2, ..., xn}, es igual a las suma de los “n” valores dividido el
número total de valores (n). La media poblacional se designa con μ.
X
A B C D E
6,2 9,3 4,8 7,2 5,5
Ejemplo: para el siguiente conjunto de datos de diámetro cefálico de cobayos (mm)
n
xxxX n
...21
n
i
i
n
xX
1
n
i
ixn
X1
1
6,65
5,52,78,43,92,6
X
n
i
ii
n
afX
1
n
i
ii
n
cfX
1
Para datos agrupados
• Discretos •Continuos
fi: frecuencia a: valor de la variable
fi: frecuencia del intervalo de clase c: marca de clase del intervalo
mm
Propiedades: 1º Es un valor típico, es el centro de gravedad, es un punto de equilibrio. Su valor puede sustituir al valor de cada dato de la serie sin cambiar el total dado que:
2º La suma algebraica de las desviaciones con relación a la media es “0”
3º La suma del cuadrado de las desviaciones de los datos respecto a la media es menor que las desviaciones al cuadrado de cualquier otro punto.
Observación: una característica importante de la media es su inestabilidad. Por ejemplo con el agregado de datos extremos su valor cambia sustancialmente.
n
i
ixn
X1
1
n
i
ixXn1
n
i
i Xx1
0
n
i
i mínimoXx1
2
Media Geométrica: la media geométrica, G, para un conjunto de n observaciones
{x1, x2, ..., xn}, es igual a la raíz n-ésima del producto de las n observaciones.
Ejemplo: para el siguiente conjunto de datos de leyes de Cu (ppm)
A B C D E
6,2 9,3 4,8 7,2 5,5
nnxxxG 21
4,60,109605,52,78,43,92,6 55 G
Observaciones - G de un conjunto de números positivos es siempre menor a la media aritmética. - G es un mejor estimador de tendencia central cuando la distribución de frecuencias es de
asimetría a la derecha (ej. distribución lognormal).
- Se utiliza para calcular medidas de tendencia central de datos que se expresan como porcentajes, los llamados datos composicionales.
ppm
Para datos agrupados n fn
n
ff xxxG ...2
2
1
1
Relaciones entre Mediana, Moda, Media
•Distribución con asimetría positiva o cola a la derecha: Moda>Mediana>Media
•Distribución con asimetría negativa o de cola izquierda Media>Mediana>Moda
•En distribuciones simétricas Media = Mediana =Moda
.
Precipitación
(mm)
Marca de Clase (ci)
Frecuencia observada
(fi)
Frecuencia acumulada
Frecuencia relativa %
Frecuencia
relativa acumulada %
0-50 25 21 21 22,58 22,58
50-100 75 34 55 36,56 59,14
100-150 125 26 81 27,96 87,10
150-200 175 8 89 8,60 95,70
200-250 225 4 93 4,30 100,0
PR EC IPITAC ION ES D E N OVIEMBR E
0 50 100 150 200 250
Precipitaciones (mm)
0
5
10
15
20
25
30
35
40
45
No
. de
ob
serv
aci
on
es
50 100 150 200
Precipitación (mm)
0
10
20
30
40
50
60
70
80
90
100
Fre
cuencia
rela
tiva a
cum
uld
a %
Ejemplo: el partido de Bolivar se ubica en el centro de la provincia de Buenos Aires,
en la Pampa húmeda. Pose relieve ligeramente ondulado con muy buenas condiciones físicas. Los suelos son aptos para una amplia gama de usos como los cultivos de cereales y oleaginosas, así como de pasturas implantadas. La precipitación es una variable muy importante para establecer no solo el balance hidrológico de una región, sino también para planificar el uso del suelo. Se presenta la distribución de la precipitación caída en Bolivar desde 1911-2002 durante el mes de noviembre agrupada en 5 clases
n
i
ii
n
fcX
1
mmX 74,9793
8625
CLX
21
1mod.inf.ˆ
Clase que contiene la moda: [50-100]
L.inf.mod: 50 Δ1 = 21 - 34 = 13
C = 50 Δ2 = 26 - 34 = 8
C
fme
fapnmedLX
2/1..inf.
~
(n+1)/2= (93+1)/2 = 47
Clase que contiene a la mediana: [50-100]
L.inf.med. = 50 fme = 34
fap = 21 C = 50
Distribución con asimetría
positiva o cola a la derecha: Moda> Mediana>Media
80,95>88,24>97,74
mmX 24,885034
214750
~
Estadísticos de tendencia central
Promedio 8625)4225()8175()26125()475()2125(1
n
i
ii fc
Moda
Mediana
Precipitación
(mm)
Marca de Clase (ci)
Frecuencia observada
(fi)
Frecuencia
acumulada
(fi ac.) ci fi
0-50 25 21 21 525
50-100 75 34 55 2550
100-150 125 26 81 3250
150-200 175 8 89 1400
200-250 225 4 93 900
Suma 93 8625
mmX 95,8050813
1350ˆ
b. Dispersión
1. Amplitud, rango o recorrido
2. Rango intercuartilico
3. Varianza o variancia
4. Desvío estándar
5. Coeficiente de variación
Amplitud, rango ó recorrido: El rango para un conjunto de n observaciones {x1, x2, ..., xn}, es la diferencia entre el valor máximo y el mínimo.
Ejemplo: largo (cm) de lombrices californianas
A B C D E
6,2 9,3 4,8 7,2 5,5
En este caso la amplitud es:
A = 9,3 - 4,8 = 4,5 cm
Otras medidas de dispersión:
Definición: El cuantil xα divide a la muestra de datos en dos partes: el α% de
los valores es menor que α y el (1 – α) de los valores es mayor que xα.
Existen otros valores de la variable semejantes a la Mediana que dividen a la población y la muestra en 4 (cuartiles), 10 (deciles) y 100 (percentiles).
Cfm
fapNLX
%)(%.inf.%
L.inf.α% : límite inferior de la clase α% %: el total de observaciones que quedan a la izquierda de α% Fap: frecuencia acumulada en la clase que precede inmediatamente a la clase que tiene al α% fm: frecuencia de la clase que tiene al α% C : amplitud del intervalo
Rango inercuartilico Los cuartiles son 3: X0,25 (primer cuartil); X0,50 (segundo cuartil o mediana) y X0,75 (tercer cuartil).
• El rango intercuartilico RI es una medida de dispersión basada en el recorrido de los
cuartiles.
RI = X0,75 – X0,25
• Otros autores prefieren usar el recorrido basado en los percentiles
RI = X0,90 – X0,10
Varianza
Podríamos pensar en expresar la variación de los datos con respecto a la media como el promedio de las diferencias entre cada dato a la media.
n
XxXxXx n ...21 pero
Recordar la 2º propiedad de la media: el promedio de las desviaciones respecto a la Media siempre es cero.
Especimen xi xi - X
A 9 4
B 2 -3
C 7 2
D 5 0
E 4 -1
F 6 1
G 5 0
H 2 -3
Suma 40 0
Promedio: 40/8=5
)(),...,(),( 21 XxXxXx n
0...21
Xn
xxx n
Varianza es el promedio del cuadrado de las desviaciones de los datos con respecto a la media:
Especimen xi xi - X (xi - X)2
A 9 4 16
B 2 -3 9
C 7 2 4
D 5 0 0
E 4 -1 1
F 6 1 1
G 5 0 0
H 2 -3 9
Suma 40 0 40
Promedio: 40/8=5
Varianza: 40/8=5
La varianza se expresa en el cuadrado de las unidades de la variable.
N
xxx n
22
2
2
12 ...
N
i
ixN 1
22 1
n
i
i Xxn
S1
22
1
1Población
Ejemplo: para la población del número de individuos de parásitos encontrados en el intestino del Pingüino
de Magallanes de Punta Tombo:
Observación: Los valores altos tienen gran influencia en la varianza
Muestra
Cuando la S2 se usa para calcular σ2, la 3º propiedad de la media tiende a subestimar S2 . El sesgo se reduce cuando se usa (n -1) lo que produce un estimador mayor de σ 2.
Desvío estándar La desvío estándar de n observaciones (x1 , x2 , ... , xn), es la raíz cuadrada
positiva de la varianza:
N
i
ixN 1
2)(1
n
i
i Xxn
S1
2)(1
1
para la Población para la Muestra
N
i
ii
n
fXcS
1
2
1
N
i
ii
N
fc
1
2
ci: marca de intervalo de clase
fi: frecuencia de intervalo de clase
Datos agrupados
Ejemplo: para la población del número de individuos de parásitos encontrados en el intestino del Pingüino de Magallanes de Punta Tombo:
23,25
52
parasitos
Coeficiente de variación • Es una medida que da cuenta de la variabilidad relativa de las observaciones.
Para el ejemplo del número de parásitos de los pingüinos magallanes Promedio: 4 parásitos y Desvío estándar: 2,23 parásitos Coeficiente de variación: 0,5575 o 55,75%
Observaciones:
• El coeficiente de variación refleja una mezcla desconocida de la variabilidad natural, la
variabilidad introducida durante el proceso de muestreo y de causas aleatorias.
• El coeficiente de variación es útil para comparar la variabilidad entre varias muestras, aun si las mediciones fueran realizadas en diferentes unidades.
• Es una medida que se utiliza como guía para evaluar la conveniencia de efectuar o no la transformaciones de los datos.
Para la población: γ = σ/μ XPara la muestra CV = S /
• Se calcula como el cociente entre el desvío estándar y la media.
• Puede tomar valores positivos o negativos. • Carece de unidades pero suele expresarse en forma porcentual.
Rango o Amplitud
Coeficiente de variación
1058125)4.225()8.175()26.125()34.75()21.25( 22222
1
2
n
i
ii fc
7439062586252
2
1
n
i
ii fc
n
i
n
i
iii nfcfcn
si
1 1
22
1
1
mms 98,5280,2806
CV%=54%
54,074,97
98,52
mm
mmCV
Estadísticos de dispersión
A=250-0 = 250 mm A:Valor máximo – Valor mínimo
CV = S /
Varianza
Desvío estándar
Precipitación
(mm)
Marca de Clase (ci)
Frecuencia observada
(fi) ci fi ci
2 ci 2 fi
0-50 25 21 525 625 13125
50-100 75 34 2550 5625 191250
100-150 125 26 3250 15625 406250
150-200 175 8 1400 30625 245000
200-250 225 4 900 50625 202500
Suma 93 8625 1058125
22 8,2806193
19,7998991058125mms
X
nfcfcn
fXcn
sn
i
ii
n
i
iii
n
i
i
2
11
2
1
2
1
1)(
1
1
c. Forma 1. Coeficiente de Simetría
2. Curtosis
Coeficiente de simetría: Informa si los datos están equilibrados en torno
a la media o si hay mas a la derecha o izquierda. Se define como:
Se puede demostrar que:
CS < 0, la asimetría es negativa (a) CS > 0, la asimetría es positiva (b) CS = 0 asimetría nula (simetría) (c)
3
3
S
XCS
n
i
i Xxn
X1
33 1donde:
Coeficiente de Exceso E o de Kurtosis o Curtosis K mide el grado
de achatamiento de un histograma con respecto al modelo teórico Normal. Se define como:
Se puede demostrar que:
E > 0, histograma más puntiagudo que el Normal (a) E < 0, histograma más achatado que el Normal (b) E = 0 histograma sin achatamiento (c)
a) Histograma puntiagudo o b) Histograma achatado o c) Histograma normal o leptocurtico platicurtico mesocurtico
4
4
S
XE
n
i
i Xxn
X1
44 1donde:
Asimetría y Curtosis Ejemplos para distribuciones con la misma media y el mismo número de datos
Las figuras de la izquierda (a, c y e) tienen bajo grado de asimetría. Las figuras de la derecha (b, d y f) son marcadamente asimétricas, la Moda está desplazada respecto a la media. Las 2 distribuciones de cada fila tienen curtosis semejantes: • a y b son las más “picudas” o leptocurticas, • c y d son mesocurticas ,y • e y f son las más “aplastadas” o platicurticas
Precipitación
(mm)
Marca de Clase
(ci)
Frecuencia observada
(fi) (xi- )3 (xi- )3 fi (xi- )4 (xi- )4 fi
0-50 25 21 -384875.167 -8082378.5 27995819.6 587912212
50-100 75 34 -11759.0268 -399806.912 267400.27 9091609.18
100-150 125 26 20257.1132 526684.943 552208.905 14357431.5
150-200 175 8 461173.253 3689386.03 35630245.5 285041964
200-250 225 4 2060989.39 8243957.57 262281510 1049126041
Suma 93 3977843.13 1945529258
4
4
S
XE
n
i
i Xxn
X1
4
4 )(1
3
3
S
XCS
n
i
i Xxn
X1
3
3 )(1
74,97X
S= 52,98
S3= 148708,53 5,4277293
13,39778433 X 29,0
53,148708
51,42772CS
S4= 7888577,58 4,2091966993
19455292584 X 66,2
58,7888577
4,20919669E
CS>0 la disitribución tiene asimetría positiva (cola derecha)
E >0 la distribución es mas puntiaguda que una distribución normal
Estadísticos de forma
Coeficiente de Exceso o de Curtosis
Coeficiente de Simetría donde,
donde,
Agradezco su atención