OrganizaciónOrganización y y representaciónrepresentación de los de los datosdatos
TEMA 3.2
Organización y representación Organización y representación de los datosde los datos
� Distribución de frecuencias (“tablas de frecuencias”)
� Representación gráfica� Representación gráfica
Organización y representación Organización y representación de los datosde los datos
� Tablas de frecuencias◦ Las series estadísticas deben presentarse
ordenadas y clasificadas (criterios previos).◦ Resumen una variable de manera “sencilla” ◦ Resumen una variable de manera “sencilla” � agrupar mucha información en pocos datos)◦ Ordenación en clases o intervalos
consignando la frecuencia de cada dato◦ Distinguir entre variables
cualitativas/cuantivativas (discretas y continuas)
Organización y representación Organización y representación de los datosde los datos
� Tablas de frecuencias◦ Variables cualitativas y cuantitativas
discretas� Ordenar los datos en dos columnas: � Ordenar los datos en dos columnas:
� Valores de la variable xi
� Frecuencias absolutas ni
xi ni
x1 n1
x2 n2
x3 n3
. .
. .
xK nk
Organización y representación Organización y representación de los datosde los datos� Tablas de frecuencias◦ Variables continuas (datos agrupados)
� El campo de variación de la variable se agrupa en intervalos de clase � no un único valor sino un intervalo de valores (igual o
Li-1-Li ni xi
L -L n x valor sino un intervalo de valores (igual o diferente amplitud de clase (ai)
� Límites de la clase Li-1-Li � valores superior e inferior de una clase
� Cada clase es representada por un único valor � marca de clase x
i
L0-L1 n1 x1
L1-L2 n2 x2
L2-L3 n3 x3
. . .
. . .
LK-1-LK nk xk
Organización y representación Organización y representación de los datosde los datos
� Tabla de frecuencias:◦ Construcción de tabla de frecuencias
(variables continuas) � Número de clases� Número de clases� Rango� Amplitud de cada clase� Marca de cada clase� Límites inferior y superior de cada clase
Organización y representación Organización y representación de los datosde los datos
� Tabla de frecuencias:◦ Número de clases k (sugerencia: 10-15 �
redondear al entero más cercano)
� Criterio de Norcliffe� Criterio de Sturgess� Criterio de Huntsberger� Criterio de Brooks and Carruthers� Otros
N=
Nlog 3,31+=Nlog 5=<
N2log 1 +=
= 1 + 3.322(log N)
Organización y representación Organización y representación de los datosde los datos� Tablas de frecuencias ◦ Rango de los datos
◦ Amplitud de cada clase ����� Número entero igual (opción A) o un poco mayor
(opción B) que el resultado. � La amplitud puede tener decimales � ¿Redondeo? (no necesariamente)
K*a ≥ R
Organización y representación Organización y representación de los datosde los datos
� Tablas de frecuencias ◦ Amplitud de cada clase � dos posibles
opciones� OPCIÓN 1: Si no redondeamos, es decir, si
� Límites inferior y superior
min1 XLi =−
k
ra = rak =*
aLL ii +=−1
Organización y representación Organización y representación de los datosde los datos
� Tablas de frecuencias ◦ Amplitud de cada clase � dos posibles
opciones� OPCIÓN 2: redondeamos por exceso �
"sobrante""sobrante"
� Este "sobrante" se reparte a partes iguales entre el primer y el último intervalo
rakSobrante −= *kra *>
2min1
sobranteXLi −=
−
aLL ii +=−1
Organización y representación Organización y representación de los datosde los datos
� Tablas de frecuencias ◦ Marca de clase
1−+
=ii LL
m2
1−+
=ii LL
m
Organización y representación Organización y representación de los datosde los datos
� Tabla de frecuencias ◦ Datos agrupados � 168,180,171,156,170,179,164,165,185,170,� 175,165,180,162,160,172,178,167,187,155� 175,165,180,162,160,172,178,167,187,155
Organización y representación Organización y representación de los datosde los datos
� Tabla de frecuencias ◦ Datos agrupados
32155187minmax =−=−= XXR minmax
4.47,420 = →=== knkluego
84
32===
k
Ra
Organización y representación Organización y representación de los datosde los datos
� Tabla de frecuencias ◦ Datos agrupados (sin redondeo a = 8)
155min1 ==−
XLi16381551 =+=+=
−aLL ii
Li-1 -Li xi ni Ni fi Fi
[155, 163)
[163, 171)
[171, 179)
[179, 183)
min1−i 1−ii
Organización y representación Organización y representación de los datosde los datos
� Tabla de frecuencias ◦ Datos agrupados (con redondeo a= 10)
83210*4* =−=−= rakSobrante 83210*4* =−=−= rakSobrante
15141552
8155
2min1 =−=−=−=
−
sobranteXLi
161101511 =+=+=−
aLL ii
Organización y representación Organización y representación de los datosde los datos
� Tabla de frecuencias ◦ Datos agrupados (con redondeo a=10)
Li-1 -Li xi ni Ni fi Fi
[151, 161)
[161, 171)
[171, 181)
[181, 191)
Organización y representación Organización y representación de los datosde los datos
� Tabla de frecuencias ◦ Notación intervalos de clase con datos
agrupados � Paréntesis � excluye � Paréntesis � excluye � Corchetes � incluye
� (3,8) no incluye ni 3 ni 8 (pero si 4, 5, 6, 7).
� [3,8] incluye 3 y 8, además de los intermedios.
� (3,8] incluye 8, pero 3 (está abierto por el 3 y cerrado por el 8)
� [3,8) incluye al 3, pero no al 8 (está cerrado por el 3 y abierto por el 8)
Organización y representación Organización y representación de los datosde los datos
� Tabla de frecuencias◦ Frecuencia absoluta:
� Número de veces que aparece un determinadovalor � n
i.
� La suma de las frecuencias absolutas es igual al número total de datos (N). Para indicar resumidamente estas sumas se utiliza la letra griega Σ (suma o sumatorio)
∑=
=
n
i
inN1
nnnnnN ++++= ...321
Organización y representación Organización y representación de los datosde los datos
� Tabla de frecuencias◦ Frecuencia relativa (f
i)
� Cociente entre la frecuencia absoluta y el número total de datosnúmero total de datos
� La suma de las frecuencias relativas es igual a 1
� Se puede expresar en %
N
nf i
i =
Organización y representación Organización y representación de los datosde los datos
� Tabla de frecuencias◦ Frecuencia (absoluta) acumulada (N
i)
� Suma de las frecuencias absolutas de todos los valores inferiores o iguales al todos los valores inferiores o iguales al valor considerado.
◦ Frecuencia relativa acumulada (Fi)
� Cociente entre la frecuencia acumulada de un determinado valor y el número total de datos.
Organización y representación Organización y representación de los datosde los datos
� Tabla de frecuencias◦ Variable discreta◦ 32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28,
29, 30, 32, 31, 31, 30, 30, 29, 29, 30, 30, 31, 29, 30, 32, 31, 31, 30, 30, 29, 29, 30, 30, 31, 30, 31, 34, 33, 33, 29, 29
Organización y representación Organización y representación de los datosde los datos
� Distribución de frecuencias◦ Variable discreta
xi ni Ni fi FiPrimera: variable ordenada de
xi ni Ni fi Fi
27 1 1 0.032 0.032
28 2 3 0.065 0.097
29 6 9 0.194 0.290
30 7 16 0.226 0.0516
31 8 24 0.258 0.774
32 3 27 0.097 0.871
33 3 30 0.097 0.968
34 1 31 0.032 1
31 1
Primera: variable ordenada de menor a mayor
Segunda columna: recuento Tercera: frecuencia absoluta
Cuarta: frecuencia acumuladaQuinta: frecuencia relativa
absolutaSexta: frecuencia relativa
acumulada
Organización y representación Organización y representación de los datosde los datos
� Tabla de frecuencias ◦ Variable continua
� 3, 15, 24, 28, 33, 35, 38, 42, 43, 38, 36, 34, 29, 25, 17, 7, 34, 36, 39, 44, 31, 26, 20, 11, 29, 25, 17, 7, 34, 36, 39, 44, 31, 26, 20, 11, 13, 22, 27, 47, 39, 37, 34, 32, 35, 28, 38, 41, 48, 15, 32, 13.
Organización y representación Organización y representación de los datosde los datos
� Tabla de frecuencias ◦ Variable continua ◦ Rango de los datos: sustracción del valor más
alto y más bajo (R = 48-3 = 45)alto y más bajo (R = 48-3 = 45)
◦ Número de clases k = 5/6 (ver criterios)
◦ Amplitud a = 45/6 = 7,5; a = 45/5 = 9 ó 10
◦ ¿Intervalos?
Organización y representación Organización y representación de los datosde los datos
� Tabla de frecuencias ◦ Variable continua
Li-1 -Li xi ni Ni fi Fi
[0, 10) 7.5 2 2 0.05 0.05
[10, 20) 17.5 6 8 0.015 0.200
[20, 30) 27.5 9 17 0.225 0.425
[30, 40) 37.5 17 34 0.425 0.85
[40, 50) 47.5 6 40 0.15 1
40 1
Organización y representación Organización y representación de los datosde los datos
� La representación gráfica
◦ Otra forma de resumir información
◦ Diferentes tipos según � Variables cualitativas o cuantitativas� Variables discretas o continuas
Organización y representación Organización y representación de los datosde los datos
� La representación gráfica◦ Diagrama de barras
� Variables cualitativas o cuantitativas discretas� Cada valor de la variable: una barra� Altura barra: proporcional a la frecuencia del valor
� Ejes de coordenadas, � Abscisa: valores de la variable � Ordenada: frecuencias absolutas, relativas o
acumuladas
Organización y representación Organización y representación de los datosde los datos
� La representación gráfica◦ Diagrama de barras
� Ordenada: “orden de los valores”: � De izquierda a derecha� Variables cualitativas nominales: indiferente� Variables cualitativas nominales: indiferente� Variables cualitativas ordinales/cuantitativas � “orden
natural”
Organización y representación Organización y representación de los datosde los datos
� La representación gráfica◦ Diagrama de barras
� Grupo sanguíneo de alumnos (variable…) frecuencias absolutasfrecuencias absolutas
Grupo sanguíneo
ni
A 6
B 4
AB 1
0 9
20
Organización y representación Organización y representación de los datosde los datos
� La representación gráfica◦ Diagrama de barras
� Barras de frecuencias relativa acumuladas
Organización y representación Organización y representación de los datosde los datos
� La representación gráfica◦ Diagrama de Pareto
� Combinación de frecuencias relativas (barras) y acumuladas (línea)
� Orden de los valores: de más frecuente a menos frecuente
� Línea que representa las frecuencias acumuladas
Organización y representación Organización y representación de los datosde los datos
� La representación gráfica◦ Histograma
� Similar a diagrama de barras, excepto:� Rótulos corresponden a límites
entre clases
� Aplicable a � Variables cuantitativas
continuas � Variables cuantitativas discretas
con un gran número de datos (agrupadas en clases)
Organización y representación Organización y representación de los datosde los datos
� La representación gráfica◦ Histogramas con intervalos de amplitud
diferente� Calcular las alturas de los rectángulos del
histogramahistograma
� hi es la altura del intervalo� ni es la frecuencia del intervalo� ai es la amplitud del intervalo
i
i
ia
nh =
Organización y representación Organización y representación de los datosde los datos
� La representación gráfica◦ Intervalos de amplitud diferente
� Ejemplo: calificaciones (suspenso, aprobado, notable y sobresaliente) obtenidas por un grupo de alumnos.de alumnos.
Li-1, Li ni hi
[0, 5) 15 3
[5, 7) 20 10
[7, 9) 12 6
[9, 10) 3 3
50
Organización y representación Organización y representación de los datosde los datos
� La representación gráfica◦ Histograma
� Como en diagrama de barras, su forma no cambia por usar frecuencias absolutas o relativas
� La forma del histograma SÍ cambia según el número de las clases
� Ejemplo: 4 histogramas con 5, 10, 18 y 34 clases
Organización y representación Organización y representación de los datosde los datos
� La representación gráfica◦ Histograma
� Por tanto: a la hora de hacer un histograma es MUY IMPORTANTE la elección de las clases
� Regla empírica: empezar con pocas y a partir de resultados ir aumentando
� Para una población grande: el número de clases podrían ser muchas, y muy estrechas
� Tendencia: el histograma como una curva
Organización y representación Organización y representación de los datosde los datos
� La representación gráfica◦ Polígono de frecuencias
� Marca de clase que coincide con el punto medio de cada rectángulo
Li-1, Li xi ni Ni
[50, 60) 55 8 8
[60, 70) 65 10 18
[70, 80) 75 16 34
[80, 90) 85 14 48
[90, 100) 95 10 58
[100, 110) 110 5 63
[110, 120) 115 2 65
65
Organización y representación Organización y representación de los datosde los datos
� La representación gráfica◦ Diagrama de sectores (tartas)
� Para todo tipo de variables (cualitativas, cuantitativas discretas), pero de pequeño cuantitativas discretas), pero de pequeño tamaño
� El ángulo de cada sector es proporcional a la frecuencia absoluta correspondiente
� Se construye con la ayuda de un transportador de ángulos.
inN
•=º360
α
Organización y representación Organización y representación de los datosde los datos
� La representación gráfica◦ Diagrama de sectores
Alumnos Ángulo
Baloncesto 12 124°Baloncesto 12 124°
Natación 3 36°
Fútbol 9 108°
Sin deporte 6 72°
Total 30 360°
Organización y representación Organización y representación de los datosde los datos
� La representación gráfica◦ Interpretación de los gráficos
� Informan sobre la distribución de una variable� Informan sobre la distribución de una variable� Dispersión/concentración de los valores
� Cuál es el más frecuente (la moda)
� Si hay valores muy alejados del valor más frecuente
� Simetría de la distribución: igual número de casos con valores mayores y menores que el valor más frecuente...
Organización y representación Organización y representación de los datosde los datos
� La representación gráfica◦ Interpretación de los gráficos
� Tipos de distribución� Histograma unimodal simétrico
� Simetría: un valor más común (moda) aproximadamente en el centro. Ejemplos: notas, altura, peso...
Organización y representación Organización y representación de los datosde los datos
� La representación gráfica◦ Interpretación de los gráficos
� Tipos de distribución� Histograma simétrico bimodal
� Dos valores con más casos (modas)� Dos valores con más casos (modas)� Simétrico en torno a valor con pocos casos� Extraño: ¿2 poblaciones?
Organización y representación Organización y representación de los datosde los datos
� La representación gráfica◦ Interpretación de los gráficos
� Tipos de distribución� Histograma unimodal asimétrico a la izquierda
� Un valor con más casos (moda)� Un valor con más casos (moda)� “Cola” hacia la izquierda� Ejemplo: esperanza de vida
Organización y representación Organización y representación de los datosde los datos
� La representación gráfica◦ Interpretación de los gráficos
� Tipos de distribución� Histograma unimodal asimétrico a la derecha
� Un valor con más casos (moda)� Un valor con más casos (moda)� “Cola” hacia la derecha� Ejemplos: ingresos o gastos