tema 59. técnicas de obtención y representación de …joseluislorente.es/academia/temas/tema...
TRANSCRIPT
Tema 59. Técnicas de obtención y representación de datos
Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es) 1
TEMA 59. Técnicas de Obtención y Representación de
datos
1. Introducción
La representación de datos o “estadísticas” sobre pertenencias o características de cualquier comunidad (estado, pablado, etc) fue una de las primeras inmersiones del hombre en el campo científico. Desde los primeros recuentos de ganado o las modernas “estadísticas oficiales” realizadas por ordenador hay una avance notable, pero el fin sigue siendo el mismo, el de administrar y controlar de forma eficiente los recursos disponibles.
Estas técnicas estadísticas en la actualidad son realizadas por estados, empresas, bancos, sociólogos…y los podemos encontrar en los medios de comunicación. Responden a estudios relaticos al crecimiento económico, el crecimiento en precio, población activa, crecimiento demográfico, etc.
En este tema abordaremos las formas de obtener y representar los datos, así como posibles errores y tendenciosidades más comunes.
2. Obtención de datos.
Los errores más comunes en las estadísticas suelen provenir de la obtención de los datos ,
es por esto que esta etapa es esencial y debe ser preparada con meticulosidad.
Estableceremos los siguientes pasos a la hora de recopilar la información:
- Fijar la población de estudio
- Característica de estudio.
- Delimitación del conjunto a realizar la encuesta.
- El cuestionario y la recogida de datos
- Elaboración de resultados
- Distribución de resultados.
1. Fijar la población de estudio: el primer paso será fijar el conjunto de elementos o
individuos que nos interesa estudiar y sobre los cuales vamos a realizar la estadística. El
conjunto de todos los individuos o elementos sobre los que vamos a hacer el estudio se
denomina población o universo. Cada uno de los elementos que lo forman se suelen
denominar individuos o unidades estadísticas. La población pueden ser personas de una
localidad, piezas de una producción, llamadas a un operador, etc. El número total de
elementos que forman parte de la población se denota por lo general con la letra N
2. Característica de estudio: una vez fijada la población tendremos que ver que característica
o características de la misma son objeto del estudio. Debemos establecer la forma de
medir esta característica con el objetivo de que esta sea homogénea para todas aquellas
unidades estadísticas en las que hagamos la medida. Es importante fijar perfectamente lo
que entendemos como característica. Por ejemplo si estudiamos el número de
habitaciones de las casas de un país tendremos que explicar previamente que entendemos
como habitación.
En las estadísticas oficiales es muy importante que se sigan las mismas reglas en los
diversos lugares donde se realizan las encuestas. Por ejemplo en las estadísticas de
sanidad se estudia el número de bebes fallecidos durante el parto. Es necesario fijar
claramente hasta que tiempo se considera que el bebe fallecido es por el parto.
Tema 59. Técnicas de obtención y representación de datos
Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es) 2
Las características pueden clasificarse en:
a) Cuantitativas: son aquellas que son numerables y se describen por tanto mediante
valores numéricos. A su vez pueden ser de dos tipos:
a.1 Discretas: se describen mediante un conjunto finito y numerable de elementos que
son cuantificables. Ejemplos: número de hijos de una madre.
a.2. Continua: pueden tomar cualquier valor dentro de un intervalo, por ejemplo los
metros cuadrados de una casa.
b) Cualitativas: describen la característica de forma no numérica, por ejemplo el color, la
forma, la opinión (favorable, no favorable…), idioma. A veces se establece un código
que representa una opción cualitativa.
3. Delimitación del conjunto a realizar la encuesta: aunque lo deseable es que en la
encuesta participen todos los N individuos que forman parte de la población (censo) esto
no siempre es posible por cuestiones económicas, temporales, imposibilidad de llegar a
todos los individuos, etc. Para estos casos lo que se hace es tomar una parte de la
población, muestra (consideraremos que tiene n elementos), donde todos los individuos
de la muestra han sido elegidos por procedimientos basados en la aleatoriedad o el
conocimiento de la característica de estudio. La elección de la muestra no debe generar
sesgo, es decir todos ningún conjunto de individuos no estar marginadas en la encuesta.
Siempre hay que darse cuenta que aun sin sesgo el azar puede hacer que la muestra no
sea del todo representativa de la población de estudio.
4. El cuestionario: es el documento donde se anotan las características observadas para
cada unidad estadística. Puede presentarse de dos diferentes formas:
a. Cuestionario individual: a cada individuo encuestado se le entrega un documento
individual donde contestar las características estudiadas.
b. Cuestionario en lista: se presenta en forma de tabla de manera que en la fila o
columna se encuentran las características y en la fila (columna) los individuos
encuestados.
Las características fundamentales de un buen cuestionario son: a) comodidad para las
personas encuestadas, b) precisión para las preguntas formuladas, c) poca iniciativa a los
encuestados (preguntas cerradas), d) incluir lo esencial. Para asegurar la veracidad de los
datos es importante si el cuestionario se hace a personas que se les asegure el anonimato.
Existe en este sentido cada vez más legislación para la protección de datos.
Siempre se tiene que tener en cuenta las siguientes consideraciones: 1) las respuestas no
siempre tienen que ser sinceras, 2) la respuesta no indica lo que el individuo piensa sino lo
que quiere hacer ver al encuestador que piensa.
5. Elaboración de los resultados: una vez recogida la información se comprueban los
cuestionarios se organizan y se obtienen los resultados deseados. Estos resultados pueden
venir en forma de tablas o gráficos estadísticos como veremos en apartados siguientes.
6. Distribución de los resultados: una vez obtenidos y elaborados los resultados es
interesante hacer estos públicos a una parte de la sociedad o a toda según se estime. Por
ejemplo los resultados de una empresa de la productividad de sus empleados no se hará
pública, en cambio las estadísticas oficiales (como el paro) son generalmente públicas.Para
científicos las estadísticas realizadas se publicarán en revistas o congresos especializados.
Tema 59. Técnicas de obtención y representación de datos
Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es) 3
3. Tablas estadísticas.
Una vez obtenida la información (datos) sobre los individuos de nuestra población (bien
por censo o por muestreo) se deben ordenar y resumir. Para ello, y en especial las
características cuantitativas discretas y cualitativas, el primer paso es el recuento de
respuestas idénticas.
3.1. Variables discretas y cualitativas
Estas dos variables se trabajan en las tablas de la misma forma ya la característica de
estudio tiene un número limitado de posibles valores (numéricos o cualitativos). Veamos
algunas magnitudes que nos permiten resumir la información de la estadística:
1. Frecuencia absoluta: es el número de veces que se repite cada dato. Generalmente los
datos se representan como x1, x2, …, xk y a sus frecuencias absolutas se denotan con
f(xi) o fi. Se cumple que si interviene n individuos en la encuesta ∑=
=k
i
i nf1
.
2. Frecuencia relativa: es el cociente entre la frecuencia absoluta y n, número de
individuos de la muestra. Se denota como hi o fri. Así n
fhfr i
ii == (nota∑=
=k
i
ih1
1).
3. El porcentaje: que representa la proporción en tanto por cien de cada una de los
datos. Se representa como pi, y se calcula como pi=fri·100 (se cumple 0011
∑=
=k
i
ip ).
4. Frecuencia relativa acumulada (solo variables cuantitativas): es el número de
elementos con valor de x menor o igual que xi. Se denota como Fi, y se calcula como
∑=
−+==
i
j
iiii fFfF1
1 . Se cumple que Fk=n.
5. Frecuencia relativa acumulada (sólo variables cuantitativas): es cociente de la
frecuencia absoluta acumulada entre n. Se denota como Hi y se cumple que su valor se
calcula como n
FhH i
i
j
ji ==∑=1
. Lógicamente se cumple que Hk=1.
6. Porcentaje acumulado (sólo variables cuantitativas): es la suma de todos los valores
porcentuales hasta esa categoría. Se denota como Pi y se calcula de diferentes maneras
∑=
==i
ij
iji HpP 100· .
Ejemplo: números de hijos={1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 5}
xi fi hi pi Fi Hi Pi
1 5 0.25 25% 5 0.25 25%
2 8 0.4 40% 13 0.65 65%
3 4 0.2 20% 17 0.85 85%
4 2 0.1 10% 19 0.95 95%
5 1 0.05 5% 20 1 100%
Total 20 1 100%
Tema 59. Técnicas de obtención y representación de datos
Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es) 4
3.2. Variable continuas
Cuando la variable toma valores en un intervalo o toma datos muy diversos donde se
repiten muy poco los resultados, no tiene lógica hacer la tabla de frecuencias de los mismos
pues todos tendrían frecuencia unidad. La forma de proceder para estos valores es agruparlo
en intervalos o clases y calcular las frecuencias para dichos intervalos. Las variables a utilizar
son las mismas que en las variables discretas.
La dificultad surge de cómo agrupar los datos, antes veremos una serie de definiciones:
1. Amplitud del intervalo: es la diferencia entre la cota superior, Mi, y la inferior, mi:
Ai=Mi -mi . Se pueden trabajar con intervalos de diferente amplitud, aunque lo normal
es que sean iguales.
2. Marca de clase: es el punto medio del intervalo.Se calcula como la semisuma de los
dos extremos 2
ii
i
mMx
+= . Suele utilizarse de forma aproximada, y por sencillez de
cálculos, como el valor representativo de todas las magnitudes que están en el
intervalo.
3. Rango: es la diferencia entre el valor máximo de la variable y el mínimo, se denota
como R, siendo R=Xmax-Xmin
Cuando tengamos una serie de datos y queremos construir los intervalos se nos plantean
cuantos intervalos deberíamos construir y como debes ser. Aunque los intervalos pueden ser
utilizar como se deseen, la información será productiva si se realizad de forma adecuada
siguiendo las siguientes pautas, con un compromiso entre: un único intervalo (perdemos
información de los datos) y tantos intervalos como datos (variable discretas).
Para determinar el número de intervalos, k, hay varias leyes:
1. Ley de Sturgues: )(log1 2 nk +≈ (con k entero)
2. Ley de la raíz: nk ≈
Si son intervalos de la misma amplitud esta amplitud, a, se calculará como k
Ra = ,
construyendo los intervalos a partir del valor mínimo y sumando la amplitud: I1=[xmin,xmin+a),
I2=[xmin+a, xmin+2ª), , Ik=[xmax-a, xmax]. A veces con el fin de que los extremos de los intervalos
sean exactos se modifica el intervalo disminuyendo la cota inferior y/o aumentado la superior.
Ejemplo: metros cuadrados de 20 viviendas: 30, 38, 45, 50, 62, 75, 76, 78, 82, 95, 100, 110,
115, 120, 125, 128, 130, 160, 177.
..32,5)20(log1 2 =+≈k o 47,420 =≈k � k=5 � 4.295
30177=
−=a . Podemos
aumentar el rango 3 unidades (hasta 180 por ejemplo) y así tenemos que 305
30180=
−=a
Tema 59. Técnicas de obtención y representación de datos
Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es) 5
Ii xi fi hi pi Fi Hi Pi
[30, 60) 45 4 0.2 20% 4 0.2 20
[60, 90) 75 5 0.25 25% 9 0.45 45
[90,120) 105 4 0.2 20% 13 0.65 65
[120, 150) 135 5 0.25 25% 18 0.9 90
[150, 180] 165 2 0.1 10% 20 1 100
Total [30,180] 20 1 100
Cuando tenemos variables discretas pero con muchos valores diversos de la característica X se suele trabajar también con intervalos.
4. Gráficas estadísticas
Los gráficos son una forma de presentar la información estadística de forma que sea muy
intuitiva de valorar. En este punto veremos diferentes tipos de gráficas diferenciando entre sí
los cuantitativos discretos y cualitativos de los cuantitativos continuos.
4.1. Gráficos para características cualitativas y cuantitativas discreta
La representaciones más usadas para este tipo de datos son los conocidos diagramas de
barras y los gráficos por sectores. Veamos cada uno de ellos por separado
1. Diagrama de barras: se representa en el eje de coordenadas los distintos valores que
toman los datos (si son numéricos separados de forma proporcional a su valor y si son
cualitativos equiespaciados) siendo la altura de la barra igual al valor de la frecuencia
absoluta, relativa o el tanto por ciento (da igual cual porque son proporcionales). Por
ejemplo para la estadística del ejemplo la gráfica será:
A veces los diagramas de barras se ponen en columnas (cambiar eje OX y OY).
Alguna vez en características cuantitativas se añaden a la gráfica las frecuencias
acumuladas, obteniendo una línea escalonada. Para características cualitativas aunque la
ordenación puede ser aleatoria se puede optar por los diagramas de Pareto donde se ordena
los datos de más a menos frecuencia absoluta, incluyéndose además la gráfica de frecuencias
acumuladas.
0
1
2
3
4
5
6
7
8
9
1 2 3 4 5
Hijos
Tema 59. Técnicas de obtención y representación de datos
Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es) 6
2. Diagrama de sectores: cuando el número de valores de la característica x no es muy
grande uno de los gráficos más usados es el del diagrama de sectores. Es muy utilizado
en las votaciones. Se trata de un círculo dividió en sectores circulares donde el ángulo
del sector se relaciona de forma directamente proporcional al porcentaje de la
característica.
Los gráficos suelen venir acompañados de las frecuencias relativas o por los
porcentajes. En ocasiones las clases con menos porcentaje se unen en un mismo
sector circular (partidos minoritarios). Veamos un ejemplo.
4.2. Gráficas para características continuas.
Cuando tenemos variables continuas con las variables agrupadas en intervalos la gráfica más utilizada es el denominado histograma. En el histograma se representan los intervalos o clases en el eje de abscisas, siendo el ancho de la barra proporcional al rango de cada intervalo. La altura de la barra se calcula de forma proporcional al porcentaje o a la frecuencia relativa de la característica en este intervalo. A diferencia de los diagramas de barras las barras en este caso se encuentran pegadas unas con otras.
En ocasiones los histogramas suelen incluir los polígonos de frecuencia absoluta, construidos uniendo los puntos medios del lado de la barra de los rectángulos. Veamos en el ejemplo realizado anteriormente.
Tema 59. Técnicas de obtención y representación de datos
Jose Luis Lorente (preparador oposiciones secundaria
4.3. Otras representaciones gráficas.
Existen numerosas técnicas para representar de forma atractiva la información
Veamos alguno de ellos:
1. Pictograma: utiliza dibujos alusivos a los temas que estamos estudiando haciendo que
las dimensiones del dibujo sea proporcional a la correspondiente frecuencia o
repitiendo varios de ellos. Veamos un ejemplo:
2. Pirámides de población:
proporcional a la cantidad de personas que representa la edad y sexo de la población
en cada una de dichas barras. Gráficamente se trata de un doble histograma de
frecuencias. Las barras del doble histograma se disponen en forma horizontal, es decir,
sobre la línea de las abscisas, y convencionalmente se indican los grupos de edad de la
población masculina a la izquierda y los que representan la población femenina a la
derecha. A su vez, en el eje de las ordenadas se disponen e identifican los grupos de
edad, por lo general, de cinco en cinco años o llamados quinquenales: (0 a 4, 5 a 9, 10
4
0
1
2
3
4
5
6
[30, 60) [60, 90)
Técnicas de obtención y representación de datos
Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es)
Otras representaciones gráficas.
Existen numerosas técnicas para representar de forma atractiva la información
: utiliza dibujos alusivos a los temas que estamos estudiando haciendo que
las dimensiones del dibujo sea proporcional a la correspondiente frecuencia o
repitiendo varios de ellos. Veamos un ejemplo:
Pirámides de población: gráfico de barras dispuestas horizontalmente cuya longitud es
proporcional a la cantidad de personas que representa la edad y sexo de la población
en cada una de dichas barras. Gráficamente se trata de un doble histograma de
cias. Las barras del doble histograma se disponen en forma horizontal, es decir,
sobre la línea de las abscisas, y convencionalmente se indican los grupos de edad de la
población masculina a la izquierda y los que representan la población femenina a la
echa. A su vez, en el eje de las ordenadas se disponen e identifican los grupos de
edad, por lo general, de cinco en cinco años o llamados quinquenales: (0 a 4, 5 a 9, 10
5
4
5
2
[60, 90) [90,120) [120, 150) [150, 180]
7
Existen numerosas técnicas para representar de forma atractiva la información estadística.
: utiliza dibujos alusivos a los temas que estamos estudiando haciendo que
las dimensiones del dibujo sea proporcional a la correspondiente frecuencia o
gráfico de barras dispuestas horizontalmente cuya longitud es
proporcional a la cantidad de personas que representa la edad y sexo de la población
en cada una de dichas barras. Gráficamente se trata de un doble histograma de
cias. Las barras del doble histograma se disponen en forma horizontal, es decir,
sobre la línea de las abscisas, y convencionalmente se indican los grupos de edad de la
población masculina a la izquierda y los que representan la población femenina a la
echa. A su vez, en el eje de las ordenadas se disponen e identifican los grupos de
edad, por lo general, de cinco en cinco años o llamados quinquenales: (0 a 4, 5 a 9, 10
[150, 180]
Tema 59. Técnicas de obtención y representación de datos
Jose Luis Lorente (preparador oposiciones secundaria
a 14, etc.), colocando las barras de menor edad en la parte inferior del gráfico y
aumentando progresivamente hacia la cúspide las edades de cada intervalo.
Técnicas de obtención y representación de datos
Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es)
a 14, etc.), colocando las barras de menor edad en la parte inferior del gráfico y
mentando progresivamente hacia la cúspide las edades de cada intervalo.
8
a 14, etc.), colocando las barras de menor edad en la parte inferior del gráfico y
mentando progresivamente hacia la cúspide las edades de cada intervalo.
Tema 59. Técnicas de obtención y representación de datos
Jose Luis Lorente (preparador oposiciones secundaria
Según la forma de la pirámide nos indica si la población es joven (pirámide con mucha
base y cada vez más estrecha) típica de los países en vías de desarrollo, o envejecida
(pirámide con barras de edades entre 30 y 60 años muy grande) típica de países
desarrollados. A veces hay pirámides desequilibradas en un sexo por posibles
migraciones de un sexo
3. Diagrama de series temporales
diferentes periodos temporales, ordenando las clases según un orden cronológico o
uniendo los puntos que relacionan el instante temporal y su frecuencia. Un caso
particular y uno de los más importantes son los
precipitaciones se representan por diagramas de barras y las temperaturas por
diagrama de series temporales.
Técnicas de obtención y representación de datos
Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es)
Según la forma de la pirámide nos indica si la población es joven (pirámide con mucha
base y cada vez más estrecha) típica de los países en vías de desarrollo, o envejecida
mide con barras de edades entre 30 y 60 años muy grande) típica de países
A veces hay pirámides desequilibradas en un sexo por posibles
migraciones de un sexo, guerras u otros motivos.
Diagrama de series temporales: en muchas ocasiones las clases corresponden a
diferentes periodos temporales, ordenando las clases según un orden cronológico o
uniendo los puntos que relacionan el instante temporal y su frecuencia. Un caso
particular y uno de los más importantes son los climogramas
precipitaciones se representan por diagramas de barras y las temperaturas por
diagrama de series temporales.
9
Según la forma de la pirámide nos indica si la población es joven (pirámide con mucha
base y cada vez más estrecha) típica de los países en vías de desarrollo, o envejecida
mide con barras de edades entre 30 y 60 años muy grande) típica de países
A veces hay pirámides desequilibradas en un sexo por posibles
clases corresponden a
diferentes periodos temporales, ordenando las clases según un orden cronológico o
uniendo los puntos que relacionan el instante temporal y su frecuencia. Un caso
climogramas: donde las
precipitaciones se representan por diagramas de barras y las temperaturas por
Tema 59. Técnicas de obtención y representación de datos
Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es) 10
5. Tendenciosidad y errores más comunes
Los errores en una estadística pueden ser de dos tipos: involuntarios o voluntarios,
también llamados tendenciosidades.
Los errores involuntarios suelen surgir en la recogida de la información, intentando que
todos los individuos de la población sean igualmente probables de participar en la muestra
que representa la población.
Tendenciosidades más comunes: Existen varios tipos de errores estadísticos que muchas
veces uno comete de manera consciente para manipular la opinión de la gente. Algunas veces,
los datos son tantos que se debe “seleccionar” con el objetivo de hacerlos más fáciles de
entender; sin embargo, parte de la historia también desaparece:
1) La media no nos da toda la información que se desea. Por ejemplo si los sueldos de los
españoles que sube es la de los que más dinero ganan el promedio de los sueldos en
España aumenta, pero la información será sesgada si solo damos la información de la
media. Mucha información se pierde si sólo calculamos promedios. Es importante que
los resúmenes estadísticos nos informen de otros datos importantes, como el rango, la
mediana o los cuartiles y percentiles.
2) En la visualización de datos, el tamaño generalmente sí importa. Dale un vistazo a los
dos diagramas a continuación.
Imagina el encabezado de ambas gráficas. El de la izquierda se podría llamar “El gasto
en Salud Pública en Finlandia incrementa“, pero la gráfica de la derecha se podría
llamar “El gasto en salud pública en Finlandia se mantiene estable”…pero ambas
gráficas son las mismas en diferente escala.
3) Las líneas del tiempo también son elementales para los mostrar datos. Mira el
esquema a continuación.
Tema 59. Técnicas de obtención y representación de datos
Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es) 11
¿Existe un claro incremento de los gastos en salud pública desde el 2002? No. Date
cuenta de que, antes de 2004, la gráfica se representa de forma anual. Pero existe un
salto de 3 años del 2004 al 2007, y de dos años del 2007 al 2009. Esta gráfica nos hace
creer que, desde 2002, los gastos en salud pública crecieron a partir de ese año, pero
no es así. Si tienes que trabajar con líneas de tiempo, asegúrate que las escala o lapso
de tiempo sean iguales. Solo así podrás entender las tendencias.
4) Por ciento vs porcentaje : Éste es un error muy común para la mayoría de nosotros. Si
una valor cambia de 5% a 10%, ¿cuánto por ciento cambió?
¡Si tu respuesta es 5%, es un error! La respuesta es 100% (Imagina que tienes 5
manzanas y te dan 10; tienes ahora tienes 100% más).
6. Conclusiones.
Las tablas y gráficas estadísticas se imparten desde el 3er curso de secundaria, los alumnos
deben ser capaces de realizarlas así como de interpretarlas. Las tablas son también una
herramienta que nos permite calcular los parámetros estadísticos más importantes como la
media, la mediana o la varianza.