organización y presentación de los datos, estadistica descriptiva

Post on 06-Aug-2015

69 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

DESCRIPTION

Organización y Presentación de los DatosLa estadística tienen como objetivos sintetizar, organizar, analizar y extraer la variación más relevante de un fenómeno en particular. De tal forma, los datos recabados deben presentarse de forma en que sean fáciles de analizar visualmente y que su presentación sea sencilla y estética. Los métodos para describir conjuntos de datos pueden ser tabulares o gráficos.Métodos TabularesLa presentación de información cuantitativa o cualitativa, mediante

TRANSCRIPT

Organización y Presentación Presentación de los Datos

La estadística tienen como objetivos sintetizar, organizar, analizar y extraer la variación más relevante de un fenómeno en particular. De tal forma, los datos recabados deben presentarse de forma en que sean fáciles de analizar de forma en que sean fáciles de analizar visualmente y que su presentación sea sencilla y estética .

Los métodos para describir conjuntos de datos pueden ser tabulares o gráficos .

Métodos Tabulares

La presentación de información cuantitativa o cualitativa , mediante tablas , es frecuentementeobservada tanto en la literatura observada tanto en la literatura científica como en las ciencias sociales . En estas tablas se procura que sean los más sencillasy claras .

De acuerdo a la disciplina las tablas pueden seguir diferentes formatos, por ejemplo en la literatura científica solo se evita el uso de líneas verticales.

Sin embargo, frecuentemente se presenta el titulo de la tabla por encima de esta y alineada a la izquierda.

Licenciatura Número de Egresados

Egresados por Licenciatura en la UNSIJ

Informática 21

Ciencias Ambientales 11

Ingeniería Forestal 16

Calificaciones obtenidas por alumnos de la UNSIJ (mínima 10 - Máxima 100)

16 38 75 45 67 3116 38 75 45 67 31

92 43 91 89 19 24

54 46 92 33 16 11Para resumir la información del número de estudiantes que obtuvieron una calificación en particular, se hace por medio de una tabla con dos encabezados, lo cual permite mostrar la frecuencia de calificaciones por intervalo.

En este tipo de tablas la amplitud de los valores numéricos de los datos está dividida en un cierto número de Intervalos o Clases , las cuales se utilizan para reportar el número de observaciones que pertenecen a cada de observaciones que pertenecen a cada Intervalo.

El número de observaciones que pertenecen a una clase o intervalo se denomina frecuencia.

Con la información del presente ejemplo, primero hay que decidir en cuantas clases deberá dividirse el intervalo y después su amplitud.

De acuerdo a la experiencia se recomienda entre 5 y 20 clases, resulta conveniente construirlas de 5 y 20 clases, resulta conveniente construirlas de modo que todas las clases tengan la misma anchura, la cual recibe el nombre de amplitud de Clase.

En este caso optaremos por 7 clases, todas ellas con igual amplitud de clase.

Clase Frecuencia

40 8

50 3

60 1

Tabla de distribución de calificaciones entre alumn os de la UNSIJ

60 1

70 1

80 1

90 1

100 3

Alumnos 18

Nota: datos obtenidos al azar

Sin embargo, existen otros métodos: primero se debe obtener el valor mínimo y el máximo.

16 53 14.3 8 123

0 10.3 19.7 1.1 2160 2.7 29.5 3.1 87.1

11.3 0.2 62.5 0 1.760.4 1.1 142.3 0.4 4.1

176.9 1.9 202.8 3.3 35.1176.9 1.9 202.8 3.3 35.1119.8 32.1 169.9 19.7 124.3155.6 25.9 157.6 146.6 0.4133.6 154.1 8.9 187 12.3

70.8 158.7 16.3 257 22.84.9 171.9 58.2 163.2 89.71.6 99.4 145.5 93 243.79.4 34.3 149.8 8.9 134.63.4 0 71.6 9.7 114.34.5 0 72.4 6.1 3.810 5.2 9.8 3.6 57.3

108.6 98.6

Número de decimales y cifras, Sokal y Rohlf (1995) proponen que debe existir entre 30 a 300 unidades entre el valor mínimo y máximo. Cuando se encuentra por encima de este valor debe reducirse el número de cifras, cuando se encuentra por debajo se debe incrementar las cifras.

Por ejemplo:

Si se consideran unidades (5 -10)Si se consideran unidades (5 -10)Mínimo 5Máximo 10Diferencia 5

Pero si se considera decimales (5.0-10.0)Mínimo 50Máximo 100Diferencia 50, por lo que se debe considerar como significativo el uso de decimales

Regresando a los datos de precipitación mensual en el Estado de México

Por ejemplo:

Si se consideran unidades (0 -257)Si se consideran unidades (0 -257)Mínimo 0Máximo 257Diferencia 257Por lo que se deben considerar desde el cero hasta centenas

Sturges , que establece que el número de clases es K = 1 + log2 n = 1 + 3.322 log n, la cual subestima el número de intervalos.

Velleman (1976), K = , recomendada cuando 2√ n es pequeño (n < 50)

Dixon y Kronmal (1965), K = 10 log √ n, para n grande (n > 50).

García-Cue el al. proponen que para cualquier tamaño de muestra √n

Sturges = 1 + 3.322 log n = 1 + 3.322 log 82 = 7.35 = 7

García-Cue el al = √ 82 = 9.05 = 9

Para obtener los intervalo por clase, tomando el mé todo de Sturges, tenemos:

377.367

0257 ≈=−=c7MÁXIMO MÍNIMO

0 37

37 74

74 111

111 148

148 185

185 222

222 259

Comúnmente se elige al punto central de cada intervalo y se le denomina Centro de clase (mi) o punto medio de la clase (mi ), el cual se obtiene dividiendo entre dos la suma de los límites de clase.

5.182

0372

minmaxmi ≈−=−= ii

22MÁXIMO MÍNIMO Centro Clase

0 37 18.5

37 74 55.5

74 111 92.5

111 148 129.5

148 185 166.5

185 222 203.5

222 259 240.5

El siguiente paso para construir la Tabla de Frecuencias es contar el número de observaciones que pertenecen a cada clase. Este número es llamado Frecuencia Absoluta de clase (fi).

MÁXIMO MÍNIMOCentro Clase

fi FRECUENCIA

0 37 18.5IIIII IIIII IIIII IIIII IIIII IIIII

IIIII IIIII IIIII 450 37 18.5

IIIII IIIII IIIII 45

37 74 55.5 IIIII III 8

74 111 92.5 IIIII I 6

111 148 129.5 IIIII IIII 9

148 185 166.5 IIIII IIII 9

185 222 203.5 III 3

222 259 240.5 II 2

También resulta conveniente calcular las frecuencias relativas de clase (fRi); que indican la proporción del total de observaciones perteneciente a cada clase. Para obtenerlas, se divide la frecuencia absoluta de la clase entre el total de observaciones (Total de frecuencias absolutas).

55.08249 ===

n

fifRi

82nMÁXIMO MÍNIMO

Centro Clase

fi fi fRi

0 37 18.5IIIII IIIII IIIII IIIII IIIII IIIII

IIIII IIIII IIIII 45 0.55

37 74 55.5 IIIII III 8 0.10

74 111 92.5 IIIII I 6 0.07

111 148 129.5 IIIII IIII 9 0.11

148 185 166.5 IIIII IIII 9 0.11

185 222 203.5 III 3 0.04

222 259 240.5 II 2 0.02

Total 82 1.00

A la tabla de frecuencias es conveniente añadirle información sobre el número de datos cuyo valor numérico es menor o igual que el límite superior de cada clase; este número recibe el nombre de frecuencia acumulada (FAi). y se obtiene al sumar las frecuencias absolutas de las clases precedentes. De la misma manera se calcula la frecuencia relativa acumulada (FRA), al adicionar las frecuencias relativas de las clases anteriores.

MÁXIMO MÍNIMOCentro Clase

fi fi fiA fRi fRA

0 37 18.5IIIII IIIII IIIII IIIII IIIII

IIIII IIIII IIIII IIIII45 45.00 0.55 0.55

37 74 55.5 IIIII III 8 53.00 0.10 0.65

74 111 92.5 IIIII I 6 59.00 0.07 0.72

111 148 129.5 IIIII IIII 9 68.00 0.11 0.83

148 185 166.5 IIIII IIII 9 77.00 0.11 0.94

185 222 203.5 III 3 80.00 0.04 0.98

222 259 240.5 II 2 82.00 0.02 1.00

Total 82 1.00 1.00

Métodos Gráficos

Un inconveniente de presentar los datos en la forma tablas de distribución de frecuencias es que la información contenida no es aparentemente evidente a menos que sea estudiada con detalle .

La forma más eficiente de simplificar la interpretación de la información y evidenciar los patrones y tendencias es transformándola a presentaciones visuales .

En esta sesión se presentaran los métodos gráficos más frecuentes .

Gráficas de Puntos o Líneas Las gráficas de puntos permiten presentar datos de forma

rápida de la forma en como están distribuidos los datos.

Esta consiste en una línea marcada con divisiones de la escala en el cual la variable es medida.escala en el cual la variable es medida.

Cada punto representa una observación, si el valor se repite, el punto es colocado encima del último que fue graficado.

Describir información por medio de gráfica de barras es particularmente útil cuando se utilizan variables categóricas que son obtenidas en una escala nominal.

Gráficas de Barras

escala nominal.

Una gráfica de barras usa líneas (i.e. barras) que representan categorías discretas de datos, en donde la longitud de la línea es proporcional a la frecuencia dentro de esa categoría

Suponga que en un bosque coloca 31 nidos artificiales, 15 son ocupados por gorriones, 10 por azulejos, 4 por carpinteros y 2 por cuervos. La tabla tendrá que ser construida de la siguiente manera, junto con la gráfica

ave fave f

gorrión 15

azulejo 10

carpintero 4

cuervo 2

n 31 0

2

4

6

8

10

12

14

16

gorrión azulejo carpintero cuervo

mer

od

e o

bse

rvac

ion

es (

f)

HistogramaLos histogramas son gráficas de barras en donde el área cada bloque es proporcional a la frecuencia.El área de un bloque es obtenido multiplicando el ancho del bloque (intervalo de clase) por la altura (frecuencia)

50

0

5

10

15

20

25

30

35

40

45

50

18.5 55.5 92.5 129.5 166.5 203.5 240.5

Fre

cue

nci

a

Centro Clase

Ancho clase: 18.5Frecuencia: 45Área: (18.5*45) = 842.5

Polígono de Frecuencia y Curva de FrecuenciaSi el punto medio del tope de cada bloque del histograma es unido por una línea, un polígono de frecuencia es construido

Cuando el número de observaciones de una variable continua es grande y las unidades de incremento entre bloques es pequeña, las líneas entre bloques tiende a ser suavizada, formando una curva continua, llamada curva de frecuencia .

Gráfica DispersiónCuando pares de observaciones de dos variables son obtenidas de la misma muestra (es decir, los datos son bivariados), una gráfica de dispersión es utilizada para desplegar los datos.

Gráfica CircularLas gráficas son utilizadas frecuentemente para desplegar datos en porcentajes o proporciones. Si se considera que el total de datos es el 100% a cada categoría le corresponde una fracción o rebanada de pastel.

top related