2° clase. presentación de datos

Post on 04-Aug-2015

858 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

ESTADÍSTICA

PRESENTACIÓN DE LOS DATOS DE VARIABLES CUANTITATIVAS

Bio.Est. Wilver Rodríguez López. M.Sc.

UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO

ESCUELA DE INGENIERÍA AGRÍCOLA

Recolección de datos

• En una investigación, la recolección de los datos es un paso crucial e indispensable.

• Los datos se obtienen de una medición o de un conteo de las variables de interés (cuantitativas o cualitativas) en la población o muestra.

Datos de una muestra de 30 agricultores registrados en la comunidad de Olmos. Lima. Año 2011 .

Agricultos

Zona de Procedenci

a

Edad Sexo

1 N 30 M2 N 43 M3 C 58 F4 S 61 M5 N 70 M6 O 42 F7 S 58 F8 N 39 M9 C 60 F10 C 55 M11 S 57 M12 N 49 M13 N 61 F14 O 69 M15 O 43 M16 C 46 F17 N 69 M18 N 44 M19 S 59 F20 O 62 M21 O 66 M22 S 71 M23 S 70 F24 S 65 M25 O 37 M26 N 40 F27 N 61 F28 C 65 M29 C 56 M30 S 38 M

Presentación de datos

 Después de recopilar y revisar los datos necesarios para la investigación, se deben clasificar y presentar de forma adecuada para permitir su análisis e interpretación.

Caso de las variables cuantitativas discretas 

Las variables cuantitativas discretas son:Aquellas representadas sólo por números

enteros, como número de hijos, número de pulsaciones por minuto, número de dientes cariados, número de camas por centro de salud, etc.

Se creará una tabla de frecuencias a partir de la siguiente información de 20 agricultores: Agricult

or1 2 3 4 5 6 7 8 9 1

011

12

13

14

15

# de hijos

3 2 0 5 4 0 1 0 1 2 2 1 4 3 0

Haciendo un conteo de la información, se puede establecer que de los 15 agricultores 4 de ellos no tienen hijos, 3 de ellos tienen un hijo, 3 de ellos tienen dos hijos, 2 de ellos tienen tres hijos, 2 de ellos tienen cuatro hijos y sólo 1 tiene más de 4 hijos.

Estas cifras constituyen la frecuencia absoluta simple (fi) de cada valor (0, 1, 2, 3, 4 y más de 4)

Con esta información se puede hallar también las frecuencias absolutas acumuladas (Fi = F(i-1) + fi).

Para obtener la frecuencia relativa simple (hi%) se procede a aplicar la fórmula establecida (fi/n x 100).

Finalmente, la frecuencia relativa acumulada (Hi%) también se halla con la fórmula correspondiente (Fi/n x 100).

Agricultos

1 2 3 4 5 6 7 8 9 10

11

12

13

14

15

# de hijos

3 2 0 5 4 0 1 0 1 2 2 1 4 3 0

# de hijos fi Fi hi% Hi%01 2 3 4

más de 4 TOTAL

El resultado es la siguiente tabla de frecuencias:

# de hijos fi Fi hi% Hi%0 4 4 26.7 26.71 3 7 20 46.72 3 10 20 66.73 2 12 13.3 804 2 14 13.3 93.3más de 4 1 15 6.7 100

TOTAL 15 100

Gráfica para variable cuantitativa discreta

Gráfica de Barras

0

5

10

15

20

25

30

0 1 2 3 4 Más de 4

% d

e ag

ricu

ltor

es

Número de hijos

Gráfica Nº 1Agricultores, según número de hijos. Comunidad de Olmos. Año

2011

Caso de las variables cuantitativas continuas

En el caso de las variables continuas, hay una cantidad muy grande de posibles valores.

Cuando se manejan más de 30 observaciones es necesario usar intervalos que permitan ordenar de forma práctica los valores.

Sólo cuando se dividen los valores en intervalos encontramos en la tabla de frecuencias: clase, marca de clase y límites reales.

Para crearlos existe un procedimiento e implica la aparición de 3 nuevas columnas:

Clase: indica el número de intervalo del que se trata. Marca de clase (Xi): es un promedio de los límites del intervalo

de clase i. Es el número representativo del intervalo. Límites reales: cada intervalo tiene números que representan

sus límites, pero los límites reales indican los verdaderos valores que toma una medición, ya que los límites nominales son aparentes.

PROCEDIMIENTO PARA CONSTRUIR TABLAS DE FRECUENCIAS

1.- Encontrar la amplitud (A) del conjunto de datos, es decir el valormáximo menos el valor mínimo, mas una unidad de medida.

A=(Vmax - Vmin)+ 1

Ejemplo.- Considerando los datos de edad dado en el tabla tenemos:

A=(71 - 30) + 1= 42

Nota: Si los valores máximo y mínimo están expresados hastadécimas se incrementará un décimo (0.1); si los valores estánexpresados en centésimos, se agregará un centésimo (0.01) y así sucesivamente.

2-Determinar el número de intervalos (k), utilizando la siguiente fórmula:

k= 1 + 3.322 log n

En relación al ejemplo se tiene que:k=1 + 3.322 log 30 = 5.9

En este caso K puede ser: 4, 5 o 6; se elige el valor que es submúltiplo de A, es decir 6 . Asumiendo K= 6

3-Determinar la amplitud del intervalo de clase (C), utilizando la siguiente expresión:

C= A / k

Para nuestro ejemplo: C= 42 / 6 = 7

4- Determinar los límites. El Vmin es el límite inferior de la primera clase y su respectivo límite superior será Vmin + (C-1); el límite inferior de la segunda clase es el límite superior de la primera clase mas uno y el respectivo límite superior será igual al límite inferior mas (C-1); y así sucesivamente hasta completar el número de intervalos. En relación al ejemplo se tiene:

30-36

37-43

44-50

51-57

58-64

65-71

Edadmínima

Edadmáxima

30 + (7 – 1 )

36 + 7, así sucesivamente

30 + 7, así sucesivamente

Nota: Si los límites están expresados hasta décimas entonces se tendrá que el límite superior de la primera clase es:Vmin + (C-0.1);

si está expresado hasta centésimas seráVmin + (C-0.01) y así sucesivamente.

5- La clasificación de los datos de una variable continua puede hacerse manualmente o en forma automatizada.

Clase Edad Xi fi Fi hi% Hi% Límites reales

1 30 – 36

2 37 – 43

3 44 – 50

4 51 – 57

5 58 – 64

6 65 – 71

30 100

A = 42K = 6C = 7

Agricultor

Edad

1 302 433 584 615 706 427 588 399 60

10 5511 5712 4913 6114 6915 4316 4617 6918 4419 5920 6221 6622 7123 7024 6525 3726 4027 6128 6529 5630 38

30-36 37-43 44-50 51-57 58-64 65-71

Clase Edad Xi fi Fi hi% Hi%Límites reales

1 30 – 36 33 1 1 3.3 3.3 29.5 – 36.5

2 37 – 43 40 7 8 23.3 26.6 36.5 – 43.5

3 44 – 50 47 3 11 10.0 36.6 43.5 – 50.5

4 51 – 57 54 3 14 10.0 46.6 50.5 – 57.5

5 58 – 64 61 8 22 26.7 73.3 57.5 – 64.5

6 65 – 71 68 8 30 26.7 100 64.5 – 71.5

30 100

TABLA DE FRECUENCIAS

Otra forma de formar intervalos de clase.

Determinar el Rango: R= Vmax – Vmin R= 71-30= 41Nº de intervalos: K= 1+3,32log(n) K= 1+3,32log(30)= 5,9 ⇛6Amplitud de cada intervalo: C=R/K C=41/6 = 6,8 ⇛7Nuevo Rango de Trabajo: Rt = KxC =6x7=42Exceso: E=Rt-R= 42-41=1Primer Intervalo: 29 36

Clase Edad Xi fi Fi hi% Hi%

1 29 – 36 32,5 1 1 3.3 3.3

2 36 – 43 39,5 7 8 23.3 26.6

3 43 – 50 46,5 3 11 10.0 36.6

4 50 – 57 53,5 3 14 10.0 46.6

5 57 – 64 60,5 8 22 26.7 73.3

6 64 – 71 67,5 8 30 26.7 100

30 100

TABLA DE FRECUENCIAS

Propiedades de las frecuencias Las frecuencias absolutas son siempre valores

enteros. La suma de las frecuencias absolutas es igual

n. Las frecuencias relativas son siempre valores

fraccionarios. O < h1 < 1

La suma de las frecuencias relativas es igual 1 El último valor de las frecuencias absolutas

acumuladas es igual a n El último valor correspondiente a las

frecuencias relativas debe ser igual a 1

donde:

fi: Frecuencia absoluta del i-ésimo intervalo, nos indica número de veces que aparece repetido dicho valor en el conjunto de observaciones estudiadas.

Fi: Frecuencia absoluta acumulada de la clase i nos indica la suma de las frecuencias absolutas de los iguales o inferiores a el.

F1=f1F2=f1+f2

hi%: Frecuencia relativa de la clase i es el cociente entre la frecuencia absoluta y el número total de observaciones multiplicando por 100.

hi% = fi/n*100

Hi%: Frecuencia relativa acumulada de la clase i, es la frecuencia absoluta acumulada dividido por el número total de observaciones. Hi% = Fi/n*100

Xi: Es la marca de clase de la clase i se determina mediante el promedio de los límites de dicho intervalo.

Limites reales: Si los límites nominales de los intervalos de clase están expresados en enteros los límites reales de cada intervalo se determina restando y sumando media unidad al límite inferior y superior respectivamente de cada intervalo.

Otra alternativa de clasificación de datos:

Gráfico de Tallo-Hoja

Un diagrama de tallos y hojas consiste en una serie de hileras horizontales de números. El número utilizado para designar una hilera es un tallo y el resto de números en la hilera se denominan hojas.

Se tienen los siguientes datos –perímetro de tallo (cm) de una muestra de plantas, por ejemplo- ordenados de forma creciente:

33.1 33.4 33.6 33.7 33.7 33.8 33.9 34.0

34.1 34.2 34.2 34.2 34.2 34.2 34.3 34.3

34.5 34.5 34.6 34.6 34.6 34.7 34.7 34.8

34.9 35.1 35.1 35.2 35.2 35.3 35.6 35.8

36.0 36.1 36.5

Para la clasificación de datos, se deben identificar los valores entre los cuales se encuentra la distribución, es decir, el dato menor y el dato mayor.

Dato menor: 33.1cmDato mayor: 36.5cm

33.1 33.4 33.6 33.7 33.7 33.8 33.9 34.034.1 34.2 34.2 34.2 34.2 34.2 34.3 34.334.5 34.5 34.6 34.6 34.6 34.7 34.7 34.834.9 35.1 35.1 35.2 35.2 35.3 35.6 35.836.0 36.1 36.5

Se deben identificar los tallos -los números que van a designar las hileras- los cuales deben contener a todos los valores de la distribución (del 33.1 al 36.5). La elección de los tallos depende de la unidad con la que se quiera trabajar: enteros, décimas, centésimas... En el caso del ejemplo, los datos están dados indicando décimas por lo que trabajar con tallos enteros es la opción más precisa y cómoda.

Los tallos serían entonces: 33, 34, 35 y 36.

Sin embargo, no se puede realizar un diagrama de tallos y hojas con menos de 5 tallos. Por lo tanto, los tallos propuestos se deben dividir (desdoblar) en una especie de intervalo, produciendo el doble. La división del tallo debe distinguirse visualmente:

33.1 33.4 33.6 33.7 33.7 33.8 33.9 34.034.1 34.2 34.2 34.2 34.2 34.2 34.3 34.334.5 34.5 34.6 34.6 34.6 34.7 34.7 34.834.9 35.1 35.1 35.2 35.2 35.3 35.6 35.836.0 36.1 36.5

Seguidamente, se realiza el proceso de clasificación en sí. Todos los datos, dependiendo de su valor, se colocan a lado de su respectivo tallo. En el ejemplo, los datos cuyo valor se encuentre entre 33.0 y 33.4 se deben colocar en la hilera del tallo 33*. Se debe indicar el valor decimal exacto de cada dato a la derecha del tallo. En el ejemplo hay 2 valores entre 33.0 y 33.4. Para clasificar el primero (33.1) se agrega al diagrama de tallos y hojas de la siguiente manera:

33*1› Para clasificar el segundo dato que

corresponde a este tallo (33.4):  33*14

Lo mismo se realiza con cada tallo y lo valores que le correspondan:

en la hilera del tallo 33. se debe colocar los números 67789, correspondientes a los valores 33.6, 33.7, 33.7, 33.8, 33.8 y 33.9.

a la hilera del tallo 34* se debe colocar 012222233 correspondientes a los valores que se encuentran entre 34.0 y 34.4.

etc.

Al clasificar todos los valores en sus tallos respectivos, se obtiene el diagrama:

Análisis de la distribución usando Tallos y Hojas

Las principales características de la distribución que se observan fácilmente en el diagrama de tallos y hojas son: Hay 35 observaciones. El dato menor es 33.1cm. El dato mayor es 36.5cm. El rango de los valores observados es de

3.4cm (dato mayor – dato menor).

De los 35 datos, 18 están alrededor de 34cm. Los casos mayores a 36cm son pocos. La distribución de los datos es asimétrica:

distribución heterogénea.

Presentación de datos de variables cuantitativas

 La presentación de los datos se hace fundamentalmente utilizando dos métodos:

el método tabular y el método gráfico.

2.2.1 Método tabularConsiste en una presentación resumida de la

información usando tablas o cuadros, pudiendo ser estos univariantes o bivariantes.

Si se utiliza este método se debe asegurar la implementación de los 5 elementos que constituyen a los cuadros y tablas: Númerotítulo, Cuerpo, Fuente y notas aclaratorias. (Opcional)

Título Es un enunciado breve e informativo

acerca del contenido del cuadro. El título ideal debe contestar las

siguientes preguntas: ¿Qué contiene el cuadro? (¿QUE?) ¿Cómo se presenta este contenido?(¿COMO?) ¿De dónde se presenta? (¿DONDE?) ¿Cuándo se obtuvo la información? (¿CUANDO?)

Ejemplo:

Se tiene una muestra de 60 agricultores provenientes de 4 zonas del país, inscritos en la comunidad de Olmos en el año 2011.

El titulo se redactaría contestando a: ¿Qué?: Agricultores inscritos en la

comunidad de Olmos año 2011 ¿Cómo?: Zona de procedencia ¿Dónde?: Olmos- Lambayeque ¿Cuándo?: 2011

CuerpoContiene la información que se obtuvo de las

observación de la(s) variable(s) que se quiere(n) presentar. En este caso, está conformado por las frecuencias y porcentajes respectivos a las observaciones de edad.  

Notas aclaratorias Generalmente se presenta como ‘Fuente’, y es en

donde se indica el lugar de donde se obtuvo la información.

Por ejemplo:Fuente: Archivos de consejo distrital de Olmos. Años

2011.

Si se presenta la información con intervalos de clase, en caso de tratarse de variables continuas, el título también cambia. Por ejemplo, si la información de los 30 agricultores según la edad y con intervalos de clase, el título sería:

Cuadro #3: Agricultores, según edad. Olmos- Lambayeque. Años 2011.

Edad Número Porcentaje30 – 36 1 3.337 – 43 7 23.344 – 50 3 1051 – 57 3 1058 – 64 8 26.765 – 71 8 26.7Total 30 100

Fuente: Archivos del consejo distrital de Olmos. Año 2011.

Método GráficoEn esencia, un gráfico estadístico es la presentación de la

información por medio de figuras geométricas. El objetivo primordial de un gráfico es dar una impresión

visual de conjunto para una rápida y fácil comprensión. No deben considerarse como sustitutos de un tratamiento

estadístico de los datos, sino más bien como ayuda visual para interpretar problemas estadísticos.

Debe ser sencillo y explicativo; en un buen gráfico se puede:Apreciar tendencias, variaciones, cambios y realizar

visualmente comparaciones.Relacionar 2 o más series de datos superpuestos en un

mismo gráfico.

GRÁFICO PARA VARIABLES CUANTITATIVAS

Un gráfico estadístico está constituido por 4 partes: Número Titulo, cuerpo y fuente.

0123456789

30-36 37-43 44-50 51-57 58-64 65-71

de

Ag

ricu

ltor

es

Edad

Gráfica Nº 1Agricultores, según edad. Olmos- Lambayeque.

Años 2011.

b) Variable continua Es una variable que admite valores numéricos reales, es

decir, que pueden contener décimas, centésimas, milésimas, etc. La precisión de la observación, en este tipo de variable, sólo se ve limitado por el método o instrumento con el cual se mide. EdadTemperatura

 Para la presentación tabular, se utiliza la tabla de frecuencia univariable. En casos de tener una gran cantidad de datos, estos pueden ser agrupados en intervalos.

Para la presentación gráfica se utiliza un

histograma:

Edad

02468

10

30-36 37-43 44-50 51-57 58-64 65-71

Clase Edad Xi fi Fi hi% Hi% Límites reales

1 30 – 36 33 1 1 3.3 3.3 29.5 – 36.52 37 – 43 40 7 8 23.3 26.6 36.5 – 43.53 44 – 50 47 3 11 10.0 36.6 43.5 – 50.54 51 – 57 54 3 14 10.0 46.6 50.5 – 57.55 58 – 64 61 8 22 26.7 73.3 57.5 – 64.56 65 – 71 68 8 30 26.7 100 64.5 – 71.5

30

Histograma

Muestra la distribución de datos cuantitativos

El área es proporcional a la frecuencia respectiva

Representa a la frecuencias absolutas o relativas

Tiene como base los límites reales de los intervalos de clase.

GRAFICO N° 4 AGRICULTORES, SEGÚN EDAD. OLMOS-LAMBAYEQUE.

AÑO 2011

0

4

8

12

16

20

33 40 47 54 61 68

Edad (años)

mer

o d

e agri

cult

ore

s

Fuente: del cuadro N°3

Clase Edad Xi fi Fi hi% Hi% Límites reales

1 30 – 36 33 29.5 – 36.52 37 – 43 40 36.5 – 43.53 44 – 50 47 43.5 – 50.54 51 – 57 54 50.5 – 57.55 58 – 64 61 57.5 – 64.56 65 – 71 68 64.5 – 71.5

Polígono de frecuencias (simples), Este gráfico se obtiene uniendo los

puntos medios superiores de los rectángulos del histograma, formándose de esta manera un gráfico lineal, el cual debe llevarse hasta el eje x en los extremos del límite inferior del primer intervalo y superior del último intervalo respectivamente.

El área total bajo el polígono equivale al área del histograma.

GRAFICO N° 5 AGRICULTORES, SEGÙN EDAD. OLMOS-LAMBAYEQUE.

AÑO 2011

0

4

8

12

16

20

33 40 47 54 61 68

Edad (años)

mer

o d

e ag

ricu

ltor

es

Fuente: Cuadro N°3

Agricultores, según edad. Olmos-Lambayeque. Años 2011

Polígono de frecuencias (acumuladas) OJIVA

Denominado también ojiva, utiliza las

frecuencias absolutas o relativas acumuladas, y consiste en un gráfico lineal que nos permite observar la cantidad de elementos que quedan por encima o por debajo de determinados valores de los límites de los intervalos de clase.

La ojiva se obtiene uniendo los puntos que le corresponden a las frecuencias acumuladas de los respectivos límites superiores de cada intervalo.

GRAFICO N°6HISTOGRAMA Y POLIGONO DE FRECUENCIAS RELATIVAS ACUMULADAS

AGRICULTORES, SEGÚN EDAD. OLMOS-LAMBAYEQUE. AÑO 2011

0

20

40

60

80

100

33 40 47 54 61 68

Edad (años)

H¡%

Fuente: Archivos. Consejo distrital de Olmos. Años 2011

top related