2° clase. presentación de datos

46
ESTADÍSTICA PRESENTACIÓN DE LOS DATOS DE VARIABLES CUANTITATIVAS Bio.Est. Wilver Rodríguez López. M.Sc. UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO ESCUELA DE INGENIERÍA AGRÍCOLA

Upload: edesmit

Post on 04-Aug-2015

858 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 2° clase. presentación de datos

ESTADÍSTICA

PRESENTACIÓN DE LOS DATOS DE VARIABLES CUANTITATIVAS

Bio.Est. Wilver Rodríguez López. M.Sc.

UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO

ESCUELA DE INGENIERÍA AGRÍCOLA

Page 2: 2° clase. presentación de datos

Recolección de datos

• En una investigación, la recolección de los datos es un paso crucial e indispensable.

• Los datos se obtienen de una medición o de un conteo de las variables de interés (cuantitativas o cualitativas) en la población o muestra.

Page 3: 2° clase. presentación de datos

Datos de una muestra de 30 agricultores registrados en la comunidad de Olmos. Lima. Año 2011 .

Agricultos

Zona de Procedenci

a

Edad Sexo

1 N 30 M2 N 43 M3 C 58 F4 S 61 M5 N 70 M6 O 42 F7 S 58 F8 N 39 M9 C 60 F10 C 55 M11 S 57 M12 N 49 M13 N 61 F14 O 69 M15 O 43 M16 C 46 F17 N 69 M18 N 44 M19 S 59 F20 O 62 M21 O 66 M22 S 71 M23 S 70 F24 S 65 M25 O 37 M26 N 40 F27 N 61 F28 C 65 M29 C 56 M30 S 38 M

Page 4: 2° clase. presentación de datos

Presentación de datos

 Después de recopilar y revisar los datos necesarios para la investigación, se deben clasificar y presentar de forma adecuada para permitir su análisis e interpretación.

Page 5: 2° clase. presentación de datos

Caso de las variables cuantitativas discretas 

Las variables cuantitativas discretas son:Aquellas representadas sólo por números

enteros, como número de hijos, número de pulsaciones por minuto, número de dientes cariados, número de camas por centro de salud, etc.

Se creará una tabla de frecuencias a partir de la siguiente información de 20 agricultores: Agricult

or1 2 3 4 5 6 7 8 9 1

011

12

13

14

15

# de hijos

3 2 0 5 4 0 1 0 1 2 2 1 4 3 0

Page 6: 2° clase. presentación de datos

Haciendo un conteo de la información, se puede establecer que de los 15 agricultores 4 de ellos no tienen hijos, 3 de ellos tienen un hijo, 3 de ellos tienen dos hijos, 2 de ellos tienen tres hijos, 2 de ellos tienen cuatro hijos y sólo 1 tiene más de 4 hijos.

Estas cifras constituyen la frecuencia absoluta simple (fi) de cada valor (0, 1, 2, 3, 4 y más de 4)

Con esta información se puede hallar también las frecuencias absolutas acumuladas (Fi = F(i-1) + fi).

Para obtener la frecuencia relativa simple (hi%) se procede a aplicar la fórmula establecida (fi/n x 100).

Finalmente, la frecuencia relativa acumulada (Hi%) también se halla con la fórmula correspondiente (Fi/n x 100).

Agricultos

1 2 3 4 5 6 7 8 9 10

11

12

13

14

15

# de hijos

3 2 0 5 4 0 1 0 1 2 2 1 4 3 0

# de hijos fi Fi hi% Hi%01 2 3 4

más de 4 TOTAL

Page 7: 2° clase. presentación de datos

El resultado es la siguiente tabla de frecuencias:

# de hijos fi Fi hi% Hi%0 4 4 26.7 26.71 3 7 20 46.72 3 10 20 66.73 2 12 13.3 804 2 14 13.3 93.3más de 4 1 15 6.7 100

TOTAL 15 100

Page 8: 2° clase. presentación de datos

Gráfica para variable cuantitativa discreta

Gráfica de Barras

0

5

10

15

20

25

30

0 1 2 3 4 Más de 4

% d

e ag

ricu

ltor

es

Número de hijos

Gráfica Nº 1Agricultores, según número de hijos. Comunidad de Olmos. Año

2011

Page 9: 2° clase. presentación de datos

Caso de las variables cuantitativas continuas

En el caso de las variables continuas, hay una cantidad muy grande de posibles valores.

Cuando se manejan más de 30 observaciones es necesario usar intervalos que permitan ordenar de forma práctica los valores.

Sólo cuando se dividen los valores en intervalos encontramos en la tabla de frecuencias: clase, marca de clase y límites reales.

Para crearlos existe un procedimiento e implica la aparición de 3 nuevas columnas:

Clase: indica el número de intervalo del que se trata. Marca de clase (Xi): es un promedio de los límites del intervalo

de clase i. Es el número representativo del intervalo. Límites reales: cada intervalo tiene números que representan

sus límites, pero los límites reales indican los verdaderos valores que toma una medición, ya que los límites nominales son aparentes.

Page 10: 2° clase. presentación de datos

PROCEDIMIENTO PARA CONSTRUIR TABLAS DE FRECUENCIAS

1.- Encontrar la amplitud (A) del conjunto de datos, es decir el valormáximo menos el valor mínimo, mas una unidad de medida.

A=(Vmax - Vmin)+ 1

Ejemplo.- Considerando los datos de edad dado en el tabla tenemos:

A=(71 - 30) + 1= 42

Nota: Si los valores máximo y mínimo están expresados hastadécimas se incrementará un décimo (0.1); si los valores estánexpresados en centésimos, se agregará un centésimo (0.01) y así sucesivamente.

Page 11: 2° clase. presentación de datos

2-Determinar el número de intervalos (k), utilizando la siguiente fórmula:

k= 1 + 3.322 log n

En relación al ejemplo se tiene que:k=1 + 3.322 log 30 = 5.9

En este caso K puede ser: 4, 5 o 6; se elige el valor que es submúltiplo de A, es decir 6 . Asumiendo K= 6

3-Determinar la amplitud del intervalo de clase (C), utilizando la siguiente expresión:

C= A / k

Para nuestro ejemplo: C= 42 / 6 = 7

Page 12: 2° clase. presentación de datos

4- Determinar los límites. El Vmin es el límite inferior de la primera clase y su respectivo límite superior será Vmin + (C-1); el límite inferior de la segunda clase es el límite superior de la primera clase mas uno y el respectivo límite superior será igual al límite inferior mas (C-1); y así sucesivamente hasta completar el número de intervalos. En relación al ejemplo se tiene:

30-36

37-43

44-50

51-57

58-64

65-71

Edadmínima

Edadmáxima

30 + (7 – 1 )

36 + 7, así sucesivamente

30 + 7, así sucesivamente

Page 13: 2° clase. presentación de datos

Nota: Si los límites están expresados hasta décimas entonces se tendrá que el límite superior de la primera clase es:Vmin + (C-0.1);

si está expresado hasta centésimas seráVmin + (C-0.01) y así sucesivamente.

5- La clasificación de los datos de una variable continua puede hacerse manualmente o en forma automatizada.

Page 14: 2° clase. presentación de datos

Clase Edad Xi fi Fi hi% Hi% Límites reales

1 30 – 36

2 37 – 43

3 44 – 50

4 51 – 57

5 58 – 64

6 65 – 71

30 100

A = 42K = 6C = 7

Agricultor

Edad

1 302 433 584 615 706 427 588 399 60

10 5511 5712 4913 6114 6915 4316 4617 6918 4419 5920 6221 6622 7123 7024 6525 3726 4027 6128 6529 5630 38

30-36 37-43 44-50 51-57 58-64 65-71

Page 15: 2° clase. presentación de datos

Clase Edad Xi fi Fi hi% Hi%Límites reales

1 30 – 36 33 1 1 3.3 3.3 29.5 – 36.5

2 37 – 43 40 7 8 23.3 26.6 36.5 – 43.5

3 44 – 50 47 3 11 10.0 36.6 43.5 – 50.5

4 51 – 57 54 3 14 10.0 46.6 50.5 – 57.5

5 58 – 64 61 8 22 26.7 73.3 57.5 – 64.5

6 65 – 71 68 8 30 26.7 100 64.5 – 71.5

30 100

TABLA DE FRECUENCIAS

Page 16: 2° clase. presentación de datos

Otra forma de formar intervalos de clase.

Determinar el Rango: R= Vmax – Vmin R= 71-30= 41Nº de intervalos: K= 1+3,32log(n) K= 1+3,32log(30)= 5,9 ⇛6Amplitud de cada intervalo: C=R/K C=41/6 = 6,8 ⇛7Nuevo Rango de Trabajo: Rt = KxC =6x7=42Exceso: E=Rt-R= 42-41=1Primer Intervalo: 29 36

Page 17: 2° clase. presentación de datos

Clase Edad Xi fi Fi hi% Hi%

1 29 – 36 32,5 1 1 3.3 3.3

2 36 – 43 39,5 7 8 23.3 26.6

3 43 – 50 46,5 3 11 10.0 36.6

4 50 – 57 53,5 3 14 10.0 46.6

5 57 – 64 60,5 8 22 26.7 73.3

6 64 – 71 67,5 8 30 26.7 100

30 100

TABLA DE FRECUENCIAS

Page 18: 2° clase. presentación de datos

Propiedades de las frecuencias Las frecuencias absolutas son siempre valores

enteros. La suma de las frecuencias absolutas es igual

n. Las frecuencias relativas son siempre valores

fraccionarios. O < h1 < 1

La suma de las frecuencias relativas es igual 1 El último valor de las frecuencias absolutas

acumuladas es igual a n El último valor correspondiente a las

frecuencias relativas debe ser igual a 1

Page 19: 2° clase. presentación de datos

donde:

fi: Frecuencia absoluta del i-ésimo intervalo, nos indica número de veces que aparece repetido dicho valor en el conjunto de observaciones estudiadas.

Fi: Frecuencia absoluta acumulada de la clase i nos indica la suma de las frecuencias absolutas de los iguales o inferiores a el.

F1=f1F2=f1+f2

hi%: Frecuencia relativa de la clase i es el cociente entre la frecuencia absoluta y el número total de observaciones multiplicando por 100.

hi% = fi/n*100

Page 20: 2° clase. presentación de datos

Hi%: Frecuencia relativa acumulada de la clase i, es la frecuencia absoluta acumulada dividido por el número total de observaciones. Hi% = Fi/n*100

Xi: Es la marca de clase de la clase i se determina mediante el promedio de los límites de dicho intervalo.

Limites reales: Si los límites nominales de los intervalos de clase están expresados en enteros los límites reales de cada intervalo se determina restando y sumando media unidad al límite inferior y superior respectivamente de cada intervalo.

Page 21: 2° clase. presentación de datos

Otra alternativa de clasificación de datos:

Gráfico de Tallo-Hoja

Page 22: 2° clase. presentación de datos

Un diagrama de tallos y hojas consiste en una serie de hileras horizontales de números. El número utilizado para designar una hilera es un tallo y el resto de números en la hilera se denominan hojas.

Page 23: 2° clase. presentación de datos

Se tienen los siguientes datos –perímetro de tallo (cm) de una muestra de plantas, por ejemplo- ordenados de forma creciente:

33.1 33.4 33.6 33.7 33.7 33.8 33.9 34.0

34.1 34.2 34.2 34.2 34.2 34.2 34.3 34.3

34.5 34.5 34.6 34.6 34.6 34.7 34.7 34.8

34.9 35.1 35.1 35.2 35.2 35.3 35.6 35.8

36.0 36.1 36.5

Page 24: 2° clase. presentación de datos

Para la clasificación de datos, se deben identificar los valores entre los cuales se encuentra la distribución, es decir, el dato menor y el dato mayor.

Dato menor: 33.1cmDato mayor: 36.5cm

33.1 33.4 33.6 33.7 33.7 33.8 33.9 34.034.1 34.2 34.2 34.2 34.2 34.2 34.3 34.334.5 34.5 34.6 34.6 34.6 34.7 34.7 34.834.9 35.1 35.1 35.2 35.2 35.3 35.6 35.836.0 36.1 36.5

Page 25: 2° clase. presentación de datos

Se deben identificar los tallos -los números que van a designar las hileras- los cuales deben contener a todos los valores de la distribución (del 33.1 al 36.5). La elección de los tallos depende de la unidad con la que se quiera trabajar: enteros, décimas, centésimas... En el caso del ejemplo, los datos están dados indicando décimas por lo que trabajar con tallos enteros es la opción más precisa y cómoda.

Los tallos serían entonces: 33, 34, 35 y 36.

Page 26: 2° clase. presentación de datos

Sin embargo, no se puede realizar un diagrama de tallos y hojas con menos de 5 tallos. Por lo tanto, los tallos propuestos se deben dividir (desdoblar) en una especie de intervalo, produciendo el doble. La división del tallo debe distinguirse visualmente:

33.1 33.4 33.6 33.7 33.7 33.8 33.9 34.034.1 34.2 34.2 34.2 34.2 34.2 34.3 34.334.5 34.5 34.6 34.6 34.6 34.7 34.7 34.834.9 35.1 35.1 35.2 35.2 35.3 35.6 35.836.0 36.1 36.5

Page 27: 2° clase. presentación de datos

Seguidamente, se realiza el proceso de clasificación en sí. Todos los datos, dependiendo de su valor, se colocan a lado de su respectivo tallo. En el ejemplo, los datos cuyo valor se encuentre entre 33.0 y 33.4 se deben colocar en la hilera del tallo 33*. Se debe indicar el valor decimal exacto de cada dato a la derecha del tallo. En el ejemplo hay 2 valores entre 33.0 y 33.4. Para clasificar el primero (33.1) se agrega al diagrama de tallos y hojas de la siguiente manera:

33*1› Para clasificar el segundo dato que

corresponde a este tallo (33.4):  33*14

Page 28: 2° clase. presentación de datos

Lo mismo se realiza con cada tallo y lo valores que le correspondan:

en la hilera del tallo 33. se debe colocar los números 67789, correspondientes a los valores 33.6, 33.7, 33.7, 33.8, 33.8 y 33.9.

a la hilera del tallo 34* se debe colocar 012222233 correspondientes a los valores que se encuentran entre 34.0 y 34.4.

etc.

Page 29: 2° clase. presentación de datos

Al clasificar todos los valores en sus tallos respectivos, se obtiene el diagrama:

Page 30: 2° clase. presentación de datos

Análisis de la distribución usando Tallos y Hojas

Las principales características de la distribución que se observan fácilmente en el diagrama de tallos y hojas son: Hay 35 observaciones. El dato menor es 33.1cm. El dato mayor es 36.5cm. El rango de los valores observados es de

3.4cm (dato mayor – dato menor).

De los 35 datos, 18 están alrededor de 34cm. Los casos mayores a 36cm son pocos. La distribución de los datos es asimétrica:

distribución heterogénea.

Page 31: 2° clase. presentación de datos

Presentación de datos de variables cuantitativas

 La presentación de los datos se hace fundamentalmente utilizando dos métodos:

el método tabular y el método gráfico.

Page 32: 2° clase. presentación de datos

2.2.1 Método tabularConsiste en una presentación resumida de la

información usando tablas o cuadros, pudiendo ser estos univariantes o bivariantes.

Si se utiliza este método se debe asegurar la implementación de los 5 elementos que constituyen a los cuadros y tablas: Númerotítulo, Cuerpo, Fuente y notas aclaratorias. (Opcional)

Page 33: 2° clase. presentación de datos

Título Es un enunciado breve e informativo

acerca del contenido del cuadro. El título ideal debe contestar las

siguientes preguntas: ¿Qué contiene el cuadro? (¿QUE?) ¿Cómo se presenta este contenido?(¿COMO?) ¿De dónde se presenta? (¿DONDE?) ¿Cuándo se obtuvo la información? (¿CUANDO?)

Page 34: 2° clase. presentación de datos

Ejemplo:

Se tiene una muestra de 60 agricultores provenientes de 4 zonas del país, inscritos en la comunidad de Olmos en el año 2011.

El titulo se redactaría contestando a: ¿Qué?: Agricultores inscritos en la

comunidad de Olmos año 2011 ¿Cómo?: Zona de procedencia ¿Dónde?: Olmos- Lambayeque ¿Cuándo?: 2011

Page 35: 2° clase. presentación de datos

CuerpoContiene la información que se obtuvo de las

observación de la(s) variable(s) que se quiere(n) presentar. En este caso, está conformado por las frecuencias y porcentajes respectivos a las observaciones de edad.  

Notas aclaratorias Generalmente se presenta como ‘Fuente’, y es en

donde se indica el lugar de donde se obtuvo la información.

Por ejemplo:Fuente: Archivos de consejo distrital de Olmos. Años

2011.

Page 36: 2° clase. presentación de datos

Si se presenta la información con intervalos de clase, en caso de tratarse de variables continuas, el título también cambia. Por ejemplo, si la información de los 30 agricultores según la edad y con intervalos de clase, el título sería:

Cuadro #3: Agricultores, según edad. Olmos- Lambayeque. Años 2011.

Edad Número Porcentaje30 – 36 1 3.337 – 43 7 23.344 – 50 3 1051 – 57 3 1058 – 64 8 26.765 – 71 8 26.7Total 30 100

Fuente: Archivos del consejo distrital de Olmos. Año 2011.

Page 37: 2° clase. presentación de datos

Método GráficoEn esencia, un gráfico estadístico es la presentación de la

información por medio de figuras geométricas. El objetivo primordial de un gráfico es dar una impresión

visual de conjunto para una rápida y fácil comprensión. No deben considerarse como sustitutos de un tratamiento

estadístico de los datos, sino más bien como ayuda visual para interpretar problemas estadísticos.

Debe ser sencillo y explicativo; en un buen gráfico se puede:Apreciar tendencias, variaciones, cambios y realizar

visualmente comparaciones.Relacionar 2 o más series de datos superpuestos en un

mismo gráfico.

Page 38: 2° clase. presentación de datos

GRÁFICO PARA VARIABLES CUANTITATIVAS

Page 39: 2° clase. presentación de datos

Un gráfico estadístico está constituido por 4 partes: Número Titulo, cuerpo y fuente.

0123456789

30-36 37-43 44-50 51-57 58-64 65-71

de

Ag

ricu

ltor

es

Edad

Gráfica Nº 1Agricultores, según edad. Olmos- Lambayeque.

Años 2011.

Page 40: 2° clase. presentación de datos

b) Variable continua Es una variable que admite valores numéricos reales, es

decir, que pueden contener décimas, centésimas, milésimas, etc. La precisión de la observación, en este tipo de variable, sólo se ve limitado por el método o instrumento con el cual se mide. EdadTemperatura

 Para la presentación tabular, se utiliza la tabla de frecuencia univariable. En casos de tener una gran cantidad de datos, estos pueden ser agrupados en intervalos.

Para la presentación gráfica se utiliza un

histograma:

Edad

02468

10

30-36 37-43 44-50 51-57 58-64 65-71

Clase Edad Xi fi Fi hi% Hi% Límites reales

1 30 – 36 33 1 1 3.3 3.3 29.5 – 36.52 37 – 43 40 7 8 23.3 26.6 36.5 – 43.53 44 – 50 47 3 11 10.0 36.6 43.5 – 50.54 51 – 57 54 3 14 10.0 46.6 50.5 – 57.55 58 – 64 61 8 22 26.7 73.3 57.5 – 64.56 65 – 71 68 8 30 26.7 100 64.5 – 71.5

30

Page 41: 2° clase. presentación de datos

Histograma

Muestra la distribución de datos cuantitativos

El área es proporcional a la frecuencia respectiva

Representa a la frecuencias absolutas o relativas

Tiene como base los límites reales de los intervalos de clase.

Page 42: 2° clase. presentación de datos

GRAFICO N° 4 AGRICULTORES, SEGÚN EDAD. OLMOS-LAMBAYEQUE.

AÑO 2011

0

4

8

12

16

20

33 40 47 54 61 68

Edad (años)

mer

o d

e agri

cult

ore

s

Fuente: del cuadro N°3

Clase Edad Xi fi Fi hi% Hi% Límites reales

1 30 – 36 33 29.5 – 36.52 37 – 43 40 36.5 – 43.53 44 – 50 47 43.5 – 50.54 51 – 57 54 50.5 – 57.55 58 – 64 61 57.5 – 64.56 65 – 71 68 64.5 – 71.5

Page 43: 2° clase. presentación de datos

Polígono de frecuencias (simples), Este gráfico se obtiene uniendo los

puntos medios superiores de los rectángulos del histograma, formándose de esta manera un gráfico lineal, el cual debe llevarse hasta el eje x en los extremos del límite inferior del primer intervalo y superior del último intervalo respectivamente.

El área total bajo el polígono equivale al área del histograma.

Page 44: 2° clase. presentación de datos

GRAFICO N° 5 AGRICULTORES, SEGÙN EDAD. OLMOS-LAMBAYEQUE.

AÑO 2011

0

4

8

12

16

20

33 40 47 54 61 68

Edad (años)

mer

o d

e ag

ricu

ltor

es

Fuente: Cuadro N°3

Agricultores, según edad. Olmos-Lambayeque. Años 2011

Page 45: 2° clase. presentación de datos

Polígono de frecuencias (acumuladas) OJIVA

Denominado también ojiva, utiliza las

frecuencias absolutas o relativas acumuladas, y consiste en un gráfico lineal que nos permite observar la cantidad de elementos que quedan por encima o por debajo de determinados valores de los límites de los intervalos de clase.

La ojiva se obtiene uniendo los puntos que le corresponden a las frecuencias acumuladas de los respectivos límites superiores de cada intervalo.

Page 46: 2° clase. presentación de datos

GRAFICO N°6HISTOGRAMA Y POLIGONO DE FRECUENCIAS RELATIVAS ACUMULADAS

AGRICULTORES, SEGÚN EDAD. OLMOS-LAMBAYEQUE. AÑO 2011

0

20

40

60

80

100

33 40 47 54 61 68

Edad (años)

H¡%

Fuente: Archivos. Consejo distrital de Olmos. Años 2011