bioestadistica - medidas descriptivas

22
Prof. Ingº MSc. Carmen Lugo Delgado UNEFM. CIENCIAS VETERINARIAS I UNIDAD: ESTADISTICA DESCRIPTIVA BIOESTADÍSTICA TEMA 3: MEDIDAS DESCRIPTIVAS

Upload: david-poleo

Post on 15-Apr-2017

368 views

Category:

Education


4 download

TRANSCRIPT

Page 1: Bioestadistica - Medidas descriptivas

Prof. Ingº MSc. Carmen Lugo Delgado

UNEFM. CIENCIAS VETERINARIAS

I UNIDAD: ESTADISTICA DESCRIPTIVA

BIOESTADÍSTICA

TEMA 3: MEDIDAS DESCRIPTIVAS

Page 2: Bioestadistica - Medidas descriptivas

Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado

TEMA 3: Medidas Descriptivas:

Medidas de Posición:

Medidas de Dispersión.

Medidas de Forma.

Cuando se procesa la información recopilada en el desarrollo de un estudio,

generalmente se dispone de una gran cantidad de datos. Si bien es cierto que las

tablas de frecuencia y los gráficos ayudan a resumir toda la información recopilada,

de manera que pueda apreciarse con más facilidad las características

fundamentales, muchas veces es necesario disponer de otras mediciones que

sinteticen aun mas las características básicas de la serie de datos. Es conveniente

por ejemplo, poder disponer de dos mediciones básicas: a) una medida que

simplifique y represente apropiadamente a toda la serie; b) una medida que indique

que tan variable o que tan dispersos son los datos con respecto a una valor de

referencia.

● Medidas de Posición:

Las medidas de posición son valores de la variable alrededor de los cuales tienden a

concentrarse o ubicarse los restantes valores que conforman la serie de datos.

Corresponden a las mediciones más representativas de conjunto de datos. Las

medidas de posición pueden ser:

a) Medidas de Posición Central: Para una serie de datos, es un valor único que

corresponden al valor medio de la serie. Las medidas centradas más utilizadas

son: la Media Aritmética, la Moda y la Mediana.

b) Medidas de Posición no Centrales: Para la serie de datos una vez dispuestos los

valores en orden de magnitud, corresponden a unos cuantos valores que indican

determinadas posiciones. Las mas utilizadas son: Los Cuartiles, los Deciles y los

Centiles.

Medidas de Posición Central:

Media Aritmética:

Para una serie de datos la Media Aritmética corresponde a la sumatoria de todos los

valores registrados entre el número total de datos.

Page 3: Bioestadistica - Medidas descriptivas

Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado

Cuando los datos se encuentran sin agrupar, la media aritmética se calcula:

Población: N

xi Media aritmética

xi x1, x2, x3, …. xn N Número total de datos.

Muestra: n

xix x Media aritmética

xi x1, x2, x3, …. xn n Número total de datos

Para datos agrupados, la media se calcula:

Población:

ni Frecuencia absoluta ni Número total de datos

Muestra:

Mediana (Me):

Para una serie de datos ordenada en forma creciente, la mediana corresponde al

valor central, es decir el valor medio que divide a la serie de datos en dos grupos con

exactamente la misma cantidad de observaciones. El 50% de los datos serán

inferiores a la mediana y el restante 50% serán superiores.

Para el cálculo de la mediana se debe considerar el número total de datos. Si este es

impar, la mediana corresponde al valor central. Cuando en número total de datos es

par, la mediana corresponde a la media aritmética de los dos valores centrales.

ni

nixi *

ni

nixix

*

Page 4: Bioestadistica - Medidas descriptivas

Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado

Cuando los datos se encuentran agrupados en intervalos de clase, es necesario

estimar la mediana, para ello se puede utilizar la formula siguiente:

IAfa

FAANLiMeMe .

2/

Donde:

Me Mediana.

LiMe Límite inferior de la clase que contiene a la Mediana.

2/N Número total de datos 2 (Indica la clase que contiene a la

Mediana).

FAA Frecuencia Absoluta Acumulada hasta la clase anterior a la clase

que contiene a la Mediana.

fa Frecuencia absoluta de la clase que contiene a la Mediana.

Moda (Mo):

Para una serie de datos, la Moda (Mo) corresponde a la clase o valor que se repite

con mayor frecuencia. Una serie de datos puede presentar más de una moda. Si dos

valores de la serie presentan frecuencias similares, se dice que la serie es bimodal.

Si tres valores presentan similares frecuencias, se dice que es trimodal, etc.

Las variables cuantitativas continuas no presentan moda. Sin embargo, si los datos

resultantes de este tipo de variables se han agrupado en intervalos de clase, la moda

se puede estimar a través de la formula:

IAdd

dLiMoMo .

21

1

Donde:

Mo Moda

LiMo Límite inferir de la clase que contiene a la Moda (intervalo de clase con la

mayor frecuencia absoluta).

1d Diferencia entre la frecuencia absoluta del intervalo de clase que contiene

a la moda y la frecuencia del intervalo anterior.

2d Diferencia entre la frecuencia absoluta del intervalo de clase que contiene

a la moda y la frecuencia del intervalo siguiente.

..IA Amplitud del intervalo.

Page 5: Bioestadistica - Medidas descriptivas

Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado

Cálculo de las Medidas de Posición Central para Datos no Agrupados:

Ejemplo Nº 5. En una granja porcina se seleccionó una muestra conformada por 10

hembras de primera gestación y se contabilizó el número de

lechones nacidos de cada una de ellas.

8 12 13 16 8 12 10 8 8 10

Arreglo de Datos:

8 8 8 8 10 10 12 12 13 16

Para este ejemplo, cada madre tuvo en promedio 10,5 lechones.

Este resultado indica que el 50 % de las madres tuvieron 10 lechones o menos.

Mediana:

N=10 (Par) La mediana es el valor que ocupa la posición: N/2 10/2= 5

Me= Promedio de los valores ubicados en las posiciones nº 5 y 6

Me= (10+10) / 2

Me 10 lechones

Media Aritmética: n

xix

10

1613121210108888x

5,1010

105x Lechones/madre

Page 6: Bioestadistica - Medidas descriptivas

Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado

Cálculo de las Medidas de Posición Central para Datos Agrupados:

Para ilustrar el cálculo de las medidas de posición central para datos agrupados se

hará uso de los ejemplos 2 y 4.

Ejemplo Nº 2. Número de cuartos de ubre afectados por mastitis en un rebaño de

vacas mestizas ¾ Holteins. Municipio Federación. Falcón. Venezuela.

2009.

Nº CUARTOS ni

0 1 2 3 4

13 8 5 3 1

30

La media aritmética indica que cada vaca en producción de este rebaño tiene 1,03

cuartos de ubre afectados por mastitis.

Media Aritmética: ni

nixix

*

135813

)14()33()52()81()130(x

03,130

31x Cuartos/vaca

Moda:

Camadas con 8 lechones se observan 4 veces.

Mo 8 lechones

Page 7: Bioestadistica - Medidas descriptivas

Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado

El 50 % de estas vacas tiene uno o ninguno de los cuartos afectados, el restante 50%

tiene uno a mas cuartos afectados por mastitis.

En este caso se puede considerar que existen dos modas, por lo que la serie es

bimodal.

Datos Agrupados en intervalos de clase:

Ejemplo Nº 4. Valores de glicemia registrados en caninos de compañía atendidos

en La Clínica Veterinaria Santa Ana, Coro. Estado Falcón durante

Diciembre de 2009.

Li Ls P.M ni Ni

52 62 72 82 92

102 112

62 72 82 92

102 112 122

57 67 77 87 97

107 117

5 7

11 11 7 6 3

5 12 23 34 41 47 50

Moda:

0 se repite 13 veces Mo 0 (Moda absoluta)

1 se repite 8 veces Mo 1 (Moda relativa)

Mo 0

Mo 1

Mediana:

N=30 (par) La mediana es el valor que ocupa la posición N/2 30/2= 15

Me= Promedio de los valores ubicados en las posiciones nº 15 y 16

Me= (1+1) /2

Me 1 Cuarto

Page 8: Bioestadistica - Medidas descriptivas

Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado

Para el cálculo de la mediana se debe considerar:

LiMe Límite inferior del intervalo que contiene a la mediana, se localiza dividiendo

el número total de datos entre 2. En este caso: N/2= 50/2= 25.

La observación nº 25 se localiza en el intervalo de clase: 82 – 92.

N/2= 50/2= 25

FAA La frecuencia acumulada hasta el intervalo anterior al que contiene a al

mediana es 23.

fa La frecuencia absoluta del intervalo que contiene a la mediana es 11.

..IA La amplitud del intervalo que contiene a la mediana es 92 – 82= 10.

Mediana: ..2/

IAfa

FAANLiMeMe

1011

232582Me

82,83Me mg/dl

Media Aritmética: ni

nixix

367111175

)3117()6107()797()1187()1177()767()557(x

6,8450

4230x mg/dl

Page 9: Bioestadistica - Medidas descriptivas

Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado

Para el cálculo de la moda se debe considerar:

LiMo Límite inferior del intervalo con la más alta frecuencia: 72 – 82.

1d Diferencia entre la frecuencia absoluta del intervalo que contiene a la moda

y la frecuencia del intervalo anterior.

2d Diferencia entre la frecuencia absoluta del intervalo que contiene a la moda

y la frecuencia del intervalo siguiente.

..IA La amplitud del intervalo que contiene a la mediana es 82 –72= 10.

En este ejemplo referido a los valores de glicemia de caninos de compañía atendidos

en una clínica veterinaria, se puede considerar que el valor promedio de glicemia es

de 84,6 mg/dl.. La mediana indica que el 50% de los caninos presenta valore s de

glicemia iguales o inferiores a 83,82 mg/dl.. El cálculo de la moda indica que 82 mg/dl

debería ser el valor con la mayor frecuencia.

Moda: ..21

1IA

dd

dLiMoMo

10)1111(711

71172Mo

Mo 82 mg/dl

Page 10: Bioestadistica - Medidas descriptivas

Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado

Medidas de Posición No Central:

Cuartiles:

Son los tres (3) valores que dividen la serie de datos previamente ordenada creciente o decrecientemente, en cuatro partes iguales, cada una de ellas con el 25% de los datos.

Para datos sin agrupar los cuartiles se calculan:

Q1= N ¼ Q2= N ½ Q3= N ¾

Cuando los datos se encuentran agrupados en intervalos de clase, para estimar el

valor correspondiente a los cuartiles, es necesario emplear una fórmula similar a la

empleada para estimar la mediana.

..4/1

11 IAfa

FAANLiQQ

..2/1

22 IAfa

FAANLiQQ

..4/3

33 IAfa

FAANLiQQ

Page 11: Bioestadistica - Medidas descriptivas

Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado

Deciles:

Son los nueve (9) valores que dividen la serie de datos previamente ordenada en forma creciente o decreciente, en diez partes iguales, cada una de ellas contiene el

10% de los datos.

Para datos sin agrupar los deciles se calculan de manera similar a los cuartiles:

D1= N 1/10 D3= N 3/10 D9= N 9/10

Cuando los datos se encuentran agrupados en intervalos de clase los deciles se

calculan con una fórmula similar a la empleada para estimar los cuartiles, así por

ejemplo para estimar el tercer decil:

..10/3

33 IAfa

FAANLiDD

Centiles o Percentiles:

Son los noventa y nueve (99) valores que dividen la serie de datos una vez ordenada en forma creciente o decreciente, en cien partes iguales, cada una de ellas contiene el 1% de los datos. Para determinar los centiles de una serie de datos se debe proceder de manera similar que para el cálculo de cuartiles y deciles, solo que el divisor es la centena. Así por ejemplo si se deseara estimar el centil 45:

Datos no agrupados: C45= N 45/100

Datos agrupados: ..100/45

4545 IAfa

FAANLiCC

D1 D2 D3 D4 D5 D6 D7 D8 D9

Page 12: Bioestadistica - Medidas descriptivas

Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado

Cálculo de las Medidas de Posición no Central para Datos Agrupados en intervalos de clase:

Ejemplo Nº 4. Valores de glicemia registrados en caninos de compañía atendidos

en la Clínica Veterinaria Santa Ana. Coro. Estado Falcón durante

diciembre de 2009.

Li Ls P.M ni Ni

52 62 72 82 92

102 112

62 72 82 92

102 112 122

57 67 77 87 97

107 117

5 7

11 11 7 6 3

5 12 23 34 41 47 50

Cuartiles:

Cuartil 2: ..2/1

22 IAfa

FAANLiQQ

Mediana

1011

2325822Q

82,832Q mg/dl

Cuartil 1: ..4/1

11 IAfa

FAANLiQQ

1011

125,12721Q

45,721Q mg/dl

Page 13: Bioestadistica - Medidas descriptivas

Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado

Al estimar los valores correspondientes a los cuartiles mediante la fórmula para datos

agrupados se tiene que:

El 25 % de los caninos atendidos en esta clínica presentan valores de

glicemia menores o iguales a 72,45 mg/dl.

El 50 % presenta valores menores o iguales a 83,82 mg/dl.

Un 25% presentaría valores de glicemia superiores a 97,0 mg/dl

Deciles:

El 40% de los caninos presentan valores de glicemia menores o iguales a 79,3

mg/dl.

Decil 4: ..10/4

44 IAfa

FAANLiDD

10

11

1220724D

3,794D mg/dl

Cuartil 3: ..4/3

33 IAfa

FAANLiQQ

107

345,37923Q

0,973Q mg/dl

Page 14: Bioestadistica - Medidas descriptivas

Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado

Medidas de Variabilidad o de Dispersión:

Una medida de variabilidad es un valor numérico que permiten medir las variaciones

que presentan los datos de una serie, cuando se agrupan alrededor de alguna

medida de tendencia central. Generalmente cuando se esta en presencia de series

de datos homogéneas (datos parecidos) la variabilidad es pequeña, mientras que

series de datos heterogéneas (datos poco parecidos entre si) presentan una

variabilidad mas alta. Las medidas mas utilizados son:

Amplitud de Variación:

Es la diferencia que existe entre el valor menor y el mayor de una serie de datos. Es

una medida fácil de calcular, indica cuanta diferencia existe entre los valores

extremos de un conjunto de datos, pero tiene el inconveniente que no proporciona

información acerca de la forma de la distribución. Se calcula como:

A.V.= Valor Mayor – Valor Menor

Varianza:

Para una serie de datos la varianza es el promedio de las desviaciones al cuadrado

desde la media aritmética.

Cuando los datos se encuentran sin agrupar, la varianza se calcula:

Población: N

xi 2

2)(

Muestra: 1

)( 2

2

n

xxis 1n grados de libertad

Page 15: Bioestadistica - Medidas descriptivas

Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado

Para su cálculo se debe:

a) Tomar cada valor individual y restarle la media aritmética.

b) Elevar al cuadrado cada desviación, para obtener los cuadrados de las

desviaciones..

c) Sumar todos los cuadrados de las desviaciones.

d) Dividir la anterior suma de cuadrados entre N (si se trabaja con toda la

población) o entre n-1 (cuando se trabaja con muestras).

Cuando se trabaja con datos agrupados, en el cálculo de la varianza se debe

considerar la frecuencia con que ocurren los valores.

Población: ni

nixi 2

2)(

Nni

Muestra: 1

)( 2

2

ni

nixxis

En este caso para el cálculo de la varianza se debe:

a) Tomar cada valor y restarle la media aritmética.

b) Elevar al cuadrado cada desviación.

c) Multiplicar cada cuadrado de la desviación por su frecuencia.

d) Sumar todos los resultados obtenidos.

e) Dividir la anterior suma entre N (si se trabaja con toda la población) o entre

n-1 (cuando se trabaja con muestras).

Los resultados obtenidos con las fórmulas de varianza se expresan en unidades al

cuadrado (kg2, cm2, etc.). Para obtener nuevamente las unidades originales es

necesario extraerle al resultado de la varianza la raíz cuadrada. De esta manera se

obtiene la desviación típica o estándar.

Page 16: Bioestadistica - Medidas descriptivas

Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado

Desviación Típica o Estándar:

Corresponde a la raíz cuadrada de la varianza. Es un valor numérico que indica

cuanta dispersión en promedio presentan los datos con respecto a la media

aritmética. Cuando este número es pequeño indica que los datos son mas

homogéneos, es decir que son cercanos entre si. Cuando el resultado de la

desviación es un valor alto, indica que los datos presentan menor homogeneidad.

La desviación estándar se calcula como:

Población: N

xi 2

2)(

Muestra: 1

)( 2

2

n

xxiss

Coeficiente de Variación:

Es una medida de dispersión relativa que permite expresar la desviación estándar de

una serie de datos como un porcentaje de la media aritmética. Se calcula como:

Población: %100..VC

Muestra: %100..x

sVC

El coeficiente de variación permite comparar dos o más series de datos, sin importar

las unidades en que fueron medidas. Así por ejemplo es posible comparar una serie

de datos donde la variable de interés se media en centímetros, con otra serie de

datos donde la variable correspondía a mediciones de kilogramos.

Page 17: Bioestadistica - Medidas descriptivas

Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado

Cálculo de las Medidas de Variabilidad o de Dispersión para Datos no

Agrupados:

Ejemplo Nº 5. En una granja porcina se seleccionó una muestra conformada por 10

hembras de primera gestación y se contabilizó el número de

lechones nacidos de cada una de ellas.

Arreglo de Datos:

8 8 8 8 10 10 12 12 13 16

Media Aritmética: 5,10x lechones/madre

Para este ejemplo, la diferencia entre la camada con mayor cantidad de lechones y la

de menor cantidad es de 8 lechones.

Varianza: 1

)( 2

2

n

xxis

110

)5,1016(....)5,108()5,108()5,108( 22222s

9

5,662s

39,72s lechones2

Amplitud de Variación: A.V.= Valor Mayor-Valor Menor

A.V.= 16 - 8

A.V.= 8 Lechones

Page 18: Bioestadistica - Medidas descriptivas

Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado

. Medidas de Forma: Asimetría y Curtosis: Los coeficientes de asimetría y curtosis comparan la distribución de la serie de datos

con la distribución normal.

El coeficiente de asimetría indica como se encuentran distribuidos los datos

alrededor de la media aritmética. Cuando los datos se distribuyen de forma

homogénea a ambos lados de la media, la curva es simétrica, por lo que su

coeficiente de asimetría será cero. Este valor es difícil de observar por lo que

generalmente se acepta los valores que son cercanos a cero ya sean positivos o

negativos (± 0.5).

Coeficiente de Variación: %100..x

sVC

%1005,10

72,2..VC

%90,25..VC

Desviación Típica o Estándar: 2ss

239,7 lechoness

lechoness 72,2

Page 19: Bioestadistica - Medidas descriptivas

Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado

El coeficiente de asimetría puede ser positivo o negativo. Será positivo cuando la

serie de datos presenta valores extremos y estos son mayores que la media

aritmética. En este tipo de distribuciones se observa que los valores que presentan

mayor frecuencia, son aquellos menores a la media aritmética.

El coeficiente de asimetría será negativo cuando los valores extremos son menores

que la media aritmética y los valores que presentan la mayor frecuencia son los

mayores a la media.

El coeficiente de curtosis indica como es la concentración de los datos alredor de la

media. Según esta concentración se pueden distinguir tres tipos de distribuciones:

Distribuciones leptocúrticas: presenta una alta concentración de datos alrededor de los valores centrales de la serie. Presentan coeficientes de curtosis positivos.

Page 20: Bioestadistica - Medidas descriptivas

Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado

Distribuciones mesocúrticas: presenta una concentración equilibrada de datos

alrededor de los valores centrales similar a una distribución normal. Presentan

coeficientes de curtosis iguales a cero.

Distribuciones platicúrticas: presenta una baja concentración de datos alrededor

de los valores centrales de la variable. Presentan coeficientes de curtosis negativos.

Es difícil de observar series de datos que presenten coeficientes de asimetria y

curtosis iguales a cero, por lo que generalmente se acepta como distribución

normal, aquellas distribuciones cuyos coeficientes son cercanos a cero ya sean

positivos o negativos (± 0.5).

El coeficiente de asimetría se puede calcular mediante el “Coeficiente de Asimetría

de Fisher”:

2

3

1

2

3

1

*)(1

*)(1

nxxn

nxxng

i

ii

Page 21: Bioestadistica - Medidas descriptivas

Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado

También pudieran emplearse aunque menos precisas, alguna de las siguientes

expresiones:

s

MoxAs1

s

MexAs

)(32

13

1223 )()(

QQ

QQQQAsq

El coeficiente de curtosis se calcula mediante:

3

*)(1

*)(1

2

1

2

4

2

nxxn

nxxng

i

ii

También pudiera calcularse mediante:

263,0

)(2

1

19

13

DD

QQ

Kurt

Coef. As. < 0: Asim.Negativa Coef. As. = 0: Simétrica Coef. As. > 0= Asim. Positiva

Coef. Kurt. < 0: Kurt. Negativa Coef. Kurt. = 0 Coef. Kurt .> 0: Kurt. Positiva

Page 22: Bioestadistica - Medidas descriptivas

Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado

Bibliografía

DANIEL, W. Base para el Análisis de las Ciencias de la Salud. Editorial Limusa,

México. 2002.

DI RIENZO, J. et al. Estadística para las Ciencias Agropecuarias. Cuarta Edición.

Argentina. 2001.

PARDO M., A., y RUIZ D., M. SPSS 11. Guía para el Análisis de Datos. Mc Graw Hill.

Madrid. 2002.

QUESADA, V., ISIDORO, A., y LOPEZ, L. Curso y Ejercicios de Estadística.

Aplicación a las Ciencias Biológicas, Médicas y Sociales. Alambra

Universidad. Madrid. 2002.

STEEL, R. y TORRIE, J. Bioestadística: Principios y Procedimientos. McGraw Hill.

Colombia. 1985.

VISAUTA VINACUA, B,. Análisis Estadístico con SPSS para Windows. Estadística

Básica. Mc Graw Hill. Madrid. 1997.

http://www.bioestadistica.uma.es/libro/

http://www.aulafacil.com/CursoEstadistica/CursoEstadistica.htm