medidas de resumen

29
CAPÍTULO 2: MEDIDAS DE RESUMEN Las tablas y gráficas construidas para tener una representación de los datos, son una primera aproximación a la comprensión de su comportamiento. Sin embargo hay rasgos específicos de las variables que puede interesar conocer. Surgen así medidas que permiten captar en forma resumida los principales rasgos de cada variable. Cuando las variables son categóricas, las medidas posibles son proporciones y porcentajes. Cuando las variables son numéricas, existen varias medidas posibles que tratan de resumir la información que contienen. Las medidas de posición buscan dar una idea numérica de donde se encuentra situada una distribución de frecuencias (donde se localizan las observaciones). Pueden ser de 2 tipos: Medidas de tendencia central y Medidas de posición no centrales. Las medidas de tendencia central, buscan sintetizar la información contenida en una distribución de frecuencias, estimándose donde se encuentra el centro de la misma, según diferentes criterios. Las medidas de posición no centrales buscan dar una idea de donde se encuentra el grueso de la distribución de frecuencias. Algunas características que interesa conocer sobre una medida de posición: ¿Intervienen todos los elementos? ¿Con qué tipo de datos se puede calcular? ¿Es única? ¿Es robusta? ¿En qué sentido es representativa? ¿Cómo se interpreta? ¿Cómo se comporta bajo transformaciones? (en particular bajo cambios de origen y escala) ¿Cuándo conviene utilizarla? 19

Upload: maria-edith

Post on 05-Jan-2016

232 views

Category:

Documents


6 download

DESCRIPTION

Bioestadistica

TRANSCRIPT

Page 1: medidas de resumen

CAPÍTULO 2: MEDIDAS DE RESUMEN

Las tablas y gráficas construidas para tener una representación de los datos, son una primera aproximación a la comprensión de su comportamiento. Sin embargo hay rasgos específicos de las variables que puede interesar conocer. Surgen así medidas que permiten captar en forma resumida los principales rasgos de cada variable.

Cuando las variables son categóricas, las medidas posibles son proporciones y porcentajes.

Cuando las variables son numéricas, existen varias medidas posibles que tratan de resumir la información que contienen.

Las medidas de posición buscan dar una idea numérica de donde se

encuentra situada una distribución de frecuencias (donde se localizan las observaciones).

Pueden ser de 2 tipos: Medidas de tendencia central y Medidas de posición no centrales.

Las medidas de tendencia central, buscan sintetizar la información contenida en una distribución de frecuencias, estimándose donde se encuentra el centro de la misma, según diferentes criterios.

Las medidas de posición no centrales buscan dar una idea de donde se encuentra el grueso de la distribución de frecuencias.

Algunas características que interesa conocer sobre una medida de posición: ¿Intervienen todos los elementos? ¿Con qué tipo de datos se puede calcular? ¿Es única? ¿Es robusta? ¿En qué sentido es representativa? ¿Cómo se interpreta? ¿Cómo se comporta bajo transformaciones? (en particular bajo cambios de origen y escala) ¿Cuándo conviene utilizarla?

Las medidas de dispersión buscan rescatar la dispersión o variabilidad de los datos.

Las medidas de simetría y curtosis tienen que ver con la forma de la distribución de frecuencias.

2.1.- MEDIDAS DE LOCALIZACIÓN O MEDIDAS DE POSICIÓN.

19

Page 2: medidas de resumen

2.1.1.- MEDIDAS DE TENDENCIA CENTRAL.

2.1.1.1.- Media aritmética de una variable X M ( X ) o

1.- DATOS SUELTOS

X : x 1 , x 2 , x 3 , ................, x n

2.- DATOS TABULADOS EN LA FORMA:

X i n i

X 1

X 2

X 3

..... ..... X r

n 1

n 2

n 3

....

..... n r

3.- DATOS TABULADOS Y AGRUPADOS:

Si se dispone de los datos originales, la media verdadera es aquella calculada con esos datos.

Si no se dispone de esos datos, una aproximación a la verdadera media está dada por:

Donde los X i son las marcas de clase.

Ejemplos: 1.- X : Edad de 5 personas : 50, 42, 34, 38, 46

20

Page 3: medidas de resumen

2.- N°de asig. N°de

alumnos%de alumnos N° de al.

acumulados% de al.acumulados

0 1 2 3 4

4 8 9 6 3

13.3 % 26.7 % 30.0 % 20.0 % 10.0 %

4 12 21 27 30

13.3 % 40.0 % 70.0 % 90.0 % 100.0 %

Total 30 100 %

3.- Peso (Kg) N° de

alum.% deAlud.

N° de al.acumul.

% de al.acumul.

De 50 a menos de 54De 54 a menos de 58De 58 a menos de 62De 62 a menos de 66De 66 a menos de 70De 70 a 74

52 56 60 64 68 72

4 4 6 8 5 3

13.3 13.3 20.0 26.7 16.7 10.0

4 8 14 22 27 30

13.3 26.6 46.6 73.3 90.0 100.0

Total 30 100 %

2.1.1.2.- Media aritmética ponderada.

Los p i son los pesos o ponderaciones y p es la suma de los pesos.

21

Page 4: medidas de resumen

Ejemplo: Si las notas de un alumno son: 3, 5, 6 entonces la media aritmética es 4.7.

Si se agregaran las ponderaciones o pesos: 20%, 30%, 50%, respectivamente, entonces la media aritmética ponderada es:

DEFINICIONES:

A la expresión: (x i - x¯ ) se le puede llamar desviación de x i con respecto a la media. En otras palabras la desviación de un determinado valor de la variable, con respecto a la media de esa variable, es la distancia de ese valor a la media, acompañada de un signo.

K , representa una constante, es decir puede considerarse como una variable X que "toma" los valores: K, K, K,..........,K.

( X + K ), representa una variable generada a partir de la variable X, donde a cada valor de X se le suma K. Es decir si la variable X toma los valores : x 1 , x2

, x 3 , ................, x n entonces la variable X + K toma los valores : x 1 + K, x 2 + K , x 3 + K , ................, x n + K

( KX ), representa una variable generada a partir de la variable X, donde cada valor de X se multiplica por K. Es decir si la variable X toma los valores : x 1 , x 2 , x 3 , ................, x n entonces la variable KX toma los valores : Kx 1 , Kx 2

, Kx 3 , ................, Kx n

Propiedades:

La suma de las desviaciones con respecto a la media es igual a cero.

2.- M ( K ) = K

La media de una constante, es la misma constante.

3.- M ( X + K ) = M ( X ) + K

Si cada valor que toma una variable se incrementa en K, entonces la media queda incrementada en K.

22

Page 5: medidas de resumen

4.- M ( K X ) = K M ( X )

Si cada valor que toma una variable se multiplica por K, entonces la media queda multiplicada por K.

5.- Si se tiene un conjunto de datos A con n elementos (que corresponden a los n valores que toma cierta variable X), y si se particiona A en r "grupos" A i , donde A i tiene n i elementos y la media es x¯ i , i = 1, 2,....r , entonces:

2.1.1.3.- Media geométrica.

X : x 1 , x 2 , x 3 , ................, x n

Ejemplo: Si X toma los valores : 50, 42, 34, 38, 46, entonces la media geométrica de X es :

2.1.1.4.- Mediana.

Si se tiene una variable X, que toma los valores x 1 , x 2 , x 3 , ................, x n

(ordenados de menor a mayor ), se define la mediana de X, como aquel valor que deja a ambos lados la misma cantidad de datos.

De acuerdo a lo anterior, la mediana se puede calcular de la siguiente manera:

De acuerdo a lo anterior, la mediana se puede calcular de la siguiente manera:

Ejemplo:

Si X toma los valores 1 , 5, 6, 8, 20 , entonces la mediana = 6

Si X toma los valores 2, 3, 8, 10, 14, 32 , entonces la mediana = 9

23

Page 6: medidas de resumen

Si los datos están agrupados en clases

L I j : Es el límite inferior de la clase mediana.

A j : Es la amplitud de la clase mediana.

n j : Es la frecuencia absoluta de la clase mediana.

N j - 1 : Es la frecuencia absoluta acumulada de la clase anterior a la clase mediana.

La clase mediana se encuentra ubicando en la columna de las frecuencias absolutas acumuladas, el primer valor que sea mayor o igual a n / 2 .

En el siguiente ejemplo, calcular la mediana.

Peso (Kg) N° dealum.

% dealum.

N° de al.acum.

% de al.acum.

De 50 a menos de 54De 54 a menos de 58De 58 a menos de 62De 62 a menos de 66De 66 a menos de 70De 70 a 74

52 56 60 64 68 72

4 4 6 8 5 3

13.3 13.3 20.0 26.7 16.7 10.0

4 8 14 22 27 30

13.3 26.6 46.6 73.3 90.0 100.0

Total 30 100 %

2.1.1.5..- Moda:

Dado un conjunto de valores que toma una variable, se define la moda de dicha variable, como aquel valor de la variable con mayor frecuencia.

Si se tiene la variable X que toma los valores: 2, 4, 7, 7, 7, 8, 8, 14, entonces la moda es 7.

Si los datos están agrupados en clases:

24

Page 7: medidas de resumen

L I j : Es el límite inferior de la clase modal.

A j : Es la amplitud de la clase modal.

n j : Es la frecuencia absoluta de la clase modal.

n j - 1 : Es la frecuencia absoluta de la clase anterior a la clase modal.

n j + 1: Es la frecuencia absoluta de la clase siguiente a la clase modal.

La clase modal , es aquella que presenta la mayor frecuencia.

Calcular la moda, en el siguiente ejemplo.

Peso (Kg) N° dealum.

% dealum.

N° de al.acum.

% de al.acum.

De 50 a menos de 54De 54 a menos de 58De 58 a menos de 62De 62 a menos de 66De 66 a menos de 70De 70 a 74

52 56 60 64 68 72

4 4 6 8 5 3

13.3 13.3 20.0 26.7 16.7 10.0

4 8 14 22 27 30

13.3 26.6 46.6 73.3 90.0 100.0

Total 30 100 %

2.1.2.- MEDIDAS NO CENTRALES.

NOTA: Con respecto al histograma, la mediana lo divide en 2 partes de igual área.

peso100,0090,0080,0070,0060,0050,0040,00

Nº a

lum

no

s

100,00

80,00

60,00

40,00

20,00

0,00

8

21

9398

57

23

Así como la mediana divide al histograma en dos partes de igual área, se puede determinar ciertos valores que puedan dividir al histograma en “n” partes de igual área.

25

Page 8: medidas de resumen

2.1.2.1.- Cuartiles: Son 3 valores que dividen al histograma en 4 partes de igual área.

L I j : Es el límite inferior de la clase del Cuartil.

A j : Es la amplitud de la clase del Cuartil.

n j : Es la frecuencia absoluta de la clase del Cuartil.

N j - 1 : Es la frecuencia absoluta acumulada de la clase anterior a la clase del Cuartil.

La clase del Cuartil. se encuentra ubicando en la columna de las frecuencias absolutas acumuladas, el primer valor que sea mayor o igual a (n k)/4

Análogamente se definen

2.1.2.2.- Los Quintiles, que son 4 valores (C 1 , C 2 , C 3 , C 4 ) que dividen al histograma en 5 partes de igual área.

2.1.2.3.-Los Deciles, que son 9 valores (D 1 , D 2 , D 3 , D 4 , ......,D 9 ) que dividen al histograma en 10 partes de igual área.

2.1.2.4.- Los Percentiles, que son 99 valores (P 1 , P 2 , P 3 , ......... P 99 ) que dividen al histograma en 100 partes de igual área.

En el siguiente ejemplo, calcular el cuartil 3, el quintil 1, el percentil 15.

Peso (Kg) N° dealum.

% dealum.

N° de al.acum.

% de al.Acum..

De 50 a menos de 54De 54 a menos de 58De 58 a menos de 62De 62 a menos de 66De 66 a menos de 70De 70 a 74

52 56 60 64 68 72

4 4 6 8 5 3

13.3 13.3 20.0 26.7 16.7 10.0

4 8 14 22 27 30

13.3 26.6 46.6 73.3 90.0 100.0

Total 30 100 %

26

Page 9: medidas de resumen

2.2.- MEDIDAS DE DISPERSIÓN:

Las medidas de localización nos entregan cierta información resumida de la variable, sin embargo esta información es insuficiente para comprender el comportamiento de la variable.

Se puede obtener una medida de tendencia central que resulte ser “poco representativa” o que esconda realidades importantes de conocer. Situaciones claramente distintas pueden dar lugar a medidas de tendencia central iguales, por lo que las medidas de tendencia central pueden ser utilizadas parcialmente como resumen de la información. Se hace necesario entonces complementar con otras medidas, que recojan la variabilidad de los datos.

Ejemplo: Es conocido que para saber acerca de la PAS de una persona, puede ser insuficiente con un solo registro. De ahí que existe, por ejemplo, un “holter de presión”, que registra en 24 horas varias mediciones de la PAS de la persona. Supongamos las siguientes 2 situaciones:

Caso A.- PAS: 132, 132, 127, 129. Media = 130

Caso B.- PAS: 150, 150, 120, 100. Media = 130

Observando estas 2 situaciones se puede ver lo riesgoso que puede ser el identificar un conjunto de datos, con sólo la media aritmética.

2.2.1.- RANGO O RECORRIDO.

Si X es una variable que toma los valores : x 1 , x 2 , x 3 , ............., x n, se define el Rango de la variable X como: R = x max - x min , donde x max es el valor máximo y x min el valor mínimo, que toma la variable X.

2.2.2.- RANGO INTERCUARTIL:

Si X es una variable que toma los valores x 1 , x 2 , x 3 , ............., x n se define el

Rango intercuartil = Q3 - Q1

Se está comparando el 25% de los valores más grande de la variable con el 25% de los valores más pequeños. (comparación por diferencia)

2.2.3.- RANGO Y CUOCIENTE INTERQUINTIL.

Si X es una variable que toma los valores x 1 , x 2 , x 3 , ............., x n se define:

Rango interquintil = C4 - C1

27

Page 10: medidas de resumen

Se está comparando el 20% de los valores más grande de la variable con el 20% de los valores más pequeños. (comparación por diferencia)

Una medida que suele también usarse es el cuociente interquintil.

Cuociente interquintil =

Aquí la comparación es por cuociente.

Nota: Se suele llamar al grupo de valores menores que el primer quintil, como “primer grupo quintil” o “primer quintil” y al grupo de valores mayores al cuarto quintil, como “último grupo quintil” o “último quintil”.

20%Primerquintil

20% 20% 20% 20%Últimoquintil

C1 C2 C3 C4

Variable

2.2.4.- VARIANZA.

2.2.5.- DESVIACIÓN ESTÁNDAR.

Si X es una variable cuya varianza es V(X) , entonces se define la desviación estándar de X como la raíz aritmética de X.

Simbología:

Desviación estándar poblacional (x).Desviación estándar muestral S(x).

2.2.6.- COEFICIENTE DE VARIACIÓN.

Ejemplo: Si las edades de 5 enfermos son: 50, 42, 34, 38 y 46 años, calcular la media aritmética, la varianza, la desviación estándar y el coeficiente de variación.

28

Page 11: medidas de resumen

Ejemplo: Calcular la media aritmética, la varianza y la desviación estándar y el coeficiente de variación, en el siguiente caso:

N°de asig. N°de al. % de al. N° de al.acum.

% de al.Acum..

0 1 2 3 4

4 8 9 6 3

13.3 % 26.7 % 30.0 % 20.0 % 10.0 %

4 12 21 27 30

13.3 % 40.0 % 70.0 % 90.0 % 100.0 %

Total 30 100 %

2.2.7.- PROPIEDADES:

1.- V ( X ) 0

La varianza es un número real no negativo

2.- V ( K ) = 0

La varianza de una constante es igual a cero.

3.- V ( X + K ) = V ( X )

Si cada valor que toma una variable se incrementa en K, la varianza permanece igual.

4.- V ( K X ) = K 2 V ( X )

Si cada valor que toma una variable se multiplica por K, entonces la varianza queda multiplicada por K 2.

Nota. Cuando se quiere comparar valores observados que pertenenecen a diferentes distribuciones de datos, las que difieren en su media o en su varianza o en la unidad de medida usada, resulta útil usar " El Valor Estándar":

2.2.7.- VALOR ESTÁNDAR.

Si X es una variable que toma los valores x 1 , x 2 , x 3 , ................, x n se define el valor estándar para x i como:

29

Page 12: medidas de resumen

El valor estándar resulta útil para saber como es un determinado valor, en relación al resto de los valores de una distribución.

PROPIEDAD:

Al estandarizar los valores de una variable X , la media de los valores estandarizados es cero y la desviación estándar es 1.

2.2.8.- PRINCIPALES PROPIEDADES DE LAS MEDIDAS DE POSICIÓN.

Propiedades de la media aritméticaEs únicaUtiliza todos los valores de la distribución. ( de esta manera se considera que la media aritmética es más informativa que otras medidas).Sólo se puede calcular con variables cuantitativas preferiblemente continuasNo se puede calcular con distribuciones agrupadas que tengan intervalos de clase infinitosEs el centro de gravedad de la distribución en un sentido aditivoMinimiza el error cuadrático medioNo es robustaNo es invariante por cambios de origen y escalaEs descomponible

Propiedades de la media aritmética ponderada.Es una generalización de la media aritmética que se utiliza cuando no todos los datos observados tienen la misma importancia

Propiedades de la media geométricaEs únicaUtiliza todos los elementos. Sólo se puede calcular con variables cuantitativas positivasSu logaritmo es la media aritmética de la variable log XEs el centro de gravedad de la distribución en términos multiplicativosEs más robusta que la media a valores grandes pero no a los pequeños y siempre toma valores más pequeños que la media aritméticaNo es invariante por cambios de origen y escalaEs útil para promediar tasas, porcentajes, tipos de interés y, en general, en todas aquellas situaciones en las que la variable analizada presente variaciones acumulativas

Propiedades de la medianaEs únicaNo utiliza todos los elementos. Además en su cálculo no utiliza los valores de la variable, sino su número. Esto le confiere menor capacidad informativa. Sin embargo esto la hace apropiada para captar la localización de un grupo de observaciones con distribución asimétrica. Se puede calcular con datos ordinales

30

Page 13: medidas de resumen

Siempre es un valor observado de la variable, o la media de valores observados. Es más robusta que la media aritméticaMinimiza el error absoluto medioNo es invariante por cambios de origen y escalaNo es descomponible

Propiedades de la modaPueden existir varias modas.Si existen varias modas esto es un síntoma de heterogeneidad en los datosEn su cálculo no intervienen todos los elementosSe puede calcular con datos nominalesSiempre es un valor observable de la variableEs robustaNo es invariante por cambios de origen y escalaNo es descomponible

Propiedades de los cuantiles.Son únicosNo utilizan en su cálculo todos los elementosSe pueden calcular con datos ordinalesSiempre es un valor observable de la variableSu robustez depende del valor de p: cuanto más cercano a 0 o a 1, menos robusto es; cuanto más cercano a 0.5, más robusto esSe utilizan para situar a la distribución y para dar una idea de su dispersiónNo son invariantes por cambios de origen y escalaNo son descomponibles 2.3.- MEDIDAS DE FORMA.

Miden si la forma de la distribución es más o menos simétrica o con un mayor o menor grado de apuntamiento.

Coeficiente de asimetría = As =

Si As = 0, Simetría

31

Page 14: medidas de resumen

Peso100,0090,0080,0070,0060,0050,0040,00

Nº a

lu

mn

os

120,00

100,00

80,00

60,00

40,00

20,00

0,00

Mean =70,00Std. Dev. =10,896

N =300

Si As > 0, Asimetría positiva

Peso100,0090,0080,0070,0060,0050,0040,00

Nº a

lum

no

s

100,00

80,00

60,00

40,00

20,00

0,00

Mean =63,00Std. Dev. =12,511

N =300

Si As < 0, Asimetría negativa

Peso100,0090,0080,0070,0060,0050,0040,00

Nº a

lum

no

s

100,00

80,00

60,00

40,00

20,00

0,00

Mean =77,00Std. Dev. =12,511

N =300

Coeficiente de curtosis = Cu =

Cu = 3, apuntamiento semejante a la distribución normal

Cu > 3, apuntamiento mayor a la distribución normal

32

Page 15: medidas de resumen

Peso100,0090,0080,0070,0060,0050,0040,00

Nº a

lum

no

s200,00

150,00

100,00

50,00

0,00

Mean =70,00Std. Dev. =7,65

N =300

Cu < 3, apuntamiento menor a la distribución normal.

Peso100,0090,0080,0070,0060,0050,0040,00

Nº a

lum

no

s

140,00

120,00

100,00

80,00

60,00

40,00

20,00

0,00

Mean =70,00Std. Dev. =15,891

N =300

EJERCICIOS CAPITULOS 1 Y 2.

1.- Se tiene la base de datos siguiente:

Alumno Carrera Sexo E.Civil Edad N.S.E.Col-Total

Col-HDL PAS Fuma Peso

1 Q-F M S 19 M 220 30 150 SI 682 Q-F M S 20 M 250 55 160 SI 793 Enferm F C 23 M 190 60 110 SI 804 Q-F F S 26 A 230 50 125 NO 76

33

Page 16: medidas de resumen

5 Enferm F S 20 A 255 58 128 NO 596 Enferm F S 19 M 160 67 110 NO 687 Enferm M C 21 M 160 80 130 NO 758 Kines M S 23 B 180 50 135 NO 709 Enferm F S 26 M 200 68 120 NO 67

10 Kines F S 22 M 240 35 130 SI 60…                    …                    

a) Cuáles de las variables son no numéricas, cuáles numéricas enteras y cuáles numéricas continuas.b) Cómo se puede presentar la información para cada una de esas variables.c) Que cruce de variables se podría hacer y para qué.d) Que medida de resumen se puede usar para la variable carrera.e) Que medida de resumen se puede usar para la variable edad.f) Si se dice por ejemplo que el percentil 20 para la variable colesterol es 200, que interpretación se le puede dar.g) Si se desea seleccionar al 10% de mayor nivel de colesterol, que medida puede servir para identificar este grupo.h) Si la media del peso fuera 73 y la desviación estándar fuera 7, que se puede decir de la variabilidad o dispersión del peso.i) Si el puntaje estándar de una persona para PAS es – 2, que significado tiene ese valor.

2.- En un estudio realizado en la Universidad Arturo Prat en el año 2002, se recolectó la siguiente información, en una muestra de 170 alumnos, clasificados de acuerdo a sexo(Sexo) y presencia de depresión(Depre).

Sexo : Sexo del alumno ( 0 mujer, 1 hombre)

Depre : Tiene depresión ( 0 No, 1 Si)

Sexo Depre Frecuencia

1 1 0 0

1 0 1 0

11 71 27 61

a) Presente la información para cada una de las variables en una tabla de distribución de frecuencias.

b) Presente en una gráfica de barras agrupadas la información, por Depre, según sexo.

34

Page 17: medidas de resumen

3.- En la misma investigación se estimó el riesgo cardiovascular según Framingham y se encontró que en las mujeres había 73 con 0 % de riesgo, 13 con 1% de riesgo y 2 con 2% de riesgo, mientras que en los hombres se encontró 72 con 1% de riesgo, 5 con 2% de riesgo, 3 con 3% de riesgo, 1 con 6% y 1 con 8%.

a) Presente en un cuadro estadístico la información para el riesgo de Framingham, considerando el sexo.

4.- Los siguientes datos indican el tiempo de espera (en minutos) para una muestra de 50 pacientes, antes de ser atendidos en cierto consultorio:

2 15 17 25 28 30 32 35 40 40

45 46 47 47 48 48 49 49 50 50

55 55 58 58 59 59 60 60 61 61

61 61 62 65 67 68 69 70 71 72

73 74 75 76 78 79 80 90 95 106

a) Indique cuál podría ser en este caso la población y cuál es la muestra.b) Indique cuál es la variable y de que tipo es.c) Construya la tabla de distribución de frecuencias.d) Construya una gráfica que considere más adecuada.

5. - La base de datos que se detalla a continuación, contiene la siguiente información:PAC : PacienteEDAD: Edad del paciente en añosEC : Presenta el paciente enfermedad coronaria ( 1 = sí, 0 = no)

PAC EDAD EC PAC EDAD EC PAC EDAD EC PAC EDAD EC 1 2 3 4 5 6 7 8 9 10 11

20 23 24 25 25 26 26 28 28 29 30

0 0 0 0 1 0 0 0 0 0 0

26 27 28 29 30 31 32 33 34 35 36

35 35 36 36 36 37 37 37 38 38 39

0 0 0 1 0 0 1 0 0 0 0

51 52 53 54 55 56 57 58 59 60 61

44 44 45 45 46 46 47 47 47 48 48

1 1 0 1 0 1 0 0 1 0 1

76 77 78 79 80 81 82 83 84 85 86

55 56 56 56 57 57 57 57 57 57 58

1 1 1 1 0 0 1 1 1 1 0

35

Page 18: medidas de resumen

12 13 14 15 16 17 18 19 20 21 22 23 24 25

30 30 30 30 30 32 32 33 33 34 34 34 34 34

0 0 0 0 1 0 0 0 0 0 0 1 0 0

37 38 39 40 41 42 43 44 45 46 47 48 49 50

39 40 40 41 41 42 42 42 42 43 43 43 44 44

1 0 1 0 0 0 0 0 1 0 0 1 0 0

62 63 64 65 66 67 68 69 70 71 72 73 74 75

48 49 49 49 50 50 51 52 52 53 53 54 55 55

1 0 0 1 0 1 0 0 1 1 1 1 0 1

87 88 89 90 91 92 93 94 95 96 97 98 99100

58 58 59 59 60 60 61 62 62 63 64 64 65 69

1 1 1 1 0 1 1 1 1 1 0 1 1 1

a) Presente la distribución porcentual, según EC, usando una tabla de distribución de frecuencias y una gráfica de barras.

b) Construya una tabla de distribución de frecuencias e histograma, para la variable EDAD.

c) Según la tabla obtenida en b) calcule la media aritmética y la mediana.

6.- En un Universidad el promedio de notas parciales tiene una ponderación del 60% y el examen un 40%. Si un alumno tiene las notas parciales 3.5, 4, 3.2, ¿Qué nota debería obtener en el examen para aprobar la asignatura?

7.- En un estudio realizado a un grupo de pacientes esquizofrénicos, se le registro la siguiente información, para las variables indicadas:

Pac edad imc col sexo

1 32 25.8 264 1 2 20 20.8 119 1 3 30 22.3 165 0 4 34 39.9 204 0 5 33 29.4 179 1 6 20 28.1 155 1 7 26 36.6 244 1 8 40 25.9 210 1 9 27 23.4 130 1 10 21 37 229 1 11 31 30.1 210 0 12 35 23.7 162 1 13 36 26.6 185 1 14 38 35.3 213 0 15 27 26.3 153 1 16 22 23.2 94 1

36

Page 19: medidas de resumen

17 20 20 160 1 18 25 29.4 229 1 19 19 35 193 1 20 32 24 168 0 21 31 34.7 176 1 22 36 34.8 165 1 23 30 29.4 147 1

Descripción de las variables

El peso está medido en kilogramos y la talla en metros.

Col : colesterol medido en mgs%.

Sexo: sexo del paciente. 1= hombre, 0=mujer

a) Presente en una tabla de distribución de frecuencias, la variable edad.b) Categorice la variable imc, de acuerdo al siguiente criterio:

Normal, si imc < 25. Sobrepeso, si 25 imc < 30 . Obeso si imc 30Presente en un cuadro estadístico, la distribución de pacientes, por sexo, según la variable imc categorizada.

c) Categorice la variable col de acuerdo al siguiente criterio:Normal, si col < 200, Alto, si col 200.Presente en un cuadro estadístico, la distribución de pacientes, por sexo, según la variable col categorizada.

8.- En una investigación realizada en la Universidad, se entrevistó a un grupo de alumnos obteniéndose lo siguiente:

Edad 18 19 20 21 22 23 24 25 26 27 28 29Nº de mujeres

2 4 5 7 10 8 6 4 3 2 2 1

Nº deHombres

4 7 9 12 14 13 12 10 7 4 3 1

a) Calcule la edad promedio para las mujeres, para los hombres, y para el conjunto total de alumnos.

9.- Un profesor da al examen final de una asignatura 3 veces el peso que da a las pruebas parciales. Si un alumno obtiene las notas parciales 3.5, 5, 4.6 y en el examen un 4.8, ¿Cuál será la nota final?

37

Page 20: medidas de resumen

10.- En un curso que tiene 15 alumnas y 25 alumnos, la nota promedio de las alumnas en Estadística es 4.9 y el de los alumnos es 4.5. Calcule la nota promedio de todo el curso.

11.- Se dispone de la siguiente información con relación al número de días no trabajados, por cada uno de los 40 empleados de la Empresa "Catulis Ltda.", en el mes de marzo de 1999. Los datos son los siguientes:2, 3, 3, 1, 0, 0, 3, 4, 5, 4, 3, 3, 3, 2, 4, 3, 6, 6, 5, 3, 4, 4, 3, 4, 0, 0, 0, 3, 3, 5, 2, 1, 2, 4, 3, 5, 4, 3, 3, 0.a) Presente los datos en una tabla de frecuencias. b) Calcule la media aritmética e interprete. c) Calcule la mediana e interprete. 12.- En una Empresa en que hay 60 mujeres y 140 hombres se sabe que el sueldo promedio de las mujeres es de $180000 y el de los hombres de $ 200000 en el mes de enero. En marzo se entrega un reajuste a cada uno de $ 15000, y en abril un nuevo reajuste consistente en un 20 % de aumento en relación a los sueldos de marzo.a) Calcule el sueldo promedio de todos los empleados en el mes de enerob) Calcule el sueldo promedio de todos los empleados en el mes de marzo. c) Calcule el sueldo promedio de todos los empleados en el mes de abril.

13. En una Empresa, se hace un estudio con relación al sueldo de todos los empleados. Se registra la siguiente información:

Sueldo( $) Nº de empleadosDe 100 a menos de 200 20De 200 a menos de 300 35De 300 a menos de 400 40De 400 a menos de 500 15

De 500 a 600 10

a) Calcule e interprete el quintil 1 y el quintil 4.b) Calcule e interprete el coeficiente de variación, de la variable sueldo. c) Si se aumentan los sueldos en $20000 a cada uno, calcular el coeficiente de

variación.d) Si una persona gana 580, calcule e interprete su puntaje estándar.

38

Page 21: medidas de resumen

39