estadistica_parte_4

36
Estadística - Pagina 64 4.4 Ejercicios 1. Construya un gráfico para representar los datos de los ejercicios 2, 3, 4, 5 y 6 del capítulo 3. 2. Se realizó un estudio en el municipio de Bello con el fin de evaluar el riesgo nutricional de los jóvenes que se encuentran estudiando, para ello se realizó un estudio comparativo de todos los estudiantes de las instituciones escolares de carácter público. Los resultados se muestran a continuación (interprete la gráfica):

Upload: roberto-velasquez

Post on 12-Jun-2015

1.043 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: Estadistica_Parte_4

Estadística - Pagina 64

4.4 Ejercicios

1. Construya un gráfico para representar los datos de los ejercicios 2, 3, 4, 5 y 6 del capítulo 3.

2. Se realizó un estudio en el municipio de Bello con el fin de evaluar el riesgo nutricional de los jóvenes que se encuentran estudiando, para ello se realizó un estudio comparativo de todos los estudiantes de las instituciones escolares de carácter público. Los resultados se muestran a continuación (interprete la gráfica):

5.458

3.338

1.254

0

1.000

2.000

3.000

4.000

5.000

6.000

LEVE MODERADO SEVERO

Clasificación nutricional del riesgo nutricional de los escolares según el indicador peso/edad en el municipio de Bello en el año 2002.

3. La siguiente gráfica muestra los montos asignados en los últimos años, para subsidio de vivienda por parte del gobierno nacional, con el fin de colaborarle a las clases menos favorecidas. Interprete el gráfico.

Page 2: Estadistica_Parte_4

Estadística - Pagina 65

4. Los aceros inoxidables se utilizan con frecuencia en las plantas químicas para manejar fluidos corrosivos. Sin embargo, en ciertos entornos estos aceros son especialmente susceptibles al agrietamiento debido a la corrosión por esfuerzos. Un estudio identificó este tipo de agrietamiento como la principal causa individual de la falla de aleaciones de acero en plantas químicas japonesas. La tabla siguiente enumera los diversos tipos de fallas y sus correspondientes porcentajes del total para 295 casos de fallas de aleaciones que ocurrieron en refinerías de petróleo y plantas petroquímicas en Japón durante los últimos 10 años.

Causa de la falla PorcentajeEntorno húmedo Corrosión general 12.5 Corrosión localizada 15.9 Agrietamiento debido a la corrosión por esfuerzos 39.9 Diversas 3.8Entorno seco Corrosión 8.2 Agrietamiento 10.9 Menoscabo de propiedades mecánicas 1.7 Diversas 1.7Defectos de materiales 2.0Defectos de soldadura 3.4

a. Elabore un diagrama de Pareto para las causas de fallas en aleaciones de acero en plantas químicas japonesas. b. La gráfica anterior apoya lo afirmado por los investigadores?

5. La siguiente distribución corresponde a la población mayor a 5 años en Antioquia. Estos porcentajes fueron calculados teniendo como base la información del último censo. (1993)

Intervalos %fri5 – 7 5.87 - 11 12.3

Page 3: Estadistica_Parte_4

Estadística - Pagina 66

11 – 18 15.218 – 24 18.424 – 34 19.034 – 44 11.844 – 60 10.8

60 y más años 6.7

a. Construya el histograma y sobre éste el polígono de frecuencias relativas.b. Realice como mínimo 5 interpretaciones de la gráfica.c. ¿Entre qué grupo de edades se encuentra el mayor porcentaje de la población? d. ¿Cuál cree usted que sería la tendencia si graficáramos sobre los mismos ejes los datos de

un censo que se realizara el año entrante en Antioquia?

6. Una muestra de 400 baterías tomadas al azar de una línea de producción fue sometida a un test de laboratorio para determinar su duración. Con los resultados de dicho test se obtuvo la siguiente distribución de frecuencias.

Duración en días Número de baterías300 – 400 14400 – 500 46500 – 600 58600 – 700 76700 – 800 68800 – 900 60

900 – 1000 481000 – 1100 221100 – 1200 8

a. Realice la ficha técnica del estudio.b. Construya el polígono de frecuencias absolutas acumuladas.c. ¿Qué probabilidad hay de que una batería dura 620 días cuando menos?d. ¿Qué riesgo correría el fabricante si estableciera una garantía de que la duración mínima de

cualquiera de las baterías es de 450 días de servicio?e. Si el fabricante otorgara una garantía de devolución del precio pagado por la batería válida

por 90 días. ¿Cuál sería el riesgo de tener que hacer efectiva dicha garantía?

7. Se registraron los gastos diarios de un grupo de familias del barrio Laureles, los datos obtenidos se muestran a continuación:

Xi fai10000 – 12000 10012000 – 14000 15014000 – 16000 20016000 – 18000 20018000 – 20000 15020000 – 22000 8022000 – 24000 5024000 – 26000 30

Page 4: Estadistica_Parte_4

Estadística - Pagina 67

26000 – 28000 2028000 - 30000 20

a. Realice la ficha técnica de dicho estudio.b. Construya el polígono de frecuencias absolutas acumuladas.c. ¿Cuántas familias y qué porcentaje gastan más de 25000 diariamente?d. ¿Cuántas familias y qué porcentaje gastan menos de 18000 diariamente?e. ¿Cuántas familias y qué porcentaje gastan entre 11000 y 23000 diariamente?f. El 80% de las familias gastan más de qué cantidad de dinero?g. El 30% de las familias gastan menos de qué cantidad de dinero?

Capítulo 5

Objetivos:

- Conocer las diversas medidas descriptivas de una muestra, con el fin de mejorar la interpretación de los datos, superando así las limitaciones que pueden traer los análisis gráficos por parte de cada investigador.

- Diferenciar cada una de las medidas descriptivas de una muestra, observando su complementariedad.

- Profundizar en el manejo de información de carácter cuantitativo, llegando a comparar diversos sistemas de datos en donde se referencia la misma variable.

- Aplicar el conocimiento adquirido al entorno específico del estudiante.

Reflexión:

En una isla habitaban la felicidad, la tristeza,la sabiduría, y el amor, entre otros elementos

de la existencia humana.

Un día se supo que la isla se hundiría. Todosprepararon sus barcos para partir, con excepción

del amor, que quería permanecer en su hogar hastael último instante.

Cuando la mayor parte de la isla estaba ya bajo elagua, el amor decidió pedir ayuda. En ese momento pasó

la riqueza en una imponente galera, y el amor lepreguntó:

- Riqueza, ¿puedes ayudarme?

La riqueza le respondió:

- No, lo lamento. Llevo mucho oro y mucha plata enmi barco. No hay forma de que quepas.

El amor se apresuró entonces a pedirle ayuda a lavanidad, que navegaba en un yate muy fino y

Page 5: Estadistica_Parte_4

Estadística - Pagina 68

elegantemente adornado:

- Vanidad, ¿podrías ayudarme?

Y la vanidad contestó:

- Perdóname, Amor, pero estás mojado y lleno debarro. No quisiera ensuciar mi lindo bote.

El amor vio a la tristeza:

- Tristeza, ¿puedo ir contigo?

- Oh... Amor, -replicó,- estoy tan triste queprefiero estar sola.

La felicidad también rechazó la petición, porqueestaba tan feliz que no quiso ocuparse de nada

que interrumpiera la dicha que sentía.

De repente, el amor escuchó una voz que lollamaba:

- Amor, ven, acércate. Yo te llevo.

El amor estaba tan agitado, contento, y aliviado,que no se le ocurrió preguntar quién lo había

salvado.

Al llegar a tierra firme, el amor cayó en cuenta desu olvido y queriendo saber a quién agradecer, le

preguntó a un anciano que contemplaba el océano.

- ¿Quién me ayudó?

- Fue el tiempo.- afirmó la sabiduría.

- ¿El tiempo? -cuestionó incrédulo el amor- ¿Por qué?

Y la sabiduría aclaró:

- Porque el tiempo es capaz de entender la grandezadel amor.

Algunas veces dejamos de lado al amor.

¿Qué nos quedará cuando todo lo demás haya pasado?¿Valoras, agradeces y disfrutas a quienes te aman?

¿Cuál es el barco que más navegas?

Page 6: Estadistica_Parte_4

Estadística - Pagina 69

5. Medidas Descriptivas de una Muestra

Los gráficos pueden presentar limitaciones para la descripción y análisis de un conjunto de datos y las conclusiones que se derivan de ellos pueden variar según el juicio del investigador. Las limitaciones de los gráficos pueden obviarse con el uso de medidas descriptivas. Éstas son valores únicos, representativos de un conjunto de datos y pueden ser de cuatro clases:

- Medidas de tendencia central- Medidas de dispersión o variabilidad- Medidas de asimetría- Medidas de curtosis

5.1. Medidas de Tendencia Central

En esta sección definiremos una serie de medidas o valores que tratan de representar o resumir a una distribución de frecuencias dada, sirviendo además para realizar comparaciones entre distintas distribuciones de frecuencias. Las medidas de tendencia central son promedios, es decir, valores típicos representativos de todo un conjunto de datos que tienden a estar localizados en aquella parte de la distribución, donde los datos tienden a aglomerarse o a agruparse.

Las medidas de tendencia central más usuales son:- Media aritmética o promedio- Mediana- Moda

5.1.1 Media aritmética (promedio) (x)

5.1.1.1 Media aritmética para datos sin agrupar (x)

Se utiliza cuando los datos no están agrupados en una tabla de frecuencias simples o en intervalos. La media aritmética se define como la suma de todos los datos, dividida por el número total de ellos. Si los datos fueran x1, x2, x3, ..., xn, su expresión sería:

n

i

i

n

xx

1

En donde n es el número total de datos.

Ejemplo 1:

Se preguntó acerca de las edades de un grupo de estudiantes de Derecho Laboral, pertenecientes a la universidad, los resultados fueron:

21 23 19 25 27 36 21 24 22 20 19 20 23

El promedio de las edades de los estudiantes sería:

Page 7: Estadistica_Parte_4

Estadística - Pagina 70

13

23201920222421362725192321

1

n

i

i

n

xx

n

i

i

n

xx

1 = 23.1 años = 23 años

Diríamos entonces que se tiene una edad promedio de 23 años aproximadamente

5.1.1.2 Media aritmética ponderada ( X )

En primer lugar debemos saber que ponderar significa agrupar; cuando los datos están agrupados en una tabla de frecuencias simples o en una tabla de frecuencias en intervalos y si llamamos x l, ..., xk a las categorías que toma la variable en estudio, o a las marcas de clase de los intervalos en los que se han agrupado dichos datos, y fai,..., fak a las correspondientes frecuencias absolutas de dichas categorías o marcas de clase, la media aritmética ponderada de la distribución de frecuencias estará dada por:

k

i

ii

n

faxx

1

en donde n es el tamaño de la muestra y k es el número total de categorías que toma la variable o el número total de marcas de clase.

Ejemplo 2:

La media aritmética ponderada para el número de hijos por familia en el barrio “Belén Rosales” de la ciudad de Medellín (p 25) sería:

11

11 40

2*114*92*84*74*62*57*43*34*25*13*0

i

k

i

ii

n

faxx

k

i

ii

n

faxx

1 = 4.7 ≅ 5 hijos

es decir, las familias encuestadas tienen un número medio de hijos de aproximadamente 5.

Ejemplo 3:

Se midieron los niveles de hemoglobina a un grupo de 34 pacientes que poseían un extraño tipo de anemia (los valores están en g/dl), siendo valores normales los encontrados en el rango 14.0 – 18.0.

La tabla de distribución de frecuencias en intervalos está dada por:

Li – Ls xi fai %fri Faan %Fran

Page 8: Estadistica_Parte_4

Estadística - Pagina 71

7.5 – 9.0 8.25 3 8.8 3 8.8

9.0 –10.5 9.75 8 23.6 11 32.4

10.5 – 12.0 11.25 10 29.4 21 61.8

12.0 – 13.5 12.75 10 29.4 31 91.2

13.5 – 15.0 14.25 1 2.9 32 94.1

15.0 –16.5 15.75 2 5.9 34 100.0

fai = 34 %fri = 100.0

la media aritmética ponderada, estaría dada por:

34

5.388

34

2*75.151*25.1410*75.1210*25.118*75.93*25.8

1

k

i

ii

n

faxx

k

i

ii

n

faxx

1 = 11.4 g/dl

5.1.2 Mediana (Me)

La mediana es una medida de posición, ocupa un lugar central en la serie cuando los datos están ordenados de menor a mayor o viceversa. Se define como aquel valor de la variable tal que, al menos el 50% de los datos son menores o iguales a él y al menos el 50% de los datos son mayores o iguales a él.

Si la cantidad de datos (n) es impar, la mediana es igual al dato que ocupa la posición central. Si el número de datos es par, la mediana será el promedio de los dos datos centrales.

Así, si en la siguiente distribución de frecuencias,

xi fai Faan

0 3 3

1 2 5

2 2 7

7ordenamos los valores en orden creciente: 0 0 0 1 1 2 2

el 1 será el valor que cumple la definición de mediana.

Lógicamente, cuando el tamaño de la muestra (n) sea mayor, este procedimiento resultaría inviable. Por esta razón, daremos a continuación una fórmula que permita calcularla. No obstante, será

Page 9: Estadistica_Parte_4

Estadística - Pagina 72

necesario distinguir los casos en los que los datos vengan agrupados en fila de datos (tabla de frecuencias simples) de aquellos en los que vengan en intervalos.

5.1.2.1 Mediana para datos agrupados en tablas de frecuencias simples:

Las gráficas siguientes, correspondientes a un diagrama de frecuencias absolutas acumuladas, recogen las dos situaciones que se pueden presentar:

Si la situación es como la de la figura de la derecha, es decir, si n/2 aparece en la distribución, tendrá entonces un valor correspondiente en las variables, así diremos que ésta será la mediana.

Si la situación que se presenta es como la de la figura de la izquierda, entonces la mediana queda indeterminada, aunque en este caso se toma como mediana la media aritmética de los dos valores entre los que se produce la indeterminación; así pues, si

Faaj-1 < n/2 < Faaj

entonces la mediana es

Ejemplo 1:

La distribución de frecuencias absolutas acumuladas en el ejemplo sobre el número de hijos en el barrio “Belén Rosales” era:

Número de hijos (xi) 0 1 2 3 4 5 6 7 8 9 11

Frecuencias Acumuladas( Faan) 3 8 12 15 22 24 28 32 34 38 40

Page 10: Estadistica_Parte_4

Estadística - Pagina 73

Como es n/2=20

15 < 20 < 22

la mediana será Me=(3+4)/2.

Me = 3.5 = 4 hijos. Concluimos que el 50% de las familias tiene 4 hijos o menos.

5.1.2.2 Mediana para datos agrupados en intervalos:

Las gráficas siguientes, correspondientes a polígonos de frecuencias absolutas acumuladas, nos plantean de nuevo dos situaciones diferentes a considerar:

El más sencillo, el de la derecha, en el que existe una frecuencia absoluta acumulada Faa j tal que n/2 = Faaj, la mediana es Me = xj.

Si la situación es como la que se representa en la figura de la izquierda, en la que Faaj-l < n/2 < Faaj

entonces, la mediana, está en el intervalo (x j-1, xj], es decir entre xj-1 y xj, tomándose en ese caso, por razonamientos de proporcionalidad, como mediana el valor:

Afa

Faan

LiMej

j

*2 1

En donde:Li corresponde al límite inferior del intervalo que contiene la mediana. n es el tamaño de la muestra.Faaj-1 es la frecuencia absoluta acumulada anterior a la que contiene a la mediana.fai es la frecuencia absoluta correspondiente a la mediana.A es la amplitud del intervalo

Page 11: Estadistica_Parte_4

Estadística - Pagina 74

Ejemplo 2:

La distribución de frecuencias del ejemplo de los niveles de Hemoglobina (p 38) es:

Intervalo Li - Ls 7.5-9.0 9.0-10.5 10.5-12.0 12.0-13.5 13.5-15.0 15.0-16.5

Frecuencia Absoluta fai 3 8 10 10 1 2

Frecuencia Acumulada Faan 3 11 21 31 32 34

Como n/2 = 17 y estar comprendido entre los datos dados

11 < 17 < 21

la mediana estará en el intervalo (10.5 , 12.0], y aplicando la fórmula anterior, será

4.115.1*10

112

34

5.10

Me

El 50% de los pacientes tendrán niveles de hemoglobina menores o iguales a 11.4 g/dl

5.1.3 Moda (Mo)

La moda se define como aquel valor de la variable al que corresponde la máxima frecuencia (absoluta o relativa). Para calcularla, también será necesario distinguir si los datos están agrupados en una tabla de frecuencias simples o en intervalos.

5.1.3.1 Moda para datos agrupados en tablas de frecuencias simples:

Para datos agrupados en tablas de frecuencias simples, la determinación del valor o valores (ya que puede haber más de uno) modales es muy sencilla. Basta observar a qué valor le corresponde una mayor fai o %fri. Esa será la moda.

Así en el ejemplo del número de hijos, la simple inspección de la tabla siguiente proporciona como valor para la moda el Mo = 4.

Número de hijos (xi) 0 1 2 3 4 5 6 7 8 9 11

Frecuencias Absolutas( fai) 3 5 4 3 7 2 4 4 2 4 2

El número de hijos más frecuente por familia en la muestra del barrio “Belén Rosales” es de 4 hijos, pues le corresponde la mayor frecuencia, la cual en este caso es de 7.

5.1.3.2 Moda para datos agrupados en intervalos:

Page 12: Estadistica_Parte_4

Estadística - Pagina 75

Si los datos se presentan agrupados en intervalos es necesario, a su vez, distinguir si éstos tienen o no igual amplitud. Si tienen amplitud constante A, una vez identificado el intervalo modal (x j-1, xj], es decir el intervalo al que corresponde mayor frecuencia absoluta fai; la moda se define, también por razones geométricas, como:

Afafa

faLiMo

ii

i

11

1

En donde:

Li es el límite inferior que contiene la moda.fai+a es la frecuencia absoluta correspondiente al intervalo posterior del que contiene la moda.fai-a es la frecuencia absoluta correspondiente al intervalo anterior del que contiene la moda.A es la amplitud del intervalo que contiene la moda.

Ejemplo 1:

En el caso de los niveles de hemoglobina, vemos que presenta un caso de distribución bimodal, ya que tanto el intervalo (10'5 - 12] como el (12 - 13'5] tienen frecuencia absoluta máxima. Deberíamos aplicar, por tanto, para cada uno de los dos intervalos la fórmula anterior, determinando así las dos modas de la distribución. No obstante, este ejemplo presenta además la peculiaridad adicional de ser ambos intervalos modales contiguos. En esta situación se considera la distribución unimodal, eligiendo como moda el extremo común, Mo = 12.

Por lo tanto el nivel más común de hemoglobina en la sangre de estos pacientes es de 12 g/dl.

Ejemplo 2:

Si los intervalos tuvieran distinta amplitud Ai, primero debemos normalizar las frecuencias absolutas fai, determinando los cocientes siguientes:

kiA

fac

i

ij ,...,2,1,

y luego aplicar la regla definida para el caso de intervalos de amplitud constante a los c j. Es decir, primero calcular el cj = max{c1,...., ck} para determinar el intervalo modal [xj-1, xj) y luego aplicar la fórmula

jjj

jA

cc

cLiMo *

11

1

Page 13: Estadistica_Parte_4

Estadística - Pagina 76

siendo Aj la amplitud del intervalo modal [xj-1, xj).

Las frecuencias normalizadas correspondientes al ejemplo sobre el test psicológico de la página 39, que posee intervalos con distinta amplitud serían,

Li - Ls fai cj

0-20 8 0.4

20-30 9 0.9

30-40 12 1.2

40-45 10 2.0

45-50 9 1.8

50-60 10 1.0

60-80 8 0.4

80-100 4 0.2

con lo que el intervalo modal es el [40 - 45) y la moda, pues posee la mayor frecuencia normalizada 2.0

jjj

jA

cc

cLiMo *

11

1

435*8.12.1

8.140

Mo

Con lo cual podríamos decir que la puntuación más frecuente en un test psicológico es de 43 puntos.

Ejemplo 3:

A diferencia de lo que ocurre con la media o con la mediana, sí es posible determinar la moda en el caso de datos cualitativos. Así, en el ejemplo del tratamiento de radiación seguido de cirugía (p 32) puede afirmarse que la causa modal por la que no fue completado el tratamiento es Mo = rehusaron cirugía.

5.2 Medidas de dispersión o variabilidad

Page 14: Estadistica_Parte_4

Estadística - Pagina 77

Una medida de tendencia central por sí sola no proporciona una descripción satisfactoria de un conjunto de datos. Es necesario el uso de una medida de la variación de los datos con respecto a los valores centrales, como los calculados en la sección anterior. Por lo general, las medidas de dispersión o variabilidad se calculan comparando los datos de la distribución con el dato más importante de las medidas de tendencia central: la media aritmética.

Observemos la dificultad que puede ser el caracterizar los datos sólo con una medida de tendencia central.

La edad promedio de 3 jóvenes de 18,19 y 20 años es:

años 193

201918

1

n

i

i

n

xx

Y la edad promedio de 3 integrantes de una familia con 5, 10 y 42 años es:

años 193

42105

1

n

i

i

n

xx

Aunque ambos grupos de datos presentan el mismo promedio, vemos como el primer grupo de datos presenta una pequeña dispersión, mientras que en el segundo grupo es muy grande. La dispersión es una característica muy importante de un conjunto de datos. Por ejemplo una máquina productora de tornillos milimétricos debe presentar una dispersión pequeña en el diámetro de los mismos, pues de lo contrario una alta proporción de ellos resultaría defectuosos.

Las medidas de dispersión o variabilidad, a las cuales dedicaremos esta sección, tienen como propósito estudiar lo concentrada que está la distribución en torno a algún promedio. Las cuatro medidas de dispersión más utilizadas son:

- Rango- Varianza- Desviación estándar- Coeficiente de variación

5.2.1 Rango

Nos indica la diferencia que existe entre el dato mayor y el dato menor de la distribución. Si xmax es el dato mayor o la última marca de clase, si es que los datos vienen agrupados en intervalos, y xmin el dato menor o primera marca de clase, llamaremos rango a

R = x max - x min

Ejemplos

En el ejemplo sobre el número de hijos por familia en el barrio “Belén Rosales”:

Page 15: Estadistica_Parte_4

Estadística - Pagina 78

Número de hijos (xi) 0 1 2 3 4 5 6 7 8 9 11

Frecuencias Absolutas( fai) 3 5 4 3 7 2 4 4 2 4 2

R = 11 – 0 = 11 hijos

Vemos aquí que el número de hijos varía en 11, siendo 0 el menor número de hijos presentes y 11 el mayor número de hijos que tiene una familia, mostrando una variabilidad relativamente alta.

Para los niveles de hemoglobina en la sangre para pacientes que padecen un extraño tipo de anemia:

Intervalo Li – Ls 7.5-9.0 9.0-10.5 10.5-12.0 12.0-13.5 13.5-15.0 15.0-16.5

Marca de clase xi 8.25 9.75 11.25 12.75 14.25 15.75

R = 15.75 – 8.25 = 7.5 g/dl

Observamos como el nivel de hemoglobina en la sangre para estos pacientes varía en 7.5 g/dl, del mayor valor respecto al menor valor, lo que muestra una variabilidad relativamente moderada.

La principal ventaja del rango es la de proporcionar una medida de la dispersión de los datos entre el menor y el mayor valor. Nos permite observar qué tanto varían los datos, o sea que tan amplia es la distribución de ellos.

5.2.2 Varianza para datos sin agrupar

La varianza mide el grado de dispersión de los datos respecto a la media aritmética. Si denotamos por x1,...,xn los datos, llamaremos varianza a la comparación de cada dato con su media aritmética, así:

n

ii xx

n 1

22 )(1

1

Ejemplo 1:

Para las edades de los jóvenes la varianza sería:

] ] ] 122

1)1()0()1(

2

1)1920()1919()1918(

13

1 2222222

año2

Ejemplo 2:

En las edades de los integrantes de una familia:

Page 16: Estadistica_Parte_4

Estadística - Pagina 79

] ]

2222222 )23()9()14(2

1)1942()1910()195(

13

1

] ] ] 4038062

152981196

2

1)23()9()14(

2

1 222 años2

Se observa entonces la gran diferencia en cuanto a la dispersión o variabilidad que presentan las edades de los integrantes de una familia, comparativamente con las edades de los jóvenes, aunque sus promedios sean los mismos.

5.2.2 Varianza para datos agrupados en tablas de frecuencias simples o en intervalos de clase

Si los datos se encuentran agrupados en una tabla de frecuencias simples (fila de datos) o en intervalos, la fórmula para calcular la varianza debe incluir a la frecuencia absoluta (fa i) respectiva a cada una de las categorías que toma la variable o a sus marcas de clase, según sea el agrupamiento:

)1(1

2

1

2

2

nn

faxfaxnk

i

k

iixii

En donde k = al número de categorías que toma la variable o a las marcas de clase.

Ejemplo 1:

En el ejemplo sobre el número de hijos por familia en el barrio “Belén Rosales”:

xi fai %fri Faan %Fran xi2fai xifai

0 3 7.5 3 7.5 0 01 5 12.5 8 20 5 52 4 10 12 30 16 83 3 7.5 15 37.5 27 94 7 17.5 22 55 112 285 2 5 24 60 50 106 4 10 28 70 144 247 4 10 32 80 196 288 2 5 34 85 128 169 4 10 38 95 324 3611 2 5 40 100 242 22

fai =40 %fri = 100% xi2fai = 1244 xifai = 186

Reemplazando en la fórmula de la varianza, tendríamos:

7.91560

15164

)39(40

3459649760

)140(40

)186()1244(40 22

hijos2

Page 17: Estadistica_Parte_4

Estadística - Pagina 80

Ejemplo 2:

Para los niveles de hemoglobina en la sangre de un grupo de pacientes con un extraño tipo de anemia

Li - Ls xi fai %fri Faan %Fran xi2fai xifai

7.5 – 9.0 8.25 3 8.8 3 8.8 204.2 24.75

9.0 –10.5 9.75 8 23.6 11 32.4 760.5 78.0

10.5 – 12.0 11.25 10 29.4 21 61.8 1265.6 112.5

12.0 – 13.5 12.75 10 29.4 31 91.2 1625.6 127.5

13.5 – 15.0 14.25 1 2.9 32 94.1 203.1 14.25

15.0 –16.5 15.75 2 5.9 34 100.0 496.1 31.5

fai = 34 %fri = 100.0 xi2fai = 4555.1 xifai = 388.5

5.31122

1.3941

)33(34

3.1509324.154873

)134(34

)5.388()1.4555(34 22

(g/dl)2

Existe más dispersión en el primer grupo de datos (# de hijos por familia) que en segundo grupo de datos (niveles de hemoglobina en la sangre)

La dificultad de la varianza radica en que sus unidades se encuentran al cuadrado, dificultando su interpretación y produciendo una falsa imagen de la dispersión de la distribución. Lo anterior se resuelve haciendo uso de la desviación estándar.

5.2.3 Desviación Estándar

La desviación estándar no es mas que la raíz cuadrada positiva de la varianza. Así:

2

Ejemplos:

En el ejemplo sobre el número de hijos por familia en el barrio “Belén Rosales”:

1.37.9 hijos

Page 18: Estadistica_Parte_4

Estadística - Pagina 81

Para los niveles de hemoglobina en la sangre de un grupo de pacientes con un extraño tipo de anemia

9.15.3 g/dl

5.2.4 Coeficiente de Variación

La desviación estándar sirve para medir de forma eficaz la dispersión de un conjunto de datos entorno a su media. Desgraciadamente esta medida puede resultar engañosa cuando tratamos de comparar la dispersión de dos conjuntos de datos. Así, si por ejemplo tenemos dos grupos de mujeres de 11 y 25 años con medias y desviaciones típicas dadas por la tabla siguiente:

Peso Medio Desviación Estándar11 años 40 Kg 2 Kg25 años 50 Kg 2 Kg

puede parecernos, al observar en ambos grupos una desviación típica igual, que ambos grupos de datos tienen la misma dispersión. No obstante, como parece lógico, no es lo mismo una variación de dos kilos en un grupo de elefantes que en uno de conejos. El Coeficiente de Variación elimina esa posible confusión al ser una medida de la variación de los datos pero en relación con su media. Se define como:

100.. x

VC

siendo y x respectivamente la desviación estándar y la media de la distribución en estudio y en donde el factor 100 tiene como único objetivo el evitar operar con valores decimales.

De la definición de C.V. se deduce fácilmente que aquella distribución a la que corresponda mayor coeficiente tendrá mayor dispersión.

Ejemplos:

En el ejemplo anterior, al grupo de niñas de 11 años le corresponde un coeficiente de variación de igual a:

%510040

2.. VC

y al grupo de las mujeres de 25 años

%410050

2.. VC

lo que indica que existe una mayor dispersión en los datos del grupo de niñas de 11 años.

Page 19: Estadistica_Parte_4

Estadística - Pagina 82

5.2.5. Regla empírica y Teorema de Tchebysheff

Aunque la desviación estándar como la varianza no se pueden interpretar en forma aislada, la desviación estándar conjuntamente con la media si tiene un significado práctico:

Si la distribución de los datos es simétrica, con forma de campana (distribución normal), como se muestra a continuación, podremos decir que:

- El 68% de los datos se encuentran en una región correspondiente a una desviación estándar alrededor de la media (x±).

- El 95% de los datos se encuentran en una región correspondiente a dos desviaciones estándar alrededor de la media (x±2).

- El 99% de los datos se encuentran en una región correspondiente a tres desviaciones estándar alrededor de la media (x±3).

- Datos por fuera de tres desviaciones estándar pueden eliminarse, sin afectar la distribución de los datos.

68%

95%

99%

Todos los intervalos anteriores son validos únicamente para los datos muestrales y no necesariamente para toda la población. Sin embargo si los intervalos se calculan con la media (promedio) y desviación estándar de la población entonces serán validos para toda la población: De otro modo, si la media y la desviación estándar se han calculado a partir de muestreo probabilísticos aleatorios, entonces los intervalos anteriores podrán dar una idea aproximada de lo que pasa en toda la población, sea ésta un lote o un proceso.

Page 20: Estadistica_Parte_4

Estadística - Pagina 83

Lo anteriormente propuesto está basado en lo que se conoce como la Regla Empírica; como su nombre lo dice estos resultados obtenidos han sido deducidos de la experimentación y no a través de ninguna teoría matemática.

Si la distribución no tiene forma acampanada se tiene que recurrir a lo desarrollado por Tchebysheff quien propone que:

- El 75% de las observaciones deben estar contenidas dentro de distancias que se encuentran a dos desviaciones estándar alrededor de la media (x ± 2).

- El 89% de las observaciones deben estar contenidas dentro de distancias que se encuentran a tres desviaciones estándar alrededor de la media (x ± 3).

- El 94% de las observaciones deben estar contenidas dentro de distancias que se encuentran a cuatro desviaciones estándar alrededor de la media (x ± 4).

5.3 Medidas de Asimetría

Diremos que una distribución es simétrica cuando su mediana, su moda y su media aritmética coincidan. Claramente la distribución del ejemplo de los niveles de hemoglobina es simétrica, mientras que para el número de hijos del barrio “Belén Rosales” es asimétrica.

Diremos que una distribución es asimétrica a la derecha si las frecuencias (absolutas o relativas) descienden más lentamente por la derecha que por la izquierda. Si las frecuencias descienden más lentamente por la izquierda que por la derecha diremos que la distribución es asimétrica a la izquierda.

Existen varias medidas de la asimetría de una distribución de frecuencias. Aquí estudiaremos dos de ellas.

5.3.1 Coeficiente de Asimetría de Pearson

Se define como:

Mex

Ap

siendo cero cuando la distribución es simétrica, positivo cuando existe asimetría a la derecha y negativo cuando existe asimetría a la izquierda.

Ejemplo:

- En el ejemplo del número de hijos Ap es igual a

39.01.3

5.37.4

pA

Page 21: Estadistica_Parte_4

Estadística - Pagina 84

indicando una ligera asimetría a la derecha en la distribución de frecuencias correspondiente.

5.3.2 Coeficiente de Asimetría de Fisher

Cuando los datos están agrupados en una tabla de frecuencias simples o en intervalos, sería más fácil calcular el coeficiente de asimetría utilizando la siguiente fórmula:

3

1

3)(

n

faxx

A

k

iii

f

siendo xi las categorías que toma la variable o las marcas de clase.

La interpretación del coeficiente de Fisher es la misma que la del coeficiente de Pearson: si la distribución es simétrica vale cero, siendo positivo o negativo cuando exista asimetría a la derecha o izquierda respectivamente.

Nota: Excel calcula la asimetría utilizando la siguiente fórmula, en donde cada dato es comparado con su promedio, así:

n

i

i xx

nn

n

1

3

)2)(1( Asimetría de eCoeficient

Esta función caracteriza el grado de asimetría de una distribución con respecto a su media. La asimetría positiva indica una distribución unilateral que se extiende hacia valores más positivos. La asimetría negativa indica una distribución unilateral que se extiende hacia valores más negativos.

5.4 Medidas de Curtosis

La curtosis también es una medida relacionada con la forma de la distribución de los datos. La curtosis representa la elevación o achatamiento de una distribución, comparada con la distribución normal. Una curtosis positiva indica una distribución relativamente elevada, mientras que una curtosis negativa indica una distribución relativamente plana.

Si la distribución de los datos es más elevada que la distribución normal diremos que es leptocúrtica, si es más aplanada, diremos que es platicúrtica.Para calcular la curtosis Excel utiliza la siguiente fórmula:

Page 22: Estadistica_Parte_4

Estadística - Pagina 85

)3)(2(

)1(3

)3)(2)(1(

)1( 2

1

4

nn

nxx

nnn

nnCurtosis

n

i

i

En donde n será el número total de datos, xi es cada dato de la distribución, x es el promedio de todos los datos y es la desviación estándar.

5.5 Ejercicios sobre medidas de tendencia central y medidas de variabilidad

1. ¿Cuál de las siguientes aseveraciones relacionadas con el promedio de un conjunto de datos es cierta?

a. La mediana es aquel que se obtiene sumando todos los datos y dividiendo entre el número total de datos.b. La media se obtiene sumando el valor mayor y el valor menor de los datos y luego dividiendo entre 2.c. La moda es aquel dato que más se repite.d. La media es el doble de la mediana.

2. Determina la media del conjunto de cinco datos: { 1.5 , 4.2 , 9 , 25 , 16.17 }.

3. Encuentre la mediana del siguiente conjunto de ocho datos {3, 6, 8, 7, 9, 4, 1, 3}

4. Un experimento sobre el tiempo que toma una medicina para hacer efecto resulta en los siguientes datos (en minutos): { 4, 7, 8, 5, 4, 6, 8, 9, 8, 7, 3 } ¿Cuál es el tiempo promedio según la mediana?

5. La compañía Acme tiene 8 empleados. La siguiente tabla desglosa los salarios anuales de cada empleado de la empresa. $16,000 $70,000 $14,000 $10,000 $12,000 $18,000 $12,000 $20,000 (En miles de pesos) ¿Cuál es el salario promedio según la media aritmética?

6. La tabla en la figura resume las puntuaciones obtenidas en cinco exámenes. ¿Cuál es la mediana?

Page 23: Estadistica_Parte_4

Estadística - Pagina 86

7. El siguiente cuadro muestra la distribución del ingreso anual (en millones de pesos) que tuvieron 50 empresas:

Marca de Clase

18.85 21.55 24.25 26.95 29.65 32.35 35.05

N° de Viviendas 3 2 7 7 11 11 9

a. Halle e interprete según el enunciadoi. Media, mediana y moda.ii. Desviación estándar y coeficiente de variabilidad.

b. Estime el porcentaje de empresas con ingresos superiores o iguales a 26 millones de pesos pero menores que 32 millones.c. Si los ingresos son menores que $28.300.000 se incrementaron en $2.500.000 y los ingresos mayores o iguales que $28.300.000 se redujeron en un 30%. Calcule la nueva renta promedio.

8. Una compañía requiere los servicios de un técnico especializado. De los expedientes presentados, se han seleccionado 2 candidatos: A y B, los cuales reúnen los requisitos mínimos requeridos. Para decidir cual de los 2 se va a contratar, los miembros del Jurado deciden tomar 7 pruebas a cada uno de ellos.Los resultados se dan a continuación:

Prueba1 2 3 4 5 6 7

Puntaje obtenido por A 57 55 54 52 62 55 59Puntaje obtenido por B 80 40 62 72 46 80 40

a. Halle e interprete la media, mediana y moda de los dos candidatos.b. Estadísticamente ¿Cuál de los candidatos debe ser contratado? Fundamente su respuesta.

9. Se toman las medidas de 80 personas las que tienen estatura media de 1.70 m y desviación estándar de 3.4 cm. Posteriormente se verificó que la media usada tenia 4 cm de menos.Rectifique los estadígrafos mencionados.

Page 24: Estadistica_Parte_4

Estadística - Pagina 87

10. Una asistencia social desea saber cuál es el índice de natalidad en 2 barrios de Pereira para lo que encuestó a 10 familias de cada barrio con los siguientes resultados

A 0 6 1 2 3 1 4 3 6 4

B 3 4 1 4 2 3 1 5 4 3

a. Calcule la media, mediana y moda para cada barrio e interprételos.b. Considera Ud. que en el barrio B, el número de hijos por familia es más homogéneo que en el barrio A.

11.El salario promedio en una ciudad es de $ 550.000 con una variancia de $ 360.000. ¿Cuales serán la nueva media y la nueva variancia si se efectúan los siguientes cambios:

a. Se aumenta $100.000 a todosb. Se aumenta el 15 % de su salario a cada trabajadorc. Si se duplican los sueldos

12. En un examen 20 alumnos del curso A obtienen una media de 60 puntos. y desviación estándar de 20 puntosEn el curso B los alumnos obtienen una media de 80 y desviación estándar de 16. Ante un reclamo se decide subir en 5% más 5 puntos adicionales a todos los alumnos del curso A, en cambio como hubo muchas copias en el curso B se decidió disminuir la quinta parte de la calificación.Después de los mencionados ajustes ¿Cuál es el puntaje medio de los 50 alumnos?

13. Los ingenieros industriales realizan periódicamente análisis de “medición de trabajo” con el fin de determinar el tiempo requerido para generar una sola unidad de producción. En una planta de procesamiento grande se registró durante 50 días el número de horas-obrero totales requeridas por día para realizar cierta tarea. Los datos son:

128 119 95 97 124 128 142 98 108 120113 109 124 132 97 138 133 136 120 112146 128 103 135 114 109 100 111 131 113124 131 133 131 88 118 116 98 112 138100 112 111 150 117 122 97 116 92 122

a. Calcule la media, la mediana y la moda del conjunto de datos.b. Determine el rango, la varianza y la desviación estándar del conjunto de datos.c. Construya los intervalos a una, dos y tres desviaciones estándar alrededor de la media y cuente el número de observaciones que caen dentro de cada intervalo. Determine las proporciones correspondientes. Compare los resultados de la regla empírica. ¿Detecta Usted valores fuera del intervalo?

14. Un científico midió lospesos de varios elefantes en la india y encontró un peso promedio por elefante de 10800 kg con una varianza igual a 338724 kg2 . También midió el peso de las ratas y encontró una media de 476 g y una varianza de 7569 g2 . Compare la variabilidad de los pesos de estos animales. ¿cuál peso es más homogéneo? Explique.

Page 25: Estadistica_Parte_4

Estadística - Pagina 88

15. Los precios promedios mensuales por kilogramo de tomate de aliño en el año 2001 y 2002 fueron los siguientes:

ENE FEB MAR ABR MAY JUN JUL AGO SEP OCT NOV DIC2001 950 1100 1080 990 1100 1000 995 1060 1040 1150 1000 10002002 1010 1250 900 1450 1300 1200 980 960 920 880 960 1200

Compare los conjuntos de datos e interprete:a. Usando las medias y las medianas.b. Usando las varianzas y las desviaciones estándar.c. Usando los coeficientes de variación.