ramo: estadÍstica icursos.iplacex.cl/ced/est011/s2/me_2.pdfx(estatura del padre) 1.56 1.75 1.80...

34
www.iplacex.cl ESTADÍSTICA UNIDAD Nº I Estadística Descriptiva.

Upload: others

Post on 04-Dec-2020

13 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: RAMO: ESTADÍSTICA Icursos.iplacex.cl/CED/EST011/S2/ME_2.pdfX(Estatura del Padre) 1.56 1.75 1.80 1.75 1.65 1.70 1.60 1.55 1.70 1.50 Y(Estatura hijo mayor) 1.16 1.80 1.70 1.70 1.65

www.iplacex.cl

ESTADÍSTICA UNIDAD Nº I

Estadística Descriptiva.

Page 2: RAMO: ESTADÍSTICA Icursos.iplacex.cl/CED/EST011/S2/ME_2.pdfX(Estatura del Padre) 1.56 1.75 1.80 1.75 1.65 1.70 1.60 1.55 1.70 1.50 Y(Estatura hijo mayor) 1.16 1.80 1.70 1.70 1.65

www.iplacex.cl 2

Introducción Tal como ya ha sido estudiado, la estadística descriptiva comprende la presentación,

organización y resumen de los datos de una manera científica. Mediante el estudio de

ciertos estadísticos, es posible conocer magnitudes que representan a la globalidad de

los datos disponibles de forma resumida. Incluye diversos métodos de organizar y

representar gráficamente los datos, con el objetivo de formarnos una idea de lo que nos

muestran. Las tablas, los diagramas de barras, o los gráficos sectoriales o gráficos de

“torta” son algunos de los elementos de la estadística descriptiva. Los estadísticos más

comunes de la estadística descriptiva son los estadísticos de centralización y los

estadísticos de dispersión.

Los estadísticos de centralización nos entregan una visión numérica de la variable objeto

de estudio sobre la cual tienden a concentrarse las observaciones (datos). Los

estadísticos de centralización más comunes son la madia aritmética, la mediana, la moda

y los percentiles. Una vez definidos los valores en torno a los cuales tienden a

concentrarse las observaciones, el siguiente planteamiento es describir que tan

agrupados (concentrados) o dispersos se encuentran los datos de la muestra en torno a

los estadísticos de centralización, pues una medida de tendencia central (centralización)

es insuficiente para caracterizar una distribución.

SEMANA 2

Page 3: RAMO: ESTADÍSTICA Icursos.iplacex.cl/CED/EST011/S2/ME_2.pdfX(Estatura del Padre) 1.56 1.75 1.80 1.75 1.65 1.70 1.60 1.55 1.70 1.50 Y(Estatura hijo mayor) 1.16 1.80 1.70 1.70 1.65

www.iplacex.cl 3

Ideas Fuerza Una vez construidas las tablas de distribución de frecuencia, una buena forma de

presentar la información obtenida es a partir de las diferentes representaciones gráficas

que se estudiarán en la presente semana. En el mercado, y en la web, existen varios

software o aplicaciones para su elaboración.

Los estadísticos de centralización y de dispersión permiten obtener información numérica

explicita del conjunto de datos, es decir, entregan información precisa respecto del

comportamiento de la distribución, lo que posibilita, entre otras cosas, la comparación

entre una muestra y otra. A modo de ejemplo, estas técnicas nos permitirán comparar el

nivel de producción de una empresa, o su nivel de ventas, entre dos o más meses de

interés.

Page 4: RAMO: ESTADÍSTICA Icursos.iplacex.cl/CED/EST011/S2/ME_2.pdfX(Estatura del Padre) 1.56 1.75 1.80 1.75 1.65 1.70 1.60 1.55 1.70 1.50 Y(Estatura hijo mayor) 1.16 1.80 1.70 1.70 1.65

www.iplacex.cl 4

Desarrollo 3. Representación gráfica

En muchas ocasiones la información proporcionada en una tabla es tan singular o

importante que se decide presentar esos resultados de forma gráfica. Cuando se decide

utilizar una representación gráfica, en general, esta sustituye a la tabla de distribución de

frecuencias. Dado que es deseable presentar sólo uno de estos dos elementos (gráfico,

o tabla de distribución de frecuencias), se acostumbra presentar la información numérica

relevante en el propio gráfico. Incluso, un número innecesariamente grande de gráficos

le puede restar lucidez al trabajo en lugar de proporcionarle calidad o rigor científico. Se

debe lograr un balance entre estas dos formas de presentación de resultados.

El objetivo básico de un gráfico es transmitir la información de forma tal que pueda ser

captada rápidamente, de un “golpe de vista”. Luego, un gráfico debe ser ante todo

sencillo y claro, a pesar de su aspecto artístico, ya que se elabora para ser incluido en

un trabajo científico.

Existen múltiples tipos de gráficos, pero aquí trataremos principalmente los más

ampliamente utilizados, estos son: grafico de barras, sectoriales o gráficos de “torta”,

histogramas, pictogramas, ojiva, gráfico de tallo y hojas y diagrama de dispersión.

3.1 Gráfico de barras

El diagrama principal para representar datos de variables discretas sin agrupar es el

grafico de barras. En éste se representan en el eje de las abscisas los distintos valores

de la variable y sobre cada uno de ellos se levanta una barra de longitud proporcional a

la frecuencia correspondiente. Pueden representarse tanto frecuencias absolutas 𝑓𝑖,

como las relativas ℎ𝑖. En la práctica se pueden graduar simultáneamente el eje de las

ordenadas tanto en frecuencias absolutas como en relativas en tantos por ciento.

Un diagrama similar es el polígono de frecuencias. Este se obtiene uniendo con rectas

los extremos superiores de las barras del gráfico anterior. De la misma forma, pueden

representarse frecuencias absolutas o relativas.

Page 5: RAMO: ESTADÍSTICA Icursos.iplacex.cl/CED/EST011/S2/ME_2.pdfX(Estatura del Padre) 1.56 1.75 1.80 1.75 1.65 1.70 1.60 1.55 1.70 1.50 Y(Estatura hijo mayor) 1.16 1.80 1.70 1.70 1.65

www.iplacex.cl 5

Ejemplo 4:

La siguiente tabla muestra el número de hijos por familia en una localidad rural. Para lo

anterior se ha tomado como muestra el registro de 20 familias de dicha localidad.

2 1 1 3 1 2 5 1 2 3

4 2 3 2 1 4 2 3 2 1

Construcción de la tabla de distribución de frecuencias:

𝑥𝑖

𝑓𝑖

ℎ𝑖

𝑓𝑖 20⁄

ℎ𝑖 ∙ 100

(%)

𝐹𝑖

∑ 𝑓𝑗

𝑖

1

𝐻𝑖

∑ ℎ𝑗

𝑖

1

1 6 0,30 30 6 0,30

2 7 0,35 35 13 0,65

3 4 0,20 20 17 0,85

4 2 0,10 10 19 0,95

5 1 0,05 5 20 1,00

Construcción del gráfico de barras:

Del gráfico se puede observar, por ejemplo: i) que el 35% de las familias de la localidad

rural tienen 2 hijos, ii) el 10%de las familias tiene 4 hijos, entre otras.

Page 6: RAMO: ESTADÍSTICA Icursos.iplacex.cl/CED/EST011/S2/ME_2.pdfX(Estatura del Padre) 1.56 1.75 1.80 1.75 1.65 1.70 1.60 1.55 1.70 1.50 Y(Estatura hijo mayor) 1.16 1.80 1.70 1.70 1.65

www.iplacex.cl 6

3.2 Gráficos sectoriales (gráfico de “torta”)

Otra de las representaciones gráficas muy utilizada es el gráfico sectorial o diagrama de

sectores. En él se representa el valor de cada carácter como un sector o una proporción

de un círculo completo, siendo el área de cada sector, o, lo que es lo mismo, el arco

subtendido, proporcional a la frecuencia del carácter en cuestión. Se acostumbra escribir

dentro, o a un lado, de cada sector la frecuencia correspondiente. Este tipo de gráfico

proporciona una idea visual muy clara de cuáles son los caracteres que más se repiten.

Ejemplo 5:

El sub-gerente de calidad de una empresa de servicios se encuentra evaluado la calidad

del servicio percibida por los clientes durante el último mes. Para lo anterior cuenta con

el registro de las evaluaciones percibidas de 237 clientes. Los resultados se muestran

en la siguiente tabla de distribución de frecuencias:

Categoría 𝑓𝑖 ℎ𝑖 ℎ𝑖 ∙ 100 (%) 𝐹𝑖 𝐻𝑖

Excelente 110 0,46 46 110 0,46

Buena 90 0,38 38 200 0,84

Regular 23 0,10 10 223 0,94

Mala 12 0,05 5 235 0,99

Muy mala 2 0,01 1 237 1,00

El siguiente diagrama corresponde a un gráfico sectorial:

Page 7: RAMO: ESTADÍSTICA Icursos.iplacex.cl/CED/EST011/S2/ME_2.pdfX(Estatura del Padre) 1.56 1.75 1.80 1.75 1.65 1.70 1.60 1.55 1.70 1.50 Y(Estatura hijo mayor) 1.16 1.80 1.70 1.70 1.65

www.iplacex.cl 7

3.3 Histogramas

El histograma es un tipo de gráfico muy similar al gráfico de barras, la diferencia radica

en que el histograma es una representación gráfica que se utiliza para variables

agrupadas por intervalos. Es decir, con los histogramas podemos representar variables

continuas o discretas, pero con muchos valores observados y cuyo nivel de medición sea

al menos de intervalos. Este tipo de gráficos no se pueden elaborar con atributos, sino

con variables medibles tales como peso, temperatura, tiempo, etc.

En definitiva, un histograma es una representación gráfica de una variable en forma de

barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores

representados. En el eje de las ordenadas se representan las frecuencias, y en el eje de

las abscisas, los valores de las variables, normalmente a través de las marcas de clase,

o bien los intervalos directamente.

Ejemplo 6:

La siguiente tabla de frecuencias agrupa 21 mediciones las que corresponden al

resultado de laboratorio que determina la densidad del asfalto en una obra vial.

Intervalo

Densidad del

asfalto 𝑔

𝑐𝑚3

Marca

de

Clase

𝑚𝑖

Frecuencia

absoluta

𝑓𝑖

Frecuencia

relativa

porcentual

ℎ𝑖 ∙ 100

Frecuencia

absoluta

acumulada

𝐹𝑖

Frecuencia

relativa

acumulada

𝐻𝑖

19,5 – 23,5 21,5 2 9,5 2 0,10

23,5 – 27,5 25,5 7 33,3 9 0,43

27,5 – 31,5 29,5 9 42,9 18 0,86

31,5 – 35,5 33,5 2 9,5 20 0,95

35,5 – 39,5 37,5 1 4,8 21 1,00

Page 8: RAMO: ESTADÍSTICA Icursos.iplacex.cl/CED/EST011/S2/ME_2.pdfX(Estatura del Padre) 1.56 1.75 1.80 1.75 1.65 1.70 1.60 1.55 1.70 1.50 Y(Estatura hijo mayor) 1.16 1.80 1.70 1.70 1.65

www.iplacex.cl 8

Construcción del histograma (nótese que cada barra va unida a la siguiente):

Del histograma se puede destacar, por ejemplo: i) que el 43% de los resultados de

laboratorio arrojaron un valor medio de 29,5 𝑔

𝑐𝑚3; o bien, ii) el 5% de los resultados de

laboratorio dieron como resultado un 37,5 𝑔

𝑐𝑚3 en promedio, entre otros.

Nótese que el histograma realizado para el Ejemplo 6 las barras se han dibujado

verticalmente, sin embargo, si bien es menos frecuente, también es posible construirlo

dibujando las barras de forma horizontal, siempre una barra unida a las otras.

3.4 Pictograma

Los pictogramas son gráficos similares a los gráficos de barra, pero con la diferencia que

en estos diagramas se emplea un dibujo en una determinada escala para expresar la

unidad de medida de los datos. En el eje de la ordenada se representa la frecuencia

absoluta acumulada o relativa acumulada.

Es común ver gráficos de barras, donde las barras se reemplazan por dibujos a diferentes

escalas, con el único fin de hacer más ilustrativo el gráfico, estos tipos de gráficos no

constituyen un pictograma.

Page 9: RAMO: ESTADÍSTICA Icursos.iplacex.cl/CED/EST011/S2/ME_2.pdfX(Estatura del Padre) 1.56 1.75 1.80 1.75 1.65 1.70 1.60 1.55 1.70 1.50 Y(Estatura hijo mayor) 1.16 1.80 1.70 1.70 1.65

www.iplacex.cl 9

Ejemplo 7:

Retomemos la tabla de distribución de frecuencia del Ejemplo 6. El pictograma queda

representado como sigue:

3.5 La Ojiva

Una ojiva es una gráfica lineal que representa frecuencias acumuladas. En el eje de la

abscisa se representan los límites de los intervalos, o bien, la marca de clase. La gráfica

en sí misma comienza en el límite inferior del primer intervalo, o primera marca de clase

y finaliza en el límite superior del último intervalo o en la última marca de clase. Las ojivas

son útiles para determinar el número de valores que se encuentran por debajo de un

valor particular.

Ejemplo 8:

Consideremos nuevamente el caso expuesto en el Ejemplo 6, el cual corresponde a 21

datos obtenidos desde el laboratorio respecto de la densidad, en 𝑔

𝑐𝑚3, del asfalto medido

como control de calidad en distintos puntos de la obra vial. Si consideramos en el eje de

la abscisa los límites de cada intervalo, la Ojiva queda representada como sigue:

Page 10: RAMO: ESTADÍSTICA Icursos.iplacex.cl/CED/EST011/S2/ME_2.pdfX(Estatura del Padre) 1.56 1.75 1.80 1.75 1.65 1.70 1.60 1.55 1.70 1.50 Y(Estatura hijo mayor) 1.16 1.80 1.70 1.70 1.65

www.iplacex.cl 10

De la Ojiva es posible señalar, por ejemplo: i) el 95% de los resultados de laboratorio

indican que la densidad del asfalto tiene un valor de 35 𝑔

𝑐𝑚3 o inferior (recuerde que el

límite superior del intervalo esta aumentado en la mitad de un decimal adicional); ii) el

14% de los resultados de laboratorio (100% − 86% = 14%) dan cuenta que la densidad

del asfalto es igual o superior a 32 𝑔

𝑐𝑚3 (el límite inferior está disminuido en la mitad de

un decimal adicional respecto del número de decimales de los datos originales).

3.6 Gráfico de Tallo y Hoja

Otra forma sencilla de exhibir la distribución de un conjunto de datos cuantitativos es la

gráfica de tallo y hojas. Esta gráfica presenta una exhibición gráfica de los datos

diferente a lo ya estudiado.

Para construir una gráfica de tallo y hojas, ubique los tallos en una columna y trace a

continuación una línea vertical a su derecha. Posteriormente, considerando el tallo

correspondiente, ubique las siguientes unidades numéricas de los datos, finalmente

ordene de menor a mayor para facilitar la comprensión de la gráfica. Es importante que

la descomposición de los datos sea clara, en tallos y hojas, de manera que cualquier

lector pueda recrear las mediciones de ser necesario.

Page 11: RAMO: ESTADÍSTICA Icursos.iplacex.cl/CED/EST011/S2/ME_2.pdfX(Estatura del Padre) 1.56 1.75 1.80 1.75 1.65 1.70 1.60 1.55 1.70 1.50 Y(Estatura hijo mayor) 1.16 1.80 1.70 1.70 1.65

www.iplacex.cl 11

Ejemplo 9:

Los siguientes datos muestran una lista de precios, en dólares, de 20 marcas de

zapatillas deportivas. Construya una gráfica de tallo y hoja para mostrar la distribución

de los datos.

90 70 70 70 75 70 65 68 60 74

70 95 75 70 68 65 40 65 70 72

Para crear el gráfico de tallo y hojas, se pude dividir, para este caso, cada observación

(dato) entre las unidades y las decenas. El número a la izquierda es el tallo; el de la

derecha es la hoja. Dicho lo anterior, para las zapatillas que cuestan US$65, el tallo es 6

y la hoja es 5. De esta forma continuamos clasificando el resto de los datos como sigue:

456789

|

|

0

5 8 0 8 5 5 0 0 0 5 0 4 0 5 0 0

0 5

Reordenando la clasificación anterior, e obtiene el siguiente gráfico de tallo y hoja:

456789

|

|

0

0 5 5 5 8 8 0 0 0 0 0 0 0 4 5 5

0 5

3.7 Diagramas de dispersión

Los diagramas de dispersión o gráficos de correlación permiten estudiar la posible

asociación entre dos variables discretas o continuas. En este tipo de gráficos las

observaciones o datos se representan en coordenadas cartesianas, obteniéndose una

“nube de puntos” en el plano.

Ejemplo 10:

Page 12: RAMO: ESTADÍSTICA Icursos.iplacex.cl/CED/EST011/S2/ME_2.pdfX(Estatura del Padre) 1.56 1.75 1.80 1.75 1.65 1.70 1.60 1.55 1.70 1.50 Y(Estatura hijo mayor) 1.16 1.80 1.70 1.70 1.65

www.iplacex.cl 12

Los siguientes datos muestran la estatura, en metros, de 10 pares de familia (padre e

hijo mayor).

Estatura

padre, [m] 1,56 1,75 1,80 1,75 1,65 1,70 1,60 1,55 1,70 1,50

Estatura hijo

mayor, [m] 1,16 1,80 1,70 1,70 1,65 1,75 1,40 1,55 1,65 1,50

El siguiente gráfico (diagrama de dispersión) muestra el grado de asociación que pudiese

existir entre la estatura del padre y la de su hijo mayor.

A partir de la observación del gráfico, sin cálculos de los estadísticos correspondientes,

se puede señalar que existe una buena relación entre la estatura del hijo mayor y la

estatura de su padre. Lo anteriormente se explica debido a que las rectas A y B forman

un ángulo pequeño entre sí.

Se puede señalar también que existen dos registros (estatura padre y su hijo mayor) que

no obedecen a la relación del resto de los datos. Lo anterior se puede observar en que

Page 13: RAMO: ESTADÍSTICA Icursos.iplacex.cl/CED/EST011/S2/ME_2.pdfX(Estatura del Padre) 1.56 1.75 1.80 1.75 1.65 1.70 1.60 1.55 1.70 1.50 Y(Estatura hijo mayor) 1.16 1.80 1.70 1.70 1.65

www.iplacex.cl 13

los puntos 𝑃1 y 𝑃2 se encuentran fuera de la región comprendida entre las rectas “A” y

“B”. Finalmente se puede concluir que existe una buena relación entre la estatura del

padre y la estatura de su hijo mayor.

4. Medidas de resumen

Las gráficas pueden ayudar a describir la forma básica de una distribución de datos. Es

común el dicho popular: “una imagen vale más que mil palabras”, pero hay limitaciones

para usar gráficas, una de ellas es que las gráficas son un tanto imprecisas para usar en

inferencia estadística. Por ejemplo, supongamos que desea usar un histograma muestral

para hacer inferencias acerca de las diferencias en el nivel socio-económico entre una

comuna y otra. Si resultaran ser idénticas, sería posible señalar que la distribución del

nivel socio-económico entre una y otra comuna son las mismas, pero, si son diferentes,

es imposible describir el grado de diferencia.

Una forma de superar estos inconvenientes es usar medidas de resumen, también

llamadas medidas numéricas, que se pueden calcular para una muestra o una

población de mediciones, observaciones o datos. Las medidas numéricas que se

obtengan, permitirán comprender claramente la distribución de frecuencia. Estos

resultados se llaman parámetros cuando se asocian con la población y se denominan

estadísticos cuando se calculan a partir de mediciones muestrales.

Page 14: RAMO: ESTADÍSTICA Icursos.iplacex.cl/CED/EST011/S2/ME_2.pdfX(Estatura del Padre) 1.56 1.75 1.80 1.75 1.65 1.70 1.60 1.55 1.70 1.50 Y(Estatura hijo mayor) 1.16 1.80 1.70 1.70 1.65

www.iplacex.cl 14

4.1 Medidas de posición

Este tipo de medidas de resumen tiene por finalidad concentrar en un solo valor

numérico toda la información referente a una determinada posición dentro de la

distribución que está siendo analizada. Las medidas de posición pueden ser de

tendencia central y no de tendencia central (o percentil).

4.1.1 Medidas de tendencia central

Ya hemos estudiado diferentes tipos de gráficas para describir una determinada

distribución de un conjunto de mediciones. El eje horizontal (eje de las abscisas) presenta

los distintos valores de 𝑥, y los datos serán distribuidos a lo largo de esta recta horizontal.

Una de las primeras mediciones numéricas importantes es una medida de centro o

medida de tendencia central, es decir, una medida a lo largo del eje horizontal que

localiza el centro de la distribución.

A modo de ejemplo, el siguiente histograma muestra la distribución del ingreso

correspondiente a 45 personas trabajadoras de una determinada empresa.

Figura 4: Histograma distribución de ingresos.

Page 15: RAMO: ESTADÍSTICA Icursos.iplacex.cl/CED/EST011/S2/ME_2.pdfX(Estatura del Padre) 1.56 1.75 1.80 1.75 1.65 1.70 1.60 1.55 1.70 1.50 Y(Estatura hijo mayor) 1.16 1.80 1.70 1.70 1.65

www.iplacex.cl 15

En la Figura 4 se observa, a lo largo del eje de las abscisas, que el sueldo central se

ubica entre las marcas de clase $540000 y $620000.

Las medidas de tendencia central buscan el centro de la distribución, es decir, la

posición central de los datos. Existen diferentes medidas de tendencia central, pero

con diferentes sistemas de aplicación, entre los más utilizados se encuentran la media

aritmética o promedio, la mediana y la moda. Veamos en detalle cada una de ellas,

primero para datos no agrupados y luego para datos agrupados en tablas de

distribución de frecuencias.

▪ Media aritmética o promedio para datos no agrupados, �̅�: corresponde a la suma

del conjunto de las 𝑛 mediciones o datos, dividida entre el total de datos:

�̅� = ∑ 𝑥𝑖

𝑛𝑖=1

𝑛

▪ Mediana para datos no agrupados, 𝑚𝑒: La mediana 𝑚𝑒 de un conjunto de datos

corresponde al valor de 𝑥 que cae en la posición central cuando las mediciones o

datos se encuentran ordenadas de menor a mayor. Cuando el número total de datos

es impar, se obtiene claramente un único dato central. Para el caso en que el número

total de datos sea par, se tienen dos opciones a saber. La primera es encontrar ambos

datos o mediciones centrales (dos valores) y obtener el promedio entre ellos; y la

segunda es simplemente entregar ambos valores como las medianas de la

distribución. Es decir, una distribución podrá tener una o dos medianas según lo

determine el analista. En este curso, y con el ánimo sólo de uniformar la enseñanza,

para el caso en que el número total de datos sea un número par, la mediana

corresponderá al promedio de ambos datos centrales.

▪ Moda para datos no agrupados, 𝑚𝑜: La moda es la categoría que se presenta con

más frecuencia o el valor de 𝑥 que se presenta con mayor frecuencia. La moda en

general se usa para describir conjuntos grandes de datos, mientras que la media y la

mediana se usan para conjuntos de datos grandes y pequeños. Debemos considerar

que la moda es el propio dato con mayor frecuencia, y no la frecuencia del dato. Otra

consideración que se debemos tener presente, es que una distribución puede tener

más de una moda, en estos casos hablaremos de una distribución bimodal o

multimodal según corresponda.

Page 16: RAMO: ESTADÍSTICA Icursos.iplacex.cl/CED/EST011/S2/ME_2.pdfX(Estatura del Padre) 1.56 1.75 1.80 1.75 1.65 1.70 1.60 1.55 1.70 1.50 Y(Estatura hijo mayor) 1.16 1.80 1.70 1.70 1.65

www.iplacex.cl 16

Ejemplo 11:

Los siguientes datos corresponden al puntaje obtenido por 12 familias en un

cuestionario - test que mide la vulnerabilidad social de las familias. A partir de los datos

(puntajes), determine la media aritmética, la mediana y la moda.

86 78 79 85 82 85

91 77 81 87 80 84

Cálculo de la media aritmética:

�̅� = ∑ 𝑥𝑖

𝑛𝑖=1

𝑛

Esto es (ordenando los datos de menos a mayor):

�̅� = 77 + 78 + 79 + 80 + 81 + 82 + 84 + 85 + 85 + 86 + 87 + 91

12

�̅� = 82,9

Cálculo de la mediana:

77 78 79 80 81 82 84 85 85 86 87 91

Considerando ambos datos centrales de la muestra, la mediana se obtiene:

𝑚𝑒 =82 + 84

2= 83

Cálculo de la moda:

De acuerdo a la distribución (ordenada de menor a mayor) es posible observar que el

único dato que se repite (dos veces en este caso) es el dato de valor 85. Por lo anterior,

la moda de esta distribución es:

𝑚𝑜 = 85

Page 17: RAMO: ESTADÍSTICA Icursos.iplacex.cl/CED/EST011/S2/ME_2.pdfX(Estatura del Padre) 1.56 1.75 1.80 1.75 1.65 1.70 1.60 1.55 1.70 1.50 Y(Estatura hijo mayor) 1.16 1.80 1.70 1.70 1.65

www.iplacex.cl 17

▪ Media aritmética ponderada, �̅�𝑃: La media aritmética de los valores 𝑥1, 𝑥2, …, 𝑥𝑛

ponderada por los pesos relativos 𝑝1, 𝑝2, …, 𝑝𝑛 es el número:

�̅�𝑷 = ∑ 𝑥𝑖 ∙ 𝑝𝒊

𝒏𝒊=𝟏

∑ 𝑝𝒊𝒏𝑖=1

Ejemplo 12:

Si un estudiante en el semestre anterior ha obtenido un promedio de 6,3 en una

asignatura de 5 créditos, un 4,5 en una asignatura de 4 créditos y un 5,8 en una

asignatura de 2 créditos, determine la media ponderada (promedio ponderado) del

estudiante considerando los créditos de cada asignatura.

�̅�𝑃 = 6,3 ∙ 5 + 4,5 ∙ 4 + 5,8 ∙ 2

5 + 4 + 2=

61,1

11= 5,55 ≈ 5,6

▪ Media aritmética para datos agrupados de variable discreta: Si 𝑛 valores de una

variable estadística discreta 𝑋 se clasifican en 𝑘 valores distintos 𝑥1, 𝑥2, …, 𝑥𝑘 con

frecuencias absolutas respectivas 𝑓1, 𝑓2, …, 𝑓𝑘, entonces su media aritmética es el

número:

�̅� = ∑ 𝑥𝑖 ∙ 𝑓𝑖

𝑘𝒊=𝟏

𝑛

▪ Media aritmética para datos agrupados por intervalos: Si 𝑛 valores de alguna

variable 𝑋 están tabulados en una distribución de frecuencias de 𝑘 intervalos, donde,

𝑚1, 𝑚2, …, 𝑚𝑘 corresponden a las marcas de clase de cada intervalo, y 𝑓1, 𝑓2, …, 𝑓𝑘

son las frecuencias absolutas respectivas, entonces su media aritmética corresponde

al número:

�̅� = ∑ 𝑚𝑖 ∙ 𝑓𝑖

𝑘𝒊=𝟏

𝑛

▪ Mediana de datos tabulados: Si los datos han sido tabulados en una distribución

de frecuencias por intervalos, la mediana se determina aproximadamente por

interpolación a partir de la distribución de frecuencias acumuladas. Primero se

determina el intervalo que contiene a la mediana utilizando el cociente 𝑛 2⁄ , luego la

mediana viene dada por la siguiente expresión:

Page 18: RAMO: ESTADÍSTICA Icursos.iplacex.cl/CED/EST011/S2/ME_2.pdfX(Estatura del Padre) 1.56 1.75 1.80 1.75 1.65 1.70 1.60 1.55 1.70 1.50 Y(Estatura hijo mayor) 1.16 1.80 1.70 1.70 1.65

www.iplacex.cl 18

𝑚𝑒 = 𝐿𝑖 +

𝑛

2− 𝐹𝑖−1

𝑓𝑖 ∙ 𝐴

Donde:

𝐿𝑖 : es el límite inferior del intervalo que contiene a la mediana.

𝑛 : es el número de datos totales observados.

𝐹𝑖−1 : es la frecuencia acumulada absoluta del intervalo inmediatamente anterior al

intervalo que contiene a la mediana.

𝐴 : es la amplitud del intervalo.

Ejemplo 13:

La siguiente tabla muestra una distribución del ingreso correspondiente a 45

trabajadores de una determinada empresa. Determine la media aritmética y la

mediana.

Intervalo

Densidad del

asfalto

× 1000 $

Marca de

Clase

𝑚𝑖

Frecuencia

absoluta

𝑓𝑖

Frecuencia

relativa

porcentual

ℎ𝑖 ∙ 100%

Frecuencia

absoluta

acumulada

𝐹𝑖

Frecuencia

relativa

acumulada

𝐻𝑖

26,5 – 34,5 30,5 1 2,2 1 0,02

34,5 – 42,5 38,5 2 4,4 3 0,07

42,5 – 50,5 46,5 4 8,9 7 0,16

50,5 – 58,5 54,5 10 22,2 17 0,38

58,5 – 66,5 62,5 16 35,6 33 0,73

66,5 – 74,5 70,5 8 17,8 41 0,91

74,5 – 82,5 78,5 3 6,7 44 0,98

82,5 – 90,5 86,5 1 2,2 45 1,00

Cálculo de la media aritmética:

La media aritmética para datos agrupados por intervalos se calcula mediante la

siguiente expresión:

�̅� = ∑ 𝑚𝑖 ∙ 𝑓𝑖

𝑘𝒊=𝟏

𝑛

Page 19: RAMO: ESTADÍSTICA Icursos.iplacex.cl/CED/EST011/S2/ME_2.pdfX(Estatura del Padre) 1.56 1.75 1.80 1.75 1.65 1.70 1.60 1.55 1.70 1.50 Y(Estatura hijo mayor) 1.16 1.80 1.70 1.70 1.65

www.iplacex.cl 19

�̅� = 30,5 ∙ 1 + 38,5 ∙ 2 + 46,5 ∙ 4 + ⋯ + 86,5 ∙ 1

45=

2724,5

45

�̅� = 60,5

Cálculo de la mediana:

Recodemos que la mediana corresponde al dato central de la distribución, por lo tanto,

sabiendo que se han clasificado 45 datos, se tiene:

45

2= 22,5

Nótese que el dato central 22,5 pertenece al intervalo (58,5 − 66,5), véase la columna

de las frecuencias absolutas acumuladas. Dado lo anterior se tiene que: 𝐿𝑖 =

58,5; 𝐹𝑖−1 = 17; 𝑓𝑖 = 16 y 𝐴 = 8. Luego la mediana para la distribución es la

siguiente:

𝑚𝑒 = 𝐿𝑖 +

𝑛

2− 𝐹𝑖−1

𝑓𝑖 ∙ 𝐴

𝑚𝑒 = 58,5 +

45

2− 17

16 ∙ 8 → 𝑚𝑒 = 61,25

▪ Moda de datos agrupados por intervalos: Para calcular la moda de 𝑛 datos

tabulados por intervalos, primero se determina el intervalo que contiene a la moda,

esto es, el intervalo que tiene la mayor frecuencia denominado, intervalo modal.

Luego se utiliza la ecuación:

𝑚𝑜 = 𝐿𝑖 + [(𝑑1

𝑑1 + 𝑑2) 𝐴]

Donde:

𝐿𝑖 : es el límite inferior del intervalo modal.

𝑑1 : 𝑑1 = 𝑓𝑖 − 𝑓𝑖−1, esto es, 𝑑1 es igual a la frecuencia absoluta del intervalo modal

menos la frecuencia absoluta del intervalo inmediatamente anterior.

𝑑2 : 𝑑2 = 𝑓𝑖 − 𝑓𝑖+1, esto es, 𝑑2 es igual a la frecuencia absoluta del intervalo modal

menos la frecuencia absoluta del intervalo inmediatamente posterior.

𝐴 : es la amplitud del intervalo modal.

Page 20: RAMO: ESTADÍSTICA Icursos.iplacex.cl/CED/EST011/S2/ME_2.pdfX(Estatura del Padre) 1.56 1.75 1.80 1.75 1.65 1.70 1.60 1.55 1.70 1.50 Y(Estatura hijo mayor) 1.16 1.80 1.70 1.70 1.65

www.iplacex.cl 20

Es importante mencionar que el cálculo de la moda para datos agrupados en tablas

de frecuencias es aplicable sólo cuando se registra una única frecuencia máxima.

Ejemplo 14:

Utilizando la tabla de distribución de frecuencias del Ejemplo 13, determine la moda

de la distribución.

La tabla de distribución de frecuencia presenta una mayor frecuencia absoluta para el

intervalo (58,5 − 66,5). Para este intervalo en cuestión se tiene: 𝐿𝑖 = 58,5; 𝐹𝑖−1 =

17; 𝑓𝑖 = 16; 𝑓𝑖−1 = 10; 𝑓𝑖+1 = 8 y 𝐴 = 8. Aplicando la ecuación correspondiente, se

tiene:

𝑚𝑜 = 58,5 + [(6

6 + 8) 8]

𝑚𝑜 = 61,93

▪ Relación entre media, mediana y moda

Es recomendable comparar los valores obtenidos para la media, moda y mediana,

para conocer de mejor manera la distribución de los datos que estamos analizando.

Diferencias importantes entre media y la moda, o bien entre la media y la mediana

indican que la distribución de los datos es asimétrica (concepto que revisaremos más

adelante), y si son iguales o relativamente muy cercano, la distribución de los datos

será simétrica. Observe los siguientes gráficos:

(a)

Page 21: RAMO: ESTADÍSTICA Icursos.iplacex.cl/CED/EST011/S2/ME_2.pdfX(Estatura del Padre) 1.56 1.75 1.80 1.75 1.65 1.70 1.60 1.55 1.70 1.50 Y(Estatura hijo mayor) 1.16 1.80 1.70 1.70 1.65

www.iplacex.cl 21

(b) (c)

Figura 5: Distribución de datos simétricas y asimétricas.

(a) Distribución simétrica, (b) Distribución asimétrica negativa y

(c) Distribución asimétrica positiva

4.1.2 Percentiles, medida de posición no central

El Percentil, o centil, es una medida de posición muy útil para dividir un conjunto grande

de datos. Los percentiles son valores que dividen la muestra o población en cien partes

iguales. Dado lo anterior, un percentil 𝑃𝑞%, corresponderá a un valor que deja por debajo

al 𝑞% de los valores y por tanto al (100 − 𝑃%) por sobre. Así, por ejemplo, al calcular el

percentil 75%, 𝑃75%, se obtendrá un valor tal que el 75% de los datos se encuentra por

debajo del valor determinado, y por tanto, el 25% restante estará por sobre el valor del

percentil obtenido.

Para calcular un percentil cualquiera 𝑃𝑞%, inicialmente se debe identificar a qué intervalo

corresponde el percentil en cuestión, para esto se utiliza la siguiente expresión:

𝑥 =𝑞%

100% 𝑛

Véase la columna de las frecuencias absolutas acumuladas para determinar a qué

intervalo corresponde el percentil. Luego el percentil en cuestión viene dado por la

siguiente expresión:

𝑃𝑞% = 𝐿𝑖 +𝑥 − 𝐹𝑖−1

𝑓𝑖 ∙ 𝐴

Donde:

Page 22: RAMO: ESTADÍSTICA Icursos.iplacex.cl/CED/EST011/S2/ME_2.pdfX(Estatura del Padre) 1.56 1.75 1.80 1.75 1.65 1.70 1.60 1.55 1.70 1.50 Y(Estatura hijo mayor) 1.16 1.80 1.70 1.70 1.65

www.iplacex.cl 22

𝐿𝑖 : es el límite inferior del intervalo que contiene al percentil.

𝑛 : es el número de datos totales observados.

𝐹𝑖−1 : es la frecuencia acumulada absoluta del intervalo inmediatamente anterior al

intervalo correspondiente al percentil.

𝐴 : es la amplitud del intervalo que contiene al percentil.

Nótese que la mediana divide la muestra (ordenada) en dos mitades iguales, un percentil

la divide en cien partes iguales. Definimos ahora los cuartiles como los tres valores que

dividen la muestra en cuatro partes iguales. Así el primer cuartil 𝑄1 4⁄ será la medida tal

que el 25% de los datos sean inferiores a su valor y el 75% restante de los datos sean

superiores. El segundo cuartil 𝑄1 2⁄ coincide con la mediana y con el percentil 50%, 𝑃50%,

mientras que el tercer cuartil 𝑄3 4⁄ marcará el valor tal que las tres cuartas partes de las

observaciones o datos sean inferiores a él y una cuarta parte (25%) sea superior.

De la misma forma podemos definir los deciles como aquellos valores de la variable que

dividen la muestra ordenada en 10 partes iguales.

4.2 Medidas de dispersión

Las medidas de tendencia central no son suficientes para describir un conjunto de

valores de alguna variable estadística. Los promedios determinan el centro, pero nada

indican acerca de cómo están situados los datos respecto al centro.

Las medidas de dispersión o variabilidad son números que miden el grado de

separación de los datos con respecto a un valor central, que generalmente es la

media aritmética. Las principales medidas de dispersión son: el rango, la varianza, la

desviación estándar y el coeficiente de variación.

4.2.1 El Rango o recorrido de una variable

El Rango de variación o recorrido, 𝑅, de una serie de datos corresponde a la diferencia

entre sus valores máximo y mínimo. Esto es:

𝑅 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛

Siendo 𝑥𝑚𝑎𝑥 el valor máximo y 𝑥𝑚𝑖𝑛 el valor mínimo.

El rango es una medida de dispersión muy fácilmente calculable, pero es muy inestable,

ya que depende únicamente de los dos valores extremos. Su valor puede cambiar

Page 23: RAMO: ESTADÍSTICA Icursos.iplacex.cl/CED/EST011/S2/ME_2.pdfX(Estatura del Padre) 1.56 1.75 1.80 1.75 1.65 1.70 1.60 1.55 1.70 1.50 Y(Estatura hijo mayor) 1.16 1.80 1.70 1.70 1.65

www.iplacex.cl 23

grandemente si se añade o elimina un solo dato. Por lo tanto se debe tener claro que su

uso es muy limitado.

4.2.2 Varianza

La varianza es una medida que cuantifica el grado de dispersión o de variación de los

valores de una variable cuantitativa con respecto a su media aritmética. Si los valores

tienden a concentrarse alrededor de su media, la varianza será pequeña. Si los valores

tienden a distribuirse lejos de la media, la varianza será grande.

La siguiente figura muestra, a través de una línea horizontal, la media aritmética. Nótese

que para ambas distribuciones la media aritmética es la misma. La Figura 6 (a) muestra

una mayor dispersión de los datos respecto de la media comparativamente con la Figura

6 (b). De acuerdo a la definición de varianza, la distribución mostrada en la Figura 6 (a)

tendrá una mayor varianza que la Figura 6 (b).

(a)

(b)

Figura 6: Distribución de datos.

(a) Mayor varianza de los datos, (b) Menor varianza de los datos.

La varianza calculada a partir de una muestra será denotada por 𝑆2 y referida a una

población se denotará por 𝜎2 (sigma al cuadrado).

La varianza se define como la media aritmética de los cuadrados de las diferencias

de los datos con respecto a su media aritmética.

Page 24: RAMO: ESTADÍSTICA Icursos.iplacex.cl/CED/EST011/S2/ME_2.pdfX(Estatura del Padre) 1.56 1.75 1.80 1.75 1.65 1.70 1.60 1.55 1.70 1.50 Y(Estatura hijo mayor) 1.16 1.80 1.70 1.70 1.65

www.iplacex.cl 24

▪ Varianza de datos no tabulados

La varianza de 𝑛 valores 𝑥1, 𝑥2, … , 𝑥𝑛, de alguna variable cuantitativa 𝑋 cuya media 𝑥,

se calcula mediante la siguiente expresión:

𝑆2 = ∑ (𝑥𝑖 − 𝑥)2𝑛

𝑖=1

𝑛

Nótese que la unidad resultante de la varianza corresponde a la propia unidad de los

datos originales pero elevada al cuadrado, así por ejemplo, si los datos pertenecieran

al peso de 100 recién nacidos vivos, cuya unidad de medida es el “kilogramo” 𝑘𝑔, la

unidad de la varianza en este caso sería 𝒌𝒈𝟐, lo cual se debe tener especial atención

al momento de interpretar este indicador estadístico.

▪ Varianza de datos tabulados, distribución discreta

La varianza de 𝑛 valores de una variable estadística discreta 𝑋 que se clasifican en 𝑘

valores distintos 𝑥1, 𝑥2, … , 𝑥𝑘, con frecuencias absolutas respectivas 𝑓1, 𝑓2, … , 𝑓𝑘, y cuya

media aritmética es 𝑥 se calcula utilizando la siguiente ecuación:

𝑆2 =∑ 𝑓𝑖(𝑥𝑖 − 𝑥)2𝑘

𝑖=1

𝑛

▪ Varianza de datos tabulados por intervalos

La varianza de 𝑛 valores de alguna variable 𝑋, tabulados en 𝑘 intervalos, con marcas

de clase 𝑚1, 𝑚2, … , 𝑚𝑘, frecuencias absolutas respectivas 𝑓1, 𝑓2, … , 𝑓𝑘, y con media

aritmética 𝑥 se calcula utilizando la siguiente ecuación:

𝑆2 =∑ 𝑓𝑖(𝑚𝑖 − 𝑥)2𝑘

𝑖=1

𝑛

Nota: Algunos autores definen la varianza en estadística descriptiva con denominador

𝑛 − 1 (en reemplazo de 𝑛). Lo anterior, para efectos de este apunte, será considerado

cuando 𝑛 ≤ 10.

Page 25: RAMO: ESTADÍSTICA Icursos.iplacex.cl/CED/EST011/S2/ME_2.pdfX(Estatura del Padre) 1.56 1.75 1.80 1.75 1.65 1.70 1.60 1.55 1.70 1.50 Y(Estatura hijo mayor) 1.16 1.80 1.70 1.70 1.65

www.iplacex.cl 25

4.2.3 Desviación Estándar

La desviación estándar corresponde a la raíz cuadrada positiva de la varianza para cada

caso particular antes visto. Esto es:

𝑆 = √𝑆2

O bien: 𝜎 = √𝜎2 cuando se trata de una población.

Nótese que la desviación estándar viene a solucionar la dificultad de interpretación que

presenta la varianza, esto es, que la unidad resultante de la varianza es la unidad de

los datos originales al cuadrado. Por ejemplo, si los datos correspondieran al sueldo

mensual de 50 trabajadores de una empresa en Unidades de Fomento 𝑈𝐹, la varianza

resultará en 𝑈𝐹2. De esta forma, la desviación estándar, al calcularse como la raíz

cuadrada de la varianza, elimina la potencia de la unidad resultante. Para nuestro

ejemplo, la situación sería como sigue:

𝑆 = √𝑈𝐹2 = 𝑈𝐹

4.2.4 Coeficiente de Variación

El coeficiente de variación 𝐶𝑉 es una medida de dispersión relativa (libre de unidades

de medida), que se define como la desviación estándar dividido por la media aritmética.

Esto es:

𝐶𝑉 =𝑆

𝑥

El coeficiente de variación se utiliza para comparar la variabilidad de dos o más series

de datos que tengan medias iguales o diferentes, o que tengan unidades de medidas

iguales o diferentes (por decir, una serie de datos en kilógramos y otra serie en metros).

Este indicador estadístico puede expresarse como 𝐶𝑉 = 𝑆 𝑥⁄ , o bien en porcentaje como

sigue:

𝐶𝑉% =𝑆

𝑥 ∙ 100

Page 26: RAMO: ESTADÍSTICA Icursos.iplacex.cl/CED/EST011/S2/ME_2.pdfX(Estatura del Padre) 1.56 1.75 1.80 1.75 1.65 1.70 1.60 1.55 1.70 1.50 Y(Estatura hijo mayor) 1.16 1.80 1.70 1.70 1.65

www.iplacex.cl 26

Ejemplo 15:

Los siguientes datos corresponden al registro del peso, en kilogramos 𝑘𝑔, de 18 niños (y

niñas) recién nacidos en un día. Determine: la media aritmética, la varianza, la desviación

estándar y el coeficiente de variabilidad.

2,83 3,55 3,78 3,02 3,67 3,85 3,54 3,97 4,12

5,05 4,12 3,34 4,67 3,54 3,10 4,15 4,25 3,07

Realizando un tratamiento de los pesos de las niñas y niños recién nacidos como datos

no agrupados, se construye la tabla que a continuación se presenta. La segunda

columna, 𝑥𝑖, corresponde a los diferentes pesos (datos) registrados, la tercera columna,

𝑥𝑖 − �̅�, procede al cálculo de las diferencias de cada dato respecto de la media aritmética,

y finalmente la cuarta columna, (𝑥𝑖 − �̅�)2, corresponde a las diferencias de la tercera

columna al cuadrado, esto es:

Pesos

registrados

𝑥𝑖

𝑥𝑖 − �̅� (𝑥𝑖 − �̅�)2

1 2,83 -0,93 0,86

2 3,55 -0,21 0,04

3 3,78 0,02 0,00

4 3,02 -0,74 0,55

5 3,67 -0,09 0,01

6 3,85 0,09 0,01

7 3,54 -0,22 0,05

8 3,97 0,21 0,04

9 4,12 0,36 0,13

10 5,05 1,29 1,66

11 4,12 0,36 0,13

12 3,34 -0,42 0,18

13 4,67 0,91 0,83

14 3,54 -0,22 0,05

15 3,10 -0,66 0,44

16 4,15 0,39 0,15

17 4,25 0,49 0,24

18 3,07 -0,69 0,48

Page 27: RAMO: ESTADÍSTICA Icursos.iplacex.cl/CED/EST011/S2/ME_2.pdfX(Estatura del Padre) 1.56 1.75 1.80 1.75 1.65 1.70 1.60 1.55 1.70 1.50 Y(Estatura hijo mayor) 1.16 1.80 1.70 1.70 1.65

www.iplacex.cl 27

Cálculo de la media aritmética:

�̅� =∑ 𝑥𝑖

𝑛𝑖=1

𝑛

�̅� =67,62

18 → �̅� = 3,76

El promedio de los pesos de los 18 niños y niñas que nacieron ese día es de 3,76 𝑘𝑔.

Cálculo de la varianza:

La varianza (para datos no agrupados) se calcula mediante la siguiente expresión:

𝑆2 = ∑ (𝑥𝑖 − 𝑥)2𝑛

𝑖=1

𝑛

Lo anterior implica que debemos sumar la columna (𝑥𝑖 − 𝑥)2 de la tabla y dividir dicho

valor por el número total de datos registrados, esto es:

𝑆2 = 5,85 𝑘𝑔2

18 → 𝑆2 = 0,29 𝑘𝑔2

Cálculo de la desviación estándar:

La desviación estándar se calcula como la raíz cuadrada de la varianza. Téngase

especial atención el tratamiento de la unidad de medida de la varianza.

𝑆 = √𝑆2 = √ ∑ (𝑥𝑖 − 𝑥)2𝑛

𝑖=1

𝑛

𝑆 = √0,29 𝑘𝑔2

𝑆 = √0,29 √𝑘𝑔2

𝑆 = 0,54 𝑘𝑔

Page 28: RAMO: ESTADÍSTICA Icursos.iplacex.cl/CED/EST011/S2/ME_2.pdfX(Estatura del Padre) 1.56 1.75 1.80 1.75 1.65 1.70 1.60 1.55 1.70 1.50 Y(Estatura hijo mayor) 1.16 1.80 1.70 1.70 1.65

www.iplacex.cl 28

El muy común realizar una interpretación conjunta considerando la media aritmética y la

desviación estándar, esto es: Los pesos de las niñas y niños recién nacidos aquel

día tienen un peso promedio de 𝟑, 𝟕𝟔 𝒌𝒈 con una desviación estándar de 𝟎, 𝟓𝟒 𝒌𝒈.

Lo anterior expresado en notación matemática sería:

𝑥 = (�̅� ± 𝑆) [𝑈𝑛𝑖𝑑𝑎𝑑𝑒𝑠]

En nuestro caso:

𝑥 = 𝑝𝑒𝑠𝑜 = (3,76 ± 0,54) 𝑘𝑔

Lo anterior quiere decir, que en promedio los pesos de las niñas y niños nacidos

aquel día están entre los 𝟑, 𝟐𝟐 𝒌𝒈, (3,76 − 0,54) 𝑘𝑔, y los 𝟒, 𝟑𝟎 𝒌𝒈, (3,76 + 0,54) 𝑘𝑔.

Cálculo del coeficiente de variabilidad:

𝐶𝑉% =𝑆

𝑥 ∙ 100

Para nuestro caso:

𝐶𝑉% =0,54

3,76 ∙ 100 → 𝐶𝑉% = 14,36%

Lo anterior nos da cuenta que los datos tienen una variabilidad del 14,36% respecto de

la media aritmética.

4.3 Medidas de Formas

4.3.1 Índices de Asimetría

Se dice que una distribución de frecuencias es simétrica, si los intervalos equidistantes

del intervalo central tienen iguales frecuencias. También se dice que una distribución es

simétrica si su curva de frecuencias es simétrica con respecto al centro, esto significa

que si la distribución se divide en dos partes justo en su centro, la forma de la distribución

hacia la derecha es la misma forma que el lado de la izquierda. Esto es:

Page 29: RAMO: ESTADÍSTICA Icursos.iplacex.cl/CED/EST011/S2/ME_2.pdfX(Estatura del Padre) 1.56 1.75 1.80 1.75 1.65 1.70 1.60 1.55 1.70 1.50 Y(Estatura hijo mayor) 1.16 1.80 1.70 1.70 1.65

www.iplacex.cl 29

Figura 7: Distribución simétrica.

Dos distribuciones pueden tener la misma media y la misma desviación estándar, pero

pueden diferir en el grado de asimetría.

Si la distribución es simétrica, como lo muestra la Figura 7, entonces la media, la mediana

y la moda coinciden. En contraposición, si estos tres indicadores estadísticos no

coinciden, la distribución tiene que ser asimétrica.

Existen varias medidas de asimetría, una de ellas es el coeficiente o índice de

asimetría de Pearson.

El índice de asimetría de Pearson se determina mediante la siguiente expresión:

𝐴𝑃 =�̅� − 𝑚𝑜

𝑆

En distribuciones asimétricas se verifica que:

�̅� − 𝑚𝑜 ≅ 3(�̅� − 𝑚𝑒).

Dado lo anterior, el índice de Pearson puede obtenerse también utilizando la siguiente

expresión:

𝐴𝑃 =3(�̅� − 𝑚𝑒)

𝑆

Page 30: RAMO: ESTADÍSTICA Icursos.iplacex.cl/CED/EST011/S2/ME_2.pdfX(Estatura del Padre) 1.56 1.75 1.80 1.75 1.65 1.70 1.60 1.55 1.70 1.50 Y(Estatura hijo mayor) 1.16 1.80 1.70 1.70 1.65

www.iplacex.cl 30

Donde:

�̅� : corresponde a la media aritmética de la distribución.

𝑚0 : corresponde a la moda de la distribución.

𝑚𝑒 : corresponde la media de la distribución.

𝑆 : desviación estándar de la distribución de datos.

Nótese que si 𝐴𝑃 = 0, la distribución es simétrica puesto que �̅� = 𝑚𝑜. Si 𝐴𝑃 > 0, entonces

la distribución es asimétrica hacia la derecha, ver Figura 8 (a), o tiene sesgo

positivo. Si 𝐴𝑃 < 0, entonces la distribución es asimétrica hacia la izquierda, ver figura 8

(b), o tiene sesgo negativo.

(a)

(b)

Figura 8: Distribuciones asimétricas.

(a) Distribución asimétrica positiva y (b) Distribución asimétrica negativa.

4.3.2 Curtosis

La curtosis es la propiedad de una distribución de frecuencias por la cual se compara la

dispersión de los datos observados cercanos al valor central con la dispersión de los

datos cercanos a ambos extremos de la distribución. La curtosis se mide en comparación

a la curva simétrica normal o mesocúrtica, ver Figura 9.

Una curva simétrica con curtosis mayor que la curva normal es denominada curva

leptocúrtica y una curva simétrica con curtosis menor que la normal es denominada

curva platicúrtica.

Page 31: RAMO: ESTADÍSTICA Icursos.iplacex.cl/CED/EST011/S2/ME_2.pdfX(Estatura del Padre) 1.56 1.75 1.80 1.75 1.65 1.70 1.60 1.55 1.70 1.50 Y(Estatura hijo mayor) 1.16 1.80 1.70 1.70 1.65

www.iplacex.cl 31

Figura 9: Distribuciones asimétricas.

Una forma de determinar la curtosis, 𝐾, de una distribución es utilizando diferentes

percentiles como se presenta en la siguiente ecuación:

𝐾 =𝑃75% − 𝑃25%

𝑃90% − 𝑃10%− 0,5

Si la distribución es normal, 𝐾 tiende a cero (el resultado está próximo al valor cero). Si

𝐾 tiende a 0,5, es leptocúrtica, y si 𝐾 tiende a –0,5, es platicúrtica.

Page 32: RAMO: ESTADÍSTICA Icursos.iplacex.cl/CED/EST011/S2/ME_2.pdfX(Estatura del Padre) 1.56 1.75 1.80 1.75 1.65 1.70 1.60 1.55 1.70 1.50 Y(Estatura hijo mayor) 1.16 1.80 1.70 1.70 1.65

www.iplacex.cl 32

Conclusión

La presentación de información estadística tiene dos opciones de formato: el agrupar o

tabular, y representaciones gráficas. El primero consiste en el ordenamiento de los datos

obtenidos o seleccionados, en filas y columnas, denominado tabla de distribución de

frecuencias. El formato gráfico consiste en la utilización de puntos, líneas y figuras que

sirven para mostrar magnitudes asociadas a una escala de medición, de manera que se

facilita la comparación e interpretación de los datos estadísticos, sin que necesariamente

se incluyan los valores numéricos.

El gráfico estadístico debe estructurarse teniendo en cuenta la utilidad que preste al

usuario objetivo, es decir, que quien lo diseña debe colocarse en el lugar del que utilizará

la información. Cada representación gráfica tiene una forma propia, pero existen normas

generales que permiten, hasta cierto punto, presentarlas con criterio uniforme.

La estadística descriptica es en sí misma una herramienta fundamental para el análisis

de datos de los estudios correspondientes, en ella encontramos medidas de posición y

de dispersión, las cuales se utilizan para describir la distribución de los datos. Las

medidas de posición nos indican hacia dónde se inclinan o se agrupan mayormente los

datos. Las más utilizadas son: la media aritmética, la mediana y la moda.

Las medidas de dispersión son útiles para determinar y cuantificar lo próximo o alejados

que están los datos de la muestra de un punto central. Estas medidas indicarán por un

lado el grado de variabilidad que hay en la muestra y, por otro, la representatividad de

dicho punto central. Las medidas de dispersión más ampliamente utilizadas son: el

rango, la varianza, la desviación estándar y el coeficiente de variabilidad.

Page 33: RAMO: ESTADÍSTICA Icursos.iplacex.cl/CED/EST011/S2/ME_2.pdfX(Estatura del Padre) 1.56 1.75 1.80 1.75 1.65 1.70 1.60 1.55 1.70 1.50 Y(Estatura hijo mayor) 1.16 1.80 1.70 1.70 1.65

www.iplacex.cl 33

Bibliografía

- Canavos, G. (1988). Probabilidad y Estadística: Aplicaciones y Métodos. Mc Graw-

Hill. México D. F., México.

- Walpole, Ronald E (1992). Probabilidades y Estadística. 3ª edición. Interamericana

McGraw-Hill. México.

- Cordova, M. (2003). Estadística Descriptiva e Inferencial con Aplicaciones, 5ª edición.

Editorial Moshera S.R.L. Perú.

- Wisniewski, M. (2008). Estadística y Probabilidad. Editorial Trillas. México.

- Walpole Ronald E. (2012). Probabilidad y Estadística para Ingeniería y Ciencias.

Editorial Pearson Educación. México.

Page 34: RAMO: ESTADÍSTICA Icursos.iplacex.cl/CED/EST011/S2/ME_2.pdfX(Estatura del Padre) 1.56 1.75 1.80 1.75 1.65 1.70 1.60 1.55 1.70 1.50 Y(Estatura hijo mayor) 1.16 1.80 1.70 1.70 1.65

www.iplacex.cl 34