mic sesión 4

Post on 14-Apr-2017

121 Views

Category:

Education

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

MÉTODOS DE INVESTIGACIÓN CUANTITATIVA

Sesión 4

ESTADÍSTICA DESCRIPTIVA:Estadísticos Resúmenes

FÁTIMA PONCE 1

FÁTIMA PONCE 2

PUNTOS A TRATARSesión 3:

Estadística Descriptiva: Estadísticos Resúmenes.Medidas de tendencia central (media, mediana,

moda). Medidas de variabilidad o dispersión (varianza,

desviación estándar, coeficiente de variabilidad).Medidas de posición no central (percentiles, cuartiles,

diagrama de caja)

FÁTIMA PONCE 3

ESTADÍSTICA DESCRIPTIVA

Permite construir y analizar cuadros estadísticos y gráficos resúmenes, con el objetivo de resumir los datos, de manera que sean entendibles e interpretables con facilidad, a fin de que la información nos sirva para la toma de decisiones.

Aplicar e interpretar medidas numéricas que resumen los datos, como: Medidas de localización central: Media, mediana,

moda. Medidas de variabilidad: varianza, desviación estándar,

coeficiente de variabilidad.

FÁTIMA PONCE 4

Son medidas estadísticas numéricas que "resumen" la información de la "muestra" para poder tener así un mejor conocimiento de la población.  

Estadística Descriptiva Sumaria

Tendencia Central (Posición)

Dispersión(Variación)

Sesgo

FÁTIMA PONCE 5

Estadística Descriptiva Sumaria

I. Medidas de:Tendencia o Localización Central

Media Mediana Moda

oSe refieren al punto medio de una distribución,oInforman de cómo están agrupados los datos.o¿Alrededor de qué valor se agrupan los datos?.

FÁTIMA PONCE 6

Estadística Descriptiva SumariaII. Medidas de:

Dispersión ó Variabilidad

Varianza Desviación Estándar

Coefic. de Variabilidad

Rango

oInforman de cuánto se alejan los datos del valor central.

III. Medidas de Forma de la distribución:o La asimetría (sesgo) y la curtosis.

IV. Medidas de Posición no central: o Más usadas son los Percentiles y Cuartiles.

FÁTIMA PONCE 7

LA MEDIA O VALOR PROMEDIO DE UNA VARIABLE

Media Muestral: Se tiene n observaciones en la muestra:

N X1 + X2 + X3 + … + XN Xi i=1

= ------------------------------- = ------ N N

n x1 + x2 + x3 + … + xn xi

_ i=1

X = ------------------------------- = -------- n n

Media Poblacional: Se tiene N observaciones en la población:

FÁTIMA PONCE 8

Suponga que se tiene una muestra de ingresos por ventas mensuales en miles de soles para 7 meses:

56, 67, 54, 45, 50, 48 y 65

LA MEDIA (O MEDIA ARITMÉTICA): EJEMPLO

La media muestral es:

_ 56 + 67 + 54 + 45 + 50 + 48 + 65X = ----------------------------------------------

7

385 = ------- = 55 m.S/. 7

FÁTIMA PONCE 9

Ventajas:Es un concepto familiar para la mayoría de personas.Cada conjunto de datos tiene una media que es única.Sirve para comparar entre varios conjuntos de datos

(comparación de medias).

Desventajas:Puede verse afectada por valores extremos que no son

representativos. En este caso mejor emplear la mediana.Si el conjunto de datos tiene un extremo abierto no se

puede calcular la media.

VENTAJAS Y DESVENTAJAS DE LA MEDIA

FÁTIMA PONCE 10

Suponga que en un curso tiene las siguientes notas:

MEDIA PONDERADA: EJEMPLO

Nota (X) Peso (W) XW 11 0.1 1.1 12 0.1 1.2 11 0.1 1.1 13 0.3 3.9 15 0.4 6.0 ------- ------- 1.0 13.3

Prácticas: 11, 12, 11 , c/práctica pesa 10% Examen parcial: 13 , pesa 30% Examen final: 15 , pesa 40%.

_ XWXW = ---------- W

_ 13.3XW = -------- = 13.3 1

¿Cuál es su nota final? (= promedio ponderado).

FÁTIMA PONCE 11

LA MEDIANA ó Media Posicional

Luego de ordenar los datos de menor a mayor: Es la observación equidistante de los extremos: un 50% de valores está debajo de ella y el otro 50% encima de ella en la ordenación de los datos.

No es afectada por valores extremos. Se puede hallar incluso cuando los datos son descripciones

cualitativas ordinales.

FÁTIMA PONCE 12

LA MEDIANA

Si el conjunto de datos tiene un número impar de observaciones la posición de la mediana es: (n+1)/2

Por ej: 30, 52, 40, 60, 100, la mediana es: 52.

Si es un número par de observaciones, la posición de la mediana saldrá partido (3.5 por ej.) por lo que se debe promediar los valores de la posición 3 y 4. Por ej: 35, 45, 52, 56, 67, 67, la mediana es 54.

FÁTIMA PONCE 13

Es el valor de la variable o la observación que ocurre con mayor frecuencia.

Si los datos son: 35, 45, 52, 56, 67, 67, la moda es 67.

No es afectada por valores extremos.

Puede no existir una moda.

Pueden haber varias modas: Si hay dos valores que se repiten más y con igual frecuencia será bimodal.

LA MODA

FÁTIMA PONCE 14

Moda: Categoría o

valor que tiene la mayor

frecuencia

Mediana: Categoría o valor que divide

al conjunto de datos en dos partes

iguales.

Media : Es la suma de todos sus

valores dividida entre el número de

sumandos

Medidas de Tendencia Central: Informan cómo están concentrados los datos

Distribución Normal: media=mediana= moda

x

50%50%

f(x)

FÁTIMA PONCE 15

La media, mediana o moda sólo revelan una parte de la información acerca de las características de los datos. Para aumentar nuestro entendimiento del patrón de los datos, se debe medir también su dispersión o variabilidad, porque:

1. Permite juzgar la confiabilidad de nuestra medida de tendencia central.

2. Medida de riesgo (variables financieras, calidad).

MEDIDAS DE VARIABILIDAD O DISPERSIÓN

FÁTIMA PONCE 16

rango = XMás grande Xmás pequeño

No toma en cuenta la forma en que están distribuidos los datos.

EL RANGO

Es la diferencia entre el más alto y el más pequeño delos valores observados:

FÁTIMA PONCE 17

VARIANZA Y DESVIACIÓN (en torno a su valor central)

DESVIACIÓN ESTÁNDAR

Poblacional: Muestral:

En la práctica no se emplea porque sus unidades están elevadas al cuadrado.

2

Poblacional: Muestral:

FÁTIMA PONCE 18

Si se tiene una muestra de ingresos por ventas mensuales en miles de soles para 7 meses: 56, 67, 54, 45, 50, 48 y 65

Se halló la media: 55.

LA VARIANZA Y DESVIACIÓN ESTANDAR: EJEMPLO

La varianza muestral es:

s2 =[(56-55)2+(67-55)2+(54-55)2+(45-55)2+(50-55)2+(48-55)2+ (65-55)2] / (7-1)

s2 = 420 / (7-1) = 70 miles de S/ al cuadrado

s = 70 = 8.37 miles de S/.

La desviación estándar muestral es:

FÁTIMA PONCE 19

COEFICIENTE DE VARIACIÓN

Desviación estándar es una medida absoluta de la dispersión que expresa la variación en las mismas unidades que los datos originales No puede ser la única base para la comparación de 2 distribuciones.

Se requiere de una medida relativa que proporcione una estimación de la magnitud de la desviación respecto a la magnitud de la media Coeficiente de Variación ó Coeficiente de Variabilidad (CV).

FÁTIMA PONCE 20

COEFICIENTE DE VARIACIÓNMide la dispersión relativa de los datos y se calcula

dividiendo la desviación estándar muestral (s) por la media y multiplicando el cociente por 100:

s CV = -------- * 100 % _ X

Compara la dispersión de dos o más grupos: A > valor de CV > heterogeneidad de los valores de la variable.

Permite comparar dispersiones a escalas distintas. Pero varia ante cambios de origen, por ello todos los valores deben ser positivos.

FÁTIMA PONCE 21

EJEMPLOSe dice que "Los economistas suelen tener mejores salarios

iniciales que los abogados". a) ¿Qué indican los datos muestrales acerca de la afirmación?:

b) ¿En cuál de las muestras existe mayor variabilidad en los sueldos?:

Rspta: CVAbogados=13.93% y CVEconomistas=16.79% Mayor variabilidad hay en los salarios de los economistas.

Abogado34.2 45 39.5 28.4 37.7 35.8 30.6 35.2 34.2 42.4

Economista33.5 57.1 49.7 40.2 44.2 45.2 47.8 49.9 53.9 61.2

FÁTIMA PONCE 22

¿CÓMO INTERPRETAR?Si tuviéramos información de las regiones del Perú con los

siguientes resultados para la variable: tasa de pobreza (se mide de 0 a 100%).

• Media = 41.5 Mediana = 39.2• Máximo= 77.2 Mínimo = 12.7• Desviación estándar= 19.8

Poco menos de la mitad de la población es considerada pobre. El 50% de la población se encuentra por debajo de 39.2% de tasa de pobreza.

La tasa de pobreza media es 41.5% con una fluctuación de los datos respecto a su media de 19.8%, o con una tendencia a variar por debajo o por encima de la media en 19.8%.

Al analizar Max y Min se observa polos muy diferenciados: Existe desigualdad.

FÁTIMA PONCE 23

MEDIA Y DESVIACIÓN

ESTANDAR DE DATOS AGRUPADOS

FÁTIMA PONCE 24

Si se tiene el número de vehículos vendidos por rango de precios:

MEDIA DE DATOS AGRUPADOS

Precio de venta (miles de $) Frecuencia

10 a 13 814 a 17 2318 a 21 1722 a 25 1826 a 29 830 a 33 434 a 37 138 a 41 1

Total 80

Estime la media del precio de venta de los vehículos a partir de la información de distribución de frecuencias dada (datos agrupados).

FÁTIMA PONCE 25

¿Cómo estimar la media aritmética de los datos agrupados? :

1. Calcular el punto medio de cada clase en la muestra (Mi).

2. Multiplicar cada punto medio (Mi) por la frecuencia de las observaciones de dicha clase (fi).

3. Sumar todos los resultados de estos productos.4. Dividir la suma entre el número total de

observaciones de la muestra (n).

MEDIA DE DATOS AGRUPADOS

_ (fi*Mi) x = ------------- n

FÁTIMA PONCE 26

LA MEDIA DE DATOS AGRUPADOS: _ Media muestral de datos agrupados = X = (fi *Mi) / n

Precio de venta (miles de $)

Frecuencia (fi) fiMi

10 a 13 =(10+13)/2= 11.5 8 9214 a 17 =(14+17)/2= 15.5 23 356.518 a 21 =(18+21)/2= 19.5 17 331.522 a 25 =(22+25)/2= 23.5 18 42326 a 29 =(26+29)/2= 27.5 8 22030 a 33 =(30+33)/2= 31.5 4 12634 a 37 =(34+37)/2= 35.5 1 35.538 a 41 =(38+41)/2= 39.5 1 39.5

Total 80 1624

Punto medio de clase (Mi)

Media muestral de Datos Agrup= 1624/80= 20.3 miles de $

FÁTIMA PONCE 27

LA VARIANZA DE DATOS AGRUPADOS

¿Cómo calcular la varianza de los datos agrupados si se tiene una distribución de frecuencias y no se conoce el valor individual de cada observación?.

A nivel de la Población: fi(Mi-)2

2 = -----------------

N fi es la frecuencia de cada una de las clases. Mi es el punto medio de cada clase A nivel de la muestra:

_ [fi(Mi-X)2] s2 = ---------------- (n-1)

FÁTIMA PONCE 28

Estime la varianza y desv estandar del precio de venta de los vehículos a partir de la información de distribución de frecuencias siguiente. Recuerde que su media estimada fue 20.3 miles de $:

LA VARIANZA DE DATOS AGRUPADOS: EJERCICIO 3

Precio de venta (miles de $) Frecuencia

10 a 13 814 a 17 2318 a 21 1722 a 25 1826 a 29 830 a 33 434 a 37 138 a 41 1

Total 80

FÁTIMA PONCE 29

LA VARIANZA DE DATOS AGRUPADOS: EJERCICIO 3

s2=[fi(Mi - 20.3)2]/(n-1)

s = 36.21 = 6.02 miles de $

=2860.8/79=36.21 miles $ al cuadrado

Precio de venta (miles de $)

Punto medio de clase (Mi)

Frecuencia (fi)

Desviación (Mi - Xbarra)

Cuadrado de la Desviación

(Mi - Xbarra)2

fi(Mi-Xbarra)2

10 a 13 11.5 8 -8.80 77.44 619.5214 a 17 15.5 23 -4.80 23.04 529.9218 a 21 19.5 17 -0.80 0.64 10.8822 a 25 23.5 18 3.20 10.24 184.3226 a 29 27.5 8 7.20 51.84 414.7230 a 33 31.5 4 11.20 125.44 501.7634 a 37 35.5 1 15.20 231.04 231.0438 a 41 39.5 1 19.20 368.64 368.64

Total 80 2860.80

FÁTIMA PONCE 30

MEDIDAS DE LA FORMA DE LA DISTRIBUCIÓN

FÁTIMA PONCE 31

El skewness mide la simetría/asimetría de la distribución de los datos. skewness= 0: distribución es simétrica

La curtosis: determina el grado de concentración que presentan los valores en la región central de la distribución. Mide qué tan puntiaguda es la distribución.

MEDIDAS DE LA FORMA DE LA DISTRIBUCIÓN

FÁTIMA PONCE 32

CURVAS DE DISTRIBUCIÓN ASIMÉTRICAS

Asimétrica Positiva Distribución asimétrica con cola a la derecha.

Asimétrica Negativa Distribución asimétrica con cola a la izquierda.

En estos casos emplear la mediana como medida de localización central.

FÁTIMA PONCE 33

MEDIDAS DE FORMA DE LA DISTRIBUCIÓN (Apuntamiento o

Curtosis) El apuntamiento expresa el grado en que una distribución

acumula casos en sus colas en comparación con los casos acumulados en las colas de una distribución normal cuya dispersión sea equivalente.

Concentración en colas = probabilidad de valores extremos.

Cuarto momento: E(X - )4

CURTOSIS mide la empinadez de la distribución.

Si Curtosis = 3: distribución normal. Si Curtosis > 3: Colas con alta concentración de datos

(leptocúrtica) .

FÁTIMA PONCE 34

Cuando hay mucha asimetría en los datos (valores extremos desbalanceados), como las distribuciones de ingresos o cuando deseamos ubicar el lugar que ocupa un valor en particular se emplean Estadísticos de posición (cuantiles).Son valores de la variable que dividen la muestra de datos en partes de igual porcentaje. Permiten conocer otros puntos característicos de la distribución de la variable que no son los valores centrales. La manera más sencilla de ubicar el lugar de alguien en relación a una distribución es indicar el % de los datos que está debajo de ese valor.

MEDIDAS DE POSICIÓN NO CENTRAL

FÁTIMA PONCE 35

Los cuantiles se usan por grupos que dividen la distribución en partes iguales, es decir, intervalos que comprenden la misma proporción de valores.

Los cuantiles más usados son:Los Cuartiles: agrupan 25% cada uno (son 3). Los Quintiles: agrupan 20% cada uno (son 4).Los Deciles: agrupan 10% cada uno (son 9).Los Percentiles (son 99).

MEDIDAS DE POSICIÓN NO CENTRAL

FÁTIMA PONCE 36

Dividen a la distribución en cien partes iguales.El percentil p es un valor tal que por lo menos p% de las observaciones son ≤ que este valor y por lo menos (100 – p)% de las observaciones son ≥ que ese valor.

Ejemplo: Las notas en los exámenes de admisión se suelen dar en términos de percentiles. Decir: “Un estudiante obtiene 54 puntos en la parte verbal del examen” es vago, no compara con los demás, pero decir:

“Esta nota corresponde al percentil 70 70% de los estudiantes obtuvieron una nota menor a la de dicho estudiante.

PERCENTIL

FÁTIMA PONCE 37

Si se divide los datos en cuatro partes c/u contiene el 25% de las observaciones. Los puntos de división son cuartiles: Q1, Q2, Q3 .

CUARTIL

FÁTIMA PONCE 38

MEDIDAS DE POSICIÓN NO CENTRAL

1er Cuartil 2do Cuartil 3er Cuartil

P25 P50 P75

FÁTIMA PONCE 39

RANGO INTERCUARTIL

Es la medida de dispersión que acompaña a la mediana cuando se la emplea como medida resumen de los datos debido a que la media no seria representativa.

Es el rango en que se encuentra el 50% central de los datos.

No es afectado por los valores extremos.

RIC = Q3 – Q1

50%

min Q1 Q3 máx

FÁTIMA PONCE 40

BOX-PLOT ó DIAGRAMA DE CAJA

Vincula los conceptos de mediana, cuartiles, valor máximo y valor mínimo.

Es muy útil para resumir variables continuas.

Resultan más apropiados para representar variables que presenten una gran desviación de la distribución normal, resultan además de gran ayuda cuando se dispone de datos en distintos grupos de sujetos.

FÁTIMA PONCE 41

BOX-PLOT ó DIAGRAMA DE CAJA

Máximo

Mínimo

Q3

Mediana Q1

Edad

FÁTIMA PONCE 42

Medida de Localización

Central

Medida de Dispersión

Uso en Distribuciones

Ventaja Desventaja

Media µ si población_x si muestra

Desviación Estándar si poblacións si muestra

Simétricas(media=mediana=moda)

Buenas propiedades. Medida familiar empleada por todos.

Se ve afectada por valores extremos.

Mediana

Rango Sesgadas sin valores extremos

Mediana no se ve afectada por valores extremos.

El rango se ve afectado por valores extremos.

Rango intercuartil (RI)RI= Q3 – Q1

Sesgadas con valores extremos

Mediana y RI no son afectados por valores extremos.

RI no es muy conocido.

MEDIDAS USADAS PARA RESUMIR LOS DATOS

FÁTIMA PONCE 43

BIBLIOGRAFIA

Anderson, D., Sweeney, D. y Williams T. (2008). Estadística para Administración y Economía. Cap 3.

Levin y Rubin (2010). Estadística para Administración y Economía. Cap. 3.

top related