estadística descriptiva: el análisis exploratorio de los … · forma del histograma: asimetría...

27
Estadística descriptiva: el análisis exploratorio de los datos Segunda Parte

Upload: hoangduong

Post on 12-Oct-2018

227 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Estadística descriptiva: el análisis exploratorio de los … · Forma del histograma: asimetría o sesgo • Cuando los datos se mueven en una dirección se dice que la distribución

Estadística descriptiva: el

análisis exploratorio de los

datos

Segunda Parte

Page 2: Estadística descriptiva: el análisis exploratorio de los … · Forma del histograma: asimetría o sesgo • Cuando los datos se mueven en una dirección se dice que la distribución

Forma del histograma: asimetría o sesgo

• Cuando los datos se mueven en una dirección se dice que la

distribución tiene cola larga/pesada. Si la distribución tiene

cola larga hacia la izquierda (derecha), entonces es sesgada

hacia la izquierda (derecha).

Asimetría o sesgo a la

derecha

Asimetría o sesgo a la

izquierdaSimétrica

2Estadísca 2016 - Prof. Tamara Burdisso

Page 3: Estadística descriptiva: el análisis exploratorio de los … · Forma del histograma: asimetría o sesgo • Cuando los datos se mueven en una dirección se dice que la distribución

Forma del histograma: asimetría o sesgo

• ¿Dónde se ubican la media y la mediana en estas

distribuciones?

Asimetría o sesgo a la

derecha

Asimetría o sesgo a la

izquierdaSimétrica

MEDIA……...MEDIANA MEDIA……...MEDIANA MEDIA…..….MEDIANA

3Estadísca 2016 - Prof. Tamara Burdisso

Page 4: Estadística descriptiva: el análisis exploratorio de los … · Forma del histograma: asimetría o sesgo • Cuando los datos se mueven en una dirección se dice que la distribución

Forma de la distribución: asimetría o sesgo

Asimetría o sesgo a la

derecha

Asimetría o sesgo a la

izquierdaSimétrica

MEDIA < MEDIANA MEDIA ~ MEDIANA MEDIA > MEDIANA

media

mediana mediana

media

4Estadísca 2016 - Prof. Tamara Burdisso

Page 5: Estadística descriptiva: el análisis exploratorio de los … · Forma del histograma: asimetría o sesgo • Cuando los datos se mueven en una dirección se dice que la distribución

Forma del histograma: moda

• ¿Cuantos picos (máximos locales) prominentes tiene el

histograma?

• Sólo uno → unimodal

• Dos → bimodal

• Tres o más → multimodal

• Ningún pico → uniforme5

Estadísca 2016 - Prof. Tamara Burdisso

Page 6: Estadística descriptiva: el análisis exploratorio de los … · Forma del histograma: asimetría o sesgo • Cuando los datos se mueven en una dirección se dice que la distribución

Forma del histograma: outliers

• ¿Existen observaciones anómalas o inusuales en los datos?

• ¿Por qué los outliers son importantes?

• Revelan información sobre la falta de simetría/ sesgo.

• Pueden llevar a revisar la carga de los datos (errores de tipeo)

• Brindan información interesante sobre la distribución de los datos.

6Estadísca 2016 - Prof. Tamara Burdisso

Page 7: Estadística descriptiva: el análisis exploratorio de los … · Forma del histograma: asimetría o sesgo • Cuando los datos se mueven en una dirección se dice que la distribución

Forma del histograma: outliers

• Moda

• Sesgo

unimodal bimodal multimodal uniforme

simétrica Sesgada a izquierda Sesgada a derecha

7Estadísca 2016 - Prof. Tamara Burdisso

Page 8: Estadística descriptiva: el análisis exploratorio de los … · Forma del histograma: asimetría o sesgo • Cuando los datos se mueven en una dirección se dice que la distribución

Ejercicio

• ¿Cuales de estas variables esperaría que muestren

una distribución uniforme?

• Precios de los departamentos en la Ciudad de Buenos

Aires.

• Salarios de una muestra de individuos tomada al azar

en la provincia de Santa Fe.

• La fecha de nacimiento (día y mes) de todos los

alumnos que actualmente cursan Estadística.

8Estadísca 2016 - Prof. Tamara Burdisso

Page 9: Estadística descriptiva: el análisis exploratorio de los … · Forma del histograma: asimetría o sesgo • Cuando los datos se mueven en una dirección se dice que la distribución

• Anatomía del box-plot

• Ejercicio: calcular el LS y el LI de los bigotes (wiskers)

Datos numéricos: diagrama de cajas (Box-Plot)

RICQRICQ *3 lejanooutlier ó *3lejanooutlier 13 −<+>

RICQRICQRICQRICQ *5.1 cercanooutlier *3 ó *3 cercanooutlier *5.1 1133 −<<−+<<+

9Estadísca 2016 - Prof. Tamara Burdisso

Page 10: Estadística descriptiva: el análisis exploratorio de los … · Forma del histograma: asimetría o sesgo • Cuando los datos se mueven en una dirección se dice que la distribución

Datos numéricos: histogramas vs. boxplots

10Estadísca 2016 - Prof. Tamara Burdisso

Page 11: Estadística descriptiva: el análisis exploratorio de los … · Forma del histograma: asimetría o sesgo • Cuando los datos se mueven en una dirección se dice que la distribución

Datos numéricos: diagrama de tallos y hojas (stem

and leaf)

https://www.easycalculation.com/statistics/stem-leaf-plot.php 11Estadísca 2016 - Prof. Tamara Burdisso

Page 12: Estadística descriptiva: el análisis exploratorio de los … · Forma del histograma: asimetría o sesgo • Cuando los datos se mueven en una dirección se dice que la distribución

Datos numéricos: series de tiempo

• Cuando se desea tener en cuenta el orden en que se han

tomado los datos, los histogramas no son útiles.

• En estos casos se considera un gráfico de series de tiempo.

• Cuidado con las escalas! No caer en la trampa, particularmente

cuando se realizan comparaciones.

Argentina- Tasa de inflación anual

-500

0

500

1000

1500

2000

2500

3000

3500

1980

1982

1984

1986

1988

1990

1992

1994

1996

1998

2000

2002

2004

2006

2008

2010

2012

en porcentaje

Argentina- Tasa de inflación anual

-5

0

5

10

15

20

25

30

1992

1993

1994

1995

1996

1997

1998

1999

2000

2001

2002

2003

2004

2005

2006

2007

2008

2009

2010

2011

2012

en porcentaje

12Estadísca 2016 - Prof. Tamara Burdisso

Page 13: Estadística descriptiva: el análisis exploratorio de los … · Forma del histograma: asimetría o sesgo • Cuando los datos se mueven en una dirección se dice que la distribución

Datos numéricos: diagrama de puntos (scatterplot)

• El diagrama de puntos o scatterplot es la herramienta cuando

se analiza la relación de dos variables en forma conjunta.

País

1 Afghanistan 1907 60.9

2 Albania 9489 77.4

3 Algeria 12957 71.0

4 Angola 7319 51.9

5 Antigua and Barbuda 20002 76.0

6 Argentina 17629 76.3

7 Armenia 7501 74.6

… … …

… … …

183 Zambia 3070 58.1

184 Zimbabwe 1445 59.9

Esperanza de

vida en años

PBI per capita

PPP ($US de

2011)

13Estadísca 2016 - Prof. Tamara Burdisso

Page 14: Estadística descriptiva: el análisis exploratorio de los … · Forma del histograma: asimetría o sesgo • Cuando los datos se mueven en una dirección se dice que la distribución

Datos numéricos: diagrama de puntos (scatterplot)

• Cada punto del plano es un par ordenado (x,y)=(PIB per capita,

esperanza de vida). Son datos apareados.

Datos 2013

40

45

50

55

60

65

70

75

80

85

90

0 20000 40000 60000 80000 100000 120000 140000 160000

PIB per capita (PPP en U$S 2011)

Esperanza de vida al nacer (en años)

Outlier?

14Estadísca 2016 - Prof. Tamara Burdisso

Page 15: Estadística descriptiva: el análisis exploratorio de los … · Forma del histograma: asimetría o sesgo • Cuando los datos se mueven en una dirección se dice que la distribución

Datos numéricos: diagrama de puntos (scatterplot)

• Cada punto del plano es un par ordenado (x,y)=(PIB per capita,

esperanza de vida). Son datos apareados.

Datos 2013

40

45

50

55

60

65

70

75

80

85

90

0 20000 40000 60000 80000 100000 120000 140000 160000

PIB per capita (PPP en U$S 2011)

Esp

era

nza

de

vid

a a

l n

ace

r (e

n a

ño

s)

Qatar

Guinea

Bostwana

15Estadísca 2016 - Prof. Tamara Burdisso

Page 16: Estadística descriptiva: el análisis exploratorio de los … · Forma del histograma: asimetría o sesgo • Cuando los datos se mueven en una dirección se dice que la distribución

Datos numéricos: diagrama de puntos (scatterplot)

• Evaluación de la relación

lineal

curvada

negativa

positiva

Dirección Forma

Intensidad

fuerte

débil

lineal

Outliers

16Estadísca 2016 - Prof. Tamara Burdisso

Page 17: Estadística descriptiva: el análisis exploratorio de los … · Forma del histograma: asimetría o sesgo • Cuando los datos se mueven en una dirección se dice que la distribución

• Hasta ahora vimos métodos numéricos cuyo objeto es resumir

los datos de una sóla variable.

• Pero el interés puede radicar en la relación entre dos variables.

• Supongamos que tenemos 2 muestra de tamaño n. Sean

• La covarianza de la muestra o covarianza muestral se define

como

Medida de asociación entre dos variables

nn yyyxxx ,...,y ,...,, 2121

1

))((

−−=∑

n

yyxxs

ii

xy

17Estadísca 2016 - Prof. Tamara Burdisso

Page 18: Estadística descriptiva: el análisis exploratorio de los … · Forma del histograma: asimetría o sesgo • Cuando los datos se mueven en una dirección se dice que la distribución

Medida de asociación entre dos variables

nn yyyxxx ,...,y ,...,, 2121

13.70=y

1

))((

−−=∑

n

yyxxs

ii

xy

País

1 Afghanistan 1907 60.9

2 Albania 9489 77.4

3 Algeria 12957 71.0

4 Angola 7319 51.9

5 Antigua and Barbuda 20002 76.0

6 Argentina 17629 76.3

7 Armenia 7501 74.6

… … …

… … …

183 Zambia 3070 58.1

184 Zimbabwe 1445 59.9

Esperanza de

vida en años

PBI per capita

PPP ($US de

2011)

3.16543=x

En excel, =covarianza.m(lista de números var1, lista de números var2)

18Estadísca 2016 - Prof. Tamara Burdisso

75.101091=xys

Page 19: Estadística descriptiva: el análisis exploratorio de los … · Forma del histograma: asimetría o sesgo • Cuando los datos se mueven en una dirección se dice que la distribución

Medida de asociación entre dos variablesDatos 2013

40

45

50

55

60

65

70

75

80

85

90

0 20000 40000 60000 80000 100000 120000 140000 160000

PIB per capita (PPP en U$S 2011)

Esperanza de vida al nacer (en años)

III

III

IV

19Estadísca 2016 - Prof. Tamara Burdisso

Page 20: Estadística descriptiva: el análisis exploratorio de los … · Forma del histograma: asimetría o sesgo • Cuando los datos se mueven en una dirección se dice que la distribución

• Una covarianza positiva (negativa) indica asociación lineal

positiva (negativa).

• Sin embargo nada se puede decir de la intensidad de esta

relación porque el problema con la covarianza es que depende

de las unidades de medida de las variables de interés.

• El coeficiente de correlación es la solución a este problema, ya

que lo independiza de las unidades

• En excel =coef.de.correl(lista de números var1, lista de

números var2)

Medida de asociación entre dos variables

)1()()1()(

1

))((

22−−−−

−−

==

∑∑

nyynxx

n

yyxx

ss

sr

ii

ii

yx

xy

xy

20Estadísca 2016 - Prof. Tamara Burdisso

Page 21: Estadística descriptiva: el análisis exploratorio de los … · Forma del histograma: asimetría o sesgo • Cuando los datos se mueven en una dirección se dice que la distribución

• El coeficiente de correlación toma valores entre -1 y 1.

• Si el coeficiente de correlación es igual a 1, se tiene una

asociación lineal positiva perfecta, intensidad máxima.

• Si el coeficiente de correlación es igual a -1, se tiene una

asociación lineal negativa perfecta, intensidad máxima.

• Si el coeficiente de correlación es igual a 0, indica que no hay

relación lineal.

• En el ejemplo de ingreso per capita y esperanza de vida el

coeficiente es

Medida de asociación entre dos variables

11 ≤≤− xyr

594.0=xyr

21Estadísca 2016 - Prof. Tamara Burdisso

Page 22: Estadística descriptiva: el análisis exploratorio de los … · Forma del histograma: asimetría o sesgo • Cuando los datos se mueven en una dirección se dice que la distribución

Diferente grados de correlaciones muestrales

Estadísca 2016 - Prof. Tamara Burdisso22

Page 23: Estadística descriptiva: el análisis exploratorio de los … · Forma del histograma: asimetría o sesgo • Cuando los datos se mueven en una dirección se dice que la distribución

Datos numéricos: diagrama de puntos (scatterplot)

• Advertencia: que se observe una estrecha relación entre las

variables no implica que exista una relación causa-efecto entre

las mismas.

• Ejemplo: Pensar en un scatterplot donde en el eje de las x se

representa los daños ocasionados en el siniestro y en el eje de

las y la cantidad de bomberos que actuaron en determinado

siniestro . A mayor daño, mayor la cantidad de bomberos que

actúan en el siniestro, pero claramente no son los bomberos

los que causan el daño. Existe una tercera variable (omitida),

que es la que mantiene la relación causa-efecto. En este

ejemplo es la magnitud del incendio.

• En series de tiempo, puede haber correlaciones espurias entre

variables que tienen tendencia (http://www.tylervigen.com/spurious-

correlations)23

Estadísca 2016 - Prof. Tamara Burdisso

Page 24: Estadística descriptiva: el análisis exploratorio de los … · Forma del histograma: asimetría o sesgo • Cuando los datos se mueven en una dirección se dice que la distribución

Datos categóricos

• Al igual que los datos numéricos, los datos categóricos pueden

ser ordenados/tabulados y analizados.

Tabla de frecuencias o distribución de frecuencias

24Estadísca 2016 - Prof. Tamara Burdisso

Rank Year Dept Divison Gender

Professor 1963 Music Fine_Arts Male

Professor 1965 Dance Fine_Arts Female

Professor 1966 PoliSci Soc_Science Male

Professor 1967 Kin Soc_Science Male

Professor 1967 Psychology Soc_Science Male

Professor 1968 Educ Soc_Science Female

Professor 1968 Theatre Fine_Arts Male

Professor 1969 Art Fine_Arts Male

Professor 1969 CS Nat_Science Male

Professor 1969 English HumanititiesMale

http://www.math.hope.edu/swanson/data/hope_prof-2.txt

Etiquetas de fila Cantidad Porcentaje Cantidad Acumulada Porcentaje Acumulado

Fine_Arts 32 14.41% 32 14.41%

Humanitities 59 26.58% 91 40.99%

Nat_Science 62 27.93% 153 68.92%

Soc_Science 69 31.08% 222 100.00%

Total general 222 100.00%

Page 25: Estadística descriptiva: el análisis exploratorio de los … · Forma del histograma: asimetría o sesgo • Cuando los datos se mueven en una dirección se dice que la distribución

Datos categóricos: gráfico de barras

El gráfico de barras es

para datos categóricos.

El orden de las

categorías es

intercambiableEl histograma es para

datos numéricos. El eje

de las abscisas es

numérico. ¡El orden

importa!

25Estadísca 2016 - Prof. Tamara Burdisso

58

60

62

64

66

68

70

Nat_Science Soc_Science

26%

27%

27%

28%

28%

29%

29%

30%

30%

31%

31%

32%

Nat_Science Soc_Science

Page 26: Estadística descriptiva: el análisis exploratorio de los … · Forma del histograma: asimetría o sesgo • Cuando los datos se mueven en una dirección se dice que la distribución

Datos categóricos

• Cuando se dispone de más de una variable categórica, la

tabulación se denomina Tabla de contingencia.

Tabla de contingencia

26Estadísca 2016 - Prof. Tamara Burdisso

Cuenta de Gender Etiquetas de columna

Etiquetas de fila Female Male Total general

Fine_Arts 13 19 32

Humanitities 25 34 59

Nat_Science 22 40 62

Soc_Science 29 40 69

Total general 89 133 222

Page 27: Estadística descriptiva: el análisis exploratorio de los … · Forma del histograma: asimetría o sesgo • Cuando los datos se mueven en una dirección se dice que la distribución

Datos categóricos y datos numéricos

Año de ingreso de los profesores en base a la división.

Año: var. Numérica División: var. categórica27

Estadísca 2016 - Prof. Tamara Burdisso

Fine_Arts Humanities Nat_Science Soc_Science