me3-2015-i

21
1 Mg Sc Jaime Carlos Porras Cerrón Escuela de Posgrado Maestría en Estadística Aplicada Métodos Estadísticos John Tukey (1915-2000)

Upload: yderfcamposalegria

Post on 10-Jul-2016

226 views

Category:

Documents


1 download

DESCRIPTION

estadisticas

TRANSCRIPT

Page 1: ME3-2015-I

1

Mg Sc Jaime Carlos Porras Cerrón

Escuela de Posgrado

Maestría en Estadística Aplicada

Métodos Estadísticos

John Tukey

(1915-2000)

Page 2: ME3-2015-I

2

Capítulo I:

Análisis Exploratorio de Datos (A.E.D.)

1. Introducción.

2. El Análisis Exploratorio de Datos.

3. Usos del AED.

4. Diagramas para una variable (univariado).

5. Diagramas para varias variables(multivariado).

6. Aplicación.

El AED debe su desarrollo a John Wilder Tukey,quien publicó un trabajo denominadoExploratory Data Analysis – Princeton University(1977). Dicho trabajo sirvió de base a otrosinvestigadores como: Mosteller, Hoaglin yVelleman para desarrollar esta filosofía.

Algunas de sus frases célebres son:

1. Introducción

“Cantidades numéricas se centran en los valores esperados,

resúmenes gráficos en valores inesperados.”

“Un gráfico puede valer mas que mil palabras, peropuede tomar muchas palabras para hacerlo.”

Page 3: ME3-2015-I

3

El Análisis Exploratorio de Datos (A.E.D.)comprende un conjunto de procedimientosprincipalmente de tipo gráfico.Muchos de los gráficos vistos en la primeraanteriormente tienen como principalobjetivo resumir un conjunto de datos.El AED tiene un objetivo mas amplio, yaque permite tener un primer acercamientoal análisis de los datos, tratando de queellos por sí mismo revelen su estructuraoculta.Una simple clasificación de las técnicasAED es según la cantidad de variables quese utilicen para su elaboración, asitenemos: AED univariado y AEDmultivariado.

2. El Análisis Exploratorio de Datos

Algunas preguntas que nos puede ayudar aresponder el AED son:

• De varios conjuntos de datos hay al menos unoque presentan mayor (o menor) medida deposición que los otros.

• De varios conjuntos de datos hay al menos unoque es más (o menos) dispersos que los otros.

• En el conjunto de datos se puede apreciarsubgrupos.

• Hay observaciones discordantes (outliers) en unconjunto de datos.

• El conjunto de datos presentan algunadistribución teórica conocida.

• Hay relación lineal o curvilineal entre pares devariables.

Page 4: ME3-2015-I

4

Algunos de los gráficos considerados en el AEDson:

Gráfica de Puntos.

Grafica de Intervalos.

Diagrama de Tallos y hojas.

Diagrama de Cajas.

Diagrama de Densidad de Kernel.

Diagrama de Violín.

Gráfica de Probabilidad.

Es un gráfico muy útil cuando el conjuntode datos es pequeño y hay relativamentepocos datos distintos (preferentementepara datos de tipo cuantitativo discreto).Cada dato se representa con un puntoencima de la correspondiente localizaciónen una escala horizontal o vertical demedida. Cuando un valor se repite sepresenta un punto por cada ocurrencia.Permite visualizar la moda, dispersión ydetectar datos atípicos.

Page 5: ME3-2015-I

5

ppm

9085807570656055

Grafico de Puntos

ppm

Lo

ca

lida

d

9085807570656055

A

B

C

Localidad

A

B

C

ppm medido en diferentes localidades

En R se usa la función dotchart

Este diagrama a diferencia del anterior esutilizado principalmente para variables detipo cuantitativa continua.Para su elaboración se obtienen la estimacióndel intervalo con 95% de confianza para lamedia.Se pueden elaborar gráficos para una o variasvariables a la vez de tipo simple (para unamuestra) y con grupos (para varias muestras).

Page 6: ME3-2015-I

6

En R se usa la función error.bars que se

encuentra en el paquete psych.

Un diagrama de tallos y hojas es un histograma queconserva información numérica. Es decir utiliza losdígitos de los valores de los mismos datos, en vez desimplemente encerrarlos en áreas.De manera similar al histograma permite ver elconjunto de datos como un todo y advertir aspectoscomo:◦ Cuán aproximadamente simétricos son los datos.◦ Cuán dispersos están los valores.◦ Que valores son más frecuentes.◦ Si algunos valores están alejados del resto (datos

atípicos). ◦ Si hay concentraciones de valores. ◦ Si hay grupos separados.

Page 7: ME3-2015-I

7

Las ventajas del diagrama de tallo y hojas son:◦ Facilita el ordenamiento de los datos.◦ Permite, hallar la mediana y otras medidas resumen basadas en el

conjunto de datos ordenado.

En Minitab Gráfica / Tallo y Hoja

Stem-and-Leaf Display: ppm

Stem-and-leaf of ppm N = 30Leaf Unit = 1.0

2 5 66

7 6 00444

13 6 888888

(5) 7 22222

12 7 6666

8 8 000044

2 8 8

1 9 2

Stem-and-Leaf Display: ppm

Stem-and-leaf of ppm N = 30

Leaf Unit = 1.0

2 5 66

13 6 00444888888

(9) 7 222226666

8 8 0000448

1 9 2

En R se usa la función stem

El diagrama de cajas es la representación gráfica dela mediana, los cuartiles, los valores adyacentes ylos valores externos moderados o severos. Permiteextraer los siguientes aspectos de un conjunto dedatos:

Posición del centro Dispersión Asimetría Longitud de la cola Puntos discordantes.

Este compacto diagrama es muy útil para comparar varios grupos de datos.

Page 8: ME3-2015-I

8

DIAGRAMA DE CAJAS Y SUS PARTES

outlier (valor fuera de los límites)

L.S.

L.I.

Valor máximo de las observaciones

Q3

Q2=me

Q1

Valor mínimo de las observaciones

En R se usa la función boxplot

Localidad

pp

m

CBA

95

90

85

80

75

70

65

60

55

Diagrama de Cajas de ppm vs Localidad

Page 9: ME3-2015-I

9

El polígono de frecuencias, el cual es obtenidoa partir del histograma, tiene el defecto quepara su elaboración se necesita especificar elnúmero de intervalos de clase y el ancho deestos.Para el caso de un diagrama de densidad deKernel se necesita solo especificar el ancho delos intervalos, el cual puede ser definido dediferentes maneras (Gaussiano, Uniforme,Triangular, etc).El Kernel muestra un gráfico mas suave que elpolígono de frecuencia.En R se obtiene utilizando las funciones plot ydensity

Page 10: ME3-2015-I

10

Un diagrama de violín es una combinaciónde un diagrama de cajas y un gráfico dedensidad de Kernel. Para elaborar el gráficoprimero se hace el diagrama de cajasposteriormente se adiciona el gráfico dedensidad de Kernel en cada lado de la caja.

Este diagrama fue diseñado por Jerry L.Hintze y Ray D. Nelson en 1998.

En la actualidad existen muy pocosprogramas estadísticos que permitanobtener el gráfico de violín. Uno de ellos esel R, el cual puede ser encuentra dentro delpaquete vioplot. Para su elaboración sedebe usar la función del mismo nombre.Los comandos a seguir son:library(vioplot)vioplot(A,B,C)

5560

6570

7580

8590

1 2 3

Page 11: ME3-2015-I

11

La gráfica de probabilidad permiteobservar cuan cerca está la distribuciónde un conjunto de datos a algunadistribución ideal (ó teórica).Si es de interés comparar con ladistribución normal se llama gráfico deprobabilidad normal. Para obtener estegráfico se ordenan los datos y se graficael i-ésimo dato contra el correspondientecuantil normal.

ppm

%

100908070605040

99

95

90

80

70

60

50

40

30

20

10

5

1

Grafico de Probabilidad Normal

En R se usa la función qqplot

Page 12: ME3-2015-I

12

Algunos de los gráficos considerados en el AEDson: Pirámide poblacional. Diagrama de dispersión 2D. Matriz de dispersión . Diagrama de dispersión 3D. Diagrama marginal. La caras de Chernoff. Gráfico de Estrellas. Gráfico de coordenadas paralelas.

La pirámide de población o pirámidedemográfica es un histograma que está hechoa base de barras cuya altura es proporcional ala cantidad que representa la estructura de lapoblación por un par de variables(generalmente sexo y edad).Gráficamente se trata de undoble histograma de frecuencias. Las barrasdel doble histograma se disponen en formahorizontal, es decir, sobre la línea delas abscisas (convencionalmente se indican losgrupos de edad de la población masculina a laizquierda y los que representan la poblaciónfemenina a la derecha).

Page 13: ME3-2015-I

13

Piramide Poblacional de Australia 2002

3.5 2.5 1.5 0.5 0 1 2 3

0-4

5-9

10-14

15-19

20-24

25-29

30-34

35-39

40-44

45-49

50-54

55-59

60-64

65-69

70-74

75-79

80-44

85+

Masculino Edades Femenino

% %

3.2

3.5

3.6

3.6

3.5

3.5

3.9

3.7

3.9

3.5

3.2

2.8

2.2

1.8

1.5

1.3

0.7

0.4

3.2

3.4

3.5

3.5

3.5

3.7

4

3.8

3.9

3.6

3.2

2.5

2

1.7

1.5

1.3

1

0.9

5. Análisis Exploratorio de Datos

5.1 Pirámide poblacionalEn R esta dentro del paquete plotrix y se usa la función pyramid.plot

Es un gráfico que permite analizar la relaciónexistente entre dos variables de tipocuantitativa.

En el eje X se grafica los valores de una de lasvariables y en el eje Y se grafica los valorescorrespondientes de la segunda variable. Esdecir, se ubican los pares ordenados de datosen el plano.

Permite determinar si las variables presentanuna relación lineal, curvilineal o no presentanrelación.

Page 14: ME3-2015-I

14

En Minitab

Gráfica / Gráfica de dispersión

Sepalo ancho

Se

pa

lo la

rgo

4.54.03.53.02.52.0

6.0

5.5

5.0

4.5

Scatterplot of Sepalo largo vs Sepalo ancho

En R se usa la función plot

Es un gráfico que presenta el diagrama dedispersión de varias variables por pares devariables.

La matriz gráfica es simétrica es decir laparte superior a la diagonal de la matriz essimilar a la parte inferior de la diagonal dela matriz por lo que solo bastaría presentaruna de las partes.

Page 15: ME3-2015-I

15

En Minitab

Gráfica / Gráfica de matriz

x1

x3

x4

x2

432 210

8

6

4

4

3

2

6

4

2

864

2

1

0

642

Matrix Plot of x1, x2, x3, x4

En R se usa la función pairs

Es un gráfico que permite analizar larelación existente entre tres variables detipo cuantitativa.

En cada uno de los ejes X, Y, Z se ubicanlos valores de cada una de las variables. Esdecir, se ubican la tupla 3 en el espacio.

Page 16: ME3-2015-I

16

En Minitab

Gráfica / Gráfica de dispersión 3D

4

Sepalo largo

4.5

5.0

5.5

3 Sepalo ancho

6.0

1.001.25 1.50 21.75

Petalo largo

3D Scatterplot of Sepalo largo vs Sepalo ancho vs Petalo largo

En R se usa la función scatteplot3d

que se encuentra dentro del paquete

del mismo nombre.

Es un gráfico de dispersión para dosvariables al cual se le ha adicionado unhistograma, diagrama de cajas o diagramade puntos en los ejes.

Es decir es una gráfico que puede seraprovechado para analizar la relación entredos variables y para conocer la forma dedistribución de los dos variables que seestán analizando de manera individual.

Page 17: ME3-2015-I

17

En Minitab

Gráfica / Gráfica marginal

Sepalo ancho

Se

pa

lo la

rgo

4.54.03.53.02.52.0

6.0

5.5

5.0

4.5

Diagrama marginal

Sepalo ancho

Se

pa

lo la

rgo

4.54.03.53.02.52.0

6.0

5.5

5.0

4.5

Diagrama marginal

En un análisis multivariado se quiere visualizar losdatos en una dimensión baja (por ejemplo en 2D),aunque las estructuras son ocultadas en altasdimensiones. La presentación numérica de laestructura de datos usando coordenadas por lotanto puede ser de a lo más en tres dimensiones.Si estamos interesados en condensar la estructuraen dos dimensiones 2D, se tiene que considerargráficos alternativos. Las caras de Chernoff-Flury,por ejemplo, proveen de tal condensación deinformación en una simple “cara”.El tamaño de los elementos como las pupilas, ojos,cabellos, etc, son asignados a ciertas variables. Laidea de usar caras proviene de Chernoff (1973) yha sido desarrollado por Bernhard Flury.

Page 18: ME3-2015-I

18

Según el diseño descrito por Flury y Riedwyl (1988) se usa las siguientes:características:

Altura de la cara Ancho de la cara Forma de la cara Altura de la boca Ancho de la boca Curva de la sonrisa Altura de los ojos Ancho de los ojos Altura de la oreja Ancho del cabello Estilo del cabello Altura de la nariz Ancho de la nariz Ancho de las orejas Altura de las orejas

Index

1

Index

2

Index

3

Index

4

Index

5

Index

6

Index

7

Index

8

Index

9

Index

10

Index

11

Index

12

Index

13

Index

14

Index

15

Index

16

Al igual que el gráfico de violin existenpocos programas estadísticos quepermiten obtener las caras de Chernoff-Flury. Uno de estos programas es elStatistica y otro es el R. En este últimoprograma el gráfico se puede hacerutilizando el paquete aplpack y la funciónfaces. Los comandos son:library(aplpack)faces(iris[43:58,-5])

Page 19: ME3-2015-I

19

La idea de este gráfico es muy similar al delas caras de Chernoff-Flury. En este casose representa a cada variable como lapunta de una estrella.

El R realiza este gráfico mediante sufunción stars del paquete graphics

1 2 3 4

5 6 7 8

9 10 11 12

13 14 15 16

Es un sistema de visualización que permite representar n

dimensiones en un sistema bidimensional. En este

sistema, cada eje vertical (ordenada) representa un

atributo (dimensión).

En general, es una técnica de visualización donde las

dimensiones son simbolizadas como una serie de ejes

paralelos perpendiculares, con la misma separación

entre ellos (equidistantes) y donde los valores están

representados. Cada eje representa una coordenada en

la dimensión correspondiente. Uniendo con líneas los

ejes, podemos simbolizar los puntos en n-dimensiones.

Page 20: ME3-2015-I

20

Prestamo Ingreso2010 Ingreso2011 Nif Edad

Banco Sudamérica es una entidad financiera que haingresado con fuerza al mercado peruano y cuyopublico objetivo son los trabajadoresindependientes.

Al finalizar el 2013 ya cuenta con 3 sucursalesabiertas en los distritos de San Isidro, San Borja ySan Luís.

El Gerente Financiero desea realizar un análisisestadístico sobre los clientes que solicitanpréstamos al banco. Para llevar a cabo este estudioel gerente selecciona muestras aleatorias eindependientes de registros de datos de clientes decada una de las sucursales con las que cuenta elbanco, de los cuales almacena las siguientesvariables:

Page 21: ME3-2015-I

21

Sucursal donde el cliente solicita el préstamo: San Isidro, San Borja y San Luís.

Monto de préstamo otorgado (en miles de soles) al cliente.

Ingreso mensual (en miles de soles) del cliente en el 2013.

Ingreso mensual del cliente (en miles de soles) del cliente en el 2014.

Número de integrantes de la familia. Edad (en años) del cliente

Género del cliente: Masculino, Femenino.

Deuda pendiente con otras entidades financieras: Si, No