universidad torcuato di tella ing. mba, maría del carmen gómez1 análisis de datos

76
UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez 1 Análisis de Datos

Upload: isandro-abascal

Post on 10-Jan-2015

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 1

Análisis de Datos

Page 2: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 2

Fuentes de DatosFuentes de Datos

E xp erim en tos O b servac ió n

P rim arias

C en sos E n cu es tas

S ecu n d arias

F u en tes d e D atos

Page 3: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 3

Tipos de Datos

O rd in a les N om in a les

C ateg ó ricos C u an tita tivos

D atos

Page 4: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 4

Definiciones

• Una variable categórica indica a qué grupo o a qué categoría pertenece una observación. Todo lo que podemos hacer es calcular la proporción de datos que entra en cada categoría.

• Una variable cuantitativa toma valores numéricos sobre los cuales podemos realizar operaciones aritméticas. Las variables cuantitativas pueden ser discretas o contínuas.

Page 5: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 5

Datos cuantitativos

Edad - ingreso55 7500042 68000

. .

. .

Edad - ingreso55 7500042 68000

. .

. .Aumento de peso+10+5

.

.

Aumento de peso+10+5

.

.

Datos categóricos

Persona Casado/no casado1 si2 no3 no. .. .

Persona Casado/no casado1 si2 no3 no. .. .Profesor Rango

1 Visitante2 Full Time3 Asistente. .. .

Profesor Rango1 Visitante2 Full Time3 Asistente. .. .

Ejemplos

Page 6: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 6

Una variable es discreta si toma solo un número contable de valores. Una variable es contínua si la misma toma un número incontable de valores.

0 11/21/41/16

Variable continua

Por lo tanto, el número de valores es contable

Variable discreta

Por lo tanto, el número de valores es incontable

0 1 2 3 ...

Variables discretas y continuas

Page 7: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 7

Estadística Descriptiva

• Abarca la agrupación, resúmen y presentación de los datos para permitir su interpretación y poder tomar decisiones basadas en dicha interpretación.

• La estadística descriptiva utiliza– Técnicas gráficas

– Medidas de descripción numéricas

Page 8: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 8

Variables Categóricas

• Estas son algunas de las representaciones más utilizadas para variables categóricas.

Pie chart Gráfico de barras

Page 9: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 9

• Las variables cuantitativas contínuas toman un número considerable de valores.

• Su representación gráfica resulta más clara si se agrupan los valores próximos de la variable.

• El gráfico más común de la distribución de una variable cuantitativa contínua es un histograma.

Variables cuantitativas

Page 10: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 10

Histograma: distribución del salario horario en

el Gran Buenos Aires (1995)

0

40

80

120

160

200

0 1 2 3 4

0

40

80

120

160

200

0 1 2 3 4

Page 11: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 11

Aspecto general de una distribución

• Para describir el aspecto general de una distribución:

• Debemos:

– Proporcionar su centro y su dispersión.

– Evaluar si la distribución tiene una forma simple que pueda describirse de forma sencilla.

Page 12: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 12

Medidas de Posición Central:

• Usualmente, nuestra atención se centra en dos aspectos de las medidas de posición central:

– Medición del punto central (promedio)

– Medición de la dispersión en torno al promedio

Page 13: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 13

Medidas de Posición Central: la media• Es la medida mas popular.

• Es decir, tenemos una muestra de n observaciones: x1, x2,…,xn. Su media muestral es:

• De forma compacta:

n

)x...xx( n21 x

n

1iix

n

1x

Suma de las observaciones Número de observaciones

Media =

Page 14: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 14

6xxxxxx

6x

x 654321i6

1i

• Ejemplo:

La media de la muestra de seis observaciones:

7, 3, 9, -2, 4, 6

esta dada por:

7 3 9 4 64.5

2

Medidas de Posición Central: la media

Page 15: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 15

16 empleados

5.116

)3(2)2(7)1(4)0(316

x...xx16

xx 1621i

161i

Medidas de Posición Central: la media

Cuando muchas observaciones toman el mismo valor, estas se pueden resumir en una tabla de frecuencias. Supongamos que el número de Hijos en una muestra de 16 empleados fuera el siguiente:

NUMERO DE HIJOS 0 1 2 3NUMERO DE EMPLEADOS 3 4 7 2

• Ejemplo:

Page 16: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 16

La mediana

• La mediana (M) es el “valor central” de un histograma.

• Para hallar la mediana de una distribución debemos:

1.1. Ordenar las observaciones en orden ascendente. 2.2. Si el número de observaciones n es impar, M es la observación

central de la lista ordenada. M se halla contando (n+1)/2 observaciones desde el comienzo de la lista.

3.3. Si el número de observaciones n es par, M es la media de las dos observaciones centrales de la lista ordenada.

Page 17: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 17

La mediana

Nro. de observaciones es impar

26,26,28,29,30,32,60

Los salarios de siete empleados fueron los siguientes (en 1000s) : 28, 60, 26, 32, 30, 26, 29.¿Cuál es la mediana?

Supongamos que se agrega al grupo el Salario de un empleado más ($31,000).¿Cuál es la mediana?

Nro. de observaciones es par

26,26,28,29, 30,31, 32,60

Hay dos valores en el medio!

Primero, ordenar los salarios.Luego, localizar el valor en el medio.

26,26,28,29, 30,31,32,6029.5,

• Ejemplo:

Primero, ordenar los salarios.Luego, localizar el valor en el medio.

Page 18: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 18

El modo es el valor que ocurre con mayor frecuencia en un grupo de observaciones.

El modoCuando la muestra es grande, los datos se agrupan en intervalosy obtenemos el Intervalo modal

El modo

En un conjunto de observaciones puede haber más de un modo.

Page 19: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 19

Ejemplo

El gerente de una tienda de ropa posee la siguiente información sobre el talle de los pantalones que se vendieron ayer:

31, 34, 36, 33, 28, 34, 30, 34, 32, 40.

El modo es 34 En muchos casos, el modo nos da información mas valiosa que la mediana: 33.2.

El modo

Page 20: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 20

Media y Mediana• La media es sensible a observaciones extremas y a outliers.

• La mediana solo es sensible a cambios en su entorno que la cruzan. Por ello, se dice que la mediana es un estimador robusto de la tendencia central.

• La media y la mediana de una distribución simétrica se encuentran muy cerca. Si la distribución es exactamente simétrica, la media y la mediana coinciden.

• Si la distribución es asimétrica, la media queda desplazada hacia la cola más larga del histograma de la distribución.

Page 21: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 21

Distribuciones simétricas y asimétricas

• Una distribución es simétrica si el lado derecho e izquierdo del histograma con respecto a la mediana son aproximadamente iguales.

• Un distribución es asimétrica hacia la derecha si el lado derecho del histograma se extiende sobre un mayor número de valores (intervalos) que el lado izquierdo.

• Una distribución es asimétrica hacia la izquierda si el lado izquierdo del histograma se extiende sobre un mayor número de valores (intervalos) que el lado derecho.

Page 22: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 22

Asimetría hacia la derecha

Asimetría hacia la izquierda

Page 23: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 23

Aspecto general de una distribución

• La figura muestra la distribución de ventas de libros por individuo en la feria del libro. Esta distribución es asimétrica hacia la derecha. Es decir hay muchas ventas de 3 o 4 libros y pocas ventas de 10 libros.

0

5

10

15

20

25

1 2 3 4 5 6 7 8 9 10 11 12

Page 24: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 24

Aspecto general de una distribución

• La figura muestra la distribución de ventas de libros por individuo en la feria del libro. Esta distribución es asimétrica hacia la derecha. Es decir hay muchas ventas de 3 o 4 libros y pocas ventas de 10 libros.

0

5

10

15

20

25

1 2 3 4 5 6 7 8 9 10 11 12

Page 25: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 25

Distribuciones representadas con números

• ¿Qué edad tenían los presidentes de US al inicio de su mandato? La edad media es de aproximadamente 55 años.

• Una breve descripción de la distribución:– Su forma es aproximadamente simétrica.

– El centro de la distribución es aproximadamente 55 años.

– Dispersión: Rango de variación, de 42 a 69 años.

– La forma, el centro y la dispersión proporcionan una buena descripción del aspecto general de cualquier distribución de una variable cuantitativa.

0

2

4

6

8

10

12

14

16

40 45 50 55 60 65

Edad

Page 26: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 26

• Si una distribución es simétrica, la media, mediana y modo coinciden

• Si una distribución no es simétrica, las tres medidas difieren.

Asimetría hacia la derecha(asimetría positiva)

MediaMediana

Modo MediaMediana

Modo

Asimetría hacia la izquierda(asimetría negativa)

Media, Mediana y Modo

Page 27: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 27

Medidas de dispersión• Caracterizar una distribución solamente a través de una medida

central no es apropiado.

• Las distribuciones del ingreso de dos provincias con el mismo ingreso medio por hogar son muy distintas si una de ellas tiene extremos de pobreza y de riqueza, mientras que la otra tiene poca variación de ingresos entre familias.

• Estamos interesados en la dispersión o variabilidad de los ingresos, además de estarlo en sus centros.

Page 28: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 28

Ejemplo de dos conjuntos de datos con igual media

Datos con alta dispersiónDatos con baja dispersión

Medidas de dispersión

Page 29: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 29

Medidas de dispersión• Rango

Una manera de medir la dispersión es calcular el recorrido de la distribución empírica, es decir, la diferencia entre las observaciones máxima y mínima.

Su mayor ventaja es que se puede calcular facilmente, sin embargo, no brinda información sobre la dispersión existente entre ambos valores extremos.

Page 30: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 30

Medidas de dispersión

• El rango depende sólo de las observaciones máxima y mínima, que podrían ser observaciones atípicas.

• Podríamos mejorar nuestra descripción de la dispersión fijándonos, por ejemplo, también en la dispersión del 50% de los valores centrales de nuestros datos.

• Un conjunto de estadísticos de utilidad son los cuartiles de una distribución.

Page 31: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 31

Cuartiles

Para calcular los cuartiles de una distribución debemos:

1.1. Ordenar las observaciones en orden creciente y localizar la mediana.

22. . El primer cuartil Q1 es la mediana de las observaciones situadas a la izquierda de la mediana de la distribución.

3.3. El tercer cuartil Q3 es la mediana de las observaciones situadas a la derecha de la mediana de la distribución.

Page 32: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 32

Cuartiles• Los cuartiles son medidas de tendencia no central de una

distribución.

• Dividen los datos ordenados en 4 cuartos iguales:

• El segundo cuartil de una distribución es su mediana.

25% 25% 25% 25%

Q1 Q2 Q3

Page 33: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 33

Percentiles• Los percentiles son otro conjunto de medidas de tendencia no

central de una distribución.

• Dividen los datos ordenados en 100 partes iguales.

• El percentil 25 es el primer cuartil ...

• Ejemplo– Supongamos que el 78% de los resultados del GMAT es menor o igual a

600 puntos. Entonces, 600 es el percentil 78 de la distribución.

600200 800

78% de todos los resultados 22%

Page 34: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 34

– Percentiles frecuentemente utilizados• Primer decil = percentil 10

• Primer cuartil, Q1, = percentil 25

• Segundo cuartil,Q2, = percentil 50

• Tercer cuartil, Q3, = percentil 75

• Noveno decil = percentil 90

EjemploEncontrar los cuartiles del siguiente conjunto de datos:

7, 8, 12, 17, 29, 18, 4, 27, 30, 2, 4, 10, 21, 5, 8

Percentiles

Page 35: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 35

– Solución• Primero, ordenar las observaciones

2, 4, 4, 5, 7, 8, 10, 12, 17, 18, 18, 21, 27, 29, 30

Como máximo, (.25)(15) = 3.75 observaciones deberían aparecer pordebajo del primer cuartil.

Como máximo, (.75)(15)=11.25 observaciones deberían aparecer por encima del primer cuartil.

Primer cuartil

Si el numero de observaciones es par, los resultados se encuentran entre dos observaciones.En ese caso, hay que elegir el punto medio entre ambas observaciones.

15 observaciones

Percentiles

Page 36: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 36

Diagrama de caja

• Los cinco números resúmen de una distribución son representados gráficamente por un diagrama de caja.

• L - Observación máxima

• Q3 - Tercer cuartil

• Q2 - Mediana

• Q1 - Primer cuartil

• S - Observación mínima

Page 37: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 37

Diagrama de caja• Los lados inferior y superior de la caja van del

primer al tercer cuartil. Por tanto, la altura de la caja es la amplitud del 50% de los datos centrales.

• El segmento del interior de la caja indica la mediana. Los extremos de los segmentos perpendiculares a los lados superior e inferior indican, respectivamente, los valores máximo y mínimo de la distribución.

S Q1 Q2 Q3 L

Page 38: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 38

Diagrama de caja

0

50

100

150

200

250

300

350Facturacion_sucursales_zona_norte

0

40

80

120

160

200

240Facturacion_sucursales_zona_sur

Page 39: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 39

Una medida de dispersión: La varianza

• La varianza s2 de un conjunto de observaciones es el promedio de los cuadrados de la desviaciones de las observaciones respecto a su media. Formalmente:

• De forma compacta:

1n

)xx(...)xx()xx(s

2n

22

212

2i

2 )xx(1n

1s

Page 40: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 40

Considere dos poblaciones:Población A: 8, 9, 10, 11, 12Población B: 4, 7, 10, 13, 16

1098

74 10

11 12

13 16

8 –10 = -2

9 –10 = -111 –10 = +1

12 – 10 = +2 Suma = 0

4 -10 = - 6

7- 10 = -313 -10 = +3 Suma = 0

16 -10 = +6

La media de ambas poblaciones es 10...

…pero en B los datos están mucho mas dispersos que en A

Comencemos calculando la suma de las desviaciones

A

B

En ambos casos, la suma de las desviaciones esCero (lo cual es siempre Cierto). Por lo tanto, usamosla suma de los cuadrados.

La varianza

Page 41: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 41

Calculemos la suma de las desviaciones al cuadrado para ambas poblaciones:

185

)1016()1013()1010()107()104( 222222B

25

)1012()1011()1010()109()108( 222222A

¿Por qué la varianza esta definidacomo un promedio de desviaciones al cuadrado y no como su simple suma?

La suma de las desviaciones al cuadrado aumentancuando la dispersión de aumenta!!

La varianza

Page 42: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 42

1 3 1 32 5

A B

B es mas dispersa alrededor de su media que A. Sin embargo, la suma no muestra eso.Es por ello que se usa el promedio

Calculemos la suma de las desviaciones cuadradas para ambas poblaciones

SumaA = (1-2)2 +…+(1-2)2 +(3-2)2 +… +(3-2)2= 10

SumaB = (1-3)2 + (5-3)2 = 8

5 veces 5 veces

A2 = SumA/N = 10/5 = 2

B2 = SumB/N = 8/2 = 4!

La varianza

Page 43: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 43

Una medida de dispersión: El desvío standard

• La desviación típica es la raíz cuadrada positiva de la varianza s2:

• Ejemplo:Tasas de retorno de dos fondos de inversiones durante 10 años ¿Cual de los dos es más riesgoso?

Fondo A: 8.3, -6.2, 20.9, -2.7, 33.6, 42.9, 24.4, 5.2, 3.1, 30.05 Media: 14.6 Desvío standard: 16.74

Fondo B: 12.1, -2.8, 6.4, 12.2, 27.8, 25.3, 18.2, 10.7, -1.3, 11.4 Media: 11.75 Desvío standard: 9.97

El fondo A es mas riesgoso dado que su desvío standard es mayor.

2i )xx(

1n

1s

Page 44: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 44

Grados de libertad• ¿Por qué calculamos la varianza dividiendo por n - 1, en

lugar de dividir por n?

• Como la suma de las desviaciones es 0, la última desviación es una combinación lineal de las n - 1 desviaciones restantes.

• Por lo tanto, no estamos calculando el promedio de n números independientes (los desvíos). Solo n -1 de las desviaciones al cuadrado pueden variar libremente y por ello, promediamos la suma de los desvíos al cuadrado dividiendo por n -1.

• Al numero n -1 se lo denomina grados de libertad de la varianza o de la desviación típica.

Page 45: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 45

Propiedades del desvío standard

• s mide la dispersión respecto a la media. Debe emplearse solo cuando se escoge la media como medida central de la distribución.

• s = 0 solo ocurre cuando no hay dispersión: todas las observaciones toman el mismo valor. De lo contrario s > 0.

• Cuanto más dispersión hay entre las observaciones, mayor es s.

• s, al igual que la media, se encuentra fuertemente influenciado por las observaciones extremas.

Page 46: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 46

Descripción de una distribución asimétrica

• Una distribución asimétrica con unas pocas observaciones en la cola larga de la distribución tendrá un desvío standard grande. En tal caso, s no proporciona información útil sobre la dispersión de la distribución.

• Como en una distribución muy asimétrica la dispersión de cada una de las colas es muy distinta, es imposible describir bien la dispersión con un solo número.

• Los cinco números resúmen proporcionan mejor información sobre la dispersión de la distribución.

• Es preferible utilizar los cinco números resúmen en lugar de la media y el desvío standard para describir una distribución asimétrica

Page 47: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 47

Coeficiente de variación

• El coeficiente de variación es una medida de dispersión relativa.

• Muestra la dispersión de una distribución en relación a su media.

• Se utiliza para comparar distintas distribuciones.• Su fórmula es:

• Por ejemplo, un desvio standard de 10, puede ser grande si la media es 100, pero no lo es si la media es 500.

x

σCV

Page 48: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 48

Curva de densidad

• Una curva de densidad describe el aspecto general de una distribución.

• El área por debajo de la curva, entre cualquier intervalo de valores, es la proporción de todas las observaciones que están situadas en dicho intervalo.

• El área total bajo una curva de densidad es 1.

Page 49: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 49

Distribuciones normales

• Todas las distribuciones normales tienen la misma forma general.

• La curva de densidad de una distribución normal se describe por su media y su desvío standard .

• La media se sitúa en el centro de la curva simétrica, en el mismo lugar que la mediana.

• Si se cambia sin cambiar se provoca un desplazamiento de la curva de densidad a lo largo del eje de las abscisas sin que cambie su dispersión.

• La desviación típica controla la dispersión de la curva normal.

Page 50: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 50

Distribuciones normales• La curva con mayor desvío standard es la curva que presenta mayor

dispersión.

• La desviación típica es la medida natural de la dispersión de una distribución normal. La forma de una curva normal no solo queda completamente determinada por y , sino que además es posible situar a simple vista en la curva.

• Cuando nos alejamos de , en cualquier dirección, la curva pasa de descender rápidamente a descender suavemente.

• Estos puntos de inflexión están situados a una distancia de .

Page 51: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 51

Distribuciones normales• En una distribución normal:

El 68 % de las observaciones se encuentra entre . El 95 % de las observaciones se encuentra entre 2 . El 99.7 % de las observaciones se encuentra entre 3 .

68% de los datos

95% de los datos

99.7% de los datos

Page 52: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 52

Distribución normal estandarizada

• Si x es una observación de una distribución de media y de desvío standard , el valor estandarizado de x es:

• La distribución normal estandarizada es la distribución normal N(0,1): su media es 0 y su desvío standard es 1.

• Si una variable x tiene una distribución normal N(,), entonces z posee una distribución normal estandarizada.

x

z

Page 53: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 53

Coeficiente de asimetría

• El coeficiente de asimetría es una medida de asimetría de una distribución.

• Su fórmula es:

• Si es positivo, la curva presenta asimetría hacia la derecha.• Si es negativo, la curva presenta asimetría hacia la

izquierda.• Si es cero, la distribución es simétrica.

3n

1i

ix

2)1)(n(n

n

xCA

Page 54: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 54

Concentración: Kurtosis

• La kurtosis es una medida de la concentración de la distribución en torno a su media.

• Su fórmula es:

• Si K es positiva, la distribución tiene una concentración superior a la de una curva normal. Si es negativa, ocurre lo contrario.

3)2)(n(n

1)3(nx

3)(n)21)(nn(

1)n(n 24

n

1i

i

x

K

Page 55: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 55

N

))((xY)COV(X,lpoblaciona Covarianza i yix y

x ( y) es la media poblacional de la variable X (Y)

N es el tamaño de la población. n es el tamaño de la muestra.

1-n

)y)(yx(xY)cov(X,muestral Covarianza ii

Medidas de asociación: Covarianza

Page 56: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 56

• Este coeficiente responde a la pregunta:

¿Cuán fuerte es la asociación (lineal) entre X e Y?

y

YXCOV

x

),(

lpoblacionan correlacio de eCoeficient

yss

YXr

x

),cov(

muestraln correlacio de eCoeficient

Medidas de asociación: Correlación

Page 57: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 57

COV(X,Y)=0 o r =

+1

0

-1

Correlación lineal positiva fuerteEl valor se encuentra cerca de 1

No hay correlación linealCoeficiente cercano a cero

Correlación lineal negativa fuerteEl valor se encuentra cerca de -1

COV(X,Y)>0

COV(X,Y)<0

Coeficiente de Correlación

Page 58: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 58

• Ejemplo– Busque la covarianza y el coeficiente de correlación

para medir como los gastos de marketing y los niveles de ventas se relacionan.

Marketing Ventas1 303 405 404 502 355 503 352 25

Medidas de asociación

0

10

20

30

40

50

60

0 1 2 3 4 5 6

Gastos de marketing

Ventas

Intuitivamente, en este grafico de dispersión…

Las variables parecen estar

positivamente relacionadas

Page 59: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 59

A continuación calculamos cov() y r:

Mes1 1 30 30 1 9002 3 40 120 9 16003 5 40 200 25 16004 4 50 200 16 25005 2 35 70 4 12256 5 50 250 25 25007 3 35 105 9 12258 2 25 50 4 625

Suma 25 305 1025 93 12175

x y xy x2 y2

797.839.8458.1

268.10ss

)Y,Xcov(r

yx

268.10830525

102571

nyx

yx1n

1

1n)yy)(xx(

)Y,Xcov(

in

1iin

1iii

n1i

iin

1i

458.1554.1s

554.18

2393

71

nx

x1n

1s

x

22n1i2

i2x

De igual forma, sy = 8.839

Page 60: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 60

Interpretación– La covarianza (10.2679) indica que los gastos de

marketing y los niveles de ventas están positivamente relacionados

– El coeficiente de correlación (.797) indica que hay una relación lineal positiva fuerte entre los gastos de marketing y los niveles de ventas.

Medidas de asociación

Page 61: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 61

Tablas de Contingencia y Medidas de Asociación

• El objetivo de la tabulación cruzada es identificar la relación que existe entre dos variables. Con los datos de una muestra podemos observar si existe alguna relación entre dos variables y la pregunta que surge naturalmente es si esta relación es verdadera o es el resultado del error muestral.

• Las tablas de contingencia son tabulaciones cruzadas entre dos variables X e Y con r y c categorías respectivamente. Es decir que la tabla de contingencia entre X e Y tendrá r filas y c columnas.

Page 62: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 62

Tablas de Contingencia y Medidas de Asociación

• Para responder a esta pregunta, se utiliza un test de hipótesis conocido como el test Chi-cuadrado de Pearson. La hipótesis nula del test es que las dos variables analizadas son independientes. La hipótesis alternativa es que las variables no son independientes, es decir que existe una relación entre las dos variables.

• Ilustremos el test utilizando un ejemplo. La siguiente tabla de contingencia muestra la tabulación cruzada de la variable ingreso anual (dividido en tres categorías) y la última marca de coche comprada (dividida en tres marcas).

Page 63: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 63

Tablas de Contingencia y Medidas de Asociación

Marca del último auto compradoFord Toyota Renault Total

I ngreso anual

Menos de 20,000 50 200 125 37520,000 - 40,000 200 100 350 650más de 40,000 100 25 50 175

Total 350 325 525 1200

Page 64: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 64

Tablas de Contingencia y Medidas de Asociación

• Las entradas de la tabla representan el número de personas en la muestra con cada combinación de ingreso y marca de auto. Por ejemplo, 50 personas que ganan menos de 20,000 $ compraron un auto marca Ford.

• El test Chi-cuadrado de Pearson se basa en encontrar cual hubiera sido el valor de cada entrada si las variables fueran independientes. Es decir el valor esperado de cada celda de la tabla si las variables ingreso y marca son independientes.

Page 65: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 65

Tablas de Contingencia y Medidas de Asociación

• Si ingreso y marca son independientes, la probabilidad del evento conjunto "A1: ganar menos de 20,000$" y "B1: comprar marca Ford" es el producto de esas dos probabilidades:

• Pr(A1 y B1) = Pr(A1)*Pr(B1)

• Pr(A1) = A1/A = 375/1200,

• Pr(B1) = B1/B = 350/1200

• Donde A y B son las frecuencias totales de los eventos.

Page 66: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 66

Tablas de Contingencia y Medidas de Asociación

• Por lo tanto:

• Pr(A1 y B1) = Pr(A1)*Pr(B1) = 375*350/(1200*1200) = 0.091

• El número esperado en la entrada A1B1 es entonces:

• N* Pr(A1 y B1) = 1200*0.091 = 109.38

Page 67: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 67

Tablas de Contingencia y Medidas de Asociación

• En general la fórmula del valor esperado es:

• Eij = (NAi*NBj)/N.

– Eij = número esperado

– NAi= número de elementos en la categoría Ai

– NBi= número de elementos en la categoría Bi

• Para A1B1 el número esperado es:– E11 = (375*350)/1200 = 109.38

Page 68: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 68

Tablas de Contingencia y Medidas de Asociación

• Este proceso se puede repetir para cada una de las entradas de la tabla. Una vez hecho esto el estadístico Chi-cuadrado se calcula con la siguiente fórmula:

– r = número de categorías de la variable en las filas– c = número de categorías de la variable en las columnas

– Oij = número observado en entrada ij

– Eij = número esperado en la entrada ij

• Este estadístico Chi-cuadrado tiene (r-1)*(c-1) grados de libertad.

r

i

c

j ij

ijij

E

EO

1 1

22

Page 69: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 69

Tablas de Contingencia y Medidas de Asociación

• En nuestro ejemplo hay (3-1)*(3-1) = 4 grados de libertad. Realizando todas las cuentas con la tabla del ejemplo, el estadístico da 252.2.

• Comparando este número con el valor crítico de la distribución Chi-cuadrado con 4 grados de libertad a un nivel de significatividad del 5% el valor crítico correspondiente es 9.49.

• Como 252.2 > 9.49 se rechaza la hipótesis nula. Es decir, las variables no son independientes.

Page 70: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 70

Tablas de Contingencia y Medidas de Asociación

• El estadístico de Pearson nos dice si dos variables son independientes una de otra pero no nos dice nada acerca de la naturaleza de la relación.

• Cuando analizamos variables dicotómicas (adoptan solo los valores 0, 1) el estadístico de Pearson puede ser poco preciso. En esos casos se suelen utilizar otras medidas de asociación.

Page 71: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 71

Medidas de Asociación para Tablas de 2x2

• El Coeficiente Phi ()• Es una medida del grado de asociación entre

dos variables dicotómicas basada en el estadístico Chi-cuadrado de Pearson.

• Este coeficiente toma valores en el intervalo cero-uno. Valores próximos a cero indican poca asociación entre las variables y valores cercanos a uno indican una fuerte asociación.

• El coeficiente puede ser calculado como el coeficiente de correlación entre dos variables dicotómicas.

Page 72: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 72

Medidas de Asociación para Tablas de 2x2

• Alternativamente, puede ser calculado utilizando el estadístico Chi-cuadrado de Pearson con la siguiente fórmula:

= (2/N)1/2

• donde N es el número de datos.

Page 73: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 73

Medidas de Asociación para Tablas de 2x2

• Riesgo Relativo

• El riesgo relativo es una medida del grado de asociación entre dos variables dicotómicas, que compara el producto de las frecuencias en la diagonal principal de la tabla con el producto de las frecuencias en la diagonal opuesta mediante el cociente entre ambos. En consecuencia toma valores positivos y, si las variables son independientes, su valor será próximo a uno.

Page 74: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 74

Medidas de Asociación para Tablas Mayores a 2x2

• El coeficiente de contingencia

• El coeficiente de contingencia es una extensión del coeficiente al caso de que al menos una de las variables presente más de dos categorías. Toma valores entre 0 y Cmax, donde si r y c son el número de categorías de cada una de las variables:

• Cmax = [min(r-1,c-1)/(1+ min(r-1,c-1))]1/2

Page 75: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 75

Medidas de Asociación para Tablas Mayores a 2x2

• Valores del coeficiente de Contingencia cercanos a 0 indican que no hay asociación entre las variables y valores próximos a Cmax indican una fuerte asociación (note que Cmax es un número que siempre será menor a uno).

Page 76: UNIVERSIDAD TORCUATO DI TELLA Ing. MBA, María del Carmen Gómez1 Análisis de Datos

UNIVERSIDAD TORCUATO DI TELLA

Ing. MBA, María del Carmen Gómez 76

Medidas de Asociación para Tablas Mayores a 2x2

• La V de Cramer

• Otra extensión del coeficiente al caso de variables con más de dos categorías es la V de Cramer que, a diferencia del coeficiente de contingencia toma valores entre 0 y 1.

• Valores de V cercanos a 0 indican que no hay asociación entre las variables y valores cercanos a 1 indican una fuerte asociación.

• V = (2/(r ó c)*N)1/2