00 – introducción a la estadística y teoría de probabilidades · 1 00 – introducción a la...

95
1 00 – Introducción a la estadística y teoría de probabilidades Diego Andrés Alvarez Marín Profesor Asistente Universidad Nacional de Colombia Sede Manizales

Upload: ngotu

Post on 27-Apr-2018

233 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

1

00 – Introducción a la estadística y teoría de probabilidades

Diego Andrés Alvarez MarínProfesor Asistente

Universidad Nacional de ColombiaSede Manizales

Page 2: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

2

Contenido

● Qué es la estadística?● Qué es la teoría de probabilidades?● Qué es la estadística descriptiva?● Qué es la estadística inferencial

Page 3: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

Estadística

● Es la rama matemática relacionada con la colección, el análisis, la interpretación (o explicación) y la representación de datos.

Page 4: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

Teoría de probabilidades vs Estadística

● La teoría de probabilidades es la rama de la matemática relacionada con el análisis de fenómenos aleatorios; esta se desarrolló como un modelo abstracto y sus conclusiones y deducciones están basados en axiomas.

● La estadística se basa en la aplicación de la teoría de probabilidad a problemas reales y sus conclusiones son inferencias basadas en observaciones.

Page 5: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

Ramas de la estadística

La estadística se divide en dos ramas:

● Estadística descriptiva● Estadística inferencial

Page 6: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

6

Estadística descriptiva

La estadística descriptiva se dedica a los métodos de recolección, descripción, visualización y resumen de datos originados a partir de los fenómenos en estudio. Los datos pueden ser resumidos en forma numérica y/o gráfica.

Page 7: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

7

Estadística inferencial

Esta comprende los métodos y procedimientos para deducir propiedades (hacer inferencias) de una población, a partir de una pequeña parte de la misma (muestra). Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no (prueba de hipótesis), estimaciones de características numéricas (estimación), pronósticos de futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión).

Page 8: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

8

Estadística descriptiva vs. Estadística inferencial

La diferencia entre la estadística descriptiva y la estadística inferencial es que la primera intenta resumir los datos de forma cuantitativa mientras que la segunda se usa para sustentar afirmaciones sobre la población que está representada por los datos recopilados.

Page 9: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

9

01 – Estadística descriptiva

Diego Andrés Alvarez MarínProfesor Asistente

Universidad Nacional de ColombiaSede Manizales

Page 10: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

10

Contenido

●Definiciones básicas●Medidas de tendencia no central●Medidas de tendencia central●Medidas de dispersión●Momentos●Representación gráfica de la información

– Histogramas

Page 11: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

Definiciones

●Se quiere estudiar una población. Sin embargo por razones prácticas se analiza una muestra de la población. Los datos se coleccionan mediante un muestreo o experimento. Las observaciones de la muestra aleatoria se usan para calcular ciertas características de la muestra llamadas estadísticas.

Page 12: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

● Población: es el conjunto de elementos de referencia sobre el que se realizan todas las observaciones. La población es la colección de toda la información que caracteriza un fenómeno.

● Muestra estadística (o aleatoria): es un subconjunto representativo de individuos de la población

● Muestreo: es la técnica por la cual se selecciona una muestra a partir de una población

● Una estadística es el resultado de aplicar una función a un conjunto de datos.

Page 13: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

Información básica de un conjunto de datos

● Mínimo y máximo● Percentil● Tendencia central● Dispersión● Momentos

Page 14: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

Mínimo y máximo (con MATLAB)

Page 15: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

Mínimo y máximo (con MS EXCEL)

Page 16: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

Medidas de posición no central

Un percentil es el valor de una variable bajo el cual un cierto porcentaje de las observaciones caen. De este modo el percentil 20 es el valor bajo el cual el 20% de las observaciones pueden ser encontradas.

Algunos tipos de percentiles importantes son:● Los cuartiles: percentil 25, 50 (mediana) y 75● Los quintiles: percentil 20, 40, 60 y 80● Los deciles: percentiles 10, 20, ..., 90

Page 17: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

Definiciones de percentil

Page 18: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

Ejemplo usando la definición 1

Calcule el percentil 70 de los datos

1200, 11, 23, 27, 25, 29

Primero que todo se deben organizar los datos en orden ascendente

11, 23, 25, 27, 29, 1200

Por lo tanto el percentil 70 es 29

Page 19: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

Percentiles con MATLAB

Observe que MS EXCEL y MATLAB calculan los percentiles con diferentes algoritmos

Page 20: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

Percentiles con MS EXCEL

Observe que MS EXCEL y MATLAB calculan los percentiles con diferentes algoritmos

Page 21: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

21

Medidas de tendencia central

Las medidas de tendencia central miden la localización del centro de los datos

● Media aritmética (o promedio)● Mediana● Moda● Media geométrica● Media armónica● Media acotada (o media truncada)

Page 22: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

22

Media aritmética (o promedio)

Page 23: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

23

Mediana

Page 24: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

24

Mediana

Page 25: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

25

Mediana

Page 26: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

26

Media geométrica

Page 27: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

27

Media geométrica

La media geométrica es relevante cuando varias cantidades son multiplicadas para producir un total, o cuando los números son de naturaleza exponencial, como por ejemplo el crecimiento de la población mundial o las tasas de interés de una inversión financiera.

La media geométrica es menos sensible que la media aritmética a los valores extremos.

Page 28: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

28

Ejemplo

Page 29: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

29

Propiedades de la media geométrica

Page 30: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

30

Media armónica

Page 31: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

31

Ejemplo

Page 32: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

32

Ejemplo

Page 33: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

33

Media armónica

Page 34: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

34

Moda

Page 35: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

35

Media acotada (o media truncada)

Page 36: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

36

Medidas de tendencia central en MS EXCEL

Observe que MATLAB y MS EXCEL utilizan diferentes algoritmos para calcular la moda

Page 37: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

37

MEDIA.ACOTADA(datos;porcentaje)

Calcula la media de un conjunto de datosdespués de eliminar el porcentaje de los extremos inferior y superior de los puntos de datos. Puede utilizar esta función cuando desee excluir del análisis los valores extremos.

porcentaje es el número fraccionario de puntos de datos que se excluyen del cálculo. Por ejemplo, si porcentaje = 0,2, se eliminarán cuatro puntos de un conjunto de datos de 20 puntos (20 x 0,2), dos de la parte superior y dos de la parte inferior.

Page 38: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

38

Medidas de tendencia central en MATLAB

Observe que MATLAB y MS EXCEL utilizan diferentes algoritmos para calcular la moda

Page 39: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

39

Otras medidas de tendencia central

● Media generalizada– http://en.wikipedia.org/wiki/Generalized_mean

● Media ponderada– http://en.wikipedia.org/wiki/Weighted_mean

● Punto medio – http://en.wikipedia.org/wiki/Midrange

● Root mean square (RMS)– http://en.wikipedia.org/wiki/Root_mean_square

Page 40: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

40

Notas varias

● La media armónica es siempre inferior a la media geométrica, que a su vez es siempre inferior a la media aritmética.

Ver:● http://en.wikipedia.org/wiki/Inequality_of_arithm

etic_and_geometric_means● http://en.wikipedia.org/wiki/Pythagorean_means

Page 41: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

41

Medidas de dispersión

La dispersión de los datos se puede atribuir a pequeñas diferencias de construcción, a mano de obra deficiente, errores humanos, variabilidad inherente al material, así como a errores en las observaciones y en las mediadas.

Las medida de dispersión miden la variabilidad de un conjunto de datos. Una medida de dispersión es un número real no negativo, que es cero si todos los dátos son idénticos, y se incrementa a medida que las observaciones son más diversas.

Page 42: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

42

Medidas de dispersión

● Varianza● Desviación estándar● Desviación media● Desviación mediana● Rango (o recorrido)● Rango (o recorrido) intercuartil● Rango (o recorrido) interdecil

Page 43: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

43

Varianza y desviación estándar muestral

Use siempre estas fórmulas para calcular la varianza y la desviación estándar, a menos que se indique lo contrario.

Ver: http://en.wikipedia.org/wiki/Variancehttp://en.wikipedia.org/wiki/Standard_deviation

Page 44: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

44

Varianza y desviación estándar poblacional

Page 45: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

45

Corrección de Bessel

Aunque intuitivamente la fórmula de la desviación estándar (varianza) poblacional es la que se debe usar (denominador n), SIEMPRE que se quieren hacer inferencias acerca de una población, se debe utilizar la desviación estándar (varianza) muestral (denominador n-1). Las razones de esto se entenderán en el Capítulo ***.

Page 46: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

46

Recorrido o rango

Page 47: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

47

Recorrido interdecil e intercuartil

Page 48: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

48

Desviación media (mean absolute deviation - MAD)Desviación mediana (median absolute deviation)

Page 49: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

49

Coeficiente de variación (coefficient of variation - C.O.V.)

No confundir con la covarianza!

Page 50: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

50

Nota final

A pesar que la media aritmética y la desviación estándar han sido empleadas de manera extensa como medidas de tendencia central y dispersión respectivamente, estas no son siempre las medidas más deseables. Su uso es popular por su varias propiedades teóricas que las hacen muy manipulables desde el punto de vista matemático.

Page 51: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

51

Otras medidas de dispersión

● Momento central de cualquier orden– http://en.wikipedia.org/wiki/Moment_(mathematics)

● Diferencia media– http://en.wikipedia.org/wiki/Mean_difference

● Desviación estándar geométrica– http://en.wikipedia.org/wiki/Geometric_standard_deviation

Page 52: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

52

Medidas de dispersión en MS EXCEL

Page 53: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

53

Como la función para calcular la desviación mediana no existe en MS EXCEL 2007, debemos crear la función usando Visual Basic for Applications (VBA)

Haga Alt+F11 para ingresar el códigoInsertar →MóduloCopy+Paste códigoGrabar como .xlsm

Page 54: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

54

Medidas de dispersión en MATLAB

Page 55: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

55

Valor atípico (outlier)Un valor atípico es una observación que es numéricamente distante del resto de los datos. Las estadísticas derivadas de los conjuntos de datos que incluyen valores atípicos serán frecuentemente engañosas. Por ejemplo, en el cálculo de la temperatura media de 10 objetos en una habitación, si la mayoría tienen entre 20 y 25ºC, pero hay un horno a 350°C, la mediana de los datos puede ser 23, pero la temperatura media será 55. En este caso, la mediana refleja mejor la temperatura de la muestra al azar de un objeto que la media.

Page 56: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

56

Valor atípico (outlier)

Los valores atípicos pueden ser indicativos de datos que pertenecen a una población diferente del resto de la muestra establecida.

No existe una definición matemática de lo que constituye un valor atípico; este es un ejercicio subjetivo.

Page 57: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

57

Sensibilidad de las medidas de tendencia central a valores atípicos

Page 58: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

58

Sensibilidad de las medidas de dispersión a los valores atípicos

Page 59: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

59

Momentos

● Coeficiente de asimetría– Ver: http://en.wikipedia.org/wiki/Skewness

● Curtosis– Ver: http://en.wikipedia.org/wiki/Kurtosis

Page 60: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

Curtosis y coeficiente de asimetría en MS EXCEL

Page 61: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

Curtosis y coeficiente de asimetría en MATLAB

MATLAB y MS EXCEL utilizan diferentes algoritmos para calcular estos parámetros

Page 62: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

HistogramasUn histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables.

Page 63: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

Datos

2298 4188 4536 4737 4905 50413205 4289 4565 4763 4908 50583325 4363 4591 4784 4923 51423609 4377 4657 4816 4941 51523918 4448 4666 4817 4993 51523992 4450 4670 4852 4998 53304057 4524 4724 4887 5035 5535

Suponga que los siguientes números representan el consumo en m3 de agua por día de una población (observe que están ordenados ascendentemente). Elabore el histograma de dichos datos.

Page 64: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

1. Determine el rango de los datos

● Rango es igual al dato mayor menos el dato menor. Rango = 5535 - 2298 = 3237

2298 4188 4536 4737 4905 50413205 4289 4565 4763 4908 50583325 4363 4591 4784 4923 51423609 4377 4657 4816 4941 51523918 4448 4666 4817 4993 51523992 4450 4670 4852 4998 53304057 4524 4724 4887 5035 5535

Page 65: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

2. Obtener el número de clasesUna clase (bin) es ...

Supongamos por el momento que

Entonces

Formaremos por lo tanto 7 clases/intervalos

Page 66: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

3. Establecer la longitud de las clases/intervalos (bins)

Establecer la longitud de clase: es igual al rango dividido entre el número de clases

Lóngitud de la clase = 3237/7 = 462.4

Page 67: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

4. Construir los intervalos de las clasesLos intervalos resultan de dividir el rango de los datos en relación al resultado del paso 3 en intervalos iguales.

Page 68: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

4. Graficar el histograma de conteo

Page 69: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

4. Graficar el histograma de conteo

Consultar la ayuda de la función FRECUENCIA de MS EXCEL para entender su uso

Page 70: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

Tenga en cuenta...

● La normalización del histograma● La frecuencia relativa refleja la proporción de la

observaciones contenidas en una clase● Cuando los intervalos de clase son idénticos, el

área de los rectángulos representa las frecuencias. Sin embargo, cuando la longitud de los intervalos es diferente, las áreas no representan la frecuencia. Por lo tanto se debe ajustar la altura de los rectángulos para que sus áreas sean proporcionales a la frecuencia.

Page 71: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

5. Graficar el histograma de frecuencias relativas

El eje Y tiene unidadesde frecuencia por m3/día

Page 72: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

Histograma de frecuencia de clase con MATLAB

Page 73: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

Histograma de frecuencia de clase con MATLAB

El eje Y tiene unidadesde frecuencia por m3/día

Page 74: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

Histogramas con MS EXCEL

MS EXCEL 2003:http://www.bloggpro.com/creating-histograms-in-excel/

MS EXCEL 2007:http://www.bloggpro.com/creating-a-simple-histogram-in-excel-2007/

or just GOOGLE IT!http://www.google.com/search?q=histograms+excel+2007

Page 75: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

6. Graficar la distribución de frecuencia relativa acumulada

● Se obtiene graficando en el eje vertical la frecuencia relativa acumulada de una clase contra el límite inferior de la siguiente clase sobre el eje horizontal y uniendo todos los puntos consecutivos.

Page 76: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

Percentil 80

El eje Y tiene unidadesde frecuencia únicamente

Page 77: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

Número de clases

● No existe una forma única de escoger el número de intervalos. Esto por lo tanto se deja a criterio del analista. Sin embargo, existen algunas recomendaciones (las cuales generalmente hacen suposiciones sobre la forma de los datos):

● El número de clases depende del número total de observaciones

Page 78: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

Número de intervalos (k)

● k – número de intervalos (clases)● h – ancho del intervalo

● Mi recomendación:

Page 79: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

● Fórmula de Sturges (1926): su rendimiento es pobre si n<30

● Fórmula de Scott (1979): s es la desviación estándar muestral

● Fórmula de Freedman-Diaconis (1981): IQR es el rango intercuartil

Page 80: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

Método de Shimazaki y Shinomoto (2007)

Page 81: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

Fuente: http://www.ton.scphys.kyoto-u.ac.jp/~hideaki/res/histogram.html

Page 82: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53
Page 83: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53
Page 84: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

Referencias bibliográficas

● Sturges, H. A. (1926). “The choice of a class interval”. J. American Statistical Association: 65–66.

● Scott, D. W. (1979). “On optimal and data-based histograms”. Biometrika. 66 (3): 605–610

● Freedman, D. and Diaconis, P. (1981). “On the histogram as a density estimator: L2 theory”. Zeitschrift für Wahrscheinlichkeitstheorie und verwandte Gebiete. 57 (4): 453–476

● Shimazaki H. and Shinomoto S. (2007), “A method for selecting the bin size of a time histogram” Neural Computation. 19(6), 1503-1527

Page 85: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

Ejemplo con clases de tamaños diferentes

Considere el siguiente ejemplo del Censo de USA en el año 2000:

“Journey to work and place of work”

Page 86: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

Fuente: http://www.census.gov/prod/2004pubs/c2kbr-33.pdf

U.S. Census Bureau – tiempo de viaje al trabajo. El censo encontró que 124 millones de personas trabajan fuera de su casas.

Page 87: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

[0,5) 5 4180 836[5,10) 5 13687 2737[10,15) 5 18618 3723[15,20) 5 19634 3926[20,25) 5 17981 3596[25,30) 5 7190 1438[30,35) 5 16369 3273[35,40) 5 3212 642[40,45) 5 4122 824[45,60) 15 9200 613

Intervalo (minutos)

Ancho (minutos)

Cantidad (miles)

Cantidad (miles)/Ancho (minutos)

Datos por cantidad

Page 88: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

.Histograma del tiempo de viaje

(censo USA, 2000)

El área bajo la curva es igual al número de casos = 124 millones.

Este diagrama usa cantidad/ancho de la tabla.

Page 89: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

[0,5) 5 4180 0.01[5,10) 5 13687 0.02[10,15) 5 18618 0.03[15,20) 5 19634 0.03[20,25) 5 17981 0.03[25,30) 5 7190 0.01[30,35) 5 16369 0.03[35,40) 5 3212 0.01[40,45) 5 4122 0.01[45,60) 15 9200 0

Intervalo (minutos)

Ancho (minutos)

Cantidad (miles)

Cantidad/Total/Ancho (minutos)

Datos por proporción

Page 90: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

.Histograma de frecuencia relativa del tiempo de viaje (censo USA, 2000)

El área bajo la curva es igual a 1

Este diagrama usa cantidad/total/ancho de la tabla.

Page 91: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

Generalización del histograma● Kernel smoothing methods (tambien llamado

ventanas de Parzen (Parzen windows). El comando de MATLAB asociado es ksdensity.

Ver: http://en.wikipedia.org/wiki/Kernel_density_estimation

Page 92: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

Generalización de histograma

Existen otro métodos basados en la utilización de polinomios ortogonales de Legendre. Ver por ejemplo:

X.B. Li y F.Q. Gong (2009). A method for fitting probability distributions to engineering properties of rock masses using Legendre orthogonal polynomials. Structural Safety. Volume 31, Issue 4, July 2009, Pages 335-343

Applying the Gram-Schmidt process to the functions 1, x, x^2, ... on the interval [-1,1] with the usual L^2 inner product gives the Legendre polynomials

Page 93: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

Otras funciones de MS EXCEL

Page 94: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

Otras funciones de MATLAB

Page 95: 00 – Introducción a la estadística y teoría de probabilidades · 1 00 – Introducción a la estadística y ... – . 52 Medidas de dispersión en MS EXCEL. 53

Otras formas gráficas de representar los datos