clase10set14

19
Regla de Sturges Regla práctica acerca para calcular el número de clases que deben considerar al hacer un histograma Algunos conceptos para recordar de las clases pasadas… Cuando se hace un histograma, una manera de calcular la cantidad de clases es con la siguiente regla: Recordar: La mediana es una medida robusta de tendencia central mientras que el promedio no lo es ya que una medición muy grande o muy pequeña puede alterarlo significativamente Respecto del tema de las observaciones atípicas, es importante tener en cuenta ciertos conceptos…

Upload: furuno212

Post on 14-Dec-2015

217 views

Category:

Documents


1 download

DESCRIPTION

Como establecer el numero de clases para un histograma

TRANSCRIPT

Regla de SturgesRegla práctica acerca para calcular el número de clases que deben considerar al hacer un histograma

Algunos conceptos para recordar de las clases pasadas…Cuando se hace un histograma, una manera de calcular la cantidad de clases es con la siguiente regla:

Recordar: La mediana es una medida robusta de tendencia central mientras que el promedio

no lo es ya que una medición muy grande o muy pequeña puede alterarlo

significativamente

Respecto del tema de las observaciones atípicas, es importante tener en cuenta ciertos conceptos…

Se puede aplicar el Criterio de Fourier para desechar los posibles valores atípicos…

3ix x σ− ≥ix

x

σ

i-ésima observación

promedio

Desviación estándar

5( )i

i

x M

med x M

−>

Otro criterio para detectar errores groseros (outliers)

Ejemplo

� La distribución de alturas de mujeres es aproximadamente normal con

1.64

0.06

m

m

µσ

==

Cual es la altura estandarizada?

Ejemplo

� La altura estandarizada de una mujer es el número de desviaciones estándar que su altura difiere de la media de la altura de todas las mujeres

Cual es la altura estandarizada de una mujer que mide 1.72 m?

Cual es la altura estandarizada de una mujer que mide 1.56 m?

Cálculos a partir de distribuciones normales

� El área por debajo de la curva de densidad es una proporción de observaciones de la distribución.

� Cualquier pregunta sobre que proporción de observaciones se encuentra en algún intervalo de valores se puede responder hallando el área por debajo de la curva en ese intervalo.

Ejercicio

� Que proporción de todas las mujeres miden menos de 1.72m?

1.72 1.641.33

0.06

xz

µσ− −= = =

� Busco el valor de la tabla que corresponde a 1.33

0.9082

Ejercicio

� Hallar la proporción de observaciones de la distribución normal estandarizada que son mayores a -2.15

Ejercicio

El nivel de colesterol en sangre es importante y se relaciona con el riesgo de enfermedades coronarias. La distribución del nivel de colesterol para una misma edad y sexo es aproximadamente normal. Para jóvenes de 14 años la media es 170 miligramos de colesterol por decilitro de sangre (mg/dl), y la desviación típica es 30 mg/dl. Niveles de colesterol superiores a 240 mg/dl pueden exigir atención médica. ¿Cúal es el porcentaje de jóvenes que pueden requerir esa atención?

¿Qué porcentaje de jóvenes tiene un nivel de colesterol entre 170 y 240 mg/dl?

Ejercicio

Las notas de una prueba de matemática tiene una distribución N(430,100)

Cual debe ser la nota de un alumno para pertenecer al 10% de alumnos que tienen mejor nota?

Ejercicio

Valoración de la normalidad

� La decisión de describir una distribución mediante una curva normal determina el análisis posterior de los datos

� ¿cómo juzgar que los datos son aproximadamente normales?

TEST DE KOLMOGOROV-SMIRNOV

� Compara la función de distribución acumulada de los datos con la de una distribución normal, midiendo la máxima distancia entre ambas curvas. Si la máxima distancia entre las curvas (estadístico unilateral de Kolmogorov-Smirnov, Dn+) es superior al valor crítico del test (dn+, α) la distribución de la muestra no es normal. El test de Kolmogorov-Smirnov otorga un peso menor a las observaciones extremas.

Análisis de relaciones

� La mayoría de los trabajos estadísticos hacen referencia a más de una variable. A veces queremos comparar las distribuciones de una misma variable referido a grupos distintos

Análisis de relaciones

Cuando se examinen la relación entre 2 o más variables, es conveniente realizar los siguientes planteos:

� ¿Qué individuos describen los datos?

� ¿Cuáles son las variables y como se miden?

� ¿Todas las variables son cuantitativas o existen al menos alguna variable categórica?

� ¿Se pretende explorar la naturaleza de la relación o se puede presumir que alguna de las variables explica o causa los cambios en otra variable?

Variable respuesta: mide el

resultado de una estudio

Variable explicativa: intenta

explicar los resultados observados

Diagrama de dispersión

� Un diagrama de dispersión muestra la relación entre 2 variables cuantitativas medidas para los mismos individuos

� Si una de las variables se puede considerar explicativa, es mejor representarla en el eje de las abcisas y a la variable respuesta en el eje de las ordenadas

Diagrama de dispersión-Interpretación

� Observar el aspecto general e intentar identificar su dirección, forma y la fuerza de la relación entre las 2 variables

Asociación positiva asociación y negativa

Recordemos que las observaciones atípicas se distinguen claramente del aspecto general del gráfico

� Un diagrama de dispersión muestra la dirección, forma y fuerza de la relación entre 2 variables cuantitativas.

� En particular, la correlación (r) mide la fuerza y la dirección de la relación lineal entre 2 variables cuantitativas

Correlación (r)

( ) ( )1

1 ( ) ( )i i

x y

x x y yr

n s s

− −=− ∑

r positiva indica asociación positiva

r negativo indica asociación negativa

r toma valores entre -1 y 1. si r=0 la relación lineal es muy débil, pero si es cercano a 1 o -1, los valores se acerca mucho a una recta.

Como r usa valores estandarizados no varia cuando cambian las unidades.

La correlación r no describe relaciones curvilíneas aunque éstas sean fuertes.

r se ve fuertemente afectada por observaciones atípicas, por lo que debe ser usado con precaución.

Definición previa…

� COVARIANZA- es una valor que indica el grado de variación conjunta de 2 variables aleatorias. Sirve para determinar si hay dependencia entre las variables y para calcular coeficiente de correlación o recta de regresión

Ejercicio1 5

2 10

3 15

4 20

5 38

6 30

7 35

8 40

9 45

10 50

11 55

12 55

13 65

14 70

15 90

16 80

17 85

18 90

19 60

Sean la siguiente tabla de datos.

Graficar la dispersión

Utilizando planilla electrónica calcular la correlación r entre los valores de ambas columnas.

Regresión mínimo cuadrática

La recta de regresión describe como cambia una variable y a medida que cambia una variable x. Para predecir un valor de y dado uno de x se utiliza una recta de regresión

A diferencia de la correlación, la regresión exige que tengamos una variable explicativa y una variable respuesta.

La regresión mínimo cuadrática es un método para hallar la recta que resuma la relación entre 2 variables.

Recta de regresiónmínimo-cuadrática

Diferentes personas dibujarían, razonablemente, diferentes rectas.

Ninguna recta pasará por todos los puntos, por lo que se intentará que pase por todos ellos tan cerca como sea posible.

La recta la utilizaremos para predecir y a partir de x.

y

ˆy y−

y

predicha

(distancia)

observada

La recta de regresión mínimo cuadrática de y en relación a x, es la recta que hace que la suma de los cuadrados de las distancias verticales de los puntos observados a la recta, sea mínima

y

ˆy y−

y

predicha

(distancia)

observada

y a bx= +a y bx= −

y

x

sb r

s=

� Con la recta calculada podemos predecir

� valor observado-valor predicho=error

Importante

Incluso una fuerte correlación no significa que exista una relación causa-efecto entre x e y