clase10set14
DESCRIPTION
Como establecer el numero de clases para un histogramaTRANSCRIPT
Regla de SturgesRegla práctica acerca para calcular el número de clases que deben considerar al hacer un histograma
Algunos conceptos para recordar de las clases pasadas…Cuando se hace un histograma, una manera de calcular la cantidad de clases es con la siguiente regla:
Recordar: La mediana es una medida robusta de tendencia central mientras que el promedio
no lo es ya que una medición muy grande o muy pequeña puede alterarlo
significativamente
Respecto del tema de las observaciones atípicas, es importante tener en cuenta ciertos conceptos…
Se puede aplicar el Criterio de Fourier para desechar los posibles valores atípicos…
3ix x σ− ≥ix
x
σ
i-ésima observación
promedio
Desviación estándar
5( )i
i
x M
med x M
−>
−
Otro criterio para detectar errores groseros (outliers)
Ejemplo
� La distribución de alturas de mujeres es aproximadamente normal con
1.64
0.06
m
m
µσ
==
Cual es la altura estandarizada?
Ejemplo
� La altura estandarizada de una mujer es el número de desviaciones estándar que su altura difiere de la media de la altura de todas las mujeres
Cual es la altura estandarizada de una mujer que mide 1.72 m?
Cual es la altura estandarizada de una mujer que mide 1.56 m?
Cálculos a partir de distribuciones normales
� El área por debajo de la curva de densidad es una proporción de observaciones de la distribución.
� Cualquier pregunta sobre que proporción de observaciones se encuentra en algún intervalo de valores se puede responder hallando el área por debajo de la curva en ese intervalo.
Ejercicio
� Que proporción de todas las mujeres miden menos de 1.72m?
1.72 1.641.33
0.06
xz
µσ− −= = =
� Busco el valor de la tabla que corresponde a 1.33
0.9082
Ejercicio
� Hallar la proporción de observaciones de la distribución normal estandarizada que son mayores a -2.15
Ejercicio
El nivel de colesterol en sangre es importante y se relaciona con el riesgo de enfermedades coronarias. La distribución del nivel de colesterol para una misma edad y sexo es aproximadamente normal. Para jóvenes de 14 años la media es 170 miligramos de colesterol por decilitro de sangre (mg/dl), y la desviación típica es 30 mg/dl. Niveles de colesterol superiores a 240 mg/dl pueden exigir atención médica. ¿Cúal es el porcentaje de jóvenes que pueden requerir esa atención?
¿Qué porcentaje de jóvenes tiene un nivel de colesterol entre 170 y 240 mg/dl?
Ejercicio
Las notas de una prueba de matemática tiene una distribución N(430,100)
Cual debe ser la nota de un alumno para pertenecer al 10% de alumnos que tienen mejor nota?
Ejercicio
Valoración de la normalidad
� La decisión de describir una distribución mediante una curva normal determina el análisis posterior de los datos
� ¿cómo juzgar que los datos son aproximadamente normales?
TEST DE KOLMOGOROV-SMIRNOV
� Compara la función de distribución acumulada de los datos con la de una distribución normal, midiendo la máxima distancia entre ambas curvas. Si la máxima distancia entre las curvas (estadístico unilateral de Kolmogorov-Smirnov, Dn+) es superior al valor crítico del test (dn+, α) la distribución de la muestra no es normal. El test de Kolmogorov-Smirnov otorga un peso menor a las observaciones extremas.
Análisis de relaciones
� La mayoría de los trabajos estadísticos hacen referencia a más de una variable. A veces queremos comparar las distribuciones de una misma variable referido a grupos distintos
Análisis de relaciones
Cuando se examinen la relación entre 2 o más variables, es conveniente realizar los siguientes planteos:
� ¿Qué individuos describen los datos?
� ¿Cuáles son las variables y como se miden?
� ¿Todas las variables son cuantitativas o existen al menos alguna variable categórica?
� ¿Se pretende explorar la naturaleza de la relación o se puede presumir que alguna de las variables explica o causa los cambios en otra variable?
Variable respuesta: mide el
resultado de una estudio
Variable explicativa: intenta
explicar los resultados observados
Diagrama de dispersión
� Un diagrama de dispersión muestra la relación entre 2 variables cuantitativas medidas para los mismos individuos
� Si una de las variables se puede considerar explicativa, es mejor representarla en el eje de las abcisas y a la variable respuesta en el eje de las ordenadas
Diagrama de dispersión-Interpretación
� Observar el aspecto general e intentar identificar su dirección, forma y la fuerza de la relación entre las 2 variables
Asociación positiva asociación y negativa
Recordemos que las observaciones atípicas se distinguen claramente del aspecto general del gráfico
� Un diagrama de dispersión muestra la dirección, forma y fuerza de la relación entre 2 variables cuantitativas.
� En particular, la correlación (r) mide la fuerza y la dirección de la relación lineal entre 2 variables cuantitativas
Correlación (r)
( ) ( )1
1 ( ) ( )i i
x y
x x y yr
n s s
− −=− ∑
r positiva indica asociación positiva
r negativo indica asociación negativa
r toma valores entre -1 y 1. si r=0 la relación lineal es muy débil, pero si es cercano a 1 o -1, los valores se acerca mucho a una recta.
Como r usa valores estandarizados no varia cuando cambian las unidades.
La correlación r no describe relaciones curvilíneas aunque éstas sean fuertes.
r se ve fuertemente afectada por observaciones atípicas, por lo que debe ser usado con precaución.
Definición previa…
� COVARIANZA- es una valor que indica el grado de variación conjunta de 2 variables aleatorias. Sirve para determinar si hay dependencia entre las variables y para calcular coeficiente de correlación o recta de regresión
Ejercicio1 5
2 10
3 15
4 20
5 38
6 30
7 35
8 40
9 45
10 50
11 55
12 55
13 65
14 70
15 90
16 80
17 85
18 90
19 60
Sean la siguiente tabla de datos.
Graficar la dispersión
Utilizando planilla electrónica calcular la correlación r entre los valores de ambas columnas.
Regresión mínimo cuadrática
La recta de regresión describe como cambia una variable y a medida que cambia una variable x. Para predecir un valor de y dado uno de x se utiliza una recta de regresión
A diferencia de la correlación, la regresión exige que tengamos una variable explicativa y una variable respuesta.
La regresión mínimo cuadrática es un método para hallar la recta que resuma la relación entre 2 variables.
Recta de regresiónmínimo-cuadrática
Diferentes personas dibujarían, razonablemente, diferentes rectas.
Ninguna recta pasará por todos los puntos, por lo que se intentará que pase por todos ellos tan cerca como sea posible.
La recta la utilizaremos para predecir y a partir de x.
y
ˆy y−
y
predicha
(distancia)
observada
La recta de regresión mínimo cuadrática de y en relación a x, es la recta que hace que la suma de los cuadrados de las distancias verticales de los puntos observados a la recta, sea mínima
y
ˆy y−
y
predicha
(distancia)
observada
y a bx= +a y bx= −
y
x
sb r
s=
� Con la recta calculada podemos predecir
� valor observado-valor predicho=error