01 - estadistica descriptiva2014
TRANSCRIPT
-
1n Teora: Yo, Federico [email protected]
n Clases Tericas: viernes cada 15 das, de 19:00 a 23:00.
n Prcticas: Carlos Piccinini.n Tres parciales, fechas tentativas: 24/6,
23/9, 25/11.
Probabilidad y EstadProbabilidad y Estadsticastica
Consideraciones generales
2
Bibliografa
n Montgomery, Runge: Probabilidad y Estadstica Aplicada a la Ingeniera.
n Canavos: Probabilidad y Estadstica.
n Meyer: Probabilidad y Aplicaciones Estadsticas.
-
3Metodologa de trabajo
n Con la teora que se da en clase alcanza para resolver todos los ejercicios.
n Consultar bibliografa no est de mas.n Las clases prcticas sirven como gua para
resolver los otros ejercicios.
Estudiar la teora
Resolver la prctica
4
Probabilidad y Estadstica
Presentacin y Objeto de la Materia
-
5Probabilidad y Estadstica
n Estudiar fenmeno aleatorios.n Describir y modelar la variabilidad.n Inferencia estadstica: obtener
conclusiones generales a partir de una muestra.
n Estadstica descriptiva: ordenar y sintetizar datos.
6
Cien registros del tiempo que tardan 3 CPU en realizar diferentes tareas.
Cul es ms rapido?
Cul es mejor?
-
7Duracin de cada erupcin y tiempo de espera entre ellas de ese geiser famoso. Hay dos variables medidas (duracin y tiempo de espera) y una indicadora (da en que fue tomada la medicin).Puede detectar algn patrn a simple vista?
Old Faithful
Son 222 mediciones
8
Diferentes variedades de trigo sembradas con o sin riego, y analizado su rinde. Regar hace la diferencia?Depende de la variedad?
-
9Rendimiento MaRendimiento Maz LB13 2007z LB13 2007
Datos de rendimiento y NDVI del lote LB13, maz, 2007. Ac la idea no es ver la distribucin de cada variable, sino ver que relacin hay entre ellas (si es que hay).
2302 Registros
10
Algunos nombres usados
n Poblacin objeto: de donde obtengo los datos.
n Variable: caracterstica de la poblacin objeto.
n Valor de variable: nmero o caracterstica correspondiente a una observacin.
n Poblacin estadstica: conjunto de todos los resultados posibles.
n Muestra: un subconjunto de la poblacin estadstica
-
11
Tipos de Variables
Variables a medir
Cualitativa
Cuantitativa
Ordinal (R, B, MB, E)
Cardinal (color predilecto)
Contar (discreta)
Medir (continua)
12
Inferencia
MuestraClculo de estadsticas
Inferencia sobre la poblacin
n Se va de lo particular a lo general.n Hay incertidumbre, posibilidad de error.n Medida de confiabilidad, en trminos de
probabilidad.
-
13
Deductivo vs Inductivo
n Deductivo: analizando los factores, uno deduce la relacin entre las variables.
n Inductivo: analizando los resultados, uno infiere la relacin entre las variables.
Analizando la estructura celular de un girasol (y muchos otros factores) uno podra deducir la relacin entre rinde y NDVI.
Comparando el rinde con el NDVI en varios lotes, uno podra inferir la relacin entre ellos.
14
Modelos determinsticos
n Se puede predecir con exactitud el resultado de un experimento
F = maPermite calcular exactamente la aceleracin de una partcula de masa m sometida a una fuerza F.
-
15
Modelos probabilsticos
n Se puede predecir la frecuencia relativa con la cual ocurren los diferentes resultados.
Si tiramos un dado honesto muchas veces, aproximadamente un sexto de las veces va a salir 1.
16
Pasos de una investigacin estadstica
n Planteo de objetivos / Diseo de experimento.
n Diseo muestral.
n Anlisis exploratorio de datos.
n Inferencia estadstica.
Lo hace el investigador, que es quien sabe lo que quiere.
Muy difcil, otra historia.
Aqu se utilizan los mtodos de estadstica descriptiva.
Se elaboran las conclusiones con cierta medida de confianza o certeza.
-
17
Estadstica Descriptiva
n Diagrama de puntos
n Tallo y hojan Histograma / tabla
de frecuencias relativas
n Polgonos de frecuencia relativa / acumulada
n Box Plot
Mtodos Grficos Medidas Numricasn Median Medianan Cuartiles
n Rangon Rango intercuartiln Varianzan MADn Coeficiente de Variacin
n Percentilesn Modan Mximo y mnimo
n Diagrama de dispersin n Coeficiente de correlacinVarias Variables
18
Estadstica Descriptiva
n Tcnicas grficas y numricas para resumir informacin
n Presentar los datos para que sobresalga su estructura
n Detectar caractersticas sobresalientes e inesperadas
n Tambin llamado Anlisis Exploratorio de Datos
-
19
Datos de ejemplo
9587797365
9384787165
9284787164
8883777063
8881756361
25 mediciones de ruido (en Decibeles, dB) de motos circulando por la ciudad.
Usaremos para ejemplificar los siguientes datos:
20
Estadstica Descriptiva
n Diagrama de puntos
n Tallo y hojan Histograma / tabla
de frecuencias relativas
n Polgonos de frecuencia relativa / acumulada
n Box Plot
Mtodos Grficos Medidas Numricasn Median Medianan Cuartiles
n Rangon Rango intercuartiln Varianzan MADn Coeficiente de Variacin
n Percentilesn Modan Mximo y mnimo
n Diagrama de dispersin n Coeficiente de correlacinVarias Variables
-
21
Diagrama de puntos
60 70 80 90 100
Colocar un puntito por cada dato sobre una recta numerada. Para los datos del ejemplo queda as:
22
Diagrama de puntos de 100 mediciones tiempos CPU A, B y C
Diagrama de puntos
-
23
787164777063756361
Diagrama tallo/hoja
n Si las observaciones tienen varios dgitos, separamos cada observacin en dos partes: tallo (dgitos de la izquierda) y hojas (dgitos de la derecha).
n Se anotan en una tabla hasta agotar los datos.
tallo hoja
6
7
1 3
0
24
Diagrama tallo/hoja
n Para este ejemplo se eligi la unidad como hoja y la decena como tallo.
n Dicha eleccin depende del sentido comn.
95877973659384787165928478716488837770638881756661Tallo Hoja
-
25
Diagrama tallo/hoja
TalloTallo
HojaHoja
Por ah esta es una mejor eleccin.
Esta definitivamente es una mala eleccin.
26
Ejemplos en Minitab 15
Nuestros datos El del CPU A de los datos de velocidad (100 registros)
-
27
n Rango de las observaciones.n Forma de la distribucin.n Posicin del centro y dispersin.n Datos extremos, desviaciones marcadas.
En este grfico observamos:
No hay perdida de informacin
Diagrama tallo/hoja
28
Histograma
n Es el tpico grfico de barras.n Se divide el rango total de los datos en
intervalos llamados clases. El centro se llama marca de clase.
n La cantidad de observaciones en cada clase se llama frecuencia absoluta.
n Sobre cada clase se grafica un rectngulo de reaproporcional a la frecuencia de la clase.
-
29
Histograma
hi = fibi
rea fi
Clase i, de ancho biMarca de la clase i
l0 l1 l2 l3 li-1 li lk-1 lk
hk
h1
hi
h2
h3
[ )[ ) [ ) [ ) [ ). . . . . . . . . .
. . . . . . . . . .
xix1
30
n Necesaria para construir el histograma, resume la informacin numrica.
Tabla frecuencias acumuladas
fi = ni n
Notacin mas o menos universal:
n = cantidad de datos, que se dividen en kclases. La clase i es [li 1 , li), tiene longitud biy marca de clase xi. La clase i tiene ni datos (frecuencia absoluta), y frecuencia relativa
-
31
.....
1(nk / n)= fkn1 ++ nknk[lk-1 ,lk)..... .....
f1 + f2(n2 / n)= f2n1 + n2n2[l1 , l2)f1(n1 / n)= f1n1n1[l0 , l1)
Relativa acumulada
Frecuencia relativa fi
Frecuencia acumulada
Frecuenciani
Clase
n
Tabla frecuencias acumuladas
32
0.960.08242[90,95)
0.600.20155[75,80)0.400.16104[70,75)
10.04251[95,100)
0.880.12223[85,90) 0.760.16194[80,85)
0.240.1263[65,70)0.120.1233[60,65)
Relativa acumulada
Frecuencia relativa fi
Frecuencia acumulada
Frecuenciani
Clase
Con nuestros datos: 8 clases de longitud 5
-
33
Histograma - Tabla de Frecuencias
n Entre 5 y 15 clases, usar sentido comn.n Salvo excepciones, clases de igual longitud.n Como altura de la clase i tomar
hi = fibi
para que en el grfico el rea sea (proporcional a) la frecuencia relativa.
n Cuando las clases son todas de longitud b, tomar hi = fi /b.
34
Histograma
hi = fib
rea fi
Todas las clases de ancho b
h3
hk
h1
hi
h2
. . . . . . . . . .
[ )[ ) [ ) [ ) [ ). . . . . . . . . . l0 l1 l2 l3 li-1 li lk-1 lk
fk
f1
fi
f2
f3
En la prctica depende de la escala de los ejes, importa solo para comparar grficos.
-
35
Basado en la tabla de frecuencias de nuestros datos de ejemplo. Hecho en Infostat.
Histograma
3697.590.082.575.067.560.0
0.05
0.04
0.03
0.02
0.01
0.00
Ruido dB
De
nsid
ad
Histograma de Ruido dB
10090807060
0.05
0.04
0.03
0.02
0.01
0.00
Ruido dB
Den
sida
d
Histograma de Ruido dB
Misma rea
Bien hechos, con Minitab, para poder comparar si uno subdivide las clases y/o agrega mediciones
-
37
Tabla de frecuencias e histograma del CPU A de los datos de velocidad (100 registros), hecho con Infostat.
38
Polgono de Frecuencias
f3
f1
fi
f2
. . . . .
[ )[ ) [ ) [ ) [ ). . . . . l0 l1 l2 l3 li-1 li lk-1 lk
[ )[ ) [ )
n Une las marcas de clase.n El rea debajo del polgono es igual a la
suma del rea de los rectngulos.
-
39
La lnea roja es el polgono de frecuencias para nuestros datos (hecho a mano).
40
Histograma
n Rango de las observaciones.n Forma de la distribucin.n Posicin del centro y dispersin.n Datos extremos, desviaciones marcadas.n Mas adecuado que tallo-hoja cuando hay
muchos datos (resumen grande).
En este grfico observamos:
Hay perdida de informacin !!
-
41
Simtrico acampanado Asimetra a izquierda
Asimetra a derecha Mala eleccin de escala o no hay patrn (o tri-modal).
42
Uniforme Bi-modal
Bi-modal
-
43
Polgono de frecuencias acumuladas
Unir los extremos de cada clase con un segmento, como sugiere el dibujo. Se usa para dividir datos en proporciones.
l0 l1 l2 l3 lj-1 lj lk-1 lk
f1+f2
1
f1
f1+f2 +f3
f1++ fk-1
f1++ fj-1
f1++ fj
[ )[ ) [ ) [ ) [ ). . . . . . . . . .
44
As queda con nuestros datos de ejemplo, hecho a mano.
Polgono de frecuencias acumuladas
-
45
0.960.08242[90,95)
0.600.20155[75,80)0.400.16104[70,75)
10.04251[95,100)
0.880.12223[85,90) 0.760.16194[80,85)
0.240.1263[65,70)0.120.1233[60,65)
Relativa acumulada
Frecuencia relativa fi
Frecuencia acumulada
Frecuenciani
Clase
Con nuestros datos: 8 clases de longitud 5
46
As lo hace Minitab, y lo llama Distribucin Acumulada. Esto es muy importante para lo que sigue.
10090807060
1.0
0.8
0.6
0.4
0.2
0.0
Ruido dB
Prob
abili
dad
CDF emprica de Ruido dB
-
47
As lo hace Infostat, y lo llama Grfica de Distribucin Emprica. No muy bueno, faltara la curva.
48
Estadstica Descriptiva
n Diagrama de puntos
n Tallo y hojan Histograma / tabla
de frecuencias relativas
n Polgonos de frecuencia relativa / acumulada
n Box Plot
Mtodos Grficos Medidas Numricasn Median Medianan Cuartiles
n Rangon Rango intercuartiln Varianzan MADn Coeficiente de Variacin
n Percentilesn Modan Mximo y mnimo
n Diagrama de dispersin n Coeficiente de correlacinVarias Variables
-
49
Medidas numricas
n Son valores numricos que resumen la informacin de los datos.
n De posicin o tendencia central, y de dispersin.
n Denotaremos los n datos comox1, x2,,xn
50
n Median Medianan Cuartilesn Percentilesn Modan Mximo y mnimo
n Rangon Rango intercuartiln Varianzan MADn Coeficiente de
Variacin
Medidas de tendencia central
Medidas de variabilidad
-
51
Media x
n Es el promedio de los datos.n Punto de equilibrio en el grfico de puntos.n Frmula para el clculo:
n Es sensible a valores extremos.n Existe la media de la poblacin, , que en
general es desconocida.
52
En nuestros datos,
60 70 80 90 100
Si cambiamos el ltimo dato de 95 a 595 queda
97.24
-
53
Mediana xn Divide los datos ordenados en dos grupos
iguales.n Al menos 50% de los datos que x, al
menos 50% de los datos x.n Frmula para el clculo:
Recordar datos ordenados: x1 x2 xn
n Robusta, no es sensible a valores extremos.
54
Nuestros datos ordenados:
61 63 64 65 65 66 70 71 71 73 75 7778 78 79 81 83 84 84 87 88 88 92 93 95
n = 25 impar, entonces
x = x13 = 78
Si cambiamos el ltimo dato de 95 a 595 queda
78
-
55
n Cuando n es par, cualquier valor numrico entre xn/2 y x(n+1)/2 divide la muestra en dos.
n Por convencin se toma el promedio:
n Relacin aproximada entre media y mediana
56
n Generalizacin de la mediana, divide los datos ordenados.
n Cuartil q1: al menos 25% de los datos que q1, al menos 75% de los datos q1.
n Cuartil q2 = mediana.n Cuartil q3: al menos 75% de los datos
que q3, al menos 25% de los datos q3.
Cuartiles
-
57
n Generalizacin de cuartiles, divide los datos ordenados.
n Si 0 < k < 1, el pk- percentil deja: al menos 100k% de los datos que pk, y al menos 100(1 k)% de los datos pk.
n Frmula: si x1 x2 xn , entonces
Percentiles
donde j es el menor entero mayor que nk.
58
1 2 nk nk+1 n
nk datos n(1 k) datos
Si nk es entero:
1 2 j -1 j n
menos de nk datos menos de n(1 k) datos
Si nk no es entero:
nk
-
59
n Si k = 0.25 queda el primer cuartilp0.25 = q1
n Si k = 0.75 queda el tercer cuartilp0.75 = q3
60
Nuestros datos ordenados:
61 63 64 65 65 66 70 71 71 73 75 7778 78 79 81 83 84 84 87 88 88 92 93 95
25 x 0.25 = 6.25, entonces q1 = x7 = 70
25 x 0.75 = 18.75, entonces q3 = x19 = 84
Si tomamos k = 0.2, 25 x 0.2 = 5, entonces p0.2 = 65.5
-
61
n Moda: dato que mas se repite. Pueden ser dos (datos bimodales) o mas.
n Mximo y mnimo: mayor y menor dato.
Otras medidas de posicin
Nuestros datos ordenados:61 63 64 65 65 66 70 71 71 73 75 7778 78 79 81 83 84 84 87 88 88 92 93 95
n No tiene sentido hablar de moda (hay 5 valores que se repiten dos veces).
n Mx = 95, y mn = 61.
62
Estadstica Descriptiva
n Diagrama de puntos
n Tallo y hojan Histograma / tabla
de frecuencias relativas
n Polgonos de frecuencia relativa / acumulada
n Box Plot
Mtodos Grficos Medidas Numricasn Median Medianan Cuartiles
n Rangon Rango intercuartiln Varianzan MADn Coeficiente de Variacin
n Percentilesn Modan Mximo y mnimo
n Diagrama de dispersin n Coeficiente de correlacinVarias Variables
-
63
Varianzan Promedio del cuadrado de las desviaciones
de la media.n Frmula para el clculo:
n El desvo estndar es:
n Tiene las mismas unidades que los datos
n Es sensible a datos extremos.
64
n Existe la varianza de la poblacin, 2, que en general es desconocida.
n Frmulas alternativas para s2:
-
65
En nuestros datos,
Si cambiamos el ltimo dato de 95 a 595 queda
10853
66
M.A.D.
n Es a la varianza como la mediana a la media.
n Robusta, no sensible a valores extremos.
n Para datos x1, x2,,xn , definir
entonces
-
67
En nuestros datos: ordenados les restamos
61 63 64 65 65 66 70 71 71 73 75 77 78 78 79 81 83 84 84 87 88 88 92 93 95
Ordenamos, y como n = 25 la mediana es el dato 13:
x = 78 y anotamos el valor absoluto
Si cambiamos el ltimo dato de 95 a 595 queda
MAD = 8
17 15 14 13 13 12 8 7 7 5 3 1 0 0 1 3 5 6 6 9 10 10 14 15 17
0 0 1 1 3 3 5 5 6 6 7 7 8 9 10 10 12 13 13 14 14 15 15 17 17
8
68
Coeficiente de variacin
n Mide el tamao de la varianza en trminos de la media.
n Sirve para comparar diferentes mediciones.n En ocasiones se expresa porcentualmente,
multiplicado por 100
En nuestros datos,
-
69
n Rango: R = Mx mn.n Rango intercuartil: d = q3 q1.
Otras medidas de variabilidad
Nuestros datos:
Mx = 95 mn = 61
q1 = 70 q3 = 84
n R = 95 61 = 34.n d = 84 70 = 14.
70
Estadsticas de nuestros datos calculadas con Infostat.
Estadsticas del tiempo CPU A calculadas con Infostat.
-
71
Estadstica Descriptiva
n Diagrama de puntos
n Tallo y hojan Histograma / tabla
de frecuencias relativas
n Polgonos de frecuencia relativa / acumulada
n Box Plot
Mtodos Grficos Medidas Numricasn Median Medianan Cuartiles
n Rangon Rango intercuartiln Varianzan MADn Coeficiente de Variacin
n Percentilesn Modan Mximo y mnimo
n Diagrama de dispersin n Coeficiente de correlacinVarias Variables
72
Grafico caja-bigote (box-plot)
n Grafico simple que junta las medidas resumen.
n Sirve para comparar conjuntos de datos.
q1 q3
xmin q1 1.5d
Outlierscercanos q3+3d
Max q3 + 1.5d
Outlierscercanos > q3+3dx
d
-
73
n Rango de las observaciones.n Forma de la distribucin, asimetras.n Posicin del centro y dispersin.n Datos extremos, desviaciones marcadas.n Tiende a esconder datos bimodales.
En este grfico observamos:
Grafico caja-bigote (box-plot)
74
En nuestros datos,
-
75
Relacin box-plot vs histograma
76
Box-plot paralelos para comparar tres conjuntos de datos.
-
77
Estadstica Descriptiva
n Diagrama de puntos
n Tallo y hojan Histograma / tabla
de frecuencias relativas
n Polgonos de frecuencia relativa / acumulada
n Box Plot
Mtodos Grficos Medidas Numricasn Median Medianan Cuartiles
n Rangon Rango intercuartiln Varianzan MADn Coeficiente de Variacin
n Percentilesn Modan Mximo y mnimo
n Diagrama de dispersin n Coeficiente de correlacinVarias Variables
78
Diagrama de Dispersin
Es un grfico para estudiar la relacin entre dos magnitudes, medidas simultneamente de cada sujeto (por ejemplo, altura y peso). Si tenemos n sujetos, obtendremos
1 1( , ),..., ( , )n nx y x y
n pares de datos. Se grafica una variable contra la otra en un plano cartesiano.
-
79
n Cigarrillos Capacidad pulmonar
1 0 452 5 423 10 334 15 315 20 29
Capa
cida
d pu
lmon
ar
Cigarrillos
Diagrama de Dispersin
Grfico de Nro. de cigarrillos vs capacidad pulmonar
80
Diagrama de Dispersin
Duracin vs tiempo de espera, archivo Old Faithful (222 registros), hecho con Infostat.
-
81
Diagrama de Dispersin
Ejemplo de cosas que se suelen ver:
82
Diagrama de DispersinTambin existen en 3D, para estudiar la relacin entre tres magnitudes
-
83
Covarianza/Correlacin Muestral
1
1( , ) ( )( )1
n
xy i ii
Cov x y s x x y yn =
= = - --
1 1( , ),..., ( , )n nx y x y
2 2
1
1 ( )1
n
x ii
s x xn =
= --
2 2
1
1 ( )1
n
y ii
s y yn =
= --
1
1 ni
ix x
n ==
1
1 ni
iy y
n ==
xyxy
x y
sr
s s=
Definicin: Si tenemos n pares de datos
la covarianza y el coeficiente de correlacin muestrales se definen como
donde:
y
84
1 1 1
1 11
n n n
xy i i i ii i i
s x y x yn n= = =
= - -
( )( )( ) ( )
1 1 1
2 22 2
1 1 1 1
n n ni i i ii i i
n n n ni i i ii i i i
n
n nxy
x y x y
x x y yr = = =
= = = =
-=
- -
Para hacer los clculos manualmente se usan las siguientes frmulas:
Covarianza/Correlacin Muestral
Se suele llamar Coeficiente de Correlacin de Pearson.
-
85
n Toma valores entre 1 y 1 ( 1 rxy 1)n Mide la relacin lineal entre x e yn rxy prximo a 0 implica que no hay relacin
linealn rxy prximo a 1 implica relacin lineal crecienten rxy prximo a 1 implica relacin lineal
decrecienten Es independiente de las magnitudes de las
variables
Covarianza/Correlacin Muestral
Ms adelante veremos que el coeficiente de correlacin satisface:
86
Covarianza/Correlacin Muestral
r=-0,50
102030405060708090
140 150 160 170 180 190 200
r=-0,70
10203040
50607080
140 150 160 170 180 190 200
r=-0,9990
10203040
50607080
140 150 160 170 180 190 200
r=0,630405060708090
100110
140 150 160 170 180 190 200
r=0,130
80
130
180
230
280
330
140 150 160 170 180 190 200
r=0,830
40
50
60
70
80
90
100
140 150 160 170 180 190 200
-
87
Duracin vs tiempo de espera, archivo Old Faithful(222 registros), hecho con Infostat.
Covarianza/Correlacin Muestral
88
nn Ejemplo: Investigar la relaciEjemplo: Investigar la relacin entre n entre cantidad de cigarrillos y capacidad cantidad de cigarrillos y capacidad pulmonarpulmonar
nn Datos: Muestra de 5 pacientes con Datos: Muestra de 5 pacientes con diferente hdiferente hbito de fumar (cantidad de bito de fumar (cantidad de cigarrillos por dcigarrillos por da durante cierta cantidad a durante cierta cantidad de ade aos) a los cuales se les mide la os) a los cuales se les mide la capacidad pulmonarcapacidad pulmonar
Fumar vs Capacidad Pulmonar
-
89
n Cigarrillos(X )
Capacidad
pulmonar
(Y)1 0 452 5 423 10 334 15 315 20 29
Capa
cida
d pu
lmon
ar (
Y)Cigarrillos (X)
Fumar vs Capacidad Pulmonar
10X = 36Y =
90
nn Se observa que a medida que crece la Se observa que a medida que crece la cantidad de cigarrillos, decrece la cantidad de cigarrillos, decrece la capacidad pulmonar. capacidad pulmonar.
nn Las variables Las variables covariancovarian inversamente.inversamente.n La covarianza (media del producto de las
desviaciones) y el coeficiente de correlacin cuantifican esta relacin.
Fumar vs Capacidad Pulmonar
-
91
X Y 0 10 90 9 455 5 30 6 4210 0 0 3 3315 5 25 5 3120 10 70 7 29
= 215
( ) ( )X X Y Y- - ( )Y Y- ( )X X-
Fumar vs Capacidad Pulmonar
1 ( 215) 53.754xy
S = - = -Entonces
Clculo de cov(X,Y):
92
X X 2 XY Y 2 Y 0 0 0 2025 455 25 210 1764 4210 100 330 1089 3315 225 465 961 3120 400 580 841 29
= 50 750 1585 6680 180
Fumar vs Capacidad PulmonarClculo de rXY:
( )( )2 25(1585) 50(180) 7925 9000
(3750 2500)(33400 32400)5(750) 50 5(6680) 180xyr
- -= =
- -- -
1075 0.9615(1250)(1000)
-= = -
( )( )( ) ( )
1 1 1
2 22 2
1 1 1 1
n n ni i i ii i i
n n n ni i i ii i i i
n
n n
x y x y
x x y y
= = =
= = = =
-
- -
-
93
n rxy = = 0.960.96 implica casi con certeza implica casi con certeza que fumar disminuye la capacidad que fumar disminuye la capacidad pulmonarpulmonar
nn A mayor cantidad de cigarrillos, mayor A mayor cantidad de cigarrillos, mayor perdida de capacidad pulmonarperdida de capacidad pulmonar
0.96xyr = -
Fumar vs Capacidad PulmonarConclusin:
94
Estadstica DescriptivaCasos particulares
n Histogramas con clases desigualesn Datos agrupados
-
95
Histograma con clases desiguales
n Hay casos donde no se puede tomar clases de igual tamao, por ejemplo si nos dan los datos agrupados.
n Lo importante es que el rea de cada rectngulo debe ser proporcional a la frecuencia relativa.
rea
fi
bi
hi
hi = fibi
96
n La siguiente tabla tiene las notificaciones de casos de Rubola en ao 2000 (fuente: SINAVE).
n Se realiza (errneamente) un histograma tomando como altura la frecuencia relativa
-
97
Pareciera que la mayora de los enfermos tiene entre 15 y 50 aos
98
7.77 = 23.3 / 3
Ancho 3
-
99
Datos agrupados
n A veces no hay acceso a los datos, solo a las clases, frecuencias, total de mediciones.
n Las estadsticas se calculan tomando las clases como datos.
100
-
101l0 l1 l2 l3 lj-1 lj lk-1 lk
f1+f2
1
f1
f1+f2 +f3
f1++ fk-1
0.5f1++ fj-1
f1++ fj
Polgonos de frecuencias acumuladas
x[ )[ ) [ ) [ ) [ ). . . . . . . . . .
102
21e
Para encontrar la mediana, se plantea la siguiente igualdad utilizando proporcin de tringulos, y se despeja